Willkommen zu unserem Webinar: Arkville PCIe Gen4 Data Movement mit Intel FPGAs. Ich bin Marcus von BittWare.
Lassen Sie mich kurz unsere Referenten vorstellen und erläutern, worüber sie sprechen werden.
Der erste Redner ist Jeff Milrod, Chief Technical and Strategy Officer bei BittWare. Er wird die BittWare-Produktlinie mit Agilex FPGAs vorstellen und ein wenig über IP-Partner und Lösungen bei BittWare sprechen.
Als nächstes wird sich Tom Schulte von Intel auf die Intel Agilex FPGAs konzentrieren, einschließlich einiger der kommenden Funktionen für die Datenübertragung.
Zum Abschluss sprechen wir mit Shep Siegel von Atomic Rules. Shep wird uns durch Arkville führen, einschließlich einer Demo der Gen4 x16 Datenbewegung auf der IA-840F Karte von BittWare mit einem Intel Agilex FPGA.
Danach bin ich wieder da, um Ihre Fragen live zu beantworten.
Jetzt ist es an Jeff, uns den Anfang zu machen!
Jeff Milrod | Vorstand für Technik und Strategie, BittWare
Hallo zusammen. Danke, dass Sie heute bei uns sind. Wie Marcus gerade sagte, ist mein Name Jeff Milrod und ich bin Chief Technology and Strategy Officer hier bei BittWare. Für diejenigen unter Ihnen, die uns noch nicht kennen: BittWare ist Teil von Molex. Genauer gesagt, sind wir eine Geschäftseinheit innerhalb der Datacom and Specialty Solutions Group. Als Teil von Molex haben wir, wie Sie hier auf dieser Folie sehen können, Zugang zu einer eigenen Fertigung und globalen Logistikkapazitäten.
BittWare verfügt nun über mehr als 30 Jahre FPGA-Erfahrung und Know-how in einer Vielzahl von Märkten. In dieser Zeit haben wir unser Angebot nicht nur um FPGA-Hardwareplattformen der Unternehmensklasse erweitert, sondern auch um Systemintegration, Tool-Support, Referenzdesigns und Anwendungs-IP, die es unseren Kunden ermöglichen, ihre Lösungen schnell und mit geringem Risiko einzusetzen. Wir sind Teil des Intel Partner Alliance Programms und haben in den letzten 20 Jahren High-End-FPGA-Beschleuniger und Boards entwickelt, die jede Generation von Altera- und Intel-FPGAs enthalten.
Unsere Mischung aus Tradition, Fachwissen und globaler Reichweite über Molex qualifiziert BittWare in einzigartiger Weise, Kunden die Nutzung und den Einsatz von FPGA-Technologie zu ermöglichen, um ihre anspruchsvollen Anwendungen und Workloads zu bewältigen. Im weitesten Sinne zielen die Beschleunigungsplattformen von BittWare auf vier verschiedene Anwendungen und Marktbereiche ab, die hier dargestellt sind: Rechen-, Netzwerk-, Speicher- und Sensorverarbeitung. Jede dieser Anwendungen und Märkte ist komplex und deckt eine Vielzahl von Arbeitslasten ab; wir zeigen hier einige Beispiele.
Ich persönlich bin seit Jahrzehnten bei BittWare, und in dieser Zeit haben wir uns darauf konzentriert, die führende Welle von FPGA-Beschleunigern zu reiten, indem wir solide Hardware-Plattformen liefern, die es den Menschen ermöglichen, beschleunigte Lösungen zu entwickeln und einzusetzen. Der Agilex wird unsere siebte Generation von Altera/Intel-basierten FPGA-Lösungen sein, und ich kann mich nicht erinnern, in dieser Zeit jemals so begeistert von einer neuen Technologie-Generation gewesen zu sein, wie ich es von Agilex bin.
Das sind wirklich fähige Engines, die meiner Meinung nach einen Leistungssprung gemacht haben und es uns ermöglichen werden, unsere Benutzer in die Lage zu versetzen, weitaus mehr Anwendungen und Arbeitslasten zu beschleunigen, als dies in der Vergangenheit der Fall war. Die erste Welle der Agilex-FPGAs von Intel ist die F-Serie, die BittWare zur Herstellung der hier gezeigten Produktfamilie mit dem treffenden Namen F-Serie genutzt hat. In Zukunft werden wir Teile der I-Serie und der M-Serie auf den Markt bringen... wir werden gleich darüber sprechen.
Unser Vorzeigeprodukt ist der links abgebildete IA-840f. Es ist mit dem größten derzeit verfügbaren Agilex ausgestattet: dem AGF027. Es handelt sich um eine Karte in GPU-Größe, die über PCIe Gen4 x16 verfügt. Wir haben also die größte Bandbreite vom FPGA zum Host, die derzeit weltweit verfügbar ist.
Wir haben drei QSFP-DDs an der Vorderseite, mit denen wir sechs Lanes für 100 GbE implementieren können; sie können auch für andere Formate verwendet werden. Die vier DDR4-Bänke... wir haben Erweiterungsanschlüsse auf der Rückseite - 16 Lanes - die es uns ermöglichen, Dinge wie Speicher-Arrays... andere Geräte anzuschließen... und die Board-to-Board zur Erweiterung der Kommunikation verwendet werden können.
Wir haben unseren Board Management Controller, der ein wichtiger Bestandteil des Mehrwerts ist, den wir der Hardware-Plattform bieten. Und natürlich haben wir Unterstützung für die erstklassigen Tools von Intel, einschließlich oneAPI.
Auf der rechten Seite sehen Sie zwei Karten, die eher für Spezialanwendungen gedacht sind. Die IA-420F ist eine Karte in NIC-Größe, die unter anderem für SmartNICs verwendet werden kann... computergestützte Speicher-Arrays, computergestützte Speicherverarbeitung, Funkzugangsnetzwerke... es gibt eine Vielzahl von Anwendungen für diese kleinere Karte.
Und ganz rechts haben wir unser IA-220-U2, das ein U.2-SSD-Laufwerkformat hat. Es zielt also besonders auf rechenintensive Speicherverarbeitungsanwendungen ab.
Alle diese Boards - und alle Hardware-Boards von BittWare - basieren auf unserer unternehmensgerechten Grundlage. Damit meinen wir eine gut definierte, stabile und vertrauenswürdige Plattform, die Risiken reduziert und mindert.
Weil wir uns die Zeit genommen haben, extrem umfassend und gründlich zu sein, alle Vorschriften und Zertifizierungen einzuhalten, die Konfigurationen streng zu verwalten und zu kontrollieren, eine klare und präzise Dokumentation zu erstellen, funktionierende Demos und Software-Tools für den Zugriff bereitzustellen, verfügen wir über umfangreiche Support-Möglichkeiten. In der rechts dargestellten Enterprise Class-Kategorie ist jedes dieser Produkte eine höhere Stufe mit mehreren darunter liegenden Checklisten, die wir implementieren und rigoros validieren, bevor wir die Boards in voller Produktionsqualität freigeben, die nun vertrauenswürdig und stabil sind.
Unser Application Solution Enablement Team arbeitet hart an der Entwicklung von Abstraktionen auf höherer Ebene über der Hardware, um viele Details und Besonderheiten zu behandeln, die innerhalb des FPGAs implementiert werden müssen, was ich als Gateware-Entwicklung bezeichne, und die Software auf dem Host, um mit diesen Gateware-Elementen zu kommunizieren.
Dies ist ein Beispiel für einige der White Papers, Fallstudien, Beispiele und Referenzdesigns, die wir auf unserer Website zur Verfügung stellen. Es gibt noch mehr, wenn Sie einen Blick darauf werfen.
Diese IP-Roadmap für Plattform-Enablement ist entscheidend für den Wert, den BittWare den Agilex-FPGAs hinzufügt. Unser übergeordnetes Ziel ist es, PCIe-, Ethernet- und NVMe-Infrastrukturen bereitzustellen, mit denen Kunden zu kämpfen haben, und diese Probleme zu beseitigen.
Wir arbeiten sowohl mit wichtigen Drittanbietern als auch mit unseren internen Entwicklern zusammen, um erstklassige Implementierungen wie Arkville und den DPDK Data Mover, über den Atomic Rules in einer Minute sprechen wird, auf den Markt zu bringen. Dies ist eine Auflistung all der Dinge, an denen wir derzeit arbeiten und die im Laufe des nächsten Jahres auf den Markt kommen werden, während wir unsere Agilex-Plattformen weiterentwickeln.
Vor Jahren verkauften wir FPGAs, die wir liebevoll Blanko-FPGAs oder manchmal auch nur Bare Metal nannten. Unsere Kunden haben sich dann viel Zeit genommen und diese Kundenanwendungs-IP entwickelt, die dann den gesamten FPGA beansprucht hat. Und wir denken immer noch so... und die Leute neigen dazu, an all die Arbeit an diesem Kernel oder an der Arbeitslast zu denken, die auf dieses FPGA übertragen werden muss, aber am Ende stellen wir fest - da FPGAs immer größer, komplexer, ausgefeilter und leistungsfähiger werden - dass die Implementierungen auf unterer Ebene, die die Speicher, Sensoren, Netzwerke, Erweiterungs-E/A mit der Host-Kommunikation verbinden, der Board-Management-Controller, die Systemintegration: diese Dinge verbrauchen immer mehr Design-Ressourcen und Fähigkeiten.
Ich nenne das "Plumbing", und unser Gateware-Plumbing ist ein wichtiger Teil des Mehrwerts, den wir mit diesen Anwendungslösungen auf diesen hochentwickelten FPGAs bieten, damit unsere Kunden sich nicht mit all den blutigen Details der Hardware auf dem FPGA, dem I/O, dem letzten Mikron, wie ich es nenne, beschäftigen müssen, sondern mehr mit der Board-Level-Implementierung der BittWare-Hardware.
Natürlich bieten wir all das an - wenn die Kunden das selbst machen wollen, ist das in Ordnung -, aber wir haben das alles bereits erledigt und als Teil unserer Plattform der Unternehmensklasse bewiesen, so dass es bei der einzigartigen Anwendungs-IP unserer Kunden mehr um ihre spezielle geheime Soße und den einzigartigen Mehrwert für diese Arbeitslast und Anwendung geht, als um all die zusätzlichen Komplikationen, die es braucht, um vom Kernel zum Speicher... zum Host... vom Netzwerk... all diese Dinge erledigen wir für Sie.
Eines der besten Beispiele dafür ist Atomic Rules und ihr Arkville DPDK Datenmover für den Host, bei dem wir jetzt eine absolut erstklassige Leistung und CPU-Entlastung mit dieser Engine gesehen haben. Wir werden gleich darüber sprechen. Bevor wir Shep dazu kommen lassen, halte ich es jedoch für angebracht, eine bessere Grundlage für dieses Agilex-FPGA und die Angebote, die Intel auf den Tisch bringt, zu schaffen. Damit übergebe ich das Wort an Tom. Ich danke Ihnen allen sehr herzlich.
Thomas M. Schulte | Product Line Mgr., FPGA-Produkte, Intel® Programmable Solutions Group
Danke, Jeff. Wie Jeff vor ein paar Folien erwähnt hat, basieren die neuen BittWare-Beschleunigerkarten in Produktionsqualität auf Intels neuesten Agilex-FPGAs. Hier werden einige der wichtigsten Merkmale der Agilex-Familie hervorgehoben.
Die Bausteine basieren auf der zweiten Generation der Intel Hyperflex™-Architektur und Intels 10nm SuperFin-Prozesstechnologie, die beide im Vergleich zur vorherigen Generation der Intel-FPGAs, aber auch im Vergleich zu den 7nm-FPGAs der Wettbewerber deutliche Leistungssteigerungen und Energieeinsparungen gezeigt haben.
Ich werde in diesem Webinar nicht auf alle diese Funktionen eingehen, sondern mich stattdessen auf die neuen verfügbaren CPU-Schnittstellenprotokolle PCI Express Gen5 und Compute Express Link, allgemein als CXL abgekürzt, konzentrieren.
Für ausgewählte Mitglieder der Intel Agilex-Familie unterstützen diese Geräte die volle Bandbreite von PCI Express, konfiguriert auf bis zu x16 Lanes pro Port, was im Vergleich zu gleich konfigurierten Gen4-Geräten eine doppelt so hohe Bandbreite bietet.
Für beschleunigte Anwendungsfälle und Workloads, die keine kohärente Schnittstellenverbindung zurück zur Host-CPU benötigen, ist PCI Express der branchenweite Standard für Hochleistungsanwendungen und wird auch weiterhin ein wichtiger Baustein für FPGA-basierte Beschleuniger sein.
Für ausgewählte Mitglieder der Intel Agilex FPGAs unterstützen diese Geräte die volle Bandbreite des CXL-Protokolls. Wiederum bis zu x16 Lanes pro Port, was im Vergleich zum PCI Express-Protokoll eine geringere Latenz und eine kohärente Schnittstelle bietet. Für beschleunigte Anwendungsfälle und Workloads, insbesondere solche, die stark von speicherbezogenen Transaktionen abhängen, dürfte die CXL-Schnittstelle für viele Hochleistungsanwendungen genutzt werden.
Ich sehe dies anhand von zwei Schlüsselindikatoren. Erstens die über 100 Unternehmen, die sich dem Compute Express Link Consortium angeschlossen haben. Und zweitens die Anzahl der Kunden, die planen, CXL-basierte Produkte und Lösungen anzubieten.
Die Details von PCI Express Gen5 und CXL sind zwar aufregend, aber noch besser ist es, diese Schnittstellen tatsächlich in Silizium zu realisieren und zum Laufen zu bringen. Verschiedene Intel-Teams testen, charakterisieren und liefern weiterhin technische Muster der Hardware und Software, die für neue Plattformen auf der Grundlage der neuen Intel-CPUs der nächsten Generation mit dem Codenamen Sapphire Rapids erforderlich sind.
Zusätzlich zu diesen Plattformen haben viele Kunden bereits Entwicklungsmuster der Agilex FPGAs erhalten, die diese beiden neuen Schnittstellen unterstützen.
Tatsächlich basiert ein Teil der internen Hardware, die zum Testen jeder einzelnen Sapphire Rapids CPU verwendet wird, auf Intel Agilex FPGAs.
Die FPGAs von Agilex sind in drei verschiedene Serien eingeteilt, die jeweils auf unterschiedliche Anwendungen ausgerichtet sind. Die Bausteine der F-Serie vereinen Transceiver-Unterstützung mit bis zu 58 Gigabit pro Sekunde, erhöhte DSP-Fähigkeiten und eine hohe Systemintegration, die auf eine breite Palette von Anwendungen in den Bereichen Rechenzentrum, Netzwerk, Edge, Embedded, Industrie, Militär und sogar Wireless abzielen. Dies ist sozusagen die Allzweckkategorie der Geräte in der Agilex-Familie.
Bei der I-Serie handelt es sich um eine Reihe von Geräten, die für Hochleistungs-Prozessorschnittstellen und bandbreitenintensive Anwendungen optimiert sind. Diese Serie bietet Optionen für das neue CXL-Protokoll, PCI Express Gen5 und Optionen zur Unterstützung von Transceiver-Bandbreiten bis zu 116G. Die FPGAs der I-Serie sind eine überzeugende Wahl für Anwendungen, die eine große Schnittstellenbandbreite und hohe Leistung erfordern.
Und schließlich die Geräte der M-Serie. Diese sind für rechen- und speicherintensive Anwendungen optimiert. Diese Serie wird zusätzliche Funktionen bieten, die in der F- und I-Serie nicht verfügbar sind. Dinge wie DDR5, LPDDR und integrierte HBM2 Stacks. Die FPGAs der Agilex M-Serie sind für datenintensive Anwendungsfälle wie High-Performance-Computing-Anwendungen optimiert, die in der Regel neben einer hohen Bandbreite auch große Mengen an Speicher benötigen.
Um mehr über Intel Agilex FPGAs zu erfahren, verwenden Sie die URL oben rechts auf dieser Seite... aber genug von Intel Agilex FPGAs. Lassen Sie uns von Shep von Atomic Rules etwas über ihre Arkville Data Mover IP hören, die mit den neuen Beschleunigerkarten von BittWare verwendet werden kann, die auf FPGAs der Agilex F-Serie in Produktionsqualität basieren. Weiter zu Ihnen, Shep!
Shepard Siegel | CTO, Atomic Rules
Vielen Dank, Tom, für diese Einführung - das ist großartig. Hi, ich bin Shep Siegel von Atomic Rules, und ich danke Ihnen, dass Sie heute zu diesem Webinar gekommen sind. Wir freuen uns sehr und ich freue mich, Ihnen von Arkville auf Agilex zu erzählen. Wir haben lange daran gearbeitet, und dieses Webinar ist die Einführungsparty... also los geht's.
Arkville auf Agilex: Das ist Gen4-Datenbewegung für FPGAs, die einfach funktioniert. Doch zunächst ein paar Worte zu Atomic Rules. Wir machen das schon seit einiger Zeit. Unser Geschäftsmodell besteht darin, weniger Dinge besser zu machen. Wir haben ein paar wichtige Kernprodukte, die wir herstellen: Arkville, über das wir heute sprechen werden, eine UDP-Offload-Engine, die UDP und Hardware verarbeitet, sowie TimeServo und TimeServo PTP, die eine kohärente Systemzeituhr für eine Flotte von FPGA-Geräten im Rechenzentrum bereitstellen.
Wir sind ein von Intel Gold Partner zertifizierter Lösungsanbieter und darauf sind wir sehr stolz. Seit mehr als einem Jahrzehnt tragen wir zu Open-Source-Projekten bei und entwickeln technische Lösungen für Unternehmen... mit Schwerpunkt auf Compute und Kommunikation in Bezug auf Netzwerk-IP. Und wir sind wirklich stolz und dankbar dafür, dass wir eine kleine, ausgewählte und wiederkehrende Gruppe von Kunden haben, die es uns ermöglicht, zu wachsen.
In Ordnung, lassen Sie uns in Arkville einsteigen. Arkville ist also ein DPDK-Paket-Conduit. Was ich damit meine, ist, dass es eine Möglichkeit ist, FPGA-Datenströme mit Host-Speicherpuffern zu verbinden und umgekehrt: Es ermöglicht, dass Daten, die sich im Host-Speicher befinden, ein Stream oder in einem Host-Speicherpool auf dem FPGA sein können und andersherum.
Und es erleichtert diese Datenbewegung als Datenströme, die sich über PCI Express bewegen. Wir sprechen von einer Leitung, weil die gesamte Komplexität von der API auf der Softwareseite über PCI Express hinunter zum FPGA und zu den AXI-Strömen, in denen die Daten erzeugt und verbraucht werden, abstrahiert wird... das bedeutet eine schnellere Markteinführung, eine schnellere Lösung unter Verwendung von Standard-APIs von DPDK (das Teil der Linux Foundation ist) und FPGA-Hardware wie Intel Agilex-Geräte. Intel könnte auch einige Prozessoren herstellen, die Sie auf der Host-Seite einsetzen können, aber das heben wir uns für ein anderes Webinar auf.
Wo wird Arkville also eingesetzt? Arkville kommt immer dann zum Einsatz, wenn Daten effizient zwischen dem Host und einem FPGA-Baustein oder umgekehrt übertragen werden müssen. Es ist eine Bausteinkomponente, die viele der Komplexitäten dieser Datenbewegung abstrahiert, so dass die Benutzer von Arkville mit der Entwicklung von Produkten wie SmartNIC-Geräten, Netzwerk-Appliances oder DPDK-Beschleunigern fortfahren können.
Warum DPDK... ich habe gehört, dass es nur für die Vernetzung ist? Nun, für die Vernetzung hat DPDK eine wirklich starke Geschichte, aber es geht um mehr als das. DPDK ist eine vertrauenswürdige API, die es schon seit langer Zeit gibt. Seit kurzem steht sie unter der Obhut der Linux Foundation. Sie wurde von der Community geprüft, wird routinemäßig getestet und ist eine standardisierte Open-Source-Lösung und eine Reihe von APIs nicht nur für Netzwerke, sondern auch für die Übertragung von Massendaten.
Durch die Verwendung von DPDK setzt Arkville Prozessorzyklen des Hosts frei, die für nützlichere Aufgaben verwendet werden können. Es handelt sich um einen Kernel-Bypass, d. h. der Kernel ist aus dem Weg, was für die Anwendung von vornherein einen höheren Durchsatz und eine geringere Latenz bedeutet. Arkville ist jedoch DPDK-bewusst (darauf gehen wir in einer späteren Folie ein), und indem die Geschäftslogik der DPDK-Datenbewegung in FPGA-Gates verlagert wird, kann Arkville sowohl einen höheren Durchsatz als auch eine geringere Latenz aufweisen, was zu einer geringeren Verschmutzung des Mehrzweckprozessor-Caches führt, was wiederum eine höhere Post-Core-Leistung bewirkt.
DPDK macht also sehr viel Sinn, wenn Sie Workloads haben, die von ihrer API unterstützt werden, was sicherlich ein Netzwerk sein könnte... aber auch eine einfache Bulk-Datenbewegung zwischen einem FPGA-Baustein und dem Host sein könnte.
Der Kernpunkt von Arkville ist, dass Arkville die inneren Low-Level-Schleifen der DPDK-Spezifikation in FPGA-Hardware implementiert, d. h. die DPDK-Spezifikation im Wesentlichen in RTL-Gates umsetzt. Jede andere DPDK-Lösung, einschließlich ASIC-NICs von Händlern, verlagert einen Teil oder die gesamte Arbeit auf die Host-Prozessorkerne. Wir haben Arkville von Anfang an für eine Sache konzipiert, und zwar für eine gute Sache: DPDK-mbuf-Datenstrukturen in Hardware zu manipulieren, damit die Prozessorkerne dies nicht tun müssen. Und indem wir das in Hardware tun, haben wir den einzigartigen Vorteil, gleichzeitig einen hohen Durchsatz und eine deterministische niedrige Latenz zu erreichen. Und dabei werden fast keine Host-Kerne beansprucht, wie wir auf der nächsten Folie sehen werden. Ein weiterer Punkt, der für Arkville spricht, ist die Tatsache, dass es sich um eine Komplettlösung für die Datenübertragung handelt, die sofort einsatzbereit ist.
Die Software-Ingenieure verwenden Standard-APIs, um Datenpuffer zu erzeugen und zu verbrauchen. Die Hardware-Ingenieure verbinden sich mit AXI-Schnittstellen. Vergleichen Sie diese "am selben Tag einsatzbereit"-Geschichte mit einer "Roll-your-own"-Lösung, die Wochen oder sogar Monate für die Simulation benötigen könnte, ganz zu schweigen von einer realen Hardware.
Arkville wird also als eine Kombination aus Software und Gateware geliefert. Es gibt einen DPDK-Pull-Mode-Treiber, der vollständig quelloffen ist und heute auf DPDK.org zur Verfügung steht, und dann gibt es die RTL-Komponente, die in Ihr Intel Agilex FPGA passt und von Atomic Rules lizenziert wird. Es gibt eine benannte Projekt- und eine Multiprojekt-Lizenz, aber im Grunde ist es ein lizenziertes Stück IP, das in Ihr Intel FPGA passt. Die beiden arbeiten zusammen, um den Datenfluss vom FPGA zum Host und umgekehrt zu ermöglichen.
Diese Karikatur zeigt den Host-Prozessor auf der linken Seite und das FPGA auf der rechten Seite und zeigt einige der Untermodule, wie der Host-Prozessor, typischerweise eine Xeon-Workstation oder ein Server, und das FPGA, typischerweise ein Intel Agilex-Baustein, aufgeteilt werden könnten und wo die verschiedenen Komponenten sind. Die grünen und roten Kästchen am unteren Rand stellen die Quellen und Senken für die Datenübertragung von Gerät zu Host und von Host zu Gerät dar, die im Wesentlichen das Ziel oder die Quelle bzw. den Produzenten oder den Konsumenten für die Währung darstellen, die Arkville durch seine Leitung transportiert.
Hier sehen wir ein Diagramm, das den Durchsatz von Arkville als Funktion der Paketgröße zeigt. Man kann sofort sehen, dass der Durchsatz bei kleineren Paketgrößen geringer ist, und das ist einfach eine Tatsache, die mit dem Overhead zusammenhängt, den PCI Express bei kleineren Paketen hat. Aber wir sehen auch, wenn wir uns auf die rechte Seite des Diagramms konzentrieren, dass die blaue und die rote Linie, die die Transportgeschwindigkeit von Gerät zu Host und von Host zu Gerät darstellen, sich dem theoretischen Limit an der Spitze annähern, das bei 220 gb/s und sogar noch ein wenig höher liegt. Mehr dazu sehen wir gleich in der Demo.
Arkville hat außerdem eine außergewöhnlich niedrige Latenzzeit (nicht die Latenzzeit beim Hochfrequenz-Fintech-Handel, die im Submikrosekundenbereich liegen soll), sondern eine Latenzzeit im Mikrosekundenbereich, die ständig zwischen FPGA und Host besteht. Und das Fehlen eines Long-Tail, insbesondere bei langen Paketen und unter hoher Last, ist ein Vorteil für vRAN- und ORAN- und 5G-Anwendungen, die keine verpassten Termine tolerieren können.
Arkville hat nicht nur eine geringe Latenzzeit, sondern auch praktisch keinen Latenz-Jitter. Wie ist das möglich? Da es sich nicht um eine Standard-DMA-Engine mit Caches und anderen dynamischen Mitteln zur Unterstützung einer großen Anzahl von Warteschlangen handelt, hat Arkville eine deterministische Latenzzeit zwischen dem Zeitpunkt, an dem ein Paket ankommt, und dem Zeitpunkt, an dem es im Host-Speicher landet (oder umgekehrt).
Durch diese Besonderheit, dass nur DPDK ausgeführt und mbufs verschoben werden, ist die Latenzzeit von Arkville praktisch gleich Null. Arkville hat auch kein memcpy, was bedeutet, dass die Host-Prozessoren keine Arbeit haben, keine! Null Zyklen, um Paketdaten von einer Stelle zur anderen zu bewegen. Die RTL-Hardware von Arkville auf dem FPGA sorgt dafür, dass die Daten genau dort im mbuf landen, wo sie hingehören, so dass der Host diese Daten nicht verschieben muss und mehr CPU-Zyklen für Ihre Anwendung zur Verfügung stehen.
Dieses Diagramm zeigt, dass weniger als 20 Nanosekunden pro Paket im Arkville PMD verbracht werden, wenn die Paketgröße in einen einzigen mbuf passt. In diesem Fall ist der mbuf nur ein zwei Kilobyte großer mbuf. Wenn wir die mbuf-Größe vergrößern würden, würde sich diese Flachheit auf der rechten Seite der Seite fortsetzen.
Bei Arkville gibt es keine verlorenen Pakete - für immer. Es sei denn, das System wird zum Beispiel von einem Stein getroffen.
Die Flusskontrolle bei Arkville ist eine vollständige Front-Back-Hardware-Software-Kontrolle über alle Domänen hinweg. Unter keinen Umständen werden an einem Ende Daten zugelassen, die nicht sicher zum anderen Ende transportiert werden können, und umgekehrt. Andere Datenübermittler lassen Pakete fallen, wenn sie nicht mithalten können oder wenn es zu einer Störung oder Neuübertragung kommt. Wir verfügen über Hardware- und Software-Anzeigen, die den Datenfluss vollständig kontrollieren und dafür sorgen, dass unter allen Bedingungen keine Pakete verloren gehen.
Nun, nach all dem, lassen Sie uns zu einer voraufgezeichneten Demo springen (aufgenommen vor ein paar Tagen), die zeigt, wie Arkville installiert wird, wie es auf einem Xeon-Server läuft, und danach werden wir zu den Fragen und Antworten übergehen - wir sehen uns dort.
Hi, Shep Siegel hier, und dies ist eine aufgezeichnete Demo, die wir am Freitag, den 10. Dezember, ein paar Tage vor dem Intel/BittWare/Atomic Rules Arkville on Agilex Webinar machen. Ich werde kurz erläutern, was wir hier demonstrieren werden, und dann werden wir die Demo sehen.
Es gibt einen Intel Xeon-Prozessor, der als Host-System verwendet wird, und einen Intel Agilex FPGA, der als zu testender Baustein verwendet wird. Wenn Sie sich diese Folie genau ansehen, sehen Sie links unten den Speicher des Userland-Prozessors (im Grunde der DRAM, von dem aus die Daten übertragen werden) und rechts unten den Speicher der FPGA-Fabric, von dem aus die Daten übertragen werden.
Dazwischen haben wir gen4 x16 PCI Express, das das Agilex-Gerät mit dem Xeon-Host verbindet. Die Teile, die wir in dieser Demo verwenden, sind ein Dell R750 Server mit Xeon 6346 Prozessoren (diese sind gen4 x16 PCIe fähig). Ein BittWare IA-840F mit einem Intel Agile F-Gerät und natürlich Atomic Rules' eigenes Arkville - unsere Version 21.11, die erst Anfang dieser Woche ausgeliefert wurde.
Das erste, was wir in der Demo zeigen werden, ist das Arkville-Skript. Es bringt alle benötigten Bibliotheken mit und lädt und kompiliert DPDK und kümmert sich um alles, was wir auf der Seite des Hostsystems brauchen. Als Nächstes werden wir Quartus Prime Pro installieren (falls es nicht installiert ist) und dann einen Bitstream für das Agilex-Gerät aus der RTL-Datei kompilieren, indem wir das Make-Target make Agilex verwenden.
Sobald der Bitstream fertig ist, werden wir in das FPGA geladen und führen einfach einen Pseudo-Neustart durch. Es besteht keine Notwendigkeit, den Bitstream im Flash-Speicher des Agilex-Geräts zu speichern.
Es gibt etwa ein Dutzend DPDK-Anwendungen, die mit der Arkville-Distribution ausgeliefert werden, aber wir werden uns in dieser Demo speziell auf den TX- (oder Downstream-) oder RX- (oder Upstream-) Durchsatz konzentrieren. Am Ende der Demonstration werden die Demodaten in ein Leistungsprotokoll aufgenommen, und wir werden diese Daten aufzeichnen.
Nun gut. Wir beginnen hier in unserem Projektverzeichnis, und als erstes werden wir die Arkville-Version aus dem mitgelieferten Tarball erweitern. Da haben wir es. Der Tarball ist entpackt worden. Als Nächstes führen wir das Arkville-Installationsskript von Atomic Rules aus, das die erforderlichen Bibliotheken einbindet und DPDK herunterlädt und kompiliert. Wir sehen also, wie die Bibliotheken heruntergeladen werden. An diesem Punkt laden wir DPDK von DPDK.org herunter.
Nachdem DPDK heruntergeladen wurde, können wir das Kompiliersystem von Meson Ninja starten.
Dieser Teil der Demo zeigt es in Echtzeit, was wirklich schnell ist - außer beim Teststring... da hält es immer ein bisschen an... und DPDK ist in einer Minute fertig. Und großartig: DPDK ist installiert und wir sind bereit, weiterzumachen.
An diesem Punkt müssen wir unsere Bitströme für Arkville auf Agilex F erstellen. Wir gehen also in das Verzeichnis der Hardware-Targets und geben einfach make Agilex ein, um alle Intel-Agilex-Targets zu erstellen.
Ich überprüfe zuerst, ob Quartus 21.3 installiert ist. Ja, das ist es, los geht's!
In diesem Teil haben wir sicherlich ein wenig gekürzt. Es dauert etwa 30 Minuten bis eine Stunde, um den gesamten Toolflow zur Erstellung des Bitstroms zu durchlaufen (je nach Größe des Entwurfs). Wir haben hier sechs verschiedene Entwürfe, also kümmern wir uns an dieser Stelle nur um einen von ihnen.
Wenn der Bitstream fertig ist, laden wir ihn auf unsere BittWare IA-840f-Karte im Dell-Server herunter. Wir laden also den Bitstream herunter und führen einen sudo-Neustart durch, um das System wieder hochzufahren.
Nachdem das System über lspci neu gestartet wurde, ist das Arkville-Gerät im Server sichtbar. Es befindet sich im Steckplatz C-A (Charlie Alpha).
Wir können eine erweiterte lspci-Verbosität verwenden, um einige der Fähigkeiten zu sehen, für die das Gerät ausgebildet ist. Hier sehen wir nicht nur die ursprüngliche lspci, die wir am Anfang gesehen haben, sondern auch, dass das Gerät tatsächlich Gen4-x16-fähig ist - wenn wir die Bildlaufleiste bedienen können, ohne dass der Bildschirm hin und her springt. Das ist die hier hervorgehobene Link-Fähigkeitslinie - und dass wir tatsächlich den Gen4 x16 Link-Status erreicht haben, was bedeutet, dass wir darauf trainiert haben.
Das ist ein gutes Zeichen, dass wir einen guten Start haben. Damit können wir nun zu einer der rund ein Dutzend DPDK-Anwendungen übergehen, die verteilt werden. Wir werden den Arkville Duplex Performance Test verwenden, der unabhängig eine Reihe von Tests durchführt, die die Ingress- und Egress-Leistung sowie die Vollduplex-Leistung des Systems messen.
Dieser Test hat viele Dimensionen, und in verschiedenen Wiederholungen kann er Sekunden, Minuten, Stunden oder Tage laufen. Wir nehmen also die Daten aus dem Satz dieser Tests und speichern sie in einer Datei namens performance.log. Wir nehmen die Daten aus dieser Leistungsdatei und übertragen sie in ein Google Sheets-Dokument, wo wir sie grafisch darstellen und im Detail betrachten können.
Hier ist das Plot-Datenprotokoll und hier sind die Ergebnisse. Die gelbe Linie oben, die Skyline, wenn Sie so wollen, stellt die theoretische Grenze dieser Konfiguration von Hardware und Software dar, während die blaue und die rote Linie den Durchsatz von Gerät zu Host bzw. von Host zu Gerät zeigen. Auf der y-Achse ist der nützliche Durchsatz in Gigabit pro Sekunde zu sehen.
Auf der linken Seite des Diagramms - wo wir gerade reinzoomen oder wegzoomen - ist die Leistung aufgrund der geringeren Paketgröße nicht ganz so gut, was vor allem auf die 512-Byte-MPS von PCI zurückzuführen ist. Aber wenn wir hier nach rechts schwenken und uns Paketgrößen von 512 Byte oder einem Kilobyte und mehr ansehen, können wir sehen, dass der Durchsatz auf weit über 200 Gigabit pro Sekunde für die Upstream-Richtung und fast 180 Gigabit pro Sekunde hier für die Downstream-Richtung ansteigt.
Also, eine recht lobenswerte Leistung in Bezug auf den Upstream und ein wenig Raum für Verbesserungen, die wir in der asymptotischen Leistung auf der rechten Seite sehen können.
Aber insgesamt hoffen wir, dass aus dieser Grafik deutlich wird, dass Arkville auf Agilex F von Anfang an eine bewundernswerte Leistung erbringt, die der theoretischen Leistung nahe kommt.
Vielen Dank, dass Sie sich die Zeit genommen haben, sich diese Demo anzusehen. Wir schalten jetzt zurück in die Echtzeit, wo Marcus die Fragen und Antworten beantworten wird, die sicher einige von Ihnen haben werden.
Nochmals vielen Dank und schöne Feiertage.
FRAGEN UND ANTWORTEN
(Marcus)
Bevor wir zu den Fragen und Antworten kommen, möchte ich noch ein paar Worte sagen.
Im heutigen Webinar wurde Arkville von Atomic Rules vorgestellt, das auf der BittWare IA-840f Karte läuft, die einen Intel Agilex FPGA besitzt. Für weitere Informationen besuchen Sie bitte die Websites von BittWare, Intel oder Atomic Rules.
Lassen Sie uns also mit einigen Fragen beginnen.
Mal sehen, die erste ist für Shep - wir haben gerade das Diagramm gesehen. Wie sehen also die voraussichtlichen endgültigen Leistungszahlen für Arkville aus?
(Shep)
Danke, Marcus. Haben Sie gesagt, wie die voraussichtlichen endgültigen Leistungszahlen aussehen werden - wie am Ende?
(Marcus)
Nun, ja, denn ich glaube, Sie hatten einige Leistungszahlen vorgelegt und vielleicht ein paar Aktualisierungen oder so vermerkt. Vielleicht ist es das, was sie beabsichtigen.
(Shep)
Sicher, ich habe es verstanden. Also, Leistung auf Systemebene, unter Einbeziehung von Mehrzweckprozessoren, FPGAs und Verbindungsnetzwerken wie PCI Express... ist schwierig. Wir können simulieren, so viel wir wollen, aber in der realen Welt... passieren die Dinge. Wir sind zuversichtlich, die Zahl von 220 Gigabit pro Sekunde zu nennen, vor allem, weil wir in den letzten Monaten, schon früh... auf Rocket Lake-Systemen für Verbraucher oder Workstations, gesehen haben, dass das so zuverlässig ist. Vielleicht haben einige der aufmerksamen Beobachter bei der von uns durchgeführten Demo bemerkt, dass die ultimative Leistung auf der Downstream-Seite des leistungsstarken Dell-Servers mit den großen Xeons am Ende nicht so gut war wie die von Rocket Lake - was vielleicht auf NUMA-Probleme, QPI-Probleme und dergleichen zurückzuführen ist. Letztendlich ist der beste Weg... der beste Benchmark in Bezug auf den Durchsatz ist unserer Meinung nach - da diese Hardware von BittWare und von Intel erhältlich ist und die IP von Atomic Rules zur Verfügung steht - sie in Ihrem eigenen Geschäft einzusetzen und das so schnell wie möglich zu tun.
Die Demos, die wir haben, und die Tools, die wir in der aufgezeichneten Demo gezeigt haben, werden Ihnen schnell zeigen, wozu das in Ihrem eigenen System fähig ist, und auf diese Weise können Sie, anstatt eine Zahl zu nehmen, die wir als nominale Leistungszahl in Ihrer eigenen Anwendung sehen... in Ihrem eigenen System... in Ihrem eigenen speziellen Fall von Umständen sehen, zum Beispiel für den Durchsatz, was die nachhaltige Durchsatzzahl ist.
(Marcus)
In Ordnung, ja - danke für diese Antwort. Und noch eine Frage an Sie, auf die es wohl eine ziemlich einfache Antwort gibt: Wie würde ein Quartus-Benutzer die Arkville-IP nutzen? Ist sie mit Platform Designer/Qsys kompatibel?
(Shep)
Das ist es. Der einfachste Weg... wir unterstützen sowohl den Platform Designer oder, für diejenigen, die das Tool schon eine Weile benutzen, den Qsys-Flow... aber wir unterstützen auch ein vollständiges, direktes SystemVerilog. Und aufgrund der prägnanten Natur der SystemVerilog-Schnittstellen und der Unterstützung, die Quartus für SystemVerilog bietet, wird ein Standard-RTL-Flow mit SystemVerilog oder Platform Designer unterstützt. Arkville wird also in Ihrem Agilex-Gerät wie jeder andere Core instanziiert.
(Marcus)
Also wahrscheinlich für Shep: Wie sieht die Roadmap für Arville RTL IP zur Unterstützung von PCI Gen5 und dann CXL aus und wie könnten die Leistungszahlen aussehen?
(Shep)
Nun, das ist eine gute Frage. Die Leistung, die wir heute zeigen, ist natürlich mit Agilex F und Gen4 x16... und es gab eine so große Nachfrage nach einer Verdopplung des Durchsatzes im Vergleich zu, sagen wir, Gen3 x16, dass wir froh sind, dass wir diesen ersten Schritt machen können.
Die Frage ist jedoch, was bei Gen5 auf uns zukommt? Wir gehen davon aus, dass wir in der Lage sein werden, die Leistung zu verdoppeln oder mehr als zu verdoppeln, wenn wir zu Gen5 x16 wechseln. Wir arbeiten nun schon seit einiger Zeit eng mit Intel zusammen, und ein wesentlicher Teil davon hat nicht mit... Sie wissen, dass die Frequenzskalierung schon vor langer Zeit aufgehört hat... ein großer Teil davon hat mit architektonischen Innovationen zu tun... und eines der Dinge, um unser Ingenieursteam hier ein wenig zu loben (aber wir hätten es ohne Intels Unterstützung nicht geschafft), ist, dass Agilex, sowohl in der aktuellen Version als auch in zukünftigen Versionen, die Gen5 unterstützen werden, die Bewegung mehrerer PCI TLPs pro Taktzyklus ermöglicht. Heute, mit der Agilex F-Serie, bewegen wir uns auf eine Milliarde - ich bitte um Korrektur - zwei Milliarden TLPs pro Taktzyklus: zwei am Eingang, zwei am Ausgang, bei 500 MHz.
Mit Gen5 und der I-Series R-Tile werden wir in der Lage sein, diese Zahl noch einmal zu verdoppeln. Die Verdoppelung der Anzahl der TLPs bedeutet nicht unbedingt eine Verdoppelung der Bandbreite, aber sie ermöglicht es unserer Arkville-IP, intelligenter zu sein... Entschuldigung, wenn ich zu weit aushole... Kurz gesagt, Gen5 wird die Bandbreite und den Durchsatz noch einmal verdoppeln, ohne dass es zu einer signifikanten Erhöhung und möglicherweise zu einer Reduzierung der Latenz kommt.
Nun, die Frage bezog sich auch auf CXL. CXL ist eine ganz andere Sache. So wie die Welt in den letzten Jahrzehnten entdeckt hat, dass heterogene Datenverarbeitung eine gute Idee ist, so ist auch heterogene Kommunikation eine großartige Idee. Und es gibt einen Platz für die Übertragung von Massendaten und Datenpaketen, die PCI anspricht, und es gibt auch einen Platz für CXL.
Die Position von Arkville (und seine Verbindung zu Intels Technologie: die zugrundeliegende P-Tile- und R-Tile-Technologie, die in Agilex steckt) ist so, dass wir eine Zusammenarbeit mit einer CXL-Lösung in der Zukunft nicht ausschließen... aber wir greifen uns selbst vor. Wir sind einfach... froh, dass wir heute, nach fünf Jahren, in denen wir Arkville auf die aufgestaute Nachfrage und den Wunsch, Gen4 x16 zu erreichen, ausgeliefert haben, hier sind, und ich hoffe, dass wir das noch ein bisschen genießen können, bevor wir uns auf Gen5 x16 und CXL stürzen.
(Jeff)
Nein Shep, hier ist Jeff - du wirst nicht viel Ruhe bekommen. Wir haben jetzt die Teile der F-Serie herausgebracht, die die Gen4 sind, über die wir vorhin gesprochen haben. Und ich habe die Teile der I-Serie und der M-Serie erwähnt, die demnächst auf den Markt kommen werden, worüber Tom schon ein wenig gesprochen hat. Die Boards der I-Serie werden mit der Gen5 herauskommen, die für Mitte des nächsten Jahres geplant ist.
(Shep)
Und wir sind gleich bei Ihnen.
(Marcus)
Ich habe eine Frage zur H2D-Latenzzeit für Shep - ich weiß, dass Sie das angesprochen haben, aber vielleicht können Sie das etwas näher erläutern.
(Shep)
Wie ich bereits sagte, ist die beste Methode zur Untersuchung von Leistungsparametern wie Stromverbrauch, Durchsatz und Latenzzeit - denn trotz des Mangels an Komponenten sind diese Hardware, Software und IP verfügbar -, sie in Ihrem Geschäft zu testen und unter Ihren Bedingungen zu messen. Unter unseren Testbedingungen handelt es sich, wie gesagt, nicht um ein Fintech-Design, das durch IP geschnitten wird. Es handelt sich um ein Store-and-Forward-System, und zwar ein sehr intelligentes Store-and-Forward-System, bei dem es keinerlei Latenzschwankungen gibt.
Wir bewegen uns also in der Größenordnung von 1 bis 3 Mikrosekunden nominaler Latenzzeit ohne Long Tail. Die Visitenkarte hier und das Unterscheidungsmerkmal zu einer Store-and-Forward-Architektur ist, was passiert, um das Paket am Kopf der Leitung (egal, ob es stromaufwärts oder stromabwärts geht) in eine Warteschleife zu legen, damit es sich bewegt. Und im Gegensatz zu einer Standard-DMA-Engine mit Pinning-Seiten, Scatter-Gather und all den Dingen, die wir in diesem Gespräch bis jetzt noch nicht erwähnt haben, gibt es bei Arkville nichts davon. Es ist vollständig deterministisch. Wenn also zum Beispiel ein Datenpaket auf dem Weg zu einem Userland-Host-Speicherpuffer am FPGA ankommt, ist die Latenzzeit in der Größenordnung von Mikrosekunden.
(Marcus)
Ich habe eine Frage... ach ja, das Diagramm zeigte unterschiedliche Übertragungsraten für den Upstream und den Downstream, warum ist das so?
(Shep)
Das ist eine gute Frage. Ich dachte, ich hätte es schon ein wenig angesprochen, aber ich wiederhole es, weil ich mich vielleicht nicht klar genug ausgedrückt habe. Nun, eigentlich gibt es mehrere Diagramme, die gezeigt wurden... die unterschiedliche vor- und nachgelagerte Leistung zeigten.
Mal sehen... warum ist die Downstream- oder Egress-Leistung geringer? Ich würde sagen, dass es im Allgemeinen mehr Raum für Serialisierungsverzögerungen im Stil des Amdahl-Gesetzes irgendwo im System gibt - sei es in der Software oder in der Hardware (die Atomic Rules Hardware und ähnliches beinhalten könnte). Insbesondere für diejenigen, die bei den Xeon-Servern genau hinschauen, haben wir, wie gesagt, deutlich weniger Downstream-Leistung gesehen als bei Rocket Lake, und wir glauben, dass das an unserer eigenen Programmierung unserer Demo liegt und daran, aus welcher NUMA-Zone wir die Downstream-Daten gezogen haben.
Wir glauben, dass die Daten, die in der von uns gezeigten Demo nachgelagert wurden, tatsächlich vom prozessorverbundenen Speicher des anderen Prozessors auf der anderen QPI-Seite der NUMA-Zone stammten, und unser Team untersucht dieses Beispiel noch.
Wir werden das im Laufe der Zeit noch verfeinern. Im Allgemeinen wird es sehr einfach sein, Daten nach dem Schreiben in den Upstream zu verschieben, wenn das Speichersystem sie zurückziehen kann (und sowohl die Xeons als auch die Rocket Lakes haben das sehr gut gemacht). Die Lesevorgänge - ganz gleich, wie viele Leseanforderungen ausstehen und wie sehr wir uns bemühen, nett zum Speicher-Controller zu sein - manchmal dauert es einfach länger, bis sie abgeschlossen sind.
Es ist ein Vorteil, dass wir mehrere Abschlüsse innerhalb eines einzigen Taktzyklus verarbeiten können. Damit wären wir wieder bei den architektonischen Vorteilen, die uns die Agilex-Schnittstellen bieten. Aber im Allgemeinen sind Lesevorgänge, die abgeschlossen werden, anfälliger für Probleme als Schreibvorgänge, die nach dem Prinzip "fire-and-forget" durchgeführt werden können.
(Tom)
Hey Marcus? Möchtest du, dass ich ein bisschen mehr über das Gen5 und den CXL erzähle?
(Marcus)
Also ja, klar, wenn du die Chance hast.
(Tom)
Ja, das stimmt. Also, ich glaube, mein Ton ist ausgefallen, vielleicht habe ich das vorhin verpasst, aber nur, damit die Leute es wissen, ich glaube, Jeff hat schon erwähnt, dass sie weitere Karten planen, die auf Agilex basieren, aber die Agilex I-Serie. Und die I-Serie ist das Gerät mit dem Chiplet, das wir R-Tile nennen, das PCI Express Gen5 und CXL unterstützt.
Und auf der Chipebene bemustern wir diese Geräte heute und wir zeigen... wir waren bereits auf PCI-SIG-Workshops. Wir, wissen Sie, wir holen die volle Bandbreite aus unserem Gerät und R-Tile heraus. Wir nutzen also die volle Bandbreite von PCI Express Gen5 mit 16 Lanes. Und wenn man das mit dieser speziellen Karte vergleicht, ist es im Grunde genommen die doppelte Bandbreite, nur vom PCI-Express-Standpunkt aus betrachtet.
(Marcus)
Gut, danke für diese zusätzlichen Informationen. Wir haben noch Zeit für ein paar weitere Fragen. Also, diese ist wieder für Shep. Wie unterscheidet sich das Arkville DPDK von der Intel FPGA Multi-Cue DMA DPDK Unterstützung?
(Shep)
Toll - das ist eine großartige Frage, Marcus. Aber weißt du was? Schieben Sie das kurz auf, denn ich möchte auf den Gen5-Punkt eingehen, den Tom und Jeff beide erwähnt haben. Fast 100 % unserer Arkville-Kunden (unser wichtigstes IP) sind auf Durchsatz angewiesen. Deshalb ist Arkville auf Agilex heute bei Gen4 x16 so wichtig: Kunden und Anwendungen werden befähigt.
Wenn Gen5 x16-Geräte und Boards auf den Markt kommen, ist Atomic Rules verpflichtet, dabei zu sein, oder wir haben kein Geschäft. Ich möchte nur betonen, ohne voreilig Arkville-Unterstützung für Gen5 anzukündigen, dass wir das natürlich sehr genau im Auge behalten.
Okay, also rüber zu Arkville im Vergleich zu einem Roll-your-own wie Intels exzellentem Multi-Ich glaube, es heißt Multi-Cue oder Multi Channel DMA (MCDMA). Nun, MCDMA ist eine exzellente kostenlose IP von Intel, die in Quartus mit Beispiel-Designs integriert ist. Meiner Meinung nach ist es wirklich ein "kitchen-sink" DMA und nicht so sehr ein Datenmover.
Es unterstützt praktisch jede mögliche Rolle, für die man einen Datenzugriff verwenden möchte: Streams, Nachrichten, Caching, CXL... was auch immer, MCDMA kann es. Es verbraucht etwa doppelt so viel Speicherressourcen auf dem FPGA wie Arkville. Aber andererseits ist es Intels Ziel, größere FPGAs zu verkaufen, also hat dieser Wahnsinn vielleicht Methode. Und es wird einiges an Arbeit erfordern. Ich meine, es wird RTL benötigen, um diese IP zu verwenden. Es wird einige RTL-Simulationen und Anbindungen erfordern, und es wird einige Software auf der anderen Seite erfordern, obwohl ich sicher bin, dass Intel diese bereitstellen wird.
Wenn Sie spezielle Bedürfnisse haben, die Arkville nicht direkt erfüllt, dann sage ich: Laufen Sie los, laufen Sie hinterher. Wir konkurrieren wirklich nicht damit. Wenn Sie ein Datenübertragungsproblem haben, entweder mit Massendaten oder mit DPDK und Netzwerken, haben wir etwas, das Sie buchstäblich noch am selben Tag zum Laufen bringt. Ich denke, das ist das Unterscheidungsmerkmal im Sinne von "bauen" oder "kaufen".
Ich schätze, ein weiterer Punkt ist die CPU-Entlastung, denn MCDMA wird Scatter-Gather-Listen verwenden... es wird Host-Cores verwenden, um das zu tun. Wenn Sie also eine große Anzahl von Prozessorkernen auf dem Host haben, die an Ihrem DMA teilnehmen können, nur zu. Arkville wird diese Kerne für Ihre Anwendung zur Verfügung stellen.
(Jeff)
Tut mir leid, Marcus, aber ich möchte noch etwas hinzufügen... Ich kann einen der Punkte bestätigen, die Shep da sagt, nämlich dass unsere Kunden, die Arkville und andere Atomic Rules IP verwendet haben, bemerkenswert schnell betriebsbereit waren. Es ist einfach so, dass Shep und sein Team einen großartigen Job machen, wenn es darum geht, eine sofort einsatzbereite Lösung zu liefern, anstatt, Sie wissen schon, sich selbst zu entwickeln... hier sind die grundlegenden Komponenten - setzen Sie alles zusammen. Das ist eine Sache, bei der ich einen Unterschied sehe, wenn wir sie bei unseren Kunden einsetzen.
(Marcus)
Eine Frage, die Sie hier sehen können...ich habe...ja. Zur IP - nur zur Portabilität auf andere Intel FPGA-Bausteine. Ich weiß nicht, ob sie vielleicht Stratix 10 oder andere Agilex-Geräte meinen - wie einfach ist es, auf andere Geräte zu portieren?
(Shep)
Ich denke, das ist für mich. Wir hatten bisher keine Nachfrage, die Stratix 10-Geräte mit Arkville zu verwenden. Allerdings werden alle unsere anderen IPs - TimeServo, TimeServo PTP und unsere UDP Offload Engine - auf Stratix 10 und sogar früheren Intel-Bausteinen sowie anderen FPGAs unterstützt. Obwohl Dinge wie Quartus und Platform Designer (früher Qsys) sehr begehrt und wertvoll sind, haben wir uns auf eine SystemVerilog-Darstellung für alle unsere Cores zubewegt, was bedeutet, dass ein Dutzend Textzeilen die Instanziierung darstellen.
Wenn jemand wirklich Interesse an der Verwendung von Arkville auf Stratix 10 hat, setzen Sie sich bitte mit uns in Verbindung.
(Jeff)
Ich denke, eine der Antworten ist, dass der Kunde/Nutzer keine Portierung von Arkville vornimmt. Die Portierung wird von Atomic Rules vorgenommen. Und wenn Sie mit dem S10 oder der Agilex I-Series bauen wollen, ist es einfach ein anderer Kern von Atomic Rules, der direkt geladen wird und nahtlos funktioniert. Es ist keine zusätzliche Arbeit für den Benutzer erforderlich.
(Shep)
In der Arkville-Schnittstellensignatur (ich entschuldige mich: ich spreche jetzt zu den RTL-Designerinnen und -Designern da draußen) sind ein Dutzend Zeilen SystemVerilog - fertig... eine Handvoll Schnittstellen... das kann man in sein Design einbauen und loslegen. Und das ändert sich nicht zwischen den verschiedenen FPGA-Geräten; es ist das Gleiche.
(Marcus)
Okay, die letzten ein oder zwei Fragen hier. Diese hier ist, nun, ich lese sie einfach vor: Wird Arkville als verschlüsselte Netzliste oder als obfuscated HDL bereitgestellt, und wenn letzteres, in welcher Sprache - wiederum für Shep?
(Shep)
Aha, eine Fangfrage. Wir stellen unseren lizenzierten Kunden Arkville als unverschlüsselte IEEE-Verilog-Netzliste zur Verfügung. Bei diesem unverschlüsselten Verilog handelt es sich jedoch nicht um den Quellcode. Wir verwenden unsere eigene auf Atomic Rules basierende funktionale Programmiersprache, um dieses Verilog maschinell zu generieren, und auf diese Weise führen wir unsere formale Verifikation durch. Um genau zu sein, ist das gelieferte Asset, gegen das Sie simulieren und kompilieren, eine unverschlüsselte, unverschlüsselte Verilog-Netzliste.
Nun gut. Nun, ich danke Ihnen für alle Fragen und Antworten. Und wenn Sie weitere Fragen haben, können Sie sich direkt an uns wenden: BittWare.com, Intel.com/agilex oder AtomicRules.com.
Ich danke Ihnen allen fürs Zuschauen und wünsche Ihnen einen schönen Tag. Das Webinar ist beendet.