Weißbuch

FPGA-beschleunigte NVMe-Speicherlösungen

Verwendung der Beschleuniger der BittWare 250-Serie

Übersicht

In den letzten Jahren haben die Umstellung auf NAND-Flash-basierte Speicher und die Einführung von Non-Volatile Memory Express® (NVMe™) die Möglichkeiten für Technologieunternehmen vervielfacht, "Speicher" anders zu nutzen1. Das schnelle Wachstum und die Vielfalt digitaler Echtzeitgeschäfte haben diese Innovation erforderlich gemacht, damit neue Produkte und Dienstleistungen realisiert werden können.

Einführung

In den letzten Jahren haben die Umstellung auf NAND-Flash-basierte Speicher und die Einführung von Non-Volatile Memory Express® (NVMe™) die Möglichkeiten für Technologieunternehmen vervielfacht, "Speicher" anders zu nutzen1. Das rasche Wachstum und die Vielfalt der digitalen Echtzeitgeschäfte haben diese Innovation erforderlich gemacht, um neue Produkte und Dienstleistungen zu ermöglichen. Neue Speicherprodukte folgen daher dem Trend zu höherer Bandbreite, niedrigeren Latenzzeiten und einer Verringerung des Platzbedarfs und der Gesamtbetriebskosten - entscheidende Verbesserungen für Unternehmen, die auf große Infrastrukturen angewiesen sind. Jüngste Marktberichte2 prognostizieren, dass der NVMe-Markt bis 2020 mit einer durchschnittlichen Wachstumsrate von etwa 15 % auf 57 Milliarden US-Dollar anwachsen wird. Der NVMe-Markt entwickelt sich ständig weiter und strebt nach weiteren technologischen Innovationen in drei Bereichen:

  1. Speichervirtualisierung für mehr Flexibilität und Sicherheit
  2. lokalisierte Datenverarbeitung in der Nähe der gespeicherten Daten
  3. disaggregierter Speicher für optimierte Infrastrukturen3

Im März 2018 kündigte BittWare die FPGA-Produkte der Serie 250 an, die innovative Lösungen für die Anforderungen des Speichermarktes bieten. Die Produkte der 250er-Serie sind mit Xilinx® UltraScale+™ FPGAs und MPSoCs ausgestattet, die Funktionen der ASIC-Klasse auf einem einzigen Chip bieten und den technologischen Anforderungen der Speicherindustrie entsprechen6. Durch die Kombination von NVMe mit rekonfigurierbaren Logik-FPGAs und MPSoCs bietet BittWare eine neue Klasse von Speicherprodukten mit einem entscheidenden Unterscheidungsmerkmal in einem sich schnell entwickelnden Markt; die Flexibilität und Rekonfigurierbarkeit der Xilinx-Bausteine garantiert, dass 20-basierte Lösungen auf dem neuesten Stand bleiben können, da der NVMe-Standard immer wieder neue Funktionen enthält5.

In dieser Application Note wird beschrieben, wie die FPGA- und MPSoC-fähigen Beschleunigerprodukte der Serie 250 von BittWare eingesetzt werden können, damit Kunden hochleistungsfähige, skalierbare NVMe-Infrastrukturen für IoT- und Cloud-Infrastrukturen der nächsten Generation aufbauen können.

NVMe-Roadmap

Seit der Gründung von NVMe im Jahr 2011 ist das NVMe-Konsortium sehr aktiv geblieben. Tatsächlich entwickelt sich das NVMe-Protokoll derzeit aus drei Perspektiven, die in separaten Spezifikationen definiert sind. Neben der NVMe-Basisspezifikation beschreibt die NVMe-Verwaltungsschnittstelle (NVMe-MI), wie die Kommunikation und die Geräte (Geräteerkennung, Überwachung usw.) verwaltet werden, und die NVMe-over-Fabric-Spezifikation (NVMe-oF) legt fest, wie mit nichtflüchtigen Speichern über ein Netzwerk kommuniziert werden kann, um das Protokoll als transportunabhängig zu präsentieren9.

Im Laufe der Zeit, wenn immer mehr Nutzer aus verschiedenen Branchen NVMe übernehmen, beschreiben die neuen Nutzer ihren Bedarf an neuen Funktionen und bringen neue Ideen für die Spezifikation ein. Die Akzeptanz des NVMe-Protokolls nimmt weiter zu und führt zu Innovationen. Hardware- und Softwareunternehmen finden neue Wege, um auf den Speicher zuzugreifen, indem sie neue Formfaktoren einführen, neue Produkte und Geräte entwickeln, usw. Der Schwerpunkt des NVMe-Ökosystems liegt darauf, den Nutzern die Möglichkeit zu geben, in Rechenzentren oder Hyperscale-Infrastrukturen zu skalieren, und die Protokollspezifikation wird sich weiter in diese Richtung entwickeln9.

2019 wird die Revision 1.4 der NVMe-Basisspezifikation veröffentlicht, die zu Verbesserungen bei der Datenlatenz, dem Hochleistungszugriff auf nichtflüchtige Daten und der einfachen gemeinsamen Nutzung von Daten durch mehrere Hosts führen wird. Eine der von NVMe-Nutzern und insbesondere von Cloud-Anbietern erwarteten Funktionen ist der IO-Determinismus, der die Servicequalität bei der parallelen Ausführung von IOs10 verbessern wird. Durch die Begrenzung der Auswirkungen von Wartungsaufgaben im Hintergrund auf ein Minimum und die Eindämmung des Einflusses von störenden Nachbarn wird die IO-Determinismus-Funktion den Nutzern eine konsistente Latenz beim Zugriff auf die nichtflüchtigen Daten bieten. Ein alternativer Ansatz ist die bereits diskutierte Open-Channel-Architektur11. Bei dieser zweiten Methode übernimmt der Host einige der Verwaltungsfunktionen und nur die Daten werden an die Speicherhardware weitergeleitet. In dieser Konfiguration ist die physische Schnittstelle des Laufwerks zum Host auf Hochgeschwindigkeitsdatenkanäle beschränkt, es gibt keine Seitenbandkanäle. Dieses Beispiel zeigt die Auswirkungen und die Relevanz von Änderungen an der NVMe-Spezifikation und verdeutlicht die Anforderungen an eine flexible NVMe-Hardwareinfrastruktur.

Wenn in den nächsten Monaten die neuen Revisionen der Basis-, MI- und Over-Fabric-Spezifikationen herauskommen, werden NVMe-Benutzer von einer flexiblen Grundlage profitieren, die sich an die neuen NVMe-Anforderungen anpassen kann. Die FPGA- und MPSoC-Produkte der 250er-Serie bieten diese Flexibilität, lösen aber auch die Herausforderungen der heutigen Kunden und verschaffen ihnen einen unmittelbaren Wettbewerbsvorteil.

Warum FPGAs?

Die FPGA- und MPSoC-Produkte von BittWare sind mit der allerneuesten Xilinx UltraScale+-Technologie ausgestattet und erfüllen die Anforderungen eines Rechenzentrums, das sich zunehmend auf NVMe konzentriert. FPGAs bieten seit drei Jahrzehnten programmierbare Hardwarelösungen für zahlreiche Branchen und werden in großem Umfang zur Lösung von Computer- und eingebetteten Systemproblemen u. a. in den Bereichen Automobil, Rundfunk, Medizin und Militär eingesetzt. Gleichzeitig haben FPGA-Hersteller in den letzten Jahren die neuesten und besten Verbesserungen im Design integrierter Systeme für diese bewährte Technologie eingeführt.

Die Xilinx UltraScale+ FPGA- und MPSoC-Produkte verwenden einen 16-nm-Prozess und verbessern die Systemleistung durch die Bereitstellung von Hochgeschwindigkeits-Fabric, eingebettetem RAM, Taktung und DSP-Verarbeitung. Darüber hinaus haben Xilinx-Bausteine eine schnellere Transceiver-Technologie (bis zu 32,75 Gb/s) für einen höheren Durchsatz bei der Anbindung an das Netzwerk oder die PCIe-Fabric eingeführt. Mit ihrer hohen Anzahl an seriellen Transceiver-Kanälen können UltraScale+-Produkte gleichzeitig an mehrere PCIe-Schnittstellen angeschlossen werden und eine Daten-Offload-Schnittstelle zu einer Host-CPU bereitstellen. In einigen Fällen kann die CPU durch den Ersatz eines PLX-Switches durch ein FPGA oder MPSoC einen Teil ihrer Verarbeitung auslagern und so mehr Zeit für andere Operationen gewinnen. Die programmierbare Logik von FPGA und MPSoC bietet außerdem eine deterministische Schnittstelle mit geringer Latenz in einem System, was in einigen Anwendungsfällen einen klaren Wettbewerbsvorteil darstellen kann.

Neuere FPGA-Familien enthalten jetzt auch eingebettete Low-Power-Mikroprozessoren innerhalb der Bausteinstruktur. Die UltraScale+ MPSoCs erfüllen die Anforderungen von Anwendungen, die sowohl Software als auch programmierbare Logik benötigen, indem sie diese in einem einzigen Gehäuse kombinieren. Der Xilinx Zynq UltraScale+ ZU19EG verfügt beispielsweise über zwei Verarbeitungseinheiten, einen Quad-Core ARM Cortex-A53 und einen Echtzeit-Dual-Core ARM Cortex-R5, sowie eine Grafikverarbeitungseinheit, eine ARM Mali™-400 MP2, für Anwendungen mit hybriden Rechenanforderungen. Der ZU19EG MPSoC-Baustein ist ein sehr vielseitiger Chip, der sich besonders gut für NVMe over Fabric- oder Open Channel-Implementierungen eignet, bei denen die programmierbare Logik einen deterministischen Pfad mit niedriger Latenz für die Speicherdaten bereitstellt und die ARM-Cores komplexe Paketsteuerungsoperationen durchführen oder eine Host-CPU in einem CPU-losen Embedded-System ersetzen.

In den letzten Jahren hat sich BittWare an der Spitze der Speicherindustrie gehalten und durch die Entwicklung von Produkten, die auf der NVMe-Technologie basieren, zu ihrem innovativen Wachstum beigetragen. BittWare erkannte, dass FPGAs E/A-Engpässe reduzieren und einen direkten deterministischen Hochgeschwindigkeitsweg zu NVMe-Solid-State-Laufwerken bieten können. Bereits 2015 ging BittWare eine Partnerschaft mit Xilinx und IBM ein, um eine innovative NoSQL-Datenbanklösung zu entwickeln12. Die FPGA- und MPSoC-Boards der Serie 250 bauen auf dem Erfolg dieses ersten Produkts auf und bieten Funktionen wie tiefere und schnellere Onboard-Speicher, Netzwerkkonnektivität, System-on-Chip und Verkabelungsoptionen für Server-Speicher-Backplanes.

Leere Überschrift

250 FPGA & MPSoC Produktreihen

Die 250 FPGA & MPSoC-Produktlinie umfasst drei FPGA-Adapter, den 250S+, 250-U2 und 250-SoC, die an eine Vielzahl von Industriestandard-Formfaktoren wie PCIe-Steckplätze, OCuLink/Nano-Pitch, SlimSAS, MiniSAS HD, U.2-Speicher-Backplanes und mehr angeschlossen werden können. Die Produkte der 250er-Serie passen direkt in die PCIe-Struktur einer bestehenden Infrastruktur und ermöglichen einen direkten Zugriff auf die NVMe-Speichergeräte mit niedriger Latenz.

250S+ Direkt angeschlossener Beschleuniger

Der erste Beschleuniger der Serie ist der 250S+. Dieser FPGA-Beschleuniger verfügt über ein Xilinx UltraScale+ Kintex 15P FPGA und vier Onboard-Vier-Lane-M.2-NVMe-Laufwerke mit 1 TB (insgesamt 4 TB nichtflüchtiger Flash-Speicher) in einem flachen 8-Lane-PCIe-Formfaktor mit halber Höhe und halber Länge. Alternativ können Kunden, die nur FPGA-Computing in ihr System einführen möchten und bereits über Speicher verfügen, die M.2 Onboard-Anschlüsse über eine verlustarme Molex-Hochgeschwindigkeitsverkabelung an OCuLink/Nano-Pitch oder MiniSAS HD NVMe Backplanes anschließen. Mit 1.143K System Logic Cells, 1.968 DSP Slices und 70,6 Mb eingebettetem Speicher ist der KU15P FPGA der größte Baustein der UltraScale+ Kintex FPGA-Serie und bietet eine beträchtliche Menge an konfigurierbaren Ressourcen zur Implementierung von Mehrwertfunktionen. Die integrierte DDR4-Speicherbank ermöglicht die zusätzliche Pufferung von tieferen Datenvektoren.

Der 250S+ ist in zwei Konfigurationen erhältlich:
  • Bis zu vier M.2 NMVe SSDs, die on-card mit dem Xilinx FPGA gekoppelt sind
  • OCuLink-Break-Out-Verkabelung, so dass das 250S+ Teil eines massiv skalierten Speicherarrays sein kann
Dieser kompakte Speicherknoten mit hoher Dichte bietet eine All-in-One-Lösung für Anwendungen, bei denen der Host Daten mit hoher Geschwindigkeit auf NVMe-Laufwerke lesen oder schreiben muss. Der integrierte FPGA-Baustein kann die Datenströme zum/vom Speicher effizient orchestrieren und verarbeiten und die Laufwerke als einen oder mehrere Namensräume darstellen oder RAID-Funktionen implementieren. Der 250S+ kann als Directly Attached Accelerator (DAA) verwendet werden, um Speicher zu virtualisieren, so dass NVMe-SSDs von mehreren virtuellen Maschinen gemeinsam genutzt werden können, was eine Isolierungs- und Sicherheitsebene zwischen der Host-CPU und den NVMe-SSDs schafft. Die programmierbare Logik des FPGAs bietet auch die Möglichkeit, Daten inline zu paketieren, zu komprimieren oder zu verschlüsseln, was sich nur geringfügig auf die Bandbreite und Latenz des Laufwerkszugriffs auswirkt. Die Erasure Coding IP von Xilinx führt beispielsweise zu einer vernachlässigbaren Latenz von 90 ns - eine weitaus bessere Leistung im Vergleich zu einer CPU-basierten Implementierung. Der 250S+ adressiert auch die Anwendungsfälle Checkpoint Restart oder Burst Buffer Caching und bietet eine einfache Caching-Lösung für virtualisierte und eigenständige AI- und IoT-Umgebungen.

Direkt angeschlossener Beschleuniger (DAA)

  • Virtualisierung des NVMe-Speichers und gemeinsame Nutzung durch mehrere virtuelle Maschinen
  • Isolierung des NVMe-Speichers zur Erhöhung der Sicherheit zwischen der Host-CPU und den NVMe-SSDs
  • 250S+ & 250-SoC

250-U2 Proxy In-Line-Beschleuniger

Das zweite Mitglied der 250-Serie ist das 250-U2. Dieses Accelerator-Board verfügt über ein Xilinx UltraScale+ Kintex 15P FPGA (wie das 250S+) und eine Bank mit DDR4-Speicher in einem 2,5"-U.2-Laufwerk. Im Gegensatz zum 250S+ verfügt der 250-U2 nicht über Onboard-SSDs, die direkt mit dem FPGA verbunden sind. Das neuartige Design dieses Beschleunigers ermöglicht den Einbau in bestehende U.2-Speicher-Backplanes in Systemen ohne dedizierte PCIe-Steckplätze für zusätzliche Rechenleistung neben dem bestehenden Standard-U.2-NVMe-Speicher. Dieses 250-U2-Produkt übernimmt die Rolle des Proxy In-Line Accelerators (PIA).

Die 250-U2 kann Inline-Komprimierung, Verschlüsselung und Hashing, aber auch komplexere Funktionen wie Erasure Coding, Deduplizierung, String-/Bildsuche oder Datenbanksortierung/-zusammenführung/-filter durchführen. Je nach den Rechenanforderungen einer Anwendung würde die Backplane-Population ein unterschiedliches Verhältnis von 250-U2-Karten für NVMe-Laufwerke aufweisen. Das 250-U2 befindet sich in der U.2-Backplane neben dem Speicher und verfügt über die gleichen Wartungsoptionen wie alle anderen standardmäßigen U.2-NVMe-Laufwerke, die die NVMe-MI-Spezifikation nutzen. Da sowohl der 250-U2-Verarbeitungsknoten als auch der Speicher direkt mit der PCIe-Struktur des Host-Servers verbunden sind, kann der DMA-Datenverkehr die CPU und den globalen Speicher vollständig umgehen, um die Endpunkt-zu-Endpunkt-Datenübertragung mit Technologien wie SPDK zu optimieren. Bei RDMA- oder Peer-to-Peer-DMA-Lösungen fließen die Daten direkt zwischen NVMe-Endpunkten und umgehen die CPU vollständig. Diese direkten Schnittstellen zum FPGA und zur programmierbaren MPSoC-Logik reduzieren die Zugriffslatenz erheblich (Lusinsky, 201721). Ein weiterer Anwendungsfall für diese Hardwareplattform ist die Nutzung als Offload-Compute-Engine, die sich gut in eine skalierbare FPGAaaS-Infrastruktur einfügen würde.

Proxy In-Line Accelerator (PIA)

  • Verarbeitung von lokalen NVMe-Speicherdaten mit niedriger Latenz und hoher Bandbreite
  • Mehrere Host-Formfaktoren 8-Lane-PCIe-Adapter oder 2,5"-U.2
  • 250S+ & 250-U2

250-SoC für NVMe-over-Fabric

Der dritte Beschleuniger der Serie, der 250-SoC, verfügt über einen Xilinx UltraScale+ Zynq 19EG MPSoC und kann sowohl über zwei QSFP28-Ports (25 Gbps Leitungsraten für 100GbE-Unterstützung) als auch über eine 16-Lane-PCIe-3.0-Host-Schnittstelle und vier 8-Lane-OCuLink-Anschlüsse mit der Netzwerk-Fabric verbunden werden. Der ZU19EG ist mit 1.143K System Logic Cells, 1.968 DSP Slices und 70,6 Mb Embedded Memory der größte Baustein seiner Serie. Die eingebetteten ARM-Verarbeitungs- und Grafikeinheiten im Bausteinpaket bilden die ideale Plattform für ein Produkt mit hybriden Verarbeitungsanforderungen.

Die Vielseitigkeit der 250-SoC-Hardware ermöglicht den direkten Zugriff auf den Speicher über das Netzwerk und unterstützt NVMe-over-Fabric. NVMe-oF ist das NVMe-Protokoll der nächsten Generation zur Disaggregation von Speicher über die Netzwerkstruktur und zur Remote-Verwaltung von Speicher; NVMe-oF bietet außerdem zusätzliche Flexibilität gegenüber SAS zur Einrichtung eines Netzwerk-Arrays bei Bedarf. Disaggregierter Speicher oder EJBOF-Hardware (Ethernet Just-a-Bunch-Of-Flash) reduziert die Speicherkosten, den Platzbedarf und den Stromverbrauch im Rechenzentrum.

Der Xilinx Zynq MPSoC Chip bietet zusätzliche Flexibilität für eingebettete Systeme. Das MPSoC-Board kann ein Betriebssystem und seinen kompletten Software-Stack unabhängig von einer Host-CPU ausführen. Mit seinen Netzwerkfunktionen mit hoher Bandbreite, die bis zu zwei 100GbE-Ports unterstützen, und dem Onboard-MPSoC macht der 250-SoC sowohl eine externe Netzwerkkarte (NIC) als auch einen externen Prozessor für NVMe-oF-Anwendungen überflüssig13. Die Implementierung einer FPGA-basierten NVMe-oF-Infrastruktur ist einfach und leistungsfähig, da die Daten nur über Hardwarepfade übertragen werden, was eine niedrige und vorhersehbare Latenzzeit ermöglicht.

NVMe-über-Fabric (NVMEoF)

  • Niedrige Latenz und hoher Durchsatz von NVMe-Frames über die Netzwerkstruktur des Rechenzentrums
  • 250-SoC

Das 250-SoC bietet eine flexible Reihe von Lösungen für die Speicherindustrie. Die 250S+ und die 250-SoC erfüllen den Bedarf an Virtualisierung und erhöhter Sicherheit, indem sie auf den Anwendungsfall Direct Attached Accelerator abzielen. Der 250-U2 und der 250S+ lassen sich als Proxy In-Line Accelerator einfach in eine bestehende Infrastruktur einfügen, um lokale Datenberechnungen mit niedriger Latenz und hoher Bandbreite für den NVMe-Speicher anzubieten. Und schließlich unterstützt das 250-SoC NVMe-over-Fabric als innovative, rein hardwarebasierte Methode zur Disaggregation des Speichers bei gleichzeitiger Unterstützung der neuesten Generation von NVMe-Protokollen. Da der NVMe-Markt weiter wächst, werden FPGAs und MPSoC-Lösungen die Anwendungsherausforderungen von NVMe-Produkten lösen.

NVMe-Anwendungen

Die NVMe-Technologie hat eine bahnbrechende Innovation im Bereich der Datenspeicherung gebracht und hat weitreichende Auswirkungen auf die Infrastruktur von Rechenzentren. Die Funktionen des Protokolls machen NVMe zur ersten Wahl, wenn es um die Entwicklung eines neuen Produkts oder einer Anwendung im Bereich der Speicherung geht.

Unternehmensanwendungen wie die Beschleunigung von Datenbanken erfordern niedrige Latenzzeiten sowie 4K- oder 8K-Datenschreibübertragungsraten mit hoher Bandbreite - zwei Anforderungen, die perfekt zu den Stärken des NVMe-Protokolls passen. Diese Eigenschaften machen NVMe zum Vorreiter bei der Implementierung von Redo-Logs, einem Anwendungsfall, bei dem viele Transaktionsdatensätze gespeichert werden und bei einem Ausfall der Datenbank später wiedergegeben werden können. Für diesen Anwendungsfall bringt der 250S+ bis zu 4 TB NVMe-Speicher direkt an den Rand der rekonfigurierbaren FPGA-Struktur, wo die Transaktionsdatensätze mit hoher Geschwindigkeit auf den SSDs gesammelt werden und für die Wiedergabe bereit sind14.

NVMe erleichtert auch die Herausforderungen virtualisierter Infrastrukturen und vereinfacht die Implementierung von VMs (virtuellen Maschinen), zustandslosen VMs und SRIOV, bei denen IO der häufigste Engpass ist. Bei zustandslosen VMs muss der IT-Manager Betriebssystem-Images sperren, die von den Anwendern im Unternehmen nicht geändert werden können. Die Benutzer ändern nur ihre Daten, und das Betriebssystem-Image bleibt im NVMe-Speicher unverändert; der Datenschutz und die Sicherheit zwischen den Benutzern sind entscheidend. In einer solchen IT-Infrastruktur wird der NVMe-Speicher von mehreren Benutzern gemeinsam genutzt. Der 250S+ ist eine All-in-One-Plattform zur Implementierung dieser Anwendung. Jedes physische 1-TB-Laufwerk wird durch die FPGA-IP geteilt, so dass jeder Benutzer einen getrennten und sicheren Zugriff auf sein Betriebssystem-Image und seine Daten erhält. Der Hypervisor verwaltet den direkten Zugriff auf einen Teil des Laufwerks, ohne dass ein Emulationstreiber erforderlich ist, was eine bessere Leistung für diese IO-gebundene Anwendung bietet.

Der "Big Data"-Markt bietet auch Chancen für intelligente NVMe-Produkte, die Speicherung und Verarbeitung kombinieren, da er sich von einem Stapelverarbeitungsansatz zu einer Echtzeitverarbeitungsmethodik wegbewegt. Map-Reduce-Probleme bewegen sich in Richtung Echtzeit-Analysen statt Stapelverarbeitung und benötigen daher eine neue Speicherebene, die viel schneller ist als das GFS-Backend. Das in IT-Infrastrukturen übliche Storage-Tiering trennt kalten Speicher, auf den selten zugegriffen wird und der eine geringe Geschwindigkeit aufweist, von sehr schnellen SSDs, NVMe- oder NVM-Speichern. In diesem Anwendungsfall werden alle Daten im GDFS gespeichert, dann aber auf einen Rechenknoten mit schnellerem Speicher verschoben. Der 250-SoC, der NVMe-over-Fabric implementiert, erfüllt beide Anforderungen, da er Zugang zu Hochgeschwindigkeits-Speicher und Hochleistungs-Rechenfunktionen bietet.

Die Deep-Learning-Branche hat ähnliche Anforderungen wie die Welt der Analytik. Die neue Generation von Beschleunigern für Deep Learning, d. h. GPGPUs, TPUs und FPGAs, benötigen eine große Speicherbandbreite, um mit den Rechenleistungen der Chips Schritt zu halten. Die Trainingsoperationen verbrauchen einen großen Teil dieser Daten mit hohem Durchsatz, oft mehrere Terabyte15. Jüngste Forschungsarbeiten zeigen, dass die FPGA-Fabric die Trainingsoperationen bestimmter Netzwerktypen beschleunigen kann. Durch die Kombination von Speicher- und Rechenmodul auf einer Hardwareplattform wird die Latenzzeit verringert, so dass mehr Umschulungszyklen möglich sind, wenn der Trainingsdatensatz wächst16.

Im HPC-Bereich gibt es für den lokalen Speicher des 250S+ und die Remote-Version mit dem 250-SoC verschiedene Anwendungen wie Checkpoint/Restart, Burst-Buffer, verteilte Dateisysteme oder das Caching der Auftragsdaten von einem Scheduler. Indem der Algorithmus in der Nähe des Speichers auf der FPGA-Fabric ausgeführt wird, bleibt der Platzbedarf der FPGA-Anwendung gering, während der Speicher vollständig genutzt wird und die CPU für andere Verarbeitungsaufgaben frei bleibt. Anstatt die Daten einfach zu speichern oder die Host-CPU zum Komprimieren oder Verschlüsseln der In-Memory-Datenbanken zu verwenden, bei denen Gigabytes von Daten im flüchtigen Speicher gehalten werden, aber regelmäßig in Flash gesichert werden müssen. Ein FPGA-basiertes System kann diese Snapshots von Daten für die dauerhafte Speicherung in großen NVMe-basierten Speicher-Arrays verarbeiten. Für diese Art von Betrieb ist der MPSoC besonders gut geeignet, um komplexere Operationen mit den Benutzerdaten durchzuführen.

Im IoT-Bereich schließlich besteht Bedarf an Datenfilterung und -vorverarbeitung auf IoT-Gateways, wo die Aggregation stattfindet, sowie an der Verschlüsselung von Daten nach dem Empfang. Der FPGA verarbeitet Datenströme in Echtzeit mit Bit-Operationen wie Verschlüsselung oder Komprimierung und speichert die Daten mit dem 250S+ an Bord oder gibt sie mit dem kabelgebundenen 250S+ oder dem 250-SoC an die Speicher-Backplane mit der Eingangsbandbreite weiter. FPGAs sind auch die Plattform der Wahl bei Blockchain-Berechnungen. Die Blockchain-Technologie bringt eine Differenzierung für IoT-Gateways, um eine adaptive und sichere Methode zur Wahrung der Datenschutzpräferenzen von IoT-Geräten zu bieten17.

BittWare's Fähigkeiten

Seit über zwanzig Jahren unterstützt BittWare Branchenspezialisten bei der Einführung von FPGAs in ihrer Infrastruktur, um Arbeitslasten zu entwerfen, zu entwickeln und zu optimieren. In dieser Zeit haben die Compute- und Netzwerklösungen von BittWare den Kunden in verschiedenen Branchen wie HPC, Finanzen, Genomik und Embedded Computing einen Wettbewerbsvorteil verschafft. BittWare kombiniert Hardware-, Software- und Systemdesign-Fachwissen, um Kunden zu unterstützen, die die Vorteile von FPGA-Technologien in ihren Produkten maximieren möchten.

Für die 250-Beschleuniger-Serie hat BittWare eine Reihe von Xilinx UltraScale+-Bausteinen und PCIe-Formfaktoren ausgewählt, um ein umfassendes Lösungsangebot für Speicherinfrastruktur-Architekten zu schaffen. Diese Beschleuniger verbinden die programmierbare Logik der Xilinx-Bausteine direkt mit dem Infrastrukturnetzwerk und der PCIe-Fabric über Hochgeschwindigkeitsschnittstellen der letzten Generation (100GbE und PCIe 3.0). Darüber hinaus bietet die 250er Serie durch die Nutzung der Fähigkeiten der BittWare-Muttergesellschaft Molex eine hohe Flexibilität bei der Anbindung bestehender Hardware. Molex ist ein branchenführender Anbieter von verlustarmen Ultra-Hochgeschwindigkeitskabeln und Verbindungslösungen.

Schlussfolgerung

NVMe hat die Speicherbranche in rasantem Tempo verändert und tut dies auch weiterhin. Diese neue Speichertechnologie mit hohem Durchsatz bietet eine flexible Speicherlösung für IT-Infrastrukturen. NVMe bietet nicht nur eine höhere Bandbreite für das Schreiben und Lesen von Daten im Vergleich zu Speichern der vorherigen Generation, sondern nutzt auch die aktuelle PCIe- und Netzwerkstruktur bestehender Rechenzentren. Da NVMe immer beliebter wird, bringen innovative Unternehmen der Branche neue Produkte auf den Markt, die NVMe unterstützen. Die gesamte Grundausstattung von Rechenzentren wird aktualisiert, um NVMe zu unterstützen; NVMe-Speicher-Backplanes sind jetzt die neue Norm.

FPGA-basierte Produkte für NVMe ermöglichen die Verschmelzung der Rechenleistung mit dem Speicher auf Hardwareebene, um eine höhere Anwendungsleistung zu erreichen. Bei FPGAs ist die Verarbeitung der rekonfigurierbaren Logik über eine Pipe mit hohem Durchsatz und niedriger Latenz direkt mit dem Speicher verbunden. Aufgrund dieser Eigenschaften können Daten durch das FPGA fließen und in Echtzeit verarbeitet werden. Außerdem werden durch die FPGA-Verarbeitung die CPU-Kerne frei für andere Aufgaben, die nur auf dem Prozessor ausgeführt werden können. Mit MPSoCs stehen dem System zusätzliche Funktionen zur Verfügung, die Hochgeschwindigkeitsdatenverarbeitung und -steuerung auf dem Gerät kombinieren, das potenziell autonom laufen kann.

Die FPGA- und MPSoC-basierten Speicherprodukte von BittWare wurden entwickelt, um die Anforderungen von realen Anwendungen zu erfüllen und die Herausforderungen von IT-Infrastrukturmanagern zu lösen. BittWare bietet mit der 250er-Produktreihe einen Weg zur Produktion.

Referenzen

  1. McDowell S. (2018). Storage Industry 2018: Predictions For The Year To Come. Forbes. Abgerufen am 4. Juni 2018, von: https://www.forbes.com/sites/moorinsights/2018/01/24/storage-industry-2018-predictions-for-the-year-to-come.
  2. Ahmad M. (2017). Vier zu beachtende Trends bei NVMe-basierten Speicherdesigns. Electronic Designs. Abgerufen am 8. Juni 2018, von: https://www.electronicproducts.com/Computer_Peripherals/Storage/Four_trends_to_watch_in_NVMe_based_storage_designs.aspx
  3. G2M Research (2018). G2M Research NVMe Ecosystem Market Sizing Report. G2M Research. Abgerufen am 6. Juni 2018, von: http://g2minc.com/g2m-research-nvme-ecosystem-market-sizing-report
  4. Mehta N. (2015). Mehr Leistung und Integration mit dem UltraScale+ Portfolio. Xilinx. Abgerufen am 8. Juni 2018, von: https://www.xilinx.com/support/documentation/white_papers/wp471-ultrascale-plus-perf.pdf
  5. Allen D., & Metz J. (2018a). Die Entwicklung und Zukunft von NVMe. Bright Talk. Abgerufen von: https://www.brighttalk.com/webcast/12367/290529.
  6. Nuncic (2017). Mehr Geschwindigkeit für Ihre SSD - NVME wird voraussichtlich SATA und SAS in der Zukunft ablösen. OnTrack. Abgerufen am 8. Juni 2018, von: https://www.ontrack.com/blog/2017/09/15/nvme-replace-sata-sas/.
  7. Adshead A. (2017). Speicher-Briefing: NVMe vs. SATA und SAS. Computer Weekly. Abgerufen am 8. Juni 2018, von: https://www.computerweekly.com/feature/Storage-briefing-NVMe-vs-SATA-and-SAS.
  8. Rollins D. (2017). Der Geschäftsfall für NVMe PCIe SSDs. Micron website. Abgerufen von: https://www.micron.com/about/blogs/2017/july/the-business-case-for-nvme-pcie-ssds
  9. Allen D., & Metz J. (2018b). On the Horizon for NVMe Technology: Q&A on the Evolution and Future of NVMe Webcast. NVM Express. Abgerufen von: https://nvmexpress.org/on-the-horizon-for-nvme-technology-qa-on-the-evolution-and-future-of-nvme-webcast/.
  10. MaharanP. (2018). Ein Überblick über optionale NVMe-Funktionen für die Anpassung von Cloud-SSDs. Seagate Blog. Abgerufen von: https://blog.seagate.com/intelligent/a-review-of-nvme-optional-features-for-cloud-ssd-customization/
  11. Martin B. (2017). I/O Determinism and Its Impact on Datacenters and Hyperscale Applications. Flash Memory Summit 2017. Abgerufen von: https://www.flashmemorysummit.com/English/Collaterals/Proceedings/2017/20170808_FB11_Martin.pdf
  12. Leibso S. (2016). IBM und Nallatech zeigen CAPI Flash auf dem OpenPOWER Summit in San Jose. Xcell Daily Blog. Abgerufen am 4. Juni 2018, von: https://forums.xilinx.com/t5/Xcell-Daily-Blog/IBM-and-Nallatech-demo-CAPI-Flash-at-OpenPOWER-Summit-in-San/ba-p/691256.
  13. SakalleyD. (2017). Verwendung von FPGAs zur Beschleunigung von NVMe-oF-basierten Speichernetzwerken. Flash Memory Summit. Abgerufen am 7. Juni 2018, von: https://www.flashmemorysummit.com/English/Collaterals/Proceedings/2017/20170810_FW32_Sakalley.pdf
  14. Rollins J. D. (n.d.). Redo-Log-Dateien und Backups. Wake Forest Universität. Abrufbar unter: http://users.wfu.edu/rollins/oracle/archive.html
  15. Wahl M., Hartl D., Lee W., Zhu X., Menezes E., & Tok W. H. (2018). How to Use FPGAs for Deep Learning Inference to Perform Land Cover Mapping on Terabytes of Aerial Images. Microsoft Blog.
  16. Teich D. (2018). Management AI: GPU und FPGA, warum sie für künstliche Intelligenz wichtig sind. Forbes. Abgerufen von: https://www.forbes.com/sites/davidteich/2018/06/15/management-ai-gpu-and-fpga-why-they-are-important-for-artificial-intelligence/#6bf2ff171599.
  17. Cha S. C., Chen J. F., Su C., & Yeh K. H. (2018). Blockchain Connected Gateway for BLE-Based Devices in the Internet of Things. IEEE Access. Abgerufen von: https://ieeexplore.ieee.org/document/8274964/
  18. Alcorn (2017). Hot Chips 2017: Wir werden PCIe 4.0 dieses Jahr sehen, PCIe 5.0 in 2019. Tom's Hardware. Abgerufen am 8. Juni 2018, von: https://www.tomshardware.com/news/pcie-4.0-5.0-pci-sig-specfication,35325.html.
  19. Caulfield L. (2018). Projekt Denali zur Definition flexibler SSDs für Anwendungen im Cloud-Maßstab. Azure Microsoft. Abgerufen am 6. Juni 2018, von: https://azure.microsoft.com/en-us/blog/project-denali-to-define-flexible-ssds-for-cloud-scale-applications/.
  20. Ismail N. (2017). Flash-Speicher: Die Transformation der Speicherindustrie. Information Age. Abgerufen am 4. Juni 2018, von: http://www.information-age.com/flash-storage-transforming-storage-industry-123465174/
  21. Lusinsky R. (2017). 11 Mythen über RDMA over Converged Ethernet (RoCE). Electronic Design. Abgerufen am 9. Juni 2018, von: http://www.electronicdesign.com/industrial-automation/11-myths-about-rdma-over-converged-ethernet-roce
  22. Miller R. (2017). Der neue Power9-Chip von IBM wurde für KI und maschinelles Lernen entwickelt. Tech Crunch. Abgerufen am 8. Juni 2018, von: https://techcrunch.com/2017/12/05/ibms-new-power9-chip-architected-for-ai-and-machine-learning/.
  23. Peng V. (2015). 16nm UltraScale+ Series von Victor Peng, EVP & GM. Xilinx. Abgerufen am 8. Juni 2018, von: https://www.xilinx.com/video/fpga/16nm-ultrascale-plus-series.html
  24. Vaid K. (2018). Microsoft schafft Branchenstandards für die Speicherung und Sicherheit von Hardware im Rechenzentrum. Azure Blog. Abgerufen von: https://azure.microsoft.com/en-us/blog/microsoft-creates-industry-standards-for-datacenter-hardware-storage-and-security/
  25. Abgerufen von: https://blogs.technet.microsoft.com/machinelearning/2018/05/29/how-to-use-fpgas-for-deep-learning-inference-to-perform-land-cover-mapping-on-terabytes-of-aerial-images/