IA-780i FPGA Accelerator with Intel Agilex 7 FPGA
IA-780i 400G + PCIe Gen5 Single-Width Card Compact 400G Card with the Power of Agilex The Intel Agilex 7 I-Series FPGAs are optimized for applications
近年來,向基於 NAND 快閃記憶體的儲存遷移以及非易失性記憶體 Express® (NVMe™) 的引入,使技術公司以不同的方式“ 做記憶體的機會成倍增加 1。即時數字業務的快速增長和多樣性要求這種創新能夠實現新的產品和服務。
近年來,向基於 NAND 快閃記憶體的儲存遷移以及非易失性記憶體 Express® (NVMe™) 的引入,使技術公司以不同的方式“ 做記憶體的機會成倍增加 1。即時數字業務的快速增長和多樣性要求這種創新能夠實現新的產品和服務。因此,新的存儲產品遵循了更高頻寬、更低延遲、佔用空間和總擁有成本減少的趨勢,這對於依賴大型基礎架構的公司來說是至關重要的改進。最近的市場報告2預測,到2020年,NVMe市場將以約15%的複合年增長率增長,達到570億美元。NVMe市場不斷發展,並在三個領域尋求進一步的技術創新:
2018年3月,BittWare發佈了250系列FPGA產品,該產品提供創新的解決方案,以滿足存儲市場的需求。這款 250 系列產品採用 Xilinx® UltraScale+ ™ FPGA 和 MPSoC,可在單晶片中提供 ASIC 級功能,滿足存儲行業的技術需求6。通過將NVMe與可重構邏輯FPGA和MPSoC相結合,BittWare正在提供一類新的存儲產品,在快速發展的市場中具有關鍵的差異化優勢;Xilinx 器件的靈活性和可重新配置性保證了基於 20 的解決方案可以保持最新狀態,因為 NVMe 標準隨著時間的推移引入了新功能5。
本應用筆記介紹了如何使用BittWare的250系列FPGA和MPSoC加速器產品,使客戶能夠為下一代物聯網和雲基礎設施構建高性能、可擴展的NVMe基礎設施。
自2011年NVMe成立以來,NVMe聯盟一直非常活躍。事實上,NVMe協定目前正在從不同規範中定義的三個角度發展。除了基本的 NVMe 規範之外,NVMe 管理介面 (NVMe-MI) 還詳細介紹了如何管理通信和設備(設備發現、監視等),以及 NVMe over Fabric (NVMe-oF) 驅動器如何通過網路與非易失性存儲進行通信,以將協定呈現為傳輸不可知項9。
隨著時間的推移,隨著來自各行各業的更多用戶開始採用NVMe,新使用者描述了他們對新功能的需求,併為規範引入了新的想法。NVMe協議的採用仍在增長,並且正在產生創新。硬體和軟體公司正在通過引入新的外形尺寸,創建新的產品和設備等來尋找新的方法來獲取記憶體。NVMe 生態系統的重點是為使用者提供擴展到數據中心或超大規模基礎架構的方法,協定規範將繼續朝著這個方向發展9。
2019年將發佈NVMe基本規範的修訂版1.4,這將改善數據延遲,高性能訪問非易失性數據以及多個主機之間的數據共用便利。NVMe使用者,特別是雲供應商所期待的功能之一是IO確定性,它將在IO10並行執行期間提高服務品質。通過將後台維護任務的影響限制在最低限度並包含嘈雜鄰居的影響,IO 確定性功能將在訪問非易失性數據時為使用者提供一致的延遲。另一種方法是前面討論的開放渠道架構11。使用第二種方法,主機接管一些管理功能,只有數據傳輸到存儲硬體。在這種配置中,驅動器與主機的物理介面僅限於高速數據通道,沒有邊帶通道。此示例顯示了 NVMe 規範中任何更改的影響和相關性,並突出顯示了對靈活的 NVMe 硬體基礎結構的要求。
隨著基礎,MI和Over Fabric規範的新版本在未來幾個月內推出,NVMe使用者將受益於靈活的基礎,可以適應新的NVMe要求。250 系列 FPGA 和 MPSoC 產品既提供了這種靈活性,又解決了當今客戶面臨的挑戰,並為他們提供了直接的競爭優勢。
BittWare 的 FPGA 和 MPSoC 產品採用最新的 Xilinx UltraScale+ 技術,可滿足日益關注 NVMe 的數據中心的需求。三十多年來,FPGA已為多個行業提供了可程式設計硬體解決方案,並廣泛用於解決汽車、廣播、醫療和軍事市場等市場的計算和嵌入式系統問題。同時,近年來,FPGA製造商為這種成熟的技術引入了最新和最偉大的集成系統設計改進。
Xilinx UltraScale+ FPGA 和 MPSoC 產品採用 16nm 工藝,通過提供高速架構、嵌入式 RAM、時鐘和 DSP 處理來提高系統性能。此外,Xilinx 器件還引入了更快的收發器技術(高達 32.75 Gb/s),以實現與網路或 PCIe 結構的更高輸送量連接。憑藉其高數量的串行收發器通道,UltraScale+ 產品可以同時連接到多個PCIe介面,並為主機 CPU 提供數據卸載介面。在某些情況下,通過將PLX交換機替換為FPGA或MPSoC,CPU可以卸載其部分處理並釋放用於其他操作。FPGA和MPSoC的可程式設計邏輯還在系統中提供了確定性和低延遲的介面,在某些用例中可以提供明顯的競爭優勢。
最近的FPGA系列現在還包括器件結構中的嵌入式低功耗微處理器。UltraScale+ MPSoC 通過將軟體和可程式設計邏輯組合到單個封裝中,滿足了需要軟體和可程式設計邏輯的應用需求。例如,Xilinx Zynq UltraScale+ ZU19EG 具有兩個處理單元,一個四核 ARM Cortex-A53 和一個實時雙核 ARM Cortex-R5,此外還有一個圖形處理單元 ARM Mali-400™ MP2,適用於具有混合計算需求的應用。ZU19EG MPSoC 器件是一款用途非常廣泛的晶片,特別適用於基於結構或開放通道的 NVMe 實現,其中可程式設計邏輯為存儲數據提供低延遲確定性路徑,ARM 內核執行複雜的數據包控制操作或替換無 CPU 嵌入式系統中的主機 CPU。
在過去幾年中,BittWare一直處於存儲行業的最前沿,並通過開發基於NVMe技術的產品為其創新增長做出了貢獻。BittWare認識到FPGA可以減少I / O瓶頸,併為NVMe固態硬碟提供直接的高速確定性路徑。早在 2015 年,BittWare 就與 Xilinx 和 IBM 合作開發了一款創新的 NoSQL 資料庫解決方案12。250 系列 FPGA 和 MPSoC 板以該初始產品的成功為基礎,為伺服器存儲背板增加了更深、更快速的板載記憶體、網路連接、片上系統和佈線選項等功能。
250 FPGA和MPSoC產品線包括三個FPGA適配器,250S +,250-U2和250-SoC,可連接到各種行業標準外形尺寸,如PCIe插槽,OCuLink / Nano-Pitch,SlimSAS,MiniSAS HD,U.2存儲背板等。250 系列產品可直接整合到現有基礎設施的 PCIe 結構中,以便直接以低延遲方式訪問 NVMe 儲存設備。
250S+ 直連式加速器
該系列的第一個加速器是250S +。這款 FPGA 加速器採用一個 Xilinx UltraScale+ Kintex 15P FPGA 和 4 個板載四通道 1TB M.2 NVMe 驅動器(非易失性快閃記憶體總量為 4TB),外形扁平 8 通道半高半長 PCIe 兼容。或者,對於只想在其系統中引入 FPGA 計算並且已經擁有可用儲存的客戶,M.2 板載連接器可以使用 Molex 低損耗高速佈線技術將電纜連接到 OCuLink/Nano-Pitch 或 MiniSAS HD NVMe 背板。KU15P FPGA 具有 1,143K 系統邏輯單元、1,968 個 DSP 片和 70.6 Mb 嵌入式記憶體,是 UltraScale+ Kintex FPGA 系列中最大的器件,提供大量可配置資源來實現增值功能。板載 DDR4 記憶體組允許對更深層次的數據向量進行額外的緩衝。
直接附加加速器 (DAA)
250系列的第二個成員是250-U2。該加速器板採用 Xilinx UltraScale+ Kintex 15P FPGA(與 250S+相同)和一組 DDR4 記憶體,採用 2.5 英寸 U.2 驅動器外形。與250S +不同,250-U2沒有任何直接連接到FPGA的板載SSD。該加速器的新穎設計使其能夠適應系統中現有的 U.2 存儲背板,而無需專用 PCIe 插槽,從而在現有標準 U.2 NVMe 儲存旁邊提供額外的計算能力。這款 250-U2 產品扮演著代理在線加速器 (PIA) 的角色。
250-U2 可以執行內聯壓縮、加密和哈希,還可以執行更複雜的功能,如糾刪碼、重複數據刪除、字串/圖像搜索或資料庫排序/聯接/篩選。根據應用的計算需求,背板填充將顯示 NVMe 驅動器的 250-U2 板的不同比率。250-U2 位於 U.2 背板上,與儲存設備並排,具有與利用 NVMe-MI 規範的任何其他標準 U.2 NVMe 驅動器相同的維護選項。由於 250-U2 處理節點和存儲都直接連接到主機伺服器的 PCIe 結構,因此 DMA 數據流量可以完全繞過 CPU 和全域記憶體,從而使用 SPDK 等技術優化端點到端點的數據傳輸。使用 RDMA 或對等 DMA 解決方案,數據直接在 NVMe 端點之間流動,完全繞過 CPU。這些直接介面到FPGA和MPSoC可程式設計邏輯中,顯著降低了訪問延遲(Lusinsky,201721)。或者,此硬體平臺的另一個用例是作為卸載計算引擎,非常適合 FPGAaaS 可擴展基礎架構。
代理線上加速器 (PIA)
該系列的第三個加速器 250-SoC 採用 Xilinx UltraScale+ Zynq 19EG MPSoC,可通過兩個 QSFP28 埠(25Gbps 線速,支援 100GbE)連接到網路結構,或通過 16 通道 PCIe 3.0 主機介面和四個 8 通道 OCuLink 連接器連接到 PCIe 結構。ZU19EG是其系列中最大的器件,擁有1,143K系統邏輯單元,1,968個DSP片和70.6 Mb嵌入式記憶體。設備封裝中的嵌入式 ARM 處理和圖形單元為具有混合處理要求的產品創造了理想的平臺。
250-SoC 硬體多功能性允許從網路直接訪問存儲,並支援 NVMe-over-Fabric。NVMe-oF是下一代NVMe協議,用於通過網路結構分解存儲並遠端管理存儲;NVMe-oF 還提供了比 SAS 更靈活的功能,可以按需設置網路陣列。分解存儲或EJBOF(乙太網只是一束快閃記憶體)硬體可降低數據中心的存儲成本、佔用空間和功耗。
Xilinx Zynq MPSoC 晶片為嵌入式系統提供了額外的靈活性。MPSoC 板可以獨立於主機 CPU 運行作業系統及其完整的軟體堆疊。憑藉其支援多達兩個 100GbE 連接埠的高頻寬網路功能和板載 MPSoC,250-SoC 無需為 NVMe-oF 應用提供外部網路介面卡 (NIC) 和外部處理器13。基於FPGA的NVMe-oF基礎設施的實現簡單且高性能,因為數據僅通過硬體路徑進行跟蹤,從而提供了低且可預測的延遲解決方案。
NVMe-over-Fabric (NVMEoF)
250-SoC 為存儲行業提供了一系列靈活的解決方案。250S+ 和 250-SoC 透過針對直連加速器用例,滿足了虛擬化需求並提高安全性。250-U2 和 250S+ 可作為代理串聯加速器輕鬆插入到現有基礎設施,為 NVMe 儲存提供低延遲和高頻寬的本地數據計算。最後,250-SoC 支援 NVMe-over-Fabric 作為一種純硬體的創新方法,用於分解存儲,同時支援最新一代 NVMe 協定。隨著NVMe市場的持續增長,FPGA和MPSoC解決方案將解決NVMe產品的應用挑戰。
NVMe 技術為存儲帶來了顛覆性創新,並對數據中心基礎架構產生了深遠的影響。該協定的功能使 NVMe 成為設計涉及存儲的新產品或應用時的首選。
資料庫加速等企業應用需要低延遲以及高頻寬 4K 或 8K 數據寫入傳輸速率,這是完全符合 NVMe 協定優勢的兩個要求。這些特徵使 NVMe 成為實現重做日誌的領導者,例如,存儲許多事務記錄的用例,如果資料庫出現故障,則用於將來重播。對於此用例,250S+ 將高達 4TB 的 NVMe 儲存直接帶到 FPGA 可重構結構的邊緣,在那裡事務記錄高速收集到 SSD,準備重放14。
NVMe 還緩解了虛擬化基礎架構的挑戰,並簡化了 VM(虛擬機)、無狀態 VM 和 SRIOV 的實施,其中 IO 是最常見的瓶頸。在無狀態 VM 用例中,IT 經理需要鎖定企業使用者不修改的操作系統映像。使用者只需修改其數據,操作系統映射在NVMe存儲中保持不變;用戶之間的隱私和安全至關重要。對於此類 IT 基礎架構,NVMe 儲存由多個用戶共用。250S+ 是實現此應用的一體化平臺。每個 1TB 物理驅動器由 FPGA IP 劃分,因此每個使用者都可以隔離安全地訪問其作業系統映像和數據。虛擬機監控程式管理對驅動器部分的直接訪問,而無需模擬驅動程式,從而為此IO有界應用程式提供更好的性能。
“大數據”市場也為結合存儲和處理的智慧NVMe產品帶來了機會,因為它正在從批處理方法轉向實時處理方法。Map reduce 問題正在轉向即時分析而不是批處理,因此,他們需要一個比 GFS 後端快得多的新存儲層。現在在IT基礎設施中看到的儲存分層將很少訪問的冷存儲和低速分離到非常快的SSD,NVMe或NVM記憶體。在此用例中,所有數據都記錄在 GDFS 中,但隨後將其移動到具有更快記憶體的計算節點。實施 NVMe-over-Fabric 的 250-SoC 滿足了這兩個要求,因為它可以訪問高速存儲和高性能計算功能。
深度學習行業與分析領域有著相似的需求。用於深度學習的新一代加速器,即GPGPU,TPU和FPGA;這些設備需要大記憶體頻寬來匹配晶元的計算能力。訓練操作會消耗大量這種高輸送量數據,通常為數 TB15。最近的研究表明,FPGA架構可以加速某些網路類型的訓練操作。因此,將存儲和計算引擎合併到一個硬體平臺上可以減少延遲,從而隨著訓練數據集的增加而允許更多的重新訓練週期16。
在 HPC 空間中,250S+ 的本地存儲和具有 250-SoC 的遠端版本具有多個應用程式,如檢查點/重新啟動、突發緩衝區、分散式檔系統或從調度程式緩存作業數據。通過在靠近 FPGA 架構上的儲存位置運行演算法,FPGA 應用的佔用空間保持較低,同時充分利用存儲並保持 CPU 可用以用於其他處理作業。而不是簡單地存儲數據或使用主機CPU來壓縮或加密記憶體資料庫,其中千兆位元組的數據保存在易失性記憶體中,但需要定期備份到快閃記憶體中。基於 FPGA 的系統可以處理這些數據快照,以便永久存儲在基於 NVMe 的大型記憶體陣列中。對於這種類型的操作,MPSoC 特別適合對用戶數據執行更複雜的操作。
最後,在物聯網領域,需要在物聯網閘道上進行數據過濾和預處理,其中發生聚合以及在接收數據后對數據進行加密,FPGA通過加密或壓縮等位操作即時處理數據流,並使用250S +將數據存儲在板上,或者通過電纜250S +或250-SoC將其傳遞到輸入頻寬的存儲背板。也是區塊鏈計算的首選平臺。區塊鏈技術為物聯網閘道帶來了差異化,提供了一種自適應和安全的方法,以維護物聯網設備的用戶隱私偏好17。
二十多年來,BittWare一直幫助行業專家在其基礎架構中引入FPGA,以設計,開發和優化工作負載。在此期間,BittWare計算和網路解決方案為HPC,金融,基因組學和嵌入式計算等各個行業的客戶提供競爭優勢。BittWare結合了硬體、軟體和系統設計專業知識,以指導客戶在其產品中最大限度地發揮FPGA技術的優勢。
在 250 加速器系列中,BittWare 選擇了各種 Xilinx UltraScale+ 器件和 PCIe 外形規格,為存儲基礎設施架構師提供完整的解決方案。這些加速器通過上一代 100GbE 和 PCIe 3.0 高速介面將 Xilinx 器件的可程式設計邏輯直接連接到基礎設施網路和 PCIe 結構。此外,使用BittWare母公司Molex的功能,250系列為連接現有硬體提供了高度的靈活性。Molex是超高速低損耗電纜和互連解決方案的行業領導者。
NVMe已經並仍在快速改變存儲行業。這種新的高輸送量存儲技術為 IT 基礎架構提供了靈活的儲存解決方案。與上一代存儲相比,NVMe 不僅提供卓越的數據寫入和讀取頻寬,還利用現有數據中心的當前 PCIe 和網路結構。隨著NVMe變得越來越流行,行業創新者正在推出支援NVMe的新產品。所有基本的數據中心設備都在更新,以支援NVMe;NVMe儲存背板現在是新常態。
基於 FPGA 的 NVMe 產品允許計算在硬體級別與儲存合併,以達到更高的應用性能。使用 FPGA,可重構邏輯的處理通過高輸送量和低延遲管道直接附加到存儲。由於這些特性,數據可以流經FPGA並實時處理。此外,通過使用 FPGA 處理,CPU 內核可以自由地執行只能在處理器上運行的其他任務。借助 MPSoC,系統可以使用其他功能,並將高速數據處理與設備上的控制相結合,從而可能自主運行。
BittWare FPGA和基於MPSoC的儲存產品旨在滿足實際應用程式的需求,並解決IT基礎架構經理的挑戰。BittWare通過250產品系列提供了生產途徑。
IA-780i 400G + PCIe Gen5 Single-Width Card Compact 400G Card with the Power of Agilex The Intel Agilex 7 I-Series FPGAs are optimized for applications
REFERENCE DESIGN MAU Accelerator for AI Financial Trading Models Ultra-low Latency, High Throughput Machine Learning Inference Well suited to a range of applications in financial
CUSTOM PRODUCT DEVELOPMENT Design + Manufacturing from BittWare, a Molex Company Custom Product Development Design + Manufacturing from BittWare, a Molex Company Build on our
White Paper FPGA-Accelerated NVMe Storage Solutions Using the BittWare 250 series accelerators Overview In recent years, the migration towards NAND flash-based storage and the introduction