BittWare 網路研討會

使用英特爾 ® Agilex™ FPGA 的 Arkville PCIe Gen4 數據行動器網路研討會

Atomic Rules的 Arkville IP 最近進行了更新,以支援英特爾Agilex FPGA,包括BittWare最新IA系列產品上的那些。Arkville 通過 PCIe Gen4 x16 以高達 220 Gb/s 的速度移動數據。

在本次網路研討會中,您將聽到 BittWare 的 Jeff Milrod 介紹支援英特爾 Agilex FPGA 的產品,以及數據行動器 IP 在各種市場中的應用。來自英特爾的Tom Schulte將介紹Agilex產品線,包括PCIe Gen5支援等未來功能。

最後,我們將在Atomic Rules上與Shep Siegel一起進行演示,並解釋Agilex FPGA上使用Arkville數據行動器IP在短時間內實現的性能。他將深入瞭解Arkville如何縮短上市時間,並在不犧牲性能的情況下使開發更容易。

觀看下面的網路研討會,包括現場活動的錄製問答環節。

揚聲器

傑夫·米羅德 | BittWare首席技術和戰略官
湯瑪斯·舒爾特·| 產品線 Mgr., FPGA 產品, 英特爾®可程式設計解決方案組
謝潑德·西格爾| 原子規則首席技術官
 

歡迎參加我們的網路研討會: 使用英特爾 FPGA 的 Arkville PCIe Gen4 數據移動。我是BittWare的Marcus。

讓我簡要介紹一下我們的演講者以及他們將要介紹的內容。

首先是BittWare的首席技術和戰略官 Jeff Milrod。他將介紹以Agilex FPGA為特色的BittWare產品線,並介紹BittWare的IP合作夥伴和解決方案。

接下來,英特爾的 Tom Schulte 將專注於英特爾 Agilex FPGA,包括一些即將推出的行動資料功能。

我們將以Atomic Rules的 Shep Siegel 結束。Shep 將帶領我們瞭解 Arkville,包括一個演示在 BittWare 的 IA-840F 卡上運行的 Gen4 x16 數據移動,該卡採用英特爾 Agilex FPGA。

之後我會回來把你的問題直播。

現在交給傑夫讓我們開始吧!


傑夫·米羅德 | BittWare首席技術和戰略官

大家好。感謝您今天參加我們的會議。正如Marcus剛才所說,我的名字是Jeff Milrod,我是BittWare的首席技術和戰略官。對於那些不熟悉我們的人來說,BittWare是Molex的一部分。具體而言,我們是數據通信和專業解決方案集團內的一個營業單位。作為 Molex 的一部分,正如您在此幻燈片上看到的那樣,我們可以獲得內部製造和全球物流能力。

BittWare現在在各種市場擁有超過30年的FPGA經驗和專業知識。在此期間,我們擴大了產品範圍,不僅包括企業級FPGA硬體平臺,還包括系統集成、工具支援、參考設計和應用IP,使我們的客戶能夠以低風險快速部署其解決方案。我們是英特爾合作夥伴聯盟計劃的一部分,在過去 20 年中開發了高端 FPGA 加速器和主機板,每一代 Altera 和英特爾 FPGA 均採用。

我們通過 Molex 將傳統、專業知識和全球影響力融為一體,使 BittWare 具有獨特的資格,使客戶能夠利用和部署 FPGA 技術來滿足其苛刻的應用和工作負載。從廣義上講,BittWare的加速平臺針對此處顯示的四種不同的應用和市場領域:計算,網路,存儲和感測器處理。這些應用程式和市場中的每一個都很複雜,涵蓋了各種各樣的工作負載。我們在這裡展示一些例子。

就個人而言,我已經在BittWare工作了幾十年,在那段時間里,我們專注於通過提供可靠的硬體平臺來駕馭FPGA加速器的前沿浪潮,使人們能夠開發,部署加速解決方案。Agilex將成為我們第七代基於Altera/Intel的FPGA解決方案,在那段時間里,我不記得曾經像對Agilex那樣對新一代技術如此興奮。

這些是真正有能力的引擎,我認為它們在性能方面已經取得了飛躍,並將使我們能夠使用戶能夠加速比過去更多的應用程式和工作負載。英特爾的第一波 Agilex FPGA 是 F 系列,BittWare 利用它生產了我們恰如其分的 F 系列產品系列,如圖所示。我們將來會推出 I 系列和 M 系列零件...我們一會兒再談這個問題。

我們的旗艦產品是左側顯示的IA-840f。它具有目前最大的安捷力士:AGF027。這是一款具有PCIe Gen4 x16的GPU大小的卡。因此,在這一點上,我們擁有從FPGA到主機的最大頻寬。

我們在前面有三個QSFP-DD,使我們能夠實現六個100GbE通道;也可以用於其他格式。DDR4的四家銀行...我們在後面有擴展埠 - 16個通道 - 使我們能夠連接到存儲陣列之類的東西...其他裝置...並且可以板對板使用以擴展通信。

我們有我們的董事會管理控制器,這是我們為硬體平臺帶來的增值的關鍵部分。當然,我們還支援英特爾的世界級工具,包括 oneAPI。

在右側,您將看到兩個更適合特殊應用的電路板。IA-420F是一款網卡大小的卡,可用於智慧網卡等。計算記憶體陣列、計算儲存處理、無線存取網...這種較小尺寸的卡有多種應用。

在最右邊,我們有我們的IA-220-U2,它是U.2 SSD驅動器格式。因此,它特別針對計算存儲處理應用程式。

所有這些板卡以及 BittWare 的所有硬體板都構建在我們的企業級基礎上。我們的意思是一個定義明確,穩定和值得信賴的平臺,可以降低和減輕風險。

因為我們花了所有的時間都非常全面,徹底,所有合規性和認證,對配置的嚴格管理和控制,清晰簡潔的文檔,提供工作演示,訪問它的軟體工具,我們擁有廣泛的支援能力。在企業級類別中(如右圖所示),每個類別都只是一個更高的級別,下面有多個清單,我們確保在發佈現在值得信賴和穩定的完整生產品質板之前實施並嚴格驗證。

我們的應用解決方案支持團隊正在努力工作,不斷在硬體之上開發更高級的抽象,以處理需要在FPGA中實現的許多細節和細節,我稱之為門件開發,以及主機上的軟體與這些門件元素進行通信。

這是一個示例,其中包含我們從網站上獲得的一些白皮書、案例研究、示例和參考設計。如果你抬頭看看那裡,還有更多。

這個平台支援的IP路線圖對於BittWare為Agilex FPGA增加的價值至關重要。我們的總體目標是提供客戶難以處理的PCIe、乙太網和NVMe基礎設施,並消除這些問題。

我們與關鍵的第三方以及我們的內部開發合作,以提供世界一流的特定實現,例如Arkville和DpdK數據移動器,Atomic Rules將在一分鐘內討論。這是我們目前正在研究的所有事情的清單,隨著我們敏捷x平臺的成熟,這些工作將在明年推出。

幾年前,我們曾經銷售我們親切地稱之為空白FPGA的東西,或者有時現在被稱為裸機。然後,我們的客戶將花費大量時間開發這個客戶應用IP,該IP將擴展到使用整個FPGA。我們仍然這樣想...人們傾向於認為,你知道,在這個內核或工作負載上,所有這些工作都必須轉移到這個FPGA上,但最終我們發現 - 隨著FPGA在尺寸,複雜性,複雜性,複雜性和性能方面的增加 - 將記憶體,感測器,網路,擴展I / O連接到主機通信的較低級別的實現, 板卡管理控制器、系統集成:這些東西消耗著越來越多的設計資源和能力。

我稱之為管道,我們的門件管道是我們通過這些複雜的FPGA實現的應用解決方案帶來的增值的關鍵部分,這樣我們的客戶就不必深入研究FPGA上硬體的所有血腥細節,I / O,最後一個微米,正如我所說的那樣, 更多的是BittWare硬體的板級實現。

當然,我們提供所有這些功能 — 如果客戶想自己做,那很好 — 但是作為我們企業級平臺的一部分,我們已經完成了所有工作並進行了驗證,這樣,我們客戶獨特的應用程式 IP 更多的是關於他們特殊的秘訣,以及為該工作負載和應用程式添加的獨特價值,而不是處理從該內核到記憶體的所有額外複雜性...到主機...從網路...所有這些事情我們都為您照顧。

其中一個主要的例子是Atomic Rules和他們的Arkville DPDK數據移動到主機,我們現在已經看到這個引擎絕對一流的性能和CPU卸載。我們一會兒再談這個問題。不過,在我們讓Shep進入之前,我認為為這個Agilex FPGA和英特爾帶來的產品提供更好的基礎是合適的。所以,有了這個,我會把它交給湯姆。非常感謝大家。


湯瑪斯·舒爾特 | 產品線經理,FPGA產品,英特爾®可程式設計解決方案組

謝謝傑夫正如 Jeff 在幾張幻燈片前提到的,新的生產品質的 BittWare 加速器卡基於英特爾最新的 Agilex FPGA。這裏重點介紹的是 Agilex 系列中提供的一些更重要的功能。

這些元件基於第二代英特爾 Hyperflex™ 架構和英特爾的 10 奈米 SuperFin 工藝技術構建,與上一代英特爾 FPGA 相比,這兩種技術都表現出顯著的性能改進和節能效果,而且與競爭對手的 7 奈米 FPGA 相比也是如此。

我不打算在本次網路研討會中回顧所有這些功能,而是重點介紹可用的新CPU介面協定,PCI Express Gen5和Compute Express Link,通常縮寫為CXL。

對於英特爾 Agilex 家族的選定成員,這些設備支援 PCI Express 的全部頻寬,每個埠最多配置 x16 個通道,與同等配置的 Gen4 設備相比,可提供兩倍的頻寬。

對於不需要一致介面連接回主機 CPU 的加速用例和工作負載,PCI Express 是高性能應用的行業標準,並將繼續成為基於 FPGA 的加速器的關鍵構建塊。

對於英特爾 Agilex FPGA 的選定成員,這些設備支援 CXL 協定的全頻寬。同樣,埠最多 x16 個通道,與 PCI Express 協定相比,提供更低的延遲和一致的介面。對於加速的用例和工作負載,尤其是那些嚴重依賴記憶體相關事務的工作負載,CXL 介面似乎可用於許多高性能應用程式。

我認為這是基於兩個關鍵指標。首先是已加入 Compute Express Link Consortium 的 100 多家公司。其次,計劃提供的客戶數量可以看到基於 CXL 的產品和解決方案。

雖然PCI Express Gen5和CXL的細節令人興奮,但實際上獲得晶元並運行這些介面甚至更好。各種不同的英特爾團隊繼續測試、表徵和發佈必要的硬體和軟體的工程樣品,以支援基於代號為Sapphire Rapids的新下一代英特爾CPU的新平臺。

除了這些平臺之外,許多客戶還已經收到了支援這兩個新介面的Agilex FPGA的工程樣品。

事實上,用於測試每個 Sapphire Rapids CPU 的一些內部硬體都基於英特爾 Agilex FPGA。

Agilex FPGA分為三個不同的系列,每個系列針對不同的應用。F 系列元件集收發器支援高達每秒 58 千兆位、增強的 DSP 功能和高度系統集成度相結合,適用於數據中心、網路、邊緣、嵌入式、工業、軍事甚至無線等各種應用。這在某種程度上被認為是安捷力士家族中通用的設備類別。

在 I 系列中,我們有一堆針對高性能處理器介面和頻寬密集型應用進行了優化的設備。這些系列將為新的CXL協定,PCI Express Gen5提供選項,並支持高達116G的收發器頻寬的選項。I 系列 FPGA 是需要大介面頻寬和高性能的應用的極致選擇。

最後是M系列設備。它們針對計算和記憶體密集型應用程式進行了優化。此系列將提供 F 系列和 I 系列中沒有的附加功能。諸如DDR5,LPDDR和集成HBM2堆棧之類的東西。Agilex M 系列 FPGA 針對數據密集型用例進行了優化,例如高性能計算應用,這些應用除了高頻寬外,通常還需要大量記憶體。

要瞭解有關英特爾 Agilex FPGA 的更多資訊,請使用本頁右上角顯示的 URL...但關於英特爾敏捷FPGA已經足夠了。讓我們聽聽Atomic Rules的Shep關於他們的Arkville數據行動器IP的資訊,該IP可以與BittWare基於Agilex F系列生產品質FPGA的新加速器卡一起使用。交給你了,謝普!


謝潑德·西格爾 | 原子規則首席技術官

謝謝你,湯姆,謝謝你的介紹——太好了。嗨,我是Atomic Rules的Shep Siegel,感謝您今天參加本次網路研討會,我們非常興奮,我真的很高興告訴您有關Agilex上的Arkville的資訊。這是醞釀了很長時間的東西,本次網路研討會是推出派對...所以,我們開始吧。

Arkville on Agilex:FPGA的Gen4數據運動是有效的。但首先,關於原子規則的一點點。我們已經這樣做了一段時間。我們的商業模式是把少一些事情做得更好。我們製造了一些關鍵的核心產品:Arkville,當然,我們今天將要討論的是UDP卸載引擎,它執行UDP和硬體,TimeServo和TimeServo PTP,它們在數據中心的FPGA設備群中提供一致的系統時鐘。

我們是英特爾金牌合作夥伴認證解決方案供應商,我們對此感到非常自豪。而且,十多年來,我們一直在為開源專案,工程 - 企業級工程解決方案做出貢獻...真正專注於網路IP方面的計算和通信。我們真的很自豪和感激擁有一小部分精選和回頭客,使我們能夠成長。

好吧,讓我們跳進阿克維爾。因此,Arkville是DPDK數據包管道。我的意思是,它是一種互連FPGA數據流,主機記憶體緩衝區的方法,反之亦然:它允許可能在主機記憶體中的數據成為FPGA上的流或主機記憶體池中的數據,反之亦然。

它促進了這種數據移動,因為數據流在PCI Express上移動。我們將其作為一個管道來談論,因為從軟體上的API到PCI Express再到FPGA,再到產生和消費數據的AXI流的所有複雜性都被抽象出來......這意味著更快的上市時間,更快的解決方案使用來自DPDK(Linux基金會的一部分)和FPGA硬體(如英特爾Agilex設備)的解決方案。英特爾還可能製造一些處理器,您可以使用這些處理器在主機端運行,但我們會將其保存為另一個網路研討會。

那麼,阿克維爾在哪裡使用呢?每當需要在主機和FPGA設備之間有效地行動數據時,就會使用Arkville。它是一個構建塊元件,它抽象出數據運動的許多複雜性,以便Arkville的使用者能夠繼續構建SmartNIC設備,網路設備或DPDK加速器等產品。

為什麼選擇DPDK...我聽說這隻是為了網路?好吧,對於網路來說,DPDK確實有一個非常強大的故事,但它比這更深刻。DPDK是一個已經存在了很長時間的可信API。它最近一直由Linux基金會管理。它經過社區審查,定期測試,它是一個開源的標準化解決方案和一組API,不僅用於網路,還用於批量數據移動。

通過將Arkville設計為使用DPDK,它釋放了主機處理器週期以執行更多有用的工作。這是一個內核旁路手段——這是內核的出路,這意味著更高的輸送量和更低的應用程式延遲——但Arkville是DPDK感知的(我們將在後面的幻燈片中介紹),但是,通過將DPDK數據運動的業務邏輯推入FPGA門, Arkville可以同時具有更高的輸送量和更低的延遲,從而減少通用處理器緩存污染,從而帶來更高的後核性能。

因此,如果您的工作負載將由其API提供支持,那麼DPDK非常有意義,這當然可能是網路...但也可以是FPGA設備和主機之間的簡單批量數據移動。

Arkville的關鍵點是,Arkville在FPGA硬體中實現了DPDK規範的低級內部環路。基本上將DPDK規範變成了RTL門。所有其他DPDK解決方案(包括商用ASIC NIC)都將部分或全部工作推送到主機處理器內核上。我們從一開始就設計Arkville是為了做一件事,並做好一件事:在硬體中操作 DPDK mbuf 數據結構,這樣處理器內核就不必這樣做。通過在硬體中做到這一點,我們具有同時實現高輸送量和確定性低延遲的獨特優勢。在執行此操作時,幾乎沒有主機核心利用率,我們將在下一張幻燈片中看到。Arkville背後的另一點是它是數據運動的完整解決方案-開箱即用。

軟體工程師正在使用標準 API 來生成和使用數據緩衝區。硬體工程師正在連接到AXI介面。將「同一天開始」的故事與「推出自己的」解決方案進行比較和對比,後者可能需要數周甚至數月才能進行類比,更不用說在現實世界的硬體上站穩腳跟了。

因此,Arkville是作為軟體和門件的組合交付的。有一個完全開源的 DPDK 拉模式驅動程式,今天在 DPDK.org 上可用,然後還有適合原子規則許可的英特爾 Agilex FPGA 內部的 RTL 元件。有一個命名專案和一個多項目許可證,但基本上它是英特爾FPGA內部的許可IP。兩者協同工作,提供我一直在談論的數據移動器管道,允許數據從FPGA流向主機,反之亦然。

這個眼圖卡通顯示了左側的主機處理器和右側的 FPGA,並顯示了主機處理器(通常是至強工作站或伺服器)和 FPGA(通常是英特爾 Agilex 設備)如何拆分的一些子模組,以及不同元件的位置。就面積或複雜性而言,它不是任何規模,但底部的綠色和紅色框代表設備到主機和主機到設備數據運動的源和接收器,這些本質上是目標或來源,或者是Arkville通過其管道攜帶的貨幣的生產者或消費者。

在這裡,我們看到一個圖表,該圖表顯示了Arkville的輸送量作為數據包大小的函數。現在,您可以立即看到,對於較小的數據包大小,輸送量較低,而這隻是PCI express在較小數據包上具有開銷的一個事實。但是,如果我們專注於圖表的右側,我們還會看到,代表設備到主機和主機到設備的傳送速率的藍線和紅線接近頂部的理論極限,即220 gb / s,甚至更高一點。我們將在稍後的演示中看到更多內容。

Arkville還具有極低的延遲(不是高頻金融科技交易延遲,預計是亞微秒),而是FPGA和主機之間始終存在的單位微秒延遲。缺乏長尾,特別是在長數據包和高負載下,對於vRAN和ORAN以及5G應用程式來說是一個價值,這些應用程式不能容忍錯過最後期限。

除了低延遲之外,Arkville基本上也沒有延遲抖動。這是怎麼回事?好吧,由於不是具有緩存和其他動態手段來支援大量佇列的標準DMA引擎,因此Arkville具有確定性延遲,例如,從數據包到達的時間以及它落在主機記憶體中的時間(或相反)。

這種僅執行DPDK和移動mbufs的特殊性使得Arkville的延遲抖動基本上為零。Arkville也沒有memcpy的意思說主機處理器沒有工作,沒有!將數據包數據從一個點移動到另一個點的零週期。FPGA上的Arkville RTL硬體確保數據完全落在mbuf中,這樣主機就不必移動這些數據,從而為您的應用程式留下更多的CPU週期。

此圖顯示了對於適合單個 mbuf 的數據包大小,Arkville PMD 中每個數據包花費的納秒數如何少於 20 納秒。在本例中,mbuf 只是一個兩千位元組的 mbuf。如果我們擴大 mbuf 大小,這種平整度將在頁面右側繼續。

Arkville 的數據包永遠為零,永遠都是如此。除非,例如,系統被岩石擊中。

Arkville上的流量控制是完整的前置硬體軟體,貫穿所有領域。在任何情況下,數據都不允許在一端安全傳輸到另一端,反之亦然。其他數據移動器如果跟不上速度,或者如果出現痛苦或重新傳輸,就會丟棄數據包。我們擁有完全流量控制的硬體和軟體指示,可在所有條件下提供零丟棄數據包。

現在,在完成所有這些之後,讓我們跳到一個預先錄製的演示(幾天前錄製),它顯示了Arkville是如何安裝的,顯示它在Xeon伺服器上運行,然後,我們將跳轉到問題和答案 - 在那裡見。

嗨,Shep Siegel在這裡,這是我們在12月10日星期五做的一個預先錄製的演示,比英特爾/BittWare/Atomic Rules Arkville on Agilex網路研討會早了幾天。我將在這裡介紹我們將要演示的內容,然後我們將看到演示。

有一個英特爾至強處理器被用作主機系統,還有一個英特爾 Agilex FPGA,它被用作被測設備。如果您仔細查看左下角的這張幻燈片,我們可以看到使用者駐地處理器記憶體(基本上是數據進出的DRAM),在右下角,我們將再次看到FPGA結構記憶體,數據將從中移入和移出。

在這兩者之間,我們有gen4 x16 PCI Express將Agilex設備連接到Xeon主機。我們在此演示中使用的部件是帶有至強6346處理器的Dell R750伺服器(這些伺服器支援gen4 x16 PCIe)。BittWare IA-840F,帶有Intel Agile F設備,當然還有Atomic Rules自己的Arkville——我們的21.11版本,本周早些時候剛剛發佈。

因此,我們將在演示中展示的第一件事是 Arkville 腳本。它將引入所有需要的庫,下載和編譯DPDK,並在主機系統端處理我們需要的東西。我們要做的下一件事(如果未安裝Quartus Prime Pro)是安裝它,然後我們將通過使用使目標使Agilex從RTL編譯一個敏捷x設備。

一旦比特流準備就緒,我們就會被載入到FPGA中,然後進行偽重啟。無需讓比特流保留在 Agilex 設備的快閃記憶體中。

大約有十幾個DPDK應用程式與Arkville發行版一起分發,但我們將在本演示中特別關注TX(或下游)或RX(或上游)輸送量。最後,在演示結束時,演示數據放置在性能日誌中,我們將繪製出該數據。

好吧。所以,我們將在我們的專案目錄中開始,我們要做的第一件事就是從提供的壓縮包中擴展Arkville版本。我們有它。壓縮包已經擴大。接下來我們要做的是運行原子規則Arkville安裝程式腳本,它將引入必要的庫以及下載和編譯DPDK。所以,我們看到圖書館正在拆除。現在,我們將在 DPDK.org 下載DPDK。

下載DPDK后,我們可以啟動介子忍者編譯系統。

演示的這一部分實際上是實時顯示它,這真的很快 - 除了測試字串......它總是停在那裡一點點...DPDK將在一分鐘內完成。太好了:我們已經安裝了DPDK,我們準備繼續前進。

在這一點上,我們需要在Agilex F上為Arkville構建我們的比特流。因此,我們將轉到硬體目標目錄,只需鍵入make Agilex即可構建所有英特爾 Agilex 目標。

我將首先檢查以確保我們安裝了Quartus 21.3。是的,就是這樣,我們走吧!

在這一部分中,我們當然已經截斷了一點。通過構建比特流的整個工具流運行大約需要 30 分鐘到一個小時(具體取決於設計的大小)。我們這裡有六種不同的設計,所以我們現在只關心其中一種。

完成比特流后,我們將將其下載到戴爾伺服器內部的BittWare IA-840f卡。因此,我們下載比特流,執行sudo重新啟動以使系統恢復。

我們現在看到,在系統從 lspci 重新啟動後,Arkville 設備在伺服器中可見。它恰好在插槽C-A(查理阿爾法)中。

我們可以去使用一些擴展的 lspci 詳細程度,以便查看設備訓練的一些功能。在這裡,我們正在尋找的 - 如果我們能夠在螢幕不來回的情況下管理滾動條 - 不僅僅是我們在開始時看到的原始lspci,而且還看到該設備確實具有Gen4 x16功能。這是此處突出顯示的連結功能線, 我們實際上已經實現了 Gen4 x16 鏈接狀態,這意味著我們對此進行了訓練。

因此,這是一個好兆頭,表明我們有一個良好的開端。因此,有了這個,我們現在就可以轉到分發的十幾個DPDK應用程式中的任何一個。我們將使用Arkville Duplex性能測試,它獨立運行一套測試,用於測量入口和出口性能,也是系統的全雙工性能。

此測試有許多維度,在各種反覆運算中,它可以運行數秒、分鐘、數小時或數天,因此我們將從這些測試集中獲取數據,並將其提取到一個名為 performance.log 的檔中。我們將從此性能檔中獲取數據,並將其導入Google表格文檔,我們可以在其中繪製並詳細查看它。

這是繪圖數據日誌,這是結果。因此,頂部的黃線,如果你願意的話,代表硬體和軟體配置的理論極限,而藍線和紅線分別表示設備到主機和主機到設備的輸送量。您可以看到 y 軸具有以千兆位/秒為單位的有用輸送量。

因此,在圖表的左側 - 我們正在放大或放大現在的位置 - 由於數據包大小較小,並且主要由於PCI的512位元組MPS,性能不太好。但是,當我們向右平移並查看512位元組或1千位元組及以上的數據包大小時,我們可以看到,上游方向的輸送量增長到每秒超過200千兆位,而下游方向的輸送量接近每秒180千兆位。

因此,在上游方面具有相當值得稱讚的性能,並且有一點改進的空間,我們可以在右側的漸近性能中看到。

但總的來說,我們希望從這張圖中可以清楚地看出,在敏捷X F上的Arkville在接近理論性能方面做得令人欽佩。

感謝您抽出寶貴時間觀看此演示。我們現在將削減到即時,馬庫斯將領導問題和答案,我相信你們中的一些人會有。

再一次,謝謝你,節日快樂。


問與答

(馬庫斯)

在我們進入問答時間之前,我想分享幾句話。

因此,今天的網路研討會重點介紹了在 BittWare IA-840f 卡上運行的原子規則的 Arkville,該卡具有英特爾 Agilex FPGA。有關其中任何一項的更多資訊,請訪問 BittWare、Intel 或 Atomic Rules 網站。

所以,有了這個,讓我們從一些問題開始。

讓我們看看,第一個是Shep的 - 我們剛剛看到了圖表。那麼,阿克維爾的最終表現數位是多少?

(謝普)

謝謝 馬庫斯那麼,你有沒有說過最終的可能表現數字是什麼 - 就像在- 最後一樣?

(馬庫斯)

嗯,是的,因為我認為您已經提供了一些性能數據,並且您注意到可能還有一些更新或其他內容。所以也許這就是他們的本意。

(謝普)

當然,明白了——明白了。因此,在系統級別,性能涉及通用處理器,FPGA互連網路(如PCI Express)...都很難。我們可以模擬我們想要的一切,但在現實世界中...事情發生了。我們有信心將每秒220千兆位的數位放在那裡,主要是因為在過去的幾個月里,早期...在消費級或工作站級Rocket Lake系統上,我們已經看到了如此可靠的資訊。也許一些更敏銳的眼睛在查看我們運行的演示時注意到,高性能戴爾伺服器下游的最終性能,以及大型Xeons,最終不如Rocket Lake那麼好 - 這也許歸功於NUMA問題,QPI問題和類似的事情。因此,最後,最好的方法...我們認為,關於輸送量,最好的基準是 - 因為這個硬體可以從BittWare和Intel獲得,IP可以從Atomic Rules獲得 - 是在你自己的商店裡買到它,並儘快做到這一點。

我們擁有的演示和我們在預先錄製的演示中顯示的工具將快速向您展示您自己的系統的功能,並且以這種方式,而不是在您自己的應用程式中採用我們認為的名義性能數位...在您自己的系統中...在你自己的特殊情況下,可以看到(例如輸送量)持續輸送量數位是多少。

(馬庫斯)

好吧,是的,謝謝你的答案。另一個問題給你,有一個非常簡單的答案,我想:Quartus使用者如何利用Arkville IP......它是否相容平台設計器/Qsys?

(謝普)

是的。最簡單的方法...我們支援平台設計器,或者對於那些已經使用該工具一段時間的人來說,Qsys流程...但我們也支援一個完整的,直接的SystemVerilog。而且,由於 SystemVerilog 介面的簡潔性以及 Quartus 為 SystemVerilog 提供的支援,因此支援使用 SystemVerilog 或 Platform Designer 的標準 RTL 流。因此,Arkville就像任何其他核心一樣在您的Agilex設備中實例化。

(馬庫斯)

那麼對於Shep來說,可能是:Arville RTL IP支援PCI Gen5和CXL的路線圖是什麼,性能數位是多少?

(謝普)

嗯,這是一個很好的問題。因此,我們今天展示的性能當然是敏捷X F和Gen4 x16...而且有一個被壓抑的需求,需要將輸送量增加一倍,比如說,Gen3 x16,我們很高興我們能夠邁出這第一步。

然而,問題是Gen5的未來是什麼?我們期望,當我們遷移到Gen5 x16時,我們將能夠再次將性能提高一倍或兩倍以上。我們已經與英特爾密切合作了一段時間,其中的關鍵部分與...你知道頻率縮放很久以前就停止了...這很大程度上與建築創新有關...其中一件事,在這裡吹捧一下我們的工程團隊自己的喇叭(但如果沒有英特爾的支持,我們就無法做到這一點),敏捷,無論是在當前版本還是在支援Gen5的未來版本中,都允許多個PCI TLP在每個時鐘週期內移動。今天,藉助 Agilex F 系列,我們將每個時鐘週期的 20 億 TLP(抱歉,更正)增加到 20 億 TLP:兩個在入口上,兩個在出口上,在 500 MHz 時。

有了Gen5和I-Series R-Tile,我們將能夠再次將其翻倍。現在,將TLP的數量增加一倍並不一定會使带寬增加一倍,但它可以使我們的Arkville IP更加智慧地...對不起,我去任何閒逛太多...對Gen5的簡短回答:頻寬和輸送量將再次翻倍,沒有任何顯著增加,並且可能減少延遲。

現在,這個問題也涉及到CXL。CXL是一個完全不同的野獸。正如世界在過去幾十年中發現異構計算是一個好主意一樣......你知道的。。。異構通信是一個好主意。還有一個地方可以進行批量數據移動和數據包數據移動,PCI可以解決這些位置,並且還有一個用於CXL的地方。

Arkville的立場(及其與英特爾技術的互連:Agilex內部的底層P-Tile和R-Tile技術)是這樣的,我們不排除將來與CXL解決方案一起工作......但我們正在超越自己。我們只是...我們今天很高興,在將Arkville運送到這個懸而未決的需求和實現Gen4 x16的願望五年之後,我們今天在這裡,我希望我們可以在跳上並開始衝擊Gen5 x16和CXL之前享受一點。

(傑夫)

不,謝普,這是傑夫——你不會得到太多的休息。正如我們之前所說,我們現在已經推出了F系列零件,即Gen4。我提到了 I 系列和 M 系列零件,這些零件即將上線,湯姆談到了這一點。我們將在明年年中推出Gen5的I系列板。

(謝普)

我們將與您同在。

(馬庫斯)

我有一個關於Shep的H2D延遲的問題 - 我知道你談到了這一點,但也許你可以詳細說明一下。

(謝普)

確定。好吧,再說一遍,正如我之前所說,這是調查任何性能參數的最佳方法......功耗、輸送量、延遲...因為儘管這些元件短缺,但這些硬體和軟體以及IP都是可用的 - 讓我們把它放進你的商店,並在你的條件下測量它。在我們的測試條件下,正如我所說,這不是一個通過IP切割的金融科技設計。它是存儲和轉發的,非常智慧地它是一個存儲和轉發,但沒有任何延遲抖動。

因此,我們處於1-3微秒的標稱延遲,沒有長尾。這裡的名片,以及存儲和轉發架構的差異化因素,是將要發生的事情,它將把處於行首的數據包(無論是上游還是下游)擱置,以使其移動。而且,與標準DMA引擎固定頁面,分散收集不同 - 到目前為止,我們在這次對話中根本沒有提到的所有內容......阿克維爾沒有這些。這是完全確定性的。因此,例如,在到達用戶空間主機記憶體緩衝區的途中到達FPGA的大量數據是即發即棄的,並且該延遲將達到單位微秒的數量級。

(馬庫斯)

我有一個問題...哦,是的,所以,圖表有不同的上游和下游傳輸速率,那麼為什麼呢?

(謝普)

這是一個很好的問題。我以為我之前已經談過了,但我會重複一遍,因為也許我不夠清楚。嗯,實際上,有幾個圖表被顯示出來...顯示出不同的上游和下游表現。

我看看。。。為什麼下游或出口性能較低?我想說的是,總的來說,在系統的某個地方存在Amdahl定律式的序列化延遲的空間更大 - 無論是在軟體中,還是在硬體中(可能包括原子規則硬體等)。特別是對於那些密切關注Xeon伺服器的人來說,正如我所說,我們看到的下游性能明顯低於我們在Rocket Lake上的表現,我們相信這是由於我們自己對演示的程式設計以及我們從中提取下游數據的NUMA區域。

我們相信,我們的團隊仍在測試中查看該示例,即我們展示的演示下游的數據實際上來自 NUMA 區域的另一個處理器(QPI 端)上附加的處理器記憶體。

隨著我們的繼續,我們將對其進行改進。一般來說,你知道,一個帖子寫那個...如果記憶體系統可以退役數據,那麼將數據轉移到上游將非常容易(Xeons和Rocket Lakes都做得很好)。讀取 - 無論我們有多少未完成的讀取請求,以及我們多麼小心地試圖對記憶體控制器友好 - 有時這些完成只是需要更長的時間才能恢復。

另外,我們可以在單個時鐘周期內處理多個完成。再次回到敏捷介面給我們的架構優勢。但是,一般來說,具有完成功能的讀取比可以發佈和開火即忘記的寫入更容易出現問題。

(湯姆)

嘿馬庫斯?您是否希望我多談一談 Gen5 和 CXL?

(馬庫斯)

所以,是的,當然,如果你有機會的話。

(湯姆)

是的。所以,所以我認為,我認為我的音訊下降了,所以也許我之前錯過了,但只是為了讓人們知道,我認為傑夫已經提到他們計劃做額外的基於敏捷x的卡,但敏捷X I系列。I系列是帶有小晶元的設備,我們稱之為R-Tile,它確實支援PCI Express Gen5和CXL。

在晶片級別,我們今天正在對這些設備進行採樣,並且我們正在展示...我們已經去過PCI-SIG研討會。我們,你知道,我們正在從我們的設備和R-Tile中獲得全部頻寬。因此,我們正在通過16通道進行全頻寬PCI Express Gen5。而且,如果您將其與此特定板進行比較,您知道,從PCI Express的角度來看,它基本上是頻寬的兩倍。

(馬庫斯)

好的,謝謝你的額外資訊。我們還有時間再問幾個問題。所以,這個,再次,是給Shep的。Arkville DPDK 與英特爾 FPGA 多提示 DMA DPDK 支援有何不同?

(謝普)

真棒——這是一個很好的問題,馬庫斯。但是你知道嗎?把它擱置一秒鐘——把它往外推一秒鐘,因為我想談談湯姆和傑夫都提到的Gen5問題。因此,我們幾乎100%的Arkville客戶(這是我們卓越的IP)都依賴於輸送量。這就是為什麼今天在Gen4 x16上在Agilex上的Arkville如此重要:客戶和應用程式正在被授權。

當Gen5 x16設備和板出現時,Atomic Rules致力於在那裡,否則我們就沒有業務。我只想強調一下,而不是過早地宣佈Arkville對Gen5的支援 - 顯然,我們非常關注這一點。

好吧,那麼就說到Arkville與英特爾出色的多信號(例如英特爾出色的多信號)相比,我認為它被稱為多提示或多通道DMA(MCDMA)。好吧,MCDMA是英特爾提供的一個出色的免費IP,內置於Quartus中,並提供示例設計。它確實是一個廚房水槽DMA-在我看來,與其說是數據移動器。

它幾乎支援您希望將數據移動用作的所有可能的角色:流,消息,緩存,CXL...你能說出它的名字,MCDMA就是這樣做的。它確實在FPGA上使用的記憶體資源是Arkville的兩倍。但是,話又說回來,英特爾從事的是銷售更大的FPGA的業務,所以也許有一種方法可以解決這種瘋狂。這需要一些工作。我的意思是,RTL將使用該IP。這將需要一些RTL類比和連接,它將需要另一邊的一些軟體,即使我相信英特爾會提供這一點。

如果你有特定的需求,那阿克維爾沒有現場位址,我說去跑,然後跑。我們真的不是在與之競爭。如果你有一個數據移動問題,要麼是批量數據,要麼是DPDK,它是網路,我們有一些東西可以讓你在那天真正地前進。所以,我認為這是構建與購買意義上的區別。

我想,最後,你知道,另一部分是CPU卸載,因為,你知道,MCDMA將使用分散收集清單......它將使用主機核心來做到這一點。因此,如果您有一大堆核心坐在主機上以參與DMA,那就去做吧。Arkville將採用這一點,並將這些內核留給您的應用程式。

(傑夫)

對不起,馬庫斯,我想補充的一件事是...我可以驗證Shep所說的一點是,我們使用Arkville和其他Atomic Rules IP的客戶已經啟動並運行得非常快。只是Shep和他的團隊在提供開箱即用,隨時可用的部署方面做得很好,而不是,你知道,推出自己的...以下是基本元件 — 將它們放在一起。因此,這是我們在與客戶一起部署時看到的一件事。

(馬庫斯)

您可以在此處看到的問題...我有...是的。在IP上 — 只需移植到其他英特爾 FPGA 裝置即可。我不知道它們是否是指Stratix 10或其他Agilex——移植到其他設備有多容易。

(謝普)

我想那是給我的。因此,我們沒有任何需求將Stratix 10設備與Arkville一起使用。但是,我們的所有其他IP(TimeServo,TimeServo PTP和我們的UDP卸載引擎)都支援Stratix 10甚至更早的英特爾設備以及其他FPGA。儘管像Quartus,Platform Designer(以前稱為Qsys)這樣的東西有很多願望和價值,但我們一直在朝著所有核心的SystemVerilog表示的方向發展,這意味著,你知道,十幾行文本代表實例化。

如果有人真的有興趣在Stratix 10上使用Arkville,請與我們聯繫。

(傑夫)

我認為其中一個答案是客戶/使用者不做任何Arkville移植。這就是原子規則將進行移植。如果你想用S10或Agilex I系列來構建,它只是一個與原子規則不同的核心,它只是載入並無縫工作。無需額外的使用者工作。

(謝普)

在Arkville介面簽名中(我很抱歉:我現在正在與RTL設計師女孩和那裡的傢伙交談)是十幾行SystemVerilog - 完成...一些介面...把它放到你的設計中,然後去。這在任何FPGA設備之間都不會改變。這是一回事。

(馬庫斯)

好的,最後一兩個問題在這裡。這個是,好吧,我只是在這裡讀出來:Arkville是作為加密的網路清單還是混淆的HDL提供的,如果是後者,那麼什麼語言 - 再次,對於Shep?

(謝普)

啊——詭計問題。因此,我們向許可客戶提供Arkville作為未加密的IEEE Verilog網表。但是,未加密的Verilog不是原始程式碼。我們使用自己的基於原子規則的函數式程式設計語言通過機器生成Verilog,這就是我們進行形式驗證的方式。因此,具體而言,您正在類比和編譯的交付資產是一個未混淆、未加密的 Verilog 網表。

好吧。好吧,我當然欣賞所有的問題...答案。如果您還有其他問題,可以直接與我們聯繫: BittWare.comIntel.com/agilexAtomicRules.com

謝謝大家的收看,祝你有美好的一天。網路研討會到此結束。

了解有關Arkville和BittWare基於Agilex的FPGA卡的更多資訊