BittWare 網路研討會

使用英特爾® 敏捷 ™ FPGA 的阿克維爾 PCIe 第 4 代數據行動器網路研討會

Atomic Rules的 Arkville IP 最近進行了更新,以支援Intel Agilex FPGA,包括BittWare最新IA系列產品上的FPGA。Arkville 通過 PCIe Gen4 x16 以高達 220 Gb/s 的速度移動數據。

在本次網路研討會中,您將聽取 BittWare 的 Jeff Milrod 介紹支援英特爾敏捷 FPGA 的產品,以及數據行動器 IP 在各種市場中的使用。來自英特爾的Tom Schulte將介紹Agilex產品線,包括PCIe Gen5支援等未來功能。

最後,我們將與Atomic Rules的Shep Siegel一起進行演示,並解釋Agilex FPGA上使用Arkville數據行動器IP在短時間內實現的性能。他將深入瞭解 Arkville 如何在不犧牲性能的情況下縮短上市時間並使開發更容易。

觀看下面的網路研討會,包括現場活動中錄製的問答環節。

BittWare和英特爾的標誌
Atomic Rules 徽標

揚聲器

傑夫·米爾羅德照片
傑夫·米爾羅德 | BittWare首席技術和戰略官
湯瑪斯·舒爾特照片
湯瑪斯·舒爾特 | 產品線經理,FPGA 產品, 英特爾®可程式設計解決方案事業部
謝普·西格爾照片
謝潑德·西格爾 | 首席技術官, 原子規則
 

歡迎參加我們的網路研討會: 使用英特爾 FPGA 的 Arkville PCIe Gen4 數據移動。我是BittWare的Marcus。

讓我簡要介紹一下我們的演示者以及他們將涵蓋的內容。

首先是BittWare的首席技術和戰略官 Jeff Milrod。他將介紹採用Agilex FPGA的BittWare產品線,並介紹BittWare的IP合作夥伴和解決方案。

接下來,英特爾的 Tom Schulte 將重點介紹英特爾 Agilex FPGA,包括一些即將推出的數據移動功能。

我們將以《原子規則》中的 Shep Siegel 結束。Shep 將帶我們參觀阿克維爾,包括在 BittWare 的 IA-840F 卡上運行的 Gen4 x16 數據移動演示,該卡採用英特爾 Agilex FPGA。

之後我會回來現場回答你的問題。

現在交給傑夫讓我們開始吧!


傑夫·米爾羅德 | BittWare首席技術和戰略官

大家好。感謝您今天參加我們的會議。正如Marcus剛剛所說,我的名字是Jeff Milrod,我是BittWare的首席技術和戰略官。對於那些不熟悉我們的人來說,BittWare是Molex的一部分。具體來說,我們是數據通信和專業解決方案集團的一個營業單位。作為 Molex 的一部分,正如您在本幻燈片中看到的那樣,我們可以獲得內部製造和全球物流能力。

BittWare現在在各種市場擁有超過30年的FPGA經驗和專業知識。在此期間,我們擴大了產品範圍,不僅包括企業級FPGA硬體平臺,還包括系統集成、工具支援、參考設計和應用IP,使我們的客戶能夠快速、低風險地部署他們的解決方案。我們是英特爾合作夥伴聯盟計劃的一部分,在過去 20 年中開發了高端 FPGA 加速器和主機板,採用每一代 Altera 和英特爾 FPGA。

我們通過Molex融合了傳統,專業知識和全球影響力,使BittWare具有獨特的資格,使客戶能夠利用和部署FPGA技術來解決其苛刻的應用程式和工作負載。從廣義上講,BittWare的加速平臺針對此處所示的四個不同的應用和市場領域:計算,網路,存儲和感測器處理。這些應用程式和市場中的每一個都很複雜,涵蓋了各種各樣的工作負載;我們在這裡展示一些例子。

就我個人而言,我已經在BittWare工作了幾十年,在此期間,我們專注於通過提供可靠的硬體平臺來駕馭FPGA加速器的前沿浪潮,使人們能夠開發,部署加速解決方案。Agilex將成為我們基於Altera/Intel的FPGA解決方案的第七代,在那段時間里,我不記得曾經對新一代新技術感到如此興奮,就像我對Agilex一樣。

這些是真正有能力的引擎,我認為它們在性能能力方面取得了飛躍,將使我們能夠使用戶能夠加速比過去更多的應用程式和工作負載。英特爾的第一波Agilex FPGA是F系列,BittWare利用它生產了我們這裡所示的F系列產品系列。我們將來將推出 I 系列和 M 系列零件...我們一會兒再談。

我們的旗艦產品是左圖所示的IA-840f。它具有目前可用的最大的Agilex:AGF027。這是一個GPU大小的卡,具有PCIe Gen4 x16。因此,目前,我們擁有從FPGA到主機的最大頻寬。

我們在前面有三個 QSFP-DD,使我們能夠實現六個 100GbE 通道;也可以用於其他格式。DDR4的四家銀行...我們在後面有延伸埠 — 16 個通道 — 允許我們連接到儲存陣列等裝置...其他裝置...並可用於板對板以擴展通信。

我們擁有電路板管理控制器,這是我們為硬體平臺帶來的增值的關鍵部分。當然,我們還支援英特爾的世界級工具,包括 oneAPI。

在右側,您將看到兩塊更針對特殊應用的電路板。IA-420F是一款網卡大小的卡,可用於智慧網卡等...計算記憶體陣列、計算儲存處理、無線存取網路...這種較小尺寸的卡有多種應用。

在最右邊,我們有我們的 IA-220-U2,它是 U.2 SSD 驅動器格式。因此,它特別針對計算存儲處理應用程式。

所有這些主機板 - 以及BittWare的所有硬體板 - 都是建立在我們的企業級基礎上的。我們的意思是一個定義明確、穩定和值得信賴的平臺,可以降低和降低風險。

因為我們花了所有時間做到非常全面、徹底、所有合規性和認證、對配置的嚴格管理和控制、清晰簡潔的文檔、提供工作演示、軟體工具來訪問它,所以我們擁有廣泛的支援能力。在企業級類別(如右側所示)中,每個類別都只是一個更高的級別,下面有多個清單,我們確保在發佈現在值得信賴和穩定的完整生產品質板之前實施並嚴格驗證。

我們的應用解決方案支持團隊正在努力工作,不斷在硬體之上開發更高級別的抽象,以處理需要在FPGA中實現的許多細節和細節,我稱之為門件開發,以及主機上的軟體與這些門件元素進行通信。

這是我們從網站上獲得的一些白皮書、案例研究、示例和參考設計的範例。如果你看看那裡,還有更多。

這個平台支援的IP路線圖對於BittWare為Agilex FPGA增加的價值至關重要。我們的總體目標是提供客戶難以解決的PCIe、乙太網和NVMe基礎設施,並消除這些問題。

我們與主要的第三方以及我們的內部開發合作,以提供世界一流的特定實現,例如Arkville和DPDK數據移動器,Atomic Rules將在一分鐘內討論。這是我們目前正在做的所有事情的清單,隨著我們的Agilex平臺的成熟,這些事情將在明年推出。

幾年前,我們曾經出售我們親切地稱之為空白FPGA的東西,或者有時只是現在稱為裸機。然後,我們的客戶將花費大量時間來開發此客戶應用IP,該IP將擴展到使用整個FPGA。我們仍然這樣想...人們傾向於認為,你知道,這個內核或工作負載上的所有這些工作都必須放到這個FPGA上,但最終我們發現 - 隨著FPGA在尺寸,複雜性,複雜度和性能方面的增加 - 將記憶體,感測器,網路,擴展I / O連接到主機通信的較低級實現, 電路板管理控制器,系統集成:這些東西正在消耗越來越多的設計資源和功能。

我稱之為管道,我們的門件管道是我們在這些複雜的FPGA上實現此應用解決方案所帶來的增值的關鍵部分,這樣我們的客戶就不必深入研究FPGA上硬體的所有血腥細節,I/O,我稱之為最後一微米, 更多是BittWare硬體的板級實現。

當然,我們提供所有這些 — 如果客戶想自己做,那很好 — 但我們已經完成了這一切,並作為我們企業級平臺的一部分進行了驗證,這樣我們客戶獨特的應用程式 IP 更多的是關於他們的特殊秘密武器和為該工作負載和應用程式增加的獨特價值,而不是處理從內核到記憶體的所有額外複雜性......給主機...從網路...所有這些事情我們都會為您處理。

其中一個主要的例子是原子規則及其到主機的Arkville DPDK數據移動器,我們現在看到了這個引擎絕對一流的性能和CPU卸載。我們稍後會討論這個問題。不過,在我們讓Shep進入之前,我認為為這款Agilex FPGA和英特爾帶來的產品提供更好的基礎是合適的。所以,有了這個,我會把它交給湯姆。非常感謝大家。


湯瑪斯·舒爾特 | 產品線經理,FPGA 產品,英特爾®可程式設計解決方案事業部

謝謝,傑夫。正如Jeff在幾張幻燈片中提到的,新的生產品質BittWare加速器卡基於英特爾最新的Agilex FPGA。這裏重點介紹的是 Agilex 系列中提供的一些更重要的功能。

這些元件基於第二代英特爾 Hyperflex™ 架構和英特爾的 10 奈米 SuperFin 工藝技術構建,與上一代英特爾 FPGA 相比,以及與競爭對手的 7 奈米 FPGA 相比,這兩種技術都顯示出顯著的性能改進和節能。

我不打算在本次網路研討會中回顧所有這些功能,而是重點介紹可用的新 CPU 介面協定,PCI Express Gen5 和 Compute Express Link,通常縮寫為 CXL。

對於英特爾 Agilex 家族的選定成員,這些設備支援 PCI Express 的全頻寬,每個埠最多可配置 x16 個通道,與等效配置的 Gen4 設備相比,可提供兩倍的頻寬。

對於不需要將連貫介面連接回主機CPU的加速用例和工作負載,PCI Express是高性能應用的行業標準,並將繼續成為基於FPGA的加速器的關鍵構建模組。

對於英特爾敏捷 FPGA 的選定成員,這些設備支援 CXL 協定的全部頻寬。同樣,埠多達 x16 通道,與 PCI Express 協定相比,提供更低的延遲和一致的介面。對於加速用例和工作負載,尤其是那些嚴重依賴記憶體相關事務的用例和工作負載,CXL 介面似乎可用於許多高性能應用程式。

我基於兩個關鍵指標看到這一點。首先是加入計算快速連結聯盟的100多家公司。其次,計劃提供基於 CXL 的產品和解決方案的客戶數量。

雖然PCI Express Gen5和CXL的細節令人興奮,但實際上獲得矽並運行這些介面甚至更好。各種不同的英特爾團隊繼續測試、表徵和交付必要的硬體和軟體工程樣本,以支援基於代號為 Sapphire Rapids 的新一代英特爾 CPU 的新平臺。

除了這些平臺之外,許多客戶還收到了支援這兩個新介面的Agilex FPGA的工程樣品。

事實上,用於測試每個 Sapphire Rapids CPU 的一些內部硬體都是基於英特爾敏捷 FPGA。

Agilex FPGA 分為三個不同的系列,每個系列針對不同的應用。F系列器件集收發器支持高達每秒58千兆位、增強的DSP功能和高系統集成度結合在一起,適用於數據中心、網路、邊緣、嵌入式、工業、軍事甚至無線等廣泛應用。這被認為是Agilex系列中的通用設備類別。

在 I 系列中,我們有一堆針對高性能處理器介面和頻寬密集型應用進行優化的設備。這些系列將提供新的 CXL 協定、PCI Express Gen5 的選項,以及支持高達 116G 的收發器頻寬的選項。I 系列 FPGA 是需要大量介面頻寬和高性能的應用的可靠選擇。

最後是M系列設備。這些針對計算和記憶體密集型應用程式進行了優化。該系列將提供 F 系列和 I 系列所不具備的附加功能。諸如DDR5,LPDDR和集成HBM2堆棧之類的東西。Agilex M 系列 FPGA 針對數據密集型用例進行了優化,例如高性能計算應用,這些應用除了高頻寬外,通常還需要大量記憶體。

要瞭解有關英特爾敏捷 FPGA 的更多資訊,請使用本頁右上角顯示的 URL...但關於英特爾敏捷 FPGA 就足夠了。讓我們聽聽Atomic Rules的Shep關於他們的Arkville數據行動器IP的資訊,該IP可以與BittWare基於Agilex F系列生產品質FPGA的新加速器卡一起使用。交給你了,謝普!


謝潑德·西格爾 | 首席技術官,原子規則

謝謝你,湯姆,你的介紹——太好了。嗨,我是 Atomic Rules 的 Shep Siegel,感謝您今天參加這個網路研討會,我們真的很興奮,我真的很高興向您介紹 Agilex 上的 Arkville。這是已經醞釀了很長時間的事情,這次網路研討會是推出派對......所以我們開始了。

Agilex上的Arkville:FPGA的Gen4數據移動是有效的。但首先,關於原子規則。我們已經這樣做了一段時間。我們的商業模式是把事情做得更好。我們製造了一些關鍵的核心產品:Arkville,當然,我們今天將討論,UDP卸載引擎,它執行UDP和硬體,TimeServo和TimeServo PTP,它們在數據中心的FPGA設備佇列中提供一致的系統時鐘。

我們是英特爾金牌合作夥伴認證解決方案供應商,我們為此感到非常自豪。而且,十多年來,我們一直在為開源專案、工程企業級工程解決方案做出貢獻......真正專注於網路IP方面的計算和通信。我們真的很自豪和感激擁有一小群精選和回頭客,這使我們能夠成長。

好吧,讓我們跳進阿克維爾。因此,阿克維爾是DPDK數據包管道。我的意思是,這是一種將FPGA數據流互連到主機記憶體緩衝區的方式,反之亦然:它允許主機記憶體中的數據成為流或FPGA上的主機記憶體池中的數據,反之亦然。

它促進了這種數據移動,因為數據流在PCI Express上移動。我們將其稱為管道,因為從軟體端的 API 到PCI Express再到FPGA,再到生成和使用數據的AXI流的所有複雜性都被抽象掉了......這意味著更快的上市時間,更快的解決方案使用DPDK(Linux基金會的一部分)和FPGA硬體(如英特爾敏捷設備)的標準API。英特爾還可能製造一些可用於在主機端運行的處理器,但我們會將其保存到另一個網路研討會中。

那麼阿克維爾用在哪裡呢?每當需要在主機和FPGA設備之間有效地行動數據時,就會使用Arkville。它是一個構建塊元件,可以抽象出數據移動的許多複雜性,以便Arkville的使用者能夠繼續構建SmartNIC設備,網路設備或DPDK加速器等產品。

為什麼選擇朝鮮...聽說那只是為了網路?好吧,對於網路來說,DPDK確實有一個非常強大的故事,但它比這更深刻。DPDK 是一個受信任的 API,已經存在了很長時間。它最近一直在Linux基金會的管理下。它經過社區審查,定期測試,它是一個開源的標準化解決方案和一組API,不僅用於網路,還用於批量數據移動。

通過將 Arkville 設計為 DPDK,它可以釋放主機處理器週期以執行更有用的工作。這肯定是內核旁路手段——這是內核不礙事的,這意味著更高的輸送量和更低的應用程式延遲——但 Arkville 知道 DPDK(我們將在後面的幻燈片中介紹這一點),但是,通過將 DPDK 數據移動的業務邏輯推送到 FPGA 門中, Arkville 可以同時具有更高的輸送量和更低的延遲,從而減少通用處理器緩存污染,從而提高內核后性能。

因此,如果您的工作負載將由他們的 API 提供支持,那麼 DPDK 非常有意義,這當然可能是網路......但也可以是FPGA設備和主機之間的簡單批量數據移動。

Arkville的關鍵點是Arkville在FPGA硬件中實現了DPDK規範的低級內迴圈...基本上將 DPDK 規範變成了 RTL 門。所有其他 DPDK 解決方案(包括商用 ASIC NIC)都將部分或全部工作推送到主機處理器內核上。我們從一開始就設計Arkville,做一件事,做好一件事:在硬體中操縱DPDK mbuf數據結構,這樣處理器內核就不必這樣做了。通過在硬體中做到這一點,我們具有同時實現高輸送量和確定性低延遲的獨特優勢。在執行此操作時,幾乎沒有主機核心利用率,我們將在下面的幻燈片中看到。Arkville背後的另一點是它是一個完整的數據行動解決方案——它開箱即用。

軟體工程師正在使用標準 API 來生成和使用數據緩衝區。硬體工程師正在連接到AXI介面。將「當天開始」的故事與「自己動手」的解決方案進行比較和對比,後者可能需要數周甚至數月的時間來類比,更不用說在現實世界的硬體上站起來了。

因此,Arkville是作為軟體和門件的組合提供的。有一個完全開源的 DPDK 拉模驅動程式,目前可在 DPDK.org 使用,然後是適合您的英特爾敏捷 FPGA 的 RTL 元件,該元件由原子規則許可。有一個命名專案和一個多項目許可證,但基本上它是英特爾 FPGA 內部的許可 IP。兩者協同工作,提供我一直在談論的這個數據移動器管道,允許數據從FPGA流向主機,反之亦然。

這幅目圖卡通圖在左側顯示了主機處理器,在右側顯示了 FPGA,並展示了主機處理器(通常是至強工作站或伺服器)和 FPGA(通常是英特爾 Agilex 設備)如何拆分以及不同元件所在的位置的一些子模組。就面積或複雜性而言,它沒有任何規模,但底部的綠色和紅色框代表設備到主機和主機到設備數據移動的源和接收器,這些源本質上是目的地或源或生產者或消費者的貨幣阿克維爾通過其管道攜帶的貨幣。

在這裡,我們看到一個圖表,該圖表顯示了Arkville的輸送量作為數據包大小的函數。現在,您可以立即看到,對於較小的數據包大小,輸送量較小,這隻是PCI express對較小數據包的開銷的事實。但是,如果我們關注圖表的右側,我們也會看到,代表設備到主機和主機到設備傳輸速度的藍線和紅線接近頂部的理論極限,即 220 GB/s,甚至更高一點。我們將在稍後的演示中看到更多內容。

Arkville還具有極低的延遲(不是高頻金融科技交易延遲,預計為亞微秒),而是FPGA和主機之間始終的單位微秒延遲。而且,缺少長尾,特別是在長數據包和高負載下,對於 vRAN 和 ORAN 以及 5G 應用程式來說是一個價值,它們不能容忍錯過最後期限。

除了低延遲之外,Arkville還基本上沒有延遲抖動。這是怎麼回事?好吧,由於不是具有緩存和其他動態手段來支援大量佇列的標準DMA引擎,Arkville從數據包到達的時間到它到達主機記憶體的時間(或相反)具有確定性的延遲。

這種只做DPDK和移動mbufs的特殊性使得Arkville的延遲抖動基本上為零。Arkville也沒有memcpy的意思說主機處理器沒有工作,沒有!將數據包數據從一個點移動到另一個點的零週期。Arkville 在 FPGA 上的 RTL 硬體可確保數據準確地落在 mbuf 中,這樣主機就不必移動該數據,從而為您的應用留下更多的 CPU 週期。

此圖顯示了對於適合單個 mbif 的數據包大小,在 Arkville PMD 中花費的每個數據包的時間不到 20 納秒。在這種情況下,mbuf 只是一個兩千位元組的 mbuf。如果我們擴展 mbuf 大小,這種平坦度將在頁面右側繼續。

阿克維爾永遠沒有丟棄的數據包 - 永遠。例如,除非系統被岩石擊中。

Arkville上的流量控制是完全的前端後端硬體軟體,一直跨越所有域。在任何情況下,一端的數據都不能安全地傳輸到另一端,反之亦然。如果其他數據行動器無法跟上或出現困境或重新傳輸,它們將丟棄數據包。我們擁有硬體和軟體完全流量控制的指示,可在所有條件下提供零數據包丟棄。

現在,在所有這些之後,讓我們跳到一個預先錄製的演示(幾天前錄製的),它顯示了Arkville是如何安裝的,顯示了它在 Xeon 伺服器上的運行,然後,我們將跳到問題和答案 - 在那裡見。

嗨,Shep Siegel,這是我們在12月10日星期五進行的預先錄製的演示,比英特爾/BittWare/Atomic Rules Arkville on Agilex網路研討會早幾天。我將介紹我們將在這裡演示的內容,然後我們將看到演示。

有一個英特爾至強處理器被用作主機系統,一個英特爾敏捷 FPGA,它被用作被測設備。如果你仔細看左下角的這張幻燈片,我們可以看到使用者土地處理器記憶體(基本上是數據進出的DRAM),在右下角,我們將再次看到FPGA結構記憶體,數據將從中來回移動。

在這兩者之間,我們有gen4 x16 PCI Express將Agilex設備連接到Xeon主機。我們在此演示中使用的部件是配備至強 6346 處理器的戴爾 R750 伺服器(支援 gen4 x16 PCIe)。帶有Intel Agile F設備的BittWare IA-840F,當然還有Atomic Rules自己的Arkville——我們的21.11版本,本周早些時候剛剛發佈。

因此,我們將在演示中展示的第一件事是阿克維爾腳本。它將引入所有需要的庫,下載和編譯DPDK,並處理我們在主機系統端需要的東西。我們要做的下一件事(如果未安裝 Quartus Prime Pro)是安裝它,然後我們將使用 make target make Agilex 從 RTL 編譯一個位流。

一旦比特流準備就緒,我們就被載入到FPGA中,只需進行偽重啟即可。無需使比特流保留在 Agilex 設備的快閃記憶體中。

大約有十幾個DPDK應用程式與Arkville發行版一起分發,但我們將在此演示中專門關注TX(或下游)或RX(或上游)輸送量。最後,在演示結束時,演示數據被放置在性能日誌中,我們將繪製出該數據。

好吧。因此,我們將從我們的專案目錄中開始,我們要做的第一件事就是從提供的壓縮包中擴展Arkville版本。我們有它。壓縮包已擴展。接下來我們要做的是運行原子規則阿克維爾安裝程式腳本,它將引入必要的庫以及下載和編譯DPDK。所以,我們看到圖書館正在拆除。現在,我們將從 DPDK.org 下載 DPDK

下載DPDK后,我們可以啟動介子忍者編譯系統。

演示的這一部分實際上是實時顯示的,這真的很快——除了測試字串......它總是停在那裡一點點...DPDK 將在一分鐘內完成。太好了:我們已經安裝了DPDK,我們準備繼續前進。

此時,我們需要在 Agilex F 上為 Arkville 構建比特流。因此,我們將轉到硬體目標目錄,只需鍵入make Agilex,即可構建所有英特爾 Agilex 目標。

我將首先檢查以確保我們安裝了Quartus 21.3。是的,就是這樣,我們走吧!

在這一部分中,我們當然截斷了一點。運行整個工具流以構建比特流大約需要 30 分鐘到一個小時(取決於設計的大小)。我們這裡有六種不同的設計,所以我們目前只關心其中一種。

完成比特流后,我們會將其下載到戴爾伺服器內的BittWare IA-840f卡中。因此,我們下載比特流,執行sudo重新啟動以恢復系統。

我們現在看到,系統從 lspci 重新啟動後,Arkville 設備在伺服器中可見。它恰好在插槽C-A(查理阿爾法)。

我們可以去使用一些擴展的 lspci 詳細程度,以查看設備經過訓練的一些功能。在這裡,我們正在尋找的 - 如果我們可以在螢幕不來回的情況下管理滾動條 - 不僅僅是我們在開始時看到的原始lspci,而且還看到該設備確實具有Gen4 x16功能。這就是此處突出顯示的鏈路功能線,我們實際上已經實現了 Gen4 x16 鏈路狀態,這意味著我們對此進行了培訓。

所以這是一個好兆頭,表明我們有一個良好的開端。因此,有了這個,我們現在可以繼續使用分發的十幾個 DPDK 應用程式中的任何一個。我們將使用 Arkville 雙工性能測試,它獨立運行一套測試來測量入口和出口性能,也是系統的完整雙工性能。

這個測試有很多維度,在各種反覆運算中,它可以運行幾秒鐘、幾分鐘、幾小時或幾天,所以我們將從這些測試集中獲取數據,並將其抓取到一個名為 performance.log 的檔中。我們將從此性能檔中獲取數據,並將其放入Google表格文檔中,我們可以在其中繪製並詳細查看它。

這是繪圖數據日誌,這是結果。因此,頂部的黃線,天際線,如果你願意的話,代表這種硬體和軟體配置的理論極限,而藍線和紅線分別表示設備到主機和主機到設備的輸送量。您可以看到 y 軸具有以每秒千兆位為單位的有用輸送量。

因此,在圖表的左側 - 我們現在正在放大或縮小 - 性能不是那麼好,因為數據包大小較小,並且主要是由於PCI的512位元組MPS。但是,當我們向右平移到此處並查看 512 位元組或 1 KB 及以上的數據包大小時,我們可以看到上游方向的輸送量增長到每秒 200 GB 以上,下游方向的輸送量接近每秒 180 GB。

因此,在上游方面相當值得稱讚的性能和一點改進的空間,我們可以在右側的漸近性能中看到。

但總的來說,我們希望通過查看這張圖可以清楚地看出,Agilex F 上的 Arkville 在接近理論性能方面做得令人欽佩。

感謝您抽出寶貴時間觀看此演示。我們現在要回到即時,馬庫斯將在那裡引導問題和答案,我相信你們中的一些人會有。

再次感謝你,節日快樂。


問答

(馬庫斯)

在我們進入問答時間之前,我想分享幾句話。

因此,今天的網路研討會介紹了在BittWare IA-840f卡上運行的Atomic Rules的Arkville,該卡具有Intel Agilex FPGA。有關其中任何一項的更多資訊,請訪問BittWare,Intel或Atomic Rules網站。

因此,讓我們從一些問題開始。

讓我們看看,第一個是給Shep的——我們剛剛看到了圖表。那麼,阿克維爾的最終表現數位可能是多少?

(謝普)

謝謝,馬庫斯。那麼,你有沒有說最終可能的表現數位是多少?

(馬庫斯)

嗯,是的,因為我認為你已經提供了一些性能數據,並且你注意到了一些更新或其他東西。所以也許這就是他們的意圖。

(謝普)

當然,明白了——明白了。因此,在系統級別,性能涉及通用處理器,FPGA互連網络,如PCI Express......很難。我們可以類比我們想要的一切,但在現實世界中......事情發生了。我們有信心將每秒 220 千兆位的數位放在那裡,主要是因為在過去的幾個月裡,早期......在消費級或工作站級的Rocket Lake系統上,我們已經看到了這一點。也許一些敏銳的眼睛注意到,在查看我們運行的演示時,高性能戴爾伺服器下游端的最終性能,即大型至強,最終不如Rocket Lake——這也許歸功於NUMA問題,QPI問題和類似的事情。所以,最後,最好的方法...我們認為,關於輸送量,最好的基準是——因為這個硬體可以從BittWare和英特爾獲得,IP可以從Atomic Rules獲得——是在你自己的商店裡得到它,並儘快做到這一點。

我們擁有的演示和我們在預先錄製的演示中展示的工具將在您自己的系統上快速向您展示它的功能,並且通過這種方式,而不是採用我們在您自己的應用程式中視為標稱性能數字的數位......在您自己的系統中...在您自己的特殊情況下,可以看到(例如輸送量)持續輸送量數位是多少。

(馬庫斯)

好的,是的,謝謝你的回答。還有一個問題要問你,我想有一個非常簡單的答案:Quartus使用者將如何使用Arkville IP......它是否與平台設計器/Qsys相容?

(謝普)

是的。最簡單的方法...我們既支援平台設計器,也支援那些已經使用該工具一段時間的人,Qsys flow...但我們也支援完整、直接的SystemVerilog。而且,由於SystemVerilog介面的簡潔性以及Quartus為SystemVerilog提供的支援,因此支援使用SystemVerilog或Platform Designer的標準RTL流程。因此,Arkville 像任何其他內核一樣在您的 Agilex 設備中實例化。

(馬庫斯)

所以對於Shep來說:Arville RTL IP支援PCI Gen5和CXL的路線圖是什麼,性能數位可能是多少?

(謝普)

嗯,這是一個很好的問題。因此,我們今天展示的性能當然是Agilex F和Gen4 x16...而且,對於將輸送量翻倍的需求是如此被壓抑,比如 Gen3 x16,我們很高興我們能夠邁出第一步。

然而,問題是Gen5的未來是什麼?我們期望,當我們遷移到 Gen5 x16 時,我們將能夠再次將性能提高一倍或更多倍。一段時間以來,我們一直在與英特爾密切合作,其中的一個關鍵部分與...你知道頻率縮放很久以前就停止了......這在很大程度上與建築創新有關......其中一件事,在這裡吹捧我們工程團隊自己的喇叭(但如果沒有英特爾的支持,我們不可能做到這一點),是 Agilex 在當前版本和支援 Gen5 的未來版本中,允許多個 PCI TLP 在每個時鐘週期移動。今天,藉助 Agilex F 系列,我們在每個時鐘週期中將達到 10 億個 TLP(很抱歉,請更正):兩個在入口,兩個在出口,頻率為 500 MHz。

有了Gen5和I系列R-Tile,我們將能夠再次翻倍。現在,TLP 的數量增加一倍並不一定會使带寬翻倍,但它讓我們的阿克維爾 IP 更智慧......對不起,我胡言亂語太多了...對 Gen5 的簡短回答:頻寬和輸送量將再次翻倍,沒有任何顯著增加,並且可能減少延遲。

現在,這個問題也涉及到CXL。CXL 完全是一頭不同的野獸。正如世界在過去幾十年中發現異構計算是一個好主意一樣......你知道的。。。異構通信是一個好主意。還有一個地方用於批量數據移動和數據包數據移動,PCI 解決了這個問題,還有一個地方用於 CXL。

Arkville的立場(及其與英特爾技術的互連:Agilex內部的底層P-Tile和R-Tile技術)是這樣的,我們不排除將來與CXL解決方案一起工作......但我們正在超越自己。我們只是...我們今天很高興,經過五年的運輸阿克維爾到這個懸而未決的需求和渴望獲得 Gen4 x16,我們今天在這裡,我希望我們能在我們開始開始衝擊 Gen5 x16 和 CXL 之前享受一下。

(傑夫)

不,謝普,這是傑夫——你不會得到太多的休息。正如我們之前談到的,我們現在有 F 系列部件,即 Gen4。我提到了 I 系列和 M 系列部件,它們正在走上湯姆稍微談到的路。我們將在明年年中推出 Gen5 的 I 系列板。

(謝普)

我們將與您同在。

(馬庫斯)

我有一個關於Shep的H2D延遲的問題 - 我知道你談到了這一點,但也許你可以詳細說明一下。

(謝普)

確定。好吧,正如我之前所說,調查任何性能參數的最佳方法......功率、輸送量、延遲...因為儘管存在這些元件短缺,但這些硬體和軟體以及IP都可用 - 讓我們將其放入您的商店並在您的條件下進行測量。正如我們所說,在我們的測試條件下,這不是通過IP切割的金融科技設計。它是存儲轉發,非常智慧地它是存儲轉發,但沒有任何延遲抖動。

因此,我們的標稱延遲約為 1-3 微秒,沒有長尾。這裏的電話卡,以及存儲轉發架構上的區別,是將要發生的事情,將處於線路前端的數據包(無論是上游還是下游)擱置以使其移動。而且,與標準的 DMA 引擎固定頁面不同,分散-收集 — 到目前為止,我們在本次對話中根本沒有提到的所有內容......阿克維爾沒有這些。這完全是確定性的。因此,例如,在到達使用者空間主機記憶體緩衝區的途中到達FPGA的一大塊數據是即發即棄的,並且延遲將達到單位微秒的數量級。

(馬庫斯)

我這裡有一個問題...哦,是的,所以,圖表有不同的上行和下行傳輸速率,那麼為什麼呢?

(謝普)

這是一個很好的問題。我以為我之前已經觸及了一點,但我會重複一遍,因為也許我不夠清楚。嗯,實際上,顯示了幾個圖表...表現出不同的上下游表現。

我看看。。。為什麼下游或出口性能較低?我想說的是,一般來說,系統中的某個地方有更多的空間出現阿姆達爾定律式的序列化延遲——無論是在軟體中,還是在硬體中(可能包括原子規則硬體等)。特別是對於那些非常關注Xeon伺服器的人來說,正如我所說,我們看到下游性能明顯低於我們在Rocket Lake上的表現,我們相信這是由於我們自己對演示的程式設計以及我們從哪個NUMA區域中提取下游數據。

我們相信,並且我們的團隊仍在測試中查看該示例,我們展示的演示下游的數據實際上來自 NUMA 區域的另一台處理器(位於另一側 QPI)上的處理器連接記憶體。

我們將在繼續時對其進行改進。一般來說,你知道,一個帖子寫道...如果記憶體系統可以停用它,那麼將數據移動到上游將非常容易(Xeons和Rocket Lakes都做得很好)。讀取 - 無論我們有多少未完成的讀取請求,以及我們多麼小心地試圖對記憶體控制器友好 - 有時這些完成需要更長的時間才能返回。

這是一個優點,我們可以在單個時鐘周期內處理多個完成。再次,回到 Agilex 介面給我們帶來的架構優勢。但是,一般來說,完成的讀取比可以發佈和即發即棄的寫入更容易出現問題。

(湯姆)

嘿,馬庫斯?您是否希望我多談談 Gen5 和 CXL?

(馬庫斯)

所以是的,當然,如果你有機會的話。

(湯姆)

是的。所以,所以我認為,我認為我的音訊下降了,所以也許我之前錯過了,但只是為了讓人們知道,我認為傑夫已經提到他們計劃做額外的基於Agilex的卡片,但Agilex I系列。I系列是帶有小晶元的設備,我們稱之為R-Tile,確實支援PCI Express Gen5和CXL。

在晶元層面,我們今天正在對這些設備進行採樣,我們正在展示......我們已經去過PCI-SIG研討會。我們,你知道,我們正在從我們的設備和R-Tile中獲得全部頻寬。因此,我們正在通過16通道進行全頻寬PCI Express Gen5。而且,如果你把它與這個特定的板進行比較,你知道,從PCI Express的角度來看,它基本上是頻寬的兩倍。

(馬庫斯)

好的,感謝您提供的其他資訊。我們還有時間再問幾個問題。所以,這個,再次,是給謝普的。Arkville DPDK 與英特爾 FPGA 多提示 DMA DPDK 支援有何不同?

(謝普)

太棒了——這是一個很好的問題,馬庫斯。但你知道嗎?暫且不談——把它推開一秒鐘,因為我想談談湯姆和傑夫都提到的第五代問題。因此,我們幾乎 100% 的阿克維爾客戶(這是我們卓越的 IP)都依賴於輸送量。這就是為什麼Agilex上的Arkville今天在Gen4 x16上如此重要的原因:客戶和應用程式正在被授權。

當 Gen5 x16 設備和開發板出現時,Atomic Rules 致力於在那裡,否則我們就沒有業務了。我只想強調一下,不要過早地宣佈Arkville對Gen5的支援 - 顯然,我們非常關注這一點。

好的,所以說到Arkville與英特爾出色的多頻道相比,我認為它被稱為多提示或多通道DMA(MCDMA)。嗯,MCDMA 是英特爾提供的優秀免費IP,內置於Quartus中,並帶有示例設計。它確實是一個廚房水槽DMA — 在我看來,與其說是一個數據移動器。

它幾乎支援您希望使用資料移動的所有可能角色:流、消息、緩存、CXL...你能想到的,MCDMA就是這樣做的。它在FPGA上使用的記憶體資源是Arkville的兩倍。但是,話又說回來,英特爾的業務是銷售更大的FPGA,所以也許有一種方法可以解決這種瘋狂。這將需要一些工作。我的意思是,它將由RTL使用該IP。這將需要一些RTL類比和連接,並且需要另一邊的一些軟體,即使我相信英特爾會提供這些。

如果你有特殊需求,那個阿克維爾沒有找到位址,我說去跑,然後跑。我們真的不是在與之競爭。如果您遇到數據移動問題,無論是批量數據還是 DPDK 並且是網路,我們有一些東西可以讓您在那一天真正開始。所以,我認為這是構建與購買意義上的區別。

我想,最後,你知道,另一部分是 CPU 卸載,因為,你知道,MCDMA 將使用分散-收集清單......它將使用主機核心來做到這一點。因此,如果您在主機上有大量核心來參與您的 DMA,那就去做吧。Arkville將接受這一點,並將這些內核留給您的應用程式。

(傑夫)

對不起,馬庫斯,有一件事我想補充一點是......我可以驗證Shep所說的一點,即使用Arkville和其他Atomic Rules IP的客戶已經啟動並運行得非常快。只是Shep和他的團隊在提供開箱即用的部署方面做得很好,而不是,你知道,自己動手......以下是基本元件 — 將它們放在一起。因此,當我們與客戶一起部署它時,我認為這是一件不同的事情。

(馬庫斯)

您可以在此處看到一個問題...我有...是的。在IP上 — 只需可移植到其他英特爾 FPGA 裝置。我不知道他們的意思是,也許,Stratix 10或其他Agilex——移植到其他設備有多容易。

(謝普)

我想那是給我的。因此,我們沒有任何要求將Stratix 10設備與Arkville一起使用。但是,我們的所有其他IP(TimeServo,TimeServo PTP和UDP卸載引擎)在Stratix 10甚至更早的英特爾設備以及其他FPGA上都受支援。儘管像Quartus,Platform Designer(以前的Qsys)這樣的東西有很多願望和價值,但我們一直在朝著所有內核的SystemVerilog表示方向發展,這意味著,你知道,十幾行文本代表實例化。

如果有人真的有興趣在Stratix 10上使用Arkville,請與我們聯繫。

(傑夫)

我認為答案之一是客戶/用戶不對阿克維爾進行任何移植。那是原子規則將進行移植。如果你想用S10或Agilex I系列進行構建,它只是與原子規則不同的內核,它只是直接載入並無縫工作。無需額外的使用者工作。

(謝普)

在 Arkville 介面簽名中(我很抱歉:我現在正在與 RTL 設計師的女孩和那裡的傢伙交談)是十幾行 SystemVerilog——完成了......一些介面...把它放到你的設計中,然後去。這在任何 FPGA 裝置之間都不會改變;這是一回事。

(馬庫斯)

好的,最後一兩個問題在這裡。這個是,好吧,我就在這裡讀出來:Arkville是作為加密網路清單還是混淆HDL提供的,如果是後者,那麼Shep的語言是什麼?

(謝普)

啊——詭計問題。因此,我們向授權客戶提供未加密的IEEE Verilog網表Arkville。但是,未加密的Verilog不是原始程式碼。我們使用我們自己的基於原子規則的函數式程式設計語言通過機器生成Verilog,這就是我們進行形式驗證的方式。因此,具體來說,您類比和編譯的交付資產是未混淆、未加密的 Verilog 網表。

好吧。好吧,我當然很欣賞所有的問題...答案。如果您還有其他問題,可以直接與我們聯繫: BittWare.comIntel.com/agilexAtomicRules.com

謝謝大家的收看,祝你有美好的一天。網路研討會到此結束。

了解有關Arkville和BittWare基於Agilex的FPGA卡的更多資訊

Arkville IP 框圖