BittWare 网络研讨会

使用Intel®Agilex™ FPGA的Arkville PCIe Gen4数据转换器网络研讨会

Atomic Rules公司的Arkville IP最近进行了更新,以支持英特尔Agilex FPGA,包括BittWare公司最新的IA系列产品上的FPGA。Arkville通过PCIe Gen4 x16以高达220 Gb/s的速度移动数据。

在这次网络研讨会上,你将听到BittWare公司的Jeff Milrod介绍支持英特尔Agilex FPGA的产品,以及数据移动器IP在各种市场中的应用。来自英特尔的Tom Schulte将介绍Agilex产品系列的观点,包括未来的功能,如PCIe Gen5支持。

最后,我们将邀请Atomic Rules的Shep Siegel进行演示,并解释在Agilex FPGA上使用Arkville数据移动器IP在短时间内实现的性能。他将深入介绍Arkville如何在不牺牲性能的情况下缩短产品上市时间并使开发变得更容易。

观看下面的网络研讨会,包括现场活动中录制的问答环节。

BittWare 和英特尔标识
原子规则徽标

发言人

杰夫-米罗德照片
Jeff Milrod - BittWare首席技术和战略官
托马斯-舒尔特照片
Thomas M. Schulte | 产品线经理,FPGA产品,Intel® 可编程解决方案集团
Shep Siegel 照片
Shepard Siegel | CTO,Atomic Rules
 

欢迎参加我们的网络研讨会:使用英特尔FPGA的Arkville PCIe Gen4数据移动。我是BittWare公司的Marcus。

让我简单介绍一下我们的演讲者和他们要讲的内容。

首先是BittWare的首席技术和战略官Jeff Milrod。他将介绍以Agilex FPGA为特色的BittWare产品线,以及BittWare的IP合作伙伴和解决方案的一些情况。

接下来,来自英特尔的Tom Schulte将重点介绍英特尔Agilex FPGA,包括一些即将推出的移动数据的功能。

最后,我们将邀请来自Atomic Rules的Shep Siegel。Shep将带领我们参观Arkville,包括在BittWare的IA-840F卡上运行Gen4 x16数据移动的演示,该卡采用了英特尔Agilex FPGA。

之后,我将回到现场接受你们的提问。

现在交给杰夫,让我们开始吧!


Jeff Milrod - BittWare首席技术和战略官

嗨,大家好。谢谢你今天加入我们。正如马库斯刚才所说,我的名字是杰夫-米罗德,我是BittWare的首席技术和战略官。对于那些不熟悉我们的人来说,BittWare是Molex的一部分。具体来说,我们是数据通信和专业解决方案集团的一个业务部门。作为Molex的一部分,正如你在这张幻灯片上看到的,我们可以获得内部制造和全球物流能力。

BittWare现在在各种市场上拥有超过30年的FPGA经验和专业知识。在此期间,我们扩大了产品范围,不仅包括企业级FPGA硬件平台,还包括系统集成、工具支持、参考设计和应用IP,使我们的客户能够快速、低风险地部署其解决方案。我们是英特尔合作伙伴联盟计划的一部分,在过去的20年里,我们开发了高端FPGA加速器和具有每一代Altera和英特尔FPGA的电路板。

我们的传统、专业技术和通过Molex的全球影响力的融合,使BittWare具有独特的资格,使客户能够利用和部署FPGA技术来解决他们要求的应用和工作负载。从最广泛的角度来看,BittWare的加速平台针对四个不同的应用和市场领域,如图所示:计算、网络、存储和传感器处理。这些应用和市场中的每一个都很复杂,涵盖了各种各样的工作负载;我们在这里展示一些例子。

就我个人而言,我在BittWare工作了几十年,在此期间,我们一直专注于通过提供坚实的硬件平台,使人们能够开发、部署加速的解决方案,来驾驭FPGA加速器的前沿浪潮。Agilex将是我们第七代基于Altera/Intel的FPGA解决方案,在这段时间里,我不记得我曾对新一代技术像Agilex一样感到如此兴奋。

这些真正有能力的引擎,我认为在性能方面有了飞跃,将使我们的用户有能力加速比过去更多的应用和工作负载。英特尔推出的第一波Agilex FPGA是F系列,BittWare利用该系列生产了我们的F系列产品,如图所示,名字很恰当。我们将在未来推出I系列和M系列部件......我们将在一分钟内讨论这个问题。

我们的旗舰产品是左边所示的IA-840f。它具有目前最大的Agilex:AGF027。这是一个GPU大小的卡,有PCIe Gen4 x16。因此,我们拥有目前世界上最大的从FPGA到主机的带宽。

我们在前面有三个QSFP-DD,允许我们实现六个100GbE的通道;也可用于其他格式。四组DDR4......我们在后面有16个通道的扩展端口,允许我们连接到诸如存储阵列......其他设备......并可用于板对板扩展通信。

我们有我们的板卡管理控制器,这是我们为硬件平台带来增值的一个关键部分。当然,我们还支持英特尔的世界级工具,包括oneAPI。

在右边你会看到两块更针对特殊应用的板卡。IA-420F是一块NIC大小的板卡,除其他外可用于SmartNIC......计算存储阵列、计算存储处理、无线接入网络......这种较小尺寸的板卡有多种应用。

而在最右边,我们有我们的IA-220-U2,这是一个U.2 SSD驱动器格式。因此,它特别针对计算存储处理应用。

所有这些板卡以及BittWare的所有硬件板卡都是建立在我们的企业级基础上。我们的意思是一个定义明确、稳定和可信的平台,可以减少和降低风险。

因为我们已经花了所有的时间来做得非常全面、彻底,所有的合规性和认证,对配置的严格管理和控制,清晰和简洁的文档,提供工作演示,软件工具来访问它,我们有广泛的支持能力。在企业级类别中--显示在右边--每一个只是一个更高的级别,下面有多个检查清单,我们确保在发布完整的生产质量的板子之前实施和严格验证,这些板子现在是值得信赖和稳定的。

我们的应用解决方案使能团队正在努力工作,不断地在硬件之上开发更高层次的抽象,以处理需要在FPGA内实现的许多细节和具体情况,我称之为门控软件开发,以及主机上的软件与这些门控软件元素进行通信。

这是我们网站提供的一些白皮书、案例研究、实例和参考设计的例子。如果你看一下上面的内容,还有更多。

这个平台启用的IP路线图对BittWare为Agilex FPGA增加的价值至关重要。我们的总体目标是提供客户苦苦挣扎的PCIe、以太网和NVMe基础设施,并将这些问题解决。

我们与关键的第三方以及我们的内部开发合作,推出世界级的具体实施方案,如Arkville和DPDK数据移动器,Atomic Rules将在一分钟内谈及。这是我们目前正在进行的所有工作的清单,随着我们Agilex平台的成熟,这些工作将在明年推出。

几年前,我们曾经出售我们亲切地称为空白的FPGA,或者有时只是现在称为裸机。我们的客户会花很多时间来开发客户的应用IP,这些IP会扩展到消耗整个FPGA。我们仍然这样考虑......人们倾向于认为,你知道,在这个内核或工作负载上有所有这些工作必须放到这个FPGA上,但结果是我们现在发现--随着FPGA的尺寸、复杂性、先进性和性能的增加,连接存储器、传感器、网络、扩展I/O到主机通信、电路板管理控制器、系统集成的低级实现:这些东西正在消耗越来越多的设计资源和能力。

我把这称为管道,我们的gateware管道是我们在这些复杂的FPGA上实现应用解决方案所带来的增值的关键部分,这样我们的客户就不必深入了解FPGA上硬件的所有细节,I/O,最后的微米,正如我所说的,BittWare硬件的更多板级实现。

当然,我们提供所有这些--如果客户想自己做,那很好--但我们已经完成了所有这些,并被证明是我们企业级平台的一部分,这样我们客户的独特应用IP更多的是关于他们的特殊秘方和该工作负载和应用的独特附加值,而不是处理从内核到内存...到主机...从网络...所有这些事情我们为你处理的额外复杂问题。

其中一个主要的例子是Atomic Rules和他们的Arkville DPDK数据移动器到主机,我们现在已经看到了这个引擎的绝对一流的性能和CPU卸载。我们将在一分钟内讨论这个问题。在我们让Shep进入这个话题之前,我认为应该为Agilex FPGA和英特尔带来的产品提供一个更好的基础。因此,我将把它交给汤姆。非常感谢大家。


Thomas M. Schulte | 产品线经理,FPGA产品,Intel® 可编程解决方案集团

谢谢你,杰夫。正如Jeff在几张幻灯片中提到的,新的生产质量的BittWare加速器卡是基于英特尔最新的Agilex FPGA的。这里强调的是Agilex系列中的一些更重要的功能。

这些器件建立在第二代英特尔Hyperflex™架构和英特尔10纳米SuperFin工艺技术之上,与上一代英特尔FPGA相比,这两种技术都表现出明显的性能改进和功耗节省,而且与竞争对手的7纳米FPGA相比也是如此。

在这次网络研讨会上,我不打算回顾所有这些功能,而是重点介绍新的CPU接口协议,即PCI Express Gen5和Compute Express Link,通常缩写为CXL。

对于英特尔Agilex系列的选定成员,这些设备支持PCI Express的全部带宽,每个端口配置高达x16通道,与同等配置的Gen4设备相比,提供了两倍的带宽。

对于不需要连贯接口连接到主机CPU的加速用例和工作负载,PCI Express是高性能应用的业界标准,并将继续成为基于FPGA的加速器的关键构建块。

对于英特尔Agilex FPGA的选定成员,这些器件支持CXL协议的全部带宽。同样,端口高达x16通道,与PCI Express协议相比,提供了一个更低的延迟和连贯的接口。对于加速的用例和工作负载,特别是那些严重依赖与内存有关的交易,CXL接口看起来会被用于许多高性能应用。

我看到这一点是基于两个关键指标。首先,超过100家公司已经加入了计算快线联盟。其次,计划提供见基于CXL的产品和解决方案的客户数量。

虽然PCI Express Gen5和CXL的细节令人振奋,但真正获得芯片并运行这些接口的情况甚至更好。各种不同的英特尔团队继续测试、鉴定和运送必要的硬件和软件的工程样品,以实现基于新的下一代英特尔CPU的代号为蓝宝石急流的新平台。

除了这些平台之外,许多客户也已经收到了支持这两个新接口的Agilex FPGA的工程样品。

事实上,用于测试每一个蓝宝石激流处理器的一些内部硬件是基于英特尔Agilex FPGAs。

Agilex FPGA分为三个不同的系列,分别针对不同的应用。F系列器件将收发器支持率提高到每秒58千兆位,增加了DSP功能和高系统集成度,针对数据中心、网络、边缘、嵌入式、工业、军事甚至无线等广泛的应用。这被认为是Agilex系列中的通用类器件。

在I系列中,我们有一批针对高性能处理器接口和带宽密集型应用而优化的设备。这些系列将为新的CXL协议、PCI Express Gen5和支持高达116G收发器带宽的选项提供选择。对于需要大量接口带宽和高性能的应用,I系列FPGA是一个引人注目的选择。

最后是M系列设备。这些设备是为计算和内存密集型应用而优化的。这个系列将提供F-系列和I-系列所没有的额外功能。如DDR5、LPDDR和集成HBM2堆栈。Agilex M系列FPGA为数据密集型的使用案例进行了优化,如高性能计算应用,除了高带宽外,一般还需要大量的海量存储器。

要了解更多关于英特尔Agilex FPGA的信息,请使用本页面右上方的网址......但关于英特尔Agilex FPGA的信息已经足够了。让我们听听Atomic Rules的Shep关于他们的Arkville数据移动器IP的介绍,该IP可用于BittWare的基于Agilex F系列生产质量FPGA的新加速器卡。交给你了,Shep!


Shepard Siegel | CTO,Atomic Rules

谢谢你,汤姆,谢谢你的介绍,这很好。嗨,我是Atomic Rules的Shep Siegel,感谢你们今天来参加这个网络研讨会,我们真的很兴奋,我真的很高兴能告诉你们关于Agilex的Arkville。这是一个酝酿已久的东西,这次网络研讨会是推出的派对......所以我们开始吧。

Agilex的Arkville:它是用于FPGA的第四代数据运动,只是工作。但首先,要介绍一下原子规则。我们已经做了一段时间了。我们的商业模式是把更少的事情做得更好。我们有几个关键的核心产品:当然,我们今天要讨论的是Arkville,它是一个UDP卸载引擎,负责UDP和硬件,还有TimeServo和TimeServo PTP,在数据中心的FPGA设备群中提供一致的系统时间。

我们是英特尔金牌合作伙伴认证的解决方案供应商,我们对此感到相当自豪。而且,十多年来,我们一直在为开源项目、工程--企业级工程解决方案做出贡献......真正专注于计算和通信方面的网络IP。我们真的很自豪,也很感谢拥有我们所拥有的小型精选和回归客户群,使我们得以成长。

好吧,让我们跳到Arkville。所以,Arkville是一个DPDK数据包管道。我的意思是,它是一种将FPGA数据流与主机内存缓冲区互连的方式,反之亦然:它允许可能在主机内存中的数据成为FPGA上的流或主机内存池中的数据,反之亦然。

它促进了这种数据运动,作为数据流在PCI Express上移动。我们把它说成是一个管道,因为从软件方面的API到PCI Express再到FPGA,再到产生和消耗数据的AXI流的所有复杂性都被抽象化了......这意味着更快进入市场,更快使用来自DPDK(Linux基金会的一部分)的标准API和FPGA硬件(如英特尔Agilex设备)来解决。英特尔也可能制造一些处理器,你可以用来在主机端运行,但我们会把它留到另一次网络研讨会上。

那么,Arkville用在哪里?只要需要在主机和FPGA设备之间有效地移动数据,就可以使用Arkville。它是一个构件组件,抽象了数据移动的许多复杂性,因此Arkville的用户可以继续开发产品,如SmartNIC设备、网络设备或DPDK加速器。

为什么是DPDK......我听说那只是为了联网?嗯,对于网络来说,DPDK确实有一个非常强大的故事,但它比这更深入。DPDK是一个可信的API,已经存在了很长时间。它最近一直在Linux基金会的管理之下。它经过社区审核,定期测试,是一个开源的、标准化的解决方案和一套API,不仅适用于网络,也适用于批量数据移动。

通过设计Arkville来使用DPDK,它释放了主机处理器周期来执行更有用的工作。这是一种内核旁路的手段,这是内核的出路,这意味着门外有更高的吞吐量和更低的延迟给应用程序,但Arkville是DPDK的意识(我们将在后面的幻灯片中讨论这个问题),但是,通过将DPDK的数据运动的业务逻辑推入FPGA门,Arkville可以同时拥有更高的吞吐量和更低的延迟,从而减少通用处理器缓存污染,这又导致了更高的后核性能。

因此,如果你有工作负载将被他们的API授权,DPDK就有很大的意义,这当然可能是网络......但也可能是FPGA器件和主机之间简单的批量数据移动。

Arkville的关键点在于,Arkville在FPGA硬件中实现了DPDK规范的低级内循环......基本上把DPDK规范变成了RTL门。其他每一种DPDK解决方案,包括商家的ASIC NIC,都将部分或全部工作推给主机处理器内核。我们从一开始就设计了Arkville,只做一件事,而且做得很好:在硬件中操作DPDK mbuf数据结构,这样处理器内核就不必做这些事了。通过在硬件中做这件事,我们有独特的优势,可以同时实现高吞吐量和确定性的低延迟。而且在这样做的时候,几乎没有主机核心的利用率,我们将在下面的幻灯片中看到。Arkville背后的另一个要点是它是一个完整的数据运动解决方案--开箱即可使用。

软件工程师正在使用标准的API来生产和消费数据缓冲区。硬件工程师正在连接到AXI接口。对比一下,"当天就开始工作 "的故事和 "自己动手 "的解决方案,后者可能需要几周甚至几个月的时间来模拟,更不用说在真实世界的硬件上站起来了。

因此,Arkville是以软件和门禁软件的组合形式提供的。有一个完全开源的DPDK拉动模式驱动程序,现在可以在DPDK.org上使用,然后有一个适合英特尔Agilex FPGA的RTL组件,Atomic Rules有许可证。有一个命名的项目和一个多项目的许可证,但基本上它是一个被授权的IP,放在你的英特尔FPGA内。两者一起工作,提供我一直在谈论的数据传输管道,允许数据从FPGA流向主机,反之亦然。

这幅漫画显示了左边的主机处理器和右边的FPGA,并显示了主机处理器(通常是Xeon工作站或服务器)和FPGA(通常是英特尔Agilex设备)可能被分割的一些子模块,以及不同组件的位置。在面积或复杂性方面没有任何规模,但底部的绿色和红色盒子代表了设备到主机和主机到设备的数据运动的源和汇,它们基本上是Arkville通过其管道携带的货币的目的地或来源、生产者或消费者。

这里我们看到一个图表,显示了Arkville的吞吐量与数据包大小的关系。现在,你可以立即看到,较小的数据包的吞吐量较小,这只是世界上的一个事实,PCI Express对较小的数据包有开销。但是我们也看到,如果我们把注意力集中在图表的右边,蓝色和红色的线条,代表设备到主机和主机到设备的传输速度,在顶部接近理论上的极限,即220gb/s,甚至更高一点。我们稍后将通过演示看到更多的情况。

Arkville还具有特别低的延迟(不是高频金融技术交易延迟,预计为亚微秒),而是FPGA和主机之间一直有单位微秒的延迟。而且没有长尾巴,特别是在长数据包和高负载的情况下,这对不能容忍错过最后期限的vRAN和ORAN以及5G应用来说是一种价值。

除了低延迟外,Arkville还基本上没有延迟抖动。这是怎么做到的?好吧,由于不是一个标准的DMA引擎,没有缓存和其他动态手段来支持一些大量的队列,所以Arkville从一个数据包到达的时间到它落入主机内存的时间(或反过来)都有确定的延迟。

这种只做DPDK和移动mbufs的特殊性使得Arkville的延迟抖动基本上为零。Arkville也没有memcpy,也就是说,主机处理器没有工作,没有!把数据包从一个地方移到另一个地方的周期为零。Arkville在FPGA上的RTL硬件确保数据准确地落在mbuf中,这样主机就不必移动这些数据,为你的应用留下更多的CPU周期。

该图显示了对于适合单个mbuf的数据包大小,每个数据包在Arkville PMD中花费的时间不到20纳秒。在这种情况下,该mbuf只是一个两千字节的mbuf。如果我们扩大mbuf的大小,这种平坦性就会在页面的右边继续下去。

Arkville的数据包永远不会丢失。除非,例如,系统被石头击中。

Arkville的流量控制在所有领域都是完全从前到后的硬件-软件。在任何情况下,一端接受的数据都不能安全地传输到另一端,反之亦然。其他数据移动器如果跟不上,或者出现困境或重传,就会放弃数据包。我们有硬件和软件的完全流量控制指标,在所有条件下都能实现零丢包。

现在,在所有这些之后,让我们跳到一个预先录制的演示(几天前录制的),显示Arkville是如何安装的,显示它在Xeon服务器上运行,然后在那之后,我们将跳到问题和答案--那里见。

嗨,我是Shep Siegel,这是我们在12月10日星期五做的一个预录的演示,比英特尔/BittWare/Atomic Rules Arkville on Agilex网络研讨会提前几天。我将介绍一下我们将在这里演示的内容,然后我们将看到演示。

有一个英特尔至强处理器被用作主机系统,还有一个英特尔Agilex FPGA,它被用作被测设备。如果你仔细看这张幻灯片,在左下角,我们可以看到用户地处理器内存(基本上是DRAM,数据将从这里进出),在右下角,我们会再次看到FPGA结构内存,数据将从这里进出。

在这之间,我们有gen4 x16 PCI Express连接Agilex设备和Xeon主机。我们在这个演示中使用的部件是一台装有至强6346处理器的戴尔R750服务器(这些处理器具有gen4 x16 PCIe功能)。一台BittWare IA-840F,配有英特尔Agile F设备,当然还有Atomic Rules自己的Arkville--我们的21.11版本,本周初刚刚发货。

所以,我们在演示中要展示的第一件事是Arkville脚本。它将带来所有需要的库,下载并编译DPDK,并处理我们在主机系统方面的需要。接下来我们要做的事情(如果没有安装Quartus Prime Pro)是安装它,然后我们要通过使用make target make Agilex从RTL编译Agilex设备的位流。

一旦比特流准备好了,我们就被加载到FPGA中,只需做一个假的重启。没有必要使比特流持续存在于Agilex器件的闪存中。

大约有十几个DPDK应用程序随Arkville发行版一起分发,但我们在这个演示中要特别关注TX(或下行)或RX(或上行)的吞吐量。最后,在演示结束时,演示数据被放在性能日志中,我们要把这些数据绘制出来。

好的。所以,我们将从我们的项目目录开始,我们要做的第一件事是我们要从提供的tarball中扩展Arkville版本。我们有了它。焦油球已经被扩展了。接下来我们要做的是运行The Atomic Rules Arkville安装脚本,它将引入必要的库,并下载和编译DPDK。因此,我们可以看到库已经开始运行了。现在,我们将从DPDK.org下载DPDK。

下载了DPDK后,我们就可以启动Meson Ninja编译系统了。

演示的这一部分实际上是在展示它的实时性,这真的很快--除了测试字符串......它总是在那里停一下......而DPDK将在一分钟内完成。很好:我们已经安装了DPDK,我们准备继续前进了。

在这一点上,我们需要在Agilex F上为Arkville建立比特流。因此,我们将射向硬件目标目录,简单地输入make Agilex,以建立所有英特尔Agilex目标。

我首先要检查一下,确保我们已经安装了Quartus 21.3。是的,就是这样,我们开始吧!

在这一部分,我们当然是截断了一些。通过整个工具流程来构建比特流大约需要30分钟到一个小时(取决于设计的大小)。我们这里有六个不同的设计,所以我们现在只关心其中一个。

位流完成后,我们将把它下载到戴尔服务器内的BittWare IA-840f卡上。所以,我们下载比特流,做一个sudo重启,使系统恢复正常。

我们现在看到,在系统从lspci重启后,Arkville设备在服务器中是可见的。它恰好在C-A插槽中(查理-阿尔法)。

我们可以去使用一些扩展的lspci verbosity,以查看该设备所训练的一些能力。在这里,我们正在寻找--如果我们能够管理滚动条而不使屏幕来回移动--不仅仅是我们在开始时看到的原始lspci,而且还看到设备确实具有Gen4 x16能力。这就是这里突出显示的链接能力线--我们实际上已经达到了Gen4 x16的链接状态,这意味着我们已经训练到了这一点。

因此,这是一个好兆头,说明我们有了一个好的开始。所以,有了这个,我们现在可以继续进行十几个DPDK应用程序中的任何一个,这些应用程序已经分发。我们将使用Arkville双工性能测试,它独立运行一套测试,测量入口和出口的性能,也是系统的全双工性能。

这个测试有很多维度,在不同的迭代中,它可能会运行几秒、几分钟、几小时或几天,所以我们要从这些测试的集合中获取数据,并将其抓取到一个名为performance.log的文件中。我们将从这个性能文件中获取数据,并将其带入一个谷歌表格文档中,在那里我们可以绘制它并详细查看。

这是绘图数据记录,这里是结果。所以,顶部的黄线,如果你愿意的话,天际线,代表了这种硬件和软件配置的理论极限,而蓝线和红线,分别显示了设备到主机和主机到设备的吞吐量。你可以看到Y轴上有有用的吞吐量,单位是千兆比特/秒。

因此,在图的左边--我们现在放大或缩小的地方--性能不是很好,因为数据包大小较小,主要是由于PCI的512字节MPS。但是,当我们移到右边,看看512字节或一千字节以上的数据包大小时,我们可以看到,上游方向的吞吐量增长到远远超过每秒200千兆字节,下游方向的吞吐量接近每秒180千兆字节。

因此,在上游方面的表现相当值得称赞,而在右侧的渐进性能方面,我们可以看到有一点改进的空间。

但总的来说,我们希望通过看这张图可以清楚地看到,从一开始,Agilex F上的Arkville就在接近理论性能方面做了令人钦佩的工作。

谢谢你花时间观看这个演示。我们现在要切回实时,马库斯将带领大家进行问答,我相信你们中的一些人将会有疑问。

并再次感谢你们,节日快乐。


问与答

(马库斯)

在我们进入问答时间之前,我想分享几句话。

因此,今天的网络研讨会介绍了在BittWare IA-840f卡上运行的来自Atomic Rules的Arkville,该卡有一个英特尔Agilex FPGA。有关这些的更多信息,请访问BittWare、英特尔或Atomic Rules网站。

因此,在这一点上,让我们从一些问题开始。

让我们看看,第一个是为谢普--我们刚刚看到了这个图。那么,阿克维尔可能的最终表现数字是什么?

(Shep)

谢谢,马库斯。那么,你是否说过可能的最终业绩数字是什么--就像--最后?

(马库斯)

嗯,是的,因为我认为你已经提出了一些性能数字,你注意到也许有些更新或什么。所以,也许这就是他们的目的。

(Shep)

当然,明白了,明白了。因此,在系统层面上,涉及通用处理器、FPGAs互连网络(如PCI Express)的性能......是困难的。我们可以模拟所有我们想要的,但在现实世界中......事情发生了。我们有信心提出每秒220千兆的数字,主要是因为在过去几个月里,在消费者或工作站级的Rocket Lake系统的早期,我们已经看到这个数字非常可靠。也许一些敏锐的人注意到,在看我们运行的演示时,高功率戴尔服务器下游的最终性能,与大型Xeon相比,最终没有Rocket Lake好,这可能是由于NUMA问题、QPI问题和类似的问题。因此,最后,最好的方法是......最好的基准,我们认为在吞吐量方面是--因为BittWare和英特尔都有这种硬件,Atomic Rules也有这种IP--是在你自己的商店里得到它,并尽快这样做。

我们的演示和我们在预先录制的演示中所展示的工具将迅速向你展示你自己的系统的能力,以这种方式,而不是在你自己的应用中......在你自己的系统中......在你自己的特殊情况下采取一个我们认为是名义性能的数字,可以看到--例如吞吐量--持续吞吐量是多少。

(马库斯)

好的,谢谢你的回答。还有一个问题,我想答案很简单:Quartus用户如何利用Arkville IP...它与Platform Designer/Qsys兼容吗?

(Shep)

它是。最简单的方法是......我们支持Platform Designer,或者对于那些已经使用了一段时间的工具的人来说,Qsys流程......但是我们也支持完整的、直接的SystemVerilog。而且,由于SystemVerilog接口的简洁性和Quartus对SystemVerilog的支持,我们支持使用SystemVerilog的标准RTL流程,或者Platform Designer。因此,Arkville像其他内核一样在Agilex设备中被实例化。

(马库斯)

所以可能是为了Shep:Arville RTL IP支持PCI Gen5和CXL的路线图是什么,性能数字可能是什么?

(Shep)

嗯,这是一个很好的问题。因此,我们今天所展示的性能,当然是在Agilex F和Gen4 x16的情况下......人们一直要求比Gen3 x16的吞吐量增加一倍,我们很高兴我们能够迈出这第一步。

然而,问题是Gen5的前景如何?我们的期望是,当我们转向第五代x16时,我们将能够将性能再提高一倍或两倍以上。我们与英特尔密切合作已经有一段时间了,其中一个关键部分不是与......你知道频率扩展早就停止了......很多都与架构创新有关......其中一件事,在这里稍微吹捧一下我们工程团队自己的喇叭(但没有英特尔的支持我们不可能做到),就是Agilex,无论是当前版本还是未来支持Gen5的版本,允许每个时钟周期移动多个PCI TLP。今天,通过Agilex F系列,我们每一个时钟周期可以移动到10亿个--对不起,纠正一下--20亿个TLPs:两个在入口处,两个在出口处,频率为500MHz。

有了Gen5和I系列R-Tile,我们就能把这个数字再提高一倍。现在,加倍的TLPs数量不一定是带宽的两倍,但它允许我们的Arkville IP更聪明地......对不起,我说得太多了......对Gen5的简短回答:带宽和吞吐量将再次翻倍,没有任何明显的增加,可能还会减少延迟。

现在,这个问题也涉及到了CXL。CXL是一个完全不同的野兽。正如世界在过去几十年中发现,异质计算是一个好主意......你知道......异质通信是一个好主意。大宗数据移动和分组数据移动有其用武之地,这就是PCI的问题,而CXL也有其用武之地。

Arkville的地位(以及它与英特尔技术的相互联系:Agilex内部的底层P-Tile和R-Tile技术)是这样的:我们不排除在未来与CXL解决方案一起工作......但我们正在超越自己。我们只是......我们今天很高兴,在为满足这种压抑的需求和达到Gen4 x16的愿望而运送Arkville五年之后,我们今天在这里,我希望在我们跳上Gen5 x16和CXL之前,我们可以享受一下这个机会。

(杰夫)

没有谢普,我是杰夫-你不会得到很多休息。我们现在有F系列的零件,是第四代产品,正如我们之前谈到的。我还提到了I系列和M系列部件,这些部件将在未来的道路上出现,汤姆也谈到了一点。我们将在明年年中推出I系列的电路板,目标是第五代。

(Shep)

而我们将在那里与你一起。

(马库斯)

我有一个关于Shep的H2D延迟的问题,我知道你谈到了这个问题,但也许你可以详细说明一下。

(Shep)

当然,正如我刚才所说,调查任何性能参数的最好方法......功率、吞吐量、延迟......因为尽管有这些组件的短缺,这些硬件、软件和IP都是可用的--让我们把它带到你的车间,在你的条件下测量它。在我们的测试条件下,正如我所说,这不是一个通过IP切割的金融技术设计。它是存储和转发,而且是相当智能的存储和转发,但没有任何延迟抖动。

因此,我们是在1-3微秒的名义延迟上,没有长尾。这里的名片,也是存储转发架构的差异化因素,就是会发生什么事情,让处于线路顶端的数据包(无论是上游还是下游)被搁置,以便让它移动。而且,与标准的DMA引擎不同的是,钉住页面、分散收集--所有我们在这次谈话中提到的东西,到目前为止都没有......Arkville没有这些东西。它是完全决定性的。因此,举例来说,在前往用户区主机内存缓冲区的路上,到达FPGA的一大块数据是火烧眉毛的,而这一延迟将是单位微秒级的。

(马库斯)

我这里有一个问题......哦,对了,所以,图中的上下游传输率不同,那是为什么?

(Shep)

这是个很好的问题。我想我之前提到过一点,但我要重复一下,因为也许我说得不够清楚。嗯,实际上,有几个图表显示......显示了不同的上游和下游性能。

让我们看看......为什么下游或出口的性能会降低?我想说的是,一般来说,在系统的某个地方存在阿姆达尔定律式的序列化延迟的空间更大--无论是软件还是硬件(可能包括原子规则硬件等)。特别是对于那些真正密切关注至强服务器的人来说,正如我所说的,我们看到的下游性能明显低于我们在Rocket Lake上的性能,我们相信这是由于我们自己对演示的编程以及我们从哪个NUMA区域提取下游数据造成的。

我们相信,我们的团队仍在研究测试中的例子,在我们展示的演示中,来自下游的数据实际上是来自另一个处理器上的处理器附加存储器--NUMA区域的另一个QPI侧。

我们将在接下来的工作中完善这一点。总的来说,你知道,如果内存系统能够将数据上移,那么一个发布的写......火速完成的写就会非常容易(Xeons和Rocket Lakes都做得非常好)。读取--无论我们有多少个未完成的读取请求,也无论我们如何小心翼翼地试图对内存控制器友好--有时这些完成的数据需要更长的时间来返回。

我们可以在一个时钟周期内处理多个完成,这是一个优点。这又回到了Agilex接口给我们带来的架构优势。但是,一般来说,有完成度的读比可以发布的写更容易出现问题,而且是即发即忘。

(汤姆)

嘿,马库斯?你想让我再谈一谈Gen5和CXL吗?

(马库斯)

所以是的,当然,如果你有机会的话。

(汤姆)

是的。所以,我想,我想我的音频下降了,所以也许我之前错过了,但只是,只是让人们知道,我想杰夫已经提到,他们正计划做更多基于Agilex的卡,但Agilex I系列。I系列是带有芯片的设备,我们称之为R-Tile,确实支持PCI Express Gen5和CXL。

在芯片层面,我们今天正在对这些设备进行采样,我们正在展示......我们已经参加了PCI-SIG研讨会。我们,你知道,我们正在从我们的设备和R-Tile中获得全带宽。因此,我们正在做16通道的全带宽PCI Express Gen5。而且,如果你把它与这个特定的板子相比,你知道,仅仅从PCI Express的角度来看,它的带宽基本上是双倍的。

(马库斯)

好的,谢谢你的补充信息。我们还有时间再问几个问题。那么,这个问题也是给Shep的。Arkville DPDK与英特尔FPGA多线索DMA DPDK支持有何不同?

(Shep)

很好,这是个好问题,马库斯。但是你知道吗?把这个问题先放一放,因为我想谈谈汤姆和杰夫都提到的第五代的问题。因此,我们几乎100%的Arkville客户(这是我们最重要的IP)都依赖于吞吐量。这就是为什么今天在Agilex上使用Gen4 x16的Arkville是如此重要:客户和应用被赋予了权力。

当Gen5 x16设备和板卡出现时,Atomic Rules承诺会在那里,否则我们就没有业务。我只想强调,在不过早宣布Arkville支持Gen5的情况下--显然,我们非常关注这个问题。

好吧,那么就来看看Arkville与英特尔优秀的多......我想它叫多线索或多通道DMA(MCDMA)的对比。好吧,MCDMA是英特尔提供的一个优秀的免费IP,内置在Quartus的设计实例中。在我看来,它确实是一个厨房水槽式的DMA,而不是一个数据移动器。

它几乎支持所有你想使用数据移动的可能作用:流、消息、缓存、CXL......你说的出来,MCDMA都能做到。它确实在FPGA上使用的内存资源是Arkville的两倍。但是,话说回来,英特尔的业务是销售更大的FPGA,所以也许这种疯狂是有方法的。这将需要一些工作。我的意思是,它需要RTL来使用该IP。它将需要一些RTL模拟和连接,而且它将需要一些软件,尽管我确信英特尔将提供这些软件。

如果你有特定的需求,而阿克维尔没有当场解决,我说去跑吧,在那之后跑。我们真的不是在与之竞争。如果你有一个数据运动问题,要么是批量数据,要么是DPDK和网络问题,我们有一些东西可以让你当天就能完成。因此,我认为这是在建造和购买意义上的区别。

我想,最后,你知道,另一块是CPU卸载,因为,你知道,MCDMA将使用分散收集列表......它将使用主机的核心来做这个。所以,如果你有一船的核心坐在主机上参与你的DMA,那就去做吧。Arkville会把这些核留给你的应用。

(杰夫)

对不起,马库斯,有一件事我想补充一下......我可以证实谢普所说的一点,即我们的客户在使用Arkville和其他Atomic Rules IP后,很快就能启动和运行。只是Shep和他的团队在提供开箱即用的部署方面做得很好,而不是,你知道,自己动手......这是基本组件,把它放在一起。因此,当我们与我们的客户一起部署时,我看到了一个不同之处。

(马库斯)

一个问题,你可以看到这里......我有......是的。关于IP--只是对其他英特尔FPGA设备的可移植性。我不知道他们是否指的是,也许是Stratix 10或其他Agilex--它是否容易移植到其他设备。

(Shep)

我想这是给我的。因此,我们还没有接到任何使用Arkville的Stratix 10器件的需求。然而,我们所有的其他IP--TimeServo、TimeServo PTP和我们的UDP卸载引擎--都支持Stratix 10甚至更早的Intel器件以及其他FPGA。尽管Quartus、Platform Designer(以前的Qsys)等东西有很多愿望和价值,但我们一直在为我们所有的内核采用SystemVerilog表示法,这意味着,你知道,十几行文字表示实例化。

如果有人真的有兴趣在Stratix 10上使用Arkville,请与我们联系。

(杰夫)

我认为答案之一是客户/用户不对Arkville进行任何移植。这就是Atomic Rules将做的移植工作。如果你想建立,你知道,用S10或Agilex I-Series,这只是Atomic Rules的一个不同的核心,可以直接加载,无缝工作。不需要额外的用户工作。

(Shep)

在Arkville的接口签名中(我很抱歉:我现在是对RTL设计者们说的),有十几行SystemVerilog完成的......少量的接口......把它放到你的设计中,然后开始。这在任何FPGA设备之间都不会改变;这是同样的事情。

(马库斯)

好的,最后一两个问题。这个问题是,好吧,我就在这里读出来:Arkville是以加密的网络列表还是混淆的HDL形式提供的,如果是后者,那么用什么语言--还是用Shep?

(Shep)

啊--技巧问题。因此,我们向我们的授权客户提供Arkville的未加密的IEEE Verilog网表。然而,那个未加密的Verilog并不是源代码。我们使用我们自己的基于原子规则的功能编程语言在机器上生成Verilog,这就是我们进行形式验证的方式。因此,具体来说,你正在模拟和编译的交付资产是一个未被混淆的、未被加密的Verilog网表。

好的。好吧,我当然感谢所有的问题......答案。如果你有更多的问题,你可以直接与我们联系:BittWare.comIntel.com/agilexAtomicRules.com

谢谢大家的观看,祝大家有愉快的一天。网络研讨会到此结束。

了解更多关于Arkville和BittWare的基于Agilex的FPGA卡的信息

Arkville IP 框图