小组讨论

从 COTS 角度看数据采集和记录

在下面免费观看录音!

对 200 Gb/s 及更高速数据采集和记录硬件的需求日益增长。许多选择倾向于专有,但是否有办法使用商用现成(COTS)组件呢?我们将与 IP 提供商 Atomic Rules、COTS FPGA 卡提供商 BittWare 和系统提供商 One Stop Systems 一起探讨这些选择。

发言人

查德-汉密尔顿肖像
Hamilton | BittWare产品副总裁
Shep Siegel 照片
Shepard Siegel | CTO,Atomic Rules
吉姆-伊森肖像
Jim Ison | 一站式系统公司首席产品官

布赖恩

感谢您参加今天的活动。我是布莱恩-德卢卡(Bryan DeLuca),还有尼科莱特-艾米诺(Nicolette Emmino),我们将主持今天的现场聊天,主题是 "从 COTS 角度看数据采集和记录",由 Mouser Electronics 和 BittWare 赞助。

我们有一些很好的小组成员,这是一个实时聊天,所以请确保你在屏幕底部的问答中提出你的问题。现在有请Nicolette。

尼科勒特

大家好,正如布莱恩所说,欢迎来到我们的小组讨论,从 COTS 的角度讨论数据采集和记录。BittWare 产品副总裁 Chad Hamilton、Atomic Rules 首席技术官 Shep Siegel 和 One Stop Systems 首席产品官 Jim Ison 将带领我们进行讨论。

不过,在我们深入探讨具体问题之前,我想先让我们的每位小组成员介绍一下自己和他们的公司,因为这是三家非常不同的公司,但却共同提供了一个具有凝聚力的解决方案。

那么,查德,你来为我们开场吧?让我们各自简要介绍一下贵公司的核心专长,尤其是与 COTS 和数据采集解决方案的关系。

乍得

好的,谢谢你邀请我。再次感谢--查德-汉密尔顿(Chad Hamilton),他在公司已经工作了近 16 年。实际上,BittWare 已经有 34 年的历史了。我们在计算、网络、存储和传感器处理领域提供企业级 FPGA 硬件加速器,产品来自英特尔、AMD 和 Achronix 等高端 FPGA 公司。

我们拥有市场上最大的 COTS FPGA 组合之一,甚至可以说是最大的 COTS FPGA 组合,我们的客户可以快速、经济高效地开发和部署应用。如果 COTS 不是客户的解决方案,我们会尽可能进行定制。我们会接受客户的要求,你知道,如果这具有良好的商业意义,我们可以在现有产品的基础上稍作改动,也可以提供完整的定制解决方案。同样,这对各方都有意义。

我们还拥有一系列经过 TeraBox 认证的服务器,可用于开发和部署,与 One Stop 等合作伙伴一起,我们可以提供完全集成的服务器和板卡解决方案。

最后,我们......我认为目前世界上每个人都在谈论人工智能和机器学习。因此,我们已经开始与一些基于 FPGA 和 ASIC 的公司合作,以覆盖从数据中心到边缘的领域。

尼科勒特

棒极了谢泼,你呢?

谢普

你好,我是谢泼-西格尔(Shep Siegel)。我是 Atomic Rules 的首席技术官和创始人。我在2008年创办了Atomic Rules,刚开始的时候,这只是一家服务公司,基本上只有我一个人。多年来,我们引进了十几位才华横溢的工程师,在引进这些工程师的过程中,大约在 2012 年或 2013 年,我们除了提供 IP 设计服务外,还开始制造 IP 内核。事实证明,制作内核的业务最终将我们引向了 COTS 和交钥匙解决方案,就像我们今天谈论的 TK242(稍后详述)。

原子规则 DNA 涉及复杂的并发性。我们解决的是具有大量移动部件的 RTL 难题。我们有自己的......我们有特定的工具和语言,用来很好地处理复杂并发问题。我们的杰出产品 Arkville 是我们的 DMA 品牌,用于在主机内存和 FPGA 或 FPGA 和主机之间移动数据,是当今性能最高的 DMA 引擎......在最新的标准(如第 5 代 x16 PCI)上......每秒 60 千兆字节。这是我们的名片。

大多数人都知道 Atomic Rules 的 IP 核,特别是 Arkville......我们的 DMA 品牌。但正如我们在今天的电话会议上所提到的,我们一直在 COTS 领域尝试新的东西。你问到了 COTS,我们已经将一些我们的 IP 大作整合到了对数据包捕获有用的东西中。我希望我们能在这次电话会议中更多地讨论这个问题。

尼科勒特

你呢,吉姆?

吉姆

没错,他就是一站式系统公司的首席产品官吉姆-伊森(Jim Ison)。One Stop 已经有 25 年历史了。我在这里工作了 19 年,见证了......我们做的是坚固耐用的边缘系统。通常情况下,我们的组件属于数据中心级别,可以非常快速地投入边缘市场,从而获得......像 GPU、FPGA 卡、NVME 驱动器等所有你习惯在亚马逊云或刚买的台式工作站中使用的东西。

但我们能够在边缘将其引入坚固耐用的系统,然后进行大规模部署。因此,我们也是 PCI Express 方面的专家,比如说,一台服务器有 5 个插槽,我们可以将其扩展到 16、32、128 个插槽,这样你就可以真正在边缘大规模部署非常高端的系统。

尼科勒特

好了,伙计们,非常感谢你们花时间来解释每家公司的业务。让我们从头开始。有谁能给我们......我知道我们大多数人可能都知道这个问题的答案......但有谁能给我们简要介绍一下,在数据采集和记录技术方面,现成商用(或 COTS)意味着什么?它与定制解决方案有何不同?谁愿意来回答?查德?

(查德,你在静音。

(对不起我说,"为什么我不拿那个?"

(尼科莱特)我说的是任何人,其实指的是你,查德。(笑声)

(对,对

乍得

因此,现成的商用产品是一种现成的、面向大众的产品,具有标准的、成熟的外形尺寸,比如 PCIe 卡就是我们现在正在做的很多产品。但我们过去也做过 U.2、VPX、Compact PCI。我的意思是,有各种各样的标准和外形尺寸,人们知道他们可以从货架上购买这些产品,然后将它们插入系统,这样就可以快速部署。

他们不需要为这些产品设计一个新的定制背板......与完全定制的解决方案相比,有人可能会找到 BittWare,要求我们提供一些不同格式的卡,也许它不具备相同的标准外形尺寸。要知道,这样的投资成本更高,因为我们要为这一个客户开发一种卡。就像我之前说的,如果商业案例有意义的话,这也是可以的。

从数据采集和记录的角度来看,我们正在开发的这些板卡(现在还是用 PCIe 板卡吧,因为这也是目前市场上最流行的板卡)将会在上面添加输入/输出接口。例如,以太网。我们可以在这些卡上实现 400 千兆位以太网。例如,这些都是标准的 QSFP 连接器。PCIe Gen 5 x16 是一种 COTS 外形。我们可以在这些卡上安装外部存储器和其他类型的接口--这让 Atomic Rules 这样的公司可以在市场上很容易获得的平台上实现他们的设计。他可以利用这一平台,并在其中加入此类解决方案所需的秘诀。

布赖恩

那么,COTS 组件的可用性对新数据采集和记录解决方案的创新和上市时间有何影响?

(我,我,我!

(好了,给你!(交给你了,谢泼

谢普

是的。是的,所以一切......当然,我同意查德所说的关于 COTS 的一切。

但要知道,COTS 不仅仅是硬件、边缘、系统和重型设备。它还涉及软件。对我来说,COTS 意味着购买而不是制造,意味着快速获得原型,而不是走漫长的开发之路。

我之前提到过 Atomic Rules 在 IP 核、DMA 引擎、数据包处理等方面的历史。几年前,我们开始听到对数据包捕获的需求日益增长的呼声。我们看到了基于商用 ASIC 的网卡在进行数据包捕获方面的局限性:它们会丢弃数据包,性能也达不到数据包捕获解决方案的要求。

我们开始听到许多客户说:"我们能否将Atomic Rules内核与OSS磁盘驱动器和BittWare电路板结合起来,形成一个解决方案?

是的,他们当然可以,但这仍然需要大量的组装工作:FPGA 专家能力、系统级专家能力......编写软件。需要捕获以太网数据包的呼声变得如此之高,以至于我们说:"我们到底在这里做什么?我们为什么不做一个 "交钥匙 "的例子,而不是制作一些可有可无的例子(我们通常随 IP 内核一起提供,以帮助人们入门)?我们要讨论的 "TK "和 TK242 就是 "turnkey "的缩写。

交钥匙,就像 COTS......对不同的人来说可能是不同的东西,但我们的想法是采用 COTS 板(BittWare 等公司的现成 FPGA 板)和系统(OSS 等公司的金属边缘 PCI 系统),最重要的是(从我们的角度看)我们的 IP--我们可以生产一套软件:比特流与......将 BittWare 生产的板卡从 COTS 板转换为数据包捕获解决方案,能够解决最基本的数据包捕获问题,基本上是我们听到的所有请求的维恩图的交叉点。

我能否在不占用布莱恩各位太多时间的情况下,再多说几句就走呢?

(哈,是啊,当然,你得抓紧时间!

(谢泼)我想再深入一点。刚才我说过,我们想做一些商家网卡做不到的事情。因为很明显,如果你能买到一个价值1000美元的现成网卡,然后把它插入以太网,再编写一些软件,就大功告成了,那么FPGA又能增加什么呢?我们......我们的价值在哪里?你在做什么?

(Shep) 我们收到的请求的线路速率--以太网速度--超过了商用网卡在不丢包的情况下能够完美捕获的速率。在大多数情况下(也有例外),人们就是不能丢包。丢弃数据包就像钱从钱包里漏出来或考试不及格一样,你根本无法做到。

事实证明,在试图找到最佳位置的维恩图中--再一次、将时间倒退 18 个月左右--最佳点是记录任何大小的数据包(无论是 60 字节的微小数据包还是 9 千字节的巨型数据包)的 100 千兆位对话双方--记录每秒 100 千兆位双向传输的最坏情况(约为每秒 200 千兆位)--因此,每秒 200 千兆位的数字(或每秒约 25 千兆字节)是我们非常清楚地看到的最佳点。

英特尔或英伟达 Mellanox 的现成网卡无法做到这一点。当数据包大小变小时,它就会丢弃数据包。它不知道......它无法处理这种情况。它不会这样做。

但是,FPGA 应用程序与我们的 DMA 引擎和 PCAP 硬件结合在一起,就可以做到这一点。因此,我们将其组合在一起。

另一件推动 200 Gbps 的事情以及 200 Gbps 的神奇之处在于,18 个月前还没有第 5 代 PCI。第 5 代......正在开发中。规格已经写好,但并不存在。因此,每秒 25 千兆比特或 200 千兆比特的数字在 18 个月前非常适合第 4 代 x16 PCI。事实证明,它也非常适合现在的第 5 代 x8(稍后详述)。

我们认识到这并不容易,因此我们必须着手研究。18 个月前,我们就开始着手开发 200 千兆位解决方案,这并不是因为它是万能的,而是因为它能满足我们所听说的大量客户的需求。

说白了,有人会说 "我们不需要 200 千兆"。也许我们要录制的内容还不到这个数,在这种情况下,预留一些带宽并不是坏事。

对我们来说,COTS 的意义在于 Atomic Rules 能够翻转其 IP 模型,该模型要求具备 FPGA 专家能力、软件工程专家能力、磁盘系统和硬件方面的专家能力。翻过来说:"你知道吗?Atomic Rules将拥有(如果我们用错了方式,请原谅我)一个解决数据包捕获问题的全套解决方案,我们已经完成了工程设计,我们的比特流将加载到BittWare卡上,并将其从一个可以做任何事情的FPGA卡转变为一个非常具体的数据包捕获解决方案。

你可以自带硬件,即从 BittWare 购买电路板,从 OSS 或其他任何地方购买磁盘系统,然后就可以开始工作了。我们从中获得了很多乐趣。

乍得

嘿,我只是想在这里快速谈谈整个 COTS 上市时间方面的问题,对吗?因此,正如我之前提到的,我们正在采用这些特定供应商最新、最先进的 FPGA 技术。在生产设备中,它们并不是第一位的。BittWare 在设计这些板卡时,甚至在他们所谓的工程硅片问世之前,就已经抢占了先机。这样,我们就能获得这些板卡,向客户和Atomic Rules这样的合作伙伴提供所谓的早期接入单元,他们就能在生产芯片面世之前就开始设计这些板卡。

因此,这些复杂的设计需要反复推敲、测试和模拟,在反复的过程中优化 IP。因此,我认为这也是现成商用产品的优势之一:当生产硅片准备就绪时,BittWare 卡上的生产硅片就可以投入使用了。

尼科勒特

这就是你们的真正适应方式。我的意思是,我想问你,随着FPGA越来越复杂,BittWare是如何调整以加快使用这些组件的应用的上市时间的?我想你刚才已经提到了一些,Chad。

乍得

是的......不仅仅是这样。还有一点,我们已经积累了超过30年、34年的丰富知识。

要知道,这些卡最难做的一件事竟然是 PCIe 设计。这在以前要容易得多,但随着现在PCB上的信号传输速率和功率要求的提高,要制造PCIe格式卡(该卡的宽度有限,因此插入插槽后要满足......基本上不会过热)非常困难。要知道,我们已经在这些卡中内置了所有这些知识。我们有 BMC,它会监控显卡的健康状况,并在需要时关闭显卡。

但是,以我们现在的速度和进纸量来设计这些贺卡是非常复杂的。

布赖恩

那么,查德,为什么BittWare要与Atomic Rules和One Stop Systems等公司合作提供TK242等解决方案,而不是......全部自己做?

乍得

当然,我想最简单的答案就是很难,对吧?(笑)我想 Shep 之前提到过,为这些卡开发 IP 所需的专业知识与开发实际硬件本身是不同的。

现在,我们当然可以投入更多资源,开发我们自己的解决方案,但你必须尝试经常击中正确的目标,否则工程师团队的投资回报率可能不会太高。

因此,通过与 Atomic Rules 这样的 IP 供应商合作(你还可以在我们的网站上查看其他几家供应商),我们挑选出市场上最好的 IP,与这些团队合作,并要求他们基本上在我们最好的硬件产品上使用他们的解决方案。

然后,我们能够与 One Stop 合作,为任何最终应用定制系统。我们现在可以提供整个系统的解决方案,而不是给别人一个空白的 FPGA 卡,让他们自己去设计。

吉姆

与其说是定制,不如说是可配置的现成产品。

(乍得)是啊,这个词好多了。

(吉姆)对我们来说,可配置的现成产品是能够选择服务器、扩展、BittWare 卡以及安装正确软件(如 Atomic Rules 的软件)以实现解决方案的重要部分。

(布莱恩)我们确实收到了一些问题,所以我们将暂缓回答其中的一些问题,直到我们进入更深入的对话。

尼科勒特

特别是对你来说,吉姆,所以我们先不谈!(笑)因为我们想......Shep,如果你能......我们正在讨论 TK242,如果你能给我们简要介绍一下 TK242 及其 "无需编程 "的一些功能,以及在 COTS 解决方案的背景下,它如何为用户带来好处?

谢普

谢谢你,尼科莱特,我很想跳过去,如果我跳得太久,你就无形中把东西扔给我吧。

(尼科莱特)我可不想弄坏我的屏幕,谢泼!(笑)

乍得

在你走之前还有一件事,这也是我们与像你们这样的公司合作的原因之一,因为你们花了无数个日日夜夜、月月年年来开发这个知识产权,对吗?

谢普

是的,我们有。

 因此,我将展示一个框图,当我们开始讨论螺母和螺栓时,我将对它进行一些介绍。不过,在我开始与屏幕上的图块对话之前,我还是要先向大家介绍一下 TK242。顺便说一下,"TK",正如我前面提到的,代表 "交钥匙"。242 这个数字的神奇之处在于有两条 100 千兆的路径。我们希望有一个 4,因为如前所述,这是针对第 4 代 x16 进行调整的,因此有了 200 千兆位的数字,谁不喜欢产品中有 42 这个数字呢?笑声

所谓 "交钥匙"(我们会反复强调这一点)就是:无需对 FPGA 进行编程。这是我们提供的完全在电路板上运行的比特流,因此我们不必谈论 FPGA 供应商的工具......软件也是如此,我们也会谈到这一点。

是的,我们可以使用 C、C++ 和 Python API,但我们提供的是开源代码,是用于 TK242 的完整 Linux 服务,一旦安装了该服务,您所要做的就是打开系统,然后将捕获的每个数据包(最高可达 200 Gbps)永久存储到主机上的 .PCAP 文件的无限缓冲区中。没有比这更简单的了。

让我来介绍一下,让我们了解一下其中的原理。这里的 TK242 实际上是 BittWare 卡上的覆盖层。我们想在某处展示一下它的图片。这是一块半高半长的电路板。我们没有特别针对这块板,但我们真的认为这块卡的性价比非常高,因为它是 Mouser 的现成产品。无耻的插曲:如果大家想尝试 TK242 并在明天开始使用,请选择一个盒子,把卡放在那里,下载我们的安装包--只需一个脚本就能安装所有内容--插入连接器,数据包就会源源不断地传输到磁盘上。

让我们来看看......我将快速浏览 FPGA 内部的一些部件,因为人们可能想知道:"那么,你知道如何进行数据包捕获吗?我提到了我们如何做到商业网卡无法做到的事情。让我稍微介绍一下。

因此,我们有两个并行的百兆采集通道。它位于 QSFP-DD 电缆上,因此,如果您使用的是 100GBASE CR4,您可以使用分路电缆将其分路。它可以与 DAC 电缆、有源光缆一起使用,这并不重要。

TK242 的整个数据路径可提供每秒 3 亿个数据包和 200 千兆比特。因此,正如我前面提到的,TK242 在某种程度上就像是 Atomic Rules 的 IP 大作,你无需整合它,因为当然是我们把它组合在一起的。

我们的 TimeServo 系统定时器的时间分辨率为纳秒,可以最大限度地利用它。每个到达的数据包,即 L2 数据包,都以纳秒级的分辨率标记。数据包到达后,我们会将其排序为一个数据流,使其合并后的到达顺序单调递增。

在这里我就不多说了(但如果大家愿意,我们也可以说)。我们有一个深度 VXLAN RSS 数据包处理器,一个包含 64,000 个条目的流量表,我们可以(如果我们愿意)将这个每秒 200 千兆比特的合并数据流分成四个不同的数据流。假设我们想过滤掉某些数据包,并将某些数据包发送到不同的 PCAP 文件。事实证明(我们在完成所有这些工作后发现),绝大多数用户真正需要的是一个或两个 PCAP 文件,而不是很多。但我们的硬件可以同时运行四个 PCAP 文件,如果您想将每秒 200 千兆比特或每秒 3 亿个数据包都传送到一个 PCAP 文件,我们也可以做到(而且无论数据包大小如何,我们都不会丢弃任何数据包)。

这就是 P2PCAP 引擎,我们基本上是在硬件中制作符合行业标准的 PCAP 文件,因此主机 CPU(Linux 处理器)与实际数据没有任何接触。从这里开始,它将进入我们的 Arkville DMA 引擎和主机内存,在主机内存中,它是一个反弹,随后的 NVMe 存储系统将对磁盘进行写入(实际上是从主机内存中读取),所有这一切都以高达每秒 200 千兆比特的速度顺利进行。

故事就是这样,一路上显然还有很多舞蹈要跳。

关于什么样的存储系统适合每个人,我们将与吉姆和查德单独讨论。因为我们在奥德赛中了解到的一件事是,一年来我们发现,例如,对我们来说,200 千兆比特--或者更多,我的意思是,很明显......我们现在使用第 5 代 x16 接口,每秒可以达到 400 或 500 千兆比特......第 4 代 x16 接口每秒只能达到 25 千兆比特,但将同样的吞吐量传输到磁盘完全是另一个挑战,这就是我们的软件 TK242 服务要做的事情。

我不会说那里有什么魔法。虽然有编码--所有的碎片都被拼凑在一起......挂在一起使其工作--但要让磁盘系统全天候完美无瑕地吞吐每秒 200 千兆比特的数据,肯定不是 "天方夜谭"。可以肯定的是,你的 Ubuntu 操作系统仅靠一个小小的 M.2 Chiclet 是不够的。你需要某种 RAID 解决方案--有趣的是,每种应用的 RAID 解决方案都不尽相同,我们为你敞开大门,让你自带合适大小的硬件来解决存储问题。"什么是持久性、什么是容量、什么是可靠性?这些都由你来决定,而不是 Atomic Rules 或 BittWare 或 OSS 告诉你该怎么做。让我暂停一下,因为我不想垄断......

布赖恩

我有一个问题。您提到 TK242 可以处理高达每秒 200 千兆比特的数据。您能详细说明这种能力如何满足各种数据采集需求,包括更小/更大的带宽需求吗?

谢普

谢谢你,布莱恩。简单地说,很明显,有两个 100 千兆 MAC(它们的有线传输速率订阅可以渐进地接近 100 千兆)这一事实就是 200 千兆的由来。我还想到了一个并非完全巧合的事实,那就是这大约是第 4 代 x16 适当大小带宽的极限,而这正是我们设计这款产品的优势所在--这也是这款产品如今在商业上如此实惠的原因,对吗?

如今,你仍在为第 5 代技术支付高昂的费用,但第 4 代技术实际上已经开始批量生产,而且正如查德之前提到的,很多东西都是为了让第 4 代技术走向成熟(现在已经成熟,正是用户收获它的好时机)--但并不是每个人都需要捕捉 100 千兆对话的双方。

在以太网世界中,许多对话都不是线路两端都能完全使用的,因此,将 200 设置为某个小于 200 的数字(尽管可能会瞬间或在一定时间内达到 200)也是可以的。拥有额外的带宽并不会花费你太多,因此为 200 提供带宽并不可怕。

但事实证明,有些人对纯粹的持续吞吐量的要求要低得多。从纯以太网的意义上讲......也许你只有 40 千兆以太网链路或 25 千兆以太网链路,所以显然比例上要低一些,所以......很好,这是锦上添花。

事实上,今天有一些 TK242 用户特别要求使用 10 千兆位链接,而不是 100 千兆位链接--他们的要求降低了整整一个数量级。因此,他们是该产品的商业用户,从这个意义上讲,他们认为该产品非常有用,而不是 200。因此,并不是每个人都必须面对这一限制。

另一件事(这......再次为更多的讨论打开了方便之门)是,我们对 TK242 用于录制数字广播......数字中间频率的采用感到非常兴奋:数字中间频率:VITA 49、DIFI。从本质上讲,5G、ORAN 和无线电中的 A 到 D 转换器输出的 I/Q 流,其流量并不一定是 TCP 聊天或 UDP 单向或双向--虽然通过 UDP 发送也是一种选择--但流......吞吐量......不是由以太网连接的线路速率决定的,而是由捕获频谱的 A 到 D 转换器的精度和采样率决定的,然后反过来,我们将捕获这些频谱。

因此,TK242 为用户提供了一个绝佳的机会,他们可以在从 A 到 D 转换器......从频谱分析仪......从解码器......从任何连续时间设备出来的等时数据流上安装一个数据包转换器。从本质上讲,这是一个他们想要捕获的无限数据包流。他们以较低的速率将其转化为数据包,在大多数情况下,我们看到的数据包数量明显低于 200 千兆比特。也许是在每秒 100 千兆比特到 200 千兆比特之间。

因此,我认为,虽然从 802.x 合规性的角度来看,一年多来我们一直专注于 "哦,我的天哪,还有什么是我们不能捕获的以太网吗?",但很多用户却认为,"我们永远不会这样做。我们的转换器是每秒千兆采样,每采样比特数是多少,这将是一个等时数据流,是以这种速率打包的。查德,你可能需要润色一下。

尼科勒特

我想把话题拉回到一些产品上,因为实际上我们还有一些问题是关于一些产品相关功能的,所以查德,继续吧。

乍得

当然,Shep 正在开发几款不同的产品,我们也在努力满足一些射频方面的需求,所以我会介绍一下。

但是,在使用英特尔 Agilex 卡的网络产品的基本情况下,Atomic Rules 正在实施 TK242,我们已经有了高达......我们有多个 400 gig 的链路(很明显,主机还不能通过 Arkville 使用这些链路),但以我们的 420f 为例,它有两个 200 gig 的数据流,他......他刚才的框图完全符合该产品。

因此,420F 配备了第 4 代 x16,我们现在正在研发......我们正在推出 IA-440i,这是一款配备第 5 代 x16 的 I 系列产品,这些产品将迈出下一步,有可能将带宽提高一倍。

但在射频领域,我们有一款产品 RFX-8440,它基于 AMD 的 Zynq UltraScale+ RFSoC 芯片,该芯片内置 ADC 和 DAC,正如 Shep 所说,我们将数据数字化,然后通过标准 QSFP 端口发送,直接连接到我刚才提到的另外两块卡。实际上,不仅仅是两块卡,而是我们提供的两块小尺寸卡,我们可以提供从端到端的完整解决方案,这真是太棒了。

尼科勒特

因此,我们实际上......我们从一位用户那里了解到一个问题:"BittWare网卡上的TK242是否可以从CPU上进行任何形式的卸载,而标准网卡则不行?

谢普

哦,完美的问题!听起来就像我会问的问题。所以我猜...

(布莱恩)(笑)

(乍得)你会问自己吗?

(布莱恩)他就是这样想问题的,他问自己问题,然后......(笑声)。

(乍得)这样做是对的。

(谢普)我很快就把屏幕拉回来,稍等一下。有一件事你们可能听我说过,"......做一些基于 ASIC 的商用 NIC 做不到的事情",为了实现这一功能,提供 200 千兆位无源数据包捕获的基本功能,有一个关键部分(在卸载和硬件中)是 NIC 做不到的,而我们正在做:那就是将数据包流在线(在硬件中,在 FPGA 中)转换为 PCAP 文件。

在 PCI 总线上移动的单个数据包(包括 TLP 的开销),以及 64 字节的微小数据包,都无法实现 200 千兆比特的捕获能力。

我们在 FPGA 中设计了电路,将收集的 P 数据汇集到 PCAP......将汇集到单个 PCAP 的数据(在硬件中进行卸载),实际上是让我们的 DMA 引擎移动一个真实的数据流(换句话说,逐字节移动,与您希望在磁盘上看到的 PCAP 文件完全相同),并将其导入主存储器。

这一点我怎么强调都不为过。主处理器(编排这一切的 x86 CPU)从未接触过单个数据。不为 NVME 硬盘重新组织数据,不左右移动数据或添加数据头......也不采取任何措施或对齐数据,以便正确存储或读取。

由于我们在硬件中完成了所有这些工作,因此我们不仅通过卸载减轻了主机 CPU 的负担,而且还精简了存储系统,这样无论你运行的是 HFS、NTFS 还是 XFS 文件系统,无论你想在后端读取什么数据,无论你想读取什么数据,实际的 NVMe 请求提示(存储系统基本上是从内存读取数据并将其写入固态单元)都不需要任何重构。

现在的对立面--因为这算是一个......算是一个 "好消息"。坏消息--"好吧,其实也不算是 "坏消息",但要说清楚的是,TK242 是一个固定的比特流。它做什么就做什么。它是一种叠加功能,可以使 BittWare 卡等具备这种数据包捕获能力。

它不是一个 SmartNIC,也不是一个 FPGA 比特包,你可以进去说 "我想做一个 TCP 解码",或者 "我想做一些压缩",或者 "我想做一些加密"(顺便说一下,这些都是我们非常渴望与任何想做的客户进行讨论的事情),但这不是 TK242,它是 COTS 交钥匙工程,"它在这里......这就是它做的事情"。非常感谢你的提问。

布赖恩

我有一个问题。Atomic Rules 如何验证 TK242 的吞吐量性能,特别是在特定硬件要求下?

谢普

好吧,简单来说,我们把它分成几块,分而治之。(关闭图形)我们不需要......就在这里停止。

简单地说,我们将验证问题分为实现从 FPGA 卡到主存储器(然后在存储系统中,从主存储器到磁盘)的吞吐量,然后进行整体测试。

在这一切开始之前,一切都要从 CI 和 CD(持续集成、持续开发)开始。我们有一个精心设计的、范围广泛的 Jenkins 工作台--它并不是大多数用户熟悉的传统意义上的 CI/CD Jenkins--我们有大约二十多台服务器(英特尔和 AMD),板卡来自 BittWare、英特尔、AMD、Nvidia 和其他公司,我们不只是在所有软件上运行标准的 Jenkins 管道。我们实际上是在编译 TK242 比特流,并在硬件中反复运行应用程序。

因此,一年多来,我们一直在全天候运行数十套系统(在内部花费巨资),以证明 DMA 引擎的性能,并能够向任何好奇的人提供确凿的客观证据:"你们如何向我证明你们从未丢包?顺便说一句,我们也可以通过检查(查看代码和流量控制方式等)来证明这一点。

这样我们就能进入主内存。但仅仅进入主存储器并不能成为一个数据包捕获解决方案,走过这条路的人都很清楚这一点。我们还做了一套类似的测试(我得说这对我们来说有点新--它更属于 OSS 这样的公司的业务范围),以验证从主存储器到存储系统的吞吐量是否具有同样的性能,或至少具有适当的性能,以实现目标。

只有在从 FPGA 到主存储器以及从主存储器到磁盘的运动都令人满意的情况下,才应该考虑实际分析端到端,以确保两者结合后仍然具有良好的性能。

我们的后背伤痕累累,因为我们可以以每秒 240 千兆比特的速度向主存储器移动,然后说:"哦,我们是不是很棒?我们还可以使用标准的 Linux 工具(如 FIO)来对从主内存到磁盘的突发性能进行基准测试,然后说:"哦,看,又向 12 盘的磁盘条带阵列传输了 220,我们应该没问题吧?(错,没有!

我们在......主要是在 Linux 服务(我们开发了该服务,并与 TK242 一起提供)方面投入了大量精力,以解决这一问题并提供验证工具,因此,如果您获得一块卡并在上面加载 TK242,我们要求您做的第一件事就是运行一个测试套件,以帮助验证性能。TK242 并未显示在这些框图中,但我们有内部数据包生成器,可对流量进行整形,并可提升至每秒 256 千兆比特。我们上下运行整形扫描,测量到主存储器的吞吐量和到磁盘的吞吐量,在你的系统上,在你的主板上,在你的磁盘系统上,你自己(不是 Atomic Rules,不是 OSS,也不是 BittWare)将会有一个硬性的客观数字,"哦,看,我猜这就是我的性能"。

我们能保证性能吗?绝对不能,我们不知道您的架构是什么,但我们非常清楚,这不是 "给我 "的......您带错了磁盘系统......您没有在系统中塞入足够的内存 DIMM......您的猫把水洒到了处理器上......在这些条件下,您可能无法获得 200 gigabits 的性能,但我们可以测量。

尼科勒特

好的,我想让吉姆进来,因为我们有几个问题要问吉姆,你知道吗,吉姆,你之前提到过 "一站式",所以这是一个完美的时机。吉姆,你来给我们描述一下,在 COTS 数据记录仪的背景下,人工智能可传输意味着什么,以及这对性能和可用性有什么影响?我们就从这里开始。

吉姆

您在我们的网站上看到了人工智能可移动...

(布莱恩)(笑)这就是在做研究!

(吉姆)......我知道查德刚才提到了人工智能,听到谢普说这些速度、馈送和所有东西是如何进入服务器和系统的,我感到非常高兴,因为这正是我们在 OSS 所做的工作。

对我们来说,人工智能可传输设备是......我们不想说移动人工智能之类的东西,因为......人们会想到手机之类的东西,但我们确实在使用数据中心级别的硬件,这样我们就能从BittWare硬件和Atomic Rules软件中获得这类速度和反馈。

因此,人工智能可传输设备:我们认为整个人工智能工作流程是开放源码软件能带来巨大价值的地方。目前有数以百万计的传感器,BittWare 卡是将这些传感器导入数据集并进行存储的方法,而 Atomic Rules 则让这一切变得简单易行。实际上,传感器摄取是数据记录器的一部分,如果你说的是自动驾驶汽车,那么数据记录器就是人工智能工作负载的头端。

因此,我们真正提供了这些高端硬件系统,比如我们的 SDS 服务器,它是 Shep 在 Atomic Rules 总部敲打的服务器之一......并将所有数据输入其中。

接下来,你必须对数据进行推理。因此,我之前谈到的规模类型(我稍后会问到 PCIe 通道的问题)是我们允许的......现在,如果你想在同一系统上使用 GPU 处理数据--将其转化为可视化或类似的可用形式--这取决于你引入的传感器数据是什么。或者,在此基础上做出人工智能推理决策,这就是下一块拼图,而我们(因为与 Nvidia 的关系)将其中的一大块带入了人工智能工作流程。

因此,这就是人工智能可传输性的概述......就是获得所有这些部分,但在边缘完成所有这些,而不是在亚马逊云中,也不用等待两个小时来发送所有你想要的数据(即使是通过百兆连接到互联网......如今也相当昂贵),但如果需要,我们有办法将数据传输到更大的云中。但实际上,我们谈论的是数据中心级的处理能力,你可以在汽车上、飞机上、潜水艇上进行处理,诸如此类。

布赖恩

你回答了我的下一个问题。你的数据记录器和服务器可以部署在不同的应用中,对吗?所以,你在考虑很多车辆、飞机?

吉姆

是的,所以,就......更多一点......我们从商用方面的自动驾驶卡车......这些数据记录器系统......你想想,在美国,一辆长途卡车从海岸到海岸需要两天时间,而长途司机做同样的事情需要四到五天。这才是自动驾驶卡车真正的价值所在。但是,那里有大量的数据正在被采集,所以这也是很多传感器基于以太网的应用之一,我们在这里讨论的这个解决方案可以将这些数据引入其中。

其他的......我们提到过飞机......甚至在军事应用中,我们也有直升机和大型系统,比如在 P8 飞机上,我们对所有传感器进行数据采集:声纳浮标......如果你从这些类型的传感器中进行可视化输入,周围的环境也会被采集,所以这也是另一种应用。

我甚至提到了潜艇,因为我们正在潜艇上进行声纳处理--数据摄取和处理,包括自主潜艇和载人潜艇。

因此,这些都是相当恶劣的环境,而这正是 OSS 硬件可以让你把工作站上的相同产品--在你的办公桌上--实际应用到这些车辆上的地方。在大多数情况下......如果你正在寻找其他真正的边缘型应用,你总是不得不去......也许你仍然在使用第 3 代 PCI Express,或者你正在使用低电压处理器,这确实影响了你想要获得的性能--你希望看到与工作站相同的性能,但你希望在车辆中拥有这种性能。这正是我们为这一解决方案增添价值的地方。

尼科勒特

要知道,解决传输这些海量数据的难题是非常关键的,对吧,比如 500 TB?我们能不能多谈谈你们的解决方案是如何解决这个问题的?

吉姆

是的,最大的问题是,现在你已经得到了所有这些传感器数据:从伦敦飞往纽约的飞机上可能会得到一个 PB 级的数据--你刚刚以这种极高的速率收集了 TK242 数据,而且你已经连续做了七八个小时--现在你把这些数据存储在磁盘或一组磁盘上。

因此,我们的解决方案之一是--我曾说过,将数据发送到云端处理可能需要数周时间--我们的大多数系统都有所谓的数据罐。因此,我们在 SDS 服务器上有两个数据包,这个解决方案已经在上面进行了测试,最多可以容纳......现在有了 60 TB 的硬盘,我们的数据量已经接近 PB。然后,我们可以将这两个驱动器包取出,并通过联邦快递连夜发送到世界上的任何地方,而不用再花两周时间从电线上获取这组......PB 级的数据。

因此,这种数据包概念使其非常便于运输,在飞机降落后,取出驱动包,将其插入数据中心或机场的数据中心,然后上传所有数据,这样就可以快速使用这些数据。

布赖恩

谢尔盖要问吉姆一个问题。比如说,只有 8 条 PCIe 通道可用,如何将其扩展到 128 条?你用的是什么扩展器?

吉姆

这个问题问得好,因为我可能混淆了链接和车道。

使用PCI Express,我们可能会有4或5个x16插槽或x8插槽,将BittWare卡插入其中,以便采集数据。但如果需要扩展到更多的卡,我们会使用 PCI Express 交换机来处理其中的一些产品(它还支持 Atomic Rules 以极快的线速进行的所有 DMA--150 纳秒的延迟,因此几乎不会引起注意,甚至不需要缓冲帧或类似的东西)...但是,PCI Express 交换机可以让我们使用第二个机箱(我们称之为扩展器),并扩展更多插槽......以便添加更多的卡或 GPU,或者添加更多的 NVMe 驱动器,如果你的数据集比我们从单个 SDS 服务器中获得的数据集还要大的话。

因此,当我们谈到如何扩展我们的解决方案时,我指的更多是通过交换获得的 PCI Express 扇出。

布赖恩

因此,噪音也是一个重要的......哦,对不起。

(不,不,继续,继续。

(布莱恩)......在基于高性能应用的车辆中可能是一个重大问题?一站式系统公司采取了哪些创新或措施来解决这个问题?

吉姆

是的,所以,当你......谈论潜艇类型的应用时,首先,你希望在潜艇里保持安静,特别是如果这是一艘军用潜艇,里面还有人的话。如今,如果你进入服务器机房,你知道,你会被85分贝以上的噪音吵醒。每个人都需要护耳之类的东西 当你想在水下隐身时 你真的无法承受那样的噪音

因此,我们谈到的 SDS 服务器有自带液体冷却的选项,我们利用液体冷却的更高效率。因此,服务器中的热交换器--仍然保持在这种短深度封装中,以便能够适用于那些狭小的应用,以及我们所说的这些车辆--将噪音水平从 85 分贝降低到 60 至 65 分贝,这更像是一个办公室聊天式的环境,因此你实际上可以....,而不会因为高端服务器持续不断的噪音而发疯。

因此,我们将冷却和电源作为将这类数据中心型产品应用到车辆应用中的关键方法,甚至将液态浸入式冷却添加到我们的产品中:因此,我们可以将所有这些产品浸入液态冷却槽中,让它在外面运行三年,收集数据并进行记录,而无需接触它,因为它处于恒温状态,而且在这种水平下确实没有噪音。

尼科勒特

好的,我们还有几个问题--我知道我们快到最后几分钟了。谢泼,让我看看......好,就给你这个吧,谢泼。

那么,既然有人提到 TK242 会卸载 PCAP 格式,这是否意味着 libpcap 无法在 Linux 系统上工作,只是为了澄清一下?请告诉我发音是否正确。

谢普

(笑声)你知道这是字母汤,而你说得恰到好处。

让我来解释一下......不应该有任何混淆:libpcap 非常出色。它是一个软件 API,在 Linux 上运行,也可能在 Windows 上运行。无论是 PCAP 文件的制作还是解码,它都是一个软件 API,在软件中运行,会使用周期。它在输入和输出过程中会接触到数据流的每一个部分。

正是为了避免这种接触,在数据输入或......输入过程中的任何阶段都不需要主机参与,我们通过硬件卸载实现了这一点,因此主机无需做任何事情。

我们是否可以去掉 TK242 中的 P 到 PCAP 引擎,而像网卡那样直接将 DMA 数据传送到主机?当然可以,而且人们确实是这样使用......IP 的。你不可能获得 200 gigabit 的性能。即使是最快的 AMD 和英特尔处理器,如果内核数量多得吓人,在这种速率下也会窒息,而且还会产生与之相关的所有软件抖动。

因此,总的来说,libpcap 运行得非常好。它是一个软件应用程序,有它的用武之地。它在实时捕获系统中没有用武之地,因为接触数据可能意味着数据丢失。

尼科勒特

好吧,我们还有一个问题。

(布莱恩)......看起来查德确实直接回答了,但是......

(不,不,我还有一个问题。

(好吧,你还有一个,好吧!(笑声)

(Nicolette)那么,它指的是......我想先回过头来谈谈裸机。我们会听到或读到 "裸机 "这个词,当它与 FPGA 相关联时,我想请你花一点时间为我们解释一下这个概念。

乍得

是的,当然。那么,裸机就是......主要是现在听起来的样子(这些年情况发生了变化)。我的意思是......FPGA 以前--你知道--实际上只是逻辑单元,有人必须自己去实现一切。

现在,他们有了用于 PCIe、DDR 控制器和以太网的硬 IP 模块。BittWare 加快了开发时间,并测试了我们的硬件--我们有几位 FPGA 设计师,他们必须对这些模块进行正确的参数化(知道这些模块之间如何通信),因此,要在其中实施示例或卡测试......其中的逻辑单元--这些单元之间的空逻辑单元。

但是......事实上,它裸露在这些硬IP块之间,这使得Atomic Rules可以利用FPGA内部的大量资源(即空逻辑单元)来实现高度定制化的解决方案,以满足我们的需求。这就是为什么FPGA卡在许多不同的市场中如此通用。因为它们可以以多种不同的方式进行配置,以实现许多不同的应用。

尼科勒特

谢谢查德。好了,观众们提出了很多好问题。布莱恩和我也有一些问题要问你们。有什么问题是我们没有问到,而你们认为我们应该问的吗?(停顿)我想谢普能想到一些!

(布莱恩)(笑声)我看到谢泼在那里加工,就在那里。

谢普

当然,查德、吉姆和其他在线的人......都可以提出问题,但让我来补充一下查德关于裸金属的评论,因为这值得思考。

有了 TK242 作为交钥匙解决方案,我们离裸金属就越远越好,因为 TK242 的市场观点是:"Phooey FPGA,没有......RTL 查找表......全坏了!"!没有......RTL查找表......一切都不好!"

我们将我们的身份信息--比特流--加载到 BittWare 的卡片上,然后它就会变成一个角色,很好地完成这一件事。

对于我们认为对这种能力感兴趣的人来说,"哈利路亚!"而不是所有的研发和其他......你得到了 COTS 的所有价值,你就可以走了。

然而,OSS......BittWare......Atomic Rules:我们都有另一面(正如我在这次通话中多次提到的)。TK242:在某些方面,就所有 IP 而言,它就像 Atomic Rules 的代表作。

查德关于裸金属的观点......我们认识到在座的各位:你们都很敏锐,你们都在看这里,"哇!我打赌,如果我们能把我们的能力放在里面--我们有压缩或加密或任何......射频信号的向下转换......任何其他一连串的数据包处理的秘诀......"

TK242并不打算这样做......但你肯定找对了人,BittWare、OSS和Atomic Rules都是你的合作伙伴,他们可以通过翻转图像来完成工作,然后说:"我们肯定能把你的秘方放进去!"但是,话又说回来(我们非常感谢今天关于我们的交钥匙设计的所有报道),这不是交钥匙设计,而是将各种元件组合在一起,利用我们的元件 IP 更快地进入市场。

所以,希望查德我没有把你说的裸金属弄得一团糟。

你知道,Atomic Rules 的团队喜欢在 FPGA 的画布上作画。如今,Nvidia 等公司的 GPU 和主处理器之间拥有丰富的异构处理器,这意味着系统软件和 RTL 比以往任何时候都更加紧密地结合在一起。

不再是了......这不仅是 FPGA 的问题,也是系统的问题--这就是 TK242 不仅仅是比特流的原因。TK242 与其说是比特流,不如说是完成数据包捕获工作的 Linux 服务(这同样取决于 Atomic Rules 的相关人员)。

因此,我认为,裸机始终存在于那些想深入其中的人身边。嘿,如果你的工作量足够大,我们就开始讨论 ASIC,让我们真正脱下手套(我想每个人都知道这是可行的)。

但是,我今天要谈的主要内容是,今天在座的所有供应商提供的 COTS 产品如何使数据包捕获过程民主化,从而使任何想做这件事的人不再面临巨大的时间限制或巨大的经济障碍,以确定他们是否能将自己的附加值(即捕获和抓取数据)用于做一些事情。

乍得

是啊,我觉得你说得很对,Shep。听着,正是像 Atomic Rules 这样的公司能够提供......有时是别人必须在后端安装的 IP 块,然后做他们想做的任何事情,或者我们可以把这些卡(尤其是这个解决方案)卖给那些不知道如何给 FPGA 编程的客户。他们不需要知道,因为这是一个 "交钥匙 "的罐装解决方案。我的意思是......就像他说的,名字里就有这个意思。

这取决于最终用例、我们试图部署的来自不同合作伙伴的不同 IP,如果有人试图做一些别人从未做过的事情,那么他们就会想要一些裸机,这样他们就可以真正去编程了。你说得很对。

布赖恩

感谢各位参加今天的现场聊天。感谢我们的赞助商Mouser Electronics 和 BittWare,以及我们出色的嘉宾。祝大家今天愉快

谢谢