BittWare网络研讨会

VectorPath S7t-VG6加速器卡介绍

现在可以点播:

在本次网络研讨会上,Achronix® 和 Bittware 将讨论在高性能应用中使用基于 PCIe 的 FPGA 加速卡的发展趋势。您将了解到 Bittware 和 Achronix 合作生产的新型 S7t-VG6 VectorPath™ 加速卡。S7t-VG6 VectorPath加速卡是首款采用先进的7纳米TSMC工艺技术和先进连接功能(如400G以太网、GDDR6内存和灵活的OCulink扩展端口)的加速卡。参加网络研讨会后,您将了解推动PCIe加速卡应用的市场趋势,了解如何在您的应用中利用这项技术,并获得BittWare和Achronix新推出的高性能VectorPath加速卡的详细信息。

S7t-VG6 PCIe 卡照片

发言人

Steve Mensor | Achronix销售与营销副总裁
Craig Petrie | BittWare营销副总裁
视频转述

简介 - 马库斯

欢迎大家参加网络研讨会--感谢您的参与。

我们今天的主题是 FPGA 加速卡,特别是新型 VectorPath S7t-VG6。我是 BittWare 的 Marcus Weddle。

在主演示过程中,如果您想提问,请在问题控制面板上提问。我们有工作人员在线,可以在演讲过程中通过聊天回答您的问题。当然,您也可以等到最后的问答环节,我们将与演讲者一起现场回答您的问题。那么,让我们开始吧。

我们的第一位发言人是Achronix公司的销售和市场副总裁Steve Mensor。Steve 在 FPGA 行业有 25 年的工作经验,他曾在 Altera 担任过一系列职位,当然,Altera 现在已经成为英特尔的一部分。

BittWare 营销副总裁 Craig Petrie 也将加入 Steve 的行列,他在 FPGA 领域也有数十年的经验。Craig 最初就职于 Nallatech,你们中的大多数人可能都知道该公司已于 2018 年与 BittWare 品牌合并。

好了,现在请史蒂夫带领我们进入主讲环节,之后我会回来进行现场问答。

 

Steve Mensor - Achronix 简介

谢谢你,马库斯。我们很高兴能有机会在这次网络研讨会上讨论最近发布的 VectorPath S7t-VG6 加速卡。我们将介绍该卡的一些细节,最后请大家提问。首先,我们要介绍一下共同开发该产品的两家公司。

Achronix:我们是一家专注于高端 FPGA 和一流 FPGA 支持工具的公司。我们的独特之处在于,我们是唯一一家专注于高端独立 FPGA 产品的 FPGA 公司,同时也销售可集成到 ASICS 或 SLC 中的嵌入式 FPGA IP 技术。我们的重点是名为 Speedster7t 的最新产品系列。这是一个专注于高带宽和人工智能应用的产品系列。

Craig Petrie - BittWare 简介

谢谢史蒂夫,大家好。我是BittWare公司的克雷格-皮特里(Craig Petrie),对于不熟悉BittWare的人来说,我们是Molex公司集团的一部分,我们专注于为计算、网络、存储和传感器处理等应用提供基于FPGA的加速。这些可编程 FPGA 产品提高了应用性能和能效,同时降低了客户的总体拥有成本。

在 BittWare,我们拥有 30 年成功设计和部署先进 FPGA 加速器产品的经验。作为 Molex 集团公司的一部分,我们是唯一一家能够满足企业级认证、验证、生命周期和支持要求的 FPGA 卡供应商。与 Achronix 的合作对 BittWare 而言是非常激动人心的。

史蒂夫-孟瑟

多样化的工作负载推动了对数据加速器的需求 (02:57)

在了解这款显卡的细节之前,我们先来了解一下它的背景。许多预测都对硬件加速器做出了预测。到 2023 年,基于硅的硬件加速器将超过 200 亿美元。其根本原因在于,使用基于至强处理器的服务器阵列的传统方法无法充分满足某些工作负载的性能要求或能耗要求。

下面我将对此进行详细介绍。如果我们将应用细分为计算、网络、存储和传感器处理,我们在底部显示的就是必须在数据上完成的各种工作负载。因此,从历史上看,数据最终必须从 A 点移动到 B 点。

现在,我们所处的领域需要在移动数据之前对其进行处理。一些简单的例子就是压缩和加密。当然,还有一些其他的例子,比如人工智能/人工智能领域增长非常快的细分市场。事实上,你会在底部看到,我们已经强调并指出了以人工智能/移动计算为导向的不同工作负载。不过,你会发现,在这大量的工作负载中,很难有一种技术能够作为加固功能或 ASIC 功能来解决所有这些不同的工作负载。

归根结底,如果有办法做到这一点,就会有一种修复方法或芯片组来解决这个问题。但同样,从 CPU 的角度来看,也存在效率低下的问题。因此,我们看到 GPU 或 FPGA 都是可编程的解决方案。特别是 FPGA 的一个好处是,它们能够创造数量级的加速,并能解决所有这些不同的工作负载类型。

Craig Petrie

PCIe 加速卡的市场需求 (05:06)

本幻灯片旨在强调我们所看到的市场趋势,并与 Achronix 一起解释我们如何帮助应对这些趋势。在过去的 5 到 10 年间,我们见证了 Nvidia GP GPU 技术的成功。这改变了人们的态度,使加速技术成为提高应用性能的一种手段。

越来越多的客户开始使用异构架构,这种架构混合了各种不同的技术,各有利弊。随着 GP-GPU 带来的回报越来越少,客户正在寻找下一波性能提升和能效提高的来源。

过去三年中,市场上出现了一些备受瞩目的 FPGA 成功案例。例如,微软的 Catapult 计划使用 Altera(即现在的英特尔)ARRIA 10 FPGA 加速必应搜索引擎。微软继续投资使用FPGA的应用,现在他们的Brainwave计划使用英特尔STRATIX 10 FPGA,该计划运行持久的人工智能神经网络。

最近,亚马逊的 AWS F1 云实例采用了赛灵思 UltraScale+ FPGA。这些都是我们所说的 "芯片向下设计"(chip down design)的典范,在这种设计中,超大规模客户投入了大量的时间、资金和人力资源来创建一个特殊的实施方案,以解决一两个应用需求。我们看到的是,随着 FPGA 呈现出经典的技术应用曲线,消费模式也发生了变化。二级超大规模客户和企业级客户需要解决的应用问题不同,范围非常广泛,无法证明芯片向下模式的投资是合理的。

他们希望购买现成的产品和服务器级的板卡。这就是为什么我们现在看到戴尔、HPE 和 IBM 等服务器厂商在其一些流行的服务器平台上销售 FPGA 卡。英特尔(Intel)和赛灵思(Xilinx)这两家主要的 FPGA 供应商也意识到了这一市场趋势,并分别推出了自己的 FPGA PCIe 加速卡系列,即 PAC 和 ALVEO 系列。

数据中心系统和业务需求 (07:30)

在接下来的几张幻灯片中,我们将解释 S7t 卡和设计工具将如何帮助我们满足目标客户的一些详细技术要求。我们也在努力确保满足客户的许多业务要求。他们面临着提高能效以降低总拥有成本的巨大压力。

Achronix Speedster7t FPGA的可重构特性使我们的客户能够实现类似ASIC的性能,同时快速响应新的应用需求。我们能够将 Achronix S7t FPGA 作为企业级现成的 PCIe 卡或服务器平台提供,这有助于客户验证其应用,然后快速、低成本地升级。他们用于概念验证的硬件也是可随时投入生产的硬件。所有这些因素共同缩短了产品上市时间并降低了风险。

史蒂夫-孟瑟

介绍 VectorPath 加速卡 (08:29)

好了,现在我们来详细介绍一下 VectorPath 加速卡。首先,从卡的外形尺寸来看,这是一块双倍宽度的全高卡。这与 GPU 级加速卡的外形尺寸相同。最重要的是,有多种冷却方式可供选择,包括被动式、主动式和液冷式。就整体质量而言,这款显卡堪称企业级产品。

Craig Petrie

我们合作的目标是提供企业级产品,这显然意味着高质量的硬件。但这也意味着设计工具和实用程序。我们与 Achronix 提供的捆绑产品包括硬件,还包括 Achronix ACE 设计工具和 BittWare 的工具包。该工具包利用了 30 年的 FPGA 卡经验和功能。工具包的标题包括一个复杂的板管理控制器(或 BMC),使客户能够监控应用负载下板卡的健康状况。例如,功耗、电压、电流和温度监控,以及对客户非常重要的各种其他参数。该工具包支持最新版本的 Linux,我们的大多数客户都在使用。但对于一些应用复杂的客户,我们也支持 Windows 作为可选项。我们提供大量的 API PCIe 驱动程序集和多个应用示例设计,演示如何在每个主要 FPGA 外围设备、PCI Express、内存和网络端口上移动数据。这些都附带有源代码。最后是诊断自检,这是我们技术支持和保修服务的基础。该测试是我们生产测试制度的一部分,客户在开始应用前会使用该测试,以确保板卡在运输、搬运和安装过程中都能正常运行。它是用于调试的黄金图像,可验证所有功能都能发挥最大性能。

高速数据接口 (10:35)

本幻灯片旨在总结 Speedster7t FPGA 加速卡的主要功能。我们努力确保在板卡和服务器层面向客户展示 Speedster7t 器件的功能和 IP。首先是 PCI Express 连接,这是一个完整的 16 通道。该卡最初将支持 PCI Express Gen3,这也是当今市场的主流。不过,该卡在设计上也支持 Gen4。我们的目标是认证 Gen4,并逐步升级产品规格。我们非常幸运,因为 Achronix Speedster7t FPGA 的硬 IP 支持 16 通道 PCI Express Gen5。当时机成熟时,我们将检查该卡的信号完整性,并进行必要的调整,以确保兼容性。

Speedster7t FPGA 拥有丰富的多线速率 SERDES、MAC 和 FEC IP 阵列,支持每秒 1 到 400 千兆比特的各种速率。我们利用 BittWare 母公司 Molex 的技术,设计了两种类型的网络机架:QSFP 56 和 QSFP DD(双密度)。QSFP 56 是 1 x 200 千兆以太网端口。QSFP DD 是 1 x 400 千兆以太网端口。通过使用 Molex 的分线电缆,这两个网络端口都可以分解成 10、25、40 和 50 千兆以太网连接的倍数。

内存接口 (12:02)

该加速卡的其他主要特点还包括创新的内存架构。Achronix 没有在 FPGA 上使用昂贵的 HBM2 集成存储器,而是采用了 GDDR6 硬 IP。BittWare 卡支持 8 个独立的存储器组,容量为 8 千兆字节。这就产生了每秒四太比特的外部存储器带宽,与使用 HBM2 所达到的性能一致,但成本并不高。GDDR6 存储器广泛用于 GPU,并且是多源的。这种架构允许 BittWare 为大量应用定制显卡。客户可能会说

 "听着,我的应用程序只用了一半的内存。为了降低价格和功耗,我们能不能去掉其中的四个存储体?"

如果我们使用的是支持 HBM2 的设备,这是一个直接的选择,需要不同的 FPGA 和可能的新 PCB。在这种情况下,我们只需简单地去耦,降低成本,为客户省钱。我们还提供了单组 DDR4 作为缓冲器,为需要这种级别应用缓冲的客户提供缓存级内存选项。

时钟和扩展接口 (13:15)

本幻灯片总结了应用程序高效运行所需的一些更微妙但非常重要的功能。BittWare 利用其 30 年的丰富经验,确保该产品能够在一块板卡上满足计算、网络、存储和传感器处理工作负载的各种要求。这些功能在市场上的其他 FPGA 卡上是看不到的。

首先是前面板左侧的 SMA 连接器。这些都是时钟输入,包括 1 PPS 和 10 兆赫兹,可让客户同步多个卡,用于定时关键型应用。如果没有这些接口,客户就很难扩展支持网络的应用。在卡的右侧,我们有一个通用数字 IO 接头。这是一个技术含量相对较低的连接器,通过电压缓冲器将来自 Speedster7t FPGA 的八个单端引脚从 1.2 伏转换到 3.3 伏。当客户将新的加速技术集成到需要简单数字触发器或控制回路的传统系统中时,这个接头就显得极为重要。

扩展接口使用案例 (14:30)

我们今天要详细介绍的最后一项显卡功能是使用行业标准 OCuLink Edge 连接器的扩展端口。OCuLink 是 Optical Copper Link 的缩写,是一种 PCI Express 互连系统。S7t 加速卡上的这个端口主要有四种用途。

首先,FPGA 可直接与 NVME 闪存阵列连接。这样,通过网络端口捕获的数据就可以进行预处理并直接保存到 NVME 存储器中,或者由 FPGA 进行检索并作为数据库加速或大数据应用的一部分进行处理。我们在 BittWare 看到的另一个用例是需要在多个设备上扩展 FPGA 应用。虽然 PCIe 很好,但当您试图通过主机接口、芯片组、驱动程序和操作系统进行扩展时,不可避免地会降低性能并增加系统级抖动。将应用扩展端口用作简单的 SERDES(即非 PCIe 协议),客户可以通过 Molex 提供的简单电缆组件直接互连 Speedster7t 设备。

客户可以使用任何最适合其应用的拓扑结构(菊花链、环形、网状拓扑结构)进行互连。使用这种技术,客户将获得低延迟、高带宽,最重要的是,系统中 FPGA 之间的接口是确定的。第三个用例是,虽然该卡具有丰富的 IO,但总有一些客户希望在网络连接方面有更多的要求。为了满足这些客户的需求,可以使用适配器通过扩展端口将更多的网络端口从前面板引入 Speedster7t FPGA。

最后一个用例与前几张幻灯片中的 GPIO 标头一样,OCuLink 扩展端口与协议无关,可用于将新技术集成到旧系统中。

史蒂夫-孟瑟

Speedster7t 2D 片上网络 (NoC) (16:30)

现在,我将介绍 Speedster S7t 设备的一些功能。当我们点击这里时,我将突出显示 NoC 或片载网络,这是一个二维实现。因此,你可以看到它突出显示在这里。我不会详述 NoC 的所有细节,但基本上,NoC 的带宽非常高,每列横向和纵向均为每秒 512 千兆比特,并可连接高速接口,包括以太网、PCI Express、GDDR6 端口和 DDR4。

与 NoC 的通信有多种不同模式。最常见的是 AXI 接口,对于了解接口工作原理的设计工程师来说,这是非常标准的接口。 这些连接点是水平行和垂直列相互交叉的任何一点。我们称之为 NAP 或 NoC 接入点。因此,你既可以接入片上网络,也可以从其中任何一个点下线。这是一个非常强大的功能,因为它意味着 NoC 分布在 FPGA 结构中,可用于实际应用。

Speedster7t NoC:全新设计范例(17:55)

让我举个例子。我在这里展示的是一幅 FPGA 的漫画,它希望创建两个不同的加速器功能,加速器一和加速器二。你可以看到不同的 GDDR6 端口。因此,如果我想连接到这些端口中的任何一个,比方说其中的两个端口,我就必须构建功能来实现这一点。最终,作为用户,我只关心加速器功能。我必须做的其他事情是,因为它是 FPGA,我必须自己设计它与外界对话的所有功能。如果我们向前点击,你会看到必须完成的功能。因此,首先,由于我与 GDDR6 端口通信,我需要从外部世界获取时钟,并将其与 FPGA 内部的时钟同步。因此,我需要通过类似 FIFO 这样的标准结构。这相当简单明了。

更复杂的是,由于不同的加速器需要与不同的内存对话,因此会有一个共享内存空间。必须有一个控制机制,或者说是一个开关功能,来完成寻址、解码和路由。还需要控制和背压,以确保两个加速器不会同时与同一内存位置对话。所有这些工作还必须反向进行。

因此,如果我们再次点击,你会看到这里红色突出显示的区域,正如我前面所说,对客户来说没有任何价值,但显然它允许加速器功能与外部世界对话,因此必须这样做。这是必要之恶。

这其中有几个挑战。其一,正如你在底部所看到的,我们强调了红色区域以二次方的速度增长。每当你为交换机功能添加一个新端口时,无论是另一个内存端口,还是高速接口或加速器,它都会以非常快的速度增长,以至于你会有更多的电路,也就是这个红色的功能,换句话说,就是与外部世界的连接,而不是你想要关注的功能,也就是你的加速器。

更重要的是,这可能会使设计和时序闭合变得非常困难。实际上,当你使用高性能接口时,从位置和路由的角度来看,电路会被拉向连接端口。这意味着你将在加速器和各种不同的端口之间进行拉伸,因此关闭时序变得非常困难。

Speedster7t 是软件友好型硬件(20:42)

Speedster 7t FPGA 的不同之处在于,由于我们拥有这种 2D NoC,这些 NoC 接入点或 NAP 分布在 FPGA 结构中水平或垂直列相交或交叉的每一个点上,这意味着作为工程师,您所要做的就是非常简单地设计您的加速器 RTL,无论您拥有什么专业知识,只需进行 AXI 连接即可。因此,你可以创建一个 NAP 实例,然后将其连接起来。然后,Achronix 称为 ACE 的软件工具将处理加速器与不同内存端口或不同高速端口(如以太网、PCI Express 等)之间的所有路由。这一点非常重要,因为生态系统对该产品至关重要,因为会有许多不同类型的解决方案,来创建我们之前谈到的不同类型加速器的工作负载。

由于这种环境更便于工程师进行设计,这意味着生态系统将能够蓬勃发展,因为生态系统中的不同公司都有自己的专长,或可以提供某种类型的 IP,它们将能够创建端到端解决方案,其工作方式是 IP 提供商只需为其价值主张创建功能即可。它可以是加密、加速或任何类型的人工智能/移动语言应用,他们所要做的就是实例化一个 NAP,然后就可以与外部世界对话了。我们目前拥有一个相当规模的生态系统。它的发展非常迅速,我们预计它还会继续快速发展,因为对于设计人员和生态系统来说,这是一个非常容易为终端解决方案产品构建 IP 的环境。

针对计算密集型人工智能/ML 应用程序优化的 Speedster7t (22:47)

我想谈的另一件事是,Speedster 7t 设备内部有 MLP 或机器学习处理器。这些处理器在传统上被称为标准 FPGA 中的 DSP 块,但它们已针对 AI/ML 应用进行了专门优化。我不会对它们进行所有的功能描述,但我想给大家介绍一些它们的亮点。

首先,就它们在整个设备中的分布而言,在这块卡上,在这块 7t 卡上,你可以获得超过 40,000 次 INT8 MAC 运算,它们将以 750 兆赫兹的频率运行。这相当于每秒超过 80 Tera 运算的功能。另一个经常被引用的基准是 RESNET 50,在该基准中,它每秒可生成 8600 幅图像。

我确实想谈谈 GPU,因为 GPU 主要用于 AI/ML,主要是在训练领域。人工智能/移动计算所面临的挑战之一是,由于它们拥有许多不同的引擎和缓存结构,其设计在很大程度上类似于在 CPU 上的顺序执行,因此会面临内存传输或数据传输方面的挑战,而实际计算引擎实际上只使用了 10% 到 20% 的时间。

而由于 Speedster7t 采用了 GDDR6 高带宽内存,加上片上网络,再加上这些高度优化的机器学习处理器模块,我们可以为 AI/ML 实现提供高达 80% 的效率。

Craig Petrie

性能和支持(24:53)

正如早些时候在网络研讨会上提到的,我们解释说,随着 FPGA 在技术应用曲线上的发展,我们看到消费模式正在发生变化,从芯片设计到板卡,再到集成服务器平台。

适用于希望购买服务器级产品的客户。S7t 卡是 BittWare TeraBox 系列产品的一部分。在过去几年中,BittWare 的 TeraBox 系列产品赢得了越来越多的设计,收入也不断增加。FPGA卡作为预集成、预测试的戴尔或HPE系统交付给客户,其机械性能和散热性能均已确定,并提供涵盖服务器和FPGA卡的全面保修服务。

操作系统、BittWare 工具包和 Achronix ACE 设计工具均已预装,随时可用。客户只需接通电源、登录并运行诊断测试,即可确认一切正常。

TeraBox 服务器平台产品 (25:55)

TeraBox 产品系列旨在满足两类特定客户的需求:

第一种是开发人员,他们正在努力为客户的最后期限或老板的演示准备概念验证。因此,Terabox 系列产品允许客户为单个项目下单购买,并在一个包装中交付所有产品。

一旦完成概念验证阶段,我们在部署阶段遇到的下一个客户类型往往是项目经理或 IT 领导。这些客户通常并不熟悉 FPGA 技术的细节,而是非常关心应用部署和管理。他们希望了解服务水平协议、保修、技术支持、现场产品监控工具以及升级和维护计划。作为 Molex 集团的一部分,BittWare 拥有全球供应链和基础架构,可以发挥独特的优势。此外,BittWare 还是戴尔和 HPE OEM 计划的一部分。这意味着,如果客户愿意,他们可以根据现有合同直接从戴尔或 HPE 购买 TeraBox。

史蒂夫-孟瑟

可用性和定价 (27:12)

在供货方面,VectorPath S7t 板将于 2020 年第二季度开始供货,单价为 7500 美元。但在此之前,用户可以使用 Achronix ACE 设计工具开始设计 FPGA 功能。这些工具现在就可以使用。因此,人们可以开始评估软件或准备设计,以迎接该卡的上市。

摘要(27:47)

所以,请允许我做一个简单的总结,然后我们将转入提问环节。

首先,这是一个高速增长的市场。在 GPU 方面,使用加速卡的理念已经得到了验证,我们已经看到了这一理念在数据中心应用中的推动作用,显然,它在许多不同的应用领域都很有价值。

Achronix 和 BittWare 的合作令人兴奋,并能提供一些独特的功能。该卡采用Speedster7t FPGA,我们讨论了片上网络和MLP。然后,Craig 谈到了该卡上一些非常有趣的创新功能,这些功能来自 BittWare 多年来提供这种技术的经验。但归根结底,这次合作和解决方案的重点是试图提供一个完整的企业级解决方案,这是一个低风险产品,可以用于生产应用。

 

问答部分(28:43)

 

马库斯-韦德尔

好的 我是马库斯 All right.我是马库斯我只是想确保我们的小组成员能听到我说话。

[史蒂夫和克雷格确认]

我们的第一个问题是关于市场上的 HBM2 FPGA 卡:很明显,S7t 有 GDDR6,但市场上也有 HBM2。我知道 BittWare 有一些板卡,还有其他一些。S7t 能与它们相比吗?

所以,如果你能谈谈这个问题,也许史蒂夫。

Craig Petrie

那我就从这个问题开始吧。 作为一个卡片问题,这是个好问题。

我认为,S7t 卡的差异化对于我们进入市场非常重要,希望这一点能在产品网页、迄今为止我们分享的资料以及网络研讨会中体现出来。我认为,与市场上其他厂商推出的具有 HBM2 存储器的 FPGA 卡相比,我认为我们在网络研讨会上通过强调一些关键特性所展示的是,我们正在提供相当多的差异化。我们认为,这款特定的显卡具有非常均衡的架构,可以很好地适应各种工作负载类型。因此,我们试图涵盖计算、网络、存储和传感器处理实例,我们在网络研讨会上也引用了这些实例。要做到这一点,你确实需要丰富的 IO 组合。这包括时钟输入、数字触发器和扩展端口等。我认为这一点在 S7t 卡上得到了体现,而市场上的其他 HBM2 卡几乎完全没有这些功能。总之,我们可以为客户提供高度的灵活性。

不过,我们还试图强调一些其他方面,以帮助该卡与市场上的其他产品区分开来。

Achronix Speedster7t设备本身具有一些独特的功能,我们正试图在板卡和系统层面上展示这些功能。其中包括通过 QSFP 56 和 QSFP DD(双密度)网络端口的高线路速率以太网端口。当然,当这些连接到 GDDR6(带宽非常高,与 HBM2 和 NoC 的带宽相同)时,你就拥有了一个非常有趣的架构,目前市场上还没有这种架构。

明年第二季度初,我们将推出这款产品,我们认为它将领先于市场上的其他卡。为了进一步实现差异化,并最终为客户带来更多便利,我们还增加了其他一些功能,其中包括我们积累了 30 年的 BittWare 经验和 IP。这些经验和知识产权有多种形式,包括 Linux 和 Windows 驱动程序和 API 支持、内置诊断自检、源代码示例设计等。

最后,对于那些不仅希望在板卡层面使用这种技术,而且希望在服务器层面购买这种技术的客户,我们当然有TeraBox系列产品。因此,能够通过 Molex 全球供应链营销、销售和支持此类产品,是我们 BittWare 所拥有的巨大优势。希望这能回答您的问题。

马库斯-韦德尔(32:50)

谢谢,克雷格。这次我也有一个问题要问史蒂夫。问题是,软件是否提供 HLS 工具?如果没有,我们可以使用 Mentor Catapult 吗?

史蒂夫-孟瑟

是的,这是个好问题。就 OpenCL 而言,我们没有任何支持 OpenCL 的计划,但我们有支持 HLS 的计划。我们已经与 Mentor Catapult 合作,Catapult 产品确实支持我们的上一代产品系列,我们还将与 Mentor 合作,让 Catapult 支持我们的 Speedster7t 系列。这将是未来的事,届时我们会发布公告。

马库斯-韦德尔

太好了。谢谢我们还有很多问题。我只是想说明一下,只要大家愿意继续提问,我们就会一直在线。我们确实有很多机会回答一些很好的问题,请继续提问。

那么下一个问题可能还是要问史蒂夫,这种新型 FPGA 的 fMAX 是多少?

史蒂夫-孟瑟

因此,FMAX 始终是 FPGA 的一个有趣问题。FPGA 的时钟频率最高可达 750 MHz。在大多数 FPGA 中,实际 FMAX 将是时间范围的一部分。因此,这将取决于设计的复杂性、逻辑层次等。Speedster7t 在 NoC 方面有其独特之处,大大降低了在其他 FPGA 中会导致时序闭合挑战的正常拥塞。因此,它的设计取决于设计。我们有一个 2D 卷积的设计实例,它使用了 94% 的 FPGA,运行频率在 750 MHz 左右,相当于 749.1 MHz。因此,750 MHz 是最大值,但这取决于实际执行情况。

马库斯-韦德尔

好的有一个关于卡片价格的问题。我想幻灯片上已经提到了。单个 S7t 的单价是 500 美元。但克雷格-皮特里(Craig Petrie),也许你可以详细说明一下。

Craig Petrie

当然可以。我想说明一下,小批量上市价格为 7500 美元。明确一点,这是一个捆绑价格。所以这不仅仅是卡。很明显,它包含了这块卡,但是你还可以获得Achronix ACE设计工具的授权。您还将获得全面的 BittWare 工具包。其中包括 Linux 驱动程序和应用程序接口。您也可以购买 Windows 操作系统,但这是清单价格之外的额外选择。但工具包捆绑了 Linux,其中包括诊断自检、源代码示例设计、电路板管理控制器等所有好东西。因此,我们努力使购买体验非常直接。只需一份报价单、一个价格,您就能获得硬件、固件、软件、驱动程序、应用程序接口和工具,以及入门所需的一切。

对于许多客户来说,他们刚开始接触这样一种新技术,并探索产品的可能性。因此,我们希望确保所有产品都包含在一个捆绑包中。没有任何隐藏费用,也没有从其他地方购买工具或硬件的复杂性,所有这些都以一个价格提供。希望这能简化客户的体验。在批量应用方面,希望网络研讨会上能提到的一点是,对于批量应用,我们有能力定制产品。定制的程度各不相同。我们可以进行的最直接的定制之一,就是删除批量应用中不使用的组件。这样做的明显好处是,我们可以为客户降低设备成本。我们还可以降低功耗,真正为客户提供优化的解决方案。并非每个人都需要产品的所有功能。我们认识到这一点,因此制定了一项计划,为客户提供选择,尽可能降低单价。

如果需要进行更重要的定制,可能需要改变机械结构甚至印刷电路板,这也是一种选择。因此,这确实是一个非常灵活的模式,我们为客户提供了很多选择,让他们可以从一台设备证明自己的应用,一直到批量部署。我们认为,我们的 TeraBox 系列产品也将发挥作用。除了处理板卡外,我们还可以处理服务器级别的要求,为客户提供一站式服务,尽可能降低单价。7,500 美元的起价只是针对小批量客户。我们认为,一旦产量达到数百甚至数千台,我们就能大幅降低单价。

马库斯-韦德尔(38:33)

好的,谢谢,克雷格。有几个人向我提出了几个问题,我想发音应该是 C six 或 C C I X,但我觉得应该是 CCIX。史蒂夫可能是一个很好的回答者。问题是关于他们对 PCIe Gen5 的支持以及一些细节。他们是否支持 CCIX,是否计划支持用于一致性的 CXL。所以,如果你不介意的话。

史蒂夫-孟瑟

是的,问得好。该卡上特定设备的 PCI Express 不支持 CCIX 或 CXL。Achronix 的后续设备将支持 CXL。

马库斯-韦德尔

好吧这可能又是一个史蒂夫的问题。在哪里可以下载原型设计软件包?

史蒂夫-孟瑟

是的我们的方法非常简单。如果你访问 Achronix 网站,会看到一个注册表。如果你进行搜索,或者进入任何网页的底部,你都会看到上面写着 "注册"。注册后,你将启动一个程序,获得我们门户网站的登录凭证和密码。一旦你进入门户网站,下载软件和获取评估许可证的所有步骤都会在那里说明。我们通常会提供两个月左右的评估许可证。因此,这一切都在我们的网站上,供您参考。

马库斯-韦德尔(40:13)

好的。对于克雷格,就我们的板卡而言,你有任何功耗数据吗?有人提到液体冷却。这个人很想知道供电情况,以及是否需要额外的电源连接器。

Craig Petrie

好的,问得好。为了说明问题,我想数据表中有一些图片,可以在 BittWare 和 Achronix 的网页上找到。如果你想详细了解这张卡的功能,请点击这里。卡上有两个 12 伏的辅助和电源接口,与 GP GPU 上的接口类似。大多数人都熟悉 FPGA,那么你就会明白,该卡的功耗将取决于应用。如果有人运行的是低速小型设计,那么该卡的功耗可能会很低,大部分电力可以通过额定功率为 75 瓦的 PCIe 总线提供。

我们期待客户利用 Speedster 功能,将显卡推向极限,并尝试达到史蒂夫之前分享的 750 兆赫 FMAX 数据。为此,我们认为大多数客户将需要我们在显卡中设计的更高功率能力。我认为该卡的标准额定功率为 225 瓦,对于高级应用来说,这是一种典型的高功耗。

然后,你就可以在这两者之间获得一切。因此,所有电源都通过显卡上的连接器提供。我们将该卡设计为 GPU 尺寸的卡。因此,这意味着它将兼容市场上大量的 1、2 和 4U 服务器。这就是我们的优势所在。我们 BittWare 近来的经验是,客户希望在产品冷却方式上有所选择。

虽然从每瓦性能的角度来看,FPGA 非常节能,但 FPGA 的功率密度仍在不断提高。这是一款七纳米器件,因此非常节能,但性能也非常高。我们已经确保该产品的机械性能和散热性能。我们为客户提供了三种选择,以满足客户的最终需求。

标准产品将采用被动冷却散热器。因此没有嵌入式风扇,全部为被动式。根据我们的经验,许多批量部署的客户会更喜欢无源散热器,因为它没有活动部件,设计更简单。通常情况下,这些服务器平台的空气流动性很好,因此可以获得很好的 MTVF 可靠性数据。在实验室环境中进行概念验证的客户,或者只是有偏好的客户,可以使用带有主动式风扇INK 的产品。虽然图片上没有显示,但我们已经在 BittWare 产品组合中的其他高功率 FPGA 卡上成功部署了主动式散热风扇。这也将充分冷却板卡。

最近,我们又开始尝试液冷技术。这里说的不是浸入式液冷,而是将水或液体导入板卡,然后再导出的液冷。对于 FPGA 卡来说,这是一个相对较新的领域。目前,市场上还没有其他厂商的此类液冷卡。幸运的是,下周就是丹佛超级计算大会了。我相信电话会议上的很多人都会去那里看看发生了什么。在 BittWare 和 Achronix 的展台上,我们展示了 S7t 卡的机械样品,该卡采用了加拿大 Cool IT 公司的液冷冷板技术。Cool IT是液体冷却领域的市场领导者,戴尔、HPE和其他机架技术都采用了他们的设计,如今他们已被用于冷却高功率GPU卡。我们正在利用他们的技术,并将展示样品。对于偏好液体冷却的客户来说,这将是一个非常不错的选择。我们正在努力为客户提供选择,希望这能满足我们在市场上看到的所有要求。

马库斯-韦德尔(45:40)

谢谢,克雷格。有几位听众的音频出现了问题。我试着检查了一下我的声音没有中断,你呢?史蒂夫,你能听到克雷格吗?

史蒂夫-孟瑟

我可以很不错

马库斯-韦德尔

好吧,不幸的是,这可能是个别连接。让我看看有几处和制冷有点关系好吧,我读这个。这是关于功能加速的。你能详细说明函数加速的过程吗?是必须使用 RTL 还是支持 Python 等高级工具?另外,如果你能详细说明前面幻灯片中使用的 ResNET 的实现,这将是机器学习的一个很好的例子。我想还有一个问题是关于是否支持 OpenCL 的。我忘了我们在讨论 HLS 时是否回答了这个问题,但如果你能对所有问题做一个总结的话。

史蒂夫-孟瑟

好吧 - Yeah.我们从 OpenCL 开始我们从 OpenCL 开始。Achronix没有任何计划直接或与生态系统合作伙伴合作支持OpenCL。它似乎不像其他解决方案那样受欢迎。我们正在开发HLS解决方案,但目前尚未公布。我们希望在今年某个时候与合作伙伴公司一起公布一些细节。在人工智能方面,例如关于 ResNET50 的问题,有多种方法可以解决这些问题。我们所做的基本上是提供,你知道,很明显,要么是在 RTL 层面上,要么是我们有库,低层次的库,最终可以在网络层面上工作。我们提供这些库,并将与支持不同人工智能网络实现的公司发布各种不同的公告。

就 ResNET50 的数字而言,我们现在所拥有的 Speedster7t.1500 最大值约为每秒 8600 帧,我认为这是半导体领域最大的数字之一,而不仅仅是 FPGA。现在,该设计实现尚未发布。它将在今年晚些时候或明年早些时候发布,届时人们可以根据自己的目的使用它。此外,还会有其他的实现方案,例如 YOLOv2,正如我所说,这些方案将在稍后公布。

马库斯-韦德尔(48:25)

好的。这个问题是关于内核旁路的。是否会有用于 Hostess CPU 与 FPGA 通信的驱动程序?我想这个问题应该由克雷格来回答。

Craig Petrie

是的。驱动程序最初不支持内核旁路。我们正在考虑这个问题。我们已经从客户那里得到了很好的反馈,他们希望看到更多的功能得到支持。其中有些是硬件功能,有些是固件、软件类型的功能。Speedster 设备是一个全新的架构。就客户如何在其中移动数据而言,这是一种飞跃。因此,我们正在与这一领域的一些专门从事网络 IP 的合作伙伴洽谈,以了解我们还能为客户提供哪些服务,从而获得最高性能。考虑到这是一项全新的技术,我们的重点是按时交付标准产品,并提供客户期望的主要功能,然后再考虑逐步升级和改进。

因此,我欢迎并鼓励每一个有意见或有要求的人,如果他们认为自己的意见或要求没有得到满足,请将意见或要求反馈给我们,让我们在今后的计划中考虑到这一要求。

马库斯-韦德尔(49:53)

好的我们还有一些问题要问。我们正在抓紧时间回答所有问题。如果谁还有问题没有提出来,请提出来。在大家陆续离开的时候,我想说的是,我们会在网络研讨会结束后给大家发几份资料,其中一份是关于我即将向史蒂夫提出的这个问题的,但它是关于延迟的。因此,实际上已经有一篇关于延迟的文章,我想把它发给大家,这会有所帮助。不管怎样,我现在就提问。

我们正在寻找用于 HFT(高频交易)的 FPGA 卡。你们的卡是否带有网络 IP 核,如 Mac、ADP、TCP IP 核?与 UltraScale、speed grade 3 等竞争对手相比,延迟时间如何?

还有一个问题,我想也是这个意思,但答案应该是两个都是。

史蒂夫-孟瑟

当然,好的。首先,在芯片级,以太网的各种不同形式的 Mac 均已加固。如果你想在此基础上使用 TCP IP,那就是软 IP。有很多第三方公司都提供这种生态系统,它们都是 Achronix 的合作伙伴。如果您联系 Achronix,我们可以帮您联系其中一家公司,在这方面提供帮助。关于延迟,我们有一份数据表。标题是 "最大限度减少 Speedster7t 和 Speedcore FPGA 产品的延迟"。数据表中还进行了计算。显然,这些计算主要针对 10 千兆位以太网,无论您是在 16 位接口还是 32 位接口上运行,它都会详细说明。

在 16 位模式下,Speedster7t 的延迟时间超过 20 纳秒。未来的设备将有一个额外的 SerDes 结构,一些额外的短程 SerDes,这些实现将提供 16 位接口。它的运行时间将在 11 1/2 纳秒左右。因此,速度将大幅下降。但这些将在未来的 Speedster7t 设备上实现。

 

马库斯-韦德尔

好吧在之前的一个问题中,可能已经涉及到这个问题,但我认为这个问题更多的是在卡片层面。

获取用户指南、架构文件和试用工具的流程是什么?很明显,Achronix 有用于芯片的工具,但在板卡层面,Craig,你能否谈谈开发者网站之类的东西?

 

Craig Petrie

当然可以。因此,我们为客户提供了相当详细的硬件信息。这些信息有多种形式,我认为目前在产品网页上就有很好的信息。如果您访问 BittWare,Speedster7t 设备会出现在主横幅上,您可以点击下载数据表,其中提供了一些很好的细节。

我们有一个BittWare产品的开发者网站。因此,正在考虑购买产品或已经购买产品的客户可以访问开发人员网站,您可以从那里下载更详细的产品信息,以便您决定是否继续购买,或者如果您正在开发中,则可以解决您正在尝试解决的问题。

我们可以提供信息,请您与我们联系,告诉我们您需要哪些信息。我很乐意提供这些信息。

马库斯-韦德尔(53:44)

好吧这个问题是问史蒂夫的,我想是关于芯片的。特别是,我们的安全功能如何在卡上处理?

史蒂夫-孟瑟

我认为问题与比特流安全有关,还有数据安全,如 MACsec、IPsec。尽管我们会考虑在未来的设备中加强数据安全,但我们目前还没有加强数据安全的产品。比特流安全;比特流安全有一系列不同的安全措施,我们认为在认证方面等同于或优于同类最佳措施。这是一种验证认证、物理验证、[ ]功能。我们有一份相关文件。我相信是用户指南。你可以联系 Achronix,我们会给你详细介绍。但我会详细解释 FPGA 中的所有安全措施。

马库斯-韦德尔

说得好。我考虑的是芯片内部的安全性,但也考虑了安全应用。所以,我很感谢你的回答。另一个问题,史蒂夫,关于芯片--以太网 FEC 模式,哪些是硬 IP 支持的?

史蒂夫-孟瑟

这个问题问得好,我应该知道答案。这是有记录的。在我们的文档中,我现在还不知道。

马库斯-韦德尔

是的,这很公平。我们可以把问题反馈给提问者。显然,文档里也有。让我们看看,问题是关于片上存储器,即单片存储器。那么,使用 300 多兆比特的内部存储器,可以在内部配置的最大单片存储器容量是多少?我不确定这个数字是否准确,但如果你能回答这个问题,史蒂夫。

史蒂夫-孟瑟

是的,我想我们所说的是 Speedster 7t 系列,所以 Achronix 网站上有一个设备系列。这款设备的型号为 7t 1500,拥有 190 兆位的 BRAM 和 LRAM 内存。BRAM 的配置为 72 Kbits,而 LRAM 对于注册文件类型的功能来说要小得多。每个存储器为 2 Kbits。

马库斯-韦德尔

是的,说得好。对不起。我想的是现有的卡和卡上的内容,但接下来还会有其他设备。抱歉,我只是在查看问题,确保我抓住了之前的问题。有一个关于 TensorFlow 和其他几个 ML 框架的问题。我猜你已经回答过了。

 

史蒂夫-孟瑟

我认为这些都很好。这是 Speedster 7t 设备的重点功能之一。所以,如果大家想了解更多细节,我建议直接联系 Achronix。还有很多不同的,你知道的,TensorFlow Cafe 和其他各种不同的网络应用类型。因此,我建议您联系 Achronix,我们可以了解您的需求,并告诉您我们将如何满足您的需求。

 

马库斯-韦德尔(57:27)

好的我们至少还有几个问题要问,但已经接近尾声了。所以,如果有人有任何问题,我们正在接近这里没有任何更多的去。所以,请尽快提问。克雷格-皮特里在不久的将来,我们有计划推出低调的卡片吗?

 

Craig Petrie

是的,问得好。我们从 GPU 类设备入手,并在其中加入了大量内容。我们确实认识到了对其他外形尺寸的需求。半高半长当然很受欢迎,尤其是在智能网卡类型的应用中。是的,我们正在关注这个问题,目前我们的产品组合中确实有其他半高半长的板卡。因此,我们有能力提供这些产品。

我们真正想知道的是下一步要开发哪种产品。我们收到了许多关于不同功能的请求,Achronix 已经公开发布了四款不同尺寸、不同功能的 Speedster7t 设备。还有一些尚未公开的产品。

所以,是的,我们正在研究这个问题。同样,我们也希望听到一些反馈意见,了解所需的要求细节。因此,根据不同的使用情况,您可能需要我们 GPU 类全卡的一个子集。有些客户并不在意应用中的外部存储器。有些人喜欢使用 SRAM 而不是 DDR6。

因此,现在是向我们提供反馈的最佳时机,帮助我们做出正确的决定,确保满足您的要求。请与我们联系。

 

马库斯-韦德尔(59:27)

好的。我们再来看几个,其中一个是竞争对手对比。你知道我们有多想详细讨论这个问题,但我当然可以在这里提出来。与赛灵思的下一代设备 Versal 芯片相比,S7t 有什么优势?克雷格和史蒂夫,你们对此有什么看法?

 

史蒂夫-孟瑟

对,这对我们俩来说都是个好问题,因为有芯片级和电路板级的答案。让我来谈谈芯片层面。Versal 是一种异构架构,试图通过向量引擎解决人工智能问题。它有四个主要结构:高速 IO、FPGA 结构、矢量引擎和 CPU 综合体。

这很有趣。他们必须证明如何以可用的系统开发格式在这些不同的结构中移动数据,以最终解决不同类型的应用问题。另一方面,Speedster7t 有几个方面。它更像是一种传统的 FPGA 架构,人工智能功能在 FPGA 结构中通过我之前谈到的 MLP 块来实现,这些 MLP 块在 FPGA 中提供了非常高的人工智能性能,因此数据基本上无需格式化,然后再移动到设备的不同部分。- 第一种。第二个是我谈到的 2D NoC。这是一个非常引人入胜的架构特性,人们将不再像过去那样设计大量的电路,即连接性,如何与以太网连接,如何与存储器接口连接等。取而代之的是使用标准 AXI 接口,这些 NoC 接入点分布在整个设备中。在这一点上,2D NoC 可以解决一切问题。因此,它能带来更高的性能,因为你不会面临逻辑拥塞和时序闭合的挑战。最终,它还节省了大量宝贵的 FPGA 资源,因此你可以获得比传统 FPGA 密度高得多的 FPGA。

马库斯-韦德尔

然后,克雷格,你也谈谈你的看法。

Craig Petrie

是的。所以,我想自然会有与其他 FPGA 供应商的比较。英特尔有Agilex。它更像是传统类型的 FPGA,没有 NoC 等功能。它在很多方面都很像 Stratix10。就赛灵思而言,他们已经发布了 Versal 芯片,它确实有一个 NoC,史蒂夫提到了 Speedster 设备的一些功能,你可以与之进行比较。而在板卡层面,可供客户直接比较的信息其实很少。如果你看看英特尔的 Agilex,我认为 Agilex 将有一个开发工具包。我们认为,这是一种实验室环境类型的板卡,在工作台上使用,上面有很多不同的连接器,当然不是用于部署的企业级产品。赛灵思稍后可能会推出这种产品。

他们已经宣布,而且电话会议上的一些人可能已经参加了本周在圣何塞和欧洲举行的 XDF 活动,Versal 在板卡级别上可用。但同样,这只是一个开发套件。因此,它在很大程度上只适用于在实验室进行 PoC 的小批量应用。当然,我们的这块卡绝对可以用于实验室演示和概念验证。但这张卡是从零开始设计的,可以随时部署。因此,它是一款企业级板卡,在小批量和大批量生产时都具有很高的性价比,而且我们在设计时确保了它具有非常高的质量和可靠性。因此,在 Achronix 和 BittWare 的营销信息中,我们将该卡定位为企业级产品,随着时间的推移,将会出现一些竞争。但我们认为,Speedster 7t设备、ACE工具和板卡级以及服务器级的功能,将为客户提供非常出色的性能和很大的灵活性,使板卡可用于不同的应用类型。

马库斯-韦德尔(1:04:27)

谢谢还有下周的一个小插曲。如果有人参加超级计算机展,我们将展示 S7t 板。显然,这只是一块展示板,但请务必光临 Achronix 或 BittWare/Molex 展位。

让我想想,我们有一个问题。我想我应该把这两个问题一起问克雷格。一个是关于 JTAG,一个是关于电路板原理图。问题 1.电路板是否已经有用于编程和调试的 JTAG 适配器,使用 JTAG USB 加载位流的上传过程需要多长时间。然后是问题 2. 板卡是否附带参考原理图?

Craig Petrie

好吧,也许我可以从斯蒂夫开始,从卡片层面开始,你可以跳进来。这是个好问题。JTAG 访问和调试技术含量不高,对吧?虽然不是超高速,但它对用户体验以及如何访问某些板卡功能至关重要。

这就是 BittWare 的 BMC(板管理控制器)的所有优势所在。因此,我们在板卡中内置了 JTAG 访问功能,只需通过 USB 电缆将 USB 电缆插入板卡,就可以访问 BMC,从而访问 JTAG,同时还可以访问 FPGA UART。

因此,通过这种功能,您可以为 FPGA 的位流和可执行文件编程。大多数客户可能更愿意通过主机应用程序接口和驱动程序进行编程。因此,你可以通过 PCIe 总线从软件上对板卡进行编程。但如果使用 JTAG 电缆编程,也是一种选择。通过 BMC、PCIe 主机和 JTAG 适配器,还可以读回板卡参数、功率、电压、电流和其他各种参数。

因此,所有这些都是内置的,希望能在应用程序开发和应用程序运行监控期间为客户提供良好的用户体验。史蒂夫,我不知道你是否有什么要补充的。

史蒂夫-孟瑟

不,这是一个完美的描述。

马库斯-韦德尔

好的我想问一个后续问题。除了 USB 转 JTAG 和 FPGA UART,BMC 还提供哪些其他功能?我想这个问题已经得到了一些回答,但如果你想详细说明一下,Craig,那就再好不过了。

Craig Petrie

是的,我刚意识到我没有完全回答上一个问题。有一个问题是说是否会提供原理图。所以,原理图不是产品的默认交付内容。 只有在特定情况下,客户才会需要原理图信息。我们提供的硬件参考指南中有很多细节,希望能提供客户开发比特流所需的全部信息。

如果客户出于某种原因需要获得原理图信息,可能有人正在使用数字输入输出头或扩展端口,并希望进一步了解板卡的工作原理,那也没有问题。我们在保密协议下共享原理图信息。这是 BittWare 所拥有的知识产权,因此我们要确保谨慎控制。因此,有问题的客户一定会得到解答。这可能包括共享一些原理图片段,以确保他们获得所需的全部信息。

至于另一个关于 BMC 的问题,是的,我想可能大部分都涉及到了。我们的网站上确实有很多很好的信息,详细介绍了 BMC 及其工作原理,包括示例。我想我们要做的是(马库斯正在采取行动),作为网络研讨会摘要的一部分,我们将提供网站上的链接,以获取相关信息。

马库斯-韦德尔

好吧是的,听起来不错。我认为,我们已经进行了大量的问答,我对此表示感谢。在电话中的每一个人,我们都在这里等着你们。如果您有更多问题,请发送给我们。当然,最好的方式是访问我们各自的网站,achronix.com 和 bittware.com

我们希望听到更多的问题,一对一地交流,安排一些时间聊天。那就太好了。除此之外,希望这次网络研讨会能让你们对这款新卡有所了解。正如我所说,我们将参加下周的 SC19 展会。请参观我们的展台,我们可以进一步交流。

再次感谢各位专家的参与。感谢大家在电话中做了大量的问答,希望对大家有所帮助。更多此类网络研讨会将陆续举行,请访问我们各自的网站,并保持联系,谢谢大家。

了解有关 VectorPath S7t-VG6 图形卡的更多信息