パネルディスカッション

COTSの視点からのデータ収集と記録

以下より無料で録画をご覧いただけます!

200Gb/秒以上のデータ・キャプチャと記録をハードウェアで実現したいというニーズが高まっている。多くの選択肢はプロプライエタリに傾きがちだが、商用オフザシェルフ(COTS)コンポーネントを使う方法はあるのだろうか?IPプロバイダーのAtomic Rules、COTS FPGAカード・プロバイダのBittWare 、システム・プロバイダのOne Stop Systemsとともに、その選択肢を探る。

スピーカー

チャド・ハミルトンのポートレート
ハミルトン| 製品担当副社長、 BittWare
シェップ・シーゲル 写真
シェパード・シーゲル| アトミック・ルールズCTO
ジム・アイソンのポートレート
ジム・アイソン| ワンストップ・システムズ最高製品責任者

ブライアン

本日はありがとうございます。ブライアン・デルーカです。ニコレット・エミノと一緒に、本日のライブ・チャット「COTSの視点からのデータ・キャプチャーと記録」のホストを務めます。スポンサーはマウザー・エレクトロニクスとBittWare 。

素晴らしいパネリストが揃っています。ライブチャットなので、画面下のQ&Aで質問してくださいね。それでは、ニコレットにお願いします。

ニコレット

こんにちは、ブライアンが言ったように、COTSの視点からのデータキャプチャーと記録に関するパネルディスカッションにようこそ。本日は、BittWare の製品担当副社長であるチャド・ハミルトン氏、Atomic RulesのCTOであるシェップ・シーゲル氏、そしてOne Stop Systemsの最高製品責任者であるジム・アイソン氏をお迎えし、ディスカッションを行います。

具体的な質問に入る前に、パネリストの皆さんに自己紹介と会社紹介をしていただこう。

では、チャドさん、始めましょうか。御社のコアとなる専門知識、特にCOTSとデータ・キャプチャ・ソリューションとの関係について、それぞれ簡単に説明してください。

チャド

お招きいただきありがとうございます。チャド・ハミルトン(Chad Hamilton)-入社して16年近くになります。BittWare 、実際には34年ほどの歴史があります。インテル、AMD、AchronixといったハイエンドFPGA企業の製品を使って、コンピュート、ネットワーク、ストレージ、センサー処理分野でエンタープライズクラスのFPGAハードウェア・アクセラレータを提供しています。

当社は市場最大級、あるいは最大級のCOTS FPGAポートフォリオを有しており、お客様は迅速かつコスト効率よくアプリケーションを開発・展開することができます。COTSが顧客のソリューションにならない場合、可能な限りカスタマイズします。ビジネスとして合理的であれば、既存製品のちょっとした改良からフルカスタム・ソリューションまで、何でもお受けします。ただ、繰り返しになりますが、すべての関係者にとって納得のいくものでなければなりません。

また、TeraBox認定サーバーのラインナップもあり、ワンストップなどのパートナーとともに、完全に統合されたサーバーとカードのソリューションを提供することができます。

そして最後に、私たちは......今、世界中の誰もがAIや機械学習について話していると思います。そこで、データセンターからエッジまでをカバーするために、FPGAやASICベースの企業と提携を始めました。

ニコレット

素晴らしい!シェップ、あなたは?

シェップ

シェップ・シーゲルです。アトミック・ルールズ社のCTO兼創業者です。アトミック・ルールズを始めたのは2008年で、当初は基本的に私一人のサービス・ショップでした。長年にわたり、本当に優秀なエンジニアを12人ほど迎え入れ、2012年か2013年ごろには、IP設計サービスだけでなく、IPコアの製造も始めました。そして結果的に、コアの製造というビジネスが、今日TK242について話しているようなCOTSやターンキー・ソリューションにつながることになりました(詳細は後述します)。

アトミック・ルールズDNAは複雑な並行処理に取り組んでいる。私たちは、多くの可動部分を持つ難しいRTLの問題を解決しています。複雑な同時実行をうまく処理するために、私たちは特定のツールや言語を持っています。当社の卓越した製品、Arkville は、ホスト・メモリとFPGA、あるいはFPGAとホスト間のデータ移動のためのDMAで、Gen 5 x16 PCIなどの最新規格において、現在最高性能のDMAエンジンです...毎秒60ギガバイトです。これが私たちの名刺代わりです。

ほとんどの人はAtomic Rulesを同社のIPコアで知っており、具体的にはArkville ...当社ブランドのDMAです。しかし、今日の通話でお話しするように、我々はCOTS分野で新しいことに挑戦しています。COTSについて質問されましたが、私たちはパケットキャプチャに便利なIPの大ヒット商品をいくつか作りました。この通話では、そのことについてもっと詳しくお話できればと思います。

ニコレット

ジムはどうだ?

ジム

そう、ワンストップ・システムズの最高製品責任者、ジム・アイソンだ。ワンストップは25年の歴史があります。私はそのうちの19年間ここにいて、エッジに向かう堅牢なシステムの良い変化を見てきました。GPUやFPGAカード、NVMEドライブなど、アマゾンのクラウドやデスクトップ・ワークステーションで使い慣れたものばかりです。

しかし、私たちはそれをエッジの堅牢化されたシステムに導入することができます。私たちはPCI Expressのエキスパートでもあり、たとえば5スロットのサーバーを16、32、128スロットまで拡張することができます。

ニコレット

それぞれの会社が何をしているのか、時間を割いて説明してくれてありがとう。では、最初から始めましょう。どなたか......おそらくほとんどの方がこの答えをご存知だとは思いますが......どなたか、データ・キャプチャとレコーディング・テクノロジーの文脈における商用オフ・ザ・シェルフ(またはCOTS)の意味を簡単に説明していただけますか?また、カスタムメイドのソリューションとどう違うのでしょうか?どなたか教えてください。チャド?

(ジム)チャド、ミュートになっているよ。

(チャド)すみません。私は "なぜそれを受け取らないのか "と言ったんだ。

(ニコレット)誰と言ったけど、本当はチャド、君のことだよ。(笑)

(ブライアン)そうだね。

チャド

つまり、市販の製品というのは、PCIeのような標準的で確立されたフォーム・ファクタを持つ、一般消費者向けの既製品のようなものです。しかし、過去にはU.2、VPX、Compact PCIもありました。つまり、さまざまな規格やフォーム・ファクターがあり、人々はこれらの製品を棚から買ってきてシステムに接続すれば、すぐに導入できることを知っているのです。

フルカスタム・ソリューションの場合、BittWare 、異なるフォーマットのカードが欲しいと言われるかもしれませんし、同じ標準的なフォームファクターがないかもしれません。その場合、その顧客1人分のカードを開発することになるので、投資コストが高くなります。しかし、先ほど申し上げたように、ビジネス・ケースが理にかなっているのであれば、それでも構いません。

データ・キャプチャーと録画の観点から、私たちが開発しているこれらのカード(現在市場で最も普及しているカードなので、ここではPCIeにしましょう)にはI/Oを追加します。例えば、イーサネットです。これらのカードで400ギガビット・イーサネットを実現できます。例えば、標準的なQSFPコネクタです。PCIe Gen 5 x16はCOTSフォームファクターです。これにより、Atomic Rulesのような企業は、市場で容易に入手可能なプラットフォームに設計を実装することができます。そして、この種のソリューションに必要な秘密のソースをそこに入れることができる。

ブライアン

では、COTSコンポーネントの利用可能性は、新しいデータ収集・記録ソリューションの技術革新と市場投入までの時間にどのような影響を与えているのだろうか。

(シェップ)私、私、私!

(ブライアン)オーケー、どうぞ!(シェップ、全部やるよ。

シェップ

そうだね。COTSについてチャドが言ったことに同意するよ。

しかし、COTSはハードウェアやエッジ、システム、重厚な鉄だけではありません。ソフトウエアのことでもある。私にとってCOTSとは、作る代わりに購入し、長い開発の道のりを歩む代わりに素早くプロトタイプを手に入れることを意味する。

アトミック・ルールズがIPコア、DMAエンジン、パケット処理などの歴史を持っていることは前述した。数年前、私たちはパケット・キャプチャーの必要性が高まっていることを耳にし始めました。パケット・キャプチャーを行うには、市販のASICベースのNICでは限界があることが分かっていました。

そして、複数の顧客から、"Atomic RulesのコアとOSSのディスクドライブやBittWare のボードを組み合わせてソリューションを作れないか?"という声を聞くようになった。

FPGAの専門家としての能力、システム・レベルの専門家としての能力......ソフトウェアを書く能力......。イーサネット・パケットをキャプチャする必要性の鼓動があまりにも大きくなったので、私たちはこう言った。なぜ、本質的に投げやりなサンプルを作るのではなく(通常、IPコアと一緒に提供し、人々をスタートさせる)、ターンキーのサンプルを作らないのだろうか?これからお話しする「TK」と「TK242」はターンキーの略です。

ターンキー、COTSのような......おそらく人によって違うものだろうが、このアイデアはCOTSボード(BittWare などの会社から市販されているFPGAボード)、システム(OSSなどの会社から発売されているメタルエッジPCIシステム)、そして最も重要なこと(当社の観点から)である当社のIPを採用することで、一連のソフトウェアを作成することができる:このビットストリームは、BittWare が製造する COTS ボードを、パケット・キャプチャの最も基本的な問題を解決できるパケット・キャプチャ・ソリューションに変えます。

ブライアンのみんなからあまり時間を奪うことなく、もう少しだけ話して行ってもいいかな?

(ブライアン)ははは、そうだね、もちろん、もう少し時間をかけてね!

(シェップ)もう少し先に進みたいと思います。先ほど、商用のNICではできないことをやりたいと言いました。というのも、1000ドルのNICを既製品で買って、イーサネットにつないでソフトウェアを書けば、それで終わりなのであれば、FPGAは何を追加するのでしょうか?FPGAは何を追加するのだろうか?そこで何をしているのか?

(ブライアン)そうだね。

(シェップ)私たちが受けていたリクエストは、商用のNICがパケットを落とすことなく完璧にキャプチャできるラインレート(イーサネットの速度)を超えていました。そしてほとんどの場合(例外はある)、人々はパケットを落とすことができない。パケットを落とすということは、財布からお金が漏れるか、テストに落ちるようなものです。

スウィート・スポットを見つけようとするベン図で、またもや判明した、スウィート・スポットは、60バイトの小さなパケットであろうと9キロバイトのジャンボ・パケットであろうと、どのようなパケット・サイズでも100ギガビットの会話の両側を記録することであり、毎秒100ギガビットの双方向通信の最悪のシナリオ(毎秒約200ギガビット)を記録することである。

IntelやNVIDIA Mellanoxの既製品のNICでは無理です。パケットサイズが小さくなるとパケットをドロップします。パケットサイズが小さくなると、パケットをドロップしてしまいます。それはできません。

しかし、当社のDMAエンジンとPCAPハードウェアを搭載したFPGAアプリケーションなら、それらを組み合わせることができる。ですから、私たちはそれを組み合わせました。

200Gbpsに拍車をかけたもう一つの理由、そして200Gbpsが魔法のようなものである理由は、1年半前には第5世代PCIがなかったからです。第5世代は開発中だった。スペックは書かれていましたが、存在しなかったのです。ですから、25ギガバイト/秒や200ギガビットという数字は、18ヶ月前のGen 4 x16 PCIにはぴったりだったのです。この数字は、1年半前のGen 4 x16PCIにぴったりだったのです。

このようなことは簡単ではないことを認識し、私たちはそれに取り組まなければなりませんでした。私たちは1年半前、この200ギガビットのソリューションを目指していました。それがすべてであり、最終的なものだからというわけではありませんが、私たちが耳にした多くの顧客をカバーするものだったからです。

はっきり言って、"200ギガビットは必要ない "と言ってくる人もいます。もしかしたら、それ以下の帯域幅で録画しているかもしれませんし、この場合、予備帯域幅があることは悪いことではありません。

私たちにとってCOTSとは、FPGAの専門家、ソフトウェア・エンジニアリングの専門家、ディスク・システムの専門家、そしてハードウェアの専門家を必要としていたIPモデルを、アトミック・ルールズがひっくり返すことができるということです。それをひっくり返して、「知っているかい?Atomic Rulesはパケット・キャプチャの問題に対するターンキー・ソリューションと呼んでいます。エンジニアリングを行い、ビットストリームをBittWare カードにロードし、何でもできるFPGAカードから非常に特殊なパケット・キャプチャ・ソリューションへと性格を変えます。

BittWare 、OSSから入手したボードを持参し、ディスクシステムを持参し、あるいはどこにピースを持ち込んでもいい。私たちはそれをとても楽しんでいます。

チャド

ここで、COTSのタイムトゥマーケットという側面についても触れておきたいと思います。先ほど申し上げたように、私たちは特定のベンダーの最新かつ最高のFPGAテクノロジーを採用しています。BittWare 、エンジニアリング・シリコンと呼ばれるものが利用可能になる前に、これらのカードを設計することで、大きなスタートを切ることができます。そのため、アトミック・ルールのような顧客やパートナーにアーリー・アクセス・ユニットと呼ばれるカードを提供することができます。

そのため、IPを最適化するために、複雑な設計を繰り返し、テストし、シミュレーションする必要があります。量産用シリコンの準備が整えば、BittWare 、量産用シリコンをカードに搭載することができます。

ニコレット

そして、それこそが、あなたが適応している方法なのです。つまり、FPGAがより複雑になっていく中で、これらのコンポーネントを使用するアプリケーションの市場投入までの時間を短縮するために、BittWare 。チャド、あなたはその一端に取り組んでいると思います。

チャド

ええ、それだけではありません。もうひとつは、私たちには30年以上、34年以上にわたって蓄積された豊富な知識があるということです。

この手のカードで意外と難しいのがPCIeの設計なんだ。以前はもっと簡単だったのですが、現在ではPCBを横断する信号速度や電力要件が厳しくなっているため、PCIeフォーム・ファクタ・カード(カードの幅が制限されているため、スロットに差し込んで、基本的にオーバーヒートしない)を作るのは非常に難しいのです。私たちはこれらのカードにすべての知識を組み込んでいます。BMCがあり、カードの健康状態を監視し、必要なときにシャットダウンします。

しかし、最近のカードのデザインには、我々がカードに搭載しているスピードやフィードの複雑さがある。

ブライアン

ではチャド、なぜBittWare 、TK242のようなソリューションを提供するために、アトミック・ルールズやワンストップ・システムズのような会社と提携するのでしょうか?

チャド

確かに、一番簡単な答えは、難しいということですね。(笑)先ほどシェップが、これらのカードのIPを開発するために必要な専門知識は、実際のハードウェアそのものを開発するのとは異なると言っていたと思います。

もちろん、より多くのリソースに投資し、独自のソリューションを開発することもできるが、適切なターゲットに頻繁に当たるようにしなければならない。

そこで、Atomic RulesのようなIPベンダーと提携することで、(他にもいくつかありますが、当社のウェブサイトをご覧ください)市場でベスト・イン・クラスのIPを選び出し、それらのチームと提携し、基本的には当社のベスト・イン・クラスのハードウェア製品にソリューションを搭載するよう依頼しています。

そして、ワンストップと協力して、最終的な用途が何であれ、カスタマイズ可能なシステムを手に入れることができる。空白のFPGAカードを誰かに渡して、彼らが自分ですべてを設計しなければならないのとは対照的に、私たちは今、ソリューションとしてシステム全体を提供することができます。

ジム

カスタマイズされたものではなく、既製品のコンフィギュレーションが可能なものだろう。

(チャド)うん、その方がいい言葉だね。

(ジム)私たちにとって、コンフィギュレーション可能な既製品は、サーバー、拡張、そしてBittWare 、Atomic Rulesのような適切なソフトウェアを選択し、そのソリューションを実現するための大きな要素です。

(ブライアン)質問が来ているので、もう少し話が進むまで回答は控えさせていただきます。

ニコレット

具体的には、ジム、君のためだ!(TK242について話しているのですが、TK242の概要と、その「プログラミング不要」という特徴、そしてCOTSソリューションの文脈でそれがユーザーにどのようなメリットをもたらすかについて教えていただけますか?

シェップ

ありがとう、ニコレット!飛びつきたいよ!長くなりすぎたら、事実上、いろいろ投げつけてね。

(ニコレット)画面は壊したくないけどね、シェップ!(笑)

チャド

シェップに行く前にひとつだけ、これは私たちが御社のような企業と提携する理由のひとつなのですが、御社はこのIPの開発に数え切れないほどの日数、数カ月、数年を費やしていますよね?

シェップ

そうだね。

 それでは、ブロック・ダイアグラムをお見せします。その前に、TK242 について少しお話します。ちなみに「TK」とは、先ほども言ったように「ターンキー」の略です。242という数字のマジックは、100ギガのパスが2つあるということです。先ほど述べたように、この製品はGen 4 x16向けにチューニングされているため、200ギガビットという数字には4が欲しかったのです。(笑)。

ターンキー」とは、FPGAプログラミングを必要としないことです。これは、ボード上で動作するビットストリームを完全に提供するもので、FPGAベンダーのツールについて話す必要はありません。

もちろん、CやC++、PythonのAPIを使うこともできますが、私たちはオープンソース・コードとして、TK242のための完全なLinuxサービスを提供しています。このサービスをインストールすれば、文字通り、システムの電源を入れるだけで、最大200Gbpsでキャプチャされたすべてのパケットが、ホスト上の.PCAPファイルの無限のバッファに永遠に保存されます。これ以上簡単なことはない。

何が起こっているのか理解するために、少し潜入してみよう。TK242はBittWare 。どこかで写真をお見せしたい。これは半分の高さと半分の長さのボードです。特にこのボードをターゲットにしているわけではありませんが、Mouserの既製品であるため、このカードのコストパフォーマンスの高さには本当に驚かされます。もしTK242を試してみたい、明日から使ってみたいという人がいたら、箱を選び、カードを手に入れ、インストール・パッケージをダウンロードする。

パケット・キャプチャのノウハウはどうなっているんだろう?商用のNICではできないようなことをどうやってやっているのか、お話ししました。それらについて少しお話ししましょう。

つまり、100ギガビットのアクイジション・チャンネルが2つ並列しているわけです。QSFP-DDケーブル上にあるので、例えば100GBASE CR4を使用している場合、スプリットアウト・ケーブルでそれを分割することになる。DACケーブルでもアクティブ光ケーブルでも問題ありません。

TK242のデータ・パス全体は、毎秒3億パケット、200ギガビットに対応しています。ですから、先ほど申し上げたように、TK242はある意味でIPのAtomic Rulesのベストヒットのようなものです。

私たちのTimeServoシステム・タイマーはナノ秒分解能の時間を持ち、それを最大にフィードする。到着するすべてのパケット(L2パケット)は、ナノ秒の分解能でスタンプされる。パケットが到着すると、それらを1つのストリームに整列させ、単調増加の到着順序になるようにする。

ここではそれについては触れないことにする(しかし、人々が望むのであれば、触れることもできる)。ディープVXLAN RSSパケットプロセッサーがあり、64,000エントリーのフローテーブルがあり、(望めば)毎秒200ギガビットのマージストリームを4つの異なるストリームに分割することができる。例えば、特定のパケットをフィルタリングし、特定のパケットを異なるPCAPファイルに送信したいとします。しかし(この作業を行った後にわかったことだが)、私たちのユーザーの大多数は、本当にPCAPファイルをたくさんではなく、1つか2つ欲しがっていることがわかった。しかし、ハードウェアは一度に4つのPCAPファイルを実行するようにプロビジョニングされており、もしあなたが毎秒200ギガビットまたは毎秒3億パケットすべてを1つのPCAPファイルに送りたいのであれば、私たちはそうします(そして、パケットサイズに関係なく、いかなるパケットもドロップしません)。

これがP2PCAPエンジンで、基本的に業界標準のバイトトゥルーPCAPファイルをハードウェアで作成するため、ホストCPU(Linuxプロセッサ)は実際のデータに一切触れることがありません。そこから、Arkville DMAエンジンとホスト・メモリに送られ、後続のNVMeストレージ・システムがディスクへの書き込み(実際はホスト・メモリからの読み込み)を行うバウンスとなり、これらすべてが最大200ギガビット/秒の速度で滞りなく行われます。

それがストーリーであり、そこに至るまでには明らかに多くのダンスがある。

ジムとチャドとは、どのようなストレージシステムが誰にとって適切かについて、もう少し別の話をすることになるだろう。このOdysseyで学んだことのひとつは、例えば1年経ってわかったことですが、私たちにとって200ギガビット、つまりそれ以上のスループットは、明らかに......現在ではGen 5 x16で毎秒400ギガビットか500ギガビットですが、Gen 4 x16インターフェイスでは毎秒25ギガバイトが限界です。

そこに魔法があるとは言わない。しかし、毎秒200ギガビットを一日中完璧に飲み込むディスクシステムを持つことが「ギミー」でないことは確かだ。確かに、Ubuntu OSを載せた小さなM.2チクレット1つでは十分ではない。ある種のRAIDソリューションが必要で、ここが面白いところなのだが、それはあらゆるアプリケーションで異なる。「永続性、容量、信頼性は?Atomic RulesやBittWare 、OSSが何をしなければならないかを指示するのではありません。独占したいわけではないので、ここで一旦中断させてください...。

ブライアン

質問があります。TK242は毎秒最大200ギガビットを扱うことができるとおっしゃっていましたが、これはどのような機能なのでしょうか?この能力が、より小さい/大きい帯域幅の要件から様々なデータキャプチャのニーズにどのように適合するか、詳しく教えてください。

シェップ

ブライアン、ありがとう。簡単に言うと、100ギガのMACが2つあるという事実(そして、それらのワイヤ・ライン・レートの契約が漸近的に100ギガビットに近づく可能性があるという事実)が、200という数字になった由来です。また、我々がこれを設計したスイートスポットであるGen 4 x16の適切なサイズの帯域幅がこの程度であることも、全くの偶然ではないという事実を思いついた。

しかし、すべての人が100ギガの会話の両サイドを捉える必要はない。

イーサネットの世界では、多くの会話は両側の回線に完全に加入しているわけではないので、200をそれ以下の数字にすることは問題ない(ただし、瞬間的に、あるいはある程度の期間、200になるかもしれない)。余分な帯域幅を持つことは、実際にはそれほどコストがかからないので、200のプロビジョニングはひどいことではありません。

しかし、純粋に持続的なスループットという点では、もっと低い要求の人もいることがわかりました。純粋なイーサネットという意味では......40ギガビット・イーサネット・リンクしか持っていないとか、25ギガビット・イーサネットしか持っていないとか......。

今日、TK242のユーザーの中には、100ギガビットではなく10ギガビットのリンクを特別に要求した人もいます。彼らはこの製品の商用ユーザーであり、その意味で有用だと考えています。ですから、すべての人がその制限に立ち向かう必要はありません。

もうひとつは(これは...またしても、ここでさらに話を広げることになるのだが)、デジタルラジオを録音するために使われるTK242、つまりデジタル中間周波数帯の普及に、私たちは胸を躍らせているところだ:VITA 49、DIFI。5GやORAN、無線におけるA-DコンバーターからのI/Qストリームは、トラフィックが必ずしもTCPチャットやUDPの一方通行ではなく、UDPで送信することも可能ですが、ストリーム...スループットは...イーサネット接続のライン・レートによって決まるのではなく、スペクトルをキャプチャするA-Dコンバーターの精度とサンプル・レートによって決まります。

つまり、TK242のユーザーには、A-Dコンバーターやスペクトラム・アナライザー、デコンバーター、あるいは連続時間のものから出力されるアイソクロナスストリームにパケタイザーを適用するという素晴らしい機会があるわけだ。それは基本的に、彼らがキャプチャしたいパケットの無限のストリームである。それをより低いレートでパケットに変換するのですが、ほとんどの場合、その数は200ギガビットよりも大幅に少なくなっています。おそらく、毎秒100ギガビットと200ギガビットの間のどこかであろう。

私たちは802.x準拠の観点から、1年以上にわたって "イーサネットでキャプチャできないものはないのか?"と考えてきましたが、多くのユーザーは "そんなことは絶対にできない "と考えています。私たちのコンバーターは、1秒間に何ギガサンプル、1サンプルあたり何ビットで、そのレートをパケット化したアイソクロナスストリームになるんだ」。チャド......もっと詳しく説明してくれ。

ニコレット

製品に話を戻したいと思います。製品に関連する機能についての質問がまだいくつか来ていますので、チャド、頑張ってください。

チャド

もちろん、シェップが取り組んでいるいくつかの異なる製品がここにありますし、私たちもRFのいくつかを満足させるために取り組んでいます。

Agilex アトミック・ルールズはTK242を実装しており、複数の400ギガ・リンク(これは明らかに、まだホスト側でArkville )を消費することはできませんが、例えば200ギガ・ストリームを2本持つ420fの場合、先ほどのブロック・ダイアグラムはまさにその製品に適合しています。

420FはGen 4 x16を搭載しており、現在はGen 5 x16を搭載したIシリーズのIA-440iを出荷している。

これは、AMDのZynqUltraScale+ RFSoCチップをベースにしており、そのチップ上にADCとDACが組み込まれています。先ほどシェップが言ったように、データをデジタル化し、それを標準のQSFPポート経由で送信して、今言った他の2つのカードに直接接続することができます。実は、この2枚だけでなく、この2枚は私たちが提供している薄型カードで、エンドからエンドまで完全なソリューションを提供することができます。

ニコレット

BittWare 、TK242は標準的なNICではできないようなCPUからのオフロードを行うのでしょうか?もしそうなら、何をどのように行うのでしょうか?

シェップ

ああ、完璧な質問だ!ほとんど私がする質問のように聞こえる。ということは...

(ブライアン)(笑)。

(チャド)自問するのか?

(ブライアン)彼はそうやって物事を把握するんだ。自問自答して、それから...(笑)。

(チャド)それは正しいことだ。

(シェップ)ちょっと画面を戻します。200ギガビットでのドロレス・パケット・キャプチャという基本的な機能を提供するためには、NICではできない、私たちが行っている(オフロードやハードウェアの)重要な部分があります。

PCIバス上を移動する個々のパケット(TLPのオーバーヘッドを伴う)や、例えば64バイトの小さなグラムのオンパレードがあったとしても、実際に200ギガビットのキャプチャを実現できるわけがない。

私たちが設計したのは、PCAPへのPコレクションを集約するFPGAの回路です......1つのPCAPに向かうデータのコレクションを(ハードウェアでオフロードする)、実際にDMAエンジンにビット・トゥルー・データ・ストリーム(言い換えれば、バイト単位で、ディスク上で見たいPCAPファイルと同じ)を移動させ、それをメイン・メモリに着地させるのです。

この一点はいくら強調しても足りない。ホストプロセッサ(このすべてを制御するx86 CPU)は、個々のデータには決して触れません。NVMEドライブ用に再編成したり、ずらしたり、ヘッダーをつけたり......何かを取ったり、正しく保存したり読み取れるように整列させたりすることはありません。

このすべてをハードウェアで行ったため、このオフロードによってホストCPUの負担が軽減されただけでなく、ストレージ・システムも合理化され、HFS、NTFS、XFSなど、バックエンドで実行するファイル・システムが何であれ、生データが何であれ、実際のNVMeリクエスト・キュー(ストレージ・システムが本質的にメモリからデータを読み取り、ソリッド・ステート・セルに書き込むところ)を変更する必要がなくなりました。

その対極にあるのは、ある種の...それはある種の "良いニュース "だ。TK242は固定ビットストリームだ。TK242は固定ビットストリームだ。これはオーバーレイであり、例えばBittWare カードにパケットキャプチャ機能を持たせる。

TK242はSmartNICではありませんし、FPGAのような「TCPデコードをしたい」「圧縮をしたい」「暗号化をしたい」というようなものでもありません。ご質問ありがとうございました。

ブライアン

質問があります。Atomic Rulesでは、TK242のスループット性能、特に特定のハードウェア要件をどのように検証していますか?

シェップ

オーケー、手短に言うと、私たちはそれを分割して、分割して、分割して、分割して、分割して、分割して、分割して、分割して、分割して、分割して、分割して。(グラフィックを閉じる)その必要はない...そこで止めるんだ。

単純な意味で、私たちは検証問題を、FPGAカードからメイン・メモリへのスループット(そしてストレージ・システムではメイン・メモリからディスクへのスループット)を達成することに分割し、次に全体論的なテストを行う。

その前に、CIとCD(継続的インテグレーション、継続的開発)からすべてが始まります。私たちは、精巧で広範なJenkinsベンチを持っています。これは、多くのユーザーが慣れ親しんでいる従来の意味でのCI/CDのためのJenkinsではありません。私たちは、BittWare 、Intel、AMD、Nvidia、その他のボードを搭載した(IntelとAMDの)サーバーを20台ほど持っており、すべてのソフトウェアで標準的なJenkinsパイプラインを実行するだけではありません。実際にTK242ビットストリームをコンパイルし、ハードウェアでアプリケーションを何度も実行している。

例えば、DMAエンジンを証明し、"パケットを絶対に落とさないことをどうやって証明するんだ?"という好奇心のある人に、確固たる客観的証拠を示すことができるようにするためです。ちなみに、検査(コードやフロー制御の方法などを見ること)によっても証明することができる。

これでメインメモリにたどり着いた。しかし、メインメモリに到達するだけではパケット・キャプチャ・ソリューションにはなりません。私たちはまた、メインメモリからストレージシステムへのスループットが同等の性能を持つか、少なくとも目標を達成するのに十分な性能を持つかを検証する、同様の一連のテストも行っています(OSSのような企業の方がはるかに得意とするところです)。

FPGAからメイン・メモリー、メイン・メモリーからディスクへの移動が満足のいくものであることが確認できて初めて、エンド・ツー・エンドで実際に解析し、2つの組み合わせがそのような方法でなお高い性能を発揮することを確認する必要がある。

毎秒240ギガビットをメインメモリに移動させ、"おお、素晴らしいじゃないか "と思えるようなハードな現実に、私たちの背中は傷ついている。そして、FIOのような標準的なLinuxツールを使って、メインメモリからディスクへのバースト性能をベンチマークし、"ほら、12ドライブのストライプ・アレイのディスクにもう220も入れれば、大丈夫だろう?"と言うこともできる。(ブザーを鳴らす)違う、違う!

私たちが開発し、TK242と一緒に提供している)Linuxサービスでは、その二乗化と検証ツールの提供に多くの労力を費やしました。TK242はブロック・ダイアグラムには示されていませんでしたが、内部にはシェーピング可能なトラフィック・フローを持つパケット・ジェネレータがあり、毎秒256ギガビットまでランプアップすることができます。そして、シェーピング・スイープを上下に実行し、メイン・メモリへのスループット、ディスクへのスループットを測定します。お客様のシステム、マザーボード、ディスク・システムで、お客様自身(Atomic RulesでもOSSでもBittWare )、「ああ、これが私のパフォーマンスなんだな」と実感できる客観的な数値を得ることができます。

そのパフォーマンスを保証できるのか?お客様のアーキテクチャがどのようなものであるかはわかりませんが、間違ったディスク・システムを持ってきたり、システムに十分なメモリDIMMを詰めなかったり、猫がプロセッサに大量の水をこぼしたり......そのような状況下で200ギガビットを得ることはおそらくできませんが、私たちは測定することができます。

ニコレット

ジムにはいくつか質問がありますし、以前One Stopの話をされたので、ちょうどいい機会だと思います。ジム、COTSデータ・レコーダーの文脈でAIトランスポータブルとはどういう意味なのか、そしてそれがパフォーマンスや使い勝手にどのような影響を与えるのか、説明してくれませんか?まずはそこから始めましょう。

ジム

あなたは我々のウェブサイトを見て、AIトランスポータブルという言葉を知っている。

(ブライアン)(笑)それがリサーチだよ!

(ジム)......先ほどチャドがAIについて話していましたが、シェップがどのようにこれらのスピードやフィードやすべてをサーバーやシステムに取り込むかについて話しているのを聞くのは素晴らしいことです。

私たちにとってAIトランスポータブルとは......モバイルAIのようなものとは言いたくなかったのですが......人々は携帯電話などを思い浮かべるでしょう。しかし、私たちは本当にデータセンター・クラスのハードウェアを導入しているので、BittWare のハードウェアとAtomic Rulesのソフトウェアからこの種のスピードとフィードを得ることができるのです。

OSSはAIワークフロー全体に大きな価値をもたらします。世の中には何百万というセンサーがあり、BittWare 、これらのセンサーをデータセットに取り込んで保存する方法があります。センサーの取り込みは、データ・レコーダーの一部であり、自律走行車について話すならデータ・ロガーである。

だから、SDSサーバーのようなハイエンドのハードウェアシステムは、シェップがアトミック・ルールズ本社で打ち込んでいるサーバーのひとつなんだ。

次に、そのデータを推論する必要があります。先ほどお話ししたようなスケールは、(PCIeレーンに関する質問についてはまた後ほど)私たちが可能にするものです。同じシステム上でGPUを使ってデータを処理することもできます。あるいは、それに基づいてAI推論で意思決定を行うこともできます。これはパズルの次のピースのようなもので、私たちは(Nvidiaとの関係により)AIワークフローにその大きなピースをもたらします。

アマゾンのクラウドではなく、エッジで、必要なデータを送るのに2時間も待つことなく(インターネットへの100ギガビットのリンクでさえ、最近ではかなり高価だ)、必要であればより大きなクラウドにデータを転送する方法がある。しかし実際には、データセンター・クラスの処理能力について話しているのであり、それは乗り物や航空機、潜水艦の中で行えるようなものだ。

ブライアン

次の質問に答えてくれましたね。データ・レコーダーやサーバーが配置されるさまざまなアプリケーションについてですね。つまり、多くの自動車や航空機を想定しているということですね?

ジム

長距離トラックは、アメリカの海岸から海岸まで2日で走りますが、長距離ドライバーが同じことをするには4、5日かかります。自律走行トラックで価値が生まれるのはまさにそこだ。しかし、そこでは膨大な量のデータが取得されています。そのため、多くのセンサーがイーサネット・ベースであり、今回お話しするソリューションがそのデータを取り込むことができるアプリケーションのひとつです。

他にも......航空機の話をしましたが、軍事用途でも、ヘリコプターやP8航空機のような大型システムで、あらゆるセンサーのデータ取り込みを行っています:ソノブイ......そのような種類のセンサーから視覚化入力を行う場合は周囲の状況などです。

潜水艦についても触れたが、我々は自律型潜水艦でも有人潜水艦でも、潜水艦でソナー処理(データの取り込みと処理)を行っているからだ。

OSSハードウェアを使えば、ワークステーションで作業しているのと同じ製品を、実際に車両に搭載することができる。他のエッジ・タイプのアプリケーションを見ている場合、常にGen 3 PCI Expressを使用していたり、低電圧のプロセッサを使用していたりして、得たいパフォーマンスが本当に損なわれている。私たちがこのソリューションに付加価値を与えるのは、まさにそこなのです。

ニコレット

500テラバイトのような大容量のデータを転送するという課題に取り組むことは非常に重要ですよね。御社のソリューションがどのようにこれに取り組んでいるのか、もう少し詳しくお聞かせいただけますか?

ジム

ロンドンからニューヨークまでの航空機のフライトで、TK242を極端な速度で収集し、それを7、8時間続けている。

クラウドにデータを送って処理するのに数週間かかるという話をしましたが、私たちのシステムのほとんどはデータキャニスターと呼んでいます。このソリューションがテストされたSDSサーバーには、2つのデータパックがあり、最大で...現在60テラバイトのドライブがあるので、ペタバイトに近い容量になります。そして、この2つのドライブパックを取り出して、世界中どこへでもFedExで一晩で送ることができる。

このデータパックのコンセプトにより、航空機を着陸させ、ドライブパックを取り出し、空港にあるデータセンターやデータハブに接続することで、すべてのデータをアップロードし、本当に素早く利用できるようになる。

ブライアン

そこで、セルゲイさんからジムさんに質問があります。例えば、PCIeレーンが8レーンしかない場合、どうやって128レーンに拡張するのですか?どんなエクステンダーを使っていますか?

ジム

リンクとレーンを混同していたかもしれない。

PCI Expressでは、データを取り込むために、例えば4つか5つのx16スロットかx8スロットを用意し、そこにBittWare 。しかし、より多くのカードに拡張する必要がある場合は、PCI Expressスイッチングを使用してこれらの製品の一部を使用します(これは、Atomic Rulesが行っているすべてのDMAを非常に高速なラインレートでサポートしています。)しかし、PCI Expressスイッチを使用することで、2つ目のシャーシ(エクスパンダと呼んでいます)にスロットを拡張することができます。

つまり、ソリューションの拡張方法についてお話しした際に言及したのは、スイッチングから得られるPCI Expressファンアウトのことです。

ブライアン

だから、ノイズも重要な......あ、ごめん。

(ニコレット)いえいえ、どうぞ、どうぞ。

(ブライアン)...自動車では、高性能のアプリケーションに基づくと、重大な懸念になることがあります。ワンストップ・システムズは、これに対処するために、どのような工夫や対策を実施したのでしょうか?

ジム

潜水艦のようなアプリケーションの場合、まず潜水艦の中では静かにしたいものです。最近のサーバールームに入れば、85デシベル以上の大音量で悲鳴を上げることになる。水中でステルス性を保とうとすると、そのような騒音には耐えられない。

今回お話したSDSサーバーには、液冷の優れた効率を利用した自給式液冷のオプションがあります。熱交換器はサーバーの中にあり、狭いアプリケーションや車両にフィットするように奥行きの短いパッケージのままですが、騒音レベルは85dBから60~65dBに低減され、オフィスの雑談に近い環境になります。

そのため、私たちは冷却と電力を、こうしたデータセンター・タイプの製品を車載アプリケーションに導入するための重要な方法として位置づけており、液浸冷却をレパートリーに加えるまでに至っています。

ニコレット

では、あと2つほど質問があります。シェップ、見せてくれ...ああ、これを君にあげよう、シェップ。

つまり、TK242はPCAPフォーマットをオフロードしているということなので、libpcapはLinuxシステムでは動作しないということでしょうか?また、私の発音が正しいかどうか教えてください。

シェップ

(笑)アルファベットのスープなんだけど、全部うまく言ったね。

libpcapは素晴らしい。ソフトウェアAPIであり、Linux上で動作し、おそらくWindows上でも動作する。PCAPファイルを作ろうが、デコードしようが、それはソフトウェアAPIであり、ソフトウェアで動作し、サイクルを使用する。ソフトウェアで動作し、サイクルを使用することになる。データ・ストリームに入るときも出るときも、あらゆるデータ・ストリームに触れることになる。

そのようなタッチを避けるために、つまり、データを入力する途中や入力される途中のどの段階でもホストが関与しないようにするために、私たちはハードウェアでオフロードを行うのです。

その代わりにTK242のP to PCAPエンジンを削除し、NICのようにDMAデータをホストに送ることはできたのだろうか?もちろん、人々はその方法でIPを使用している。200ギガビットのパフォーマンスは得られないでしょう。どんなに速いAMDやIntelのプロセッサーでも、とんでもない数のコアを使えば、その速度では窒息してしまうだろうし、それに伴うソフトウェアのジッターも発生するだろう。

つまり、要約すると、libpcapは素晴らしい働きをする。libpcapはソフトウェア・アプリケーションであり、それなりの役割がある。リアルタイム・キャプチャー・システムでは、データに触れることがデータの取りこぼしを意味する可能性があるため、libpcapの出番はない。

ニコレット

よし、もうひとつ質問がある。

(ブライアン)...チャドが直接答えてくれたみたいだけど...。

(ニコレット)いえいえ、別の質問があるんです。

(ブライアン)オーケー、もう1本あるよ、オーケー!(笑)

(ベアメタルについて少し話を戻します。FPGAに関連して、私たちはこの「ベアメタル」という言葉を聞いたり読んだりしています。

チャド

そうだね。ベアメタルというのは......今で言うところのベアメタルですね(状況は年々変化している)。つまり...かつてのFPGAは、文字通りロジックセルだけで、誰かが自分ですべてを実装しなければなりませんでした。

最近では、PCIeやDDRコントローラー、イーサネット用のハードIPブロックがあります。そして、BittWare- 開発時間を短縮し、ハードウェアをテストするために、FPGA設計者が数人いて、これらのブロックを適切にパラメータ化(ブロック間の通信方法を知る)しなければなりません。そのため、これらのブロックの間にある空のロジックセルに、例やカードテストを実装する必要があります。

しかし......ハードIPブロックとハードIPブロックの間に裸で存在することで、Atomic RulesはFPGA内部の膨大なリソース(空のロジックセル)を活用し、我々がやりたいことに合わせて高度にカスタマイズされたソリューションを実装することができる。FPGAカードが様々な市場で汎用性があるのはそのためです。FPGAカードは、正直なところ、さまざまなアプリケーションを実行するために、さまざまな方法で構成することができるからだ。

ニコレット

ありがとう。さて、会場からたくさんの質問がありました。ブライアンと私もいくつか質問をさせていただきました。私たちが聞かなかったことで、何か聞いておくべきだと思うことはありますか?(間)シェップなら何か思いつくと思います!

(ブライアン)(笑)シェップが加工しているのが見えるよ。

シェップ

まあ、チャドやジム、その他オンラインにいる人なら誰でも...質問が入ってきてもいいんだけど、チャドのベアメタルについてのコメントに便乗させてくれ。

ターンキー・ソリューションとしてのTK242では、ベアメタルから可能な限り離れている!RTLルックアップテーブルがない。

私たちは、BittWare 、私たちのアイデンティティであるビットストリームをカードに載せて配信している。

そして、その能力に興味を持つ、ゼロではないと思われる人々にとっては、"ハレルヤ!"である。COTSのすべての価値を得ることができる。

しかし、OSS...BittWare...アトミック・ルールズ:(このコールで何度も言っているように)我々は皆、反対側を持っている。TK242: ある意味、すべてのIPという点で、アトミック・ルールズの最大のヒット作のようなものだ。

チャドが指摘したベアメタルについて...私たちは、この通話に参加している人たちのことをよく理解している。

TK242はそのようなことを意図しているわけではない......しかし、BittWare 、OSS、Atomic Rulesなど、そのイメージをひっくり返して "あなたの秘伝のソースを入れられるに違いない!"と、仕事を成し遂げられるパートナーという点で、ここにいる適切なグループの人たちと話していることは確かだ。しかし、繰り返しになりますが(ターンキー・デザインに関する今日の報道には感謝しています)、これはターンキー・デザインではありません。

だから、チャドがベアメタルについて言っていたことを混乱させなければいいんだけど。

アトミック・ルールのチームは、FPGAで描くキャンバスが大好きです。NvidiaなどのGPUとホスト・プロセッサの間にある豊富なヘテロジニアス・プロセッサのセットにより、システム・ソフトウェアとRTLは、かつてないほど密接な関係にあります。

FPGAの問題でもシステムの問題でもない。TK242が単なるビットストリームではないのはそのためだ。TK242はビットストリームというよりも、パケットキャプチャの作業を行うLinuxサービスなのだ(これもAtomic Rulesの誰に話を聞くかによる)。

だから、ベアメタルは、それをやりたがっている人たちのために常に存在していると思う。もし十分なボリュームがあるのなら、ASICの話を始めましょう。

しかし、本日の講演で私が最後にお話ししたいのは、今日ここにいるすべてのベンダーが提供するCOTSを利用することで、パケット・キャプチャ・プロセスを民主化し、パケット・キャプチャを行おうとする誰もが、その付加価値(データをキャプチャして取得すること)をもたらすことができるかどうかを確認するために、膨大な時間や経済的なハードルに直面する必要がなくなるということです。

チャド

ああ、シェップの言うことは正鵠を射ていると思う。アトミック・ルールのような会社は、誰かがバックエンドにボルトオンして好きなことができるようなIPブロックを提供することができます。このようなカード(特にこのソリューション)を、FPGAのプログラミング方法を知らない顧客に販売することもできます。つまり...彼が言ったように、それは名前にあるんだ。

ただ、最終的なユースケースや、導入しようとしているパートナーからのさまざまなIPによって異なりますし、誰もやったことのないことをやろうとしているのであれば、ベアメタルで実際にプログラムできるものを求めるでしょう。しかし、あなたは正鵠を射ている。

ブライアン

本日はライブ・チャットにご参加いただきありがとうございます。スポンサーの皆様、ありがとうございました:Mouser ElectronicsとBittWare 、そして素晴らしいパネリストの皆様に感謝いたします。皆さん、良い一日をお過ごしください。

(皆さん)ありがとうございます!