패널 토론

COTS 관점에서의 데이터 캡처 및 기록

아래에서 무료로 녹화 영상을 시청하세요!

하드웨어에서 200Gb/s 이상의 데이터 캡처 및 레코딩에 대한 요구가 점점 더 커지고 있습니다. 많은 옵션이 독점적인 경향이 있지만 상용 기성품(COTS) 구성 요소를 사용할 수 있는 방법이 있을까요? IP 제공업체인 Atomic Rules, COTS FPGA 카드 제공업체인 BittWare, 시스템 제공업체인 One Stop Systems와 함께 옵션을 살펴봅니다.

스피커

채드 해밀턴 초상화
해밀턴 | 제품 담당 부사장, BittWare
셉 시겔 사진
셰퍼드 시겔 | CTO, 원자 규칙
짐 아이슨 초상화
짐 아이슨 | 최고 제품 책임자, 원스톱 시스템

Bryan

오늘 함께 해주셔서 감사합니다. 저는 브라이언 델루카이고, 오늘 라이브 채팅의 호스트는 니콜렛 에미노와 함께 마우저 일렉트로닉스와 비트웨어가 후원하는 COTS 관점에서 본 데이터 캡처 및 기록입니다.

훌륭한 패널들이 참석했고 실시간 채팅이므로 화면 하단의 Q&A에서 궁금한 점을 질문해 주세요. 이제 니콜레트입니다.

Nicolette

안녕하세요, 브라이언의 말처럼 COTS 관점에서 본 데이터 캡처 및 기록에 대한 패널 토론에 오신 것을 환영합니다. 오늘 이 토론의 진행을 위해 BittWare의 제품 담당 부사장 Chad Hamilton, Atomic Rules의 최고 제품 책임자 Shep Siegel, 그리고 원스톱 시스템의 최고 제품 책임자 Jim Ison이 함께합니다.

하지만 구체적인 질문에 들어가기 전에 각 패널이 자신과 회사를 소개하는 시간을 갖도록 하겠습니다. 이 세 회사는 서로 매우 다른 회사들이 모여 응집력 있는 솔루션을 제공하기 위해 모였기 때문입니다.

그럼 채드부터 시작해볼까요? 각자 귀사의 핵심 전문 지식, 특히 COTS 및 데이터 캡처 솔루션과의 관계에 대한 간략한 개요를 공유해 보겠습니다.

Chad

네, 초대해 주셔서 감사합니다. 다시 채드 해밀턴입니다. 채드 해밀턴은 거의 16년 동안 이 회사에 근무하고 있습니다. 비트웨어는 실제로 약 34년 동안 사업을 해왔습니다. 우리는 컴퓨팅, 네트워크, 스토리지 및 센서 처리 분야에서 인텔, AMD, Achronix와 같은 하이엔드 FPGA 회사의 제품을 통해 엔터프라이즈급 FPGA 하드웨어 가속기를 제공합니다.

TI는 시장에서 가장 큰, 어쩌면 가장 큰 COTS FPGA 포트폴리오를 보유하고 있으며, 고객은 빠르고 비용 효율적으로 애플리케이션을 개발 및 배포할 수 있습니다. COTS가 고객에게 적합한 솔루션이 아닌 경우에는 가능한 경우 커스터마이징을 해드립니다. 비즈니스적으로 타당하다면 기존 제품을 약간 변형하거나 완전한 맞춤형 솔루션을 제공하는 등 무엇이든 할 수 있습니다. 다만 모든 당사자에게 합리적이어야 합니다.

또한 개발 및 배포를 위한 TeraBox 인증 서버 라인업을 보유하고 있으며, 원스톱과 같은 파트너와 함께 완전히 통합된 서버 및 카드 솔루션을 제공할 수 있습니다.

마지막으로, 전 세계 모든 사람들이 이 시점에서 AI와 머신 러닝에 대해 이야기하고 있다고 생각합니다. 그래서 저희는 데이터센터부터 엣지까지 아우르기 위해 몇 개의 FPGA 및 ASIC 기반 회사와 파트너십을 맺기 시작했습니다.

Nicolette

멋지네요! 셉, 넌 어때?

Shep

네, 안녕하세요, 셉 시겔입니다. 저는 Atomic Rules의 CTO이자 설립자입니다. 2008년에 Atomic Rules를 시작했는데, 처음 시작할 때는 기본적으로 저 혼자서 운영하는 서비스 회사였습니다. 수년에 걸쳐 12명의 유능한 엔지니어를 영입했고, 2012년이나 2013년경에는 IP 설계 서비스 제공과 더불어 IP 코어를 제작하기 시작했습니다. 결과적으로 코어를 만드는 사업은 궁극적으로 오늘날 TK242에 대해 이야기하는 것과 같은 COTS 및 턴키 솔루션으로 이어졌습니다(자세한 내용은 나중에 설명합니다).

Atomic Rules DNA는 복잡한 동시성에 관한 것입니다. 우리는 움직이는 부품이 많은 어려운 RTL 문제를 해결합니다. 복잡한 동시성을 잘 처리하기 위해 사용하는 특정 도구와 언어가 있습니다. 호스트 메모리와 FPGA 또는 FPGA와 호스트 간 데이터 이동을 위한 DMA 브랜드인 Arkville은 5세대 x16 PCI와 같은 최신 표준에서 초당 60기가바이트를 처리하는 현존하는 최고 성능의 DMA 엔진으로, 뛰어난 제품입니다. 이것이 바로 우리의 명함입니다.

대부분의 사람들은 아크빌의 IP 코어를 통해 아토믹 룰을 알고 있으며, 특히 아크빌은 아크빌의 DMA 브랜드입니다. 하지만 오늘 이 통화에서 소개할 것처럼 저희는 COTS 분야에서 새로운 시도를 하고 있습니다. COTS에 대해 질문해 주셨는데요, 저희는 패킷 캡처에 유용한 IP 중 몇 가지 히트작을 구성했습니다. 이 통화에서 더 자세히 설명해드리겠습니다.

Nicolette

짐은 어때요?

Jim

네, 원스톱 시스템의 최고 제품 책임자인 짐 아이슨입니다. 원스톱은 25년 동안 존재해 왔습니다. 저는 그 중 19년 동안 이곳에 근무하면서 엣지로 이동하는 러기드 시스템의 좋은 변화를 보았습니다. 일반적으로 우리는 데이터 센터급 구성 요소를 엣지에 매우 빠르게 배치하여 출시 기간을 단축할 수 있으며, 이를 위해 Amazon 클라우드나 방금 구입한 데스크톱 워크스테이션에서 사용하는 데 익숙한 GPU, FPGA 카드, NVME 드라이브와 같은 모든 것을 갖추고 있습니다.

그러나 우리는 이를 엣지의 견고한 시스템으로 가져올 수 있으며, 이를 대규모로 수행할 수 있습니다. 또한 PCI Express 전문가로서 슬롯이 5개인 서버를 16개, 32개, 128개 슬롯으로 확장할 수 있으므로 엣지에서 매우 높은 수준의 시스템을 대규모로 배포할 수 있습니다.

Nicolette

잠시 시간을 내어 각 회사가 하는 일에 대해 설명해 주셔서 정말 감사합니다. 처음부터 시작하겠습니다. 데이터 캡처 및 기록 기술의 맥락에서 상용 기성품(또는 COTS)이 무엇을 의미하는지 간략하게 설명해 주실 수 있나요? 그리고 맞춤형 솔루션과 어떻게 다른가요? 누구든 질문해 주세요. 채드?

(짐) 채드, 음소거 상태입니다.

(채드) 미안해요. "제가 가져가면 안 될까요?"라고 했어요.

(니콜레트) 아무나 말했지만 정말 채드 씨를 말한 거예요. (웃음)

(브라이언) 네, 맞아요.

Chad

따라서 상용 기성품은 오늘날 우리가 사용하고 있는 많은 카드처럼 표준적이고 잘 정립된 폼 팩터로 일반 대중을 위해 기성품처럼 만들어진 제품입니다. 하지만 과거에는 U.2, VPX, 컴팩트 PCI도 만들었습니다. 사람들이 이러한 제품을 기성품으로 구입하여 시스템에 연결하면 매우 빠르게 배포할 수 있는 다양한 표준과 폼 팩터가 존재한다는 것을 알고 있습니다.

예를 들어 이러한 유형의 제품을 위해 새로운 맞춤형 백플레인을 설계할 필요가 없습니다... 완전 맞춤형 솔루션에 비해 누군가가 BittWare에 와서 다른 형식의 카드를 요청할 수 있는데, 표준 폼 팩터가 같지 않을 수도 있습니다. 일반적으로 한 고객을 위한 카드를 개발해야 하기 때문에 투자 비용이 더 많이 듭니다. 앞서 말했듯이 비즈니스 사례가 합리적이라면 괜찮습니다.

데이터 캡처 및 기록의 관점에서 볼 때, 우리가 개발 중인 이 카드들(현재 시장에서 가장 널리 사용되는 카드이기 때문에 지금은 PCIe를 사용하겠습니다)은 여기에 I/O를 추가할 것입니다. 예를 들어 이더넷이 있습니다. 이 카드에서 400기가비트 이더넷을 사용할 수 있습니다. 예를 들어 표준 QSFP 커넥터입니다. PCIe 5세대 x16은 COTS 폼 팩터입니다. 이 카드에 외장 메모리와 다른 유형의 인터페이스를 탑재할 수 있으며, 이를 통해 Atomic Rules와 같은 회사는 시장에서 쉽게 접근할 수 있는 플랫폼에서 설계를 구현할 수 있습니다. 그리고 그는 그것을 가져다가 이러한 유형의 솔루션에 필요한 비밀 소스를 넣을 수 있습니다.

Bryan

그렇다면 COTS 구성 요소의 가용성이 새로운 데이터 캡처 및 기록 솔루션의 혁신과 출시 기간에 어떤 영향을 미쳤을까요?

(셰프) 나, 나, 나!

(브라이언) 좋아요, 이제 됐어요! (웃음) 이제 셉이 다 가져가세요.

Shep

맞아요. 네, 그래서 모든 것이... 확실히 채드가 COTS에 대해 말한 모든 것에 동의합니다.

하지만 COTS는 하드웨어, 엣지, 시스템, 중철에만 국한된 것이 아닙니다. 소프트웨어에 관한 것이기도 합니다. 저에게 COTS는 구축 대신 구매하고 긴 개발 과정을 거치지 않고 신속하게 프로토타입을 제작하는 것을 의미합니다.

앞서 아토믹 룰즈가 IP 코어, DMA 엔진, 패킷 처리 등의 역사를 가지고 있다고 말씀드렸습니다. 몇 년 전부터 패킷 캡처의 필요성에 대한 목소리가 점점 커지기 시작했습니다. 패킷 캡처를 수행하는 데 있어 판매용 ASIC 기반 NIC는 패킷을 삭제하고 패킷 캡처 솔루션에 필요한 성능을 제공하지 못한다는 한계를 보았습니다.

그리고 여러 고객으로부터 "원자 규칙 코어와 OSS 디스크 드라이브, 비트웨어 보드를 함께 사용하여 솔루션을 만들 수 있을까요?"라는 문의를 받기 시작했습니다.

물론 그렇게 할 수는 있지만, 전문 FPGA 역량, 전문 시스템 수준 역량... 소프트웨어 작성 등 여전히 많은 조립이 필요합니다. 이더넷 패킷을 캡처해야 한다는 목소리가 너무 커져서 "도대체 우리가 여기서 뭐 하는 거지?"라는 생각이 들었습니다. (일반적으로 사람들이 시작할 수 있도록 IP 코어와 함께 제공하는) 버려지는 예제를 만드는 대신 턴키 예제를 만드는 것이 어떨까요?"라고 생각했습니다. 지금부터 설명할 "TK"와 TK242는 턴키를 의미합니다.

턴키, COTS와 같은... 사람마다 다른 의미일 수 있지만, 이 아이디어는 COTS 보드(BittWare와 같은 회사의 기성품 FPGA 보드)와 시스템(OSS와 같은 회사의 메탈 에지 PCI 시스템), 가장 중요한 것은 (우리 관점에서) 우리의 IP를 사용하여 소프트웨어 집합을 생산할 수 있다는 것입니다: 비트웨어가 만드는 카드에서 가장 기본적인 패킷 캡처 문제를 해결할 수 있는 패킷 캡처 솔루션으로 COTS 보드를 변환하는 비트스트림, 즉 벤 다이어그램에서 고객이 원하는 모든 요청의 교집합에 해당하는 소프트웨어를 생산할 수 있습니다.

조금만 더 하면 모두의 시간을 너무 많이 뺏지 않고 갈 수 있을까요, Bryan?

(브라이언) 네, 물론 시간이 좀 더 필요합니다!

(셉) 저는 조금 더 나아가고 싶습니다. 조금 전에도 말씀드렸지만, 저희는 판매자 NIC가 할 수 없는 일을 하고 싶다고 말씀드렸습니다. 1,000달러짜리 NIC를 기성품으로 구입해 이더넷에 연결하고 소프트웨어를 작성하면 끝나는 일이라면 FPGA가 추가되는 것은 무엇일까요? 우리는... 어떤 가치에 도달한 것일까요? 거기서 뭐 하는 건가요?

(브라이언) 맞습니다.

(셰프) 우리가 받은 요청의 종류는 회선 속도, 즉 이더넷 속도가 판매자 NIC가 패킷을 떨어뜨리지 않고 완벽하게 캡처할 수 있는 수준보다 높은 것이었습니다. 그리고 대부분의 경우(예외도 있지만) 사람들은 패킷을 떨어뜨릴 수 없습니다. 패킷을 떨어뜨리는 것은 지갑에서 돈이 새거나 시험에 실패하는 것과 같기 때문에 그렇게 할 수 없습니다.

스윗 스팟을 찾기 위한 벤 다이어그램에서 다시 한 번 확인할 수 있었습니다, 시계를 18개월 정도 거슬러 올라가면, 60바이트의 작은 패킷이든 9킬로바이트의 점보 패킷이든 패킷 크기에 상관없이 100기가비트 대화의 양쪽을 모두 기록하는 것이 스윗스팟이었고, 초당 100기가비트가 양방향으로 전송되는 최악의 시나리오(초당 약 200기가비트)를 기록하여 초당 200기가비트(또는 초당 약 25기가바이트)가 우리가 분명히 볼 수 있는 스위트스팟이라는 것을 알 수 있습니다.

인텔이나 엔비디아 멜라녹스의 기성 NIC로는 이를 수행할 수 없습니다. 패킷 크기가 작아지면 패킷을 삭제합니다. 무엇을...무엇을 처리할 수 없는지 모릅니다. 그렇게 하지 않습니다.

하지만 DMA 엔진과 PCAP 하드웨어를 갖춘 FPGA 애플리케이션을 사용하면 이러한 요소를 결합할 수 있습니다. 그래서 저희는 이를 결합했습니다.

200Gbps의 원동력이자 200Gbps가 마법과도 같은 이유 중 하나는 18개월 전에는 5세대 PCI가 없었다는 점입니다. 5세대 PCI는 개발 중이었습니다. 사양은 작성되었지만 존재하지 않았습니다. 따라서 초당 25기가바이트 또는 200기가비트라는 숫자는 18개월 전의 4세대 x16 PCI에 잘 맞습니다. 오늘날의 5세대 x8에도 매우 적합한 것으로 밝혀졌습니다(자세한 내용은 나중에 설명합니다).

이 작업이 쉽지 않다는 것을 알고 있었기 때문에 작업을 시작해야 했습니다. 18개월 전부터 200기가비트 솔루션을 목표로 작업을 진행했지만, 이것이 전부는 아니었지만 많은 고객들의 요청에 부응하기 위한 것이었습니다.

분명히 말씀드리자면, "200기가비트는 필요 없어요."라고 말하는 사람들이 있습니다. 어쩌면 그보다 적은 대역폭으로 녹화하고 있을 수도 있으며, 이 경우 약간의 대역폭을 확보해 두는 것이 나쁘다고 할 수는 없습니다.

우리에게 COTS는 전문 FPGA 역량, 전문 소프트웨어 엔지니어링 역량, 전문 디스크 시스템 역량, 전문 하드웨어 역량이 필요했던 아토믹 룰즈의 IP 모델을 뒤집는 것이었습니다. 이를 뒤집어 "그거 알아요? 패킷 캡처 문제에 대한 턴키 솔루션이라고 할 수 있는데, 엔지니어링을 완료하고 비트스트림이 BittWare 카드에 로드되어 무엇이든 할 수 있는 FPGA 카드에서 매우 특정한 패킷 캡처 솔루션으로 변모하는 것입니다.

BittWare에서 구입한 보드, OSS에서 구입한 디스크 시스템 등 원하는 하드웨어를 직접 가져와서 조각을 맞추면 바로 경주를 시작할 수 있습니다. 저희는 그 점이 매우 즐겁습니다.

Chad

COTS의 시장 출시 기간에 대해서도 잠깐 언급하고 싶은데요, 그렇죠? 앞서 말씀드렸듯이 저희는 특정 공급업체의 최신, 최고의 FPGA 기술을 적용하고 있습니다. 생산 장치에 우선적으로 적용되지는 않습니다. 비트웨어는 엔지니어링 실리콘이 출시되기도 전에 이러한 카드를 설계하는 데 매우 유리한 고지를 선점하게 됩니다. 이를 통해 우리는 카드를 확보하고, Atomic Rules와 같은 고객과 파트너에게 얼리 액세스 유닛을 제공할 수 있으며, 이들은 생산용 실리콘이 출시되기 훨씬 전에 이 카드에 대한 작업을 시작할 수 있습니다.

따라서 이러한 디자인은 반복적인 프로세스를 통해 반복적으로 테스트하고 시뮬레이션하여 IP를 최적화해야 하는 복잡한 설계입니다. 따라서 상용 기성품의 가장 큰 장점 중 하나는 생산 실리콘이 준비되면 비트웨어 카드에 바로 사용할 수 있는 생산 실리콘이 함께 제공된다는 점입니다.

Nicolette

그리고 실제로 그렇게 적응하고 있습니다. FPGA가 점점 더 복잡해지고 있는데, 이러한 구성 요소를 사용하는 애플리케이션의 시장 출시 기간을 단축하기 위해 비트웨어는 어떻게 적응하고 있는지 궁금합니다. 방금 그 부분에 대해 말씀하신 것 같습니다, 채드.

Chad

네... 그뿐만이 아닙니다. 또 다른 한 가지는 30년 이상, 34년 이상 축적된 방대한 지식 기반이 있다는 것입니다.

이러한 카드에서 가장 어려운 것 중 하나는 의외로 PCIe 설계입니다. 예전에는 훨씬 쉬웠지만, 현재 PCB를 가로지르는 신호 속도와 전력 요구 사항으로 인해 PCIe 폼 팩터 카드(카드 폭이 제한되어 있어 슬롯에 꽂아서 기본적으로 과열되지 않도록 해야 하는)를 만드는 것은 매우 어렵습니다. 이 카드에는 이러한 모든 지식이 내장되어 있습니다. 카드의 상태를 모니터링하고 필요할 때 카드를 종료하는 BMC가 있습니다.

하지만 요즘에는 카드의 속도와 피드에 따라 이러한 카드를 디자인하는 데 많은 복잡성이 수반됩니다.

Bryan

그렇다면 왜 비트웨어는 자체적으로 모든 것을 처리하지 않고 Atomic Rules 및 One Stop Systems와 같은 회사와 제휴하여 TK242와 같은 솔루션을 제공하나요?

Chad

물론 가장 쉬운 대답은 어렵다는 것이겠죠? (웃음) 조금 전에 셰프가 이러한 카드의 IP를 개발하는 데 필요한 전문 지식이 실제 하드웨어를 개발하는 것과는 다르다고 언급했던 것 같습니다.

물론 더 많은 리소스에 투자하고 자체 솔루션을 개발할 수도 있지만, 올바른 목표를 자주 달성하지 못하면 엔지니어 팀이 투자 대비 최고의 수익을 얻지 못할 수도 있습니다.

따라서 Atomic Rules와 같은 IP 공급업체(그 외에도 웹사이트에서 확인할 수 있는 여러 업체가 있습니다)와 파트너십을 맺어 업계 최고의 IP를 선별하고 해당 팀과 협력하여 기본적으로 동급 최고의 하드웨어 제품에 솔루션을 탑재하도록 요청하고 있습니다.

그리고 원스톱으로 협력하여 최종 애플리케이션이 무엇이든 맞춤화할 수 있는 시스템을 얻을 수 있습니다. 이제 누군가가 직접 모든 것을 설계해야 하는 빈 FPGA 카드를 제공하는 대신 전체 시스템을 솔루션으로 제공할 수 있습니다.

Jim

사용자 지정이라는 표현 대신 기성품으로 구성할 수 있다고 말씀드리고 싶습니다.

(채드) 네, 그게 훨씬 더 좋은 표현이네요.

(Jim) 구성 가능한 기성품은 서버와 확장 기능, 그리고 BittWare 카드를 선택하고 Atomic Rules와 같은 적절한 소프트웨어를 설치하여 솔루션을 구현할 수 있다는 점에서 큰 역할을 합니다.

(브라이언) 질문이 계속 들어오고 있으므로 대화를 더 진행할 때까지 일부 질문에 대한 답변을 보류하겠습니다.

Nicolette

특히 짐을 위해서요, 짐, 그래서 잠시 보류하겠습니다! (웃음) 저희가 원하는 것은... 셰프님... TK242에 대해 이야기하고 있는데요... TK242에 대한 간략한 개요와 "프로그래밍이 필요 없는" 기능, 그리고 COTS 솔루션의 맥락에서 사용자에게 어떤 이점이 있는지 설명해 주시겠어요?

Shep

고마워요, 니콜레트, 너무 오래 가면 가상으로 저에게 물건을 던져주세요.

(니콜레트) 그래도 화면을 깨고 싶지 않아요, 셉! (웃음)

Chad

셰프님, 저희가 여러분과 같은 회사와 파트너 관계를 맺는 이유 중 하나는 바로 이 IP를 개발하는 데 수없이 많은 날, 수개월, 수년을 투자하기 때문이죠?

Shep

네, 그렇습니다.

 이제 블록 다이어그램을 보여드리고 본론으로 들어가서 잠시 이야기하겠습니다. 하지만 화면의 블록에 대해 이야기하기 전에 TK242에 대해 잠시 말씀드리겠습니다. 참고로 앞서 언급했듯이 "TK"는 "턴키"의 약자입니다. 242라는 숫자의 마법은 100기가 경로가 두 개 있다는 것입니다. 앞서 언급했듯이 이 제품은 4세대 x16, 즉 200기가비트에 맞게 튜닝되었기 때문에 4를 원했고, 제품에 42라는 숫자를 싫어하는 사람이 있을까요? (웃음)

따라서 "턴키"란 (이 부분은 계속 반복해서 설명하겠습니다) FPGA 프로그래밍이 필요 없다는 뜻입니다. 이것은 보드에서 실행되는 비트스트림이므로 FPGA 공급업체 도구에 대해 이야기할 필요가 없습니다... 소프트웨어도 마찬가지이며, 이에 대해서도 설명하겠습니다.

물론 사용할 수 있는 C와 C++, Python API가 있지만, 당사는 오픈 소스 코드로 TK242용 전체 Linux 서비스를 제공하며, 서비스를 설치한 후에는 말 그대로 시스템을 켜기만 하면 캡처되는 모든 패킷(최대 200Gbps)이 호스트의 무한 버퍼 .PCAP 파일에 영원히 저장됩니다. 이보다 더 간단할 수는 없습니다.

무슨 일이 일어나는지 기계적으로 살펴볼 수 있도록 조금 더 자세히 설명하겠습니다. 여기 TK242는 실제로 BittWare 카드의 오버레이입니다. 이 카드의 사진을 어딘가에 보여주고 싶어요. 높이와 길이가 반반인 보드입니다. 이 보드를 특별히 타깃으로 삼지는 않았지만, 특히 이 카드의 가성비가 정말 놀랍다고 생각하는데, 그 이유는 마우저의 기성품이기 때문입니다. 뻔뻔한 플러그: 사람들이 TK242를 사용해보고 내일 바로 사용하고 싶다면 상자를 골라 카드를 꺼내고 설치 패키지(모든 것을 설치하는 스크립트 하나)를 다운로드한 다음 커넥터를 꽂으면 패킷이 디스크에 무한정 스트리밍됩니다.

"패킷 캡처는 어떻게 하는 건가요?"라고 궁금해하실 분들이 많으실 것 같아서 FPGA 내부의 몇 가지 부분을 빠르게 살펴보겠습니다. 머천트 NIC가 할 수 없는 일을 우리가 어떻게 하고 있는지 말씀드렸습니다. 이에 대해 조금만 말씀드리겠습니다.

따라서 두 개의 병렬 100기가비트 수집 채널이 있습니다. QSFP-DD 케이블에 연결되어 있으므로 예를 들어 100GBASE CR4를 사용하는 경우 분할 케이블로 분할하면 됩니다. DAC 케이블, 액티브 광 케이블 등 어떤 케이블을 사용하든 상관없습니다.

TK242의 전체 데이터 경로는 초당 3억 패킷과 200기가비트를 위해 프로비저닝되어 있습니다. 따라서 앞서 말씀드린 것처럼 TK242는 어떤 면에서 보면 Atomic Rules의 히트작과 같은 IP를 통합하지 않고도 사용할 수 있습니다.

TimeServo 시스템 타이머는 나노초 단위의 분해능 시간을 가지고 있으며, 이를 최대로 제공합니다. 도착하는 모든 패킷, 즉 L2 패킷은 나노초 해상도로 스탬프가 찍힙니다. 패킷이 도착하면 단일 스트림으로 정렬하여 병합 측면에서 도착 순서가 단조롭게 증가하도록 합니다.

여기서는 자세히 설명하지 않겠습니다만, 원하신다면 설명할 수 있습니다. 우리에게는 초당 200기가비트의 병합 스트림을 4개의 서로 다른 스트림으로 분할할 수 있는 64,000개의 항목이 있는 플로우 테이블인 딥 VXLAN RSS 패킷 프로세서가 있습니다(원할 경우). 특정 패킷을 필터링하고 특정 패킷을 다른 PCAP 파일로 보내고 싶다고 가정해 봅시다. (이 모든 작업을 수행한 후 알게 된 사실이지만) 대다수의 사용자는 많은 PCAP 파일이 아니라 한두 개의 PCAP 파일을 원합니다. 하지만 하드웨어는 한 번에 4개씩 실행할 수 있도록 프로비저닝되어 있으며, 초당 200기가비트 또는 초당 3억 개의 패킷을 모두 하나의 PCAP 파일로 보내길 원한다면 그렇게 할 수 있습니다(패킷 크기에 관계없이 어떤 패킷도 삭제하지 않습니다).

즉, P2PCAP 엔진은 기본적으로 하드웨어에서 업계 표준 바이트-트루 PCAP 파일을 만들어 호스트 CPU(Linux 프로세서)가 실제 데이터에 전혀 영향을 미치지 않도록 합니다. 그 다음에는 Arkville DMA 엔진과 호스트 메모리로 이동하여 후속 NVMe 스토리지 시스템이 디스크에 쓰기(실제로는 호스트 메모리에서 읽기)를 수행하며, 이 모든 과정이 초당 최대 200기가비트 속도로 차질 없이 진행됩니다.

이것이 바로 스토리이며, 그 과정에서 많은 춤이 필요합니다.

모든 사람에게 적합한 스토리지 시스템에 대해서는 잠시 후에 Jim과 Chad와 함께 별도의 대화를 나누겠습니다. 예를 들어, 1년 동안 오디세이에서 배운 것 중 하나는 200기가비트(물론 그 이상입니다. 현재 Gen 5 x16으로 초당 400~500기가비트를 처리하지만 Gen 4 x16 인터페이스는 초당 약 25기가바이트로 제한되어 있습니다)를 디스크에 동일한 처리량을 제공하는 것은 완전히 다른 문제이며, 소프트웨어 TK242 서비스가 이를 위해 작동한다는 사실입니다.

마법이 있다고는 말하지 않겠습니다. 코딩이 있고, 모든 조각이 함께 결합되어 작동하지만, 하루 종일 초당 200기가비트를 완벽하게 소화하는 디스크 시스템을 갖추는 것은 확실히 '공짜'는 아닙니다. 우분투 OS가 설치된 작은 M.2 치클릿 하나만으로는 충분하지 않습니다. 거의 모든 애플리케이션에 따라 다른 종류의 RAID 솔루션이 필요하며, 이러한 스토리지 문제를 해결할 수 있는 적절한 크기의 하드웨어를 직접 가져올 수 있도록 문을 열어두었습니다. "지속성, 용량, 안정성은 어떤가요?" Atomic Rules나 BittWare, OSS가 무엇을 해야 하는지 알려주는 것이 아니라 사용자가 판단해야 합니다. 독점하고 싶지 않으니 여기서 잠시 멈추겠습니다...

Bryan

질문이 있습니다. TK242가 초당 최대 200기가비트를 처리할 수 있다고 언급하셨습니다. 이 기능이 소규모/대규모 대역폭 요구 사항에서 다양한 데이터 캡처 요구 사항을 충족하는 방법에 대해 자세히 설명해 주시겠어요?

Shep

브라이언 감사합니다. 간단히 설명하자면, 100기가 MAC이 두 개 있다는 사실(그리고 유선 회선 요금 구독이 점근적으로 100기가비트에 근접할 수 있다는 사실)에서 200이라는 숫자가 나온 것입니다. 또한 이것이 우리가 설계한 최적의 대역폭인 4세대 x16의 적정 크기 대역폭의 한계라는 사실도 전적으로 우연이 아니며, 이것이 오늘날 이것이 상업적으로 매우 저렴한 이유이기도 하죠?

현재도 5세대 기술에 대해 프리미엄을 지불하고 있지만 4세대는 실제로 대량으로 출시되기 시작했고, 앞서 Chad가 언급했듯이 4세대가 성숙해지기 위해 많은 것들이 나왔지만(지금이야말로 사용자가 이를 수확하기에 좋은 시기입니다) 모든 사람이 100기가 대화에서 양쪽을 모두 캡처할 필요는 없습니다.

이더넷 세계에서는 많은 대화가 양쪽 회선을 완전히 구독하지 않으므로 200보다 적은 수치를 사용해도 괜찮습니다(순간적으로 또는 일정 시간 동안 200이 될 수 있지만). 추가 대역폭을 확보하는 데 비용이 많이 들지 않으므로 200으로 프로비저닝하는 것도 나쁘지 않습니다.

하지만 순수하고 지속적인 처리량 측면에서 훨씬 더 낮은 요구 사항을 가진 사람들도 있는 것으로 나타났습니다. 순수 이더넷 측면에서 보면... 40기가비트 이더넷 링크 또는 25기가비트 이더넷만 있는 경우라면 당연히 비례적으로 더 적을 수 있지만... 그것은 케이크 위에 장식하는 것입니다.

실제로 일부 TK242 사용자는 100기가비트 대신 10기가비트 링크를 특별히 요청했는데, 이들은 이보다 훨씬 더 큰 규모를 요구하고 있습니다. 따라서 200개 대신 20개에 불과하며 이 제품의 상업적 사용자인 이들은 그런 의미에서 이 제품이 유용하다고 생각합니다. 따라서 모든 사람이 그 한계에 도전할 필요는 없습니다.

다른 하나는 (그리고 이것은... 여기서 다시 더 많은 이야기를 할 수 있는 문을 여는 것입니다.) 디지털 라디오 녹음에 사용되는 TK242, 즉 디지털 중간 주파수의 활용에 감격했습니다: VITA 49, DIFI. 기본적으로 5G와 ORAN 및 라디오의 A-D 컨버터에서 나오는 I/Q 스트림은 트래픽이 반드시 TCP 잡담이나 UDP가 아닌 다른 방식으로 전송되는 경우(UDP를 통해 전송하는 것도 옵션이지만) 이더넷 연결의 라인 속도에 의해 결정되는 것이 아니라 해당 스펙트럼을 캡처하는 A-D 컨버터의 정밀도와 샘플 속도에 의해 결정되는 스트림...즉 처리량이 결정되는 것이기 때문에 우리가 캡처할 차례가 될 것입니다.

따라서 스펙트럼 분석기... 디컨버터... 디컨버터에서 나오는 등시성 스트림에 패킷타이저를 두드리는 TK242 사용자들은 본질적으로 연속 시간이라는 것이 무엇이든 간에 이 멋진 기회를 잡을 수 있습니다. 본질적으로 캡처하려는 패킷의 무한한 스트림입니다. 그들은 그것을 더 낮은 속도로 패킷으로 변환하며, 대부분의 경우 그 숫자가 200기가비트 미만으로 크게 떨어지는 것을 볼 수 있습니다. 어쩌면 초당 100기가비트에서 200기가비트 사이의 비율일 수도 있습니다.

따라서 802.x 규정 준수 관점에서 1년 넘게 "이더넷으로 캡처할 수 없는 것이 있을까?"라는 생각에 사로잡혀 있었지만, 많은 사용자들은 "우리는 절대 그렇게 하지 않을 것입니다."라고 말합니다. 우리 컨버터는 초당 기가샘플과 샘플당 비트 수가 너무 많아서 그 속도로 패킷화된 등시성 스트림이 될 것입니다."라고 말합니다. 채드, 이걸 좀 더 자세히 설명해 주세요.

Nicolette

일부 제품 관련 기능에 대한 질문이 더 들어오고 있기 때문에 다시 일부 제품으로 가져오고 싶으니 채드, 해보세요.

Chad

네, 셰프가 개발 중인 몇 가지 다른 제품이 있으며 일부 RF 관련 사항을 충족하기 위해 노력하고 있으므로 이에 대해 자세히 설명하겠습니다.

하지만 현재 인텔 애자일렉스 카드를 사용하는 네트워크 제품의 경우, 아토믹 룰즈는 TK242를 구현하고 있으며 최대 400기가 링크를 여러 개 가지고 있지만(물론 아크빌을 통해 호스트가 아직 소비할 수는 없지만), 예를 들어 200기가 스트림이 두 개 있는 420f의 경우 방금 위에 있는 블록 다이어그램이 해당 제품에 정확히 들어맞습니다.

현재 4세대 x16을 지원하는 420F가 있고, 5세대 x16을 지원하는 I-시리즈인 IA-440i를 출시할 예정이며, 이 제품은 다음 단계로 나아가 잠재적으로 대역폭을 두 배로 늘릴 수 있습니다.

하지만 RF 공간의 경우, AMD의 Zynq UltraScale+ RFSoC 칩을 기반으로 하는 제품인 RFX-8440이 있는데, 이 칩에 ADC와 DAC가 내장되어 있으며, 셰프가 언급한 것처럼 데이터를 디지털화한 다음 방금 언급한 다른 두 카드에 직접 연결되는 표준 QSFP 포트를 통해 전송할 수 있습니다. 사실, 두 개가 아니라 우리가 제공하는 로우 프로파일 카드 중 두 개를 사용하면 엔드 투 엔드 전체 솔루션을 제공할 수 있어 환상적입니다.

Nicolette

그래서 실제로 한 사용자로부터 "비트웨어 카드의 TK242가 표준 NIC가 하지 않는 CPU 오프로딩을 수행하며, 수행한다면 어떤 형태로 어떻게 수행하나요?"라는 질문을 받았습니다.

Shep

완벽한 질문이네요! 저라면 저에게 물어볼 질문처럼 들리네요. 그래서 제 생각에는...

(브라이언) (웃음)

(차드) 스스로에게 물어보시겠습니까?

(브라이언) 그렇게 스스로에게 질문을 던지고... (웃음) 그렇게 알아내는 거죠.

(채드) 그게 옳은 일입니다.

(셰프) 잠시만 다시 화면을 띄우겠습니다. 아까 제가 "...판매용 ASIC 기반 NIC가 할 수 없는 일을 한다"고 말씀드렸는데, 200기가비트에서 드롭리스 패킷 캡처의 기본 기능인 이 기능을 제공하기 위해 NIC가 하지 않고 우리가 하고 있는 한 가지 핵심 요소(오프로드, 하드웨어에서)가 있는데 바로 패킷 스트림을 PCAP 파일로 변환하는 온라인(하드웨어, FPGA에서) 변환 기능입니다.

PCI 버스를 통해 이동하는 개별 패킷이 (TLP의 오버헤드로 인해) 실제로 200기가비트 캡처를 구현할 수 있는 방법은 없으며, 예를 들어 64바이트의 작은 그램이 퍼레이드를 벌인다고 가정해 보겠습니다.

우리가 설계한 것은 FPGA의 회로를 통해 수집된 P를 PCAP로 통합하고(하드웨어에서 오프로딩을 수행), 실제로 DMA 엔진이 바이트 단위의 데이터 스트림(즉, 바이트 단위로, 디스크에서 보고자 하는 PCAP 파일과 동일)을 이동하여 메인 메모리에 저장하도록 하는 것입니다.

이 점은 아무리 강조해도 지나치지 않습니다. 호스트 프로세서(이 모든 것을 총괄하는 x86 CPU)는 개별 데이터에 절대 손을 대지 않습니다. NVME 드라이브에 맞게 재구성하거나, 데이터를 이동하거나 헤더를 넣거나, 저장하거나 제대로 읽을 수 있도록 정렬하는 등의 작업을 하지 않습니다.

이 모든 작업을 하드웨어에서 수행했기 때문에 호스트 CPU의 부담을 덜어주었을 뿐만 아니라 스토리지 시스템을 간소화하여 HFS, NTFS, XFS 등 어떤 파일 시스템을 실행하든, 백엔드에서 원시 데이터를 실행하든 실제 NVMe 요청 큐(스토리지 시스템이 본질적으로 메모리에서 데이터를 읽고 솔리드 스테이트 셀에 쓰는 작업)를 다시 구성할 필요가 없도록 했습니다.

이제 대위법은 일종의 "좋은 소식"입니다. "나쁜 소식"은 사실 "나쁜 소식"은 아니지만, 대위법은 명확히 하기 위해 TK242가 고정 비트 스트림이라는 것입니다. 그 기능을 수행합니다. 오버레이이며, 예를 들어 BittWare 카드에 패킷 캡처 기능을 제공합니다.

"TCP 디코딩을 하고 싶어요.", "압축을 하고 싶어요.", "암호화를 하고 싶어요."라고 말할 수 있는 스마트NIC도 아니고, "여기 있습니다...이게 바로 이 기능입니다."라고 말하는 FPGA 비트 가방도 아닙니다(그런데 그런 것을 원하는 모든 고객과 논의하고 싶지만), 그런 COTS 턴키인 TK242가 아닙니다. 질문해 주셔서 감사합니다.

Bryan

질문이 있습니다. 특정 하드웨어 요구 사항과 함께 TK242의 처리량 성능은 어떻게 검증하나요?

Shep

좋아요, 간단히 설명하자면 분할과 정복입니다. (그래픽을 닫으며) 여기서 멈출 필요는 없습니다.

간단히 말해, 우리는 검증 문제를 FPGA 카드에서 메인 메모리로의 처리량 달성(그리고 스토리지 시스템에서는 메인 메모리에서 디스크로)으로 나눈 다음 전체적 테스트를 수행합니다.

그 모든 것이 시작되기 전에 모든 것은 CI와 CD(지속적 통합, 지속적 개발)로 시작됩니다. 대부분의 사용자가 익히 알고 있는 일반적인 의미의 CI/CD용 Jenkins가 아닌 정교하고 광범위한 Jenkins 벤치를 보유하고 있으며, 모든 소프트웨어에서 표준 Jenkins 파이프라인을 실행하는 것이 아니라 BittWare, Intel, AMD, Nvidia 등의 보드를 탑재한 약 20대의 서버(인텔 및 AMD)를 보유하고 있습니다. 실제로 TK242 비트스트림을 컴파일하고 하드웨어에서 애플리케이션을 반복해서 실행하고 있습니다.

예를 들어, DMA 엔진을 증명하고 "패킷을 떨어뜨리지 않는다는 것을 어떻게 증명할 수 있습니까?"라고 궁금해하는 사람에게 객관적인 증거를 제시하기 위해 1년 넘게 수십 대의 시스템을 연중무휴 24시간(온프레미스에서 막대한 비용을 들여) 운영해 왔습니다. 참고로, 코드와 흐름 제어 방식 등을 살펴봄으로써 검사로도 증명할 수 있습니다.

메인 메모리로 이동합니다. 하지만 메인 메모리에 도달하는 것만으로 패킷 캡처 솔루션이 만들어지는 것은 아니며, 이 길을 걸어본 사람이라면 누구나 이 사실을 잘 알고 있습니다. 또한 메인 메모리에서 스토리지 시스템으로의 처리량이 목표를 달성하기 위해 동등한 성능 또는 최소한 적절한 성능을 발휘하는지 검증하는 유사한 테스트(우리에게는 조금 더 새롭다고 할 수 있습니다. OSS와 같은 회사에서 훨씬 더 많이 하는 일입니다)를 수행합니다.

FPGA에서 메인 메모리로, 메인 메모리에서 디스크로의 이동이 만족스럽게 결합된 경우에만 실제로 엔드투엔드 분석을 통해 두 결합이 여전히 그런 방식으로 성능을 발휘하는지 확인해야 합니다.

초당 240기가비트를 메인 메모리로 옮기면서 "오, 대단하지 않나요?"라고 말할 수 있는 어려운 현실이 우리의 등에 상처를 입혔습니다. 그리고 메인 메모리에서 디스크로의 버스트 성능을 벤치마킹하기 위해 FIO와 같은 표준 Linux 도구를 사용하여 "오, 12드라이브 스트라이프 디스크 어레이에 220을 더 넣으면 괜찮겠지?"라고 생각할 수 있습니다. (부저 소리 내기) 아니요, 아닙니다!

(우리가 개발하고 TK242와 함께 공급하는) 리눅스 서비스에서 많은 노력을 기울인 것은 이를 제곱하고 검증 도구를 제공하는 것이었기 때문에 카드를 구입하고 TK242를 로드하면 가장 먼저 해야 할 일 중 하나는 성능을 검증하는 데 도움이 되는 테스트 스위트를 실행하는 것이었습니다. TK242는 블록 다이어그램에 표시되지 않았지만 트래픽 흐름을 셰이핑할 수 있고 초당 최대 256기가비트까지 증가시킬 수 있는 내부 패킷 생성기가 있습니다. 그리고 셰이핑 스윕을 위아래로 실행하여 메인 메모리까지의 처리량, 디스크까지의 처리량을 측정하고, 사용자 시스템, 디스크 시스템의 마더보드에서 사용자(Atomic Rules, OSS, BittWare가 아닌)가 직접 "아, 이게 내 성능인가 봐요"라고 판단할 수 있는 객관적인 수치를 확보할 수 있게 됩니다.

그 성능을 보장할 수 있나요? 고객의 아키텍처가 어떤지 모르지만, 잘못된 디스크 시스템을 가져오거나... 시스템에 충분한 메모리 DIMM을 넣지 않거나... 고양이가 프로세서에 물을 흘리거나... 이러한 조건에서 200기가비트를 얻을 수는 없겠지만 측정은 할 수 있다는 것을 잘 알고 있습니다.

Nicolette

짐에게 몇 가지 질문이 있고, 짐이 전에 원스톱에 대해 언급했으니 지금이 딱 좋은 타이밍이네요. 짐, COTS 데이터 레코더의 맥락에서 AI 트랜스포터블이 무엇을 의미하는지, 그리고 이것이 성능과 사용성에 어떤 영향을 미치는지 설명해 주시겠어요? 그것부터 시작하겠습니다.

Jim

저희 웹사이트를 보셨을 텐데요, 여기에는 AI 운송 가능이라는 용어가...

(브라이언) (웃음) 그거 참 열심히 하는군요!

(Jim) ... 그리고 앞서 Chad가 AI에 대해 언급했는데, 이러한 속도와 피드 및 모든 것이 어떻게 서버와 시스템으로 들어가는지 Shep이 말하는 것을 들으니 정말 좋았습니다. 왜냐하면 그것이 바로 OSS에서 우리가 하는 일이기 때문입니다.

모바일 AI라고 하면 사람들은 휴대폰 등을 떠올리지만, 저희는 데이터센터급 하드웨어를 탑재하여 BittWare 하드웨어와 Atomic Rules 소프트웨어에서 이러한 종류의 속도와 피드를 얻을 수 있도록 하고 있습니다.

따라서 AI 트랜스포터블: 우리는 전체 AI 워크플로우를 OSS가 많은 가치를 제공하는 분야로 보고 있습니다. 수백만 개의 센서가 존재하며, BittWare 카드는 이러한 센서를 저장할 데이터 세트로 가져오는 방법이며, Atomic Rules는 이를 턴키 방식으로 간편하게 만들어 줍니다. 실제로 센서 인제스트는 데이터 기록 장치, 즉 자율 주행 차량과 같은 데이터 로거가 AI 워크로드의 헤드엔드입니다.

그래서 우리는 셉이 아토믹 룰즈 본사에 있는 서버 중 하나인 SDS 서버와 같은 하이엔드 하드웨어 시스템을 제공하여 모든 데이터를 입력받습니다.

그 다음에는 데이터를 추론해야 합니다. 따라서 앞서 말씀드린 스케일 유형(잠시 후 PCIe 레인에 대한 질문으로 넘어가겠습니다)은 이제 동일한 시스템에서 어떤 센서 데이터를 가져오는지에 따라 GPU를 사용하여 해당 데이터를 시각화 등에 사용할 수 있는 형태로 처리하는 것도 허용한다는 것입니다. 또는 AI 추론을 기반으로 의사 결정을 내리는 것, 이는 퍼즐의 다음 조각이며, 유니티는 Nvidia와의 관계를 통해 AI 워크플로에 큰 부분을 차지하게 되었습니다.

이 모든 것을 Amazon 클라우드가 아닌 엣지에서 처리하고, 원하는 모든 데이터를 전송하기 위해 2시간을 기다리지 않고(요즘은 100기가비트 인터넷 링크도 꽤 비쌉니다), 필요한 경우 더 큰 클라우드로 데이터를 전송할 수 있는 방법이 있다는 것이 이동 가능한 AI에 대한 개요입니다. 하지만 실제로는 차량, 항공기, 잠수함 등에서 바로 데이터센터급 처리 능력을 사용할 수 있습니다.

Bryan

이제 다음 질문에 대한 답을 얻으셨군요. 데이터 레코더, 즉 서버를 배포할 수 있는 다양한 애플리케이션이 있죠? 그렇다면 많은 차량과 항공기를 고려하고 계신 건가요?

Jim

네, 조금 더 자세히 설명하자면, 상업적 측면에서 자율주행 트럭과 데이터 로거 시스템은 미국 해안에서 해안까지 장거리 트럭이 이틀에 걸쳐 이동하고, 장거리 운전자가 같은 일을 하려면 4~5시간이 걸립니다. 바로 이 부분에서 자율주행 트럭의 가치가 창출될 것입니다. 하지만 엄청난 양의 데이터가 수집되기 때문에 많은 센서가 이더넷을 기반으로 하는 애플리케이션 중 하나이며, 여기서 소개하는 이 솔루션은 이러한 데이터를 가져올 수 있습니다.

다른 것들... 항공기를 언급했는데... 군용 애플리케이션에서도 헬리콥터와 P8 항공기 같은 곳에서 모든 센서의 데이터 수집을 수행하는 대형 시스템, 즉 소노부이... 이러한 유형의 센서에서 시각화 입력을 수행하는 경우 주변 환경이 또 다른 애플리케이션입니다.

잠수함까지 언급한 이유는 자율 잠수함과 유인 잠수함 모두에서 소나 프로세싱(데이터 수집 및 처리)을 수행하기 때문입니다.

따라서 이러한 환경은 매우 열악한 환경이며, OSS 하드웨어를 사용하면 워크스테이션에서 작업하고 있는 것과 동일한 제품을 책상에서 실제로 이러한 차량에 넣을 수 있습니다. 대부분의 실제 엣지형 애플리케이션을 살펴보면 여전히 3세대 PCI Express를 사용하고 있거나 저전압 프로세서를 사용하고 있어 원하는 성능이 저하되는 경우, 즉 워크스테이션에서와 동일한 성능을 원하지만 차량에서도 이를 구현하고자 하는 경우가 있습니다. 바로 이 점이 이 솔루션의 진정한 가치입니다.

Nicolette

500테라바이트와 같은 대용량 데이터를 전송하는 문제를 해결하는 것이 매우 중요하다는 것을 알고 계시죠? 귀사의 솔루션이 이 문제를 어떻게 해결하는지 좀 더 자세히 설명해 주시겠어요?

Jim

가장 큰 문제는 런던에서 뉴욕으로 가는 항공기 비행에서 페타바이트의 데이터를 얻을 수 있다는 것입니다. 방금 TK242를 매우 빠른 속도로 수집하고 7, 8시간 동안 계속 수집한 데이터를 디스크나 디스크 세트에 보관하고 있다는 것입니다.

그래서 우리가 가지고 있는 솔루션 중 하나는-클라우드로 전송하여 처리하는 데 몇 주가 걸릴 수 있다고 말씀드렸습니다만-대부분의 시스템에는 데이터 캐니스터라는 것이 있습니다. 따라서 이 솔루션이 테스트된 SDS 서버에는 최대 60테라바이트 드라이브까지 수용 가능한 두 개의 데이터 팩이 있으며, 이제 페타바이트에 근접해 있습니다. 이제 페타바이트에 달하는 데이터 세트를 유선으로 가져오는 데 2주가 걸리는 대신 이 두 개의 드라이브 팩을 꺼내서 실제로 전 세계 어디로든 밤새 FedEx로 보낼 수 있습니다.

따라서 이 데이터 팩 개념은 항공기에 착륙하여 드라이브 팩을 꺼내서 공항에 있는 데이터 센터나 데이터 허브에 연결하면 모든 데이터가 업로드되어 매우 빠르게 사용할 수 있도록 해줍니다.

Bryan

세르게이에게 질문이 있습니다. 예를 들어 PCIe 레인을 8개만 사용할 수 있는 경우 어떻게 128개까지 확장하나요? 어떤 확장기를 사용하시나요?

Jim

링크와 레인을 혼동한 것 같아서 좋은 질문이었어요.

PCI Express를 사용하면 데이터를 수집하기 위해 4개 또는 5개의 x16 슬롯 또는 x8 슬롯에 비트웨어 카드를 넣을 수 있습니다. 하지만 더 많은 카드로 확장해야 하는 경우 PCI 익스프레스 스위치를 사용하여 이러한 제품 중 일부를 가져옵니다(이 제품은 Atomic Rules가 매우 빠른 속도(150나노초 수준의 지연 시간으로 거의 눈에 띄지도 않고 버퍼링 프레임이나 그와 비슷한 것도 없음)로 수행하는 모든 DMA도 지원합니다)...하지만 PCI Express 스위치를 사용하면 두 번째 섀시(확장기라고 부르는)로 이동하여 더 많은 슬롯을 확장할 수 있으므로 단일 SDS 서버에서 이야기했던 것보다 훨씬 더 큰 데이터 세트가 있는 경우 더 많은 카드를 추가하거나 GPU를 추가하거나 NVMe 드라이브를 추가할 수 있습니다.

따라서 솔루션 확장 방법에 대해 이야기할 때 언급했던 것은 스위칭을 통해 얻을 수 있는 PCI Express 팬아웃에 관한 것입니다.

Bryan

따라서 소음도 중요한... 죄송합니다.

(니콜레트) 아니, 아니, 계속하세요.

(브라이언)...고성능 애플리케이션을 기반으로 하는 차량에서 중요한 문제가 될 수 있나요? 이를 해결하기 위해 원스톱 시스템에서는 어떤 혁신이나 조치를 취했나요?

Jim

잠수함형 애플리케이션에 대해 이야기하자면 우선 잠수함, 특히 군용 잠수함이고 사람들이 있는 경우 잠수함 안에서는 조용하고 싶을 것입니다. 그리고 요즘 서버실에 들어가면 85데시벨 이상의 큰 소리를 지르게 될 것입니다. 모든 사람은 귀마개 등을 착용해야 하며, 수중에서 은밀하게 활동할 때는 그런 소음을 견딜 수 없습니다.

따라서 앞서 이야기한 SDS 서버에는 더 나은 효율의 액체 냉각을 사용하는 독립형 액체 냉각 옵션이 있습니다. 따라서 서버에 바로 있는 열 교환기는 좁은 애플리케이션과 우리가 이야기하는 이러한 차량에 맞출 수 있도록 이 짧은 깊이 패키지에 그대로 유지되지만 소음 수준을 85dB에서 사무실의 수다스러운 환경과 비슷한 60~65로 낮추어 실제로...... 하이엔드 서버의 지속적인 드론으로 인해 미쳐 버릴 수 없습니다.

그래서 우리는 이러한 유형의 데이터 센터형 제품을 이러한 차량 애플리케이션에 적용하기 위해 냉각과 전력을 핵심 요소로 삼았으며, 심지어 액체 침수 냉각을 레퍼토리에 추가하기까지 했습니다. 액체 냉각 탱크에 이 모든 것을 담그고 3년 동안 외부에서 작동하면서 데이터를 수집하고 기록할 수 있는데, 그 수준에서 일정한 온도와 소음 없이 모든 것을 건드릴 필요 없이 데이터를 수집하고 기록할 수 있기 때문입니다.

Nicolette

좋아요, 몇 가지 질문이 더 있습니다. 이제 몇 분 남지 않았어요. 셉, 어디 보자... 네, 이걸로 하죠, 셉.

TK242가 PCAP 포맷을 오프로드한다고 언급했는데, 명확히 하기 위해 리눅스 시스템에서 libpcap이 작동하지 않는다는 뜻인가요? 그리고 제가 제대로 발음했는지 알려주세요.

Shep

(웃음) 알파벳 수프인 건 알지만 모든 것을 정확하게 말씀하셨어요.

혼란스러우시겠지만... 혼란스러울 필요는 없습니다: libpcap은 훌륭합니다. 소프트웨어 API이고 Linux에서 실행되며 아마도 Windows에서도 실행될 것입니다. PCAP 파일을 만들든 디코딩하든 소프트웨어 API이며, 소프트웨어에서 실행되고 사이클을 사용합니다. 들어오는 길과 나가는 길에 데이터 스트림의 모든 바이트에 영향을 미칩니다.

데이터의 어떤 단계에서도 호스트가 개입하지 않도록, 즉 데이터가 들어오는 도중에 또는 들어오는 도중에도 호스트가 개입하지 않도록 하드웨어에서 오프로드하여 호스트가 할 수 있는 일이 없도록 합니다.

대신 TK242에서 P to PCAP 엔진을 제거하고 NIC처럼 DMA 데이터만 호스팅할 수 있을까요? 물론이고 사람들은 그런 방식으로 IP를 사용합니다. 200기가비트 성능을 얻지 못할 것입니다. 코어 수가 엄청나게 많은 가장 빠른 AMD 및 Intel 프로세서도 그 속도에서는 질식할 것이며 모든 소프트웨어 지터가 발생할 것입니다.

다시 한 번 요약하자면, libpcap은 훌륭하게 작동합니다. 소프트웨어 애플리케이션이며, 그 역할을 다하고 있습니다. 데이터를 건드리면 데이터가 삭제될 가능성이 있는 실시간 캡처 시스템에는 적합하지 않습니다.

Nicolette

좋아요, 다른 질문이 있습니다.

(브라이언) ... 채드가 직접 대답한 것 같지만...

(니콜레트) 아니요, 다른 질문이 있습니다.

(브라이언) 알았어요, 하나 더 있어요! (웃음)

(니콜레트) 베어메탈에 대해 잠시 다시 설명해 보겠습니다. FPGA와 관련하여 "베어 메탈"이라는 용어를 듣고 읽었는데, 잠시 시간을 내어 그 개념을 설명해 주실 수 있는지 궁금합니다.

Chad

네, 물론이죠. 그래서 베어 메탈은... 지금은 대부분 그렇게 들립니다(수년에 걸쳐 상황이 바뀌었습니다). FPGA는 말 그대로 로직 셀만 있었기 때문에 누군가가 직접 모든 것을 구현해야 했습니다.

요즘에는 PCIe 및 DDR 컨트롤러와 이더넷을 위한 하드 IP 블록이 있습니다. 그리고 비트웨어는 개발 시간을 단축하고 하드웨어를 테스트하기 위해 여러 FPGA 설계자가 이러한 블록을 적절하게 파라미터화(블록 간 통신 방법을 알고 있어야 함)하여 그 안에 예제나 카드 테스트를 구현하는 일종의 로직 셀, 즉 그 사이에 있는 빈 로직 셀을 구현합니다.

하지만... 딱딱한 IP 블록 사이에 노출되어 있다는 사실 덕분에 Atomic Rules는 빈 로직 셀인 FPGA 내부의 방대한 리소스를 활용하여 원하는 용도에 맞게 고도로 맞춤화된 솔루션을 구현할 수 있습니다. 이것이 바로 FPGA 카드가 다양한 시장에서 활용도가 높은 이유입니다. 다양한 애플리케이션에 맞게 다양한 방식으로 구성할 수 있기 때문입니다.

Nicolette

감사합니다, 채드. 여러분, 청중들로부터 좋은 질문을 많이 받았습니다. 브라이언과 제가 몇 가지 질문이 있습니다. 저희가 질문하지 않은 것 중에 꼭 물어봐야 한다고 생각하시는 게 있나요? (잠시 멈춤) 셉이 생각해낼 수 있을 것 같아요!

(브라이언) (웃음) 저기서 셉이 처리하는 게 보이네요.

Shep

물론 채드와 짐을 비롯한 다른 온라인 사용자들도 질문이 들어올 수 있지만, 베어 메탈에 대한 채드의 의견에 편승하여 생각해 볼 만한 가치가 있기 때문에 제가 답변하겠습니다.

턴키 솔루션인 TK242를 사용하면 TK242의 마케팅 관점인 "Phooey FPGA! RTL 룩업 테이블이 없다... 모두 나쁘다!"라는 마케팅 관점이 없습니다.

우리는 비트웨어의 카드 위에 우리의 아이덴티티, 즉 비트스트림을 탑재하고 이 한 가지 일을 정말 잘하는 페르소나를 취합니다.

그리고 이러한 기능에 관심이 있는 사람이라면 누구나 "할렐루야!"라고 외칠 수 있습니다. 그 모든 R&D와 다른 모든 것 대신 COTS의 모든 가치를 누릴 수 있습니다.

하지만 OSS...비트웨어...아토믹 룰즈: 이 통화에서 여러 번 말했듯이 우리 모두는 반대편이 있습니다. TK242: 어떤 면에서는 모든 IP를 통틀어 아토믹 룰즈의 최고 히트작과도 같습니다.

"와우! 우리가 압축이나 암호화 또는 RF 신호의 다운 컨버전이나 기타 리터니 패킷 프로세스에 대한 비밀 소스를 내부에 넣을 수 있다면..."이라고 말하는 이 통화에 참여한 사람들의 예리한 시각을 잘 알고 있습니다.

TK242는 그렇게 하려는 것이 아닙니다... 하지만 그 이미지를 거꾸로 뒤집어 "우리가 당신의 비밀 소스를 넣을 수 있습니다!"라고 말함으로써 작업을 완료할 수 있는 파트너 측면에서 BittWare, OSS, Atomic Rules와 함께 적절한 사람들과 이야기하고 있는 것이 확실합니다. 하지만 다시 한 번 말씀드리지만, 턴키 설계가 아닌 다양한 구성 요소를 조합하고 구성 요소 IP로 더 빠르게 시장에 출시하는 것은 턴키 설계가 아닙니다.

그러니 채드, 제가 베어메탈에 대해 말한 것이 오해가 아니었으면 좋겠네요.

아토믹 룰즈 팀은 FPGA로 그림을 그릴 수 있는 캔버스를 좋아합니다. 그리고 오늘날 Nvidia 및 기타 업체의 GPU와 호스트 프로세서 간의 다양한 이기종 프로세서 세트로 인해 시스템 소프트웨어와 RTL은 그 어느 때보다 긴밀하게 협력하고 있습니다.

이는 단순한 FPGA 문제나 시스템 문제가 아니며, TK242가 단순한 비트스트림이 아닌 이유이기도 합니다. TK242는 비트스트림이라기보다는 패킷 캡처 작업을 수행하는 Linux 서비스에 가깝습니다(다시 말하지만, Atomic Rules의 담당자에 따라 다릅니다).

따라서 베어메탈은 항상 그 분야에 뛰어들고 싶어 하는 사람들을 위해 존재한다고 생각합니다. 볼륨이 충분히 높다면 ASIC에 대해 이야기하고 장갑을 벗고 본격적으로 시작해보겠습니다(모두가 알고 있는 사실이지만).

하지만 오늘 이 강연에서 제가 마무리하고 싶은 중요한 요소는 오늘 이 자리에 모인 모든 공급업체가 제공하는 이러한 부품의 COTS 공급이 패킷 캡처 프로세스를 어떻게 민주화하여, 이 작업을 시작하려는 사람이 엄청난 시간이나 막대한 경제적 장애물에 직면하지 않고 부가가치(데이터를 캡처하고 확보하여 무언가를 할 수 있는지)를 창출할 수 있는지 확인하는 것입니다.

Chad

네, 정곡을 찌른 것 같아요, 셰프. 다른 사람이 백엔드에 볼트로 고정하고 원하는 대로 할 수 있는 IP 블록을 제공하거나, FPGA를 프로그래밍하는 방법을 모르는 고객에게 이러한 카드(특히 이 솔루션)를 판매할 수 있는 것은 Atomic Rules와 같은 회사입니다. 이미 준비된 "턴키" 솔루션이기 때문에 고객은 알 필요가 없습니다. 제 말은... 그가 말했듯이 이름 그대로입니다.

최종 사용 사례, 배포하려는 파트너의 다른 IP에 따라 다르며, 이전에 아무도 해보지 않은 일을 하려는 사람이라면 실제로 프로그래밍할 수 있도록 베어 메탈로 된 것을 원할 것입니다. 하지만 정곡을 찌른 말이죠.

Bryan

오늘 라이브 채팅에 참여해 주셔서 감사합니다. 스폰서 여러분께도 감사드립니다: 마우저 일렉트로닉스, 비트웨어, 그리고 훌륭한 패널 여러분께 감사드립니다. 모두 좋은 하루 되세요.

(모두) 감사합니다!