BittWare 웨비나

^인텔® 애자일렉스™ FPGA를 사용한 아크빌 PCIe Gen4 데이터 무버 웨비나 웨비나

아토믹 룰즈의 아크빌 IP는 최근 업데이트되어 비트웨어의 최신 IA 시리즈 제품을 포함한 인텔 애자일렉스 FPGA를 지원합니다. 아크빌은 PCIe Gen4 x16을 통해 최대 220Gb/s의 속도로 데이터를 이동합니다.

이 웨비나에서는 인텔 Agilex FPGA를 지원하는 제품과 다양한 시장에서의 데이터 무버 IP 활용에 대해 BittWare의 Jeff Milrod가 설명합니다. 인텔의 Tom Schulte는 PCIe Gen5 지원과 같은 향후 기능을 포함한 Agilex 제품 라인에 대한 관점을 제시합니다.

마지막으로 Atomic Rules의 셰프 시겔이 데모를 시연하고 Agilex FPGA에서 Arkville 데이터 무버 IP로 단시간에 달성한 성능을 설명합니다. 그는 아크빌이 어떻게 성능 저하 없이 시장 출시 기간을 단축하고 개발을 더 쉽게 할 수 있는지에 대한 인사이트를 제공할 것입니다.

라이브 이벤트의 녹화 Q&A 세션을 포함한 아래 웨비나를 시청하세요.

스피커

Jeff Milrod | 최고 기술 및 전략 책임자, BittWare

Thomas M. Schulte | 제품 라인 관리자, FPGA 제품, 인텔® 프로그래머블 솔루션 그룹

셰퍼드 시겔 | CTO, 원자 규칙

비디오 대본

웨비나에 오신 것을 환영합니다: 인텔 FPGA를 사용한 아크빌 PCIe 4세대 데이터 이동. 저는 비트웨어의 마커스입니다.

발표자와 발표 내용을 간략하게 소개해 드리겠습니다.

첫 번째 발표자는 비트웨어의 최고 기술 및 전략 책임자인 제프 밀로드입니다. 그는 Agilex FPGA를 특징으로 하는 BittWare 제품 라인에 대해 설명하고 BittWare의 IP 파트너 및 솔루션에 대해 간략히 소개할 예정입니다.

다음으로 인텔의 톰 슐트(Tom Schulte )가 데이터 이동을 위한 향후 기능 중 일부를 포함하여 인텔 애자일렉스 FPGA에 대해 집중적으로 설명합니다.

아토믹 룰즈의 셰프 시겔과 함께 마무리하겠습니다. 셉은 인텔 애자일렉스 FPGA가 탑재된 비트웨어의 IA-840F 카드에서 실행되는 Gen4 x16 데이터 이동 데모를 비롯하여 아크빌에 대해 설명합니다.

잠시 후 다시 생방송으로 질문을 받도록 하겠습니다.

이제 Jeff가 시작하겠습니다!

Jeff Milrod | 최고 기술 및 전략 책임자, BittWare

안녕하세요, 여러분. 오늘 함께 해주셔서 감사합니다. 방금 Marcus가 말씀드렸듯이 저는 BittWare의 최고 기술 및 전략 책임자인 Jeff Milrod입니다. 저희를 잘 모르시는 분들을 위해 말씀드리자면, 비트웨어는 몰렉스의 일부입니다. 특히 데이터 통신 및 특수 솔루션 그룹 내 사업부입니다. 이 슬라이드에서 볼 수 있듯이 Molex의 일원으로서 사내 제조 및 글로벌 물류 역량을 활용할 수 있습니다.

비트웨어는 현재 다양한 시장에서 30년 이상의 FPGA 경험과 전문성을 보유하고 있습니다. 그 기간 동안 엔터프라이즈급 FPGA 하드웨어 플랫폼뿐만 아니라 시스템 통합, 툴 지원, 레퍼런스 디자인 및 애플리케이션 IP를 포함하여 고객이 낮은 위험으로 신속하게 솔루션을 배포할 수 있도록 제품을 확장해 왔습니다. 당사는 인텔 파트너 얼라이언스 프로그램의 일원으로 지난 20년간 모든 세대의 알테라 및 인텔 FPGA를 탑재한 하이엔드 FPGA 가속기와 보드를 개발해 왔습니다.

Molex를 통한 전통, 전문성 및 글로벌 범위의 결합은 고객이 FPGA 기술을 활용하고 배포하여 까다로운 애플리케이션 및 워크로드를 처리할 수 있도록 지원하는 BittWare의 독보적인 자격을 부여합니다. 크게 보면, BittWare의 가속 플랫폼은 컴퓨팅, 네트워크, 스토리지 및 센서 처리의 네 가지 애플리케이션 및 시장 영역을 대상으로 합니다. 이러한 각 애플리케이션과 시장은 복잡하고 다양한 워크로드를 다루고 있으며, 여기에서는 몇 가지 예를 보여드리겠습니다.

개인적으로 저는 수십 년 동안 비트웨어에 근무해 왔으며, 그 기간 동안 사람들이 가속화된 솔루션을 개발하고 배포할 수 있는 견고한 하드웨어 플랫폼을 제공함으로써 FPGA 가속기의 첨단 물결을 타는 데 주력해 왔습니다. Agilex는 7세대 Altera/Intel 기반 FPGA 솔루션이 될 것이며, 그 동안 새로운 기술 세대에 대해 지금처럼 흥분했던 적이 없었습니다.

성능 면에서 비약적인 발전을 이룬 이 엔진은 사용자가 과거보다 훨씬 더 많은 애플리케이션과 워크로드를 가속화할 수 있도록 지원할 수 있을 것으로 생각합니다. 인텔의 애자일렉스 FPGA의 첫 번째 물결은 비트웨어가 여기에 표시된 적절한 이름의 F 시리즈 제품군을 생산하는 데 활용한 F 시리즈입니다. 앞으로 I 시리즈와 M 시리즈 부품도 출시할 예정입니다... 이에 대해서는 잠시 후에 다시 설명하겠습니다.

주력 제품은 왼쪽에 표시된 IA-840f입니다. 이 제품은 현재 사용 가능한 Agilex 중 가장 큰 AGF027이 특징입니다. 이 제품은 PCIe Gen4 x16을 갖춘 GPU 크기의 카드입니다. 따라서 현재 전 세계 어디에서나 사용할 수 있는 FPGA에서 호스트까지 가장 큰 대역폭을 제공합니다.

전면에 3개의 QSFP-DD가 있어 6레인의 100GbE를 구현할 수 있으며, 다른 형식에도 사용할 수 있습니다. 뒤쪽에는 16레인의 확장 포트가 있어 스토리지 어레이나 기타 장치에 연결할 수 있고 보드 간 통신을 확장하는 데 사용할 수 있습니다.

하드웨어 플랫폼에 제공하는 부가가치의 핵심 부분인 보드 관리 컨트롤러를 보유하고 있습니다. 물론 한API를 비롯한 인텔의 세계적 수준의 도구도 지원합니다.

오른쪽에는 특수 애플리케이션에 더 적합한 두 개의 보드가 있습니다. IA-420F는 컴퓨터 스토리지 어레이, 컴퓨터 스토리지 처리, 무선 액세스 네트워크 등 다양한 애플리케이션에 사용할 수 있는 NIC 크기의 카드로, 이 작은 크기의 카드에는 다양한 용도로 사용할 수 있습니다.

그리고 맨 오른쪽에는 U.2 SSD 드라이브 형식의 IA-220-U2가 있습니다. 이 제품은 특히 전산 스토리지 처리 애플리케이션을 대상으로 합니다.

이러한 모든 보드와 모든 BittWare의 하드웨어 보드는 엔터프라이즈급 기반 위에 구축되었습니다. 즉, 위험을 줄이고 완화하는 잘 정의되고 안정적이며 신뢰할 수 있는 플랫폼을 의미합니다.

매우 포괄적이고 철저한 모든 규정 준수 및 인증, 구성에 대한 엄격한 관리 및 제어, 명확하고 간결한 문서, 작업 데모 제공, 이에 액세스할 수 있는 소프트웨어 도구, 광범위한 지원 기능을 갖추기 위해 항상 노력해 왔습니다. 오른쪽에 표시된 엔터프라이즈급 카테고리의 각 항목은 그 아래에 여러 체크리스트가 있는 상위 레벨로, 신뢰할 수 있고 안정적인 전체 프로덕션 품질 보드를 출시하기 전에 구현하고 엄격하게 검증합니다.

유니티의 애플리케이션 솔루션 지원 팀은 FPGA 내에서 구현해야 하는 많은 세부 사항과 세부 사항을 처리하기 위해 하드웨어 위에 더 높은 수준의 추상화를 지속적으로 개발하고 있으며, 이를 게이트웨어 개발이라고 부르며 이러한 게이트웨어 요소와 통신하는 호스트의 소프트웨어를 개발하고 있습니다.

여기에는 웹사이트에서 제공하는 백서, 사례 연구, 예제 및 레퍼런스 디자인 중 일부가 소개되어 있습니다. 더 많은 자료가 있습니다.

플랫폼 구현을 위한 이 IP 로드맵은 비트웨어가 Agilex FPGA에 추가하는 가치에 매우 중요합니다. 우리의 전반적인 목표는 고객이 어려움을 겪고 있는 PCIe, 이더넷 및 NVMe 인프라를 공급하고 이러한 문제를 해결하는 것입니다.

저희는 내부 개발뿐만 아니라 주요 서드파티와 협력하여 아크빌과 잠시 후에 소개할 DPDK 데이터 무버와 같은 세계 최고 수준의 특정 구현을 제공하고 있습니다. 이 목록은 현재 작업 중인 모든 사항의 목록이며, 내년에 Agilex 플랫폼이 성숙해짐에 따라 출시될 예정입니다.

몇 년 전만 해도 우리는 빈 FPGA 또는 지금은 베어 메탈이라고 부르는 제품을 판매하곤 했습니다. 그러면 고객은 많은 시간을 들여 전체 FPGA를 소비하도록 확장되는 고객 애플리케이션 IP를 개발했습니다. 그리고 우리는 여전히 그런 식으로 생각하고 있으며, 사람들은 이 커널이나 워크로드에 대한 모든 작업이 이 FPGA로 옮겨져야 한다고 생각하는 경향이 있지만, 결국 FPGA의 크기, 복잡성, 정교함, 성능이 증가함에 따라 메모리, 센서, 네트워크, 호스트 통신, 보드 관리 컨트롤러, 시스템 통합에 대한 확장 I/O를 연결하는 하위 레벨 구현이 점점 더 많은 설계 리소스와 기능을 소비하고 있다는 사실을 알게 되었습니다.

저는 이를 배관이라고 부르며, 게이트웨어 배관은 이러한 정교한 FPGA에서 이 애플리케이션 솔루션 지원으로 제공하는 부가가치의 핵심 부분으로, 고객이 FPGA의 하드웨어, I/O, 마지막 미크론, 제가 부르는 대로 비트웨어 하드웨어의 보드 레벨 구현에 대해 자세히 알아볼 필요가 없도록 해줍니다.

물론 고객이 직접 하기를 원한다면 모든 것을 제공하지만, 커널에서 메모리, 호스트, 네트워크에 이르는 모든 추가 복잡성을 처리하기보다는 고객의 고유한 애플리케이션 IP와 해당 워크로드 및 애플리케이션의 고유한 부가가치에 더 집중할 수 있도록 엔터프라이즈급 플랫폼의 일부로서 모든 것을 완료하고 입증했습니다.

그 대표적인 예로 아토믹 룰즈와 호스트에 대한 아크빌 DPDK 데이터 무버를 들 수 있는데, 이 엔진을 통해 최고의 성능과 CPU 오프로드를 경험했습니다. 이에 대해서는 잠시 후에 설명하겠습니다. 하지만 셉이 그 이야기를 시작하기 전에 이 Agilex FPGA와 인텔이 제공하는 제품에 대한 더 나은 기반을 제공하는 것이 적절하다고 생각합니다. 그럼 이제 톰에게 이 자리를 넘기겠습니다. 모두 감사합니다.

Thomas M. Schulte | 제품 라인 관리자, FPGA 제품, 인텔® 프로그래머블 솔루션 그룹

감사합니다, Jeff. 앞서 Jeff가 몇 개의 슬라이드를 통해 언급했듯이, 새로운 프로덕션 품질의 BittWare 가속기 카드는 인텔의 최신 Agilex FPGA를 기반으로 합니다. 여기에서는 Agilex 제품군에서 제공되는 몇 가지 중요한 기능을 강조했습니다.

이 디바이스는 2세대 인텔 하이퍼플렉스 아키텍처와 인텔의 10nm 슈퍼핀 공정 기술을 기반으로 제작되었으며, 이전 세대 인텔 FPGA에 비해 상당한 성능 향상과 전력 절감 효과를 입증했을 뿐만 아니라 경쟁사의 7nm FPGA와 비교했을 때에도 상당한 성능 향상과 전력 절감 효과를 입증했습니다.

이 웨비나에서는 이러한 기능을 모두 검토하지는 않고, 대신 사용 가능한 새로운 CPU 인터페이스 프로토콜인 PCI Express Gen5와 일반적으로 CXL로 약칭되는 컴퓨팅 익스프레스 링크에 초점을 맞춰 설명하겠습니다.

인텔 애자일렉스 제품군 중 일부의 경우, 해당 장치는 포트당 최대 x16 레인으로 구성된 PCI Express의 전체 대역폭을 지원하므로 동급 구성의 Gen4 장치와 비교했을 때 2배 더 많은 대역폭을 제공합니다.

호스트 CPU에 다시 일관된 인터페이스를 연결할 필요가 없는 가속화된 사용 사례 및 워크로드의 경우, PCI Express는 고성능 애플리케이션을 위한 업계 전반의 표준이며 앞으로도 FPGA 기반 가속기의 핵심 빌딩 블록이 될 것입니다.

인텔 애질렉스 FPGA의 일부 제품군의 경우, 이러한 장치는 CXL 프로토콜의 전체 대역폭을 지원합니다. 또한 포트에 대해 최대 x16 레인을 지원하므로 PCI Express 프로토콜에 비해 지연 시간이 짧고 일관된 인터페이스를 제공합니다. 특히 메모리 관련 트랜잭션에 크게 의존하는 가속화 사용 사례 및 워크로드의 경우, CXL 인터페이스는 많은 고성능 애플리케이션에 활용될 것으로 보입니다.

이는 두 가지 주요 지표를 바탕으로 확인할 수 있습니다. 첫째, 컴퓨트 익스프레스 링크 컨소시엄에 가입한 100개 이상의 기업 수입니다. 둘째, CXL 기반 제품 및 솔루션을 제공할 계획이 있는 고객의 수입니다.

PCI Express Gen5와 CXL의 세부 사항도 흥미롭지만, 실제로 실리콘을 확보하고 이러한 인터페이스를 실행하는 것은 훨씬 더 좋습니다. 다양한 인텔 팀에서 코드명 사파이어 래피즈로 불리는 새로운 차세대 인텔 CPU 기반의 새로운 플랫폼을 구현하는 데 필요한 하드웨어 및 소프트웨어의 엔지니어링 샘플을 테스트, 특성화 및 출시하고 있습니다.

이러한 플랫폼 외에도 많은 고객들이 이미 이 두 가지 새로운 인터페이스를 지원하는 Agilex FPGA의 엔지니어링 샘플을 받았습니다.

실제로 모든 사파이어 래피즈 CPU를 테스트하는 데 사용되는 내부 하드웨어 중 일부는 인텔 애자일렉스 FPGA를 기반으로 합니다.

Agilex FPGA는 각각 다른 애플리케이션을 대상으로 하는 세 가지 시리즈로 분류됩니다. F 시리즈 디바이스는 초당 최대 58기가비트 트랜시버 지원, 향상된 DSP 기능 및 높은 시스템 통합을 결합하여 데이터 센터, 네트워킹, 에지, 임베디드, 산업, 군사, 심지어 무선에 이르기까지 광범위한 애플리케이션을 대상으로 합니다. 이는 Agilex 제품군에서 일종의 범용 디바이스 카테고리로 간주됩니다.

I 시리즈에는 고성능 프로세서 인터페이스와 대역폭 집약적인 애플리케이션에 최적화된 다양한 디바이스가 있습니다. 이 시리즈는 새로운 CXL 프로토콜, PCI Express Gen5 및 최대 116G의 트랜시버 대역폭을 지원하는 옵션을 제공합니다. I 시리즈 FPGA는 대규모 인터페이스 대역폭과 고성능을 요구하는 애플리케이션을 위한 강력한 선택입니다.

마지막으로 M 시리즈 디바이스입니다. 컴퓨팅 및 메모리 집약적인 애플리케이션에 최적화되어 있습니다. 이 시리즈는 F- 및 I- 시리즈에서는 사용할 수 없는 추가 기능을 제공합니다. DDR5, LPDDR 및 통합 HBM2 스택과 같은 기능입니다. Agilex M 시리즈 FPGA는 일반적으로 높은 대역폭과 더불어 많은 양의 메모리를 필요로 하는 고성능 컴퓨팅 애플리케이션과 같은 데이터 집약적 사용 사례에 최적화되어 있습니다.

이 페이지의 오른쪽 상단에 표시된 URL을 통해 인텔 Agilex FPGA에 대해 자세히 알아볼 수 있습니다. 이제 아톰 룰즈의 셰프가 아크빌 데이터 무버 IP와 함께 사용할 수 있는 아자일렉스 F 시리즈 프로덕션급 FPGA 기반의 비트웨어의 새로운 가속기 카드에 대해 설명합니다. 시작하겠습니다, 셉!

셰퍼드 시겔 | CTO, 원자 규칙

톰, 소개해 주셔서 감사합니다. 안녕하세요, 아톰 룰즈의 셰프 시겔입니다. 오늘 웨비나에 와주셔서 감사합니다. 아크빌에 대해 말씀드리게 되어 정말 기쁘고 기대가 큽니다. 오랜 시간 준비해 온 프로젝트이며, 이번 웨비나는 그 시작을 알리는 자리입니다.

애자일렉스의 아크빌: 제대로 작동하는 FPGA용 4세대 데이터 모션입니다. 먼저 아토믹 룰에 대해 조금 알아보겠습니다. 아크빌은 오래전부터 이 작업을 해왔습니다. 우리의 비즈니스 모델은 더 적은 일을 더 잘하는 것입니다. 우리가 만드는 몇 가지 주요 핵심 제품이 있습니다: 물론 오늘 소개할 아크빌은 UDP와 하드웨어를 처리하는 UDP 오프로드 엔진, 데이터센터의 여러 FPGA 장치에 일관된 시스템 시간 시계를 제공하는 TimeServo 및 TimeServo PTP입니다.

저희는 인텔 골드 파트너 인증 솔루션 제공업체로서 이를 매우 자랑스럽게 생각합니다. 또한 10년 넘게 오픈 소스 프로젝트, 엔지니어링 엔터프라이즈급 엔지니어링 솔루션에 기여해 왔으며, 네트워킹 IP 측면에서 컴퓨팅과 커뮤니케이션에 집중해 왔습니다. 그리고 저희의 성장을 가능하게 해준 소수의 엄선된 재방문 고객들이 있다는 사실에 정말 자랑스럽고 감사하게 생각합니다.

자, 이제 아크빌에 대해 알아보겠습니다. 아크빌은 DPDK 패킷 도관입니다. 즉, 호스트 메모리에 있을 수 있는 데이터를 FPGA의 스트림이나 호스트 메모리 풀로, 또는 그 반대로 호스트 메모리 버퍼로 상호 연결할 수 있는 방법입니다.

그리고 이러한 데이터 이동을 PCI Express를 통해 이동하는 데이터 스트림으로 용이하게 합니다. 소프트웨어 측의 API에서 PCI Express를 통해 FPGA로, 데이터가 생성되고 소비되는 AXI 스트림으로 내려가는 모든 복잡성이 추상화되기 때문에 이를 통로라고 합니다. 즉, DPDK(Linux Foundation의 일부)의 표준 API와 Intel Agilex 장치와 같은 FPGA 하드웨어를 사용하여 솔루션 출시 시간을 단축하고 솔루션 출시 시간을 단축할 수 있습니다. 인텔은 또한 호스트 측에서 실행하는 데 사용할 수 있는 일부 프로세서를 만들 수도 있지만, 이에 대해서는 다른 웨비나를 위해 남겨두겠습니다.

그렇다면 아크빌은 어디에 사용되나요? 아크빌은 호스트와 FPGA 디바이스 간에 데이터를 효율적으로 이동하거나 그 반대로 이동해야 할 필요가 있을 때마다 사용됩니다. 아크빌은 데이터 이동의 많은 복잡성을 추상화하는 빌딩 블록 구성 요소로, 아크빌 사용자가 SmartNIC 디바이스, 네트워크 어플라이언스 또는 DPDK 가속기와 같은 제품을 구축할 수 있도록 도와줍니다.

왜 DPDK인가요... 네트워킹을 위해서라고 들었는데요? 네트워킹을 위해 DPDK를 사용하는 것은 맞지만, 그보다 더 깊은 이유가 있습니다. DPDK는 오랫동안 사용되어 온 신뢰할 수 있는 API입니다. 최근에는 리눅스 재단에서 관리하고 있습니다. 커뮤니티의 검증을 거쳤고, 정기적으로 테스트를 거쳤으며, 네트워킹뿐만 아니라 대량 데이터 이동을 위한 오픈 소스 표준화된 솔루션이자 API 세트입니다.

아크빌은 DPDK를 사용하도록 설계함으로써 호스트 프로세서 주기를 확보하여 더 유용한 작업을 수행할 수 있도록 합니다. 커널 바이패스는 확실히 커널이 방해받지 않고 애플리케이션에 더 높은 처리량과 더 낮은 지연 시간을 제공하는 수단이지만, Arkville은 DPDK를 인식하지만(이 부분은 나중에 슬라이드에서 자세히 설명하겠습니다) DPDK의 데이터 이동 비즈니스 로직을 FPGA 게이트로 밀어 넣음으로써 처리량과 지연 시간을 모두 높일 수 있으므로 범용 프로세서 캐시 오염을 줄여 결과적으로 포스트코어 성능을 높일 수 있습니다.

따라서 DPDK는 네트워킹이 될 수도 있지만 FPGA 디바이스와 호스트 간의 단순한 대량 데이터 이동일 수도 있는 API로 강화할 워크로드가 있는 경우 매우 유용합니다.

아크빌의 핵심은 아크빌이 DPDK 사양의 로우레벨 내부 루프를 FPGA 하드웨어에서 구현한다는 것입니다... 즉, DPDK 사양을 RTL 게이트로 전환한 것입니다. 판매용 ASIC NIC를 포함한 다른 모든 DPDK 솔루션은 이 작업의 일부 또는 전부를 호스트 프로세서 코어에 푸시합니다. 아크빌은 처음부터 하드웨어에서 DPDK mbuf 데이터 구조를 조작하여 프로세서 코어가 이 작업을 수행할 필요가 없도록 설계했습니다. 하드웨어에서 이를 수행함으로써 높은 처리량과 결정론적인 짧은 지연 시간을 동시에 달성할 수 있는 독특한 이점이 있습니다. 또한 다음 슬라이드에서 볼 수 있듯이 호스트 코어 사용률도 거의 없습니다. 아크빌의 또 다른 장점은 데이터 모션을 위한 완벽한 솔루션으로 즉시 작동한다는 점입니다.

소프트웨어 엔지니어는 표준 API를 사용하여 데이터 버퍼를 생성하고 소비합니다. 하드웨어 엔지니어는 AXI 인터페이스에 연결합니다. 이 '당일 가동'이라는 사례를 실제 하드웨어에 설치하는 것은 물론 시뮬레이션하는 데 몇 주 또는 몇 달이 걸릴 수 있는 '자체 제작' 솔루션과 비교하고 대조해 보세요.

따라서 아크빌은 소프트웨어와 게이트웨어의 조합으로 제공됩니다. 완전한 오픈 소스이며 현재 DPDK.org에서 사용할 수 있는 DPDK 풀 모드 드라이버가 있고, 아토믹 룰즈가 라이선스를 제공하는 인텔 애자일렉스 FPGA 내부에 맞는 RTL 컴포넌트가 있습니다. 네임드 프로젝트와 멀티 프로젝트 라이선스가 있지만, 기본적으로 인텔 FPGA 내부에 들어가는 라이선스된 IP입니다. 이 두 가지가 함께 작동하여 앞서 말씀드린 데이터 이동 통로를 제공하여 데이터가 FPGA에서 호스트로 또는 그 반대로 이동할 수 있도록 합니다.

이 아이 차트 만화는 왼쪽의 호스트 프로세서와 오른쪽의 FPGA를 보여주며, 호스트 프로세서(일반적으로 제온 워크스테이션 또는 서버)와 FPGA(일반적으로 인텔 Agilex 장치)가 어떻게 분할될 수 있는지, 그리고 다른 구성 요소가 어디에 있는지에 대한 일부 하위 모듈을 보여줍니다. 면적이나 복잡성 측면에서 어느 정도 규모가 있는 것은 아니지만, 하단의 녹색과 빨간색 상자는 장치와 호스트 간 및 호스트와 장치 간 데이터 이동의 소스와 싱크, 즉 아크빌이 도관을 통해 전달하는 화폐의 목적지나 소스 또는 생산자나 소비자를 나타냅니다.

여기에는 패킷 크기에 따른 아크빌의 처리량을 보여주는 차트가 있습니다. 패킷 크기가 작을수록 처리량이 적다는 것을 즉시 알 수 있으며, 이는 PCI Express가 작은 패킷에 대한 오버헤드가 있기 때문에 당연한 사실입니다. 하지만 차트의 오른쪽에 집중하면 장치 간 및 호스트 간 전송 속도를 나타내는 파란색과 빨간색 선이 상단의 이론적 한계인 220Gb/s에 근접하고 심지어 그보다 조금 더 높은 속도에 도달하는 것을 볼 수 있습니다. 잠시 후 데모를 통해 더 자세히 살펴보겠습니다.

또한 아크빌은 매우 짧은 지연 시간(마이크로초 이하로 예상되는 고빈도 핀테크 거래 지연 시간이 아닌)을 제공하지만 FPGA와 호스트 간에는 항상 단위 마이크로초 지연 시간을 제공합니다. 특히 긴 패킷과 부하가 높은 상황에서 롱테일이 없다는 점은 마감 시간을 놓치는 것을 용납할 수 없는 vRAN과 ORAN 및 5G 애플리케이션에 중요한 가치입니다.

아크빌은 지연 시간이 짧을 뿐만 아니라 지연 시간 지터도 거의 없습니다. 어떻게 가능한가요? 아크빌은 캐시 및 기타 동적 수단을 통해 대규모 대기열을 지원하는 표준 DMA 엔진이 아니기 때문에 패킷이 도착하는 시점부터 호스트 메모리에 도착하는 시점까지(또는 그 반대) 결정론적 지연 시간을 갖습니다.

DPDK와 엠비프를 이동하는 데만 집중하는 이 특수성 덕분에 아크빌의 레이턴시 지터는 본질적으로 0이 될 수 있었습니다. 또한 아크빌은 호스트 프로세서가 할 일이 전혀 없다는 의미의 멤피(memcpy)가 없습니다. 패킷 데이터를 한 지점에서 다른 지점으로 이동하는 데 걸리는 주기가 제로입니다. 아크빌의 FPGA에 탑재된 RTL 하드웨어는 호스트가 데이터를 이동시킬 필요가 없도록 데이터가 정확히 MBuf에 위치하도록 보장하므로 애플리케이션에 더 많은 CPU 사이클을 확보할 수 있습니다.

이 그래프는 단일 mbuf에 맞는 패킷 크기에 대해 아크빌 PMD에서 패킷당 소요되는 시간이 20나노초 미만임을 보여줍니다. 이 경우 mbuf는 2KB에 불과합니다. mbuf 크기를 확장하면 페이지 오른쪽에서 이 평탄도가 계속 유지됩니다.

아크빌은 영원히 패킷이 끊기지 않습니다. 예를 들어 시스템이 돌에 부딪히지 않는 한 말입니다.

아크빌의 흐름 제어는 모든 도메인에 걸쳐 하드웨어와 소프트웨어를 전면적으로 제어합니다. 어떤 상황에서도 한쪽 끝에서 다른 쪽 끝으로 안전하게 전송할 수 없는 데이터는 허용되지 않으며, 그 반대의 경우도 마찬가지입니다. 다른 데이터 이동자가 따라잡을 수 없거나 장애 또는 재전송이 발생하면 패킷이 삭제됩니다. 저희는 하드웨어와 소프트웨어로 완벽하게 흐름을 제어하여 모든 조건에서 패킷 손실이 발생하지 않도록 합니다.

이제 며칠 전에 녹화된 사전 녹화 데모로 넘어가 아크빌이 어떻게 설치되고, 제온 서버에서 실행되는지 보여드리고, 그 후 질문과 답변으로 넘어가겠습니다 - 거기서 뵙겠습니다.

안녕하세요, 셰프 시겔입니다. 12월 10일 금요일에 있을 인텔/비트웨어/아토믹 룰스 아크빌 웨비나를 며칠 앞두고 미리 녹화한 데모입니다. 여기서 시연할 내용을 설명한 다음 데모를 보여드리겠습니다.

호스트 시스템으로 사용 중인 인텔 제온 프로세서와 테스트 중인 디바이스로 사용 중인 인텔 애자일렉스 FPGA가 있습니다. 이 슬라이드를 왼쪽 아래에서 자세히 살펴보면 데이터가 오가는 사용자-랜드 프로세서 메모리(기본적으로 데이터가 오가는 DRAM)와 오른쪽 아래 모서리에서 데이터가 오가는 FPGA 패브릭 메모리를 다시 볼 수 있습니다.

그 사이에는 4세대 x16 PCI Express가 Agilex 디바이스를 Xeon 호스트에 연결합니다. 이 데모에서 사용하는 부품은 Xeon 6346 프로세서가 장착된 Dell R750 서버(gen4 x16 PCIe 지원)입니다. 인텔 애자일 F 디바이스가 장착된 BittWare IA-840F, 그리고 이번 주 초에 출시된 아톰 룰즈의 21.11 릴리스인 아크빌도 사용했습니다.

데모에서 가장 먼저 보여드릴 것은 아크빌 스크립트입니다. 이 스크립트는 필요한 모든 라이브러리를 가져오고 DPDK를 다운로드 및 컴파일하며 호스트 시스템 측에서 필요한 것을 처리합니다. 다음으로 할 일은 (쿼터스 프라임 프로가 설치되어 있지 않은 경우) 이를 설치한 다음 make target make Agilex를 사용하여 RTL에서 Agilex 디바이스에 대한 비트 스트림을 컴파일하는 것입니다.

비트스트림이 준비되면 FPGA에 로드하고 의사 재부팅을 수행하기만 하면 됩니다. 비트스트림이 Agilex 디바이스의 플래시 메모리에 지속되도록 할 필요가 없습니다.

아크빌 배포판과 함께 배포되는 약 12개의 DPDK 애플리케이션이 있지만, 이 데모에서는 특히 TX(또는 다운스트림) 또는 RX(또는 업스트림) 처리량에 초점을 맞추겠습니다. 마지막으로 데모가 끝나면 데모 데이터를 성능 로그에 저장하고 해당 데이터를 플로팅해 보겠습니다.

좋아요. 이제 여기 프로젝트 디렉터리에서 시작해서 가장 먼저 할 일은 제공된 타르볼에서 아크빌 릴리스를 확장하는 것입니다. 여기 있습니다. 타르볼이 확장되었습니다. 다음으로 아토믹 룰즈 아크빌 설치 스크립트를 실행하여 필요한 라이브러리를 가져오고 DPDK를 다운로드 및 컴파일할 것입니다. 이제 라이브러리가 설치되는 것을 볼 수 있습니다. 이제 이 시점에서 DPDK.org에서 DPDK를 다운로드합니다.

DPDK를 다운로드하면 메손 닌자 컴파일 시스템을 시작할 수 있습니다.

데모의 이 부분은 실제로 실시간으로 보여주고 있는데, 테스트 문자열을 제외하고는 매우 빠릅니다... 항상 잠시 멈추지만 DPDK는 1분 안에 완료됩니다. 이제 DPDK가 설치되었고 계속 진행할 준비가 되었습니다.

이 시점에서 아크빌의 비트스트림을 Agilex F에 빌드해야 합니다. 따라서 하드웨어 타깃 디렉토리로 이동하여 make Agilex를 입력하기만 하면 모든 인텔 Agilex 타깃을 빌드할 수 있습니다.

먼저 Quartus 21.3이 설치되어 있는지 확인하겠습니다. 네, 됐어요, 시작합시다!

이 부분에서는 확실히 시간을 조금 줄였습니다. 전체 도구 흐름을 실행하여 비트 스트림을 빌드하는 데 약 30분에서 1시간 정도 걸립니다(디자인 크기에 따라 다름). 여기에는 6개의 서로 다른 디자인이 있으므로 현재로서는 그중 하나만 신경 쓰고 있습니다.

비트스트림이 완료되면 Dell 서버 내부의 BittWare IA-840f 카드에 다운로드합니다. 비트스트림을 다운로드하고 sudo 재부팅을 수행하여 시스템을 다시 시작합니다.

이제 시스템이 lspci에서 재부팅된 후 서버에 Arkville 장치가 표시됩니다. 이 장치는 슬롯 C-A(찰리 알파)에 있습니다.

이제 디바이스가 학습된 몇 가지 기능을 살펴보기 위해 확장된 lspci를 사용해 볼 수 있습니다. 여기서 우리가 찾고 있는 것은 화면이 앞뒤로 이동하지 않고 스크롤 막대를 관리할 수 있는지 여부이며, 처음에 보았던 원래의 lspci뿐만 아니라 디바이스가 실제로 Gen4 x16을 지원하는지 확인하는 것입니다. 여기에 강조 표시된 링크 기능 라인은 실제로 Gen4 x16 링크 상태를 달성했음을 의미하며, 이에 대한 교육을 완료했음을 의미합니다.

이는 우리가 좋은 출발을 하고 있다는 좋은 신호입니다. 이 작업이 완료되었으므로 이제 배포된 12개 정도의 DPDK 애플리케이션 중 하나로 넘어갈 수 있습니다. 수신 및 송신 성능과 시스템의 전이중 성능을 측정하는 일련의 테스트를 독립적으로 실행하는 Arkville Duplex 성능 테스트를 사용하겠습니다.

이 테스트에는 여러 차원이 있으며 다양한 반복을 통해 초, 분, 시간 또는 며칠 동안 실행될 수 있으므로 이러한 테스트 집합에서 데이터를 가져와 performance.log라는 파일로 가져올 것입니다. 이 성능 파일의 데이터를 가져와서 Google 스프레드시트 문서로 가져와서 도표를 만들고 자세히 살펴볼 수 있도록 하겠습니다.

플롯 데이터 로그가 있고 여기에 결과가 있습니다. 상단의 노란색 선, 즉 스카이라인은 이 하드웨어 및 소프트웨어 구성의 이론적 한계를 나타내며, 파란색과 빨간색 선은 각각 장치 대 호스트 및 호스트 대 장치 처리량을 나타냅니다. Y축은 초당 기가비트 단위의 유용한 처리량을 나타냅니다.

따라서 그래프의 왼쪽(지금 확대하거나 축소하고 있는 부분)은 패킷 크기가 더 작고 PCI의 512바이트 MPS로 인해 성능이 그다지 좋지 않습니다. 하지만 여기 오른쪽으로 이동하여 512바이트 또는 1킬로바이트 이상의 패킷 크기를 보면 업스트림 방향의 경우 처리량이 초당 200기가비트를 훨씬 넘고 다운스트림 방향의 경우 초당 180기가비트에 가까워지는 것을 볼 수 있습니다.

따라서 업스트림 측면에서는 상당히 칭찬할 만한 성능이며, 오른쪽의 점근 성능에서 볼 수 있듯이 약간의 개선의 여지가 있습니다.

하지만 전반적으로 이 그래프를 보면 아크빌이 애자일렉스 F의 이론적 성능에 훌륭하게 접근하고 있다는 것을 알 수 있습니다.

시간을 내어 이 데모를 시청해 주셔서 감사합니다. 이제 실시간으로 넘어가서 Marcus가 여러분 중 몇 분이 궁금해하실 질문과 답변을 이어가겠습니다.

다시 한 번 감사드리며 즐거운 휴일 보내세요.

Q&AMP;A

(Marcus)

Q&A 시간에 들어가기 전에 몇 가지 말씀을 드리고 싶었습니다.

오늘 웨비나에서는 인텔 애자일렉스 FPGA가 탑재된 비트웨어 IA-840f 카드에서 실행되는 아토믹 룰즈의 아크빌을 소개했습니다. 이에 대한 자세한 내용은 비트웨어, 인텔 또는 아토믹 룰즈 웹사이트에서 확인할 수 있습니다.

그럼 이제 몇 가지 질문부터 시작하겠습니다.

첫 번째 그래프는 방금 보신 셰프입니다. 그렇다면 아크빌의 최종 실적은 어떻게 될까요?

(셰프)

고마워요, Marcus. 그렇다면 최종적으로 예상되는 실적 수치는 어느 정도인가요?

(Marcus)

네, 성과 수치를 제시하고 업데이트 등을 언급하신 것 같아서요. 아마도 그런 의도가 있었을 겁니다.

(셰프)

네, 이해합니다. 따라서 시스템 수준에서 범용 프로세서, PCI Express와 같은 FPGA 상호 연결 네트워크와 관련된 성능은 어렵습니다. 원하는 모든 것을 시뮬레이션할 수 있지만 현실에서는... 일이 일어납니다. 초당 220기가비트라는 숫자를 자신 있게 내놓을 수 있는 이유는 지난 몇 달 동안 소비자 또는 워크스테이션급 로켓 레이크 시스템에서 초당 220기가비트가 안정적으로 작동하는 것을 확인했기 때문입니다. 아마 눈썰미가 좋은 분들 중 일부는 저희가 실행한 데모를 보면서 고성능 Dell 서버의 다운스트림 쪽, 즉 대형 제온 서버의 궁극적인 성능이 결국에는 로켓 레이크만큼 좋지 않다는 것을 알아차렸을 것입니다. 이는 아마도 NUMA 문제, QPI 문제 등으로 인한 것일 수 있습니다. 결국, 처리량과 관련하여 가장 좋은 벤치마크를 위한 최선의 방법은 - 이 하드웨어는 BittWare와 Intel에서 구할 수 있고 IP는 Atomic Rules에서 구할 수 있으므로 - 가능한 한 빨리 자체 상점에서 구입하여 사용하는 것입니다.

저희가 보유한 데모와 사전 녹화된 데모에서 보여드린 도구를 사용하면 자체 애플리케이션에서 명목상의 성능 수치로 간주되는 수치를 사용하는 것이 아니라, 자체 시스템에서 특수한 상황의 처리량과 같이 지속적인 처리량 수치를 확인할 수 있는 방법을 신속하게 보여드릴 수 있습니다(예: 처리량).

(Marcus)

네, 답변 감사합니다. 그리고 또 다른 질문은 아주 간단한 대답이 있을 것 같은데요, 쿼터스 사용자가 아크빌 IP를 어떻게 활용하나요... 플랫폼 디자이너/큐시스와 호환이 가능한가요?

(셰프)

맞습니다. 가장 쉬운 방법은... 플랫폼 디자이너 또는 한동안 이 도구를 사용해 온 사용자에게는 Qsys 플로우를 지원하는 것이지만, 완전한 직선형 SystemVerilog도 지원합니다. 또한 SystemVerilog 인터페이스의 간결한 특성과 쿼터스가 제공하는 시스템베릴로그 지원으로 인해 시스템베릴로그 또는 플랫폼 디자이너를 사용하는 표준 RTL 흐름이 지원됩니다. 따라서 아크빌은 다른 코어와 마찬가지로 Agilex 장치에 인스턴스화됩니다.

(Marcus)

아마도 셉의 경우겠죠: PCI Gen5와 CXL을 지원하기 위한 Arville RTL IP의 로드맵은 무엇이며 성능 수치는 어떻게 될까요?

(셰프)

좋은 질문입니다. 물론 오늘 보여드리는 성능은 Agilex F와 Gen4 x16을 사용한 것이며, Gen3 x16보다 처리량을 두 배로 늘리고 싶다는 요구가 많았기 때문에 이 첫 걸음을 내디딜 수 있게 되어 기쁘게 생각합니다.

하지만 문제는 Gen5의 앞날이 어떻게 될까요? Gen5 x16으로 전환하면 성능을 다시 두 배 이상 향상시킬 수 있을 것으로 기대합니다. 우리는 한동안 인텔과 긴밀히 협력해 왔으며, 이 중 핵심적인 부분은 주파수 확장이 오래 전에 중단되었다는 점과 무관하지 않습니다...많은 부분이 아키텍처 혁신과 관련이 있습니다...그리고 여기서 우리 엔지니어링 팀의 자랑을 조금 하자면(하지만 인텔의 지원 없이는 불가능했습니다), 현재 버전과 향후 Gen5를 지원할 버전 모두에서 Agilex는 클럭 사이클당 여러 개의 PCI TLP가 이동할 수 있다는 점입니다. 현재 Agilex F-시리즈를 사용하면 500MHz에서 클록 사이클당 최대 10억 개(죄송하지만 정정합니다)의 TLP(수신에 2개, 송신에 2개)를 이동할 수 있습니다.

5세대와 I-시리즈 R-Tile을 통해 다시 두 배로 늘릴 수 있습니다. TLP 수를 두 배로 늘린다고 해서 대역폭이 반드시 두 배가 되는 것은 아니지만, 아크빌 IP를 더 스마트하게 만들 수 있습니다... 장황하게 설명해서 죄송합니다만, Gen5에 대한 짧은 대답은 대역폭과 처리량이 큰 증가 없이 다시 두 배가 될 것이며 지연 시간은 줄어들 수 있다는 것입니다.

이제 질문은 CXL에 대해서도 다루었습니다. CXL은 완전히 다른 문제입니다. 지난 수십 년 동안 전 세계가 이기종 컴퓨팅이 좋은 아이디어라는 것을 알게 된 것처럼, 이기종 통신도 좋은 아이디어입니다. 그리고 PCI가 다루는 대량 데이터 이동과 패킷 데이터 이동을 위한 장소가 있고, CXL을 위한 장소도 있습니다.

아크빌의 입장(그리고 인텔의 기술과의 상호 연결성: Agilex 내부에 있는 기본 P-Tile 및 R-Tile 기술)은 향후 CXL 솔루션과 함께 작업하는 것을 배제하지 않습니다... 그러나 우리는 너무 앞서 나가고 있습니다. 저희는 단지... 지난 5년 동안 아크빌을 출시하며 젠4 x16에 대한 수요와 열망을 충족시킨 끝에 오늘 이 자리에 오게 되어 기쁘고, 젠5 x16과 CXL에 뛰어들기 전에 잠시나마 이를 즐길 수 있기를 바랍니다.

(Jeff)

셉, 여긴 제프예요. 많이 쉬지 못할 거예요. 앞서 말씀드린 것처럼 현재 4세대인 F시리즈 부품이 출시되었습니다. 그리고 Tom이 조금 전에 이야기한 I-시리즈와 M-시리즈 부품도 곧 출시될 예정입니다. 내년 중반을 목표로 Gen5와 함께 I-시리즈 보드가 출시될 예정입니다.

(셰프)

그리고 저희가 함께하겠습니다.

(Marcus)

Shep의 H2D 지연 시간에 대해 질문이 있습니다. 이미 말씀하신 것으로 알고 있는데 조금 더 자세히 설명해 주실 수 있을까요?

(셰프)

앞서 말씀드렸듯이 전력, 처리량, 지연 시간 등 모든 성능 매개변수를 조사하는 가장 좋은 방법은 이러한 구성 요소가 부족하더라도 하드웨어와 소프트웨어, IP를 모두 사용할 수 있으므로 이를 매장에 가져와서 고객의 조건에서 측정하는 것입니다. 앞서 말했듯이 테스트 조건에서는 핀테크 설계가 IP를 통해 이루어지지 않습니다. 저장 후 전달 방식이며 매우 지능적인 저장 후 전달 방식이지만 지연 지터가 전혀 없습니다.

따라서 롱테일 없이 1~3마이크로초 정도의 명목 지연 시간을 제공합니다. 여기서 콜링 카드이자 스토어 앤 포워드 아키텍처의 차별화 요소는 업스트림이든 다운스트림이든 선두에 있는 패킷을 보류하여 이동하도록 하는 것입니다. 그리고 지금까지 설명에서 전혀 언급하지 않았던 페이지 고정, 분산 수집 등 표준 DMA 엔진과 달리 아크빌에는 이러한 기능이 전혀 없습니다. 완전히 결정론적입니다. 예를 들어, 유저랜드 호스트 메모리 버퍼에 도착한 데이터 청크가 FPGA에 도착하면 파이어 앤 포겟 방식으로 처리되며, 지연 시간은 마이크로초 단위로 줄어듭니다.

(Marcus)

질문이 있는데요... 그래프에 업스트림과 다운스트림 전송 속도가 다른데, 그 이유는 무엇인가요?

(셰프)

좋은 질문입니다. 전에 조금 언급했다고 생각했는데, 제가 충분히 설명하지 못한 것 같아서 다시 말씀드리겠습니다. 사실, 업스트림과 다운스트림 성능이 서로 다른 여러 그래프가 있습니다.

다운스트림 또는 이그레스 성능이 떨어지는 이유는 무엇일까요? 일반적으로 소프트웨어든 하드웨어(아토믹 룰 하드웨어 등)든 시스템 어딘가에 암달 법칙 스타일의 직렬화 지연이 있을 수 있는 여지가 더 많다고 생각합니다. 특히 제온 서버에 주목하는 분들을 위해 말씀드렸듯이, 저희는 로켓 레이크에서보다 다운스트림 성능이 현저히 떨어졌으며, 이는 데모 프로그래밍과 다운스트림 데이터를 가져오는 NUMA 영역이 달랐기 때문이라고 생각합니다.

저희 팀은 이 데모에서 보여드린 데이터의 다운스트림이 실제로는 다른 프로세서의 프로세서 연결 메모리, 즉 다른 QPI 쪽의 NUMA 영역에서 나온 것이라고 믿고 있으며, 지금도 테스트 중인 이 예시를 살펴보고 있습니다.

앞으로 계속 개선해 나가겠습니다. 일반적으로, 메모리 시스템이 데이터를 삭제할 수 있다면 데이터를 업스트림으로 이동하는 것은 정말 쉬워질 것입니다(제온과 로켓 레이크 모두 이 작업을 정말 잘 해냈습니다). 미결 읽기 요청이 아무리 많고 메모리 컨트롤러에 아무리 신경을 써도 읽기 완료가 돌아오는 데 시간이 오래 걸리는 경우가 있습니다.

단일 클록 주기 내에 여러 개의 완료를 처리할 수 있다는 점도 장점입니다. 다시 Agilex 인터페이스가 제공하는 아키텍처적 장점으로 돌아가 보겠습니다. 하지만 일반적으로 완료가 있는 읽기는 게시 후 삭제할 수 있는 쓰기보다 이슈에 더 취약합니다.

(Tom)

마커스? Gen5와 CXL에 대해 좀 더 자세히 설명해드릴까요?

(Marcus)

그러니 기회가 된다면 꼭 참여해 보세요.

(Tom)

네. 그래서 제 오디오가 끊겨서 아까 놓친 것 같은데, 그냥 알려 드리기 위해 제프가 이미 Agilex 기반 카드를 추가로 할 계획이라고 언급 한 것 같은데, Agilex I-Series입니다. 그리고 I-시리즈는 PCI Express Gen5와 CXL을 지원하는 R-Tile이라는 칩렛이 장착된 장치입니다.

그리고 칩 수준에서 우리는 오늘 이러한 장치를 샘플링하고 있으며 이미 PCI-SIG 워크샵에 참석했습니다. 아시다시피, 저희는 장치와 R-Tile에서 전체 대역폭을 확보하고 있습니다. 따라서 우리는 16레인의 전체 대역폭 PCI Express Gen5를 사용하고 있습니다. 그리고 이를 이 특정 보드와 비교하면 PCI Express 관점에서 볼 때 본질적으로 대역폭이 두 배로 늘어납니다.

(Marcus)

추가 정보를 제공해 주셔서 감사합니다. 몇 가지 질문을 더 받을 시간이 있습니다. 이번 질문도 셰프를 위한 질문입니다. 아크빌 DPDK는 인텔 FPGA 멀티큐브 DMA DPDK 지원과 어떻게 다른가요?

(셰프)

멋진 질문이네요, Marcus. 하지만 그거 아세요? 톰과 제프가 모두 언급한 5세대에 대해 말씀드리고 싶으니 잠시만 기다려주세요. 아크빌 고객 중 거의 100%가 (아크빌의 대표 IP인) 처리량에 의존하고 있습니다. 그렇기 때문에 고객과 애플리케이션의 역량을 강화할 수 있는 Gen4 x16의 아크빌이 매우 중요합니다.

5세대 x16 디바이스와 보드가 출시되면 아토믹 룰즈는 거기에 맞춰서 준비하지 않으면 사업을 할 수 없습니다. 아크빌이 Gen5를 지원한다고 섣불리 발표하기 전에 분명히 말씀드리고 싶은 것은, 저희는 이를 매우 면밀히 주시하고 있다는 점입니다.

자, 이제 아크빌과 인텔의 우수한 멀티-멀티큐브 또는 멀티 채널 DMA(MCDMA)라고 불리는 롤유어오운과 같은 롤유어오운으로 넘어가 보겠습니다. MCDMA는 인텔에서 제공하는 훌륭한 무료 IP로, 예제 설계와 함께 쿼터스에 내장되어 있습니다. 제 생각에는 데이터 무버가 아닌 키친 싱크 DMA에 불과합니다.

스트림, 메시지, 캐싱, CXL 등 데이터 이동에 사용할 수 있는 거의 모든 역할을 MCDMA가 지원합니다. 하지만 아크빌보다 FPGA에서 약 2배 더 많은 메모리 리소스를 사용합니다. 하지만 인텔은 더 큰 FPGA를 판매하는 사업을 하고 있기 때문에 그 광기에 대한 방법이 있을지도 모릅니다. 그리고 약간의 작업이 필요할 것입니다. 해당 IP를 사용하려면 RTL이 필요합니다. 인텔이 제공하리라 확신하지만 RTL 시뮬레이션과 연결이 필요하고 다른 쪽에서 일부 소프트웨어가 필요할 것입니다.

아크빌이 해결하지 못한 구체적인 요구사항이 있다면, 그 요구사항에 맞춰 달려가세요. 저희는 그와 경쟁하지 않습니다. 대량 데이터나 DPDK, 네트워킹과 같은 데이터 모션 문제가 있는 경우, 저희는 말 그대로 그날 바로 해결할 수 있는 솔루션을 제공합니다. 이것이 빌드 대 구매의 관점에서 볼 때 차별화 요소라고 생각합니다.

마지막으로, 또 다른 부분은 CPU 오프로드인데, MCDMA는 스캐터-개더 리스트를 사용하기 때문에 이를 위해 호스트 코어를 사용할 것입니다. 따라서 DMA에 참여하기 위해 호스트에 많은 코어가 있는 경우 이를 활용하면 됩니다. 아크빌은 그 코어를 가져와서 애플리케이션에 남겨둘 것입니다.

(Jeff)

죄송하지만 한 가지 덧붙이고 싶은 것이 있는데, 아크빌과 다른 아토믹 룰즈 IP를 사용해 본 고객들이 놀라울 정도로 빠르게 실행하고 있다는 점이 셉의 말 중 하나라는 것을 확인할 수 있었습니다. 셰프와 그의 팀은 직접 롤링하는 대신 기본 구성 요소를 모두 모아 바로 사용할 수 있는 배포를 제공하는 데 탁월한 능력을 발휘합니다. 그래서 고객과 함께 배포할 때 그 점이 가장 큰 차이점이라고 생각합니다.

(Marcus)

여기서 볼 수 있는 질문이 있습니다...네...있습니다. 다른 인텔 FPGA 디바이스로의 이식성에 관한 질문입니다. 다른 장치로 포팅하는 것이 얼마나 쉬운지를 의미하는 것인지, 스트라틱스 10이나 다른 애자일렉스를 의미하는 것인지 모르겠습니다.

(셰프)

저한테는 그런 것 같아요. 따라서 아크빌에서 Stratix 10 디바이스를 사용해야 한다는 요구는 없었습니다. 하지만 유니티의 다른 모든 IP(타임서보, 타임서보 PTP, UDP 오프로드 엔진)는 스트라틱스 10은 물론 이전 인텔 디바이스 및 기타 FPGA에서도 지원됩니다. 쿼터스, 플랫폼 디자이너(이전의 Qsys)와 같은 것에는 많은 욕구와 가치가 있지만, 유니티는 모든 코어에 대해 시스템베릴로그 표현을 지향해 왔으며, 이는 12줄의 텍스트가 인스턴스화를 나타내는 것을 의미합니다.

스트라틱스 10에서 아크빌을 사용하는 데 진정으로 관심이 있으신 분은 저희에게 연락해 주세요.

(Jeff)

고객/사용자가 아크빌의 포팅을 하지 않는 것이 답 중 하나라고 생각합니다. 포팅은 아토믹 룰즈가 할 것입니다. 그리고 S10이나 Agilex I-시리즈로 빌드하려는 경우, 아토믹 룰즈와는 다른 코어가 바로 로드되어 원활하게 작동할 뿐입니다. 추가 사용자 작업이 필요하지 않습니다.

(셰프)

아크빌 인터페이스 시그니처(죄송합니다. 지금 RTL 디자이너 여러분께 말씀드리는 것입니다)에는 수십 줄의 SystemVerilog로 완성된 몇 가지 인터페이스가 있습니다. 이는 어떤 FPGA 디바이스에서도 동일하게 적용됩니다.

(Marcus)

자, 마지막 한두 가지 질문입니다. 이건 그냥 여기서 읽어드리겠습니다: 아크빌은 암호화된 넷 리스트로 제공되나요, 아니면 난독화된 HDL로 제공되나요, 후자라면 어떤 언어로 제공되나요, 다시 말하지만 셰프용인가요?

(셰프)

어려운 질문입니다. 따라서 저희는 라이선스 고객에게 암호화되지 않은 IEEE Verilog 넷리스트를 제공합니다. 하지만 암호화되지 않은 Verilog는 소스 코드가 아닙니다. 유니티는 자체 개발한 아토믹 룰 기반 함수형 프로그래밍 언어를 사용하여 기계로 해당 Verilog를 생성하고 이를 통해 공식적인 검증을 수행합니다. 따라서 구체적으로 말하면, 시뮬레이션 및 컴파일 대상인 전달된 자산은 난독화되지 않고 암호화되지 않은 Verilog 넷리스트입니다.

알겠습니다. 모든 질문과 답변에 감사드립니다. 더 궁금한 점이 있으시면 직접 문의해 주세요: BittWare.com, Intel.com/agilex 또는 AtomicRules.com에서 직접 문의하실 수 있습니다.

시청해주신 모든 분들께 감사드리며 좋은 하루 되세요. 이것으로 웨비나를 마치겠습니다.

아크빌과 비트웨어의 애자일렉스 기반 FPGA 카드에 대해 자세히 알아보기

IA-420F 가속기

Powered by the latest FPGAs and SoCs from Achronix, AMD, and Altera, our cards are designed and manufactured in-house for enterprise-class performance.

Browse by Silicon Technology:

Early Access Program

BittWare is launching new 3U VPX solutions! Request to join our early access program to engage with experts on our plans.

Card-Level Products

Our RFX family of cards leverage the AMD RFSoC chip with our own analog amplification/filtering and more.

WaveBox RF Servers and Enclosures

Taking RFX in an integrated, modular approach with up to 12 analog in/out in a 1U server.

Finding the right server and configuring it can be time-consuming. We've designed TeraBox servers to be ready to go from the start, saving you time if you're developing and for deployment: a robust solution suitable for the toughest challenges.

WaveBox RF

Looking for analog + digital in one box? Our direct RF-focused WaveBox servers and enclosures are a perfect fit!

BittWare Partners and internal projects gives you an easy way to get started quickly.

Data Movers + DMA + RDMA

Network Offload

Precision Time

More Network Acceleration

Open Source + Free

These solutions don't need FPGA programmers, rather they are software configurable and built on BittWare hardware!

Data/Packet Capture + Record

P2P and Storage

Financial Services/Fintech

LMS has created ÜberNIC, pre-programmed with the entire network stack in hardware.

AI + Machine Learning

Vendor Tools we Suport

From RFX PCIe cards to our modular integrated WaveBox RF soutions, we have your RFSoC needs covered!

Browse our RF Products:

Early Access Program

BittWare is launching new VPX and VNX+ solutions! Request to join our early access program to engage with experts on our plans.

The ability to tailor the application to the silicon is a major win for FPGAs in the HPC space. We've also seen AI/ML use cases where these programmable devices can run more efficiently than even competing GPUs.

AI/ML Partner Solutions:

Networking covers a wide range of use cases, which is why we also have a large portfolio of solutions!

Offload Engines

Need TCP/UDP offload? Our partners offer premium IP cores ready to integrate into your project.

MACsec + IPsec

Featuring Xiphera's IP running these popular security protocols in hardware has never been easier!

RDMA

RDMA over Converged Ethernet (RoCE v2) system implementation and integration, from Grovf.

SmartNIC

LMS has created ÜberNIC, pre-programmed with the entire network stack in hardware.

Open Source + Free

Whether you're after ultra-low-latency trade performance or simply need a high-performance NIC optimized for fintech, BittWare has a suite of solutions from experts like LMS and Exegy.

More Fintech Solutions:

Building on accelerators like FPGAs is a smart way to get more from your investment. Broadcast video is moving away from legacy pre-configured pipelines to software-defined architecture but with hardware doing the heavy lifting.

Move your algorithm to the data, not data to the algorithm with our Storage and P2P partner Eideticom.

Jump Directly to Eideticom NoLoad Solutions:

Storage Webinars On Demand:

BittWare 웨비나

인텔® 애자일렉스™ FPGA를 사용한 아크빌 PCIe Gen4 데이터 무버 웨비나 웨비나

스피커

Q&AMP;A

아크빌과 비트웨어의 애자일렉스 기반 FPGA 카드에 대해 자세히 알아보기

Powered by the latest FPGAs and SoCs from Achronix, AMD, and Altera, our cards are designed and manufactured in-house for enterprise-class performance.

Browse by Accelerator Manufacturer:

Early Access Program

BittWare is launching new 3U VPX solutions! Request to join our early access program to engage with experts on our plans.

Card-Level Products

Our RFX family of cards leverage the AMD RFSoC chip with our own analog amplification/filtering and more.

WaveBox RF Servers and Enclosures

Taking RFX in an integrated, modular approach with up to 12 analog in/out in a 1U server.

Finding the right server and configuring it can be time-consuming. We've designed TeraBox servers to be ready to go from the start, saving you time if you're developing and for deployment: a robust solution suitable for the toughest challenges.

WaveBox RF

Looking for analog + digital in one box? Our direct RF-focused WaveBox servers and enclosures are a perfect fit!

BittWare Partners and internal projects gives you an easy way to get started quickly.

Data Movers + DMA + RDMA

Network Offload

Precision Time

More Network Acceleration

Open Source + Free

These solutions don't need FPGA programmers, rather they are software configurable and built on BittWare hardware!

Data/Packet Capture + Record

P2P and Storage

Financial Services/Fintech

LMS has created ÜberNIC, pre-programmed with the entire network stack in hardware.

AI + Machine Learning

High-Level Tool Flows

Vendor Tools we Suport

From RFX PCIe cards to our modular integrated WaveBox RF soutions, we have your RFSoC needs covered!

Browse our RF Products:

Early Access Program

BittWare is launching new 3U VPX solutions! Request to join our early access program to engage with experts on our plans.

^인텔® 애자일렉스™ FPGA를 사용한 아크빌 PCIe Gen4 데이터 무버 웨비나 웨비나