비트웨어 웨비나

인텔® 애자일렉스™ FPGA를 사용한 아크빌 PCIe Gen4 데이터 무버 웨비나

Atomic Rules의 Arkville IP는 최근 업데이트되어 비트웨어의 최신 IA 시리즈 제품을 포함한 인텔 애자일렉스 FPGA를 지원합니다. 아크빌은 PCIe Gen4 x16을 통해 최대 220Gb/s의 속도로 데이터를 이동합니다.

이 웨비나에서는 BittWare의 Jeff Milrod가 인텔 Agilex FPGA를 지원하는 제품 및 다양한 시장에서의 데이터 무버 IP 사용에 대해 설명합니다. 인텔의 톰 슐트(Tom Schulte)는 PCIe Gen5 지원과 같은 향후 기능을 포함한 Agilex 제품 라인에 대한 관점을 제시합니다.

마지막으로 아토믹 룰즈의 셰프 시겔(Shep Siegel)이 데모를 통해 아크빌의 데이터 무버 IP가 애자일렉스 FPGA에서 단시간에 달성한 성능에 대해 설명할 예정입니다. 그는 아크빌이 어떻게 성능 저하 없이 시장 출시 기간을 단축하고 개발을 더 쉽게 할 수 있는지에 대한 인사이트를 제공할 것입니다.

라이브 이벤트의 녹화 Q&A 세션을 포함한 아래 웨비나를 시청하세요.

비트웨어 및 인텔 로고
원자 규칙 로고

스피커

제프 밀로드 사진
Jeff Milrod | 최고 기술 및 전략 책임자, BittWare
토마스 슐트 사진
Thomas M. Schulte | 인텔® 프로그래머블 솔루션 그룹, FPGA 제품 제품 라인 관리자
셉 시겔 사진
셰퍼드 시겔 | CTO, 원자 규칙
 

웨비나에 오신 것을 환영합니다: 인텔 FPGA를 사용한 아크빌 PCIe Gen4 데이터 이동. 저는 비트웨어의 마커스입니다.

발표자와 발표 내용을 간략히 소개하겠습니다.

첫 번째 발표자는 비트웨어의 최고 기술 및 전략 책임자인 제프 밀로드입니다. 그는 Agilex FPGA를 특징으로 하는 BittWare 제품 라인에 대해 설명하고 BittWare의 IP 파트너 및 솔루션에 대해 간략하게 설명할 예정입니다.

다음으로 인텔의 톰 슐트(Tom Schulte )가 데이터 이동을 위한 향후 기능 중 일부를 포함하여 인텔 애자일렉스 FPGA에 대해 집중적으로 설명합니다.

아토믹 룰즈의 셰프 시겔과 함께 마무리하겠습니다. 셰프는 인텔 애자일렉스 FPGA가 탑재된 비트웨어의 IA-840F 카드에서 실행되는 Gen4 x16 데이터 이동 데모를 비롯하여 아크빌에 대해 설명합니다.

잠시 후 다시 생방송으로 질문을 받겠습니다.

이제 Jeff가 시작하겠습니다!


Jeff Milrod | 최고 기술 및 전략 책임자, BittWare

안녕하세요, 여러분. 오늘 함께 해주셔서 감사합니다. 방금 Marcus가 말씀드렸듯이 저는 Jeff Milrod이며 BittWare의 최고 기술 및 전략 책임자입니다. 저희를 잘 모르시는 분들을 위해 말씀드리자면, 비트웨어는 몰렉스의 일부입니다. 특히 데이터 통신 및 특수 솔루션 그룹 내 사업부입니다. 이 슬라이드에서 볼 수 있듯이 Molex의 일원으로서 우리는 사내 제조 및 글로벌 물류 역량을 이용할 수 있습니다.

비트웨어는 현재 다양한 시장에서 30년 이상의 FPGA 경험과 전문성을 보유하고 있습니다. 그 기간 동안 엔터프라이즈급 FPGA 하드웨어 플랫폼뿐만 아니라 시스템 통합, 툴 지원, 레퍼런스 디자인 및 고객이 낮은 위험으로 솔루션을 신속하게 배포할 수 있는 애플리케이션 IP를 포함하도록 제품을 확장해 왔습니다. 당사는 인텔 파트너 얼라이언스 프로그램의 일원으로 지난 20년 동안 모든 세대의 알테라 및 인텔 FPGA를 갖춘 하이엔드 FPGA 가속기 및 보드를 개발해 왔습니다.

Molex를 통한 전통, 전문성 및 글로벌 범위의 결합은 고객이 까다로운 애플리케이션 및 워크로드를 해결하기 위해 FPGA 기술을 활용하고 배포할 수 있도록 BittWare를 독보적으로 자격을 부여합니다. 크게 보면 BittWare의 가속 플랫폼은 컴퓨팅, 네트워크, 스토리지 및 센서 처리의 네 가지 응용 분야와 시장 영역을 대상으로 합니다. 이러한 각 애플리케이션과 시장은 복잡하고 다양한 워크로드를 다루고 있으며, 여기서는 몇 가지 예를 보여드리겠습니다.

개인적으로 저는 수십 년 동안 비트웨어에 근무해 왔으며, 그 기간 동안 사람들이 가속화된 솔루션을 개발하고 배포할 수 있는 견고한 하드웨어 플랫폼을 제공함으로써 FPGA 가속기의 첨단 물결을 타는 데 주력해 왔습니다. Agilex는 7세대 알테라/인텔 기반 FPGA 솔루션으로, 그 동안 새로운 기술 세대에 대해 지금처럼 흥분했던 적이 없었습니다.

성능 면에서 비약적인 발전을 이룬 이 엔진은 사용자가 과거보다 훨씬 더 많은 애플리케이션과 워크로드를 가속화할 수 있도록 지원할 것입니다. 인텔의 애자일렉스 FPGA의 첫 번째 물결은 F-시리즈이며, 비트웨어는 이를 활용하여 여기에 표시된 적절한 이름의 F-시리즈 제품군을 생산했습니다. 향후에는 I 시리즈와 M 시리즈 부품도 출시할 예정인데, 이에 대해서는 잠시 후에 설명하겠습니다.

주력 제품은 왼쪽에 표시된 IA-840f입니다. 이 제품은 현재 사용 가능한 Agilex 중 가장 큰 AGF027을 특징으로 합니다. 이 제품은 PCIe Gen4 x16을 갖춘 GPU 크기의 카드입니다. 따라서 현재 전 세계 어디에서나 사용할 수 있는 FPGA에서 호스트까지의 대역폭이 가장 넓습니다.

전면에 3개의 QSFP-DD가 있어 6레인의 100GbE를 구현할 수 있으며, 다른 형식에도 사용할 수 있습니다. DDR4 뱅크 4개... 후면에는 16레인의 확장 포트가 있어 스토리지 어레이, 기타 장치 등에 연결할 수 있으며 보드 간 통신을 확장하는 데 사용할 수 있습니다.

하드웨어 플랫폼에 제공하는 부가가치의 핵심 부분인 보드 관리 컨트롤러를 보유하고 있습니다. 물론 한API를 비롯한 인텔의 세계적 수준의 도구도 지원합니다.

오른쪽에는 특수 애플리케이션에 더 적합한 두 개의 보드가 있습니다. IA-420F는 컴퓨팅 스토리지 어레이, 컴퓨팅 스토리지 프로세싱, 무선 액세스 네트워크 등 다양한 애플리케이션에 사용할 수 있는 NIC 크기의 카드로, 이 작은 크기의 카드에는 다양한 용도가 있습니다.

그리고 맨 오른쪽에는 U.2 SSD 드라이브 형식의 IA-220-U2가 있습니다. 이 드라이브는 특히 컴퓨팅 스토리지 처리 애플리케이션을 타깃으로 합니다.

이러한 모든 보드와 BittWare의 모든 하드웨어 보드는 엔터프라이즈급 기반 위에 구축됩니다. 즉, 위험을 줄이고 완화하는 잘 정의되고 안정적이며 신뢰할 수 있는 플랫폼을 의미합니다.

모든 규정 준수 및 인증, 구성에 대한 엄격한 관리 및 제어, 명확하고 간결한 문서화, 작업 데모 제공, 이에 액세스할 수 있는 소프트웨어 도구 등 매우 포괄적이고 철저하기 위해 항상 노력해 왔기 때문에 광범위한 지원 기능을 갖추고 있습니다. 오른쪽에 표시된 엔터프라이즈급 카테고리의 각 항목은 한 단계 더 높은 수준으로, 그 아래에는 여러 체크리스트가 있으며, 신뢰할 수 있고 안정적인 전체 프로덕션 품질 보드를 출시하기 전에 반드시 구현하고 엄격하게 검증합니다.

유니티의 애플리케이션 솔루션 지원 팀은 FPGA 내에서 구현해야 하는 많은 세부 사항과 세부 사항을 처리하기 위해 하드웨어 위에 더 높은 수준의 추상화를 지속적으로 개발하고 있으며, 이를 게이트웨어 개발이라고 부르며 이러한 게이트웨어 요소와 통신하기 위한 호스트의 소프트웨어를 개발하고 있습니다.

여기에는 웹 사이트에서 제공되는 백서, 사례 연구, 예제 및 참조 설계 중 일부가 소개되어 있습니다. 더 많은 자료가 있습니다.

플랫폼 지원을 위한 이 IP 로드맵은 비트웨어가 애자일렉스 FPGA에 추가하는 가치에 매우 중요합니다. 우리의 전반적인 목표는 고객이 어려움을 겪고 있는 PCIe, 이더넷 및 NVMe 인프라를 공급하고 이러한 문제를 해결하는 것입니다.

저희는 내부 개발뿐만 아니라 주요 서드파티와 협력하여 아크빌과 잠시 후에 소개할 DPDK 데이터 무버와 같은 세계 최고 수준의 특정 구현을 출시하고 있습니다. 이 목록은 현재 작업 중인 모든 항목의 목록이며, 내년에 애자일렉스 플랫폼이 성숙해짐에 따라 출시될 예정입니다.

몇 년 전만 해도 우리는 빈 FPGA 또는 지금은 베어 메탈이라고 부르는 제품을 판매하곤 했습니다. 그런 다음 고객은 많은 시간을 들여 전체 FPGA를 소비하도록 확장되는 고객 애플리케이션 IP를 개발했습니다. 그리고 우리는 여전히 그런 식으로 생각하고 있으며, 사람들은 이 커널이나 워크로드에 대한 모든 작업이 이 FPGA로 전달되어야 한다고 생각하는 경향이 있지만, 결국 FPGA의 크기, 복잡성, 정교함 및 성능이 증가함에 따라 메모리, 센서, 네트워크, 호스트 통신, 보드 관리 컨트롤러, 시스템 통합에 대한 확장 I/O를 연결하는 하위 레벨 구현이 점점 더 많은 설계 리소스와 기능을 소비하고 있다는 사실을 발견하게 되었습니다.

저는 이를 배관이라고 부르며, 게이트웨어 배관은 이러한 정교한 FPGA에서 이러한 애플리케이션 솔루션 지원으로 제공하는 부가가치의 핵심 부분으로, 고객이 FPGA의 하드웨어, I/O, 마지막 미크론, 즉 BittWare 하드웨어의 보드 수준 구현에 대해 자세히 알아볼 필요가 없도록 합니다.

물론 고객이 직접 수행하기를 원한다면 모든 것을 제공하지만, 커널에서 메모리, 호스트, 네트워크에 이르는 모든 추가 복잡성을 처리하는 대신 고객의 고유한 애플리케이션 IP와 해당 워크로드 및 애플리케이션에 대한 고유한 부가가치에 집중할 수 있도록 엔터프라이즈급 플랫폼의 일부로 모든 작업을 완료하고 입증했습니다.

그 대표적인 예가 바로 아토믹 룰즈와 호스트에 대한 아크빌 DPDK 데이터 무버인데, 이 엔진으로 최고의 성능과 CPU 오프로드를 경험하고 있습니다. 이에 대해서는 잠시 후에 설명하겠습니다. 하지만 셉이 그 이야기를 시작하기 전에 이 Agilex FPGA와 인텔이 제공하는 제품에 대한 더 나은 기반을 제공하는 것이 적절하다고 생각합니다. 그럼 이제 Tom에게 이 자리를 넘기겠습니다. 모두 감사합니다.


Thomas M. Schulte | 인텔® 프로그래머블 솔루션 그룹, FPGA 제품 제품 라인 관리자

감사합니다, Jeff. 앞서 Jeff가 몇 개의 슬라이드를 통해 언급했듯이, 새로운 프로덕션 품질의 BittWare 가속기 카드는 인텔의 최신 Agilex FPGA를 기반으로 합니다. 여기에는 Agilex 제품군에서 제공되는 몇 가지 중요한 기능이 강조되어 있습니다.

이 디바이스는 2세대 인텔 하이퍼플렉스 아키텍처와 인텔의 10nm 슈퍼핀 공정 기술을 기반으로 제작되었으며, 이전 세대의 인텔 FPGA에 비해 상당한 성능 향상과 전력 절감 효과를 입증했을 뿐만 아니라 경쟁사의 7nm FPGA와 비교했을 때에도 상당한 성능 향상을 보였습니다.

이 웨비나에서는 이러한 모든 기능을 검토하는 대신 사용 가능한 새로운 CPU 인터페이스 프로토콜인 PCI Express Gen5 및 일반적으로 CXL로 약칭되는 Compute Express Link에 초점을 맞출 것입니다.

인텔 애자일렉스 제품군 중 일부의 경우, 해당 장치는 포트당 최대 x16 레인으로 구성된 PCI Express의 전체 대역폭을 지원하므로 동일하게 구성된 Gen4 장치와 비교했을 때 2배 더 많은 대역폭을 제공합니다.

호스트 CPU에 다시 일관된 인터페이스를 연결할 필요가 없는 가속화된 사용 사례 및 워크로드의 경우, PCI Express는 고성능 애플리케이션을 위한 업계 전반의 표준이며 앞으로도 FPGA 기반 가속기의 핵심 구성 요소가 될 것입니다.

인텔 애자일렉스 FPGA의 일부 제품군의 경우, 이러한 장치는 CXL 프로토콜의 전체 대역폭을 지원합니다. 또한 포트에 대해 최대 x16 레인을 지원하므로 PCI Express 프로토콜에 비해 지연 시간이 짧고 일관된 인터페이스를 제공합니다. 가속화된 사용 사례와 워크로드, 특히 메모리 관련 트랜잭션에 크게 의존하는 워크로드의 경우 CXL 인터페이스가 많은 고성능 애플리케이션에 활용될 것으로 보입니다.

이는 두 가지 주요 지표를 바탕으로 확인할 수 있습니다. 첫째, 컴퓨트 익스프레스 링크 컨소시엄에 가입한 100개 이상의 회사 수입니다. 둘째, CXL 기반 제품 및 솔루션을 제공할 계획이 있는 고객의 수입니다.

PCI Express Gen5 및 CXL의 세부 사항도 흥미롭지만, 실제로 실리콘을 확보하고 이러한 인터페이스를 실행하는 것은 훨씬 더 좋습니다. 다양한 인텔 팀에서 코드명 사파이어 래피즈에 기반한 새로운 차세대 인텔 CPU를 기반으로 새로운 플랫폼을 구현하는 데 필요한 하드웨어 및 소프트웨어의 엔지니어링 샘플을 계속 테스트, 특성화 및 출시하고 있습니다.

이러한 플랫폼 외에도 많은 고객들이 이미 이 두 가지 새로운 인터페이스를 지원하는 Agilex FPGA의 엔지니어링 샘플을 받아 보았습니다.

실제로 모든 사파이어 래피즈 CPU를 테스트하는 데 사용되는 일부 내부 하드웨어는 인텔 애자일렉스 FPGA를 기반으로 합니다.

Agilex FPGA는 각각 다른 애플리케이션을 대상으로 하는 세 가지 계열로 분류됩니다. F 시리즈 디바이스는 데이터 센터, 네트워킹, 에지, 임베디드, 산업, 군사, 무선까지 광범위한 애플리케이션을 대상으로 최대 초당 58기가비트 트랜시버 지원, 향상된 DSP 기능, 높은 시스템 통합을 결합합니다. 이는 Agilex 제품군에서 범용 디바이스 범주로 간주됩니다.

I 시리즈에는 고성능 프로세서 인터페이스와 대역폭 집약적인 애플리케이션에 최적화된 다양한 디바이스가 있습니다. 이 시리즈는 새로운 CXL 프로토콜, PCI Express Gen5 및 최대 116G의 트랜시버 대역폭을 지원하는 옵션을 제공합니다. I 시리즈 FPGA는 대규모 인터페이스 대역폭과 고성능을 요구하는 애플리케이션을 위한 강력한 선택입니다.

마지막으로 M 시리즈 디바이스입니다. 컴퓨팅 및 메모리 집약적인 애플리케이션에 최적화되어 있습니다. 이 시리즈는 F- 및 I-시리즈에서는 사용할 수 없는 추가 기능을 제공합니다. DDR5, LPDDR 및 통합 HBM2 스택과 같은 기능입니다. Agilex M 시리즈 FPGA는 일반적으로 높은 대역폭과 더불어 대량의 메모리를 필요로 하는 고성능 컴퓨팅 애플리케이션과 같은 데이터 집약적 사용 사례에 최적화되어 있습니다.

이 페이지 오른쪽 상단에 표시된 URL을 사용하여 인텔 Agilex FPGA에 대해 자세히 알아보십시오... 여기까지입니다. 이제 아토믹 룰즈의 셰프(Shep)로부터 아크빌 데이터 무버 IP에 대해 들어보시고, 아질렉스 F 시리즈 생산 품질 FPGA를 기반으로 하는 비트웨어의 새로운 가속기 카드와 함께 사용할 수 있는 아크빌 데이터 무버 IP에 대해 알아보겠습니다. 시작하겠습니다, 셰프!


셰퍼드 시겔 | CTO, 원자 규칙

소개해 주셔서 감사합니다, 톰. 정말 감사합니다. 안녕하세요, 아톰 룰즈의 셰프 시겔입니다. 오늘 웨비나에 와주셔서 감사합니다. 아크빌에 대해 말씀드리게 되어 정말 기쁘고 기대가 큽니다. 아크빌은 오랫동안 준비해 온 프로젝트이며, 이번 웨비나는 그 시작을 알리는 파티입니다.

애자일렉스의 아크빌: 바로 작동하는 FPGA용 4세대 데이터 모션입니다. 먼저 아토믹 룰에 대해 조금 알아보겠습니다. 아크빌은 오래전부터 이 일을 해왔습니다. 우리의 비즈니스 모델은 더 적은 일을 더 잘하는 것입니다. 우리가 만드는 몇 가지 주요 핵심 제품이 있습니다: 물론 오늘 소개할 아크빌은 UDP와 하드웨어를 처리하는 UDP 오프로드 엔진이며, 데이터센터의 여러 FPGA 장치에 일관된 시스템 시간 클럭을 제공하는 타임서보와 타임서보 PTP도 있습니다.

저희는 인텔 골드 파트너 인증 솔루션 제공업체로서 이를 매우 자랑스럽게 생각합니다. 또한 10년 넘게 오픈 소스 프로젝트, 엔지니어링 엔터프라이즈급 엔지니어링 솔루션에 기여해 왔으며, 네트워킹 IP 측면에서 컴퓨팅과 커뮤니케이션에 중점을 두고 있습니다. 그리고 우리가 성장할 수 있게 해준 소수의 엄선된 고객과 재방문 고객이 있다는 사실에 정말 자랑스럽고 감사하게 생각합니다.

자, 아크빌에 대해 알아보겠습니다. 아크빌은 DPDK 패킷 도관입니다. 즉, 호스트 메모리에 있을 수 있는 데이터를 FPGA의 스트림이나 호스트 메모리 풀로, 또는 그 반대로 호스트 메모리 버퍼로 상호 연결할 수 있는 방법입니다.

또한 PCI Express를 통해 이동하는 데이터 스트림으로 이러한 데이터 이동을 용이하게 합니다. 소프트웨어 측의 API에서 PCI Express를 통해 FPGA로, 그리고 데이터가 생성되고 소비되는 AXI 스트림에 이르기까지 모든 복잡성이 추상화되기 때문에 이를 통로라고 말합니다. 즉, DPDK(Linux 재단의 일부)의 표준 API와 Intel Agilex 장치와 같은 FPGA 하드웨어를 사용하면 시장 출시 시간이 단축되고 솔루션 출시 시간도 빨라집니다. 인텔은 또한 호스트 측에서 실행하는 데 사용할 수 있는 일부 프로세서를 만들 수도 있지만, 이에 대해서는 다른 웨비나를 위해 남겨두겠습니다.

아크빌은 어디에 사용되나요? 아크빌은 호스트와 FPGA 디바이스 간에 데이터를 효율적으로 이동하거나 그 반대로 이동해야 할 때마다 사용됩니다. 아크빌은 데이터 이동의 많은 복잡성을 추상화하는 빌딩 블록 구성 요소로, 아크빌 사용자는 SmartNIC 장치, 네트워크 어플라이언스 또는 DPDK 가속기와 같은 제품을 구축할 때 사용할 수 있습니다.

왜 DPDK인가요... 그냥 네트워킹을 위한 거라고 들었는데요? 네트워킹을 위해 DPDK를 사용하는 것은 맞지만, 그보다 더 깊은 이유가 있습니다. DPDK는 오랫동안 사용되어 온 신뢰할 수 있는 API입니다. 최근에는 리눅스 재단이 관리하고 있습니다. 커뮤니티의 검증을 거쳤고, 정기적으로 테스트를 거쳤으며, 네트워킹뿐만 아니라 대량 데이터 이동을 위한 표준화된 오픈소스 솔루션이자 API 세트입니다.

아크빌은 DPDK를 사용하도록 설계하여 호스트 프로세서 주기를 확보하여 더 유용한 작업을 수행할 수 있도록 합니다. 커널 바이패스 수단은 확실히 커널이 방해가 되지 않으므로 애플리케이션에 더 높은 처리량과 더 낮은 지연 시간을 제공하지만, Arkville은 DPDK를 인식하지만(나중에 슬라이드에서 자세히 설명하겠습니다) DPDK의 데이터 모션 비즈니스 로직을 FPGA 게이트로 밀어 넣음으로써 처리량과 지연 시간을 모두 높일 수 있으므로 범용 프로세서 캐시 오염을 줄여 결과적으로 포스트코어 성능을 높일 수 있습니다.

따라서 DPDK는 네트워킹이 될 수도 있지만, FPGA 장치와 호스트 간의 단순한 대량 데이터 이동일 수도 있는 API로 지원되는 워크로드가 있는 경우 매우 유용합니다.

아크빌의 핵심은 아크빌이 DPDK 사양의 로우레벨 내부 루프를 FPGA 하드웨어에서 구현하여 본질적으로 DPDK 사양을 RTL 게이트로 전환했다는 점입니다. 판매용 ASIC NIC를 포함한 다른 모든 DPDK 솔루션은 이 작업의 일부 또는 전부를 호스트 프로세서 코어에 푸시합니다. 아크빌은 처음부터 프로세서 코어가 이 작업을 수행할 필요가 없도록 하드웨어에서 DPDK mbuf 데이터 구조를 조작하는 한 가지 작업을 잘 수행하도록 설계했습니다. 하드웨어에서 이를 수행함으로써 높은 처리량과 결정론적 저지연성을 동시에 달성할 수 있는 고유한 이점이 있습니다. 또한 다음 슬라이드에서 볼 수 있듯이 호스트 코어 사용률도 거의 없습니다. 아크빌의 또 다른 장점은 데이터 모션을 위한 완벽한 솔루션으로 즉시 작동한다는 점입니다.

소프트웨어 엔지니어는 표준 API를 사용하여 데이터 버퍼를 생성하고 소비합니다. 하드웨어 엔지니어는 AXI 인터페이스에 연결합니다. 실제 하드웨어에서 작동하는 것은 고사하고 시뮬레이션하는 데 몇 주 또는 몇 달이 걸릴 수 있는 '롤유어셀프' 솔루션과 '당일 가동'의 사례를 비교하고 대조해 보십시오.

따라서 아크빌은 소프트웨어와 게이트웨어의 조합으로 제공됩니다. 완전한 오픈 소스이며 현재 DPDK.org에서 사용할 수 있는 DPDK 풀모드 드라이버가 있고, 아토믹 룰즈가 라이선스를 제공하는 인텔 애자일렉스 FPGA 내부에 맞는 RTL 컴포넌트가 있습니다. 명명된 프로젝트와 다중 프로젝트 라이선스가 있지만 기본적으로 인텔 FPGA 내부에 들어가는 라이선스된 IP 조각입니다. 이 두 가지가 함께 작동하여 앞서 말씀드린 데이터 이동 통로를 제공하여 데이터가 FPGA에서 호스트로 또는 그 반대로 이동할 수 있도록 합니다.

이 아이 차트 만화는 왼쪽의 호스트 프로세서와 오른쪽의 FPGA를 보여 주며, 호스트 프로세서(일반적으로 제온 워크스테이션 또는 서버)와 FPGA(일반적으로 인텔 애질렉스 디바이스)가 어떻게 분할될 수 있는지와 각 구성 요소의 위치를 보여주는 일부 하위 모듈을 보여 줍니다. 면적이나 복잡성 측면에서 규모를 가늠할 수는 없지만, 하단의 녹색과 빨간색 상자는 아크빌이 도관을 통해 전달하는 통화의 목적지 또는 소스 또는 생산자 또는 소비자인 디바이스 간 및 호스트 간 데이터 이동의 소스와 싱크를 나타냅니다.

여기에는 아크빌의 처리량을 패킷 크기의 함수로 표시한 차트가 있습니다. 패킷 크기가 작을수록 처리량이 적다는 것을 바로 알 수 있으며, 이는 PCI 익스프레스가 작은 패킷에 대한 오버헤드가 있기 때문에 당연한 사실입니다. 그러나 차트의 오른쪽에 집중하면 장치 간 및 호스트 간 전송 속도를 나타내는 파란색과 빨간색 선이 상단의 이론적 한계인 220g/b/s에 근접하고 있으며 그보다 조금 더 높다는 것을 알 수 있습니다. 잠시 후 데모를 통해 더 자세히 살펴보겠습니다.

또한 아크빌은 매우 낮은 레이턴시(마이크로초 이하로 예상되는 고빈도 핀테크 거래 레이턴시가 아닌 단위 마이크로초 단위의 레이턴시)를 FPGA와 호스트 간에 항상 제공합니다. 특히 긴 패킷과 부하가 높은 상황에서 롱테일이 없다는 점은 기한을 놓치는 것을 용납할 수 없는 vRAN과 ORAN 및 5G 애플리케이션에 매우 중요한 요소입니다.

아크빌은 지연 시간이 짧을 뿐만 아니라 지연 시간 지터도 거의 없습니다. 어떻게 가능한가요? 아크빌은 캐시 및 기타 동적 수단을 통해 대규모 대기열을 지원하는 표준 DMA 엔진이 아니기 때문에 패킷이 도착하는 시점부터 호스트 메모리에 도착하는 시점(또는 그 반대)까지의 지연 시간이 결정론적이기 때문입니다.

아크빌의 지연 지터가 본질적으로 0이 될 수 있었던 것은 DPDK와 엠비프 이동에 대한 이러한 특수성 덕분입니다. 또한 아크빌은 호스트 프로세서가 할 일이 전혀 없다는 의미의 멤피(memcpy)가 없습니다! 패킷 데이터를 한 지점에서 다른 지점으로 이동하는 주기가 0입니다. FPGA에 탑재된 아크빌의 RTL 하드웨어는 호스트가 데이터를 이동시킬 필요가 없도록 데이터가 MBU에 정확히 도착하도록 보장하므로 애플리케이션에 더 많은 CPU 사이클을 확보할 수 있습니다.

이 그래프는 단일 mbuf에 맞는 패킷 크기에 대해 아크빌 PMD에서 패킷당 20나노초 미만이 소요되는 것을 보여줍니다. 이 경우, mbuf는 2킬로바이트에 불과합니다. 만약 엠비프 크기를 확장했다면 이 평탄도는 페이지 오른쪽에서 바로 이어집니다.

아크빌은 항상 패킷이 영원히 삭제되지 않습니다. 예를 들어 시스템이 돌에 부딪히지 않는 한 말입니다.

아크빌의 흐름 제어는 모든 도메인에 걸쳐 하드웨어-소프트웨어를 전면적으로 제어합니다. 어떤 상황에서도 한쪽 끝에서 다른 쪽 끝으로 안전하게 전송할 수 없는 데이터는 허용되지 않으며, 그 반대의 경우도 마찬가지입니다. 다른 데이터 이동자가 따라잡을 수 없거나 장애 또는 재전송이 발생하면 패킷이 삭제됩니다. 저희는 모든 조건에서 패킷 손실이 발생하지 않도록 하드웨어와 소프트웨어로 완벽하게 흐름을 제어하는 표시를 제공합니다.

이제 며칠 전에 녹화된 사전 녹화 데모를 통해 아크빌이 어떻게 설치되고, 제온 서버에서 실행되는지 보여드리고, 그 후에 질문과 답변으로 넘어가도록 하겠습니다.

안녕하세요, 셰프 시겔입니다. 12월 10일 금요일에 있을 인텔/비트웨어/아토믹 룰즈 아크빌 온 애자일렉스 웨비나를 며칠 앞두고 미리 녹화한 데모입니다. 여기서 시연할 내용을 설명한 다음 데모를 보여드리겠습니다.

호스트 시스템으로 사용되는 인텔 제온 프로세서와 테스트 중인 디바이스로 사용되는 인텔 애자일렉스 FPGA가 있습니다. 이 슬라이드를 왼쪽 아래에서 자세히 살펴보면, 데이터가 오가는 사용자-랜드 프로세서 메모리(기본적으로 데이터가 오가는 DRAM)를 볼 수 있으며, 오른쪽 아래에는 데이터가 오가는 FPGA 패브릭 메모리를 다시 볼 수 있습니다.

그 사이에는 Agilex 디바이스를 Xeon 호스트에 연결하는 gen4 x16 PCI Express가 있습니다. 이 데모에서 사용하는 부품은 제온 6346 프로세서가 탑재된 Dell R750 서버입니다(4세대 x16 PCIe 지원). 그리고 인텔 애자일 F 디바이스가 장착된 비트웨어 IA-840F와 이번 주 초에 출시된 아톰 룰즈의 21.11 릴리스인 아크빌을 사용했습니다.

데모에서 가장 먼저 보여드릴 것은 아크빌 스크립트입니다. 이 스크립트는 필요한 모든 라이브러리를 가져오고 DPDK를 다운로드 및 컴파일하며 호스트 시스템 측에서 필요한 사항을 처리합니다. 다음으로 할 일은 (쿼터스 프라임 프로가 설치되어 있지 않은 경우) 이를 설치한 다음 make target make Agilex를 사용하여 RTL에서 Agilex 디바이스에 대한 비트 스트림을 컴파일하는 것입니다.

비트스트림이 준비되면 FPGA에 로드하고 의사 재부팅을 수행하기만 하면 됩니다. 비트스트림이 Agilex 디바이스의 플래시 메모리에 지속되도록 할 필요가 없습니다.

Arkville 배포판과 함께 배포되는 약 12개의 DPDK 애플리케이션이 있지만, 이 데모에서는 특히 TX(또는 다운스트림) 또는 RX(또는 업스트림) 처리량에 중점을 두겠습니다. 마지막으로 데모가 끝나면 데모 데이터를 성능 로그에 저장하고 해당 데이터를 플로팅해 보겠습니다.

좋아요. 여기 프로젝트 디렉토리에서 시작해서 가장 먼저 할 일은 제공된 타르볼에서 아크빌 릴리스를 확장하는 것입니다. 여기 있습니다. 타르볼이 확장되었습니다. 다음으로 아톰 룰즈 아크빌 인스톨러 스크립트를 실행하여 필요한 라이브러리를 가져오고 DPDK를 다운로드 및 컴파일합니다. 이제 라이브러리가 찢어지는 것을 볼 수 있습니다. 이제 DPDK.org에서 DPDK를 다운로드합니다.

DPDK를 다운로드하면 메손 닌자 컴파일 시스템을 시작할 수 있습니다.

데모의 이 부분은 실제로 실시간으로 보여주고 있는데, 테스트 문자열을 제외하고는 매우 빠릅니다... 항상 거기서 잠시 멈추지만, DPDK는 1분 안에 완료됩니다. 이제 DPDK를 설치했고 다음 단계로 넘어갈 준비가 되었습니다.

이 시점에서 아크빌의 비트스트림을 애자일렉스 F에 빌드해야 합니다. 따라서 하드웨어 타깃 디렉토리로 이동하여 make Agilex를 입력하기만 하면 모든 인텔 Agilex 타깃을 빌드할 수 있습니다.

먼저 Quartus 21.3이 설치되어 있는지 확인하겠습니다. 네, 됐어요, 시작합시다!

이 부분에서는 확실히 약간의 시간이 단축되었습니다. 비트 스트림을 빌드하기 위해 전체 도구 흐름을 실행하는 데 약 30분에서 1시간 정도 소요됩니다(디자인 크기에 따라 다름). 여기에는 6개의 서로 다른 디자인이 있으므로 현재로서는 이 중 하나만 처리하고 있습니다.

비트스트림이 완료되면 Dell 서버 내부의 BittWare IA-840f 카드에 다운로드합니다. 비트스트림을 다운로드하고 sudo 재부팅을 수행하여 시스템을 다시 시작합니다.

이제 시스템이 lspci에서 재부팅된 후 Arkville 장치가 서버에 표시되는 것을 볼 수 있습니다. 슬롯 C-A(찰리 알파)에 있습니다.

이제 디바이스가 학습된 몇 가지 기능을 살펴보기 위해 확장된 lspci를 사용할 수 있습니다. 여기서 우리가 찾고 있는 것은 화면이 앞뒤로 바뀌지 않고 스크롤 막대를 관리할 수 있는지 여부이며, 처음에 보았던 원래의 lspci뿐만 아니라 디바이스가 실제로 Gen4 x16을 지원하는지 확인하는 것입니다. 여기에 강조 표시된 링크 기능 라인은 실제로 Gen4 x16 링크 상태를 달성했음을 의미하며, 이는 우리가 이에 맞게 훈련했다는 것을 의미합니다.

이는 우리가 좋은 출발을 하고 있다는 좋은 신호입니다. 이제 이 작업이 완료되었으므로 이제 배포된 12개 정도의 DPDK 애플리케이션 중 하나로 넘어갈 수 있습니다. 수신 및 송신 성능과 시스템의 전이중 성능을 측정하는 일련의 테스트를 독립적으로 실행하는 Arkville Duplex 성능 테스트를 사용할 것입니다.

이 테스트에는 여러 차원이 있으며 다양한 반복에서 초, 분, 시간 또는 며칠 동안 실행될 수 있으므로 이러한 테스트 집합에서 데이터를 가져와 performance.log라는 파일로 가져올 것입니다. 이 성능 파일의 데이터를 가져와서 Google 스프레드시트 문서로 가져와서 도표를 만들고 자세히 살펴볼 수 있습니다.

플롯 데이터 로그와 결과는 다음과 같습니다. 상단의 노란색 선, 즉 스카이라인은 이 하드웨어 및 소프트웨어 구성의 이론적 한계를 나타내며, 파란색과 빨간색 선은 각각 장치 대 호스트 및 호스트 대 장치 처리량을 나타냅니다. Y축은 초당 기가비트 단위의 유용한 처리량을 나타냅니다.

따라서 그래프의 왼쪽(지금 확대하거나 축소하고 있는 곳)에서는 패킷 크기가 더 작고 PCI의 512바이트 MPS로 인해 성능이 그다지 좋지 않습니다. 하지만 여기 오른쪽으로 이동하여 512바이트 또는 1킬로바이트 이상의 패킷 크기를 보면 업스트림 방향의 경우 처리량이 초당 200기가비트를 훨씬 넘고 다운스트림 방향의 경우 초당 180기가비트에 가까워지는 것을 볼 수 있습니다.

따라서 업스트림 측면에서는 상당히 칭찬할 만한 성능이며 오른쪽의 점근 성능에서 볼 수 있듯이 개선의 여지가 약간 있습니다.

하지만 전반적으로 이 그래프를 보면 아크빌이 애자일렉스 F의 이론적 성능에 훌륭하게 접근하고 있다는 것을 알 수 있습니다.

시간을 내어 이 데모를 시청해 주셔서 감사합니다. 이제 실시간으로 넘어가서 Marcus가 여러분 중 몇 분이 궁금해하실 질문과 답변을 이어가도록 하겠습니다.

다시 한 번 감사드리며 즐거운 휴일 보내세요.


Q&A

(Marcus)

Q&A 시간을 시작하기 전에 몇 마디 말씀드리고 싶습니다.

오늘 웨비나에서는 인텔 애자일렉스 FPGA가 탑재된 비트웨어 IA-840f 카드에서 실행되는 아토믹 룰즈의 아크빌을 소개했습니다. 이에 대한 자세한 내용은 BittWare, 인텔 또는 아토믹 룰즈 웹사이트에서 확인할 수 있습니다.

그럼 이제 몇 가지 질문부터 시작하겠습니다.

그래프를 보시면 첫 번째는 셰프입니다. 그렇다면 아크빌의 최종 실적은 어느 정도일까요?

(셰프)

고마워요, 마커스. 그렇다면 최종적으로 예상되는 실적 수치는 어느 정도인가요?

(Marcus)

네, 성과 수치를 제시하고 업데이트나 기타 사항을 언급하신 것 같아서요. 아마도 그런 의도가 있었을 겁니다.

(셰프)

네, 이해합니다. 따라서 시스템 수준에서 범용 프로세서, PCI Express와 같은 FPGA 상호 연결 네트워크와 관련된 성능은 어렵습니다. 원하는 모든 시뮬레이션을 할 수 있지만 현실에서는... 일이 일어납니다. 초당 220기가비트라는 수치를 자신 있게 내놓을 수 있는 이유는 지난 몇 달 동안 소비자 또는 워크스테이션급 로켓 레이크 시스템에서 초당 220기가비트 속도를 안정적으로 확인했기 때문입니다. 아마도 예리한 눈썰미를 가진 분들 중 일부는 우리가 실행한 데모를 보면서 고성능 Dell 서버의 다운스트림 쪽, 즉 대형 제온의 궁극적인 성능이 결국에는 로켓 레이크만큼 좋지 않다는 것을 알아차렸을 것입니다. 이는 아마도 NUMA 문제, QPI 문제 등으로 인한 것일 수 있습니다. 따라서 결국 처리량과 관련하여 가장 좋은 벤치마크는 이 하드웨어는 BittWare와 Intel에서 사용할 수 있고 IP는 Atomic Rules에서 사용할 수 있기 때문에 가능한 한 빨리 자체 상점에서 구입하여 사용하는 것이 가장 좋은 방법이라고 생각합니다.

저희가 보유한 데모와 사전 녹화된 데모에서 보여드린 툴을 사용하면 자체 애플리케이션에서 명목상 성능 수치로 간주되는 수치를 사용하는 대신, 자체 시스템에서 자체 특수한 상황(예: 처리량)에서 지속적인 처리량 수치가 무엇인지 확인할 수 있습니다.

(Marcus)

네, 답변 감사합니다. 그리고 또 다른 질문은 아주 간단한 대답이 있을 것 같은데요, 아크빌 IP를 쿼터스 사용자가 어떻게 활용하나요... 플랫폼 디자이너/큐시스와 호환되나요?

(셰프)

맞습니다. 가장 쉬운 방법은... 플랫폼 디자이너 또는 한동안 이 툴을 사용해 온 사용자에게는 Qsys 플로우를 모두 지원하는 것이지만, 완전한 직선형 SystemVerilog도 지원합니다. 또한 간결한 SystemVerilog 인터페이스의 특성과 쿼터스가 제공하는 SystemVerilog 지원으로 인해 SystemVerilog 또는 플랫폼 디자이너를 사용하는 표준 RTL 흐름이 지원됩니다. 따라서 아크빌은 다른 코어와 마찬가지로 애자일렉스 디바이스에서 인스턴스화됩니다.

(Marcus)

아마도 셰프의 경우겠죠: PCI Gen5와 CXL을 지원하기 위한 Arville RTL IP의 로드맵은 무엇이며 성능 수치는 어떻게 될까요?

(셰프)

좋은 질문입니다. 물론 오늘 보여드리는 성능은 Agilex F와 Gen4 x16을 사용한 것이며, Gen3 x16보다 처리량을 두 배로 늘리고 싶다는 요구가 많았기 때문에 이 첫 걸음을 내딛을 수 있게 되어 기쁘게 생각합니다.

하지만 문제는 Gen5의 앞날이 어떻게 될까요? Gen5 x16으로 전환하면 성능을 다시 두 배 또는 그 이상으로 향상시킬 수 있을 것으로 기대합니다. 우리는 이 문제에 대해 인텔과 한동안 긴밀히 협력해 왔으며, 이 중 핵심적인 부분은 주파수 스케일링이 오래 전에 중단되었기 때문이 아니라 아키텍처 혁신과 관련이 있습니다... 그리고 엔지니어링 팀의 자랑을 조금 하자면(하지만 인텔의 지원 없이는 불가능했을 것입니다) 현재 버전과 향후 Gen5를 지원할 버전 모두에서 Agilex는 클럭 사이클당 여러 PCI TLP가 이동할 수 있다는 것입니다. 현재 Agilex F-시리즈를 사용하면 500MHz에서 수신 시 2개, 송신 시 2개로 클록 사이클당 최대 10억 개(죄송하지만 정정합니다)의 TLP를 이동할 수 있습니다.

Gen5와 I-시리즈 R-타일을 사용하면 다시 두 배로 늘릴 수 있습니다. TLP 수를 두 배로 늘린다고 해서 대역폭이 반드시 두 배로 늘어나는 것은 아니지만, 아크빌 IP를 더 스마트하게 만들 수 있습니다... 장황하게 설명해서 죄송합니다만, Gen5에 대한 짧은 답변은 대역폭과 처리량이 크게 증가하지 않고 지연 시간이 줄어들면서 다시 두 배가 될 것이라는 점입니다.

이제 질문은 CXL에 대해서도 다루었습니다. CXL은 완전히 다른 문제입니다. 지난 수십 년 동안 전 세계가 이기종 컴퓨팅이 좋은 아이디어라는 것을 알게 된 것처럼 이기종 통신도 좋은 아이디어입니다. 그리고 대량 데이터 이동과 패킷 데이터 이동을 위한 장소가 있고, PCI가 이를 해결하며, CXL을 위한 장소도 있습니다.

아크빌의 입장(그리고 인텔의 기술과의 상호 연결성: 애자일렉스 내부에 있는 기본 P-타일 및 R-타일 기술)은 향후 CXL 솔루션과 함께 작업하는 것을 배제하지 않습니다... 하지만 우리는 너무 앞서 나가고 있는 것 같습니다. 저희는 단지... 지난 5년 동안 아크빌을 출시하며 젠4 x16에 대한 수요와 열망을 충족시킨 끝에 오늘 이 자리에 오게 되어 기쁘고, 젠5 x16과 CXL에 뛰어들기 전에 잠시나마 이를 즐길 수 있었으면 합니다.

(Jeff)

셉, 여긴 제프예요. 많이 쉬지 못할 거예요. 앞서 말씀드린 것처럼 현재 4세대인 F-시리즈 부품이 출시되었습니다. 그리고 Tom이 조금 전에 말씀드린 I-시리즈와 M-시리즈 부품도 곧 출시될 예정입니다. 내년 중반을 목표로 Gen5와 함께 I 시리즈 보드가 출시될 예정입니다.

(셰프)

저희가 여러분과 함께 하겠습니다.

(Marcus)

Shep의 H2D 지연 시간에 대해 질문이 있습니다. 이미 말씀하신 것으로 알고 있는데 조금 더 자세히 설명해 주실 수 있을까요?

(셰프)

앞서 말씀드렸듯이 전력, 처리량, 지연 시간 등 모든 성능 매개변수를 조사하는 가장 좋은 방법은 이러한 구성 요소 부족에도 불구하고 하드웨어와 소프트웨어, IP를 모두 사용할 수 있으므로 이를 매장에 가져와 원하는 조건에서 측정하는 것입니다. 앞서 말씀드렸듯이 테스트 조건에서는 핀테크 설계를 통해 IP를 절감하는 것이 아닙니다. 저장 후 전달 방식이며 매우 지능적으로 저장 후 전달 방식이지만 지연 지터가 전혀 없습니다.

따라서 롱테일 없이 1~3마이크로초 정도의 명목 지연 시간을 제공합니다. 여기서 저장 후 전달 아키텍처의 차별화 요소는 업스트림이든 다운스트림이든 상관없이 맨 앞줄에 있는 패킷을 이동시키기 위해 보류하는 것입니다. 그리고 지금까지 이 대화에서 전혀 언급하지 않았던 페이지 고정, 분산 수집과 같은 표준 DMA 엔진과 달리 아크빌에는 이러한 기능이 전혀 없습니다. 완전히 결정론적입니다. 예를 들어, 유저랜드 호스트 메모리 버퍼에 도착한 데이터 청크가 FPGA에 도착하면 바로 잊어버리므로 지연 시간이 마이크로초 단위로 짧아집니다.

(Marcus)

질문이 있는데요... 그래프에서 업스트림과 다운스트림 전송 속도가 다른데, 그 이유는 무엇인가요?

(셰프)

좋은 질문입니다. 전에도 잠깐 언급했다고 생각하지만 충분히 설명하지 못한 것 같아서 다시 한 번 말씀드리겠습니다. 사실, 몇 가지 그래프가 있는데 업스트림과 다운스트림 성능이 서로 다른 것으로 나타났습니다.

그렇다면 다운스트림 또는 송신 성능이 떨어지는 이유는 무엇일까요? 일반적으로 시스템 어딘가에 암달 법칙 스타일의 직렬화 지연이 있을 수 있는 여지가 더 많다고 생각합니다. 소프트웨어든 하드웨어든(원자 규칙 하드웨어 등이 포함될 수 있습니다). 특히 제온 서버를 유심히 살펴본 분들을 위해 말씀드렸듯이, 저희는 로켓 레이크에서보다 훨씬 낮은 다운스트림 성능을 보았는데, 이는 데모 프로그래밍과 다운스트림 데이터를 가져오는 NUMA 영역이 달랐기 때문이라고 생각합니다.

저희는 이 데모에서 보여드린 데이터의 다운스트림이 실제로는 다른 프로세서의 프로세서 연결 메모리, 즉 NUMA 영역의 다른 QPI 쪽에서 나온 것이라고 믿고 있으며, 현재도 테스트 중인 이 예시를 살펴보고 있습니다.

이 부분은 계속 개선해 나가겠습니다. 일반적으로, 메모리 시스템이 데이터를 삭제할 수 있다면 데이터를 업스트림으로 이동하는 것은 매우 쉬워질 것입니다(제온과 로켓 레이크는 모두 이를 매우 잘 수행했습니다). 미결 읽기 요청이 아무리 많고 메모리 컨트롤러에 아무리 주의를 기울여도 읽기가 완료되는 데 시간이 오래 걸리는 경우가 있습니다.

단일 클록 사이클 내에서 여러 개의 완료를 처리할 수 있다는 점도 장점입니다. 다시 애자일 인터페이스가 제공하는 아키텍처적 장점으로 돌아가 보겠습니다. 하지만 일반적으로 완료가 있는 읽기는 게시하고 실행했다가 잊어버릴 수 있는 쓰기보다 이슈에 더 취약합니다.

(Tom)

마커스? Gen5와 CXL에 대해 좀 더 자세히 설명해드릴까요?

(Marcus)

그러니 기회가 된다면 물론이죠.

(Tom)

네. 그래서 제 오디오가 끊겨서 아까 놓친 것 같은데, 사람들에게 알려 드리기 위해 Jeff가 이미 Agilex를 기반으로하는 추가 카드를 계획하고 있다고 언급 한 것 같은데 Agilex I- 시리즈입니다. 그리고 I-시리즈는 PCI Express Gen5 및 CXL을 지원하는 R-Tile이라고 부르는 칩렛이 있는 장치입니다.

그리고 칩 수준에서 우리는 오늘 이러한 장치를 샘플링하고 있으며 이미 PCI-SIG 워크샵에 참석했습니다. 아시다시피, 저희는 장치와 R-Tile에서 전체 대역폭을 확보하고 있습니다. 따라서 우리는 16레인으로 전체 대역폭 PCI Express Gen5를 사용하고 있습니다. 그리고 이를 이 특정 보드와 비교하면, PCI Express 관점에서 볼 때 본질적으로 대역폭이 두 배로 늘어납니다.

(Marcus)

추가 정보를 제공해 주셔서 감사합니다. 몇 가지 질문을 더 받을 시간이 있습니다. 이번 질문도 셰프를 위한 질문입니다. 아크빌 DPDK는 인텔 FPGA 멀티큐브 DMA DPDK 지원과 어떻게 다른가요?

(셰프)

훌륭한 질문입니다, Marcus. 하지만 그거 아세요? 잠시만 기다려주세요. 톰과 제프가 모두 언급한 5세대에 대해 말씀드리고 싶어서요. 아크빌 고객 중 거의 100%가 처리량에 의존하고 있습니다(아크빌은 최고의 IP입니다). 그렇기 때문에 고객과 애플리케이션의 역량을 강화할 수 있는 Gen4 x16의 아크빌이 매우 중요합니다.

Gen5 x16 디바이스와 보드가 출시되면 아토믹 룰즈는 거기에 맞추기 위해 최선을 다할 것이고, 그렇지 않으면 사업을 하지 않을 것입니다. 아크빌이 Gen5를 지원한다고 섣불리 발표하기 전에 분명히 말씀드리고 싶은 것은, 아크빌은 Gen5를 매우 면밀히 주시하고 있다는 점입니다.

자, 이제 아크빌과 인텔의 뛰어난 멀티큐브 또는 멀티 채널 DMA(MCDMA)와 같은 롤유어오운을 비교해보겠습니다. MCDMA는 인텔에서 제공하는 훌륭한 무료 IP로, 쿼터스에 예제 설계와 함께 내장되어 있습니다. 제 생각에는 데이터 무버가 아닌 키친 싱크 DMA에 불과합니다.

스트림, 메시지, 캐싱, CXL 등 데이터 이동에 사용할 수 있는 거의 모든 역할을 MCDMA가 지원합니다. 하지만 아크빌보다 FPGA에서 약 2배 더 많은 메모리 리소스를 사용합니다. 하지만 인텔은 더 큰 FPGA를 판매하는 사업을 하고 있기 때문에 그 광기에 대한 방법이 있을지도 모릅니다. 그리고 약간의 작업이 필요할 것입니다. 해당 IP를 사용하려면 RTL이 필요합니다. RTL 시뮬레이션과 연결이 필요하고, 인텔이 제공하겠지만 다른 쪽에서 소프트웨어가 필요할 것입니다.

아크빌이 해결하지 못한 특별한 요구사항이 있다면, 그 요구사항에 맞춰 달려가서 해결하라고 말씀드리고 싶습니다. 아크빌과 경쟁할 생각은 없습니다. 데이터 모션 문제, 즉 대량 데이터나 DPDK, 네트워킹과 관련된 문제가 있다면 아크빌은 말 그대로 그 날 바로 해결해줄 수 있는 솔루션을 제공합니다. 따라서 빌드 대 구매라는 의미에서 이 점이 차별화 요소라고 생각합니다.

마지막으로 또 다른 부분은 CPU 오프로드인데, 아시다시피 MCDMA는 스캐터-개더 리스트를 사용하기 때문에 이를 위해 호스트 코어를 사용하게 됩니다. 따라서 호스트에 DMA에 참여할 수 있는 코어가 많다면 이를 활용하면 됩니다. 아크빌은 이 코어를 가져가서 여러분의 애플리케이션을 위해 남겨둘 것입니다.

(Jeff)

죄송하지만 한 가지 덧붙이고 싶은 것이 있는데, 아크빌과 다른 아토믹 룰즈 IP를 사용해 본 고객들이 놀라울 정도로 빠르게 실행하고 있다는 점을 확인할 수 있었습니다. 셰프와 그의 팀은 고객이 직접 롤링하는 대신 기본 구성 요소를 모두 모아 바로 사용할 수 있는 배포를 제공하는 데 탁월한 능력을 발휘합니다. 그래서 고객과 함께 배포할 때 그 점이 가장 큰 차이점이라고 생각합니다.

(Marcus)

여기서 볼 수 있는 질문은...네...있습니다. 다른 인텔 FPGA 디바이스로의 이식성에 관한 질문입니다. 다른 장치로 이식하는 것이 얼마나 쉬운지를 의미하는 것인지, 스트라틱스 10이나 다른 애자일렉스를 의미하는 것인지는 모르겠습니다.

(셰프)

저한테는 그런 것 같아요. 그래서 아크빌에서 Stratix 10 디바이스를 사용해야 한다는 요구는 없었습니다. 하지만 다른 모든 IP(TimeServo, TimeServo PTP, UDP 오프로드 엔진)는 스트라틱스 10은 물론 이전 인텔 디바이스 및 기타 FPGA에서도 지원됩니다. 쿼터스, 플랫폼 디자이너(이전의 Qsys)와 같은 것에는 많은 욕구와 가치가 있지만, 우리는 모든 코어에 대해 시스템베릴로그 표현을 향해 나아가고 있으며, 이는 아시다시피 12줄의 텍스트가 인스턴스화를 나타냅니다.

스트라틱스 10에서 아크빌을 사용하는 데 진정으로 관심이 있으신 분은 저희에게 연락해 주세요.

(Jeff)

고객/유저가 아크빌 포팅을 하지 않는 것이 답 중 하나라고 생각합니다. 포팅은 아토믹 룰즈가 할 것입니다. 그리고 S10이나 Agilex I-시리즈로 빌드하려는 경우, 아토믹 룰즈와는 다른 코어를 사용하면 바로 로드하고 원활하게 작동할 수 있습니다. 추가 사용자 작업이 필요하지 않습니다.

(셰프)

아크빌 인터페이스 시그니처(죄송합니다. 지금 RTL 디자이너 여러분께 말씀드리는 것입니다.)에는 수십 줄의 시스템베릴로그와 몇 개의 인터페이스가 있습니다... 이를 설계에 추가하면 됩니다. 이는 어떤 FPGA 디바이스에서도 동일하게 적용됩니다.

(Marcus)

자, 마지막 한두 가지 질문입니다. 이건 그냥 여기서 읽어드리겠습니다: 아크빌은 암호화된 넷 리스트로 제공되나요, 아니면 난독화된 HDL로 제공되나요, 후자라면 어떤 언어로 제공되나요, 다시 말씀드리면 셰프용인가요?

(셰프)

까다로운 질문입니다. 그래서 저희는 라이선스 고객에게 암호화되지 않은 IEEE Verilog 넷리스트를 Arkville에 제공합니다. 하지만 암호화되지 않은 Verilog는 소스 코드가 아닙니다. 유니티는 자체 원자 규칙 기반 함수형 프로그래밍 언어를 사용하여 기계로 해당 Verilog를 생성하고 이를 통해 공식적인 검증을 수행합니다. 따라서 구체적으로 말하면, 시뮬레이션 및 컴파일하는 전달된 자산은 난독화되지 않고 암호화되지 않은 Verilog 넷리스트입니다.

알겠습니다. 모든 질문과 답변에 감사드립니다. 더 궁금한 점이 있으시면 저희에게 직접 문의해 주세요: BittWare.com, Intel.com/agilex 또는 AtomicRules.com으로 문의하세요.

시청해주신 모든 분들께 감사드리며 좋은 하루 되세요. 이상으로 웨비나를 마치겠습니다.

아크빌과 비트웨어의 Agilex 기반 FPGA 카드에 대해 자세히 알아보기

아크빌 IP 블록 다이어그램