BittWare 웨비나

벡터패스 S7t-VG6 가속기 카드 소개

이제 온디맨드로 이용할 수 있습니다:

이 웨비나에서는 Achronix®와 비트웨어가 고성능 애플리케이션에서 PCIe 기반 FPGA 가속기 카드의 사용 증가 추세에 대해 논의합니다. BittWare와 Achronix가 협력하여 제작한 새로운 S7t-VG6 VectorPath™ 가속기 카드에 대해 알아볼 수 있습니다. S7t-VG6 VectorPath 가속기 카드는 첨단 7nm TSMC 공정 기술과 400G 이더넷, GDDR6 메모리 및 유연한 OCulink 확장 포트와 같은 고급 연결 기능을 활용하는 최초의 카드입니다. 웨비나에 참석하면 PCIe 가속기 카드의 채택을 주도하는 시장 동향을 이해하고, 애플리케이션에서 이 기술을 활용하는 방법을 알아보고, BittWare와 Achronix의 새로운 고성능 VectorPath 가속기 카드에 대한 자세한 정보를 얻을 수 있습니다.

S7t-VG6 PCIe 카드 사진

스피커

Steve Mensor | 영업 및 마케팅 부사장, Achronix
크레이그 페트리 | 마케팅 부사장, 비트웨어

소개 - Marcus

웨비나에 참여해주신 모든 분들께 감사드립니다.

오늘 주제는 FPGA 가속기 카드, 특히 새로운 VectorPath S7t-VG6입니다. 저는 비트웨어의 마커스 웨들입니다.

메인 프레젠테이션 중에 궁금한 점이 있으면 질문 제어판에서 질문해 주세요. 프레젠테이션이 진행되는 동안 채팅으로 답변해드릴 수 있는 직원이 온라인에 대기하고 있습니다. 물론 마지막 Q&A 세션까지 기다렸다가 발표자와 함께 실시간으로 질문에 답변해 드릴 수도 있습니다. 그럼 시작하겠습니다.

첫 번째 발표자는 Achronix의 영업 및 마케팅 부사장인 Steve Mensor입니다. Steve는 FPGA 업계에서 25년간 경력을 쌓았으며, 현재 인텔의 일부인 Altera에서 다양한 직책을 역임한 바 있습니다.

Steve는 FPGA 분야에서 수십 년의 경력을 쌓은 BittWare의 마케팅 부사장 Craig Petrie와 합류할 예정입니다. 크레이그는 2018년에 BittWare 브랜드와 합병된 것으로 잘 알려진 Nallatech에서 시작했습니다.

이제 스티브에게 메인 프레젠테이션을 넘겨드리고, 나중에 다시 라이브 Q&A를 진행하도록 하겠습니다.

 

스티브 멘서 - Achronix 소개

감사합니다, Marcus. 이번 웨비나에서 최근 발표된 벡터패스 S7t-VG6 액셀러레이터 카드에 대해 이야기할 수 있는 기회를 갖게 되어 매우 기쁘게 생각합니다. 카드에 대한 몇 가지 세부 사항을 살펴본 다음 마지막에 질문할 수 있는 시간을 갖도록 하겠습니다. 먼저, 이 제품을 함께 개발하고 있는 두 회사를 소개합니다.

Achronix: 우리는 하이엔드 FPGA와 FPGA를 지원하는 동급 최고의 툴에 주력하는 회사입니다. 당사는 하이엔드 독립형 FPGA 제품에 주력할 뿐만 아니라 ASICS 또는 SLC에 통합할 수 있는 임베디드 FPGA IP 기술도 판매하는 유일한 FPGA 회사라는 점에서 독특합니다. 우리는 Speedster7t라는 최신 제품군에 집중하고 있습니다. 고대역폭 및 AI 애플리케이션에 초점을 맞춘 제품군입니다.

크레이그 페트리 - BittWare 소개

감사합니다 Steve, 그리고 여러분 안녕하세요. 비트웨어의 크레이그 페트리입니다. 비트웨어에 대해 잘 모르시는 분들을 위해 설명하자면, 비트웨어는 Molex 그룹의 계열사로 컴퓨팅, 네트워크, 스토리지 및 센서 프로세싱을 포함한 애플리케이션을 위한 FPGA 기반 가속화에 주력하는 회사입니다. 이러한 프로그래밍 가능한 FPGA 제품은 애플리케이션 성능과 에너지 효율성을 향상시키는 동시에 고객의 총소유비용을 절감합니다.

비트웨어는 30년 동안 고급 FPGA 가속기 제품을 성공적으로 설계하고 배포한 실적을 보유하고 있습니다. Molex 그룹의 일원으로서 당사는 엔터프라이즈급 인증, 검증, 수명 주기 및 지원 요구 사항을 충족할 수 있는 유일한 대량 FPGA 카드 공급업체입니다. Achronix와의 협력은 BittWare에게 매우 흥미로운 일이며, 우리는 함께하면 각자의 부품을 합친 것보다 더 큰 힘을 발휘할 수 있다고 생각합니다.

스티브 멘서

데이터 가속기의 필요성을 높이는 다양한 워크로드(02:57)

카드에 대한 자세한 내용을 살펴보기 전에 배경에 대해 조금 이야기하고 싶습니다. 하드웨어 가속기에 대한 많은 예측이 나오고 있습니다. 실리콘 기반 하드웨어 가속기는 빠르면 2023년까지 200억 달러를 넘어설 것으로 예상됩니다. 그 근본적인 이유는 제온 프로세서 기반의 서버 배열을 사용하는 기존의 방법론으로는 특정 워크로드 문제를 성능 요구 사항이나 필요한 에너지 요구 사항에 맞게 충분히 해결할 수 없기 때문입니다.

이에 대해 조금 더 자세히 설명하겠습니다. 애플리케이션 세그먼트를 컴퓨팅, 네트워킹, 스토리지 및 센서 처리로 나누면 하단에 표시된 것은 데이터에 대해 수행해야 하는 다양한 워크로드입니다. 따라서 지금까지는 궁극적으로 데이터를 A 지점에서 B 지점으로 이동해야 했습니다.

이제 우리는 데이터를 이동하기 전에 해당 데이터에 대해 수행해야 하는 작업이 있는 영역에 있습니다. 간단한 예로 압축과 암호화를 들 수 있습니다. 물론 다른 예로는 AI/ML 분야에서 매우 빠르게 성장하고 있는 시장 부문도 있습니다. 실제로 여기 하단에 AI/ML을 지향하는 다양한 워크로드를 강조하여 표시한 것을 보실 수 있습니다. 하지만 이렇게 다양한 워크로드에서 볼 수 있듯이, 하나의 기술로 모든 워크로드를 강화된 기능이나 ASIC 기능으로 처리하는 것은 매우 어렵다는 것을 알 수 있습니다.

궁극적으로 이 문제를 해결할 수 있는 방법이나 칩셋이 있다면 이 문제를 해결할 수 있을 것입니다. 하지만 CPU의 관점에서 보면 비효율성이 있습니다. 그래서 우리는 GPU나 FPGA가 프로그래밍 가능한 솔루션이라는 것을 알게 되었습니다. 특히 FPGA의 장점 중 하나는 엄청난 수준의 가속을 구현할 수 있고 다양한 워크로드 유형을 모두 처리할 수 있다는 점입니다.

크레이그 페트리

PCIe 가속기 카드에 대한 시장 수요 (05:06)

이 슬라이드의 목적은 시장에서 볼 수 있는 트렌드를 강조하고, Achronix와 함께 이를 해결하기 위해 어떻게 지원하고 있는지 설명하는 것입니다. 지난 5~10년 동안 우리는 Nvidia의 GP-GPU 기술의 성공을 지켜보았습니다. 이를 통해 사람들의 태도가 바뀌고 애플리케이션 성능을 향상시키는 수단으로 가속 기술을 받아들이는 분위기가 형성되었습니다.

점점 더 많은 고객이 각각 장단점이 있는 다양한 기술을 혼합하여 제공하는 이기종 아키텍처를 사용하고 있으며, 이러한 플랫폼을 함께 사용할 경우 다양한 애플리케이션에 전반적인 이점을 제공합니다. GP-GPU의 수익이 감소함에 따라 고객들은 이제 성능 개선과 에너지 효율성의 다음 물결이 어디에서 나올지 찾고 있습니다.

지난 3년 동안 시장에서 주목할 만한 FPGA 성공 사례가 몇 가지 있었습니다. 그 예로 Altera(현 인텔)의 ARRIA 10 FPGA를 사용하여 Bing 검색 엔진을 가속화한 Microsoft Catapult 프로그램을 들 수 있습니다. Microsoft는 FPGA를 사용하는 애플리케이션에 지속적으로 투자해 왔으며, 현재 지속적 AI 신경망을 실행하는 Brainwave 프로그램에 인텔 STRATIX 10 FPGA를 사용하고 있습니다.

가장 최근에는 Amazon의 AWS F1 클라우드 인스턴스가 자일링스 울트라스케일+ FPGA로 보강되었습니다. 이러한 사례는 모두 하이퍼스케일 고객이 한두 가지 애플리케이션 요구 사항을 해결하기 위해 상당한 시간, 비용 및 인적 자원을 투자하여 특별한 구현을 만드는 칩 다운 설계의 좋은 예입니다. FPGA가 기존 기술 채택 곡선을 읽으면 소비 모델이 변화한다는 것을 알 수 있습니다. 티어 2 하이퍼스케일 및 엔터프라이즈급 고객은 해결해야 할 애플리케이션 문제가 매우 광범위하며 칩 다운 모델에 대한 투자를 정당화할 수 없는 다른 세트를 가지고 있습니다.

이들은 기성품과 서버 레벨의 카드를 구매하기를 원합니다. 이 때문에 현재 Dell, HPE, IBM과 같은 서버 공급업체는 인기 있는 서버 플랫폼에서 FPGA 카드를 판매하고 있습니다. 두 개의 주요 FPGA 공급업체인 인텔과 자일링스도 이러한 시장 트렌드를 인식하고 각각 자체적인 FPGA PCIe 가속기 카드 제품군인 PAC 및 ALVEO 제품군을 출시했습니다.

데이터 센터 시스템 및 비즈니스 요구 사항(07:30)

다음 몇 개의 슬라이드에서는 S7t 카드와 디자인 도구가 대상 고객의 세부적인 기술 요구 사항을 해결하는 데 어떻게 도움이 되는지 설명하겠습니다. 또한 고객이 경험하는 많은 비즈니스 요구 사항을 해결하기 위해 노력하고 있습니다. 고객들은 총소유비용을 줄이기 위해 에너지 효율성을 개선해야 한다는 상당한 압박을 받고 있습니다.

재구성 가능한 특성 덕분에 고객은 새로운 애플리케이션 요구 사항에 신속하게 대응하면서 ASIC과 같은 성능을 달성할 수 있습니다. 엔터프라이즈급 기성 PCIe 카드 또는 서버 플랫폼으로 Achronix S7t FPGA를 제공할 수 있다는 사실은 고객이 애플리케이션을 입증한 다음 신속하고 비용 효율적으로 확장하는 데 도움이 됩니다. 개념 증명에 사용하는 하드웨어는 확장할 수 있는 프로덕션 준비 하드웨어이기도 합니다. 이러한 모든 요소가 합쳐져 시장 출시 시간을 단축하고 위험을 줄입니다.

스티브 멘서

벡터패스 액셀러레이터 카드 소개 (08:29)

이제 벡터패스 가속기 카드에 대해 자세히 알아보겠습니다. 먼저 카드 폼 팩터 측면에서 보면, 이 카드는 두 배 폭의 전체 높이 카드입니다. 이는 GPU 크기 카드와 동일한 폼 팩터입니다. 매우 중요한 점은 패시브, 액티브, 액체 등 다양한 냉각 옵션이 있다는 것입니다. 그리고 전반적인 품질 면에서 엔터프라이즈급으로 제작되었습니다.

크레이그 페트리

이 협업의 목표는 엔터프라이즈급 제품을 제공하는 것이며, 이는 당연히 고품질 하드웨어를 의미합니다. 하지만 이는 디자인 도구와 유틸리티도 의미합니다. 우리가 제공하는 번들에는 하드웨어뿐만 아니라 Achronix ACE 설계 도구와 BittWare의 툴킷도 포함되어 있습니다. 이 툴킷은 30년간의 FPGA 카드 경험과 기능을 활용합니다. 툴킷의 주요 기능으로는 고객이 애플리케이션 부하 상태에서 카드의 상태를 모니터링할 수 있는 정교한 보드 관리 컨트롤러(또는 BMC)가 있습니다. 예를 들어 전력 소비, 전압, 전류 및 온도 모니터링은 물론 고객에게 중요한 기타 다양한 매개 변수를 모니터링할 수 있습니다. 이 툴킷은 대부분의 고객이 사용하는 최신 버전의 Linux에서 지원됩니다. 그러나 레거시 애플리케이션에 문제가 있는 일부 고객을 위해 추가 옵션으로 Windows도 지원합니다. 광범위한 API PCIe 드라이버 세트와 여러 애플리케이션 예제 디자인이 제공되며, 각 주요 FPGA 주변 장치, PCI Express, 메모리 및 네트워크 포트에서 데이터를 이동하는 방법을 보여줍니다. 이러한 예제는 소스 코드와 함께 제공됩니다. 마지막으로 기술 지원 및 보증 서비스의 기본이 되는 진단 자가 테스트가 있습니다. 이 테스트는 생산 테스트 체계의 일부이며 고객이 애플리케이션을 시작하기 전에 카드가 운송, 취급 및 설치를 견뎌냈는지 확인하기 위해 사용합니다. 모든 기능이 최대 성능으로 작동하는지 확인하는 디버그에 유용한 골든 이미지입니다.

고속 데이터 인터페이스 (10:35)

이 슬라이드의 목적은 Speedster7t FPGA 가속기 카드의 주요 기능을 요약하는 것입니다. 카드와 서버 수준에서 Speedster7t 디바이스의 기능과 IP가 고객에게 노출되도록 노력했습니다. 첫 번째는 전체 16레인의 PCI Express 연결입니다. 이 카드는 처음에 현재 시장에서 사용되고 있는 PCI Express Gen3를 지원합니다. 하지만 이 카드는 Gen4도 지원하도록 설계되었습니다. 저희의 목표는 Gen4를 인증하고 시간이 지남에 따라 제품 사양을 업그레이드하는 것입니다. Achronix Speedster7t FPGA는 16레인 PCI Express Gen5를 지원하는 하드 IP를 갖추고 있다는 점에서 매우 운이 좋았습니다. 적절한 시기가 되면 카드의 신호 무결성을 살펴보고 호환성을 보장하기 위해 필요한 조정을 할 것입니다.

Speedster7t FPGA는 초당 1 ~ 400기가비트를 지원하는 다양한 다중 회선 속도 SERDES, MAC 및 FEC IP를 갖추고 있습니다. 비트웨어의 모회사인 Molex의 기술을 활용하여 두 가지 유형의 네트워크 케이지, 즉 이중 밀도를 의미하는 QSFP 56과 QSFP DD를 설계했습니다. QSFP 56은 1개의 200기가비트 이더넷 포트입니다. QSFP DD는 1개의 400기가비트 이더넷 포트입니다. 두 네트워크 포트는 모두 Molex의 브레이크아웃 케이블을 사용하여 10, 25, 40 및 50 기가비트 이더넷 연결의 배수로 세분화할 수 있습니다.

메모리 인터페이스 (12:02)

이 가속기 카드의 또 다른 주요 특징은 혁신적인 메모리 아키텍처입니다. Achronix는 FPGA에 값비싼 HBM2 통합 메모리를 사용하는 대신 GDDR6 하드 IP를 포함했습니다. 비트웨어 카드는 8기가바이트 용량의 독립적인 뱅크 8개를 지원합니다. 이를 통해 초당 4테라비트의 외부 메모리 대역폭을 제공하며, 이는 HBM2를 사용하여 달성한 성능과 비슷하지만 비용은 더 저렴합니다. GDDR6 메모리는 GPU에서 광범위하게 사용되며 멀티 소스입니다. 이 아키텍처를 통해 BittWare는 대량 애플리케이션에 맞게 카드를 커스터마이징할 수 있습니다. 고객이 이렇게 말할 수 있습니다,

 "애플리케이션에서 메모리 뱅크의 절반만 사용하고 있습니다. 가격과 전력 소비를 줄이기 위해 메모리 뱅크 중 4개를 비울 수 있을까요?"

HBM2 지원 장치를 사용하는 경우 다른 FPGA와 잠재적으로 새로운 PCB가 필요한 간단한 옵션입니다. 이 경우, 간단히 부품을 제거하고 비용을 절감하여 고객의 비용을 절감할 수 있습니다. 또한 해당 수준의 애플리케이션 버퍼링이 필요한 고객을 위해 캐시 레벨 메모리 옵션인 DDR4 단일 뱅크도 버퍼로 포함했습니다.

시계 및 확장 인터페이스(13:15)

이 슬라이드에는 애플리케이션을 효율적으로 실행하는 데 필요한 미묘하지만 매우 중요한 몇 가지 기능이 요약되어 있습니다. 이 제품은 컴퓨팅, 네트워크, 스토리지 및 센서 처리 워크로드의 다양한 요구 사항을 하나의 카드에서 모두 처리할 수 있도록 30년간의 경험을 바탕으로 개발되었습니다. 시중의 다른 FPGA 카드에서는 이러한 기능을 많이 볼 수 없습니다.

먼저 전면 패널 왼쪽에 있는 SMA 커넥터가 있습니다. 이 커넥터는 1 PPS 및 10 메가헤르츠를 포함한 클럭 입력으로, 고객이 타이밍이 중요한 애플리케이션을 위해 여러 카드를 동기화할 수 있게 해줍니다. 이러한 기능이 없으면 고객이 네트워크 지원 애플리케이션을 확장하기가 매우 어렵습니다. 카드의 오른쪽에는 범용 디지털 IO 헤더가 있습니다. 이 헤더는 1.2볼트에서 3.3볼트로 변환하기 위해 전압 버퍼를 통해 Speedster7t FPGA의 8개의 싱글 엔드 핀을 실행하는 비교적 낮은 기술 커넥터입니다. 이 헤더는 고객이 새로운 가속 기술을 간단한 디지털 트리거 또는 제어 루프가 필요한 레거시 시스템에 통합할 때 매우 중요합니다.

확장 인터페이스 사용 사례(14:30)

오늘 마지막으로 자세히 안내해 드리고자 하는 카드 기능은 업계 표준 OCuLink Edge 커넥터를 사용하는 확장 포트입니다. OCuLink는 Optical Copper Link의 약자로 PCI Express 인터커넥트 시스템입니다. S7t 가속기 카드에서 이 포트의 주요 사용 사례는 크게 네 가지입니다.

첫 번째는 FPGA가 NVME 플래시 어레이와 직접 인터페이스할 수 있도록 합니다. 이를 통해 네트워크 포트를 통해 캡처된 데이터를 사전 처리하여 NVME 스토리지에 직접 저장하거나 FPGA에서 검색하여 데이터베이스 가속 또는 빅 데이터 애플리케이션의 일부로 처리할 수 있습니다. 비트웨어에서 볼 수 있는 또 다른 사용 사례는 여러 디바이스에 걸쳐 FPGA 애플리케이션을 확장해야 하는 경우입니다. PCIe가 아무리 훌륭하더라도 호스트 인터페이스, 칩셋, 드라이버 및 운영 체제를 통해 확장하려고 하면 필연적으로 성능이 저하되고 시스템 수준의 지터가 증가하게 됩니다. 애플리케이션 확장 포트를 간단한 SERDES, 즉 비 PCIe 프로토콜로 사용하면 고객은 Molex에서 제공하는 간단한 케이블 어셈블리를 통해 Speedster7t 장치를 직접 상호 연결할 수 있습니다.

고객은 데이지 체인, 링, 메시 토폴로지 등 자신의 애플리케이션에 가장 적합한 토폴로지를 사용하여 상호 연결할 수 있습니다. 이 기술을 사용하면 고객은 지연 시간이 짧고 대역폭이 높으며 무엇보다도 시스템 내 FPGA 간의 결정론적 인터페이스를 확보할 수 있습니다. 세 번째 사용 사례는 이 카드처럼 IO가 풍부하지만 네트워크 연결 측면에서 조금 더 많은 것을 원하는 고객이 항상 있다는 것입니다. 이러한 고객을 위해 어댑터를 사용하면 확장 포트를 통해 전면 패널에서 Speedster7t FPGA로 더 많은 네트워크 포트를 가져올 수 있습니다.

마지막 사용 사례는 이전 슬라이드의 GPIO 헤더의 경우와 마찬가지로 프로토콜에 구애받지 않는 OCuLink 확장 포트를 사용하여 새로운 기술을 구형 시스템에 통합할 수 있습니다.

스티브 멘서

Speedster7t 2D 네트워크 온 칩(NoC)(16:30)

이제 Speedster S7t 디바이스의 몇 가지 기능에 대해 이야기하겠습니다. 여기에서는 NoC 또는 네트워크 온 칩을 강조할 것이며, 이는 2차원 구현입니다. 그래서 여기에 강조 표시된 것을 볼 수 있습니다. NoC에 대해 자세히 설명하진 않겠지만 기본적으로 NoC는 매우 높은 대역폭으로 가로 및 세로 열마다 초당 512기가비트와 이더넷, PCI Express, GDDR6 포트 및 DDR4를 포함한 고속 인터페이스에 연결할 수 있는 고속 인터페이스를 제공합니다.

NoC와 통신하는 데는 여러 가지 모드가 있습니다. 가장 일반적인 것은 AXI 인터페이스로, 모든 설계 엔지니어가 인터페이스 작동 방식을 이해하는 데 있어 매우 표준적인 방식입니다. 이러한 연결 지점은 가로 행과 세로 열이 서로 교차하는 모든 지점입니다. 이를 NAP 또는 NoC 액세스 포인트라고 합니다. 따라서 네트워크 온 칩에 접속하거나 이러한 지점 중 어느 곳에서든 내릴 수 있습니다. 이는 실제 구현을 위해 FPGA 패브릭 전체에 NoC가 분산되어 있다는 것을 의미하기 때문에 매우 강력한 기능입니다.

스피드스터7t NoC: 새로운 디자인 패러다임 (17:55)

예를 들어 보겠습니다. 여기서 보여드리는 것은 가속기 1과 가속기 2라는 서로 다른 두 가지 가속기 기능을 생성하고자 하는 FPGA의 카툰입니다. 그리고 서로 다른 GDDR6 포트를 볼 수 있습니다. 따라서 이 포트 중 하나에 연결하려면, 예를 들어 이 포트 중 두 개에 연결하려면 이를 위한 기능을 구축해야 합니다. 궁극적으로 저는 사용자로서 가속기 기능에만 관심이 있습니다. 그 외의 모든 것은 FPGA이기 때문에 외부와 통신할 수 있는 모든 기능을 직접 설계해야 합니다. 앞으로 클릭하시면 어떤 기능을 수행해야 하는지 보실 수 있습니다. 우선, GDDR6 포트와 통신하기 때문에 외부 세계의 클럭킹이 있고 이를 FPGA 내부의 클럭킹과 동기화해야 합니다. 그래서 저는 FIFO와 같은 표준 구조를 사용합니다. 이는 매우 간단합니다.

더 복잡한 것은 서로 다른 가속기가 서로 다른 메모리와 통신해야 하기 때문에 공유 메모리 공간이 필요하다는 것입니다. 주소 지정, 디코딩 및 라우팅을 수행하는 제어 메커니즘 또는 실제로 스위치 기능이 있어야 합니다. 두 가속기가 동시에 같은 메모리 위치에 통신하지 않도록 제어 및 배압 기능이 있어야 합니다. 그리고 이 모든 작업은 역방향으로도 이루어져야 합니다.

다시 클릭하면 여기에서 빨간색으로 강조 표시된 영역은 앞서 말했듯이 가속기 기능이 외부 세계와 통신할 수 있다는 점을 제외하면 고객에게 아무런 가치가 없다는 것을 알 수 있으므로 반드시 수행해야 합니다. 필요악입니다.

이와 관련된 몇 가지 문제가 있습니다. 첫째, 하단에서 볼 수 있듯이 빨간색 영역이 이차적인 비율로 증가하는 것을 강조했습니다. 다른 메모리 포트이든 고속 인터페이스이든 가속기이든 스위치 기능에 새 포트를 추가할 때마다 매우 빠른 속도로 증가하여 회로, 즉 이 빨간색 기능, 즉 외부 세계와의 연결과 가속기에 집중하고 싶은 기능에 훨씬 더 많은 회로를 갖게 될 정도로 커집니다.

아마도 더 중요한 것은 설계와 타이밍 종료를 매우 어렵게 만든다는 것입니다. 실제로 고성능 인터페이스와 이야기할 때 장소와 경로 관점에서 일어나는 일은 회로를 연결 포트 쪽으로 끌어당기려고 한다는 것입니다. 즉, 가속기와 다양한 포트 사이에서 스트레칭을 하게 되므로 타이밍을 맞추기가 매우 어려워집니다.

소프트웨어 친화적인 하드웨어 Speedster7t (20:42)

Speedster 7t FPGA의 다른 점은 수평 또는 수직 열이 서로 교차하거나 교차하는 모든 지점에 FPGA 패브릭에 분산되어 있는 2D NoC 액세스 포인트 또는 NAP가 있기 때문에 엔지니어는 전문 지식에 관계없이 가속기 RTL을 매우 간단하게 설계하고 AXI 연결만 수행하면 된다는 것입니다. 따라서 NAP의 인스턴스화를 생성하고 연결하기만 하면 됩니다. 그리고 거기서부터 ACE라는 Achronix 소프트웨어 툴이 가속기와 다른 메모리 포트 또는 이더넷, PCI Express 등과 같은 다른 고속 포트 간의 모든 라우팅을 처리합니다. 앞서 이야기한 다양한 유형의 가속기 측면에서 다양한 유형의 워크로드를 생성하기 위해 구축된 다양한 유형의 솔루션이 있기 때문에 에코시스템이 이 제품에 매우 중요하기 때문에 이것은 매우 중요합니다.

이러한 환경은 엔지니어가 설계하기가 훨씬 쉽기 때문에 전문 분야 또는 제공하려는 IP 유형을 가진 다양한 에코시스템 회사가 엔드투엔드 솔루션을 만들 수 있다는 의미에서 에코시스템이 번창할 수 있으며, 작동 방식은 IP 제공자가 자신의 가치 제안에 맞는 기능을 간단히 만들 수 있다는 것을 의미합니다. 암호화, 가속 또는 모든 유형의 AI/ML 애플리케이션이 될 수 있으며, NAP를 인스턴스화하기만 하면 외부 세계와 소통할 수 있습니다. 현재 저희는 꽤 괜찮은 규모의 에코시스템을 갖추고 있습니다. 매우 빠르게 성장하고 있으며, 디자이너와 생태계 모두 최종 솔루션 제품을 위한 IP를 구축하기 매우 쉬운 환경이기 때문에 앞으로도 매우 빠르게 성장할 것으로 예상합니다.

컴퓨팅 집약적인 AI/ML 애플리케이션에 최적화된 Speedster7t (22:47)

또 한 가지 말씀드리고 싶은 것은 Speedster 7t 디바이스 내부에 MLP 또는 머신 러닝 프로세서가 있다는 점입니다. 이는 표준 FPGA에서는 DSP 블록이라고 할 수 있지만, AI/ML 애플리케이션에 특별히 최적화되어 있습니다. 모든 기능에 대해 자세히 설명하지는 않겠지만, 몇 가지 주요 특징만 소개해드리겠습니다.

우선, 장치 전체에 분산되어 있다는 측면에서 이 7t 카드에서 40,000개 이상의 INT8 MAC 오퍼레이션을 수행할 수 있으며 750메가헤르츠에서 실행됩니다. 이는 초당 80테라 연산 이상의 기능에 해당합니다. 그리고 자주 인용되는 또 다른 벤치마크는 RESNET 50이며, 이 벤치마크에서는 초당 8600개의 이미지를 제공합니다.

AI/ML에서 주로 트레이닝 영역에 집중되어 왔던 GPU에 대해 언급하고 싶습니다. AI/ML의 어려운 점 중 하나는 캐시 구조를 가진 다양한 엔진이 있고 대부분 CPU에서 순차적으로 구현하는 것과 유사하게 설계되어 있기 때문에 실제 컴퓨팅 엔진이 10~20% 정도만 활용되는 메모리 전달 문제나 데이터 전송 문제에 직면하게 된다는 점입니다.

예를 들어 초당 이미지를 측정할 때 GPU는 초당 130테라 연산이라고 하지만 실제 결과는 초당 15~20테라 연산에 가까운 결과를 얻을 수 있는 반면, GDDR6로 구현된 Speedster7t 고대역폭 메모리와 네트워크 온 칩, 그리고 고도로 최적화된 머신러닝 프로세서 블록 덕분에 AI/ML 구현에 최대 80%의 효율성을 제공할 수 있습니다.

크레이그 페트리

성능 및 지원 (24:53)

앞서 웨비나에서 언급했듯이, FPGA가 기술 채택 곡선을 타면서 소비 모델이 칩다운 설계에서 카드, 통합 서버 플랫폼으로 변화하고 있다고 설명했습니다.

서버 수준에서 구매하고자 하는 고객을 위한 제품입니다. S7t 카드는 BittWare의 TeraBox 제품군의 일부로 제공됩니다. 지난 몇 년 동안 BittWare는 올해 초에 다시 출시한 TeraBox 제품군에서 디자인 수상과 수익이 증가했습니다. FPGA 카드는 사전 통합 및 사전 테스트를 거친 Dell 또는 HPE 시스템으로 고객에게 제공되며, 기계 및 열 관련 사항을 이미 파악하고 서버와 FPGA 카드 모두를 포괄하는 포괄적인 보증이 제공됩니다.

운영 체제, BittWare 툴킷 및 Achronix ACE 설계 도구는 모두 사전 로드되어 바로 사용할 수 있습니다. 고객은 전원을 인가하고 로그인한 후 진단 테스트를 실행하여 모든 것이 정상인지 확인하기만 하면 됩니다.

테라박스 서버 플랫폼 제공 (25:55)

TeraBox 제품군은 두 가지 특정 유형의 고객을 위해 만들어졌습니다:

첫 번째는 고객 마감일이나 상사의 데모에 맞춰 개념 증명을 준비하려는 개발자입니다. 시장 출시 시간과 설정 및 번거로움을 최소화하는 것이 매우 중요하므로 Terabox 제품군을 사용하면 단일 품목에 대해 한 번의 구매 주문으로 모든 것을 하나의 패키지로 배송받을 수 있습니다.

개념 증명 단계가 완료되면 배포 단계에서 만나게 되는 다음 고객 유형은 프로그램 관리자 또는 IT 책임자입니다. 이러한 고객은 일반적으로 FPGA 기술의 세부 사항에 익숙하지 않고 대신 애플리케이션 배포 및 관리에 많은 관심을 갖습니다. 이들은 서비스 수준 계약, 보증, 기술 지원, 현장의 제품 모니터링을 위한 유틸리티, 업그레이드 및 유지보수 일정에 대해 이해하고자 합니다. Molex 그룹의 일원으로서 BittWare는 고유하게 활용할 수 있는 글로벌 공급망과 인프라를 보유하고 있습니다. 또한 BittWare는 Dell 및 HPE OEM 프로그램의 일부이기도 합니다. 즉, 고객이 원하는 경우 현재 계약에 따라 Dell 또는 HPE에서 직접 TeraBox를 구매할 수 있습니다.

스티브 멘서

가용성 및 가격 (27:12)

따라서 가용성 측면에서 볼 때, VectorPath S7t 보드는 2020년 2분기 초에 출시될 예정이며, 단품 정가는 7,500달러입니다. 하지만 그 전에 Achronix ACE 설계 툴을 사용하여 FPGA 기능 설계를 시작할 수 있습니다. 이 툴은 지금 사용할 수 있습니다. 따라서 소프트웨어 평가를 시작하거나 카드의 가용성을 위해 설계를 준비할 수 있습니다.

요약 (27:47)

간단히 정리한 다음 몇 가지 질문으로 넘어가겠습니다.

우선, 매우 높은 성장세를 보이고 있는 시장입니다. 가속기 카드를 사용한다는 아이디어는 GPU 측면에서 입증되었으며, 데이터 센터 애플리케이션으로 확산되고 있으며 다양한 애플리케이션 부문에서 그 가치가 분명하게 드러나고 있습니다.

Achronix와 BittWare의 협력은 흥미로운 파트너십이며 몇 가지 독특한 기능을 제공합니다. 이 카드는 Speedster7t FPGA로 구동되며 네트워크 온 칩과 MLP에 대해 이야기했습니다. 그리고 크레이그는 이 기술을 제공해온 비트웨어의 다년간의 경험에서 나온 카드의 정말 흥미롭고 혁신적인 기능에 대해 이야기했습니다. 하지만 궁극적으로 이 협업과 솔루션은 프로덕션 애플리케이션에 사용할 수 있는 리스크가 낮은 엔터프라이즈급 완벽한 솔루션을 제공하는 데 중점을 두었습니다.

 

질문 및 답변 섹션(28:43)

 

마커스 웨들

알았어요. 마커스입니다. 패널들이 제 말을 잘 들을 수 있는지 확인하고 싶어서요.

[스티브와 크레이그 확인]

첫 번째 질문은 시중에 나와 있는 HBM2 FPGA 카드에 관한 것입니다: 분명히 S7t에는 GDDR6이 있지만 HBM2도 시중에 나와 있습니다. 그래서 BittWare에 어떤 카드와 다른 카드가 있다는 것을 알고 있습니다. S7t는 이들과 비교 가능한가요?

그러니 그 부분에 대해 이야기할 수 있다면 스티브에게 물어보세요.

크레이그 페트리

그럼 이 질문부터 시작하겠습니다. 카드 질문으로 좋은 질문입니다.

제품 웹페이지와 지금까지 공유한 자료, 그리고 웨비나를 통해 S7t 카드를 차별화하는 것이 매우 중요하다고 생각하며, 이를 잘 이해하셨기를 바랍니다. 이번 웨비나에서 몇 가지 주요 기능을 강조하여 보여드리려고 한 것은 다른 공급업체의 다른 FPGA 카드와 비교했을 때, HBM2 메모리가 탑재된 이 카드가 상당한 차별성을 제공한다는 점이라고 생각합니다. 이 특정 카드는 매우 균형 잡힌 아키텍처를 갖추고 있어 다양한 워크로드 유형에 적합하다고 생각합니다. 따라서 웨비나에서 언급한 컴퓨팅, 네트워크, 스토리지 및 센서 프로세싱의 사례를 다루려고 합니다. 이를 위해서는 다양한 IO가 필요합니다. 여기에는 클럭 입력, 디지털 트리거, 확장 포트 등도 포함됩니다. 시중의 다른 HBM2 카드에는 이러한 기능이 거의 없는 반면, S7t 카드에는 이러한 기능이 모두 포함되어 있습니다. 요약하자면 고객에게 제공할 수 있는 유연성이 매우 높은 수준이라고 생각합니다.

하지만 시중의 다른 카드와 차별화하기 위해 강조하려고 노력한 몇 가지 다른 요소도 있습니다.

Achronix Speedster7t 장치 자체에는 카드와 시스템 수준에서 노출하려는 몇 가지 고유한 기능이 있다고 생각합니다. 여기에는 QSFP 56을 통한 매우 높은 회선 속도 이더넷 포트와 QSFP DD(이중 밀도) 네트워크 포트 등이 포함됩니다. 물론 이러한 포트가 HBM2와 동일한 대역폭으로 매우 높은 대역폭인 GDDR6와 NoC에 연결되면 현재 시장에 출시되지 않은 매우 흥미로운 아키텍처를 갖게 됩니다.

내년 2분기 초에 이 제품을 출시하면 시장의 다른 카드보다 앞서 나갈 수 있을 것으로 예상합니다. 여기에 더 많은 차별화를 제공하고 궁극적으로 고객의 삶을 더 편리하게 만들기 위해 30년 동안 축적된 BittWare의 경험과 IP를 추가했습니다. 따라서 Linux와 Windows 모두에 대한 드라이버 및 API 지원, 내장된 진단 자가 테스트, 소스 코드에 대한 예제 디자인 등 다양한 형태로 제공됩니다.

마지막으로 이 기술을 카드 수준에서 사용하는 것이 아니라 서버 수준에서 구매하려는 고객을 위해 물론 TeraBox 제품군도 있습니다. 따라서 Molex의 글로벌 공급망을 통해 이러한 유형의 제품을 마케팅, 판매 및 지원할 수 있다는 것은 비트웨어가 가진 엄청난 이점이며, 이 모든 것을 카드의 가치 제안에 쏟아부어 다른 제품과 차별화되도록 노력했습니다. 질문에 도움이 되셨기를 바랍니다.

마커스 웨들 (32:50)

고마워요, 크레이그. 이번엔 스티브에게 한 가지 질문이 있습니다. 문제는 소프트웨어가 HLS 도구를 제공하느냐는 것입니다. 그렇지 않다면 멘토 캐터펄트를 사용할 수 있을까요?

스티브 멘서

네, 좋은 질문입니다. OpenCL과 관련해서는 아직 OpenCL을 지원할 계획이 없지만 HLS에 대한 계획은 있습니다. 우리는 멘토 캐터펄트와 협력해 왔으며 캐터펄트 제품은 이전 세대 제품군을 지원하며, 앞으로 멘토와 협력하여 Speedster7t 제품군을 지원할 예정입니다. 이는 향후에 이루어질 예정이며 출시 시점에 맞춰 발표할 예정입니다.

마커스 웨들

좋아요. 감사합니다. 질문이 꽤 많은데요. 여러분들이 계속 질문하실 수 있는 한 계속 통화할 수 있다는 점을 말씀드리고 싶었습니다. 좋은 질문에 답할 수 있는 기회가 많으니 계속 질문해 주세요.

그렇다면 다음 질문은 아마도 Steve에게 다시 한 번 이 새로운 FPGA의 fMAX가 무엇일까요?

스티브 멘서

따라서 FMAX는 항상 FPGA에 대한 흥미로운 질문입니다. 클록킹 측면에서 FPGA는 최대 750MHz까지 지원됩니다. 대부분의 FPGA에서 실제 FMAX는 시간 인클로저의 일부가 됩니다. 따라서 설계의 복잡성, 로직 수준 등에 따라 달라집니다. 다른 FPGA에서 타이밍 클로저 문제를 일으킬 수 있는 일반적인 혼잡을 크게 줄여주는 NoC 측면에서 앞서 이야기한 Speedster7t만의 고유한 기능이 있습니다. 따라서 설계에 따라 달라집니다. FPGA의 94%를 사용하는 2D 컨볼루션의 예제 설계를 보면 750MHz 정도에서 749.1MHz로 실행됩니다. 따라서 750이 최대값이지만 실제 구현에 따라 달라질 수 있습니다.

마커스 웨들

알겠습니다. 카드 가격에 대한 질문이 있습니다. 슬라이드에 나와 있을 겁니다. S7t 단일 유닛의 정가는 500달러입니다. 하지만 크레이그 페트리가 좀 더 자세히 설명해 주실 수 있을까요?

크레이그 페트리

물론이죠. 명확히 말씀드리자면, 소량 정가는 7,500달러입니다. 확실히 말씀드리자면 이는 번들 가격입니다. 카드만 포함된 것이 아닙니다. 분명히 카드가 포함되어 있지만 그 가격에는 Achronix ACE 디자인 도구의 라이선스도 포함되어 있습니다. 또한 포괄적인 BittWare 툴킷도 함께 제공됩니다. 여기에는 Linux용 드라이버와 API가 포함됩니다. Windows는 정가 외에 추가 옵션으로 구매할 수 있습니다. 하지만 툴킷에는 진단 자가 테스트, 소스 코드 예제 디자인, 보드 관리 컨트롤러 등 모든 유용한 기능이 포함된 Linux용 번들이 포함되어 있습니다. 그래서 저희는 구매 경험을 매우 간단하게 만들려고 노력했습니다. 단 한 번의 견적과 가격만으로 하드웨어, 펌웨어, 소프트웨어, 드라이버, API, 도구 등 시작에 필요한 모든 것을 얻을 수 있습니다.

그리고 많은 고객들이 이와 같은 새로운 기술을 처음 접하고 이 제품을 통해 무엇을 할 수 있는지 탐색하고 있습니다. 그래서 저희는 모든 것이 하나의 번들에 포함되어 있는지 확인하고자 합니다. 숨겨진 비용도 없고, 다른 곳에서 도구를 구입하거나 다른 곳에서 하드웨어를 구입해야 하는 복잡함도 없이 모든 것이 하나의 가격으로 제공됩니다. 따라서 고객의 경험이 단순화되기를 바랍니다. 볼륨 측면에서 이번 웨비나를 통해 알게 된 한 가지는 대량 애플리케이션의 경우 제품을 사용자 지정할 수 있다는 사실입니다. 사용자 지정은 다양한 수준으로 이루어집니다. 가장 간단한 사용자 지정 중 하나는 볼륨 애플리케이션에서 사용되지 않는 컴포넌트를 비우는 것입니다. 이를 통해 고객의 장치 비용을 절감할 수 있다는 분명한 이점이 있습니다. 또한 전력 소비를 줄이고 고객에게 최적화된 솔루션을 제공할 수 있습니다. 모든 사람이 제품의 모든 기능을 필요로 하는 것은 아닙니다. 저희는 이를 잘 알고 있기 때문에 고객에게 단가를 최대한 낮출 수 있는 선택권을 부여할 계획이 마련되어 있습니다.

기계 장치나 PCB를 변경하는 등 더 중요한 커스터마이징이 필요한 경우 이 역시 옵션입니다. 따라서 이 모델은 매우 유연한 모델이며, 한 대의 유닛으로 애플리케이션을 입증하는 것부터 대량 배포에 이르기까지 고객에게 다양한 선택권을 제공하고 있습니다. 그리고 우리가 보유한 TeraBox 제품군도 큰 역할을 할 것으로 예상됩니다. 카드를 다루는 것 외에도 서버 수준의 요구 사항도 처리할 수 있으며, 고객에게 원스톱 쇼핑을 제공하여 단가를 최대한 낮출 수 있습니다. 7,500달러의 시작 가격은 소량 주문에 대한 가격입니다. 판매량이 수백, 수천 개로 늘어나면 이 가격을 크게 낮출 수 있을 것으로 생각합니다.

마커스 웨들 (38:33)

알겠습니다, 고마워요, 크레이그. 몇 분으로부터 몇 가지 질문이 들어왔는데, C 6 또는 C C I X로 발음되는 것 같은데 제 생각에는 CCIX인 것 같습니다. 스티브가 답변해 드릴 수 있을 것 같습니다. 질문은 PCIe Gen5에 대한 지원 여부에 관한 것이었습니다. CCIX에 대한 지원 여부는 일관성을 위해 CXL을 지원할 계획입니다. 그러니 괜찮으시다면요.

스티브 멘서

네, 좋은 질문입니다. 이 카드의 특정 장치에 탑재된 PCI Express는 CCIX 또는 CXL을 지원하지 않습니다. 향후 출시될 Achronix의 후속 장치는 CXL을 지원할 예정입니다.

마커스 웨들

알겠습니다. 다시 한 번 스티브에게 물어볼 수 있는 질문입니다. 프로토타이핑 소프트웨어 키트는 어디에서 다운로드할 수 있나요?

스티브 멘서

네. 저희는 매우 간단한 방법론을 가지고 있습니다. 아크로닉스 웹사이트에 들어가면 등록 양식이 있습니다. 검색을 하거나 웹 페이지 하단으로 이동하면 등록이라고 적힌 곳을 볼 수 있습니다. 여기에서 포털에 대한 로그인 자격 증명과 비밀번호를 얻는 프로세스를 시작하게 됩니다. 포털에 접속하면 소프트웨어를 다운로드하고 평가판 라이선스를 받기 위한 모든 단계가 설명되어 있습니다. 그리고 일반적으로 평가판 라이선스는 약 2개월 정도 소요됩니다. 이 모든 내용은 웹사이트에 모두 나와 있으니 참고하시기 바랍니다.

마커스 웨들 (40:13)

알았어요. 그리고 크레이그에게 정말 우리 카드 수준에서 전력 소비량 수치가 있나요? 누군가 액체 냉각에 대해 언급했습니다. 이 사람은 전원 공급과 추가 전원 커넥터가 필요한지 궁금해합니다.

크레이그 페트리

네, 좋은 질문입니다. 명확하게 설명해 드리기 위해 BittWare 및 Achronix 웹 페이지에 있는 데이터시트에 몇 가지 사진이 있는 것 같습니다. 카드의 기능에 대한 모든 세부 정보를 얻고 싶다면. 카드에는 두 개의 12V 보조 및 전원 커넥터가 있는데, 이는 GP-GPU에서 볼 수 있는 것과 유사합니다. 이 통화에서 FPGA에 대해 잘 알고 계신 분이라면 카드의 전력 소비가 애플리케이션에 따라 달라진다는 것을 이해하실 것입니다. 저속 소형 설계를 실행하는 경우 카드의 전력 소비가 매우 낮을 가능성이 높으며 대부분의 전력은 75와트 정격의 PCIe 버스를 통해 공급될 수 있습니다.

저희는 고객들이 스피드스터 기능을 활용하여 카드를 한계까지 밀어붙이고 앞서 Steve가 공유한 750메가헤르츠의 FMAX 수치에 도달할 것으로 기대하고 있습니다. 이를 위해 대부분의 고객은 카드에 설계된 더 높은 전력 성능을 필요로 할 것으로 생각합니다. 이 카드의 정격 전력은 225와트인데, 이는 고급 애플리케이션의 일반적인 전력 소비량이라고 생각합니다.

그리고 그 사이에 모든 것이 있습니다. 따라서 모든 전원은 카드의 커넥터를 통해 처리됩니다. 이 카드는 GPU 크기의 카드로 설계되었습니다. 따라서 시중에 나와 있는 다양한 1, 2, 4U 서버와 호환됩니다. 이것이 바로 우리가 하고 있는 일입니다. 최근 비트웨어에서 경험한 바에 따르면 고객들은 제품 냉각 방식에 대한 선택권을 원하고 있습니다.

FPGA는 와트당 성능 측면에서 에너지 효율이 매우 높지만, 전력 밀도는 계속 증가하고 있습니다. 이 제품은 7나노미터 디바이스이기 때문에 에너지 효율이 매우 높지만 성능도 매우 뛰어납니다. 우리는 이 제품의 기계적인 부분과 열 관리에 만전을 기했습니다. 이를 통해 고객의 최종 요구 사항을 가장 잘 충족하는 세 가지 옵션을 제공했습니다.

표준 제품은 패시브 쿨링 방열판 옵션입니다. 따라서 내장된 팬이 없고 모두 패시브 방식입니다. 경험상 대량 배포를 진행하는 많은 고객이 움직이는 부품이 없고 디자인이 더 단순하기 때문에 패시브 히트싱크를 선호합니다. 일반적으로 이러한 서버 플랫폼에는 공기 흐름이 좋기 때문에 안정성을 위해 매우 우수한 MTVF 수치를 얻을 수 있습니다. 개념 증명을 수행하는 실험실 환경의 고객 또는 선호도가 있는 경우 활성 팬싱크가 있는 제품을 사용할 수 있습니다. 여기 그림에는 표시되어 있지 않지만 액티브 팬싱크 옵션이 있으며, 이 옵션은 BittWare 포트폴리오의 다른 고성능 FPGA 카드에 성공적으로 배포되었습니다. 이렇게 하면 카드가 적절하게 냉각됩니다.

그리고 최근에는 액체 냉각을 실험하고 있습니다. 여기서 말하는 액체 냉각은 침수식 액체 냉각이 아니라 물이나 액체를 카드에 넣었다가 다시 빼내는 액체 냉각을 말합니다. 이는 FPGA 카드에 있어 비교적 새로운 영역입니다. 이 수업을 진행하는 현재 다른 공급업체의 수냉식 카드는 시장에 출시되어 있지 않습니다. 운이 좋게도 다음 주에는 덴버에서 슈퍼컴퓨팅이 열립니다. 통화 중인 많은 분들이 그곳에 가서 무슨 일이 일어나고 있는지 보실 거라고 확신합니다. 비트웨어와 아크로닉스 부스에는 실제로 캐나다의 Cool IT라는 회사의 액체 냉각 냉각판 기술이 적용된 S7t 카드의 기계 샘플이 전시되어 있습니다. Cool IT는 액체 냉각 분야의 시장 선도업체로 Dell, HPE 및 기타 랙 기술에 설계되어 있으며 현재 고성능 GP-GPU 카드를 냉각하는 데 사용되고 있습니다. 저희는 이 회사의 기술을 활용하고 있으며 샘플을 전시할 예정입니다. 수냉식 냉각을 선호하는 고객에게는 정말 좋은 옵션이 될 것입니다. 저희는 고객에게 선택의 폭을 넓히고자 노력하고 있으며, 이를 통해 시장의 모든 요구 사항을 충족할 수 있을 것으로 기대합니다.

마커스 웨들 (45:40)

고마워요, 크레이그. 오디오에 문제가 있는 사람들이 몇 명 있습니다. 확인해봤어요. 잘 안 들리는 건 아니죠? 스티브, 크레이그 말 잘 들려요?

스티브 멘서

네, 할 수 있어요. 좋아요.

마커스 웨들

네, 안타깝게도 개별 연결일 수 있습니다. 어디 보자 냉각과 다소 관련된 몇 가지가 있습니다. 좋아요, 이걸 읽어볼게요. 기능 가속에 관한 내용입니다. 함수 가속의 프로세스에 대해 자세히 설명해 주시겠어요? RTL을 사용하여 수행해야 하나요, 아니면 Python과 같은 고급 도구도 지원되나요? 또한 앞선 슬라이드에서 사용된 ResNET의 구현에 대해 자세히 설명해 주시면 머신러닝의 좋은 예가 될 것 같습니다. 여기에 덧붙여 OpenCL 지원 여부에 대한 또 다른 질문이 있을 것 같습니다. HLS에 대해 이야기할 때 답변에서 깜빡했는데, 그 부분에 대한 답변이 있었는지 정리해 주시면 감사하겠습니다.

스티브 멘서

그래 좋아요. OpenCL부터 시작하겠습니다. 아크로닉스는 직접 또는 에코시스템 파트너와 협력하여 OpenCL을 지원할 계획이 없습니다. 다른 솔루션만큼 대중적이지 않은 것 같습니다. HLS 솔루션을 개발 중이지만 아직 발표된 것은 없습니다. 올해 안에 파트너사와 함께 구체적인 내용을 담은 발표가 있을 것으로 예상합니다. 인공지능의 경우, 예를 들어 ResNET50에 대한 질문에는 여러 가지 해결 방법이 있습니다. 우리가 하는 일은 기본적으로 RTL 수준에서 공급하거나 궁극적으로 네트워크 수준에서 작업할 수 있는 라이브러리, 즉 로우 레벨 라이브러리를 제공하는 것입니다. 그리고 이러한 라이브러리를 공급하고 있으며, 앞으로 AI를 위한 다양한 네트워크 구현을 지원할 회사들과 함께 다양한 발표를 할 예정입니다.

현재 우리가 가지고 있는 Speedster7t,1500을 최대로 활용하면 초당 약 8600 프레임으로, 이는 FPGA뿐만 아니라 반도체 분야에서 가장 큰 수치 중 하나라고 생각합니다. 아직 설계 구현은 공개되지 않았습니다. 올해 말이나 내년 초에 출시될 예정인데, 사람들이 자신의 용도에 맞게 사용할 수 있게 될 것입니다. 그리고 YOLOv2와 같은 다른 구현도 있을 것이며, 앞서 말씀드린 대로 나중에 발표될 예정입니다.

마커스 웨들 (48:25)

알겠습니다. 이 질문은 커널 바이패스에 관한 질문입니다. Hostess CPU가 FPGA와 통신하는 데 사용할 수 있는 드라이버가 있을까요? 아마도 크레이그에게 물어봐야 할 것 같네요.

크레이그 페트리

네. 처음에는 드라이버에서 커널 우회 기능이 지원되지 않습니다. 현재 검토 중입니다. 이미 고객들로부터 지원되기를 바라는 추가 기능에 대한 좋은 피드백을 받고 있습니다. 그 중 일부는 하드웨어 기능이고 일부는 펌웨어, 소프트웨어 유형의 기능입니다. 스피드스터 디바이스는 완전히 새로운 아키텍처입니다. 고객이 데이터를 이동하는 방식에 있어서 일종의 비약적인 발전이라고 할 수 있습니다. 그래서 저희는 네트워크 IP를 전문으로 하는 이 분야의 몇몇 파트너들과 함께 고객이 최대의 성능을 얻을 수 있도록 무엇을 제공할 수 있는지 파악하고 있습니다. 따라서 새로운 기술인 만큼 고객이 기대하는 주요 기능을 갖춘 표준 제품을 제때 출시하고 시간이 지나면서 업그레이드와 개선 사항을 검토하는 데 초점을 맞추고 있습니다.

따라서 충족되지 않는다고 생각되는 의견이나 요구사항이 있는 모든 사람이 이를 피드백해 주시면 향후 계획에 반영할 수 있도록 적극 권장합니다.

마커스 웨들 (49:53)

좋아요. 그리고 아직 몇 가지 질문이 남아있습니다. 모든 질문을 어느 정도 따라잡고 있습니다. 아직 게시하지 않은 질문이 있으신 분은 언제든지 게시해 주시기 바랍니다. 사람들이 하차해야 하기 때문에 웨비나 후에 몇 가지를 보내드릴 내용이 있다는 점을 말씀드리고 싶은데, 그 중 하나는 제가 곧 Steve에게 질문할 지연 시간에 관한 것입니다. 지연 시간에 대한 글이 이미 작성되어 있는데, 이 글을 보내드리면 도움이 될 것 같습니다. 어쨌든 지금 바로 질문하겠습니다.

HFT(고빈도 거래)용 FPGA 카드를 찾고 있습니다. 카드에 Mac, ADP, TCP IP 코어와 같은 네트워크 IP 코어가 포함되어 있나요? 울트라스케일, 속도 등급 3 등 경쟁사와 비교했을 때 지연 시간은 어떻게 되나요?

그리고 같은 맥락에서 생각되는 또 다른 질문이 있는데, 그 대답은 두 가지 모두에 대한 것이어야 합니다.

스티브 멘서

네, 알겠습니다. 우선, 실리콘 수준에서 다양한 형태의 이더넷용 Mac은 모두 강화되어 있습니다. 그 위에 TCP IP를 추가하려면 소프트 IP가 필요합니다. 이러한 에코시스템을 제공하는 다양한 써드파티 업체들이 있으며, 이들은 아크로닉스의 파트너입니다. Achronix에 문의하시면 이와 관련하여 도움을 드릴 수 있는 업체 중 한 곳을 연결해 드릴 수 있습니다. 지연 시간과 관련해서는 데이터시트가 있습니다. 제목은 "Speedster7t 및 Speedcore FPGA 제품에서 지연 시간 최소화"입니다. 그리고 여기에는 계산이 나와 있습니다. 16비트 인터페이스에서 실행하든 32비트 인터페이스에서 실행하든 10기가비트 이더넷에 초점을 맞추고 있으며, 자세한 내용을 살펴보고 있습니다.

Speedster7t의 지연 시간은 16비트 모드에서 20나노초 이상입니다. 향후 디바이스에는 추가 SerDes 구조와 일부 단거리 SerDes가 추가될 예정이며, 이러한 구현은 16비트 인터페이스를 제공할 것입니다. 약 11.5나노초로 실행될 것입니다. 따라서 상당히 큰 폭의 하락입니다. 하지만 이는 향후 출시될 Speedster7t 디바이스에 적용될 예정입니다.

 

마커스 웨들

좋아요. 이전 질문에서 다뤘을 수도 있지만, 이 질문은 실제로 카드 수준에 더 가깝다고 생각합니다.

사용자 가이드, 아키텍처 문서, 평가판 도구를 얻는 절차는 어떻게 되나요? 칩을 위한 Achronix 도구가 분명히 있지만, 카드 수준에서는 크레이그, 개발자 사이트와 그런 종류의 것들에 대해 이야기해 주시면 감사하겠습니다.

 

크레이그 페트리

네, 물론이죠. 그래서 저희는 고객들에게 상당히 상세한 하드웨어 정보를 제공하고 있습니다. 다양한 형태로 제공되고 있으며 현재 제품 웹 페이지에 좋은 정보가 있다고 생각합니다. BittWare에 들어가면 메인 배너에 Speedster7t 디바이스가 소개되어 있으며, 이를 클릭하여 데이터시트를 다운로드하면 자세한 정보를 얻을 수 있습니다.

비트웨어 제품에 대한 개발자 사이트가 있습니다. 따라서 제품 구매를 고려 중이거나 이미 제품을 구매한 고객은 개발자 사이트에 접속하여 자세한 제품 정보를 다운로드하여 구매를 진행할지 여부를 결정하거나 개발 중이라면 해결하고자 하는 문제를 해결하는 데 필요한 모든 세부 정보를 얻을 수 있습니다.

원하는 정보가 있으면 언제든지 연락하여 알려주시기 바랍니다. 기꺼이 제공해 드리겠습니다.

마커스 웨들 (53:44)

좋아요. 이건 칩에 관한 스티브의 질문입니다. 특히 카드의 보안 기능이 어떻게 처리되는지 궁금합니다.

스티브 멘서

비트스트림 보안과 관련된 질문인 것 같고, MACsec, IPsec과 같은 데이터 보안도 있습니다. 그리고 데이터 보안을 위해 강화된 것은 없지만 향후 디바이스에는 고려될 것입니다. 비트스트림 보안; 비트스트림 보안을 위한 다양한 보안 조치가 있는데, 인증 측면에서는 동급 최강의 보안과 동등하거나 더 우수하다고 생각합니다. 이는 물리적인 [ ] 기능인 확인 인증입니다. 이에 대한 문서가 있습니다. 사용자 가이드인 것 같습니다. 아크로닉스에 문의하시면 자세한 내용을 알려드릴 수 있습니다. 하지만 FPGA에 강화된 모든 보안 조치에 대해 정확히 설명해 드리겠습니다.

마커스 웨들

좋은 지적이네요. 저는 칩 내 보안뿐만 아니라 보안 애플리케이션에 대해서도 생각하고 있었습니다. 답변 감사합니다. 칩에 대한 또 다른 질문이 있는데요, 이더넷 FEC 모드 중 하드 IP가 지원되는 모드는 어떤 것이 있나요?

스티브 멘서

좋은 질문이고 저도 그 답을 알고 싶습니다. 문서화되어 있습니다. 문서에 나와 있지만 제가 직접 알지는 못합니다.

마커스 웨들

네, 맞습니다. 질문하신 분께 다시 연락을 드릴 수 있습니다. 분명히 문서에도 나와 있겠죠. 질문은 온칩 메모리, 즉 모놀리식 메모리에 관한 것입니다. 그렇다면 300메가비트 이상의 내부 메모리를 사용하여 내부적으로 구성할 수 있는 가장 큰 크기의 모놀리식 메모리는 무엇인가요? 그 수치가 정확한지 잘 모르겠지만 스티브가 답변해 주시면 감사하겠습니다.

스티브 멘서

네, 지금 말씀드리는 것은 Speedster 7t 제품군에 속하는 장치이므로 Achronix 웹사이트에 해당 제품군이 있습니다. 이 장치에는 7t 1500이 있는데, 이 장치에는 190메가비트의 메모리가 BRAM과 LRAM 형태로 들어 있습니다. BRAM의 구성은 72Kbits이고 LRAM은 등록된 파일 형식의 기능에 비해 훨씬 작습니다. 그리고 각각 2K비트입니다.

마커스 웨들

네, 좋은 지적입니다. 죄송합니다. 기존 카드와 거기에 있는 것을 생각하고 있지만 앞으로 다른 장치도 출시될 예정입니다. 죄송해요, 질문을 살펴보다가 이전에 질문한 것을 놓치고 있는 건 아닌지 확인하려고요. 텐서플로우와 다른 몇 가지 머신러닝 프레임워크에 대한 질문이 있습니다. 이미 답변해 주신 것 같은데요.

 

스티브 멘서

정말 훌륭하다고 생각합니다. 이것이 바로 Speedster 7t 디바이스의 핵심 기능 중 하나입니다. 따라서 사람들이 더 자세한 정보를 원한다면 Achronix에 직접 문의하는 것이 좋습니다. 그리고 텐서플로우 카페와 기타 다양한 네트워크 유형의 애플리케이션이 많이 있습니다. 따라서 아크로닉스에 문의하시면 요구 사항이 무엇인지 파악하고 이를 어떻게 해결할 수 있는지 알려드릴 수 있습니다.

 

마커스 웨들 (57:27)

좋아요. 아직 몇 가지 질문이 남아있지만 거의 끝나가고 있습니다. 질문이 있으신 분들, 이제 더 이상 질문이 없을 정도로 시간이 다 되어가고 있습니다. 그러니 곧 질문해 주세요. 크레이그 페트리에게 질문합니다. 가까운 시일 내에 로우 프로파일 카드를 출시할 계획이 있나요?

 

크레이그 페트리

네, 좋은 질문입니다. 저희는 GPU급 디바이스로 시작했고 많은 것을 여기에 담았습니다. 다른 폼팩터에 대한 필요성도 인지하고 있습니다. 절반 높이, 절반 길이의 폼팩터는 특히 SmartNIC 유형의 애플리케이션에서 인기가 높습니다. 그래서 저희는 이를 검토하고 있으며 현재 포트폴리오에 절반 높이, 절반 길이의 다른 카드도 있습니다. 따라서 저희는 이를 제공할 수 있는 형태를 갖추고 있습니다.

저희가 정말 고민하고 있는 것은 다음에 어떤 제품을 출시할지 결정하는 것입니다. 다양한 기능에 대한 요청이 많았고, Achronix는 크기와 기능이 서로 다른 네 가지 Speedster7t 장치를 공개적으로 발표했습니다. 그리고 아직 공개되지 않은 몇 가지 추가 제품도 있습니다.

네, 현재 검토 중입니다. 다시 한 번 말씀드리지만, 필요한 세부 요구 사항에 대한 피드백을 듣고 싶습니다. 따라서 사용 사례에 따라 전체 카드의 하위 집합인 GPU 클래스가 필요할 수도 있습니다. 일부 고객은 애플리케이션의 외장 메모리에 신경 쓰지 않습니다. 어떤 사람들은 DDR6 대신 SRAM을 선호할 것입니다.

지금이 바로 피드백을 보내주셔서 요구 사항을 충족할 수 있는 좋은 결정을 내릴 수 있도록 도와주세요. 그러니 지금 바로 연락주세요.

 

마커스 웨들 (59:27)

좋아요. 여기서 몇 가지를 더 살펴보겠습니다. 그 중 하나는 경쟁사 비교입니다. 이에 대해 자세히 설명하고 싶지만 여기서는 확실히 제시할 수 있습니다. 차세대 자일링스 디바이스인 Versal 칩과 비교했을 때 S7t의 장점은 무엇인가요? 크레이그와 스티브 두 분 모두 이에 대해 말씀해 주실 수 있을까요?

 

스티브 멘서

네, 칩 수준과 이사회 수준 모두에 대한 답이 있기 때문에 우리 모두에게 좋은 질문입니다. 칩 레벨에 대해 말씀드리겠습니다. Versal은 벡터 엔진으로 AI 문제를 해결하려는 이기종 아키텍처입니다. 고속 IO, FPGA 패브릭, 벡터 엔진, CPU 복합체 등 크게 네 가지 구조로 이루어져 있습니다.

흥미롭습니다. 궁극적으로 다양한 유형의 애플리케이션을 처리하기 위해 사용 가능한 시스템 개발 형식으로 데이터를 서로 다른 구조로 이동하는 방법을 증명해야 합니다. 반면 Speedster7t에는 몇 가지 특징이 있습니다. 앞서 말씀드린 것처럼 FPGA 패브릭에서 AI 기능을 처리하는 전통적인 FPGA 아키텍처에 가깝고, FPGA 내에서 매우 높은 AI 성능을 제공하는 MLP 블록을 사용하여 데이터를 기본적으로 포맷한 다음 장치의 다른 부분으로 이동할 필요가 없습니다. - 첫 번째입니다. 두 번째는 앞서 말씀드린 2D NoC입니다. 이는 매우 흥미로운 아키텍처 기능으로, 사람들이 과거에 했던 많은 회로, 즉 연결성, 이더넷과 어떻게 연결할지, 메모리 인터페이스와 어떻게 연결할지 등을 설계하지 않아도 됩니다. 대신, 디바이스 전체에 분산되어 있는 각 NoC 액세스 포인트에 있는 표준 AXI 인터페이스를 사용하게 됩니다. 이때 2D NoC가 모든 것을 처리합니다. 따라서 로직 혼잡과 타이밍 종료 문제가 발생하지 않으므로 훨씬 더 높은 성능을 구현할 수 있습니다. 그리고 궁극적으로 귀중한 FPGA 리소스를 많이 절약할 수 있으므로 기존 FPGA를 사용할 때보다 훨씬 더 높은 밀도의 FPGA를 얻을 수 있습니다.

마커스 웨들

그리고 크레이그의 의견도 들어보세요.

크레이그 페트리

네. 그래서 자연스럽게 다른 FPGA 공급업체와 비교하게 될 것 같습니다. 인텔에는 애질렉스가 있습니다. 이 제품은 전통적인 유형의 FPGA에 가깝고, 예를 들어 NoC가 없습니다. 여러 면에서 스트라틱스10과 매우 유사합니다. 자일링스의 경우, Versal 칩을 발표했는데, 이 칩에는 NoC가 있고 Steve가 Speedster 디바이스의 몇 가지 기능을 언급했는데, 이를 비교해서 살펴볼 수 있습니다. 그리고 카드 수준에서는 실제로 고객이 카드 간 직접적인 비교를 할 수 있는 정보가 거의 없습니다. 인텔과 애자일렉스를 보면, 애자일렉스에 사용할 수 있는 개발 키트가 있을 것 같습니다. 이는 일종의 실험실 환경용 카드로, 다양한 커넥터가 탑재된 벤치용 제품이지 배포를 위한 엔터프라이즈급 제품은 아닙니다. 이는 아마도 나중에 자일링스에서 출시될 예정입니다.

이번 주 산호세와 유럽에서 열린 XDF 이벤트에 참석하신 분들 중 일부는 이번 주에 발표한 대로 카드 레벨에서 Versal을 사용할 수 있습니다. 하지만 이 역시 개발자 키트일 뿐입니다. 따라서 실험실에서 소량으로 PoC 작업을 수행할 때만 사용할 수 있습니다. 물론 이 카드는 실험실에서 데모를 실행하고 개념 증명을 수행하는 데 당연히 사용할 수 있는 카드입니다. 하지만 이 카드는 처음부터 배포할 수 있도록 설계되었습니다. 따라서 엔터프라이즈급 카드이며, 소량 및 대용량 모두에서 비용 효율적이며 매우 높은 품질과 안정성이 내장되도록 설계되었습니다. 그렇기 때문에 아크로닉스와 비트웨어의 마케팅 메시지에서 이 카드를 엔터프라이즈급 제품으로 포지셔닝하고 있으며, 시간이 지나면 경쟁이 있을 것입니다. 하지만 Speedster 7t 디바이스, 에이스 툴, 카드 레벨 및 서버 레벨의 기능은 고객에게 정말 뛰어난 성능과 다양한 애플리케이션 유형에 카드를 사용할 수 있는 많은 유연성을 제공할 것이라고 생각합니다.

마커스 웨들 (1:04:27)

감사합니다. 다음 주에 대한 간단한 안내입니다. 슈퍼컴퓨팅 쇼에 참석하시는 분이라면 S7t 보드를 살펴볼 수 있을 것입니다. 물론 전시용 보드일 뿐이지만 Achronix 또는 BittWare/Molex 부스에 꼭 들러주세요.

어디 보자, 질문이 하나 있습니다. 아마 크레이그에게 함께 물어봐야 할 것 같아요. 하나는 JTAG에 관한 질문이고 다른 하나는 보드 회로도에 관한 질문입니다. 질문 1. 보드에 프로그래밍 및 디버깅을 위한 JTAG 어댑터가 이미 있는지, 그리고 JTAG USB를 사용하기 위해 비트 스트림을 로드하는 업로드 프로세스는 얼마나 걸리는지 궁금합니다. 그리고 질문 2. 카드에 참조 회로도가 함께 제공되나요?

크레이그 페트리

좋아요, 그럼 제가 카드 수준에서 스티브부터 시작할 테니 여러분도 참여할 수 있을 것 같네요. 좋은 질문이네요. JTAG 액세스 및 디버그는 기술 수준이 낮죠? 초고속은 아니지만 사용자 경험과 일부 카드 기능에 액세스하는 방법에 절대적으로 중요합니다.

여기에서 BittWare의 BMC(보드 관리 컨트롤러)의 모든 이점이 시작됩니다. 따라서 카드에 내장된 USB 케이블을 통해 간단히 JTAG에 액세스할 수 있으므로 USB 케이블을 카드에 연결하면 BMC를 통해 JTAG에 액세스할 수 있으며 FPGA UART도 있습니다.

따라서 이 기능을 통해 비트스트림, 즉 FPGA용 실행 파일을 프로그래밍할 수 있습니다. 대부분의 고객은 호스트 API와 드라이버를 통해 이를 수행하는 것을 선호할 것입니다. 따라서 PCIe 버스를 통해 소프트웨어로만 카드를 프로그래밍할 수 있습니다. 하지만 프로그래밍을 위해 JTAG 케이블을 사용하는 경우에도 옵션입니다. 또한 BMC와 PCIe 호스트 및 JTAG 어댑터를 통해 온보드 카드 파라미터, 전원, 전압, 전류 및 기타 다양한 정보를 다시 읽을 수도 있습니다.

따라서 이러한 모든 기능이 내장되어 있어 애플리케이션을 개발하는 동안은 물론 애플리케이션이 실제로 실행되는 동안에도 고객에게 좋은 사용자 경험을 제공할 수 있을 것으로 기대합니다. Steve, 덧붙일 말이 있는지 모르겠네요.

스티브 멘서

네, 완벽한 설명입니다.

마커스 웨들

좋아요. 그 다음 한 가지 질문이 들어왔습니다. USB-JTAG 및 FPGA UART 외에 BMC가 제공하는 다른 기능에는 어떤 것이 있나요? 어느 정도 답변이 된 것 같지만 크레이그가 조금 더 자세히 설명해 주시면 좋을 것 같습니다.

크레이그 페트리

네, 방금 전 질문에 대한 답변을 충분히 하지 못했다는 것을 깨달았습니다. 회로도가 제공되느냐는 질문이 있었습니다. 회로도는 제품의 기본 결과물로 제공되지 않습니다. 고객이 회로도 정보가 필요한 특정 상황에서만 제공됩니다. 저희가 제공하는 하드웨어 참조 가이드에 많은 세부 정보가 있으므로 고객이 비트 스트림을 개발하는 데 필요한 모든 정보를 얻을 수 있기를 바랍니다.

고객이 회로도 정보를 필요로 하는 이유가 있고, 디지털 IO 헤더나 확장 포트를 사용하는 사람이 카드의 작동 방식에 대해 좀 더 자세히 알고 싶어 하는 경우라면 문제될 것이 없습니다. 저희는 NDA에 따라 회로도 정보를 공유합니다. 이는 비트웨어가 소유한 지적 재산이므로 신중하게 관리하고자 하는 것입니다. 따라서 질문이 있는 고객은 반드시 답변을 받을 수 있습니다. 여기에는 고객이 필요한 모든 정보를 얻을 수 있도록 회로도 일부를 공유하는 것도 포함될 수 있습니다.

BMC에 대한 다른 질문은 아마 대부분 다루어졌을 것 같습니다. 웹사이트에 BMC의 세부 사항과 작동 방식, 예시 등 좋은 정보가 많이 있습니다. 웨비나 요약의 일부로 웹사이트에서 해당 정보에 대한 링크를 제공하도록 하겠습니다.

마커스 웨들

좋아요. 네, 그거 좋네요. 지금까지 많은 질문과 답변을 해주셔서 감사합니다. 통화 중인 모든 분들께 다시 한 번 감사드립니다. 오프라인으로 더 많은 질문을 보내주세요. 물론 가장 좋은 방법은 각 웹 사이트인 achronix.com과 bittware.com을 방문하는 것입니다.

더 많은 질문을 듣고 일대일로 대화할 수 있는 시간을 마련하고 싶습니다. 그렇게 되면 정말 좋겠습니다. 그렇지 않다면 이번 웨비나를 통해 새로운 카드에 대한 좋은 정보를 얻으셨기를 바랍니다. 말씀드린 것처럼 다음 주에 열리는 SC19 전시회에 참가할 예정입니다. 그곳에서 저희 부스를 방문하시면 더 자세한 이야기를 나눌 수 있습니다.

다시 한 번 참여해 주신 동료 패널 여러분께 감사의 말씀을 전합니다. 많은 질의응답을 해주신 모든 분들께 감사드리며, 도움이 되었기를 바랍니다. 앞으로 더 많은 웨비나가 진행될 예정이니 각 웹사이트를 확인하시고 많은 관심과 참여 부탁드립니다.

벡터패스 S7t-VG6 카드에 대해 자세히 알아보기