자일링스 버텍스 울트라스케일+ VU37P FPGA가 탑재된 XUP-VVH PCIe 카드
HBM2 메모리 4x 100GbE 네트워크 포트 및 VU37P FPGA가 통합된 PCIe FPGA 카드 XUP-VVH UltraScale+ FPGA PCIe 보드 가격 견적이 필요하십니까? 바로가기
2021년에 도입되었습니다, DDR5 SDRAM은 많은 성능을 제공합니다. 개선 사항이 적용되었으며 FPGA 카드에서 사용할 수 있습니다, 하지만 얼마나 더 빠를까요? 그리고 HBM2e 및 GDDR6와 같은 다른 메모리 유형과 비교하면 어떤 차이가 있을까요?
DDR5와 DDR4를 비교하는 간단한 방법은 대역폭이 두 배라고 말하는 것입니다. 그러나 이러한 광범위한 설명은 모듈 속도와 시스템 내 모듈 수 등 실제의 다양한 요소를 포괄하지 못합니다(예를 들어 4개의 DDR4 모듈이 2개의 DDR5 DIMM과 비슷한 성능을 제공할 수 있음). 이러한 DRAM 기술을 더 잘 비교하기 위해 먼저 이론적 최대 수준에서 DDR5의 대역폭 성능을 제공하는 기본 요소부터 살펴보겠습니다. 그런 다음 이것이 시스템 수준에서 여러 비트웨어 FPGA 가속기 카드의 성능으로 어떻게 변환되는지 살펴보겠습니다. 또한 고급 메모리 유형인 GRRD6 및 HBM과 비교하여 표준 DDR 메모리보다 여전히 우위를 점하고 있는지 살펴볼 것입니다.
먼저 대역폭이 DIMM 수준에서 어떻게 계산되는지 살펴봅시다. 5세대에 걸친 DDR에서 모듈 성능은 일반적으로 MT/s(초당 메가 전송) 또는 GB/s(초당 기가바이트) 단위로 표시됩니다. 클럭 속도는 데이터 전송 속도의 절반으로, DDR 약어에서 '더블 데이터 속도'가 여기서 유래했습니다. 이 비율은 DDR5에서도 변하지 않았습니다.
무엇 가 달라진 점은 사용 가능한 전송 속도(MT/s 또는 GB/s)가 크게 증가했다는 것입니다. 오늘날의 DDR4는 ECC 모듈의 경우 3,200MT/s(1.6GHz 클럭 속도에서)의 속도에 도달했으며, 모듈은 일반적으로 특정 모듈 속도와 함께 명시되므로 DDR4-3200이 됩니다. 하지만DDR5의 경우 이미 FPGA 부착 SDRAM에 적합한 DDR5-5600 옵션이 있습니다 . 5,600 MT/s (@ 2.8GHz)입니다.
이 속도 이점은 시간이 지남에 따라 최대 8,400MT/s까지 지원하는 DDR5 사양으로 더욱 커질 것입니다. 8,400 MT/s (@ 4.2 GHz)! 하지만 오늘 비교에서는 FPGA 카드를 대상으로 하는 DDR5-5600 모듈을 사용했습니다.
DDR의 "D"는 클럭이 데이터 전송률의 절반임을 의미하며, 이는DDR5에서도 변하지 않았습니다.DDR5 DIMM은 이제 듀얼 채널이기 때문에모듈당 채널 수에눈에 띄는 변화가 있습니다 .이러한 채널은 버스 폭이 더 작기 때문에 일반적으로 여기에서 기대할 수 있는 원시 대역폭 이점을 무효화합니다. 특히 DDR5의 경우 각 모듈에는 2개의 40비트 채널이 있으며, 이 중 8비트는 ECC에 사용됩니다. 따라서 모듈 수준에서는 총 80비트로, DDR4의 단일 채널이 72비트(ECC용 8비트 포함)인 것과 비교됩니다.
다이어그램을 참조하여 모듈 수준에서 레이아웃을 확인하세요:
따라서 80비트와 72비트를 비교했을 때, 사용자가 ECC 비트를 "일반" 데이터 비트로 전환하는 경우 DDR5가 약간 더 유리합니다. 일반 데이터에 ECC를 사용하지 않는다면 64비트 단일 채널 또는 64비트를 두 채널에 분산하는 두 가지 방식은 본질적으로 동일합니다.
아래 비교에서는 채널에 더 큰 비트를 사용한다고 가정하여 DDR5가 약간 우세하다고 가정했습니다(모듈 수준에서 80비트 대 72비트). DDR5 쪽에 두 개의 채널이 있으면 메모리에 더 많은 메모리에 효율적으로 액세스하여 지연 시간을 줄일 수 있습니다.
이 기사에서는 다루지 않았지만 대역폭 외에도 DDR5의 다른 장점도 있습니다. 전력의 경우, DDR5 DIMM은 카드에서 전력 관리를 구현할 필요가 없는 대신 DIMM 모듈에 전력 관리 집적 회로가 있습니다. 또한 DDR5는 DDR4보다 낮은 전압(1.1V 대 1.2V)이 필요하므로 더 빠른 속도로 실행하는 데 필요한 전력 증가에 도움이 됩니다.
일부 중요한 네트워킹 애플리케이션은 FPGA를 통과하는 모든 패킷에 대해 테이블 조회 및 업데이트를 수행해야 합니다. 작은 테이블의 경우 프로그래머는 FPGA 내부에 있는 지연 시간이 짧은 정적 메모리를 사용할 수 있습니다. 그러나 테이블 크기가 FPGA의 용량을 초과하면 프로그래머는 FPGA의 외부 메모리를 활용해야 합니다. 이는 상당한 성능 문제를 야기할 수 있습니다. 또한 BittWare와 같은 카드 공급업체가 시장에서 차별화할 수 있는 기회이기도 합니다. 그 예로 많은 AMD FPGA 기반 제품에서 QDR-II+ 정적 외장 메모리를 독자적으로 지원하는 BittWare를 들 수 있습니다. 이 기능 덕분에 약 10GbE 패킷 속도로 패킷을 처리하고자 하는 고객들을 위해 몇 가지 주요 설계 성과를 거둘 수 있었습니다.
그러나 패킷 속도가 빨라지면 액세스 속도와 테이블 크기 모두 증가합니다. 오늘날의 100GbE 이상의 속도를 위한 해결책은 많은 채널을 갖춘 동적 메모리를 제공하는 것입니다. DDR4와 DDR5 사이의 채널 수를 단순히 두 배로 늘리는 것보다 훨씬 더 많은 채널이 필요합니다. 이것이 바로 최신 FPGA 카드 제품 중 상당수가 GDDR6 또는 HBM2e 메모리를 제공하는 이유입니다.
모든 동적 메모리 기술인 DDR4/5, GDDR, HBM은 거의 동일한 코어 액세스 지연 시간을 제공합니다. 채널 수를 늘리면 대기열 지연으로 인한 지연 시간이 줄어듭니다. 또한 채널 수가 많으면 테이블 조회 및 업데이트 알고리즘을 만들어 병렬 메모리 액세스를 조율할 수 있습니다. 이렇게 하면 딥 파이프라인을 사용하여 높은 액세스 속도에서 결정론적 테이블 조회 지연 시간을 생성할 수 있습니다.
이제 모듈 수준에서 정말 중요한 부분인 시스템 수준(또는 메모리가 있는 가속기의 경우 카드 수준)으로 이동해 보겠습니다. 뱅크 수(DIMM 슬롯 또는 솔더링된 메모리 그룹)와 지원되는 속도가 성능에 큰 영향을 미칠 수 있는 만큼 중요합니다.
비교를 위해 총 네 가지 구성의 FPGA 보드 세 개를 선택했습니다(한 카드에는 DDR4-2400과 DDR4-3200을 비교하기 위해 두 가지 구성이 있습니다). 대역폭을 구하는 것은 비교적 간단하지만, 이론적인 최대 수치라도 시스템 대역폭을 제시하면 애플리케이션에 가장 적합한 옵션이 무엇인지에 대한 좋은 통찰력을 얻을 수 있다고 생각합니다.
카드 | 메모리 유형 | 총 채널 + 너비 | 총 메모리 | 모듈 속도 | 시계 | 총 대역폭 1 |
---|---|---|---|---|---|---|
520N-MX | DDR4-2400 DIMM 2개 | 2x/72비트 | 32GB(16GB 2개) | 2,400 MT/s 2.4 GB/s | 1.2 GHz | 19.2GB/s |
IA-840f | 2x DIMMS DDR4-2400 + 2x 개별 DDR4-2400 | 4x/72비트 | 128GB(32GB 4개) | 2,400 MT/s 2.4 GB/s | 1.2 GHz | 38.4 GB/s |
IA-840f | DDR4-3200 DIMMS 2개 + 개별 DDR4-3200 2개 | 4x/72비트 | 64GB(16GB 4개) | 3,200 MT/s 3.2 GB/s | 1.6 GHz | 51.2GB/s |
FPGA 카드 | DDR5-5600 DIMM 2개 | 4x/40비트 | 128GB(64GB 2배) | 5,600 MT/s 5.6 GB/s | 2.8GHz | 44.8GB/s |
대역폭이 낮은 520N-MX의 경우, 두 개의 DDR4-2400 모듈은 총 19.2GB/s의 이론적 대역폭을 제공합니다. 하지만 마지막 줄로 내려가면 DDR5 DIMM이 2개만 있는 FPGA 카드는 대역폭이 두 배 이상인 44.8GB/s를 제공합니다! 이는 DDR5-5600 모듈을 지원하는 카드에 적용됩니다. 따라서 동일한 수의 DIMM에서 DDR5는 실제로 DDR4보다 모듈당 두 배의 성능을 제공할 수 있습니다.
하지만 이제 차트에서 가운데 두 줄(IA-840f 카드)을 보면 두 가지 구성이 표시됩니다. 하나는 DDR4-2400(520N-MX와 동일)이고 다른 하나는 DDR4-3200입니다. 두 구성 모두 DIMM 2개와 납땜된 디스크리트 뱅크 2개가 포함되어 있으며, 이는 DIMM과 유사하게 구성되어 보드 수준에서 대략 4개의 DIMM에 해당합니다.
결과는? 2,400 MT/s 메모리는 여전히 DDR4보다 느리지만, 3,200 MT/s로 이동하면 실제로 51.2Gb/s로 DDR5보다 약간 더 높은 대역폭을 제공합니다. 물론 이는 오늘날의 DDR5 속도를 사용하는 것으로, 결국 더 높은 대역폭의 모듈이 더 높은 대역폭을 제공하게 될 것입니다. 또한 DDR5는 훨씬 더 빠르고 모듈당 더 큰 용량을 지원하므로 더 큰 FPGA를 사용하는 PCIe 카드의 설계 요소가 될 수 있는 물리적 공간(기계적 및 열 공기 흐름 측면 모두)을 절약할 수 있습니다.
보시다시피 DDR5는 DDR4에 비해 상당한(그리고 더 빠른 속도가 제공됨에 따라 점점 더 커지고 있는) 이점을 가지고 있지만, GDDR6, HBM 및 HBM2e와 비교할 때 여전히 큰 차이가 있습니다.
초고속 HBM2e(HBM2의 업데이트)가 FPGA와 함께 패키지로 구현됩니다. IA-860m 카드의 인텔 Agilex 7 M 시리즈 FPGA에 16GB 메모리 스택 2개(총 32GB)를 사용하면 결합된 피크 대역폭이 최대 820GBps에 달합니다. 이는 최대 18x DDR5를 탑재한 FPGA 카드보다 최대 18배 더 빠릅니다!
HBM2e만큼 빠르지는 않지만, GDDR6 및 HBM은 여전히 DDR5보다 다음과 같이 성능이 뛰어납니다. 10x. GDDR6는 뱅크당 2개의 독립적인 16비트 채널을 지원하므로 8개의 GDDR6 뱅크가 있는 카드(예: Achronix FPGA가 장착된 BittWare의 S7t-VG6)는 최대 448GB/s의 대역폭을 제공합니다. 당사의 XUP-VVH는 AMD Virtex UltraScale+ VU-37P 장치 덕분에 HBM 메모리를 사용합니다.
결론적으로 가장 도움이 되는 것은 BittWare FPGA 카드 포트폴리오에서 사용할 수 있는 다양한 옵션에 주목하는 것입니다. DDR5는 개선된 기술이며 크고 빠른 메모리를 확보할 수 있는 훌륭한 새로운 방법이 될 것입니다. 하지만 아직 DDR4를 배제하지 마세요. DDR4는 더 성숙한 기술이고 널리 사용 가능하며 DDR5와 비교했을 때 여전히 그 자체로 충분한 성능을 발휘할 수 있습니다. 메모리 집약적인 애플리케이션의 경우 HBM2e 및 GDDR6와 같은 초고속 옵션을 고려하세요.
HBM2 메모리 4x 100GbE 네트워크 포트 및 VU37P FPGA가 통합된 PCIe FPGA 카드 XUP-VVH UltraScale+ FPGA PCIe 보드 가격 견적이 필요하십니까? 바로가기
인텔® oneAPI™ 하이 레벨 FPGA 개발 메뉴 oneAPI 가속기 카드 ASP 평가 추가 정보 문의/구매처 oneAPI가 귀하에게 적합합니까? 이미 알고 계실 수도 있습니다.
아키텍처 개념 NVMe 고속 데이터 캡처 및 레코더 데이터 캡처 및 레코딩의 과제 고객이 캡처하고자 하는 스트리밍 데이터 소스에는 여러 가지가 있습니다.
IP & 솔루션으로 돌아가기 코런덤 오픈소스 100G NIC IP 코어 오픈소스 코런덤 IP 코어로 SmartNIC 프로젝트를 빠르게 시작하세요! 이 코어는