백서

2D FFT 가속화

Stratix 10 MX에서 HBM2 및 oneAPI 사용

개요

알고리즘에 "코너 턴"이 포함될 때 HBM2 메모리가 있는 FPGA가 GPU 칩보다 빠릅니다. 이는 FPGA가 코너 턴 연산을 계산과 겹칠 수 있어 지연 시간 측면에서 "자유롭기" 때문입니다. 2D FFT를 사용하여 이 기술을 시연하고 아래 소스 코드를 제공합니다. "공정성"을 유지하기 위해 이 코드는 GPU에서도 지원하는 데이터 유형을 사용합니다. FPGA는 모든 데이터 유형을 쉽게 처리할 수 있습니다.

비트웨어는 이전에 인텔의 OpenCL 컴파일러를 사용하여 FPGA용 2D FFT 커널을 만들었습니다. 이제 이 코드를 다시 작성하여 인텔의 oneAPI 프로그래밍 모델, 특히 DPC++ 프로그래밍 언어를 활용했습니다. 520N-MX 카드에서도 비슷한 성능을 달성했습니다. 인텔은 GPU 또는 FPGA 가속이 필요한 애플리케이션을 위한 최고의 툴체인으로 oneAPI를 홍보하고 있습니다.

2D FFT를 구현한 이유는 무엇인가요?

2D FFT는 FPGA IP 라이브러리에서 흔히 볼 수 있으므로 프로그래머가 일반적으로 직접 구현하는 것은 아닙니다. 그러나 병렬 하드웨어에서 2D FFT를 구현하는 일반적인 전략에는 CPU와 GPU에서 주요 성능 병목 현상을 일으키는 '코너 턴' 또는 '데이터 전치' 단계가 포함됩니다.

무료 코너 회전

이 데모에서 강조하는 인사이트는 FPGA 구현이 계산과 병렬로 데이터 전치를 수행할 수 있어 지연 시간 측면에서 거의 '무료'라는 점입니다.

GPU 아키텍처는 HBM2/GDDR6 메모리를 건드리지 않고 중간 결과를 파이프라인화할 수 있는 충분한 메모리가 GPU 내부에 없기 때문에 동일한 작업을 수행할 수 없습니다.

oneAPI를 사용하여 FPGA에서 HBM2 사용

Stratix 10 MX에는 32개의 의사 HBM2 메모리 채널이 있습니다. 유니티의 2D FFT 구현은 이 채널의 절반을 사용합니다.

칩에 두 개의 2D FFT 커널을 배치할 수 있습니다. 한 커널은 칩의 북쪽에 있는 모든 의사 채널 인터페이스를 사용합니다. 다른 하나는 남쪽의 채널을 사용합니다.
단일 2D FFT에서 32개 채널을 모두 사용하려고 하면 데모 코드에서 다루고 싶지 않은 라우팅 문제가 발생합니다.

각 2D FFT 커널은 우리가 사용한 MX2100 FPGA의 DSP 리소스의 약 30%를 소비합니다.

FPGA HBM2 채널당 1열

2D FFT는 여러 개의 1D FFT를 사용하여 구현됩니다. 단일 1D FFT는 사용하는 HBM2 채널을 포화시킵니다. 16개의 HBM2 채널로 2D FFT를 구현하면 1024행 매트릭스의 16행이 병렬로 처리됩니다. 하이엔드 GPU는 아마도 1024 행을 모두 한 번에 처리할 수 있을 것입니다. FPGA는 64개의 패스가 필요합니다. 그러나 두 경우 모두 HBM2/GDDR6 대역폭이 제한 요소이므로 패스 수는 중요하지 않습니다.

400MHz Fmax면 충분합니다

최적의 32바이트 버스트를 수행하는 각 HBM2 채널을 포화 상태로 만들려면 400MHz OpenCL 클럭 주파수가 필요합니다. 더 빨라지는 것은 가치가 없습니다. 느리게 가는 것도 최적이 아닙니다. 인텔의 현재 DPC++ 구현은 비트웨어의 기존 OpenCL 보드 지원 패키지를 활용합니다. 따라서 두 구현 모두 FPGA에 대한 OpenCL처럼 보입니다. 두 구현 모두 400MHz를 달성하기 위해 동일한 조정이 필요합니다. 이러한 조정은 소스 코드에서 다르게 표현될 뿐입니다.

1D FFT 출력

1D FFT는 결과를 HBM2로 직접 출력하지 않습니다. 대신 FPGA 내부 메모리에 기록합니다. 추가 FPGA 로직은 여러 1D FFT의 결과를 수집하고, 그 결과를 코너링한 후 계산과 병행하여 HBM2에 다시 씁니다.

1D FFT 지연 시작

16개의 1D FFT를 동일한 클록 주기로 시작하지 않습니다. 대신 시작 지점을 각각 하나의 복잡한 요소씩 엇갈리게 배치합니다. 이렇게 하면 1D FFT 결과를 코너 턴 로직으로 파이프라인화할 수 있습니다.

32바이트 버스트

전치된 데이터를 32바이트 청크로 HBM에 쓰기 위해서는 4개의 1D FFT가 출력될 때까지 기다려야 합니다.

oneAPI를 사용한 프로그래밍의 용이성

BittWare의 개발팀은 RTL(Verilog 및 VHDL), HLS(대부분 C++), OpenCL, 그리고 현재 DPC++를 사용하고 있습니다. 이전에 RTL과 HLS를 비교하는 백서를 발행한 적이 있습니다. 이 프로젝트는 OpenCL과 DPC++를 비교하는 첫 번째 기회였습니다.

FPGA용 OpenCL 코드에서 FPGA용 DPC++로 쉽게 전환할 수 있었다는 점을 기쁘게 생각합니다. FPGA와 HBM2 온-패키지 메모리에 특화된 적응은 OpenCL 버전과 매우 유사했습니다. 호스트 컴퓨터에서 데이터 이동도 간단했습니다. 심지어 OpenCL 버전에서는 한 번도 시도하지 않았던 2D FFT 커널을 NumPy에서 호출하기도 했습니다.

FPGA 가속을 위한 oneAPI 개요 비디오

추가 세부 정보

내부 메모리 여유 공간

512개의 M20K 메모리(MX2100의 12.5%)를 사용하고 있습니다.

2D FFT 파라미터

FPGA에 구현되는 FFT의 길이는 일반적으로 비트스트림 컴파일 시간에 설정됩니다.

이 데모에서는 복잡한 32비트 부동 소수점 숫자로 구성된 1024×1024 고정 행렬을 사용합니다.
FFT 구현은 복소수의 구성 요소를 인터리빙합니다(별도의 실수 행렬과 허수 행렬을 사용하는 것과는 대조적으로).
데이터가 HBM 메모리로 복사되어 32바이트 정렬이 되므로 정렬은 크게 중요하지 않습니다.

1D FFT 구현

(다른 사람의 FPGA IP 라이브러리를 사용하는 대신) 자체적으로 1D FFT를 구현했습니다. 1D FFT는 기수 2이며 완전히 파이프라인화되어 있습니다. 제자리에 있지 않습니다.

성능

2D FFT 성능은 항상 HBM2 대역폭에 의해 제한됩니다. 따라서 우리는 HBM2 대역폭을 최대화할 수 있는 알고리즘을 찾는 데 초점을 맞추고 있습니다. 이는 또한 HBM2 대역폭 벤치마크를 사용하여 FFT 성능을 정확하게 추정할 수 있다는 의미이기도 합니다.

동일한 디바이스에서 두 개의 독립 커널을 사용하는 배치 1 구현의 최대 HBM2 성능은 초당 291GBytes입니다. 파이프라이닝/배치 시 최대 대역폭은 초당 337GBytes가 가능합니다.

결론

2D FFT를 OpenCL 버전에서 oneAPI로 빠르게 포팅할 수 있게 되어 기뻤습니다. HBM2 지원 FPGA 카드에 대한 접근 방식을 최적화하는 작업은 이미 완료되었지만, OpenCL 기반 사용자가 최소한의 영향만으로 BittWare 하드웨어에서 oneAPI로 전환할 수 있는 훌륭한 경로를 제공합니다.

FPGA에서 HBM2를 사용하면 여기에서 살펴본 것과 같은 특정 애플리케이션에서 몇 가지 중요한 이점을 얻을 수 있습니다. 제시된 코드에 대한 자세한 정보가 필요하신 경우 아래 양식을 통해 문의하여 구입 가능 여부를 문의하거나 BittWare의 520N-MX FPGA 카드에 대해 자세히 알아보시기 바랍니다.

소스 코드 요청하기

이 양식을 작성하여 오픈 소스 TAR 파일을 요청할 수 있습니다. 받게 될 코드에는 오픈 소스 범례가 포함되어 있습니다.

코드 사용 방법:

OneAPI 2D FFT를 Linux 동적으로 연결된 공유 객체 라이브러리로 컴파일합니다. "cmake ."를 입력하면 해당 라이브러리가 생성됩니다.

간단한 NumPy 스크립트에서 해당 라이브러리를 호출하여 일부 입력 데이터를 생성한 다음 출력의 유효성을 검사하거나 플롯합니다. 그래프를 보려면 "python runfft.py"를 입력하세요.

위의 소프트웨어는 MX2100 FPGA를 호스팅하는 BittWare 520N-MX 카드를 사용하여 Centos 8에서 인텔 OneAPI 도구 베타 10 릴리스와 함께 테스트되었습니다. 해당 카드에 대해 릴리스된 OpenCL 보드 지원 패키지를 사용하면 OneAPI도 작동할 수 있습니다.

"*"는 필수 필드를 나타냅니다.

Notice: Most of our downloads require end-user verification, which may require additional information. We will reach out to you as required for this information.

이름*

먼저 마지막

Corporate Email

이메일*

Please use a corporate email address as we will often need to validate your eligibility based on company email for the download.

Notice: Please use a corporate email to avoid delays validating your download request.

전화*

회사/조직*

회사 부문

주소 및 도시*

거리 주소 주소 2번 줄 도시 주/도/지역 우편번호 / 우편번호 국가

다음 단계는 어디인가요?

RTL과 HLS 비교

두 가지 개발 접근 방식을 비교한 또 다른 BittWare에 대해 읽어보세요.

자세히 알아보기

520N-MX

사용한 카드에 대해 자세히 알아보기

자세히 알아보기

리소스로 돌아가기

자세히 알아보기

Powered by the latest FPGAs and SoCs from Achronix, AMD, and Altera, our cards are designed and manufactured in-house for enterprise-class performance.

Browse by Silicon Technology:

Early Access Program

BittWare is launching new 3U VPX solutions! Request to join our early access program to engage with experts on our plans.

Card-Level Products

Our RFX family of cards leverage the AMD RFSoC chip with our own analog amplification/filtering and more.

WaveBox RF Servers and Enclosures

Taking RFX in an integrated, modular approach with up to 12 analog in/out in a 1U server.

Finding the right server and configuring it can be time-consuming. We've designed TeraBox servers to be ready to go from the start, saving you time if you're developing and for deployment: a robust solution suitable for the toughest challenges.

WaveBox RF

Looking for analog + digital in one box? Our direct RF-focused WaveBox servers and enclosures are a perfect fit!

BittWare Partners and internal projects gives you an easy way to get started quickly.

Data Movers + DMA + RDMA

Network Offload

Precision Time

More Network Acceleration

Open Source + Free

These solutions don't need FPGA programmers, rather they are software configurable and built on BittWare hardware!

Data/Packet Capture + Record

P2P and Storage

Financial Services/Fintech

LMS has created ÜberNIC, pre-programmed with the entire network stack in hardware.

AI + Machine Learning

Vendor Tools we Suport

From RFX PCIe cards to our modular integrated WaveBox RF soutions, we have your RFSoC needs covered!

Browse our RF Products:

Early Access Program

BittWare is launching new VPX and VNX+ solutions! Request to join our early access program to engage with experts on our plans.

The ability to tailor the application to the silicon is a major win for FPGAs in the HPC space. We've also seen AI/ML use cases where these programmable devices can run more efficiently than even competing GPUs.

AI/ML Partner Solutions:

Networking covers a wide range of use cases, which is why we also have a large portfolio of solutions!

Offload Engines

Need TCP/UDP offload? Our partners offer premium IP cores ready to integrate into your project.

MACsec + IPsec

Featuring Xiphera's IP running these popular security protocols in hardware has never been easier!

RDMA

RDMA over Converged Ethernet (RoCE v2) system implementation and integration, from Grovf.

SmartNIC

LMS has created ÜberNIC, pre-programmed with the entire network stack in hardware.

Open Source + Free

Whether you're after ultra-low-latency trade performance or simply need a high-performance NIC optimized for fintech, BittWare has a suite of solutions from experts like LMS and Exegy.

More Fintech Solutions:

Building on accelerators like FPGAs is a smart way to get more from your investment. Broadcast video is moving away from legacy pre-configured pipelines to software-defined architecture but with hardware doing the heavy lifting.

Move your algorithm to the data, not data to the algorithm with our Storage and P2P partner Eideticom.

Jump Directly to Eideticom NoLoad Solutions:

Storage Webinars On Demand:

백서

2D FFT 가속화

Stratix 10 MX에서 HBM2 및 oneAPI 사용

개요

2D FFT를 구현한 이유는 무엇인가요?

무료 코너 회전

oneAPI를 사용하여 FPGA에서 HBM2 사용

FPGA HBM2 채널당 1열

400MHz Fmax면 충분합니다

1D FFT 출력

1D FFT 지연 시작

32바이트 버스트

oneAPI를 사용한 프로그래밍의 용이성

FPGA 가속을 위한 oneAPI 개요 비디오

추가 세부 정보

내부 메모리 여유 공간

2D FFT 파라미터

1D FFT 구현

성능

결론

소스 코드 요청하기

코드 사용 방법:

Notice: Most of our downloads require end-user verification, which may require additional information. We will reach out to you as required for this information.

Corporate Email

Notice: Please use a corporate email to avoid delays validating your download request.

다음 단계는 어디인가요?

RTL과 HLS 비교

520N-MX

Powered by the latest FPGAs and SoCs from Achronix, AMD, and Altera, our cards are designed and manufactured in-house for enterprise-class performance.

Browse by Accelerator Manufacturer:

Early Access Program

BittWare is launching new 3U VPX solutions! Request to join our early access program to engage with experts on our plans.

Card-Level Products

Our RFX family of cards leverage the AMD RFSoC chip with our own analog amplification/filtering and more.