使用 Design Gateway 的 IP 核心，在 Xilinx VCK190 評估套件上加速 AI 應用

作者：Design Gateway Co., Ltd.

2022-11-18

Xilinx 的 Versal AI Core 系列元件可藉由高運算效率的 ASIC 級 AI 運算引擎，來解決 AI 推論中最獨特且最困難的問題，並搭配靈活的可編程結構，來打造 AI 應用，並利用加速器將任何工作負載的效率最大化，同時提供低功率和低延遲的特性。

Versal AI Core 系列 VCK190 評估套件採用 VC1902 元件，在產品組合中具有最佳的 AI 效能。此套件是專為需要高吞吐量 AI 推論和訊號處理運算效能的設計而生。VCK190 套件提供比目前伺服器級 CPU 還高 100 倍的運算能力，並具有多種連接方式選項，是雲端、邊緣等各種應用理想的評估及原型設計平台。

圖 1：Xilinx Versal AI Core 系列 VCK190 評估套件。(圖片來源：AMD, Inc)

VCK190 評估套件的主要特點

板載 Versal AI Core 系列元件
- 搭載 Versal ACAP XCVC1902 量產晶片
- AI 和 DSP 引擎提供比當今伺服器級 CPU 高 100 倍的運算效能
- 預先建構好的合作夥伴公版設計，有利於快速原型設計
最新的連接技術，有利於尖端應用開發
- 內建 PCIe® Gen4 Hard IP，可用於 NVMe SSD、主機處理器等高效能裝置介面
- 內建 100G EMAC Hard IP，可用於高速 100G 網路介面
- DDR4 和 LPDDR4 記憶體介面
共同最佳化的工具和偵錯方法
- Vivado® ML、Vitis™ 統一軟體平台、Vitis AI、AI 引擎工具，可開發 AI 推論應用

使用 Xilinx 的 Versal AI Core 系列元件達到 AI 介面加速

圖 2：Xilinx Versal AI Core VC1902 ACAP 元件的方塊圖。(圖片來源：AMD, Inc)

Versal® AI Core 調適性運算加速平台 (ACAP) 是整合度高的多核心異質元件，可在軟硬體層面動態適應各種 AI 工作負載，是 AI 邊緣運算應用或雲端加速卡的理想選擇。此平台整合了新一代純量引擎 (用於嵌入式運算)、可調適引擎 (提供硬體靈活性)，以及由 DSP 引擎和革命性 AI 引擎組成的智慧型引擎 (用於推論和訊號處理)。由此可得到適應性強的加速器，在 AI/ML 工作負載方面超越了傳統 FPGA 和 GPU 的效能、延遲及能效。

Versal ACAP 平台重點

可調適引擎：
- 自訂的記憶體階層架構能讓加速器核心的資料移動與管理達到最佳化
- 預先和後製處理功能，包括神經網路 RT 壓縮及影像縮放
AI 引擎 (DPU)
- 並排陣列式向量處理器，搭配 XCVC1902 元件時的效能高達 133 INT8 TOPS，稱為深度學習處理器或 DPU
- 適用於 CNN、RNN、MLP 等神經網路；可調適硬體來配合不斷發展的演算法
純量引擎
- 四核心 ARM 處理子系統，以及可管理安全性、電源、位元流的平台管理控制器

VCK190 AI 推論效能

與目前的伺服器級 CPU 相比，VCK190 能提供超過 100 倍的運算效能。以下範例是 C32B6 DPU 核心 AI 引擎實作的效能，批次為 6。請參閱下表，了解當 DPU 以 1250 MHz 運作時，VCK190 上各種神經網路樣本的吞吐量效能 (以每秒訊格數或 fps 為單位)。

編號	神經網路	輸入大小	GOPS	效能 (fps) (多重執行緒)
1	face_landmark	96x72	0.14	24605.3
2	facerec_resnet20	112x96	3.5	5695.3
3	inception_v2	224x224	4	1845.8
4	medical_seg_cell_tf2	128x128	5.3	3036.3
5	MLPerf_resnet50_v1.5_tf	224x224	8.19	2744.2
6	RefineDet-Medical_EDD_tf	320x320	9.8	1283.6
7	tiny_yolov3_vmss	416x416	5.46	1424.4
8	yolov2_voc_pruned_0_77	448x448	7.8	1366.0

表 1：VCK190 AI 推論效能範例。

請參閱 Vitis AI Library 使用指南 (UG1354) r2.5.0 進一步了解 VCK190 AI 的效能，網址為 https://docs.xilinx.com/r/en-US/ug1354-xilinx-ai-sdk/VCK190-Evaluation-Board

Design Gateway 的 IP 核心如何加速 AI 應用的效能？

Design Gateway 的 IP 核心可處理網路和資料儲存的通訊協定，無需 CPU 干預。這非常適合讓 CPU 系統完全卸載複雜的通訊協定處理工作，因此就能將大部分的運算能力用於 AI 應用，包括 AI 推論、資料的預先與後製處理、使用者介面、網路通訊、資料儲存存取，以獲得最佳效能。

圖 3：使用 Design Gateway IP 核心的範例 AI 應用方塊圖。(圖片來源：Design Gateway)

Design Gateway 的 TCP 卸載引擎 IP (TOExxG-IP) 效能

以傳統 CPU 系統處理 10GbE 或 25GbE 的高速、高傳輸量 TCP 數據串流需要超過 50% 的 CPU 時間，這會導致 AI 應用的整體效能降低。根據 Xilinx MPSoC Linux 系統上的 10G TCP 效能測試，10GbE TCP 傳輸期間的 CPU 使用率超過 50%，TCP 傳送、接收數據的傳輸速度可以達到 10GbE 速度的 40% 至 60% (400 MB/s 至 600 MB/s)。

實作 Design Gateway 的 TOExxG-IP 核心後，10GbE 和 25GbE TCP 傳輸的 CPU 使用率可以降低到幾乎 0%，而乙太網路頻寬利用率可以達到接近 100%。這樣便能透過純硬體邏輯直接經由 TCP 網路傳送、接收數據，並以最少的 CPU 使用率、盡可能最低的延遲將其饋送到 Versal AI 引擎。下方圖 4 比較了 TOExxG-IP、MPSoC Linux 系統之間的 CPU 使用率和 TCP 傳輸速度。

MPSoC Linux 系統 10G/25G TCP 傳輸效能比較圖 圖 4：MPSoC Linux 系統和 Design Gateway TOExxG-IP 核心的 10G/25G TCP 傳輸效能比較。(圖片來源：Design Gateway)

Design Gateway 的 TOExxG-IP 可用於 Versal 元件

TOExxG-IP 系統總覽圖 圖 5：TOExxG-IP 系統總覽。(圖片來源：Design Gateway)

TOExxG-IP 核心實作 TCP/IP 堆疊 (採固線式邏輯) 並與 Xilinx 的 EMAC Hard IP 和乙太網路子系統模組連接，可達成具有 10G/25G/100G 乙太網路速度的下層硬體介面。TOExxG-IP 的使用者介面包含用於控制訊號的暫存器介面，以及用於數據訊號的 FIFO 介面。TOExxG-IP 可透過 AXI4-ST 介面與 Xilinx 的乙太網路子系統連接。使用者介面的時脈頻率取決於乙太網路介面速度 (例如 156.625 MHz 或 322.266 MHz)。

TOExxG-IP 的特點

無需 CPU 即可實作完整的 TCP/IP 堆疊
一個 TOExxG-IP 支援一個工作階段
可以使用多個 TOExxG-IP 來實作多個工作階段
支援伺服器和用戶端模式 (被動／主動開啟和關閉)
支援巨大訊框
以標準 FIFO 介面提供簡易的數據介面
以單埠 RAM 介面提供簡易的控制介面

下表 2 顯示 XCVC1902-VSVA2197-2MP-ES FPGA 元件上的 FPGA 資源使用情況。

系列	範例元件	Fmax (MHz)	CLB Reg	CLB LUT	Slice	IOB	BRAMTile¹	URAM	設計工具
Versal AI Core	XCVC1902-VSVA2197-2MP-ES	350	11340	10921	2165	-	51.5	-	Vivado2021.2

表 2：Versal 元件的實作統計數據範例。

如需更多詳情，請參閱 TOExxG-IP 的規格書，可從 Design Gateway 的網站下載，網址為：

Design Gateway 的 NVMe 主機控制器 IP 效能

搭配 PCIe Gen3 x4 或 PCIe Gen4 x4 時，NVMe 儲存介面的數據傳輸率高達 32 Gbps 和 64 Gbps。這比 10GbE 乙太網路的速度高三到六倍。以 CPU 處理複雜的 NVMe 儲存通訊協定來達到最高的磁碟存取速度，比起透過 10GbE 傳輸的 TCP 通訊協定，還要花費更多的 CPU 時間。

Design Gateway 以開發 NVMe IP 核心的方式來解決這個問題，此核心能當作獨立的 NVMe 主機控制器運作，可在沒有 CPU 的情況下直接與 NVMe SSD 通訊。如此即可達到 NVMe PCIe Gen3、Gen4 SSD 存取的高效率和效能，進而簡化使用者介面和標準功能，無需了解 NVMe 通訊協定即可輕鬆使用。NVMe PCIe Gen4 SSD 效能可透過 NVMe IP 達到高達 6 GB/s 的傳輸速度，如圖 6 所示。

NVMe PCIe Gen3、Gen4 SSD 的效能比較圖 圖 6：NVMe PCIe Gen3、Gen4 SSD 搭配 Design Gateway NVMe-IP 核心時的效能比較。(圖片來源：Design Gateway)

Design Gateway 的 NVMe-IP 可用於 Versal 元件

NVMe-IP 系統總覽圖 圖 7：NVMe-IP 系統總覽。(圖片來源：Design Gateway)

NVMe-IP 的特點

無需 CPU 或外部 DDR 記憶體，即可實作應用層、交易層、數據鏈路層，以及實體層的某些部分，以便存取 NVMe SSD
可搭配 Xilinx PCIe Gen3 和 Gen4 Hard IP 運作
無需外部記憶體介面，即可利用 BRAM 和 URAM 當作資料緩衝器
支援六個命令：識別 (Identify)、關機 (Shutdown)、寫入 (Write)、讀取 (Read)、SMART、排清 (Flush) (可選擇支援其他命令)

表 2 顯示 XCVC1902-VSVA2197-2MP-E-S FPGA 元件上的 FPGA 資源使用情況。

系列	範例元件	Fmax (MHz)	CLB Reg	CLB LUT	Slice	IOB	BRAMTile¹	URAM	設計工具
Versal AI Core	XCVC1902-VSVA2197-2MP-ES	375	6280	3948	1050	-	4	8	Vivado2022.1

表 3：Versal 元件的實作統計數據範例。

如需更多詳情，請參閱 Versal 元件專用 NVMe-IP 的規格書，可從 Design Gateway 的網站下載，網址為：

Gen4 Xilinx 專用 NVMe IP 核心規格書

結論

TOExxG-IP 和 NVMe-IP 核心都可以讓 CPU 系統完全卸載對於即時 AI 應用來說相當關鍵，而且運算與記憶體密集的通訊協定 (如 TCP 與 VNMe 儲存通訊協定)，藉此加速 AI 應用的效能。也因此 Xilinx 的 Versal AI Core 系列元件能夠執行 AI 推論及高效能運算應用，而不會出現網路、資料儲存通訊協定處理方面的瓶頸或延遲。

VCK190 評估套件和 Design Gateway 的網路與儲存 IP 解決方案，可在 Xilinx Versal AI Core 元件上，以最低的 FPGA 資源使用率和極高的能效，在 AI 應用中達到最佳效能。

聲明：各作者及／或論壇參與者於本網站所發表之意見、理念和觀點，概不反映 DigiKey 的意見、理念和觀點，亦非 DigiKey 的正式原則。