arXiv Full Text 2026-04-23

SPAC: Automating FPGA-based Network Switches with Protocol Adaptive Customization

Guoyu Li, Yang Cao, Lucas H L Ng, Alexander Charlton, Qianzhou Wang, et al.

AI 導讀 technology infrastructure 重要性 4/5

FPGA 交換器微架構與自訂協定共同生成，LUT 削減 55%、延遲壓縮最高 38.4%

統計替代模型 MAPE 0.4%～7.4%，秒級完成大規模 DSE 搜索代替週期精確模擬
水下機器人封包壓縮至 4B：LUT 削減 55%、BRAM 削減 53%、延遲 42ns
不同工作負載收斂到不同架構配置，整體延遲降幅 7.8%～38.4%

把水下機器人的封包從 42 bytes 壓縮到 4 bytes，換來 LUT 用量削減 55%、延遲降至 42ns——這只是 SPAC 在最極端場景的一個切面。帝國理工聯合 MIT、南安普頓大學在 2026 年 4 月發表的這套開源框架，核心主張是讓 FPGA（可程式化邏輯晶片）網路交換器的微架構與自訂協定在同一個 DSL 語言框架下共同生成、共同優化，把「為特定應用客製交換器」從手工 RTL（暫存器傳輸層，硬體底層描述語言）工程降低為描述式設計，整體延遲最高壓縮 38.4%。

固定架構難服務 HFT 與 AI 訓練的三個根本挑戰

現代網路流量需求已走向兩個極端。高頻交易（HFT, High Frequency Trading）要求極低延遲，任何額外緩衝或複雜排程都是不可接受的開銷；AI 分散式訓練（如 All-Reduce 梯度同步）則追求最大持續吞吐量，流量高度週期性且有熱點聚集。論文圖 1 的實驗顯示，iSLIP 排程算法在均勻流量下表現最佳，EDRRM 在突發流量下才有優勢，不存在通吃所有場景的單一配置。

協定層同樣構成束縛。標準 Ethernet/IP 封包標頭固定，對只傳 2 bytes 有效載荷的水下聲學感測器，標準封包最少需要 42 bytes，協定開銷達 95% 以上。P4 雖允許協定客製化，但其 PISA（協定無關交換架構）設計把硬體結構固定死，無法對交換器微架構本身進行調整。

論文將挑戰歸結為三個具體問題：第一，固定架構（如 PISA）無法處理有狀態邏輯（如浮點聚合），無法與客製協定共同優化；第二，現有模擬工具（如 ns-3）不原生支援客製協定與自訂交換裝置，無法在部署前驗證真實效能瓶頸；第三，協定格式的任何改動都會漣漪到整個硬體堆疊，開發者必須手動重寫 RTL 解析邏輯，這種跨層耦合讓硬體跟不上軟體的敏捷迭代，作者稱之為「垂直整合耦合陷阱（Coupling Trap of Vertical Integration）」。

SPAC 三層架構：DSL 語言、HLS 模組庫、DSE 優化引擎

SPAC DSL 作為單一真實來源（single source of truth），一份描述同時生成硬體驅動、NS-3 模擬模型和 HLS FPGA 合成代碼。「語意綁定（Semantic Binding）」機制讓使用者僅需聲明路由鍵（routing_key）等核心語意欄位，SPAC 編譯器自動定位欄位在封包中的位元偏移，利用 C++ 模板元程式設計（Template Metaprogramming）在合成時期遞迴計算每個欄位相對於 AXI-Stream 資料塊（flit）邊界的精確偏移，生成硬線（hard-wired）位元切片邏輯——協定格式的修改完全不需要觸碰 HLS 底層實作。

HLS 模組庫把交換器抽象成六個可組合模組：Protocol-Aware Parser（協定感知解析器）、Custom Kernels 注入點（使用者自訂運算邏輯的插入介面）、Forward Table（全查找表 Full Lookup Table 適合短地址，多銀行雜湊表 Multi-Bank Hash Table 適合長地址）、VOQ Buffer（N×N 資料 VOQ 並行讀寫，或共享 VOQ 節省 BRAM）、Scheduler（Round-Robin / iSLIP / EDRRM 三選一）、Deparser。模組間透過 AXI-Stream 雙流介面通訊，MetaData 側通道傳遞路由鍵和 QoS 資訊，確保各階段嚴格隔離，任意模組可熱插拔替換。

DSE 引擎採用漸進式約束滿足（Progressive Constraint Satisfaction）策略。它從流量 trace 提取三個特徵向量：突發指數（IDC，用作擁塞代理）、目標地址熵（衡量轉發表快取有效性）、最小封包大小（設定管線最嚴格的時序預算）。統計替代模型（Statistical Surrogate Model）在秒級完成大規模流量的效能預測，預測誤差 MAPE 僅 0.4%～7.4%，有效替代昂貴的週期精確模擬；通過篩選後的候選設計再進入具有硬體反標注（Back-Annotation）的 NS-3 模擬驗證，最終輸出 Pareto 最優配置。

五種場景的 DSE 配置結果（Table II）

論文在 AMD Alveo U45N 加速卡（時脈目標 350MHz）上針對五種真實流量場景進行實驗。

水下機器人通訊（DESERT 方案）：有效載荷僅約 2 bytes，DSE 把完整封包壓縮至 4 bytes，採用全查找表轉發和最簡排程邏輯。對比同規模 8 埠 SPAC Ethernet 基線，LUT 削減 ~55%、BRAM 削減 ~53%，延遲僅 42ns。

高頻交易（HFT）：標頭從 14B 壓縮至 2B，採用全查找表轉發；DSE 選擇流水線化 Round-Robin 排程以最大化時脈頻率（f_max），在小封包高頻環境維持線速吞吐。

RL All-Reduce（分散式強化學習）：Incast 突發模式主導，DSE 收斂到 EDRRM 排程加寬匯流排設計。基線 SPAC Ethernet 在 Incast 事件中出現嚴重封包丟失；優化設計針對 Incast 目標埠增加緩衝分配，對帶寬密集型場景，256-bit 以上的匯流排寬度可帶來顯著的吞吐提升。

資料中心（阿里巴巴叢集 Trace，Kubernetes 微服務場景）：大量節點連接使 N×N VOQ 的資源複雜度為 O(N²)，對有限 BRAM 造成過大壓力；資料中心流量延遲需求相對寬鬆，DSE 選擇共享 VOQ 加 iSLIP 排程，在抑制隊首阻塞（HoL Blocking）與節省 BRAM 之間取得平衡。

工業 SCADA（醫療廢棄物焚化爐監控資料集）：同樣選用共享 VOQ，動機不同——工業流量以不均勻分布的微型流（mice flows）為主，共享 VOQ 的緩衝利用效率更高。整體而言，比較固定架構基線，SPAC 在各場景的平均延遲降幅達 7.8%～38.4%。

SPAC 五種工作負載的最優架構配置（Table II）

場景	協定大小	轉發表	排程算法	VOQ 類型
水下機器人	4B（封包）	Full Lookup	Round-Robin	N×N VOQ
高頻交易 HFT	2B（標頭）	Full Lookup	Round-Robin（流水線）	N×N VOQ
RL All-Reduce	標準	Multi-Bank Hash	EDRRM + 寬匯流排	N×N VOQ
資料中心	標準	Multi-Bank Hash	iSLIP	Shared VOQ
工業 SCADA	標準	Multi-Bank Hash	iSLIP	Shared VOQ

水下機器人場景 vs SPAC Ethernet 基線資源削減（%）

GCQ 等既有方案的全棧對比：70.1 Gbps vs 40.9 Gbps

論文 Table I 提供了全棧數據路徑的資源與效能對比。GCQ 透過分組達到 160 Gbps 理論頻寬，但單匯流排頻寬僅 40.9 Gbps，SPAC 達到 70.1 Gbps；GCQ 的跨時脈域開銷引入 172ns 延遲，是 SPAC 未優化版本的 1.57 倍、優化版本的 2.01 倍。在 16 埠規模下，SPAC 延遲約 109ns，僅為相同規格 GCQ 的 63.4%。

比較基準的差異需要注意：GCQ、SMiSLIP、Hipernetch 等既有工作只實作排程器或交叉開關模組，而 SPAC 涵蓋完整全棧（協定解析、轉發表學習/查找、排程、緩衝），管線深度更大；儘管如此，SPAC 仍維持競爭力的延遲和資源數字，源自 HLS 模板驅動合成（Template-Driven Synthesis）帶來的效率。進一步拆解到 SPAC Core（僅含最簡排程和解析）與 VitisNetP4、P4-to-FPGA、P4THLS 比較，達到更低的 LUT 消耗和 1.4～2.0 倍的頻率提升，理論吞吐量因此更高。

開源 SPAC 框架與 in-network computing 的前景

SPAC 的 Custom Kernels 注入點允許使用者在封包解析後直接插入自訂 HLS 運算邏輯，零膠合代碼（zero glue logic）即可接入主管線，為 in-network computing（INC，網路內運算：在交換器硬體上直接執行聚合計算而非回傳主機）研究提供了具體入口。論文明確提及，未來可在 SPAC 框架上實作 All-Reduce 梯度聚合核心，進一步壓縮 AI 訓練叢集的通訊延遲。

SPAC 已在 GitHub 以開源形式釋出（spac-proj/SPAC）。這套框架展示的設計路徑——用 DSL 把協定規格從硬體實作中解耦，用 DSE 自動探索微架構組合——對下一代 AI 訓練叢集和超低延遲網路基礎設施的工程，提供了一個可直接使用的開源基線。

SPAC 讓 FPGA 交換器的協定與微架構共同自動生成，LUT 削減 55%、延遲壓縮最高 38.4%，已開源。

Abstract

With network requirements diverging across emerging applications, latency-critical services demand minimal logic delay, while hyperscale training and collectives require sustained line-rate throughput for synchronized bulk transfers. This divergence creates an urgent need for custom network switches tailored to specialized protocols and application-specific traffic patterns. This paper presents SPAC (Switch and Protocol Adaptive Customization), a novel approach that automates the generation of FPGA-based network switches co-optimized for custom protocols and application-specific traffic patterns. SPAC introduces a unified workflow with a domain-specific language (DSL) for protocol-architecture co-design, a library of modular HLS-based adaptive switch components, and a trace-aware Design Space Exploration (DSE) engine. By providing a multi-fidelity simulation stack, SPAC enables rapid identification of Pareto-optimal designs prior to deployment. We demonstrate the efficacy of the domain-specific adaptation of SPAC across a spectrum of real-world scenarios, spanning from latency-sensitive sensor and HFT networks to hyperscale datacenter fabrics. Experimental results show that by tailoring the micro-architecture and protocol to the specific workload, SPAC-generated designs reduce LUT and BRAM usage by 55% and 53%, respectively. Compared to fixed-architecture counterparts, SPAC delivers latency reductions ranging from 7.8% to 38.4% across various tasks while maintaining adequate resource consumption and packet drop rate.

SPAC: Automating FPGA-based Network Switches with Protocol Adaptive Customization

固定架構難服務 HFT 與 AI 訓練的三個根本挑戰

SPAC 三層架構：DSL 語言、HLS 模組庫、DSE 優化引擎

五種場景的 DSE 配置結果（Table II）

GCQ 等既有方案的全棧對比：70.1 Gbps vs 40.9 Gbps

開源 SPAC 框架與 in-network computing 的前景

Abstract

🔗 相關推薦

透過階層實體耦合與僅 2,560 參數的微型介面，熱力學擴散推論能在維持 0.99 準確度下節省 1,000 萬倍能耗。

Decoupled DiLoCo 把分散式訓練頻寬砍 99.6%，高故障率下 goodput 從 27% 升至 88%

50 量子位元先定位吸引盆再 GPU 精煉，D-QEO 在 d=10 的 260 億局部最小值問題成功率超越純古典算法。