TOPCELL: Topology Optimization of Standard Cell via LLMs
馬里蘭大學與 NVIDIA 開發的 TOPCELL 框架以強化學習微調語言模型,在晶片拓撲最佳化達成 85.91 倍加速並擊敗 GPT-5。
- TOPCELL 利用 GRPO 強化學習,將傳統需耗時數小時的電晶體拓撲最佳化任務縮短至 2 秒。
- 圖神經網路作為佈局預測器,讓模型無需頻繁呼叫物理工具即可獲得精準的實體空間感知。
- 在 7 奈米標準單元設計中達成 85.91 倍速度提升,並在成功率上擊敗 GPT-5 等大型基礎模型。
在先進製程的標準單元設計中,馬里蘭大學與 NVIDIA 推出的 TOPCELL 框架證明了大型語言模型能在拓撲最佳化任務中達到 85.91 倍的驚人加速。傳統自動化工具需要花費近 10 小時才能找到 12 個電晶體的最佳排列,而經過特殊強化學習訓練的開源小模型,僅需 2 秒就能給出具備物理感知的解答,甚至在繞線成功率上以 77.3% 的成績擊敗了 GPT-5 等通用大模型。
SO3-Cell 在先進製程面臨的指數級運算瓶頸
標準單元(Standard Cell)是現代 ASIC(專用晶片,為特定應用設計的積體電路)的基礎建構區塊。進入先進技術節點後,每個單元內的電晶體數量不斷增加,硬體設計師必須尋找最佳的拓撲結構,盡可能讓相鄰電晶體共用源極與汲極,這項被稱為擴散共享(Diffusion Sharing)的技術能有效縮小晶片面積並提升繞線成功率。過去最先進的自動化框架如 SO3-Cell,大多依賴遞迴或窮舉搜索來測試各種排列組合。
面對複雜度較高的電晶體網路,窮舉方法的運算成本會呈現指數級別的膨脹。以一個包含 12 個電晶體的邏輯閘(AOI222_X1_SH)為例,傳統的搜索流程需要近 10 小時才能窮舉出最佳拓撲。這種極度龐大的算力消耗,使得傳統工具在應對高輸入數量的布林函數或大型元件庫生成任務時,顯得不切實際且缺乏實務上的可擴展性。
導入 TOPCELL 與 GNN 模型預測佈局繞線
為了解決算力瓶頸,研究團隊開發了 TOPCELL 框架,將高維度的拓撲探索轉化為生成式 AI 任務。系統接收到標準單元的網表(Netlist,描述電路連線的文字檔)後,會由 LLM(大型語言模型)自主提出修改建議。為了確保邏輯功能百分之百正確,該框架將高階策略選擇與底層圖表執行脫鉤,語言模型只負責選出一個關鍵的「樞紐網路」,後續的線路重組則由決定性的演算法完成,保證修改後的電路與原先完全等效。
確保產生有效拓撲後,模型需要理解實體佈局的空間限制。團隊收集了涵蓋所有三輸入布林函數、共 7,918 個獨特拓撲的資料集,並透過 NVCell 2 跑完完整的 P&R(佈局與繞線,將邏輯轉換為物理電路)流程。考量到在模型訓練期間頻繁呼叫物理設計軟體過於耗時,團隊運用這些真實回饋訓練了一個 GNN(圖神經網路,擅長處理節點關係的模型)作為獎勵評估器。這套神經網路能精準辨識過長的電晶體堆疊或高電容節點,快速預測該拓撲是否具備良好的可繞線性。
以 GRPO 演算法取代 SFT 突破 57% 效能瓶頸
決定好獎勵機制後,TOPCELL 在訓練策略上捨棄了傳統的 SFT(監督式微調,提供正確答案讓模型學習的方法),轉而採用 GRPO(群組相對策略最佳化,一種具高記憶體效率的強化學習方法)。實驗數據清晰反映了監督式學習在探索任務上的極限:在同樣的訓練資料集下,依賴 SFT 訓練的語言模型,其繞線成功率在達到 57% 後便停滯不前。這是因為監督式學習只能模仿預先標註的解答,卻無法主動在龐大的設計空間中尋找更優異的未知解法。
相反地,GRPO 展現了強大的主動探索與持續優化能力。透過這套強化學習機制,模型能在沒有單一標準答案的情況下,針對同一組網表產生的多種修改選項,依據相對優劣進行動態評分。經過短短 10 步的最佳化訓練,GRPO 策略的繞線成功率就迅速躍升至 75%,最終突破 77%。這項對比證明了在處理擁有多重可行解的電子設計自動化任務時,強化學習能帶來決定性的效能突破。
擊敗 GPT-5 並在 7 奈米製程達成 85 倍加速
在針對先進 2 奈米技術節點的嚴格測試中,基於 Qwen2.5-Coder-7B 訓練的 TOPCELL-7B 模型,以 77.3% 的可繞線率大幅領先未經微調的通用基礎模型。即便是擁有龐大參數量、以強大推理能力著稱的 DeepSeek-V3.2-Exp(成功率 56.6%)與 GPT-5(成功率 56.1%),其產出的拓撲結構仍伴隨著極高的局部擁塞度。這項結果凸顯了在晶片物理設計領域,具備物理感知領域知識的輕量模型,遠比單純的大型通用模型更具優勢。
更具突破性的是,當把 TOPCELL 整合進現行最先進的 SO3-Cell 自動化設計流程時,該模型展現了驚人的零樣本泛化(Zero-shot generalization)能力。儘管模型只在 3 個輸入的 2 奈米單元數據上進行過訓練,它卻能完美過渡並為結構更複雜的 4 到 6 輸入、7 奈米製程標準單元生成高品質拓撲。在維持相同實體佈局品質的前提下,這套新框架將整體作業時間大幅縮減,達成了平均 85.91 倍的速度提升,為未來的晶片自動化設計樹立了新的標竿。
透過強化學習將晶片物理限制內化於語言模型,能徹底突破傳統窮舉演算法的指數級算力障礙。