P3T 僅以 2M 參數在 3D 分類達 94% 準確率，成功突破大模型的跨域泛化瓶頸。

AI 導讀 technology AI 重要性 4/5

將提示參數移至模型輸入端，有效避免微調過程破壞原生特徵空間。
鎖定底層 50% 的點雲脆弱區塊進行變形，藉此豐富三維特徵提示。
跨域推論平均領先 8.3%，證實輸入端幾何提示能有效克服過擬合。

傳統 3D 視覺語言模型的全微調極易破壞預訓練累積的泛化能力。最新提出的 P3T 架構將可學習參數全數移至輸入端，僅需更新 2M 個參數，較基準模型銳減 91%，即在 ModelNet40 達到 94.0% 準確率，並於跨領域測試中維持卓越的辨識度。

3D 視覺語言模型微調破壞嵌入空間的泛化難題

引進大型預訓練模型已是處理 3D 點雲理解任務的標準作法。以 ULIP 為代表的 3D 視覺語言模型（VLMs，結合圖像與文字的 AI 模型），透過對比學習構建出跨模態的共享嵌入空間（Embedding space，資料在模型中的數學表示法）。開發者通常會面臨兩難：直接進行全參數微調的計算成本高昂且佔用巨大儲存空間；若改用參數高效微調，現有技術多半將提示參數安插在模型內部編碼器。無論是改變內部特徵層或注意力機制，這些做法皆不可避免地會打亂原先對齊良好的特徵空間。模型會過度適應特定目標資料，一旦遭遇未見過的場景或數據偏移，其與生俱來的零樣本推論與泛化能力便會大幅衰退。

Point Prompter 鎖定 50% 脆弱點雲生成輸入提示

韓國首爾市立大學團隊開發的 P3T（Prototypical Point-level Prompt Tuning）架構，核心精神是「將所有可學習參數限制在模型外部」。負責處理幾何特徵的 Point Prompter 模組直接在三維座標系上運作。該機制會先計算每個點雲區塊對全域特徵的貢獻度，並刻意挑選出重要性倒數 50% 的「脆弱區塊（Vulnerable patches）」。系統藉由邊緣卷積提取這些邊緣區塊的多尺度局部資訊，並生成精細的座標偏移量進行幾何形變。為了避免變形過度失真，團隊加入了尺寸與位置的正則化（Regularization）約束。變形後的區塊接著會與原始點雲拼接，以提示的形式送入凍結的 3D 編碼器，從而在不改動內部權重的前提下豐富輸入特徵。

導入原型損失與 Text Prompter 收斂類別特徵

除了 3D 座標端的改造，團隊同樣在文字支線部署了獨立的提示機制。Text Prompter 會將標準手作提示（如「一個 [類別] 的 3D 形狀」）中的部分詞彙替換為可學習的上下文向量。為了保留預訓練模型豐富的通用語意，此模組內建了一致性損失（Consistency loss）函數，強制微調後的文字特徵必須與原始手作特徵維持一定相似度。工程師們同時察覺到，模型處理帶有嚴重遮蔽或雜訊的真實掃描資料時，不同類別的特徵邊界容易混淆不清。研究人員據此引入了原型損失（Prototypical loss），預先將訓練集中同類別的平均特徵定義為「原型」，要求所有同類輸入必須在空間中向該原型靠攏，大幅降低了類內變異並提升分類明確度。

跨 Objaverse 資料集測試領先基準 8.3%

嚴謹的效能測試證明了外部提示架構的優越性。在乾淨的合成資料集 ModelNet40 上，P3T 只需 2M 參數便能以 94.0% 的準確率擊敗耗費大量資源的內部微調基準模型。面對充滿掃描缺陷的真實資料集 ScanObjectNN，該方法在最具挑戰性的 PB 分支達到 88.1% 的準確度。若進一步縮減訓練樣本，在每類別僅有 16 筆資料的少樣本學習（Few-shot learning，僅用極少資料訓練模型）情境下，P3T 以 69.9% 的優異表現超越主流方案 PPT 達 5.3 個百分點。在驗證泛化能力的跨資料集實驗中，團隊使用超過四萬筆資料的 Objaverse-LVIS 作為訓練來源，直接對未微調的目標資料集進行推論。結果顯示，P3T 在四個目標資料集上的平均準確率領先 PPT 高達 8.3%，證實這種僅在輸入端施加提示的策略能有效抵抗數據偏移。

消融實驗證實脆弱特徵挑選機制的幾何優勢

仔細拆解 P3T 各項子元件的貢獻度，團隊透過消融實驗確認了特徵挑選策略的決定性影響。若強制模型挑選重要性最高的「核心區塊」進行幾何變形，分類準確率僅在變形比例為 10% 時達到峰值，隨後便急遽下降；若採用隨機挑選，整體效能更是慘澹。相比之下，P3T 針對缺乏資訊量的「脆弱區塊」進行改造，不僅容許高達 50% 的變形比例，更能有效補足原始點雲中遺漏的局部細節。在各模組的獨立驗證中，單獨使用 Point Prompter 可帶來顯著的準確率攀升，而搭配 Text Prompter 與各項損失函數的完整組合則將效能推至頂峰。這項研究指出，對於非規則且缺乏固定空間結構的 3D 點雲資料，在外部環境進行幾何擾動，遠比在模型內部調整權重更具發展潛力。

將微調機制抽離至原始輸入空間，能在極低參數下有效維持大模型的跨領域泛化能力。

Abstract

With the rise of pre-trained models in the 3D point cloud domain for a wide range of real-world applications, adapting them to downstream tasks has become increasingly important. However, conventional full fine-tuning methods are computationally expensive and storage-intensive. Although prompt tuning has emerged as an efficient alternative, it often suffers from overfitting, thereby compromising generalization capability. To address this issue, we propose Prototypical Point-level Prompt Tuning (P$^3$T), a parameter-efficient prompt tuning method designed for pre-trained 3D vision-language models (VLMs). P$^3$T consists of two components: 1) \textit{Point Prompter}, which generates instance-aware point-level prompts for the input point cloud, and 2) \textit{Text Prompter}, which employs learnable prompts into the input text instead of hand-crafted ones. Since both prompters operate directly on input data, P$^3$T enables task-specific adaptation of 3D VLMs without sacrificing generalizability. Furthermore, to enhance embedding space alignment, which is key to fine-tuning 3D VLMs, we introduce a prototypical loss that reduces intra-category variance. Extensive experiments demonstrate that our method matches or outperforms full fine-tuning in classification and few-shot learning, and further exhibits robust generalization under data shift in the cross-dataset setting. The code is available at \textcolor{violet}{https://github.com/gyjung975/P3T}.

P3T: Prototypical Point-level Prompt Tuning with Enhanced Generalization for 3D Vision-Language Models

3D 視覺語言模型微調破壞嵌入空間的泛化難題

Point Prompter 鎖定 50% 脆弱點雲生成輸入提示

導入原型損失與 Text Prompter 收斂類別特徵

跨 Objaverse 資料集測試領先基準 8.3%

消融實驗證實脆弱特徵挑選機制的幾何優勢

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AI 將心血管造影時間縮減 80%，並使影像結構相似性指標提升 56%。

普林斯頓大學提出弱到強的知識蒸餾機制，以較弱教師引導模型早期訓練，創下 ImageNet 分類任務 4.8 倍提速。