P3T: Prototypical Point-level Prompt Tuning with Enhanced Generalization for 3D Vision-Language Models

Geunyoung Jung, Soohong Kim, Kyungwoo Song, Jiyoung Jung

View Original ↗
AI 導讀 technology AI 重要性 4/5

P3T 僅以 2M 參數在 3D 分類達 94% 準確率,成功突破大模型的跨域泛化瓶頸。

  • 將提示參數移至模型輸入端,有效避免微調過程破壞原生特徵空間。
  • 鎖定底層 50% 的點雲脆弱區塊進行變形,藉此豐富三維特徵提示。
  • 跨域推論平均領先 8.3%,證實輸入端幾何提示能有效克服過擬合。

傳統 3D 視覺語言模型的全微調極易破壞預訓練累積的泛化能力。最新提出的 P3T 架構將可學習參數全數移至輸入端,僅需更新 2M 個參數,較基準模型銳減 91%,即在 ModelNet40 達到 94.0% 準確率,並於跨領域測試中維持卓越的辨識度。

3D 視覺語言模型微調破壞嵌入空間的泛化難題

引進大型預訓練模型已是處理 3D 點雲理解任務的標準作法。以 ULIP 為代表的 3D 視覺語言模型(VLMs,結合圖像與文字的 AI 模型),透過對比學習構建出跨模態的共享嵌入空間(Embedding space,資料在模型中的數學表示法)。開發者通常會面臨兩難:直接進行全參數微調的計算成本高昂且佔用巨大儲存空間;若改用參數高效微調,現有技術多半將提示參數安插在模型內部編碼器。無論是改變內部特徵層或注意力機制,這些做法皆不可避免地會打亂原先對齊良好的特徵空間。模型會過度適應特定目標資料,一旦遭遇未見過的場景或數據偏移,其與生俱來的零樣本推論與泛化能力便會大幅衰退。

Point Prompter 鎖定 50% 脆弱點雲生成輸入提示

韓國首爾市立大學團隊開發的 P3T(Prototypical Point-level Prompt Tuning)架構,核心精神是「將所有可學習參數限制在模型外部」。負責處理幾何特徵的 Point Prompter 模組直接在三維座標系上運作。該機制會先計算每個點雲區塊對全域特徵的貢獻度,並刻意挑選出重要性倒數 50% 的「脆弱區塊(Vulnerable patches)」。系統藉由邊緣卷積提取這些邊緣區塊的多尺度局部資訊,並生成精細的座標偏移量進行幾何形變。為了避免變形過度失真,團隊加入了尺寸與位置的正則化(Regularization)約束。變形後的區塊接著會與原始點雲拼接,以提示的形式送入凍結的 3D 編碼器,從而在不改動內部權重的前提下豐富輸入特徵。

導入原型損失與 Text Prompter 收斂類別特徵

除了 3D 座標端的改造,團隊同樣在文字支線部署了獨立的提示機制。Text Prompter 會將標準手作提示(如「一個 [類別] 的 3D 形狀」)中的部分詞彙替換為可學習的上下文向量。為了保留預訓練模型豐富的通用語意,此模組內建了一致性損失(Consistency loss)函數,強制微調後的文字特徵必須與原始手作特徵維持一定相似度。工程師們同時察覺到,模型處理帶有嚴重遮蔽或雜訊的真實掃描資料時,不同類別的特徵邊界容易混淆不清。研究人員據此引入了原型損失(Prototypical loss),預先將訓練集中同類別的平均特徵定義為「原型」,要求所有同類輸入必須在空間中向該原型靠攏,大幅降低了類內變異並提升分類明確度。

跨 Objaverse 資料集測試領先基準 8.3%

嚴謹的效能測試證明了外部提示架構的優越性。在乾淨的合成資料集 ModelNet40 上,P3T 只需 2M 參數便能以 94.0% 的準確率擊敗耗費大量資源的內部微調基準模型。面對充滿掃描缺陷的真實資料集 ScanObjectNN,該方法在最具挑戰性的 PB 分支達到 88.1% 的準確度。若進一步縮減訓練樣本,在每類別僅有 16 筆資料的少樣本學習(Few-shot learning,僅用極少資料訓練模型)情境下,P3T 以 69.9% 的優異表現超越主流方案 PPT 達 5.3 個百分點。在驗證泛化能力的跨資料集實驗中,團隊使用超過四萬筆資料的 Objaverse-LVIS 作為訓練來源,直接對未微調的目標資料集進行推論。結果顯示,P3T 在四個目標資料集上的平均準確率領先 PPT 高達 8.3%,證實這種僅在輸入端施加提示的策略能有效抵抗數據偏移。

消融實驗證實脆弱特徵挑選機制的幾何優勢

仔細拆解 P3T 各項子元件的貢獻度,團隊透過消融實驗確認了特徵挑選策略的決定性影響。若強制模型挑選重要性最高的「核心區塊」進行幾何變形,分類準確率僅在變形比例為 10% 時達到峰值,隨後便急遽下降;若採用隨機挑選,整體效能更是慘澹。相比之下,P3T 針對缺乏資訊量的「脆弱區塊」進行改造,不僅容許高達 50% 的變形比例,更能有效補足原始點雲中遺漏的局部細節。在各模組的獨立驗證中,單獨使用 Point Prompter 可帶來顯著的準確率攀升,而搭配 Text Prompter 與各項損失函數的完整組合則將效能推至頂峰。這項研究指出,對於非規則且缺乏固定空間結構的 3D 點雲資料,在外部環境進行幾何擾動,遠比在模型內部調整權重更具發展潛力。

將微調機制抽離至原始輸入空間,能在極低參數下有效維持大模型的跨領域泛化能力。

Abstract

With the rise of pre-trained models in the 3D point cloud domain for a wide range of real-world applications, adapting them to downstream tasks has become increasingly important. However, conventional full fine-tuning methods are computationally expensive and storage-intensive. Although prompt tuning has emerged as an efficient alternative, it often suffers from overfitting, thereby compromising generalization capability. To address this issue, we propose Prototypical Point-level Prompt Tuning (P$^3$T), a parameter-efficient prompt tuning method designed for pre-trained 3D vision-language models (VLMs). P$^3$T consists of two components: 1) \textit{Point Prompter}, which generates instance-aware point-level prompts for the input point cloud, and 2) \textit{Text Prompter}, which employs learnable prompts into the input text instead of hand-crafted ones. Since both prompters operate directly on input data, P$^3$T enables task-specific adaptation of 3D VLMs without sacrificing generalizability. Furthermore, to enhance embedding space alignment, which is key to fine-tuning 3D VLMs, we introduce a prototypical loss that reduces intra-category variance. Extensive experiments demonstrate that our method matches or outperforms full fine-tuning in classification and few-shot learning, and further exhibits robust generalization under data shift in the cross-dataset setting. The code is available at \textcolor{violet}{https://github.com/gyjung975/P3T}.