ToxiShield 結合 BERT 與大語言模型，即時偵測、解釋並改寫 GitHub 上的毒性言論，分類準確率達 98

AI 導讀 technology AI 重要性 4/5

ToxiShield 結合 BERT 與大語言模型，即時偵測、解釋並改寫 GitHub 上的毒性言論，分類準確率達 98%。

ToxiShield 將防線從事後刪除轉為草稿即時攔截，提供預防性機制。
微調後的 BERT-base 在毒性二元分類中準確率達 98%，效能超越 GPT-4o。
系統整合 Claude 3.5 分析毒性成因，並以 Llama 3.2 產出專業改寫句。

軟體工程社群的「有毒」發言不僅破壞團隊協作，更會迫使開發者退出專案。為了解決開源社群長期缺乏即時過濾工具的問題，研究團隊開發了名為 ToxiShield 的 GitHub 擴充套件。透過整合自然語言處理與大型語言模型 (LLM)，該系統在過濾 38,761 筆程式碼審查樣本時，達到了 98% 的準確率。這套工具不僅能在開發者輸入時即時攔截不當言論，還能解釋原因並自動改寫成具建設性的專業回饋。

從事後審查到 ToxiShield 即時防護

開源軟體 (OSS) 專案高度依賴文字溝通，但在程式碼審查 (Code Review) 過程中，常出現帶有侮辱、傲慢或破壞性批評的言論。現有的審查機制多半仰賴人工或事後標記工具（如 ToxiCR），當系統發出警告時，開發者間的關係往往已經產生裂痕。為了將防護機制推向「主動預防」，ToxiShield 將防線推進到開發者草擬回饋的當下，而非等待發布後才進行處置。

整個系統架構分為三個循序漸進的模組。首先是毒性過濾器 (Toxicity Filter)，負責在第一線判斷文字是否具有攻擊性。一旦偵測到潛在風險，便會觸發溝通教練 (Communication Coach)，將毒性言論細分為具體類別並給予解釋。最後，重構器 (The Reframer) 會在保留原始技術核心的狀況下，自動生成溫和、專業的替代文案供使用者參考。

分析 38,761 筆樣本的 BERT 過濾器

作為系統的第一道防線，過濾器必須具備極高的反應速度與準確度，確保無毒留言能順暢通過。研究團隊發現現有資料集存在嚴重的類別失衡（例如過度集中在髒話），因此重新從 1,500 萬筆 GitHub Pull Request 留言中，篩選並標註出 10,120 筆有毒樣本與 28,641 筆正常樣本。透過涵蓋隱性毒性字眼的資料庫，模型能更精準地捕捉程式碼審查中的特殊語境。

在多種架構的比較中，輕量級的遮罩語言模型展現了壓倒性的優勢。經過微調的 BERT-base-uncased 模型在二元分類任務上，取得了 98% 的準確率與 97% 的 F1 分數，表現甚至超越了直接進行零樣本推論的大型語言模型 GPT-4o。另一款輕量級模型 Xtreme-DistilBERT 也緊追在後，獲得 95% 的 F1 分數，顯示輕量架構在即時二元分類任務上的高效能。

深入分析這個最佳模型的 59 筆錯誤分類，團隊發現多數誤判來自對諷刺或語境的誤解。例如「Grandma, what long lines you have?」這類偽裝成玩笑的侮辱，或是使用正面詞彙包裝的嘲諷，都容易讓系統漏報。此外，軟體工程領域的專業術語也是一大挑戰，例如代表分析的縮寫詞「anal.」曾被模型誤判為不雅字眼。開發者常見的「無害自嘲」有時也會觸發誤報，顯示基礎模型仍需強化對幽默意圖的理解。

精準歸類：Claude 3.5 Sonnet 負責判定

單純標記「有毒」並無法幫助開發者改善溝通習慣，系統需要進一步釐清言論是屬於「傲慢」、「威脅」還是「針對性攻擊」。由於細分領域的標註資料極其稀少（僅約 1,200 筆樣本），直接微調大型語言模型容易導致嚴重的過度擬合。因此，團隊改採提示工程 (Prompt Engineering) 的情境學習策略，藉此啟發模型的深層推理能力。

為了穩定輸出品質，研究人員實作了五個階段的提示詞最佳化。從最基礎的零樣本提示開始，逐步加入具體行為準則、範例說明與隱性毒性特徵。第四階段的優化尤為關鍵，團隊加入了邏輯規則與情緒特徵（例如：若正面情境使用了髒話，不可標記為侮辱），並要求模型以 XML 格式回傳思考鏈 (Chain-of-Thought)，強迫模型在給出分類前寫下開源專案維護者視角的推理過程。

最終的評估結果顯示，Claude 3.5 Sonnet 在 12 個類別的分類任務中表現最為均衡，取得了 42% 的巨觀 F1 分數與 39% 的馬修斯相關係數 (MCC)。儘管在明確的髒話類別上表現優異，且能準確給出解釋，但面對技術挫折引發的針對性抱怨時，模型仍常在正常技術反饋與攻擊性言論之間搖擺，難以處理極度罕見的「傲慢」樣本。

自動改寫：微調 Llama 3.2 創下 84% 評分

找出問題並給予細部解釋後，系統的最終任務是提供可行的替代方案。針對「重構器 (The Reframer)」模組，團隊透過微調技術訓練了 Llama 3.2 模型。根據測試結果，該模型在風格轉換準確率上達到了 95.27%，語句流暢度高達 97.03%，同時具備 67.07% 的原始技術內容保留率，整體綜合指標 (J-score) 獲得了 84% 的優異成績，成功將破壞性語言轉化為具建設性的對話。

為了確認 ToxiShield 在實際工作流程中的價值，研究團隊招募了 10 位軟體開發者進行科技接受度模型 (TAM) 評估。測試者一致認為該擴充套件能有效降低程式碼審查階段的摩擦，並具備極高的實用性與易用性。這項研究替社群治理樹立了新標準，證明結合輕量級辨識與大型語言模型的生成能力，能從根本上優化開發者的溝通文化。

將大語言模型的推理能力與輕量級分類器結合，能有效在第一線攔截並轉化開發環境的毒性言論，推動開源社群走向預防性的溝通治理。

Abstract

Toxic interactions during code reviews can undermine teamwork and hinder productivity in software engineering (SE) teams. While prior studies explore toxicity detection and empirical investigation, they lack real-time detoxification tools to support the SE community. To address this gap, we present ToxiShield, a browser extension for GitHub pull requests that is built using three modules: i) Toxicity Filter -- to identify whether a text is toxic, ii) Communication coach -- to facilitate just-in-time fine-grained toxicity categorization with explanations, and iii) The Reframer -- that generates a revised, constructive alternative of a toxic text. For each module, we trained and evaluated multiple deep learning and Large Language Models (LLMs) to identify the best choice. A BERT-based binary detection model, trained on 38,761 code review samples, achieves 98% accuracy and an F1-score of 97% and is the selected one for the Toxicity Filter module. For the Communication Coach, prompt-tuned Claude 3.5 Sonnet achieved the best performance with 39% MCC and 42% F1 in multiclass toxicity classification with detailed reasoning. For Reframer, we evaluated five LLMs using a fine-tuning strategy on a dataset of 10,120 code review comments. The fine-tuned Llama 3.2 model achieves 95.27% style transfer accuracy, 97.03% fluency, 67.07% content preservation, and an 84% J-score. We further validated ToxiShield through a human evaluation using the Technology Acceptance Model with 10 participants, confirming its perceived usefulness and ease of adoption. ToxiShield sets a benchmark for advancing constructive communication in software engineering, driving inclusivity and healthier collaboration in open-source communities.

ToxiShield: Promoting Inclusive Developer Communication through Real-Time Toxicity Filtering

從事後審查到 ToxiShield 即時防護

分析 38,761 筆樣本的 BERT 過濾器

精準歸類：Claude 3.5 Sonnet 負責判定

自動改寫：微調 Llama 3.2 創下 84% 評分

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

AI 將心血管造影時間縮減 80%，並使影像結構相似性指標提升 56%。

普林斯頓大學提出弱到強的知識蒸餾機制，以較弱教師引導模型早期訓練，創下 ImageNet 分類任務 4.8 倍提速。