Exploiting LLM-as-a-Judge Disposition on Free Text Legal QA via Prompt Optimization

Mohamed Hesham Elganayni, Runsheng Chen, Sebastian Nagl, Matthias Grabmair

View Original ↗
AI 導讀 technology AI 重要性 4/5

以寬鬆評審優化提示詞,跨評審轉移後最高多 12 個百分點,評測體系的評審傾向依賴性遠超預期

  • 自動提示詞優化在所有任務模型均超越人工設計基準,絕對得分提升 2.79~6.74 個百分點
  • 寬鬆評審聚焦遺漏錯誤,生成可遷移結構框架;嚴格評審聚焦委託錯誤,導致提示詞對特定案例過擬合
  • 跨評審轉移呈不對稱性:寬鬆→嚴格最高 +12.06,嚴格→寬鬆僅 +5.77,建議優化時優先選寬鬆評審

評審寬嚴傾向決定了 AI 法律問答的優化上限。慕尼黑工業大學在 2,541 道法學考題上的實驗顯示,以寬鬆評審優化的提示詞,轉移到嚴格評審後得分最高比直接優化版本高 12 個百分點;反向轉移效果僅剩一半,揭示 LLM 評測框架存在系統性的評審依賴漏洞。

LEXam:2,841 道真實法學考題挑戰 LLM 評審假設

傳統的文字生成品質指標(BLEU、ROUGE)在開放式法律問答中幾乎失效——這些指標衡量的是字面重疊,不是論述的法律正確性。為了評測 LLM 在法學問答上的真實能力,研究者建立了 LEXam 基準,內含來自真實瑞士大學法學院考試的 2,841 道開放式題目,涵蓋瑞士法、歐盟法、國際法,英德雙語並陳,答案以 0 到 1 的連續分數由 LLM 評審評分。

LEXam 的評測機制採用「評審合議制」:三個 LLM(GPT-4o、Qwen3-32B、DeepSeek-V3)各自依詳細評分準則打分,再以「最低分匯聚」降低單一評審偏差。原版任務提示詞(task prompt)由法學博士依照「法律系學生應如何作答」設計,預設這套指令對所有評審模型同樣適用。

然而 LEXam 本身已記錄一個被忽視的線索:不同評審的評分傾向(disposition)差異顯著——GPT-4o 偏寬鬆,Claude-4-Sonnet 與 Gemini-2.5-Pro 較嚴格,DeepSeek-R1 居中。慕尼黑工大的研究者由此提出核心問題:針對某個評審優化的提示詞,是否能在傾向不同的評審下仍然有效?

ProTeGi 六輪迭代:在文字空間做梯度下降優化

研究採用 ProTeGi(Prompt Optimization with Textual Gradients,文字梯度提示優化)方法,概念上類比神經網路的反向傳播,只是在「文字空間」而非「參數空間」操作。每輪迭代中,系統先找出「用候選提示詞回答後,得分低於原始基準」的題目,將這批退步案例餵給優化器分析失敗原因,生成修改建議並更新提示詞,如此執行 6 輪

實驗涵蓋四個任務模型:Qwen3-32BQwen3-235Bgpt-oss-20bgpt-oss-120b(均透過 DeepInfra API 存取);以及兩個具有不同評分傾向的評審模型:Qwen3-32B(寬鬆)與 DeepSeek-V3(嚴格)。開發集 300 道題中,60 道(每課一題)用於梯度生成,240 道用於提示詞驗證篩選;最終在 2,541 道測試題上報告結果,以百分制呈現。

一個關鍵設計:優化器模型與任務模型相同。這確保優化器了解任務模型的能力邊界,生成有針對性的修改建議,也讓實驗結果的差異可以乾淨地歸因於「評審回饋的性質」,而非「優化器與任務模型的配對效應」。

寬鬆評審全面勝出,跨模型提升差距最大達 12 點

核心結果明確:自動優化在所有四個任務模型上均超過人工設計的 LEXam 基準提示詞,絕對分數提升介於 2.79 到 6.74 個百分點之間。但更關鍵的是評審傾向的差異:以寬鬆評審 Qwen3-32B 的回饋優化時,提升幅度為 +4.20 到 +6.74;以嚴格評審 DeepSeek-V3 的回饋優化時,提升幅度縮小為 +2.79 到 +5.97,且跨模型差異更大。

跨評審轉移實驗揭示了更顯著的不對稱性。將「以寬鬆評審回饋優化的提示詞」套用給嚴格評審評分,對比反向做法,四個任務模型全部呈現同方向差距:

  • gpt-oss-20b:寬→嚴 +7.17 vs. 嚴→寬 +2.31
  • Qwen3-32B:寬→嚴 +3.50 vs. 嚴→寬 +1.00
  • gpt-oss-120b:寬→嚴 +3.92 vs. 嚴→寬 +3.21
  • Qwen3-235B:寬→嚴 +12.06 vs. 嚴→寬 +5.77

Qwen3-235B 的案例最為戲劇性:以寬鬆評審優化再轉移到嚴格評審,竟比直接針對嚴格評審優化的版本高出一倍以上。即使排除這個極端值,不對稱格局仍在其餘三個模型上一致成立。

以三評審集成(取最低分)優化的提示詞,跨評審表現同樣不理想:Qwen3-32B 下僅提升 +0.99,DeepSeek-V3 下甚至略微退步(-0.78)。來自不同評審的相互衝突梯度訊號,讓集成優化陷入兩頭皆不著的困境。

為什麼寬鬆優化更通用:遺漏錯誤 vs. 特定案例過擬合

研究者對優化後的提示詞文本做質性分析,揭示了差異背後的機制。

嚴格評審 DeepSeek-V3 聚焦「委託錯誤(commission errors)」——答案多說了什麼不該說的。它生成的批評傾向懲罰性措辭:「Exclude unmentioned factual elements(排除未提及的事實要素)」、「Confine citations to those within the question(引用只限題目已出現的法條)」。這類限制性回饋累積後,導致提示詞出現過擬合症狀:出現了虛構的德語法律術語(「Ist-Zustand」「Normkonzept」並非標準法學框架),以及對特定考題場景的硬編碼指令(例如「若案例涉及 Kollektivgesellschaft 的稅務問題,以 DBG 透明度規則作為無歧義的稅務錨點」)。這類指令對訓練題目精準,換個情境即失效。

寬鬆評審 Qwen3-32B 則聚焦「遺漏錯誤(omission errors)」——答案少說了什麼。它的回饋傾向鼓勵性框架:「Choose an Appropriate Structure(選擇合適的架構)」、允許省略不必要段落的彈性規則。這類回饋引導提示詞發展出可遷移的元框架:先判斷題目類型(純瑞士法 / 比較法 / 規範哲學辯論),再選擇對應的回答結構(問題背景 → 法律依據 → 分析 → 結論)。「先分類再應對」的框架捕捉了法律分析的本質流程,不依賴特定評審的偏好,因此具備跨評審的普遍適用性。

另一個有趣現象是「自發語言適應」:優化器在沒有明確指令的情況下,針對德語題目表現欠佳的任務模型,自動生成德語提示詞(「Du bist ein erfahrener Fachkollege(你是一位資深專業同僚)」),且這種切換並未損及跨語言表現——優化後的提示詞在德語與英語題目上的提升效果同樣均衡。

對 AI 基準設計的警示:評審傾向比模型大小更關鍵

這篇論文最重要的貢獻,不在於「哪個評審更好」,而在於揭示了 LLM-as-a-Judge(以語言模型作評審)評測框架的一個結構性弱點:當評測指標本身(評審的回饋)可被算法利用來優化任務提示詞,最終分數就不再純粹反映模型能力,而是「模型能力 × 提示詞設計 × 評審傾向」三者的乘積。

研究者的實踐建議清晰:應優先選用寬鬆評審進行提示詞優化,以最大化跨評審可遷移性;基準資料集的設計者應明確記錄評審模型的傾向特性,因為優化敏感度對評審傾向的依賴,遠比對模型規模的依賴更顯著——Qwen3-32B(32B 參數)作為評審的優化效果,全面優於規模更大的 DeepSeek-V3,說明「評審的評分哲學」比「評審的參數量」更具決定性。

未來方向包括擴展至更多評審對(含閉源商業模型)、探索模型家族間的轉移動態,以及將這套方法論延伸到法律以外的專業領域。隨著自動提示詞優化在工業界日益普及,如何防止評測體系被「評審傾向」系統性扭曲,將成為 AI 基準設計的下一個核心課題。

用寬鬆評審優化的提示詞轉移到嚴格評審後仍可超越直接針對嚴格評審優化的版本,說明評測框架的「評審依賴性」是 AI 基準設計尚待解決的結構性挑戰。

補充數據視覺化

跨評審轉移效果對比(Δ 絕對分數提升)
任務模型寬鬆→嚴格 (Δ)嚴格→寬鬆 (Δ)
gpt-oss-20b+7.17+2.31
Qwen3-32B+3.50+1.00
gpt-oss-120b+3.92+3.21
Qwen3-235B+12.06+5.77

Abstract

This work explores the role of prompt design and judge selection in LLM-as-a-Judge evaluations of free text legal question answering. We examine whether automatic task prompt optimization improves over human-centered design, whether optimization effectiveness varies by judge feedback style, and whether optimized prompts transfer across judges. We systematically address these questions on the LEXam benchmark by optimizing task prompts using the ProTeGi method with feedback from two judges (Qwen3-32B, DeepSeek-V3) across four task models, and then testing cross-judge transfer. Automatic optimization consistently outperforms the baseline, with lenient judge feedback yielding higher and more consistent gains than strict judge feedback. Prompts optimized with lenient feedback transfer better to strict judges than the reverse direction. Analysis reveals that lenient judges provide permissive feedback, yielding prompts with broader applicability, whereas strict judges produce restrictive feedback, leading to judge-specific overfitting. Our findings demonstrate algorithmically optimizing prompts on training data can outperform human-centered prompt design and that judges' dispositions during optimization shape prompt generalizability. Code and optimized prompts are available at https://github.com/TUMLegalTech/icail2026-llm-judge-gaming.