Large language models perceive cities through a culturally uneven baseline
LLM「中性提示詞」即歐美框架:拉美語義偏離高 38%,財富感知最受文化身分影響
- ENA 提示詞距中性語義最近(0.137),拉美與大洋洲偏離幅度高出 38–40%,三款模型排序一致
- 模型情感評分比人類高 2–2.5 倍,語義詞彙多樣性壓縮至人類的 49–57%
- 財富感知受文化提示影響最大(0.215 s.d.),國家組對比嚴格復現率趨近 0
用 3,000 張全球街景圖測試三款頂尖 LLM,研究者獲得了 72,000 段場景描述。結論令人警覺:所謂「中性提示詞」根本不中性——歐洲與北美(ENA)觀點跟「無身分設定」的基準語義距離僅 0.137,拉丁美洲提示詞的偏移距離卻高達 0.189,高出整整 38%。這個偏誤不是附加在模型上的失真,它就藏在模型「無立場」本身之中。
3,000 圖 × 8 種文化身分:實驗如何量化偏誤
倫敦大學學院(UCL)與清華大學的研究團隊,從 Google Street View、百度全景等多個街景平台匯整了大型影像語料庫,最終篩選出 3,000 張場景均衡的全球街景圖。取樣策略刻意橫跨視覺場景類型、地點類型、國家與資料來源,避免某類典型城市景觀主導結果;城市中心與城鎮場景依 8:2 比例分配,地理覆蓋依聯合國行政邊界追蹤。
每張圖被送入三款前沿 LLM 評估:GPT-5.2、Claude Sonnet 4 和 Gemini 2.5 Flash,搭配 8 種提示詞條件——一個中性基準(不指定任何文化身分),加上七個依聯合國 SDG 分區定義的「身分提示詞」,分別代表:歐洲與北美(ENA)、中南亞(CSA)、北非與西亞(NAWA)、東亞與東南亞(ESEA)、撒哈拉以南非洲(SSA)、拉丁美洲與加勒比海(LAC)及大洋洲。
研究分兩個子研究。研究一要求模型自由描述場景,共產生 72,000 段文字,透過語義嵌入模型 all-mpnet-base-v2 向量化後計算各身分提示詞相對中性的「語義位移距離」,並以情感分類器 SiEBERT 量化正負情緒傾向。研究二要求模型對同一批圖片以 0-100 評分六個維度:安全、活力、財富、美感、無聊、壓抑。兩個子研究共享圖片與提示詞框架,結果可直接比對。
ENA 距中性 0.137,拉美偏離幅度高出 38%
研究一的核心結果清晰而重複。三款模型均一致顯示:ENA 提示詞跟中性基準的語義距離最短,三模型 pooled 均值 0.137,且在每款模型中都排名第一接近中性。最遠的是拉丁美洲與加勒比海(0.189)和大洋洲(0.192),比 ENA 高出約 38–40%。ENA 的跨模型距離範圍是 0.103 到 0.184,而最遠的提示條件跨模型是 0.138 到 0.231。
這個結論的含義相當具體:當模型「什麼文化立場都不說」時,它的語言輸出已預設了偏向歐美視角的參考框架。Bootstrap 95% 置信區間確認,ENA 與其他身分的語義距離差距幾乎全部為正值。在局部 PCA 的語義空間投影中,各身分條件並非隨機散布,而是圍繞中性提示佔據各自特定方向——同一條街道被以結構化的文化軌跡重新詮釋,不只是換了幾個詞。
在獨立的 100 張圖子集上,研究者測試了更粗粒度(5 大區,Macro5)和更細粒度(20 個次區域,Micro20)的提示詞,ENA 或對應的北美與西北歐在兩套框架下仍然持續距中性最近。改用「情境描述式」(而非角色扮演式)提示詞也不改變語義排序,僅情感偏好對提示詞措辭較為敏感。
北非西亞自我加分最高 0.276,Claude Sonnet 4 最強
語義位移之外,研究者另外計算了「內群偏好指數(IPI,Ingroup Preference Index)」——比較某個文化身分的提示詞對自己所屬區域場景的情感評分,是否高於其他身分提示詞評同一批場景的結果(以各區域情感標準差標準化)。
IPI 並非均勻分布於全球。最大正向 IPI 集中在北非與西亞、中南亞及部分撒哈拉以南非洲地區,三款模型的最高值介於 0.146 到 0.276 之間。整體模式是混合的,某些區域-模型組合接近零或呈負值,但 Claude Sonnet 4 展現了三款模型中最強烈且最廣泛的自我偏好傾向。
為了與真實人類描述比較,研究者引入了 Geograph Britain and Ireland 的人類文字-影像配對資料集,篩選出 1,000 張圖的基準子集。套用「UK」或「西歐」文化提示詞時,模型輸出確實更接近人類描述,語義距離比中性提示縮短了 0.005 到 0.016 cosine 單位——改善真實,但相當有限,且沒有恢復人類描述的兩個核心特質。
模型情感溢出 2.5 倍,語義多樣性壓縮至人類 57%
在語義多樣性上,人類 Geograph 文字的平均距心距離為 0.734,模型輸出只有 0.391–0.418,多樣性被壓縮至人類的 53–57%。詞彙多樣性指標(DISTINCT-2)差距更大:人類 0.686,模型只有 0.337–0.392,縮減近一半。
情感基調的差距同樣顯著。人類 Geograph 文字的平均情感分數(正減負概率)只有 0.387,模型輸出高達 0.823 到 0.975——高出 2.1 到 2.5 倍。這個正評溢出均勻分布在整個英國基準的地理範圍上,不是由少數特殊場景拉高的。
針對英格蘭、蘇格蘭、威爾斯三地的 IPI 對比更加說明問題:人類文字在三地均呈負向 IPI,英格蘭 -0.400、蘇格蘭 -0.256、威爾斯 -0.062,即人類對自己的地方評分反而低於外地視角。模型估計不只整體上移,部分案例還轉為正值,LLM 與人類的差距在三地跨模型介於 +0.220 到 +0.410。讓模型「聽起來更在地」,並不等於讓它具備「真實的在地視角」。
財富感偏移最大(0.215 s.d.),美感最穩定(0.106 s.d.)
研究二的結構化評分在六個維度上重複確認了相同的非對稱模式。在各文化身分相對中性的標準化偏移上,SSA(撒哈拉以南非洲)在所有模型中產生最大跨維度偏移(0.354–0.506 s.d.),ENA 再次最小(0.194–0.285 s.d.);中南亞(0.289–0.335)和拉丁美洲(0.297–0.330)也均明顯高於 ENA。
在六個維度的個別文化敏感度上,財富感最易被文化身分提示詞改變,平均絕對偏移 0.141–0.215 s.d.;安全感次之(0.134–0.193 s.d.);美感最穩定(0.066–0.106 s.d.);無聊感的跨模型範圍最大(0.044–0.155 s.d.)。值得注意的是,財富與安全恰好是城市政策分配中最具實際影響力的兩個評估維度。
與 MIT Place Pulse 2.0 人類感知 ML 基準的比對,顯示 LLM 中性評分確實保留了部分人類感知的排序邏輯:美感的 Spearman 相關係數最高(0.593–0.637),財富感次之(0.503–0.541),無聊感最低(0.283–0.325)。LLM 的判斷「可以解讀」,但不等同人類判斷。
在更嚴格的「人類子群差異復現」測試中(以 90 對街景圖比較性別、年齡、國家三類組間差異),性別和年齡的排序相對容易複現(divergence 率 0.022–0.111),國家組的差異卻極難重現——divergence 率高達 0.230–0.400,嚴格方向吻合率幾乎趨近 0,且即使人類國家間差距顯著也無改善。
AI「中性」的文化座標:基準線本身已指向歐美
這篇論文的核心論點是:AI 的偏誤就藏在它的「無立場」本身之中。許多現有的 LLM 偏誤研究隱含一個預設——模型有穩定的中性基準線,偏誤是疊加在上面的問題。這組研究指向相反方向:基準線本身就已具有文化性,傾向某些城市視角所塑造的感知預期,而這個偏向在兩種任務格式、三款模型、全球與人類基準的交叉比對下反覆出現。
對城市規劃輔助、跨文化地方評估、空間設計決策等實際應用,這個結論有直接意涵。部署為「通用城市描述工具」的模型,其「預設」輸出並非文化中立,而是傾向某些早已內嵌在訓練資料與對齊程序中的參考框架。財富感和安全感的文化偏移最為劇烈——恰好也是最容易影響城市資源分配判斷的兩個面向。模型的限制在大量解析:三款當代模型、純街景影像、風格化的七大區身分代理、地理覆蓋不均的人類基準,都限制了結論的外推範圍,但核心發現的穩健性已相當充分。
LLM「中性」描述城市時,語義框架指向歐美;財富感知文化偏移幅度(0.215 s.d.)是美感的 2.5 倍,國家組對比的嚴格復現率趨近 0。
補充數據視覺化
| 感知維度 | 各模型偏移範圍(s.d.) |
|---|---|
| 財富感 | 0.141 – 0.215 |
| 安全感 | 0.134 – 0.193 |
| 無聊感 | 0.044 – 0.155 |
| 美感 | 0.066 – 0.106 |
| 感知維度 | 相關係數範圍(跨三款模型) |
|---|---|
| 美感 | 0.593 – 0.637 |
| 財富感 | 0.503 – 0.541 |
| 無聊感 | 0.283 – 0.325 |