Large language models perceive cities through a culturally uneven baseline

Rong Zhao, Wanqi Liu, Zhizhou Sha, Nanxi Su, Yecheng Zhang

View Original ↗
AI 導讀 technology AI 重要性 4/5

LLM「中性提示詞」即歐美框架:拉美語義偏離高 38%,財富感知最受文化身分影響

  • ENA 提示詞距中性語義最近(0.137),拉美與大洋洲偏離幅度高出 38–40%,三款模型排序一致
  • 模型情感評分比人類高 2–2.5 倍,語義詞彙多樣性壓縮至人類的 49–57%
  • 財富感知受文化提示影響最大(0.215 s.d.),國家組對比嚴格復現率趨近 0

3,000 張全球街景圖測試三款頂尖 LLM,研究者獲得了 72,000 段場景描述。結論令人警覺:所謂「中性提示詞」根本不中性——歐洲與北美(ENA)觀點跟「無身分設定」的基準語義距離僅 0.137,拉丁美洲提示詞的偏移距離卻高達 0.189,高出整整 38%。這個偏誤不是附加在模型上的失真,它就藏在模型「無立場」本身之中。

3,000 圖 × 8 種文化身分:實驗如何量化偏誤

倫敦大學學院(UCL)與清華大學的研究團隊,從 Google Street View、百度全景等多個街景平台匯整了大型影像語料庫,最終篩選出 3,000 張場景均衡的全球街景圖。取樣策略刻意橫跨視覺場景類型、地點類型、國家與資料來源,避免某類典型城市景觀主導結果;城市中心與城鎮場景依 8:2 比例分配,地理覆蓋依聯合國行政邊界追蹤。

每張圖被送入三款前沿 LLM 評估:GPT-5.2Claude Sonnet 4Gemini 2.5 Flash,搭配 8 種提示詞條件——一個中性基準(不指定任何文化身分),加上七個依聯合國 SDG 分區定義的「身分提示詞」,分別代表:歐洲與北美(ENA)、中南亞(CSA)、北非與西亞(NAWA)、東亞與東南亞(ESEA)、撒哈拉以南非洲(SSA)、拉丁美洲與加勒比海(LAC)及大洋洲。

研究分兩個子研究。研究一要求模型自由描述場景,共產生 72,000 段文字,透過語義嵌入模型 all-mpnet-base-v2 向量化後計算各身分提示詞相對中性的「語義位移距離」,並以情感分類器 SiEBERT 量化正負情緒傾向。研究二要求模型對同一批圖片以 0-100 評分六個維度:安全、活力、財富、美感、無聊、壓抑。兩個子研究共享圖片與提示詞框架,結果可直接比對。

ENA 距中性 0.137,拉美偏離幅度高出 38%

研究一的核心結果清晰而重複。三款模型均一致顯示:ENA 提示詞跟中性基準的語義距離最短,三模型 pooled 均值 0.137,且在每款模型中都排名第一接近中性。最遠的是拉丁美洲與加勒比海(0.189)和大洋洲(0.192),比 ENA 高出約 38–40%。ENA 的跨模型距離範圍是 0.103 到 0.184,而最遠的提示條件跨模型是 0.138 到 0.231

這個結論的含義相當具體:當模型「什麼文化立場都不說」時,它的語言輸出已預設了偏向歐美視角的參考框架。Bootstrap 95% 置信區間確認,ENA 與其他身分的語義距離差距幾乎全部為正值。在局部 PCA 的語義空間投影中,各身分條件並非隨機散布,而是圍繞中性提示佔據各自特定方向——同一條街道被以結構化的文化軌跡重新詮釋,不只是換了幾個詞。

在獨立的 100 張圖子集上,研究者測試了更粗粒度(5 大區,Macro5)和更細粒度(20 個次區域,Micro20)的提示詞,ENA 或對應的北美與西北歐在兩套框架下仍然持續距中性最近。改用「情境描述式」(而非角色扮演式)提示詞也不改變語義排序,僅情感偏好對提示詞措辭較為敏感。

北非西亞自我加分最高 0.276,Claude Sonnet 4 最強

語義位移之外,研究者另外計算了「內群偏好指數(IPI,Ingroup Preference Index)」——比較某個文化身分的提示詞對自己所屬區域場景的情感評分,是否高於其他身分提示詞評同一批場景的結果(以各區域情感標準差標準化)。

IPI 並非均勻分布於全球。最大正向 IPI 集中在北非與西亞中南亞及部分撒哈拉以南非洲地區,三款模型的最高值介於 0.146 到 0.276 之間。整體模式是混合的,某些區域-模型組合接近零或呈負值,但 Claude Sonnet 4 展現了三款模型中最強烈且最廣泛的自我偏好傾向。

為了與真實人類描述比較,研究者引入了 Geograph Britain and Ireland 的人類文字-影像配對資料集,篩選出 1,000 張圖的基準子集。套用「UK」或「西歐」文化提示詞時,模型輸出確實更接近人類描述,語義距離比中性提示縮短了 0.005 到 0.016 cosine 單位——改善真實,但相當有限,且沒有恢復人類描述的兩個核心特質。

模型情感溢出 2.5 倍,語義多樣性壓縮至人類 57%

在語義多樣性上,人類 Geograph 文字的平均距心距離為 0.734,模型輸出只有 0.391–0.418,多樣性被壓縮至人類的 53–57%。詞彙多樣性指標(DISTINCT-2)差距更大:人類 0.686,模型只有 0.337–0.392,縮減近一半。

情感基調的差距同樣顯著。人類 Geograph 文字的平均情感分數(正減負概率)只有 0.387,模型輸出高達 0.823 到 0.975——高出 2.1 到 2.5 倍。這個正評溢出均勻分布在整個英國基準的地理範圍上,不是由少數特殊場景拉高的。

針對英格蘭、蘇格蘭、威爾斯三地的 IPI 對比更加說明問題:人類文字在三地均呈負向 IPI,英格蘭 -0.400、蘇格蘭 -0.256、威爾斯 -0.062,即人類對自己的地方評分反而低於外地視角。模型估計不只整體上移,部分案例還轉為正值,LLM 與人類的差距在三地跨模型介於 +0.220 到 +0.410。讓模型「聽起來更在地」,並不等於讓它具備「真實的在地視角」。

財富感偏移最大(0.215 s.d.),美感最穩定(0.106 s.d.)

研究二的結構化評分在六個維度上重複確認了相同的非對稱模式。在各文化身分相對中性的標準化偏移上,SSA(撒哈拉以南非洲)在所有模型中產生最大跨維度偏移(0.354–0.506 s.d.),ENA 再次最小(0.194–0.285 s.d.);中南亞(0.289–0.335)和拉丁美洲(0.297–0.330)也均明顯高於 ENA。

在六個維度的個別文化敏感度上,財富感最易被文化身分提示詞改變,平均絕對偏移 0.141–0.215 s.d.;安全感次之(0.134–0.193 s.d.);美感最穩定(0.066–0.106 s.d.);無聊感的跨模型範圍最大(0.044–0.155 s.d.)。值得注意的是,財富與安全恰好是城市政策分配中最具實際影響力的兩個評估維度。

與 MIT Place Pulse 2.0 人類感知 ML 基準的比對,顯示 LLM 中性評分確實保留了部分人類感知的排序邏輯:美感的 Spearman 相關係數最高(0.593–0.637),財富感次之(0.503–0.541),無聊感最低(0.283–0.325)。LLM 的判斷「可以解讀」,但不等同人類判斷。

在更嚴格的「人類子群差異復現」測試中(以 90 對街景圖比較性別、年齡、國家三類組間差異),性別和年齡的排序相對容易複現(divergence 率 0.022–0.111),國家組的差異卻極難重現——divergence 率高達 0.230–0.400,嚴格方向吻合率幾乎趨近 0,且即使人類國家間差距顯著也無改善。

AI「中性」的文化座標:基準線本身已指向歐美

這篇論文的核心論點是:AI 的偏誤就藏在它的「無立場」本身之中。許多現有的 LLM 偏誤研究隱含一個預設——模型有穩定的中性基準線,偏誤是疊加在上面的問題。這組研究指向相反方向:基準線本身就已具有文化性,傾向某些城市視角所塑造的感知預期,而這個偏向在兩種任務格式、三款模型、全球與人類基準的交叉比對下反覆出現。

對城市規劃輔助、跨文化地方評估、空間設計決策等實際應用,這個結論有直接意涵。部署為「通用城市描述工具」的模型,其「預設」輸出並非文化中立,而是傾向某些早已內嵌在訓練資料與對齊程序中的參考框架。財富感和安全感的文化偏移最為劇烈——恰好也是最容易影響城市資源分配判斷的兩個面向。模型的限制在大量解析:三款當代模型、純街景影像、風格化的七大區身分代理、地理覆蓋不均的人類基準,都限制了結論的外推範圍,但核心發現的穩健性已相當充分。

LLM「中性」描述城市時,語義框架指向歐美;財富感知文化偏移幅度(0.215 s.d.)是美感的 2.5 倍,國家組對比的嚴格復現率趨近 0

補充數據視覺化

LLM 感知維度對文化提示詞的敏感度(平均絕對偏移 s.d.)
感知維度各模型偏移範圍(s.d.)
財富感0.141 – 0.215
安全感0.134 – 0.193
無聊感0.044 – 0.155
美感0.066 – 0.106
LLM 中性評分與 Place Pulse 人類感知模型的 Spearman 相關係數
感知維度相關係數範圍(跨三款模型)
美感0.593 – 0.637
財富感0.503 – 0.541
無聊感0.283 – 0.325

Abstract

Large language models (LLMs) are increasingly used to describe, evaluate and interpret places, yet it remains unclear whether they do so from a culturally neutral standpoint. Here we test urban perception in frontier LLMs using a balanced global street-view sample and prompts that either remain neutral or invoke different regional cultural standpoints. Across open-ended descriptions and structured place judgments, the neutral condition proved not to be neutral in practice. Prompts associated with Europe and Northern America remained systematically closer to the baseline than many non-Western prompts, indicating that model perception is organized around a culturally uneven reference frame rather than a universal one. Cultural prompting also shifted affective evaluation, producing sentiment-based ingroup preference for some prompted identities. Comparisons with regional human text-image benchmarks showed that culturally proximate prompting could improve alignment with human descriptions, but it did not recover human levels of semantic diversity and often preserved an affectively elevated style. The same asymmetry reappeared in structured judgments of safety, beauty, wealth, liveliness, boredom and depression, where model outputs were interpretable but only partly reproduced human group differences. These findings suggest that LLMs do not simply perceive cities from nowhere: they do so through a culturally uneven baseline that shapes what appears ordinary, familiar and positively valued.