Gemini 3.1 Flash TTS: the next generation of expressive AI speech (4 minute read)

View Original ↗
AI 導讀 technology AI 重要性 4/5

Gemini 3.1 Flash TTS 拿下 1,211 的 Elo 高分,主打透過音訊標籤精準控制語音風格。

  • Gemini 3.1 Flash TTS 獲得 1,211 分的 Elo 評級,實現高品質與低成本運算。
  • 導入自然語言音訊標籤,開發者可直接在句中精細控制語氣與語速。
  • 全面支援 70 種語言,並強制嵌入 SynthID 隱形浮水印防範假訊息。

Gemini 3.1 Flash TTS 在 Artificial Analysis 排行榜中拿下 1,211 的 Elo 盲測高分。Google 正式釋出這款新世代語音模型,主打透過自然語言標籤直接精準控制語氣,並同步開放給開發者與企業端使用。

Gemini 3.1 Flash 登場與 1211 分 Elo 評級

Google 正式推出最新的 Gemini 3.1 Flash TTS(文字轉語音)模型,目標是為開發者、企業與一般大眾提供更自然且具備高度表達力的 AI 語音生成能力。這款模型目前已透過 Gemini APIGoogle AI Studio 向開發者發布預覽版,企業端則可在 Vertex AI 平台上存取,一般使用者也能在 Google Workspace 的 Google Vids 影音創作工具中體驗到這項技術。

在語音品質與成本效益的衡量上,Gemini 3.1 Flash TTS 交出了具體的成績單。根據專注於 AI 模型評測的 Artificial Analysis TTS leaderboard 數據,該模型在收集了數千次人類盲測偏好的排行榜中,取得了 1,211 的 Elo 評分。這個分數不僅證實了其語音輸出的自然度,也讓它在評估矩陣中被歸類於「最具吸引力的象限(most attractive quadrant)」,這意味著它在提供高品質語音生成的同時,也維持了相對低廉的 API 呼叫成本。

除了單一語音生成的品質提升,該模型還原生支援多語者對話(multi-speaker dialogue)功能。過去開發者在建立包含多個角色的對話場景時,往往需要分別呼叫不同的語音模型處理各別台詞,再進行音軌拼接,這不僅增加了系統延遲,也提高了運算花費。現在單一模型就能直接處理多角色間的自然切換,並支援超過 70 種語言,大幅簡化了跨國應用或複雜語境服務的後端架構。

內建音訊標籤:以自然語言微調語氣與語速

本次更新中最核心的技術突破,在於導入了全新的 audio tags(音訊標籤) 機制。傳統的語音合成技術若要調整語音的表現力,開發者通常需要透過複雜的標記語言去調整音高、頻率或語速等聲學參數,過程既繁瑣又難以預測最終效果。現在,使用者只需要將自然語言指令直接嵌入文字輸入中,就能以最直覺的方式,精細控制語音輸出的風格、節奏與情感。

這項將自然語言轉化為控制指令的技術,讓 AI 語音的表現力有了質的飛躍。開發者可以在句子中插入特定的文字標籤,指示模型在某個字詞上加重語氣、在段落間拉長停頓,或者是改變說話的情緒狀態。這種細微的顆粒度控制(granular control),使得最終生成的語音不再是平鋪直敘的機器朗讀,而是更接近真人配音員的高保真(high-fidelity)聲音演出。

對於需要在不同情境下提供多樣化語音回饋的應用場景而言,音訊標籤帶來了極大的應用彈性。無論是打造具備同理心的 AI 助理、需要抑揚頓挫的有聲書朗讀系統,還是遊戲中性格鮮明的非玩家角色(NPC),開發者都能透過簡單的文字指令,快速引導模型產出符合當下情境的聲音素材,大幅縮短了聲音設計的迭代時間。

Google AI Studio 釋出三項導演級控制工具

為了讓開發者能充分利用這項強大的聲音控制能力,Google 在其開發環境 Google AI Studio 中加入了一系列可自訂的控制選項,將開發者置於類似「導演」的指揮位置。首先是「場景設定(Scene direction)」功能,開發者可以預先定義對話發生的環境背景,並提供特定的對話指導原則。這種建立世界觀的上下文資訊,能協助 AI 角色在多輪對話中保持角色設定(in-character),並自然地針對其他角色的台詞做出反應。

第二項重要工具是「語者特徵設定(Speaker-level specificity)」。開發者能利用獨特的音訊設定檔為每個角色建立模型,接著透過「導演筆記(Director’s Notes)」在全域層次調整語速、語調和口音。更進階的是,配合行內標籤(inline tags)的使用,說話者甚至能在朗讀一個句子的中途,直接從預設的平穩情緒轉換為激動語氣,順暢實現單句中改變表達方式的高難度操作。

最後一項關鍵功能則是「無縫匯出(Seamless export)」。當開發者在 Google AI Studio Playground 的測試介面中反覆微調,並取得最滿意的語音表現後,這些包含標籤與參數的精確設定,可以直接一鍵匯出成 Gemini API 程式碼。這項機制確保了企業在不同的軟體專案或終端平台上,都能穩定重現同一套配置,維持一致且具辨識度的品牌專屬聲音。

支援 70 國語言並強制植入 SynthID 浮水印

考量到全球軟體市場的龐大需求,Gemini 3.1 Flash TTS 從底層架構上就針對全球超過 70 種語言進行了核心最佳化。這些最佳化工程不僅僅是解決基本的發音正確性,而是將進階的風格、節奏與口音控制能力,延伸至全球的主要語言市場。這使得開發者能在世界各地推出具備在地化文化特色、且擁有高度表現力的高品質語音互動體驗。

伴隨著高度擬真語音技術的快速普及,防範音訊被濫用以製造假訊息或進行語音詐騙的風險,也成為 Google 部署此類模型時的首要考量。為此,所有由 Gemini 3.1 Flash TTS 生成的音訊檔案,都會在系統底層被強制嵌入 SynthID(隱形浮水印技術)。這是一種直接交織在音訊輸出波形中的加密標記,人耳完全無法察覺,但能被專門的演算法與偵測工具穩定識別。

這套底層防護機制的強制實作,確保了 AI 生成的聲音內容具備明確的可追溯性,並符合防範假訊息散播的資安規範。Google 團隊也同步更新了該語音模型的模型卡(model card),向外界詳細說明了其在內容安全性與負責任 AI 領域的具體技術作法。透過將強大的語音創作彈性與防偽機制深度結合,這款新一代模型為未來的 AI 語音應用樹立了新的技術標準。

Gemini 3.1 Flash TTS 透過自然語言音訊標籤大幅降低了高品質聲音合成的門檻,同時藉由 SynthID 確保了語音生成的安全性與可追溯性。

Abstract

Google's Gemini 3.1 Flash TTS enhances text-to-speech with improved expressivity and controllability, featuring a notable Elo score of 1,211 on the Artificial Analysis TTS leaderboard. The model supports over 70 languages and introduces audio tags for granular control of vocal style, allowing easy manipulation via natural language commands. All generated audio is watermarked with SynthID to ensure authentic content, preventing misinformation.