Gemini 3.1 Flash TTS: the next generation of expressive AI speech (4 minute read)
Gemini 3.1 Flash TTS 拿下 1,211 的 Elo 高分,主打透過音訊標籤精準控制語音風格。
- Gemini 3.1 Flash TTS 獲得 1,211 分的 Elo 評級,實現高品質與低成本運算。
- 導入自然語言音訊標籤,開發者可直接在句中精細控制語氣與語速。
- 全面支援 70 種語言,並強制嵌入 SynthID 隱形浮水印防範假訊息。
Gemini 3.1 Flash TTS 在 Artificial Analysis 排行榜中拿下 1,211 的 Elo 盲測高分。Google 正式釋出這款新世代語音模型,主打透過自然語言標籤直接精準控制語氣,並同步開放給開發者與企業端使用。
Gemini 3.1 Flash 登場與 1211 分 Elo 評級
Google 正式推出最新的 Gemini 3.1 Flash TTS(文字轉語音)模型,目標是為開發者、企業與一般大眾提供更自然且具備高度表達力的 AI 語音生成能力。這款模型目前已透過 Gemini API 與 Google AI Studio 向開發者發布預覽版,企業端則可在 Vertex AI 平台上存取,一般使用者也能在 Google Workspace 的 Google Vids 影音創作工具中體驗到這項技術。
在語音品質與成本效益的衡量上,Gemini 3.1 Flash TTS 交出了具體的成績單。根據專注於 AI 模型評測的 Artificial Analysis TTS leaderboard 數據,該模型在收集了數千次人類盲測偏好的排行榜中,取得了 1,211 的 Elo 評分。這個分數不僅證實了其語音輸出的自然度,也讓它在評估矩陣中被歸類於「最具吸引力的象限(most attractive quadrant)」,這意味著它在提供高品質語音生成的同時,也維持了相對低廉的 API 呼叫成本。
除了單一語音生成的品質提升,該模型還原生支援多語者對話(multi-speaker dialogue)功能。過去開發者在建立包含多個角色的對話場景時,往往需要分別呼叫不同的語音模型處理各別台詞,再進行音軌拼接,這不僅增加了系統延遲,也提高了運算花費。現在單一模型就能直接處理多角色間的自然切換,並支援超過 70 種語言,大幅簡化了跨國應用或複雜語境服務的後端架構。
內建音訊標籤:以自然語言微調語氣與語速
本次更新中最核心的技術突破,在於導入了全新的 audio tags(音訊標籤) 機制。傳統的語音合成技術若要調整語音的表現力,開發者通常需要透過複雜的標記語言去調整音高、頻率或語速等聲學參數,過程既繁瑣又難以預測最終效果。現在,使用者只需要將自然語言指令直接嵌入文字輸入中,就能以最直覺的方式,精細控制語音輸出的風格、節奏與情感。
這項將自然語言轉化為控制指令的技術,讓 AI 語音的表現力有了質的飛躍。開發者可以在句子中插入特定的文字標籤,指示模型在某個字詞上加重語氣、在段落間拉長停頓,或者是改變說話的情緒狀態。這種細微的顆粒度控制(granular control),使得最終生成的語音不再是平鋪直敘的機器朗讀,而是更接近真人配音員的高保真(high-fidelity)聲音演出。
對於需要在不同情境下提供多樣化語音回饋的應用場景而言,音訊標籤帶來了極大的應用彈性。無論是打造具備同理心的 AI 助理、需要抑揚頓挫的有聲書朗讀系統,還是遊戲中性格鮮明的非玩家角色(NPC),開發者都能透過簡單的文字指令,快速引導模型產出符合當下情境的聲音素材,大幅縮短了聲音設計的迭代時間。
Google AI Studio 釋出三項導演級控制工具
為了讓開發者能充分利用這項強大的聲音控制能力,Google 在其開發環境 Google AI Studio 中加入了一系列可自訂的控制選項,將開發者置於類似「導演」的指揮位置。首先是「場景設定(Scene direction)」功能,開發者可以預先定義對話發生的環境背景,並提供特定的對話指導原則。這種建立世界觀的上下文資訊,能協助 AI 角色在多輪對話中保持角色設定(in-character),並自然地針對其他角色的台詞做出反應。
第二項重要工具是「語者特徵設定(Speaker-level specificity)」。開發者能利用獨特的音訊設定檔為每個角色建立模型,接著透過「導演筆記(Director’s Notes)」在全域層次調整語速、語調和口音。更進階的是,配合行內標籤(inline tags)的使用,說話者甚至能在朗讀一個句子的中途,直接從預設的平穩情緒轉換為激動語氣,順暢實現單句中改變表達方式的高難度操作。
最後一項關鍵功能則是「無縫匯出(Seamless export)」。當開發者在 Google AI Studio Playground 的測試介面中反覆微調,並取得最滿意的語音表現後,這些包含標籤與參數的精確設定,可以直接一鍵匯出成 Gemini API 程式碼。這項機制確保了企業在不同的軟體專案或終端平台上,都能穩定重現同一套配置,維持一致且具辨識度的品牌專屬聲音。
支援 70 國語言並強制植入 SynthID 浮水印
考量到全球軟體市場的龐大需求,Gemini 3.1 Flash TTS 從底層架構上就針對全球超過 70 種語言進行了核心最佳化。這些最佳化工程不僅僅是解決基本的發音正確性,而是將進階的風格、節奏與口音控制能力,延伸至全球的主要語言市場。這使得開發者能在世界各地推出具備在地化文化特色、且擁有高度表現力的高品質語音互動體驗。
伴隨著高度擬真語音技術的快速普及,防範音訊被濫用以製造假訊息或進行語音詐騙的風險,也成為 Google 部署此類模型時的首要考量。為此,所有由 Gemini 3.1 Flash TTS 生成的音訊檔案,都會在系統底層被強制嵌入 SynthID(隱形浮水印技術)。這是一種直接交織在音訊輸出波形中的加密標記,人耳完全無法察覺,但能被專門的演算法與偵測工具穩定識別。
這套底層防護機制的強制實作,確保了 AI 生成的聲音內容具備明確的可追溯性,並符合防範假訊息散播的資安規範。Google 團隊也同步更新了該語音模型的模型卡(model card),向外界詳細說明了其在內容安全性與負責任 AI 領域的具體技術作法。透過將強大的語音創作彈性與防偽機制深度結合,這款新一代模型為未來的 AI 語音應用樹立了新的技術標準。
Gemini 3.1 Flash TTS 透過自然語言音訊標籤大幅降低了高品質聲音合成的門檻,同時藉由 SynthID 確保了語音生成的安全性與可追溯性。