OpenAI gpt-image-2 官方 Prompt 指南：23 個生產場景的核心寫法與四款模型分工全解析

AI 導讀 technology AI 重要性 4/5

gpt-image-2 為新生產預設，low 品質設定已足夠多數場景，不需預設跳到 high
Prompt 控制要訣：把「要改的」和「不能動的」分開列出，每次迭代只改一個變數
圖中文字加引號、品牌名逐字母拼出；多輪編輯每次重複 preserve 清單可防止漂移

OpenAI 在 2026 年 4 月 21 日確立新旗艦 gpt-image-2，同步發布覆蓋 23 個真實生產場景的官方 Prompt 指南，每個場景附可執行 Python 程式碼。指南的核心論點：控制輸出品質的最大槓桿是 Prompt 結構，而非算力——清楚分離「要改什麼」與「禁止動什麼」，才是可靠輸出的真正關鍵。

gpt-image-2 登頂：OpenAI 四款模型的最新分工

截至 2026 年 4 月 21 日，OpenAI 圖像生成矩陣共有四款模型，各有明確定位。gpt-image-2 是新的生產預設選擇，主打最高影像品質、最強編輯性能和最廣的解析度支援，適合需要減少重試次數的客戶端資產、文字嵌入圖像和身份一致性編輯。gpt-image-1.5 和 gpt-image-1 建議只在向 gpt-image-2 遷移驗證期間保留，不應用於新工作流。gpt-image-1-mini 定位成本效益型批量選項，適合大批量探索性生成、草稿預覽和輕量個性化場景。

品質設定方面，四款模型均支援 low、medium、high 三個等級。gpt-image-2 的 low 設定在速度與視覺品質之間的平衡上已足夠多數使用情境，不需要預設跳到 medium 或 high。升級路徑建議：先保持現有 Prompt 不變，比對新舊模型的輸出品質、延遲和重試率之後，再逐步微調提示詞。

OpenAI 四款圖像模型分工一覽（2026 年 4 月）

模型	品質設定	推薦用途
gpt-image-2	low / medium / high	新建工作流首選；高品質生成與編輯、文字嵌入、身份保留
gpt-image-1.5	low / medium / high	僅在遷移驗證期間保留，新工作流不建議使用
gpt-image-1	low / medium / high	僅作向下兼容；新工作流應升級至 gpt-image-2
gpt-image-1-mini	low / medium / high	大批量探索性生成、草稿預覽、輕量個性化低成本場景

gpt-image-2 為新建工作流首選；gpt-image-1-mini 適合低成本批量場景

解析度規格：3840px 上限與五條硬性約束

gpt-image-2 支援任意解析度輸入，但必須同時滿足五條硬性限制：（1）最大邊長小於 3840px；（2）每條邊必須是 16 的倍數；（3）長短邊比例不得超過 3:1；（4）總像素不得超過 8,294,400（約 800 萬畫素）；（5）總像素不得低於 655,360。超過 2560×1440（2K/QHD）後輸出結果會趨於不穩定，官方建議視為實驗性使用。

常用推薦尺寸：HD 直式（1024×1536）、HD 橫式（1536×1024）、方形（1024×1024）、2K/QHD（2560×1440，可靠性推薦上限），以及 4K/UHD（3840×2160，實驗性；若嚴格讀取 max-edge 規則應取 3824×2144 替代）。

10 條 Prompt 基本功：構圖控制到圖中文字渲染

指南從大量 Alpha 測試中提煉出 10 條通用 Prompt 原則，覆蓋生成、編輯、信息圖、廣告、人像等所有工作流。

結構順序：按「背景/場景 → 主體 → 關鍵細節 → 限制條件」排列，並說明使用情境（廣告、UI 原型、信息圖）以設定模型的「模式」和精細度。照片寫實：直接在 Prompt 裡寫「photorealistic」比描述相機規格更能觸發寫實模式；加入皮膚毛孔、布料磨損等真實質感描述效果更強。構圖量化：指定取景角度（特寫、俯拍）、光線時段（黃金時刻）和版面位置（「logo 右上角」「主體置中、左側留白」）。人物細描：描述比例、視線方向和物品互動——例如「hands naturally gripping the handlebars」能有效防止肢體比例異常。圖中文字：精確文案放在引號內並附排版要求（字體、大小、顏色、位置），品牌名逐字母拼出可提升準確率，小字體使用 medium 或 high。編輯保留清單：每次迭代都重複「preserve identity / layout / geometry」，防止多輪後的風格漂移（drift）。迭代勝過過載：從乾淨基底 Prompt 開始，每次只改一個變數，比一次塞入長篇更容易定位問題。

生成端 10 大場景：信息圖、廣告到 UI 原型

文字轉圖像的 10 類場景各有最佳實踐。信息圖（Infographic）：按受眾設計結構，密集版面用 quality="high"。圖內翻譯：保留原排版，Prompt 強調「verbatim translation, no reflow unless necessary」，只改文字、不動圖標和版面層級。照片寫實：用攝影語言（鏡頭焦段、光線質地、取景角度）取代技術參數描述。世界知識推理：只給地點+時間（「1969 年 8 月 16 日紐約 Bethel」），模型能自動推論出 Woodstock 並產出對應期間感場景，不需明說事件名稱。Logo 生成：強調乾淨向量形狀、負空間平衡，用 n 參數同時生成多個版本做比選。廣告創意：像創意簡報那樣寫——包含品牌定位、目標族群、氛圍和精確 tagline，引號內的文案要求原文輸出一次，不多字不少字。漫畫格：逐格描述視覺動作，保持描述具體且以行動為主，幫助模型產出可閱讀的分鏡節奏。UI 原型：描述像已上線產品，聚焦版面層級和真實介面元素，避免「concept art」語言。科學教育圖：列明需要的標籤和禁止包含的元素，課程用資產建議 quality="high"。投影片/資料視覺化：直接在 Prompt 裡放入實際數字和標籤，橫式尺寸（1536×864）適合投影片輸出。

編輯端 9 大場景：試穿、換光、多圖合成訣竅

編輯工作流（text + image → image）共 9 類，共同核心是「鎖定不變項、精確描述變更項」。風格轉移（Style Transfer）：描述哪些風格元素要延續（調色盤、筆觸、底片顆粒），哪些內容要替換，加上硬性背景和取景限制防止漂移。虛擬試穿：完全鎖定身份（臉、體型、姿勢、髮型、表情），只允許服裝替換，要求真實布料垂感和陰影一致。草圖轉渲染：保留構圖和透視作為不可動約束，讓模型選擇材質，明確禁止新增元素或文字。產品去背：要求不透明白底（background="opaque"），透明化在下游另做；加輕度磨光和真實接觸陰影。行銷廣告文字嵌入：精確文案加引號、要求「verbatim, no extra characters」，逐次微調版面或措辭提升清晰度。光線天氣轉換：只允許改環境條件（光方向、降水、地面濕度），鎖定身份、幾何和鏡頭角度不變。物件移除：Prompt 越精簡越好（「Remove X. Do not change anything else.」），input_fidelity="high" 有助保持細節。人物融入場景：指定自然光攝影寫實感，避免電影風格色調，鎖定主體不變特徵，輸入圖像提供身份參考。多圖合成：清楚指定移植哪張圖的哪個元素及放置位置，「same style of lighting, composition and background」是防止合成痕跡的關鍵指令。

gpt-image-2 的 Prompt 只有一個原則：把「要改什麼」和「禁止動什麼」分開寫清楚，其餘的交給模型決定。

Abstract

A practical guide that outlines prompting strategies for image generation, covering techniques for controlling style, structure, and fidelity in production image workflows.

Image Generation Prompting Guide (38 minute read)

gpt-image-2 登頂：OpenAI 四款模型的最新分工

解析度規格：3840px 上限與五條硬性約束

10 條 Prompt 基本功：構圖控制到圖中文字渲染

生成端 10 大場景：信息圖、廣告到 UI 原型

編輯端 9 大場景：試穿、換光、多圖合成訣竅

Abstract

🔗 相關推薦

頂尖 AI 模型 FLUX 生成特定良性概念組合時，產生隱性違規圖像機率高達 99.52%，揭示既有安全機制的重大盲區。

iTARFlow 透過多尺度噪音訓練，ImageNet-64 FID 達 1.68，正規化流縮近擴散模型

LLM「中性提示詞」即歐美框架：拉美語義偏離高 38%，財富感知最受文化身分影響