Image Generation Prompting Guide (38 minute read)
OpenAI gpt-image-2 官方 Prompt 指南:23 個生產場景的核心寫法與四款模型分工全解析
- gpt-image-2 為新生產預設,low 品質設定已足夠多數場景,不需預設跳到 high
- Prompt 控制要訣:把「要改的」和「不能動的」分開列出,每次迭代只改一個變數
- 圖中文字加引號、品牌名逐字母拼出;多輪編輯每次重複 preserve 清單可防止漂移
OpenAI 在 2026 年 4 月 21 日確立新旗艦 gpt-image-2,同步發布覆蓋 23 個真實生產場景的官方 Prompt 指南,每個場景附可執行 Python 程式碼。指南的核心論點:控制輸出品質的最大槓桿是 Prompt 結構,而非算力——清楚分離「要改什麼」與「禁止動什麼」,才是可靠輸出的真正關鍵。
gpt-image-2 登頂:OpenAI 四款模型的最新分工
截至 2026 年 4 月 21 日,OpenAI 圖像生成矩陣共有四款模型,各有明確定位。gpt-image-2 是新的生產預設選擇,主打最高影像品質、最強編輯性能和最廣的解析度支援,適合需要減少重試次數的客戶端資產、文字嵌入圖像和身份一致性編輯。gpt-image-1.5 和 gpt-image-1 建議只在向 gpt-image-2 遷移驗證期間保留,不應用於新工作流。gpt-image-1-mini 定位成本效益型批量選項,適合大批量探索性生成、草稿預覽和輕量個性化場景。
品質設定方面,四款模型均支援 low、medium、high 三個等級。gpt-image-2 的 low 設定在速度與視覺品質之間的平衡上已足夠多數使用情境,不需要預設跳到 medium 或 high。升級路徑建議:先保持現有 Prompt 不變,比對新舊模型的輸出品質、延遲和重試率之後,再逐步微調提示詞。
| 模型 | 品質設定 | 推薦用途 |
|---|---|---|
| gpt-image-2 | low / medium / high | 新建工作流首選;高品質生成與編輯、文字嵌入、身份保留 |
| gpt-image-1.5 | low / medium / high | 僅在遷移驗證期間保留,新工作流不建議使用 |
| gpt-image-1 | low / medium / high | 僅作向下兼容;新工作流應升級至 gpt-image-2 |
| gpt-image-1-mini | low / medium / high | 大批量探索性生成、草稿預覽、輕量個性化低成本場景 |
gpt-image-2 為新建工作流首選;gpt-image-1-mini 適合低成本批量場景
解析度規格:3840px 上限與五條硬性約束
gpt-image-2 支援任意解析度輸入,但必須同時滿足五條硬性限制:(1)最大邊長小於 3840px;(2)每條邊必須是 16 的倍數;(3)長短邊比例不得超過 3:1;(4)總像素不得超過 8,294,400(約 800 萬畫素);(5)總像素不得低於 655,360。超過 2560×1440(2K/QHD)後輸出結果會趨於不穩定,官方建議視為實驗性使用。
常用推薦尺寸:HD 直式(1024×1536)、HD 橫式(1536×1024)、方形(1024×1024)、2K/QHD(2560×1440,可靠性推薦上限),以及 4K/UHD(3840×2160,實驗性;若嚴格讀取 max-edge 規則應取 3824×2144 替代)。
10 條 Prompt 基本功:構圖控制到圖中文字渲染
指南從大量 Alpha 測試中提煉出 10 條通用 Prompt 原則,覆蓋生成、編輯、信息圖、廣告、人像等所有工作流。
結構順序:按「背景/場景 → 主體 → 關鍵細節 → 限制條件」排列,並說明使用情境(廣告、UI 原型、信息圖)以設定模型的「模式」和精細度。照片寫實:直接在 Prompt 裡寫「photorealistic」比描述相機規格更能觸發寫實模式;加入皮膚毛孔、布料磨損等真實質感描述效果更強。構圖量化:指定取景角度(特寫、俯拍)、光線時段(黃金時刻)和版面位置(「logo 右上角」「主體置中、左側留白」)。人物細描:描述比例、視線方向和物品互動——例如「hands naturally gripping the handlebars」能有效防止肢體比例異常。圖中文字:精確文案放在引號內並附排版要求(字體、大小、顏色、位置),品牌名逐字母拼出可提升準確率,小字體使用 medium 或 high。編輯保留清單:每次迭代都重複「preserve identity / layout / geometry」,防止多輪後的風格漂移(drift)。迭代勝過過載:從乾淨基底 Prompt 開始,每次只改一個變數,比一次塞入長篇更容易定位問題。
生成端 10 大場景:信息圖、廣告到 UI 原型
文字轉圖像的 10 類場景各有最佳實踐。信息圖(Infographic):按受眾設計結構,密集版面用 quality="high"。圖內翻譯:保留原排版,Prompt 強調「verbatim translation, no reflow unless necessary」,只改文字、不動圖標和版面層級。照片寫實:用攝影語言(鏡頭焦段、光線質地、取景角度)取代技術參數描述。世界知識推理:只給地點+時間(「1969 年 8 月 16 日紐約 Bethel」),模型能自動推論出 Woodstock 並產出對應期間感場景,不需明說事件名稱。Logo 生成:強調乾淨向量形狀、負空間平衡,用 n 參數同時生成多個版本做比選。廣告創意:像創意簡報那樣寫——包含品牌定位、目標族群、氛圍和精確 tagline,引號內的文案要求原文輸出一次,不多字不少字。漫畫格:逐格描述視覺動作,保持描述具體且以行動為主,幫助模型產出可閱讀的分鏡節奏。UI 原型:描述像已上線產品,聚焦版面層級和真實介面元素,避免「concept art」語言。科學教育圖:列明需要的標籤和禁止包含的元素,課程用資產建議 quality="high"。投影片/資料視覺化:直接在 Prompt 裡放入實際數字和標籤,橫式尺寸(1536×864)適合投影片輸出。
編輯端 9 大場景:試穿、換光、多圖合成訣竅
編輯工作流(text + image → image)共 9 類,共同核心是「鎖定不變項、精確描述變更項」。風格轉移(Style Transfer):描述哪些風格元素要延續(調色盤、筆觸、底片顆粒),哪些內容要替換,加上硬性背景和取景限制防止漂移。虛擬試穿:完全鎖定身份(臉、體型、姿勢、髮型、表情),只允許服裝替換,要求真實布料垂感和陰影一致。草圖轉渲染:保留構圖和透視作為不可動約束,讓模型選擇材質,明確禁止新增元素或文字。產品去背:要求不透明白底(background="opaque"),透明化在下游另做;加輕度磨光和真實接觸陰影。行銷廣告文字嵌入:精確文案加引號、要求「verbatim, no extra characters」,逐次微調版面或措辭提升清晰度。光線天氣轉換:只允許改環境條件(光方向、降水、地面濕度),鎖定身份、幾何和鏡頭角度不變。物件移除:Prompt 越精簡越好(「Remove X. Do not change anything else.」),input_fidelity="high" 有助保持細節。人物融入場景:指定自然光攝影寫實感,避免電影風格色調,鎖定主體不變特徵,輸入圖像提供身份參考。多圖合成:清楚指定移植哪張圖的哪個元素及放置位置,「same style of lighting, composition and background」是防止合成痕跡的關鍵指令。
gpt-image-2 的 Prompt 只有一個原則:把「要改什麼」和「禁止動什麼」分開寫清楚,其餘的交給模型決定。