內容目錄
Toggle「Images in ChatGPT」全新登場,支援多平台用戶
OpenAI 於今日宣佈將全新圖像生成功能「Images in ChatGPT」整合至 ChatGPT,讓用戶能直接在對話介面中使用 GPT-4o 生成圖像。這項功能初期專注於圖像創作,已於 ChatGPT 的 Plus、Pro、Team 及免費訂閱層級全面推出。免費用戶的每日使用限制與 DALL-E 相同(過去為每天 3 張圖像),但具體數量「尚未明確」且「可能隨需求調整」。對於 DALL-E 的愛好者仍可透過專屬 GPT 存取 DALL-E。這標誌著 ChatGPT 從純文字生成走向多模態應用的新里程碑。
研究負責人 Gabriel Goh 表示,GPT-4o 採用「全模態」(omnimodal)基礎,能生成文字、圖像、音訊及影片等多種數據,相較先前模型是一大進步。他特別提到「綁定」(binding)能力的提升,即 AI 能更準確地在圖像中維持屬性與物件的正確關係。例如,提示「藍色星星與紅色三角形」時,舊模型可能混淆顏色與形狀,而新工具可正確處理 15 至 20 個物件,大幅提升精準度與可靠性。這對於生成複雜場景或多元素圖像的用戶來說是一大福音。
文字渲染與自回歸技術:圖像生成新突破
新系統在文字渲染方面也有顯著改進,讓圖像中的文字更清晰且無錯字。Goh 指出,過去工具常在圖像文字上出現亂碼,尤其是小字體部分,常導致圖像無法使用。經過數月迭代,GPT-4o 的文字品質已達穩定可用水準,雖在極小字體上仍有瑕疵,但整體表現令人滿意。他認為,這得益於系統採用的自回歸(autoregressive)方法——從左至右、由上至下逐步生成圖像,而非如 DALL-E 等擴散模型一次生成整張圖像。這一技術差異可能解釋其在文字渲染與綁定上的優勢。
在發布前的簡報中,OpenAI 展示了多項應用案例,包括牛頓稜鏡實驗的科學圖表(含正確標籤)、連貫角色與對話框的多格漫畫,以及精確文字的資訊海報。實用功能如生成透明背景貼紙、餐廳菜單與商標也令人矚目。多模態產品負責人 Jackie Shannon 解釋:「這模型結合了全球知識,無需詳細解釋牛頓實驗也能生成相應圖像。」雖然生成時間較以往略長(約數秒),她認為高品質與知識整合值得這一等待。
安全措施與市場潛力
針對安全問題,如先前微軟模型生成的泰勒絲裸體深偽圖或 Google Gemini 移除水印的爭議,OpenAI 強調已內建強大防護措施。Shannon 表示,系統禁止移除水印、生成性愛深偽圖或 CSAM(兒童性虐素材),並使用 C2PA 元數據標記圖像為 AI 生成,搭配內部工具進行查驗。她坦言:「沒有一個系統完美,但這是起點,我們會持續改進。」用戶擁有生成的圖像所有權,可在 OpenAI 使用政策範圍內自由使用。
隨著「Images in ChatGPT」的推出,OpenAI 挑戰了 Galaxy S25 Ultra 等競爭對手的 8K 影片功能,並可能吸引更多創意專業人士。從免費到高階用戶皆可體驗,未來數週內 API 與企業、教育版本也將上線。此功能不僅提升 ChatGPT 的實用性,也為內容創作與教育應用開闢新可能。