OpenAI 宣布推出 o3 與 o4-mini 推理模型,實現多項 AI 基準測試的頂尖表現(state-of-the-art, SOTA)。這是 OpenAI 首次賦予推理模型外部工具存取能力,包括網頁瀏覽、Python 解譯器等,標誌著 AI 自主性與實用性的重大突破。o3 為 OpenAI 最強大的推理模型,在 Codeforces、SWE-bench 與 MMMU 基準測試中創下新高;o4-mini 則以高效、低成本為特色,適合高吞吐量任務。
內容目錄
Toggleo3 與 o4-mini 核心功能:推理與工具整合的突破
OpenAI 強調,o3 與 o4-mini 透過大規模強化學習(reinforcement learning)訓練,具備動態推理與工具選擇能力,能根據任務需求自主決定使用網頁搜尋、Python 程式碼執行或圖像分析等工具,生成結構化且精確的回應。 主要功能包括:
- 多模態推理:支援文字、圖像、圖表與手寫筆記分析,上下文窗口達 200K token,適合複雜多步驟任務。
- 工具自主性:模型可「代理式」(agentically)使用 ChatGPT 工具,包括網頁搜尋、程式碼生成與圖像處理,無需用戶明確指令。
- 記憶參考:能參考對話歷史與記憶,生成更自然、連貫的對話,提升用戶體驗。
- Codex CLI:OpenAI 推出輕量級開源程式碼代理工具,允許開發者從終端機串接 o3 與 o4-mini,處理本地程式碼任務,並附帶 100 萬美元的 API 信用額度補助計畫。
外部專家評估,o3 在複雜現實任務中比 o1 減少 20% 的重大錯誤,顯示其推理深度與可靠性顯著提升。
基準測試表現:o3 與 o4-mini 的頂尖成果
o3 與 o4-mini 在多項基準測試中超越前代與競爭對手,奠定 SOTA 地位:
- Codeforces(程式競賽):o3 獲得 2706 Elo 分數,o4-mini 達 2719,遠超 o1 的 1891,展現頂尖程式設計能力。
- SWE-bench Verified(軟體工程):o3 得分 69.1%,o4-mini 68.1%,較 o1(48.9%)與 Anthropic 的 Claude 3.7 Sonnet(62.3%)更出色。
- AIME 2025(數學競賽):o4-mini 搭配 Python 解譯器得分 99.5%,o3 達 98.4%,接近滿分。
- GPQA Diamond(博士級科學):o3 得分 87.7%,o4-mini 81.4%,顯示高階科學推理能力。
- MMMU(多模態任務):o3 在文字與圖像混合任務中表現卓越,特別擅長圖表與視覺分析。
o4-mini 儘管是輕量模型,卻在數學、程式設計與視覺任務中接近 o3 表現,成本僅為 o3 的十分之一,適合高頻率應用。 然而,o3 與 o4-mini 在 PersonQA 基準測試中幻覺率(hallucination rate)較高,分別為 33% 與 48%,比 o1(16%)與 o3-mini(14.8%)更嚴重,OpenAI 承認需進一步研究原因。
定價與存取:成本效益與靈活部署
OpenAI 為 o3 與 o4-mini 制定具競爭力的定價,兼顧效能與成本:
- o3:每百萬輸入 token 10 美元,每百萬輸出 token 40 美元,適合高階推理任務。
- o4-mini:每百萬輸入 token 1.10 美元,每百萬輸出 token 4.40 美元,與 o3-mini 定價相同,具高吞吐量優勢。
存取方式:
- ChatGPT 用戶:Plus、Pro 與 Team 用戶即日起可透過模型選擇器使用 o3、o4-mini 與 o4-mini-high,取代 o1、o3-mini 與 o3-mini-high。Enterprise 與 Edu 用戶將於下週(4 月 23 日)獲得存取。免費用戶可透過「Think」按鈕試用 o4-mini。
- API 開發者:透過 Chat Completions API 與 Responses API 存取,Responses API 新增推理摘要(reasoning summaries)與函數調用保留推理 token 功能,提升效能。
- 未來計畫:o3-pro 預計數週內發布,支援完整工具功能,專為 Pro 層用戶設計。
Azure OpenAI Service 與 GitHub Copilot 已整合 o3 與 o4-mini,支援企業級部署與程式碼工作流。