OpenAI 發布 o3 與 o4-mini:具備頂尖推理能力與工具整合的新一代 AI 模型

Photo of author

By admin

發布:

更新:

OpenAI 宣布推出 o3 與 o4-mini 推理模型,實現多項 AI 基準測試的頂尖表現(state-of-the-art, SOTA)。這是 OpenAI 首次賦予推理模型外部工具存取能力,包括網頁瀏覽、Python 解譯器等,標誌著 AI 自主性與實用性的重大突破。o3 為 OpenAI 最強大的推理模型,在 Codeforces、SWE-bench 與 MMMU 基準測試中創下新高;o4-mini 則以高效、低成本為特色,適合高吞吐量任務。

OpenAI 強調,o3 與 o4-mini 透過大規模強化學習(reinforcement learning)訓練,具備動態推理與工具選擇能力,能根據任務需求自主決定使用網頁搜尋、Python 程式碼執行或圖像分析等工具,生成結構化且精確的回應。 主要功能包括:

  • 多模態推理:支援文字、圖像、圖表與手寫筆記分析,上下文窗口達 200K token,適合複雜多步驟任務。
  • 工具自主性:模型可「代理式」(agentically)使用 ChatGPT 工具,包括網頁搜尋、程式碼生成與圖像處理,無需用戶明確指令。
  • 記憶參考:能參考對話歷史與記憶,生成更自然、連貫的對話,提升用戶體驗。
  • Codex CLI:OpenAI 推出輕量級開源程式碼代理工具,允許開發者從終端機串接 o3 與 o4-mini,處理本地程式碼任務,並附帶 100 萬美元的 API 信用額度補助計畫。

外部專家評估,o3 在複雜現實任務中比 o1 減少 20% 的重大錯誤,顯示其推理深度與可靠性顯著提升。

基準測試表現:o3 與 o4-mini 的頂尖成果

o3 與 o4-mini 在多項基準測試中超越前代與競爭對手,奠定 SOTA 地位:

  • Codeforces(程式競賽):o3 獲得 2706 Elo 分數,o4-mini 達 2719,遠超 o1 的 1891,展現頂尖程式設計能力。
  • SWE-bench Verified(軟體工程):o3 得分 69.1%,o4-mini 68.1%,較 o1(48.9%)與 Anthropic 的 Claude 3.7 Sonnet(62.3%)更出色。
  • AIME 2025(數學競賽):o4-mini 搭配 Python 解譯器得分 99.5%,o3 達 98.4%,接近滿分。
  • GPQA Diamond(博士級科學):o3 得分 87.7%,o4-mini 81.4%,顯示高階科學推理能力。
  • MMMU(多模態任務):o3 在文字與圖像混合任務中表現卓越,特別擅長圖表與視覺分析。

o4-mini 儘管是輕量模型,卻在數學、程式設計與視覺任務中接近 o3 表現,成本僅為 o3 的十分之一,適合高頻率應用。 然而,o3 與 o4-mini 在 PersonQA 基準測試中幻覺率(hallucination rate)較高,分別為 33% 與 48%,比 o1(16%)與 o3-mini(14.8%)更嚴重,OpenAI 承認需進一步研究原因。

定價與存取:成本效益與靈活部署

OpenAI 為 o3 與 o4-mini 制定具競爭力的定價,兼顧效能與成本:

  • o3:每百萬輸入 token 10 美元,每百萬輸出 token 40 美元,適合高階推理任務。
  • o4-mini:每百萬輸入 token 1.10 美元,每百萬輸出 token 4.40 美元,與 o3-mini 定價相同,具高吞吐量優勢。

存取方式

  • ChatGPT 用戶:Plus、Pro 與 Team 用戶即日起可透過模型選擇器使用 o3、o4-mini 與 o4-mini-high,取代 o1、o3-mini 與 o3-mini-high。Enterprise 與 Edu 用戶將於下週(4 月 23 日)獲得存取。免費用戶可透過「Think」按鈕試用 o4-mini。
  • API 開發者:透過 Chat Completions API 與 Responses API 存取,Responses API 新增推理摘要(reasoning summaries)與函數調用保留推理 token 功能,提升效能。
  • 未來計畫:o3-pro 預計數週內發布,支援完整工具功能,專為 Pro 層用戶設計。

Azure OpenAI Service 與 GitHub Copilot 已整合 o3 與 o4-mini,支援企業級部署與程式碼工作流。

如果喜歡這篇文章,並想了解更多限時免費科技新聞Apple 資訊,以及 AIWordPress 教學資源分享,歡迎追蹤我的 FB專頁InstagramThreadsX !後續將會有更多實用教學與文章和大家分享。

你的一個 Like追蹤 ,對我來說都是莫大的鼓勵,也會激勵我持續創作更多優質內容。感謝你們的支持!

Leave a Comment