內容目錄
ToggleGemini 2.5 Flash:全混合推理模型的核心優勢
Gemini 2.5 Flash 是 Google 首款全混合推理模型,允許開發者根據需求開啟或關閉「思考」模式,並設定「思考預算」(thinking budget,0 至 24,576 個 token)。此功能解決了推理模型的高成本與延遲問題,適用於高頻率任務如即時聊天、文件摘要與資料萃取。相較於 Gemini 2.0 Flash,2.5 Flash 在推理能力上提升顯著,支援:
- 多模態輸入:處理文字、圖像、音訊與視訊,具 100 萬 token 的上下文窗口。
- 動態推理:根據提示複雜度自動調整推理程度,例如簡單問答(如「加拿大有多少省?」)幾乎不需推理,複雜數學或程式設計問題則深度分析。
- Canvas 整合:在 Gemini 應用程式中支援互動式文件與程式碼編輯,增強用戶體驗。
Google 聲稱,2.5 Flash 在 LMArena 的 Hard Prompts 評測中僅次於 2.5 Pro,於成本效益比上位居「帕累托前沿」(Pareto frontier)。VentureBeat 報導,其在 Humanity’s Last Exam 得分 12.1%,超越 Anthropic 的 Claude 3.7 Sonnet(8.9%)與 DeepSeek R1(8.6%),但略遜於 OpenAI 的 o4-mini(14.3%)。
定價與成本優勢
Gemini 2.5 Flash 的 API 定價具競爭力,特別針對高吞吐量應用:
- 輸入:每百萬 token 0.15 美元
- 輸出(無推理):每百萬 token 0.60 美元
- 輸出(啟用推理):每百萬 token 3.50 美元
相較之下,OpenAI 的 o4-mini 定價較高(輸入 0.25 美元,輸出 1.00 美元,推理模式更高),使其更適合高預算應用。Google 允許開發者將思考預算設為 0,匹配 2.0 Flash 的低延遲與成本,確保向下相容。SiliconANGLE 指出,此定價策略吸引企業客戶,特別是對成本敏感的聊天機器人與資料處理應用。
基準測試與競爭態勢
Gemini 2.5 Flash 在多項基準測試中表現出色,顯示其在成本與效能間的平衡:
- GPQA Diamond:78.3%(科學推理),略低於 o4-mini(81.4%)。
- AIME 2025:78.0%(數學競賽問題),落後 o4-mini(92.7%)。
- SWE-Bench Verified:程式碼生成得分 63.8%(使用自訂代理設置),領先業界標準。
儘管 o4-mini 在高階推理上略勝,2.5 Flash 的低成本與速度使其更適合即時應用。與 Anthropic 的 Claude 3.7 Sonnet 與 xAI 的 Grok 3 相比,2.5 Flash 在多模態推理與長上下文處理(100 萬 token)上具優勢。Google DeepMind 的 Tulsee Doshi 表示,2.5 Flash 的混合推理設計讓企業能根據任務需求精準控制成本,預計將搶占中小型企業市場。
Google 的 AI 策略加速
Google 在 2025 年加速 Gemini 系列部署,試圖挑戰 OpenAI 的 ChatGPT 與 Anthropic 的 Claude。Gemini 2.5 Pro(3 月 25 日發布)以 18.8% 的 Humanity’s Last Exam 得分領先 LMArena,顯示 Google 在高階推理上的進展。 2.5 Flash 則瞄準成本敏感市場,與 OpenAI 的 o4-mini(4 月 16 日發布)及 DeepSeek 的 R1 形成競爭。Google Cloud Next 2025 強調企業級 AI,2.5 Flash 的 API 整合與 Vertex AI 部署強化其在雲端工作負載的吸引力。
X 平台用戶對 2.5 Flash 的反應兩極,部分開發者讚賞其低成本與靈活性,但也有人批評 Google 模型命名複雜,難以區分 Flash、Pro 與實驗版本。 Google 回應將簡化消費者端的應用程式體驗,保留開發者的精細控制。