Google 推出 Gemini 2.5 Flash 預覽版:首款全混合推理模型,兼顧成本與效能

Photo of author

By admin

發布:

更新:

Google 在官方博客與 Google Cloud Next 活動後續宣布,Gemini 2.5 Flash 預覽版正式上線,透過 Gemini API、Google AI Studio、Vertex AI 及 Gemini 應用程式提供開發者與用戶體驗。這款「全混合推理模型」建構於 Gemini 2.0 Flash 基礎上,顯著提升推理能力,同時保持低延遲與成本優勢。Google 產品經理 Logan Kilpatrick 在 X 平台強調,Gemini 2.5 Flash 可作為 2.0 Flash 的直接替代,且支援「推理開關」與「思考預算」,讓開發者靈活平衡品質、成本與速度。本文解析其功能、定價、效能與市場競爭態勢。

Gemini 2.5 Flash 是 Google 首款全混合推理模型,允許開發者根據需求開啟或關閉「思考」模式,並設定「思考預算」(thinking budget,0 至 24,576 個 token)。此功能解決了推理模型的高成本與延遲問題,適用於高頻率任務如即時聊天、文件摘要與資料萃取。相較於 Gemini 2.0 Flash,2.5 Flash 在推理能力上提升顯著,支援:

  • 多模態輸入:處理文字、圖像、音訊與視訊,具 100 萬 token 的上下文窗口。
  • 動態推理:根據提示複雜度自動調整推理程度,例如簡單問答(如「加拿大有多少省?」)幾乎不需推理,複雜數學或程式設計問題則深度分析。
  • Canvas 整合:在 Gemini 應用程式中支援互動式文件與程式碼編輯,增強用戶體驗。

Google 聲稱,2.5 Flash 在 LMArena 的 Hard Prompts 評測中僅次於 2.5 Pro,於成本效益比上位居「帕累托前沿」(Pareto frontier)。VentureBeat 報導,其在 Humanity’s Last Exam 得分 12.1%,超越 Anthropic 的 Claude 3.7 Sonnet(8.9%)與 DeepSeek R1(8.6%),但略遜於 OpenAI 的 o4-mini(14.3%)。

定價與成本優勢

Gemini 2.5 Flash 的 API 定價具競爭力,特別針對高吞吐量應用:

  • 輸入:每百萬 token 0.15 美元
  • 輸出(無推理):每百萬 token 0.60 美元
  • 輸出(啟用推理):每百萬 token 3.50 美元

相較之下,OpenAI 的 o4-mini 定價較高(輸入 0.25 美元,輸出 1.00 美元,推理模式更高),使其更適合高預算應用。Google 允許開發者將思考預算設為 0,匹配 2.0 Flash 的低延遲與成本,確保向下相容。SiliconANGLE 指出,此定價策略吸引企業客戶,特別是對成本敏感的聊天機器人與資料處理應用。

基準測試與競爭態勢

Gemini 2.5 Flash 在多項基準測試中表現出色,顯示其在成本與效能間的平衡:

  • GPQA Diamond:78.3%(科學推理),略低於 o4-mini(81.4%)。
  • AIME 2025:78.0%(數學競賽問題),落後 o4-mini(92.7%)。
  • SWE-Bench Verified:程式碼生成得分 63.8%(使用自訂代理設置),領先業界標準。

儘管 o4-mini 在高階推理上略勝,2.5 Flash 的低成本與速度使其更適合即時應用。與 Anthropic 的 Claude 3.7 Sonnet 與 xAI 的 Grok 3 相比,2.5 Flash 在多模態推理與長上下文處理(100 萬 token)上具優勢。Google DeepMind 的 Tulsee Doshi 表示,2.5 Flash 的混合推理設計讓企業能根據任務需求精準控制成本,預計將搶占中小型企業市場。

Google 的 AI 策略加速

Google 在 2025 年加速 Gemini 系列部署,試圖挑戰 OpenAI 的 ChatGPT 與 Anthropic 的 Claude。Gemini 2.5 Pro(3 月 25 日發布)以 18.8% 的 Humanity’s Last Exam 得分領先 LMArena,顯示 Google 在高階推理上的進展。 2.5 Flash 則瞄準成本敏感市場,與 OpenAI 的 o4-mini(4 月 16 日發布)及 DeepSeek 的 R1 形成競爭。Google Cloud Next 2025 強調企業級 AI,2.5 Flash 的 API 整合與 Vertex AI 部署強化其在雲端工作負載的吸引力。

X 平台用戶對 2.5 Flash 的反應兩極,部分開發者讚賞其低成本與靈活性,但也有人批評 Google 模型命名複雜,難以區分 Flash、Pro 與實驗版本。 Google 回應將簡化消費者端的應用程式體驗,保留開發者的精細控制。

如果喜歡這篇文章,並想了解更多限時免費科技新聞Apple 資訊,以及 AIWordPress 教學資源分享,歡迎追蹤我的 FB專頁InstagramThreadsX !後續將會有更多實用教學與文章和大家分享。

你的一個 Like追蹤 ,對我來說都是莫大的鼓勵,也會激勵我持續創作更多優質內容。感謝你們的支持!

Leave a Comment