Google 公布 FACTS Benchmark:最強 AI 準確率僅 68.8 %,每三個答案就有一個錯

Photo of author

By admin

發布:

AI 的發展一日千里,但 AI 說的話到底又有幾分可信?Google DeepMind 團隊在 2025 年 12 月公布了名為 FACTS Benchmark Suite 的評測標準,並與 Kaggle 合作建立公開排行榜,用更系統化的方法來檢驗大型語言模型 LLM 的誠實度。然而測試結果相當令人意外,目前市面上被視為頂尖的 AI 模型,整體事實準確率全部低於 70 %。就算拿下最高分的 Google 自家模型 Gemini 3 Pro 也僅有 68.8 %。當我們習慣用 AI 寫報告、查資料時,它大約每回答 3 個問題,就可能包含 1 個錯誤資訊。

相關新聞 : 信箱太亂?用 Gmail 管理訂閱項目,一鍵清掉廣告信與電子報啦

FACTS Benchmark 測什麼?

避免模型只是死背題庫,Google DeepMind 此次設計的測試將評測拆解為四個貼近真實應用的面向,並結合公開題目與私有保留題目進行計分。這四個指標分別是:

Parametric,測試模型在不靠外部工具下直接回答知識的能力

Search,評估模型使用搜尋引擎找資料並整合的準確度

Multimodal,檢驗模型看圖表、判讀影像的能力

以及 Grounding v2,要求模型必須嚴格依據指定長文回答,不能自行腦補。這種設計把文筆流暢度與事實正確性分開來看,讓使用者知道 AI 雖然很會寫文章,但內容不一定經得起推敲。

Gemini 3 Pro 險勝,但看圖成重災區

從官方公布的技術報告來看,Gemini 3 Pro 以 68.8 % 的分數暫居第一,緊追在後的是 Gemini 2.5 Pro 的 62.1 % 與 GPT 5 的 61.8 %,而 Grok 4 與 Claude 4.5 Opus 分別取得 53.6 % 與 51.3 %。雖然 Google 強調 Gemini 3 Pro 在搜尋整合與基礎問答的錯誤率已有顯著下降,但若進一步分析子項目,會發現多模態 (Multimodal) 仍然偏低。以 Gemini 3 Pro 為例,看圖回答的準確率僅有 46.1 %,當你丟一張財報圖表或統計圖給 AI 分析時,它有一半以上的機率會看錯數字或誤解圖意,而這種錯誤往往比純文字更難被人類察覺。

接近三成的錯誤率

當準確率無法突破 70 %,在金融、法律、醫療等高風險領域直接採用 AI 生成內容就會存在極大隱憂。過去的測試多半關注 AI 能否完成任務,卻忽略了內容的真實性。因此,在專業場景中引入 AI 輔助時,人工查核 (Fact-check) 機制依然不可或缺。

測試的侷限:指標成為目標

雖然 FACTS Benchmark 提供了量化數據,但業界也對跑分文化保持審慎態度。廠商可能會針對特定的基準測試題目對模型進行過度優化,甚至可能發生拿考題去訓練模型。雖然 Google 透過 FACTS 揭露了 AI 目前的極限,但讀者在解讀這些分數時,仍應關注模型在實際工作流中的表現,而非單純迷信排行榜上的數字。

如果喜歡這篇文章,並想持續收到更多限時免費科技新聞Apple 資訊,以及 AIWordPress 教學資源分享,歡迎透過以下方式支持我,讓我更有動力創作:

👍 按讚與追蹤:鎖定我的 Facebook專頁InstagramThreadsX,就不會錯過最新內容。

☕ 請我喝杯咖啡:如果內容對你有幫助,歡迎到 Ko-fi 小額支持,為我注入創作能量。

你的一個 Like追蹤或是一杯咖啡的鼓勵,都能激勵我持續分享更多實用文章。由衷感謝大家。😉

Leave a Comment