xAI Grok 4.1 上線:AI 幻覺率降到三分之一,力拚 ChatGPT 5.1 與 Gemini

Photo of author

By admin

更新:

Grok 4.1:幻覺率狂降 3 倍,EQ 竟超越真人?

 xAI 發布了最新模型 Grok 4.1,這次的更新,對 AI 性格有著大改善。這次更新主打三個類別:幻覺率直接腰斬超高的情緒智商 (EQ),以及頂級的創意寫作能力。官方數據顯示,它甚至已經在多項指標上超越了 GPT-5 與 Claude Opus 4 等。Grok 4.1 已經全面上線(含免費版),讓我們來看看它為什麼值得你一試。

相關新聞 : OpenAI 在台灣等四國試行 ChatGPT 群組聊天,最多 20 人與 AI 一起開會聊天

1. 幻覺率大降:不再胡說八道

AI 最讓人頭痛的問題就是幻覺,在不確定時瞎掰答案。 Grok 4.1 在這一點上取得了驚人的突破。經過靜默 A/B 測試與強化學習調整,Grok 4.1 的資訊查詢幻覺率從 12% 降至 4%,足足降低了三倍。當我們用它來查詢資料、做研究或寫報告時,你可以更信任它的回答,減少花時間去查證這是不是它編的。

2. 最高 EQ:懂你的心情

這可能是本次 最有趣的更新。xAI 宣稱 Grok 4.1 是目前市面上情緒智商最高的 AI。 在 EQ Bench 3 測試中,它的分數超越了所有對手。當你跟它說我很想念我的貓,它不會只回傳機械式的我很遺憾。它會捕捉你的情緒細節,邀請你分享回憶,像一個真正懂你的朋友。

3. 創意寫作:LMArena 榜第一

在創意寫作基準 (Creative Writing v3) 上,Grok 4.1 擊敗了以文筆優美著稱的 Claude 系列。同時,它的 Thinking (思考) 模式 在著名的 LMArena 排行榜直接登頂,成為目前最強的公開模型。Fast 模式支援高達 200 萬 token 的上下文,這代表你可以把幾百頁的合約、整本書或大型程式碼庫直接丟給它消化,一次搞定摘要與分析。

安全與風險:情緒智商提升背後的爭議

不過,並非所有分析都對 Grok 4.1 一面倒給予正面評價。有專門追蹤 AI 安全與評測的媒體指出,Grok 4.1 在 LMArena 與 EQ Bench 等榜單上雖然領先,但同時伴隨顯著拒絕率下降現象。Grok 4.1 為了打造更有人味的對話,似乎在部分敏感議題上放鬆了,模型更容易迎合使用者立場,較少直接拒絕回答,這樣在政治、醫療或仇恨言論等領域可能帶來新的風險。

Grok 4.1 現已在 X 平台grok.com 開放使用。

如果喜歡這篇文章,並想持續收到更多限時免費科技新聞Apple 資訊,以及 AIWordPress 教學資源分享,歡迎透過以下方式支持我,讓我更有動力創作:

👍 按讚與追蹤:鎖定我的 Facebook專頁InstagramThreadsX,就不會錯過最新內容。

☕ 請我喝杯咖啡:如果內容對你有幫助,歡迎到 Ko-fi 小額支持,為我注入創作能量。

你的一個 Like追蹤或是一杯咖啡的鼓勵,都能激勵我持續分享更多實用文章。由衷感謝大家。😉

Leave a Comment