從「視覺」到「聽覺」
就在 OpenAI 的 Sora 2 發表後不到一個月,xAI 上週發布 Grok Imagine V0.9 ,Google 也迅速做出了回應。官方正式推出 AI 影片模型的最新版本 Veo 3.1,這次升級的核心,只有一個詞:聲音。Google 將「影音同生」的能力,深度整合進創作平台 Flow 與 Gemini 之中,讓 AI 影片生成,正式告別了「美麗的默劇」時代。從現在起,你的提示詞,不僅能決定畫面,更能決定對白、環境音與音效的節奏。這場 AI 模型之間的較量,已從單純的「視覺寫實」,全面升級為「完整敘事」。
https://www.youtube.com/watch?v=I06Ef8alr2Y
相關新聞 : ChatGPT 的「成人時刻」來了!OpenAI 12 月起將為成人用戶解禁「情色內容」
Veo 3.1 三大進化
-
影音同生 (Audio-Visual Co-generation): Veo 3.1 能夠原生生成與畫面同步的對白、環境音與音效。你可以直接在提示詞中,指示「一個女人在下雨的咖啡店窗邊,輕聲說著『我想回家了』」,AI 將同時生成對應的畫面、雨聲、咖啡店的背景音,以及那句輕聲的對白。
-
更強的寫實度與遵循度: 除了聲音,Veo 3.1 在視覺上也更進一步。無論是物體的材質細節、光影的物理合理性,還是對複雜提示詞的理解與還原度,都達到了新的高度,讓「圖片轉影片」的成品,更趨近於真實拍攝。
-
導演級的敘事工具 Flow: Google 將 Veo 3.1 的能力,融入創意工作流平台 Flow 中,提供了三種強大的導演工具:
Veo 3.1 vs. Sora 2 vs. Grok Imagine,誰是未來的 AI 導演?
這次的更新,無疑是直接對準了 OpenAI 的 Sora 2 和 xAI 的 Grok Imagine V0.9。三大陣營的最新模型,都不約而同地將「聲畫同步」、「更高的可控性」、「超快生成影片」作為核心賣點。
-
Sora 2 的優勢在於其先發的市場聲量,以及一個極具病毒傳播潛力的 Sora App。
-
Veo 3.1 的優勢則在於與 Google 生態系(Gemini, Vertex AI)的深度整合,以及 Flow 這個更偏向專業創作者的、模組化的工作流程。
- Grok Imagine V0.9 的優勢在於超高速生成影片,僅需 15 秒內即可完成高品質影像與音頻同步。
如何開始體驗?
可直接在 Gemini App 與 Flow 平台中體驗 Veo 3.1 的威力。而對於需要將其整合進產品的開發者,則可以透過 Gemini API 與 Vertex AI 進行付費預覽。
如果喜歡這篇文章,並想持續收到更多限時免費、科技新聞、 Apple 資訊,以及 AI 、 WordPress 教學與資源分享,歡迎透過以下方式支持我,讓我更有動力創作:
👍 按讚與追蹤:鎖定我的 [FB專頁]、[Instagram]、[Threads] 和 [X],就不會錯過最新內容。
☕ 請我喝杯咖啡:如果內容對你有幫助,歡迎到 [Ko-fi] 小額支持,為我注入創作能量。
你的一個 Like、追蹤或是一杯咖啡的鼓勵,都能激勵我持續分享更多實用文章。由衷感謝大家。😉


