专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
爱可可-爱生活  ·  #听见微博# #微博声浪计划# ... ·  12 小时前  
机器之心  ·  免费约饭!美国CVPR ... ·  19 小时前  
云技术  ·  20万元,DeepSeek系统硬件及AI服务 ... ·  23 小时前  
云技术  ·  20万元,DeepSeek系统硬件及AI服务 ... ·  23 小时前  
51好读  ›  专栏  ›  机器之心

真碾压Sora了!谷歌Veo 3首次实现音画同步,视频模型直接「开口说话」

机器之心  · 公众号  · AI  · 2025-05-21 16:04

主要观点总结

文章介绍了谷歌发布的AI视频工具Veo 3,它能够生成高质量视频并理解视频中的原始像素,自动生成与画面同步的对话、多种音效。该工具能够生成音画同步的视频,包括对白生成、唇动对齐和情绪音效等。Veo 3的表现得到了多个视频展示的验证,并在社交网络引发热议。其背后的技术包括DeepMind的V2A技术和谷歌的音视频数据资源。尽管目前仅面向专业创作者和开发者开放,但Veo 3的初次亮相已经引起广泛关注,预示着AI视频技术的未来发展方向。

关键观点总结

关键观点1: Veo 3的主要功能

能够生成高质量视频,并理解视频中的原始像素,自动生成与画面同步的对话、多种音效,包括对白生成、唇动对齐和情绪音效等。

关键观点2: Veo 3的表现验证

通过多个视频展示,包括酒吧情景喜剧、游戏直播风格视频等,Veo 3的表现令人惊叹。

关键观点3: Veo 3的技术支持

背后依赖DeepMind的V2A技术和谷歌的音视频数据资源,使Veo 3的音画合成功能遥遥领先。

关键观点4: Veo 3的局限性

目前仅面向专业创作者和开发者开放,且视频时长有限(8秒),定价较高(249.99 美元/月)。

关键观点5: AI视频技术的发展趋势

过去生成式 AI 是「语言+图像」的时代,现在正进入「视听一体」的新阶段。未来音画一体将是下一轮视频模型竞赛的标配。


正文

请到「今天看啥」查看全文




但无论画质如何进步,视频还是「哑巴」——

你可以让人物奔跑、翻转,甚至做出慢动作,但如果想让角色说话、听到风声、脚步声,甚至感受到炒菜时锅里的滋滋声?

对不起,还得自己导音频。

更麻烦的是,配完音还可能对不上节奏——口型和对白不同步,脚步踩不到点上,情绪氛围总差一口气。

直到今天,谷歌正式发布 Veo 3。AI 视频, 终于能「开口说话」了——


Veo 3 不仅能生成高质量视频,还能理解视频中的原始像素,自动生成与画面同步的对话、多种音效。

翻译成中文——

只用一个提示词,你就能得到 画面+ 对白+唇动对齐+拟音音效 一气呵成的视频。


提示语 :90 年代酒吧里的情景喜剧场景,背景墙上的霓虹灯写着 「fofr」。一对夫妇说了些什么,观众大笑起来。

对白生成、唇动对齐和情绪音效(观众笑声),一气呵成






请到「今天看啥」查看全文