专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

目录

相关文章推荐

爱可可-爱生活 · #听见微博# #微博声浪计划# ... · 12 小时前

量子位 · 4位图灵奖得主布道，2大冠军机器人登台，“A ... · 11 小时前

机器之心 · 免费约饭！美国CVPR ... · 19 小时前

云技术 · 20万元，DeepSeek系统硬件及AI服务 ... · 23 小时前

云技术 · 20万元，DeepSeek系统硬件及AI服务 ... · 23 小时前

机器之心 · OpenAI久违发了篇「正经」论文：线性布局 ... · 昨天

51好读 › 专栏 › 机器之心

真碾压Sora了！谷歌Veo 3首次实现音画同步，视频模型直接「开口说话」

机器之心 · 公众号 · AI · 2025-05-21 16:04

主要观点总结

文章介绍了谷歌发布的AI视频工具Veo 3，它能够生成高质量视频并理解视频中的原始像素，自动生成与画面同步的对话、多种音效。该工具能够生成音画同步的视频，包括对白生成、唇动对齐和情绪音效等。Veo 3的表现得到了多个视频展示的验证，并在社交网络引发热议。其背后的技术包括DeepMind的V2A技术和谷歌的音视频数据资源。尽管目前仅面向专业创作者和开发者开放，但Veo 3的初次亮相已经引起广泛关注，预示着AI视频技术的未来发展方向。

关键观点总结

关键观点1: Veo 3的主要功能

能够生成高质量视频，并理解视频中的原始像素，自动生成与画面同步的对话、多种音效，包括对白生成、唇动对齐和情绪音效等。

关键观点2: Veo 3的表现验证

通过多个视频展示，包括酒吧情景喜剧、游戏直播风格视频等，Veo 3的表现令人惊叹。

关键观点3: Veo 3的技术支持

背后依赖DeepMind的V2A技术和谷歌的音视频数据资源，使Veo 3的音画合成功能遥遥领先。

关键观点4: Veo 3的局限性

目前仅面向专业创作者和开发者开放，且视频时长有限（8秒），定价较高（249.99 美元/月）。

关键观点5: AI视频技术的发展趋势

过去生成式 AI 是「语言+图像」的时代，现在正进入「视听一体」的新阶段。未来音画一体将是下一轮视频模型竞赛的标配。

正文

请到「今天看啥」查看全文

但无论画质如何进步，视频还是「哑巴」——

你可以让人物奔跑、翻转，甚至做出慢动作，但如果想让角色说话、听到风声、脚步声，甚至感受到炒菜时锅里的滋滋声？

对不起，还得自己导音频。

更麻烦的是，配完音还可能对不上节奏——口型和对白不同步，脚步踩不到点上，情绪氛围总差一口气。

直到今天，谷歌正式发布 Veo 3。AI 视频， 终于能「开口说话」了——

Veo 3 不仅能生成高质量视频，还能理解视频中的原始像素，自动生成与画面同步的对话、多种音效。

翻译成中文——

只用一个提示词，你就能得到画面+ 对白+唇动对齐+拟音音效 一气呵成的视频。

提示语：90 年代酒吧里的情景喜剧场景，背景墙上的霓虹灯写着「fofr」。一对夫妇说了些什么，观众大笑起来。

对白生成、唇动对齐和情绪音效（观众笑声），一气呵成

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · #听见微博# #微博声浪计划# 本期“TAI快报”深入探讨了AI-20250606205314

12 小时前

量子位 · 4位图灵奖得主布道，2大冠军机器人登台，“AI春晚”果然又高又硬

11 小时前

机器之心 · 免费约饭！美国CVPR 2025，相聚机器之心人才晚宴

19 小时前

云技术 · 20万元，DeepSeek系统硬件及AI服务项目：联信数科中标

23 小时前

云技术 · 20万元，DeepSeek系统硬件及AI服务项目：联信数科中标

23 小时前

机器之心 · OpenAI久违发了篇「正经」论文：线性布局实现高效张量计算

昨天

潮音乐 · 这些流行金曲里是否有你的青春？

8 年前

人民日报 · 海军首次举行授剑仪式，来看看真正的帅是怎样的！

8 年前

美好滁州 · 滁州这2名党员干部被立案侦查

8 年前

上海发布 · 市委深改组会议定了：今年上海自贸区要推进这24项重点工作……

8 年前

刘晓博说楼市 · 节后，股市将这样走！（汪洋接见马斯克，特斯拉要在华寻找合作伙伴？这些个股可能有大机会）

8 年前

移动版

51好读 - 微信公众号文章