视频的ChatGPT时刻什么时候到来?其实我们还有很长的路要走,需要回答以下几个问题:1 当前的扩散架构是否适用于视频?今天的视频模型是基于扩散模型搭建的:它们基本原理是生成帧,并试图在它们之间创建时间一致的动画(有多种策略可以做到这一点)。他们对3D空间和对象应该如何交互没有内在的理解,这解释了warping / morphing。2 优质训练数据从何而来?与其他模态模型相比,训练视频模型更难,这主要是因为视频模型没有那么多高质量的训练数据可供学习。语言模型通常在公共数据集(如Common Crawl)上进行训练,而图像模型则在LAION和ImageNet等标记数据集(文本-图像对)上进行训练。视频数据更难获得。虽然在YouTube和TikTok等平台上不乏公开可访问的视频,但这些视频没有标签,也不够多样化。3 这些用例将如何在平台/模型之间进行细分?我们在几乎每一种内容模态中看到的是,一种模型并不是对所有用例都「取胜」的。例如,MidTrik、Idegraph和Dall-E都有不同的风格,并擅长生成不同类型的图像。如果你测试一下今天的文本到视频和图像到视频模式,就会发现它们擅长不同的风格、运动类型和场景构成。提示:Snow falling on a city street, photorealisticGenmoRunwayStable Video DiffusionPika Labs谁将主导视频制作的工作流程?而在许多产品之间,来回是没有意义的。除了纯粹的视频生成,制作好的剪辑或电影通常需要编辑,特别是在当前的范例中,许多创作者正在使用视频模型来制作在另一个平台上创建的照片的动画。从Midjourney的图像开始,在Runway或Pika上制作动画,然后在Topz上进行升级的视频并不少见。然后,创作者将视频带到CapCut或Kapwing等编辑平台,并添加配乐和画外音,通常是在Suno和ElevenLabs等其他产品上生成的。参考资料:https://a16z.com/why-2023-was-ai-videos-breakout-year-and-what-to-expect-in-2024/