正文
用李彦宏的话来说:“生成式AI与搜索是天作之合。”在此背景下,AI搜索成为了行业的焦点,特别是以AI搜索为核心功能的Perplexity,其估值不断创新高,吸引了OpenAI、谷歌等科技巨头的积极布局,掀起了年初AI搜索的热潮。
在AI搜索的初期,它更多被视为独立产品,主要功能集中在提供搜索服务上。像秘塔AI、天工AI等公司,采取了“传统搜索引擎+AI”的方式。用户在输入框中输入问题,AI则会从网页内容中读取并进行总结。
这种模式面临着高成本的挑战,尤其是对于没有搜索引擎基础的公司,他们不得不投入大量资源来建立或购买URL搜索库。随着百度、谷歌等传统搜索引擎纷纷加入AI功能,AI搜索的创业公司逐渐失去了竞争优势。
面对这种困境,AI搜索产品开始寻求差异化。腾讯和字节跳动通过借助各自独有的内容生态(抖音和公众号),将AI搜索融入自家的AI助手中,这种策略让它们能够利用现有的庞大用户基础和内容生态,避免了传统搜索引擎的激烈竞争,找到自己独特定位。
更像人的AI语音
使人工智能能够像人类一样进行自然对话,一直是评估其能力的关键标准,许多人梦想拥有一个类似《钢铁侠》中的贾维斯智能助手。
然而,当前的交互方式仍主要依赖文本。基于此发展起来的音频大模型,实际上是将语音转化为文字,由大模型进行理解和生成,再将生成的文字转换为语音输出。在这一过程中,不可避免地遇到一些文字交互特有的问题,例如对方言的理解困难、情绪识别的不准确,以及用户在对话中途无法有效打断等问题。
在5月OpenAI春季新品发布会上展示了ChatGPT的高级语音模式后,AI语音交流能力的巨大进步引起了广泛关注。
今年八月,火山引擎用一场发布会展示了豆包支持情感理解和对话中断等功能的AI语音技术,到了十月,智谱也推出端到端语音模型,主打人机交流能够像日常对话一样进行。
这一突破得益于BigTTS技术和RTC(实时通信)技术的支持。BigTTS技术赋予AI更加丰富的情感和语调,使其语音输出更加生动自然;RTC技术则大幅降低了中英混合对话时的延迟,提升了实时交互的流畅性。此外,通过Seed-TTS技术,AI能够快速克隆样本声音的特征,实现场景中更加个性化和逼真的语音输出。
AI视频正在变成生产力工具
在OpenAI于2024年2月15日发布AI视频技术之前,AI视频仍处于实验和抽象阶段,能够实现如PPT一样的背景变化就已被视为领先,代表性的AI软件和公司包括Runway、Pika等。
然而,Sora的出现大大提升了人们对AI视频的期望,scaling law被证实在视频领域也有效,于是各大公司开始投入AI视频,争相在时长、画面运镜、风格和画质上“卷”出更多差异。
然而,AI视频最大的问题在于商业化,这也不被不少人认为是Sora迟迟不发布的原因。恰逢短剧市场火爆,并且短剧在制作上不需要天衣无缝的画面,契合一致性不强的AI视频,抖音快手开始尝试AI+短剧的模式,借此宣传自家AI视频软件。抖音《三星堆:未来启示录》和快手《山海奇镜之劈波斩浪》分别在各自平台获得了1.35亿和5200万的播放量。
就在国内AI视频卷成一锅粥,各种免费应用频出,但并没有一款AI视频软件有清晰盈利模式之余,9月一条名厨戈登·拉姆齐在厨房里“炼丹”的,由Minimax旗下海螺AI生成段子视频,风靡海外社交平台。
这种现象在海外媒体的标题中被称作“中国应用在AI视频领域取得早期胜利”。在Sora尚未正式推出之时,可灵、PixVerse、Vido等AI视频软件疯狂抢占海外市场,创业公司纷纷开设海外办事处,MiniMax旗下的Talkie全球月活跃用户数已达1100万。
AI视频商业化的关键在于把软件卖出去,尤其是在“最佳”AI视频sora还处于画饼阶段。而相较于付费意愿不强的国内市场来说,海外用户付费习惯更好,市场空间明显更大。
为了让AI视频更有生产力,而不是停留在整活视频。AI视频短剧平台产品出现,进一步降低了AI短剧的制作门槛。这些平台将脚本创作、分镜设计、视频生成等短剧制作所需的各个步骤整合在同一个应用中,极大简化了创作流程。比如8月,昆仑万维发布全球首个集成视频大模型与3D大模型的AI短剧平台SkyReels,让创作者“一键成剧”。