专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
目录
相关文章推荐
新浪科技  ·  【#研究称每日2.5杯咖啡最佳##研究称咖啡 ... ·  7 小时前  
新浪科技  ·  【#霸王茶姬涨近10%#】美东时间周一,美股 ... ·  10 小时前  
虎嗅APP  ·  零公里二手车,大部分出国了 ·  22 小时前  
新浪科技  ·  【大片领跑,#端午档票房超3.8亿元#】 ... ·  昨天  
51好读  ›  专栏  ›  腾讯研究院

腾讯司晓:大模型时代,内容产业智变新浪潮

腾讯研究院  · 公众号  · 科技媒体  · 2025-05-30 15:00

正文

请到「今天看啥」查看全文


多模态大模型技术持续突破,生成效率与质量显著提升。 以腾讯混元为例,其文生图能力在一年内实现跨越式升级:混元图像2.0支持边输入文字边实时生成图像,用户可即时调整美术风格、特效等视觉元素,相较此前需等待完整生成后再修改的模式大幅优化。文生视频领域同样进步明显,2023年,有网友利用AI工具仅用5晚便完成《流浪地球3》“概念预告片”制作,引发导演郭帆关注。到今天,主流模型如混元、可灵到刚刚发布的谷歌Veo3,已经逐步有效解决手部穿模等画面缺陷,生成视频的连贯性与物理模拟能力显著增强,甚至可以为画面同时匹配准确的人声和音效。面向影视生产的Flow等专业工具及国内同类软件已实现脚本、分镜、镜头控制等多项专业能力集成,展现惊人进化速度。
在文生图片的扩散模型基础上,叠加深度参数则升级为3D生成。腾讯在文生3D领域有诸多创新:混元3D生成模型2.5版本较上一版本,总参数量提升了10倍,能够实现超高清的几何细节建模。我们的同事已通过文生3D功能结合家用3D打印机,制作出原创玩具模型。未来,用户不仅可以购买创意服务,更能自主构思创意,通过家用打印机直接输出。
大模型对世界的理解与交互能力也在增强。我曾将手机作为GPT-4o大模型的“眼睛”,问它窗台上有几个公仔。它不仅准确回答了类型和数量——四个腾讯公仔,还在追问下识别出后方隐藏的一只兔子。尽管大模型的理解能力并非人类意义上的物理世界认知,但其基于视觉与推理能力的实现方式已具突破性——例如谷歌最新发布的通用AI智能体项目Project Astra,便如同钢铁侠的个人助理,可通过眼镜或手机指导洗衣等日常操作,并与现实世界实现更自然交互。这些未来硬件与大模型结合的创新,必将为我们的生活带来更多便利。
虽然我不是技术专家,对技术细节了解有限,但反而更能跳出细节去审视大模型当前的缺陷。现阶段,用户对大模型部分能力的不满, 本质上源于对其"许愿"般的进化期待 ——按照当前的进化节奏,诸多技术瓶颈将在未来最长以年、最短以月为单位的时间尺度内被突破。因此,AI在文化内容领域的应用前景更加值得期待。

效率革命:从"人力堆砌"到"智能涌现"的内容生产新范式

技术变革对文化内容生产范式带来的影响是广泛而深远的。
大模型不仅让知识触手可及,更大幅降低了表达能力的门槛。用户无需深入学习专业理论和工具技法,即可创作出以假乱真的图片、视频甚至电影等复杂形态内容。当然,创意本身也变得易得:例如,当写作遇阻时,可让大模型生成多个后续版本,从中选择和优化内容,度过灵感“枯竭期”。未来,阅文等平台上的网络文学创作可能形成模式进化:从读者逐章追更,到可主动“许愿”希望剧情如何发展,结合大模型的无限表达与创意涌现能力,使创作正真正进入“千人千面”的全新时代。






请到「今天看啥」查看全文