专栏名称: InfoQ
有内容的技术社区媒体。
目录
相关文章推荐
新浪科技  ·  【#白象就多半发声明#】#白象申请多半袋多半 ... ·  15 小时前  
新浪科技  ·  #口碑最好的iPhone诞生5年前#【#iP ... ·  昨天  
雷科技  ·  红米这机子,价格血崩了! ·  2 天前  
51好读  ›  专栏  ›  InfoQ

文心X1/4.5 Turbo深度测评:真干活 AI,又强又全!

InfoQ  · 公众号  · 科技媒体  · 2025-04-25 18:48

正文

请到「今天看啥」查看全文


笔者在文心一言上提交了一个任务,即「⼈到 30 岁时,心态会产生⼀些变化,以“看山还是山”为题,写⼀篇符合 30 岁⼈生感悟的文章」,仅 30 秒就输出一份 1000 多字的内容。

实测内容:

实测结果: 文章完整性高、结构清晰(总-分-总)、语⾔有深度,并且语句优美、有细节。内容深度远超普通 AI,能够让笔者产生共鸣,例如这一段“在经历了迷茫与挣扎后,三十岁的我们,终于在岁月的沉淀中迎来了心态的升华……我们不再执着于将山定义为某种特定的模样,而是学会了接纳它的全部。”

笔者认为,文心 4.5 Turbo 的文本生成 / 创造能力或许已达到商用级别,逻辑连贯性、情感表达优于 GPT 4.1。

案例二:视频内容理解与续写

上面的任务还是太简单了,开始上难度。

笔者察觉,自步入三十岁门槛之后,每日的生活轨迹便局限于公司与住所的两点一线之间,就好像电影《楚门的世界》一样,仿佛一切均已预先编排。为此,笔者上传了一段时长 57 秒的《楚门的世界》经典结尾片段,并抛出一个创作任务——「根据这部电影之前的情节,续写结尾,要求深刻、 有创意、出⼈意料且合情合理」。

实测内容:

实测结果: 文心 4.5Turbo 展现了出色跨模态信息融合与深度关联能力,能结合视觉与文本信息进行创作。

例如能准确识别视频中的关键隐喻元素(如人造天空、导演控制室),续写内容在保持原作黑色幽默风格的同时,提出合理的情节发展(笔者认为续写结局虽非惊艳,但合理)。这种水平的视频理解能力,或许已能满足短视频平台 70% 以上的自动化内容生产需求。

基于前述两个案例的测评分析,笔者对文心大模型的技术能力形成了更为明确的认知框架。在此基础上,现将测评视角转向另一款新模型——文心大模型 X1 Turbo。

基于文心 4.5 Turbo,X1 升级到 X1 Turbo,性能提升的同时,具备更先进的思维链,问答、创作、逻辑推理、工具调用和多模态能力进一步增强。技术亮点之一就是打造了“数据挖掘与合成 - 数据分析与评估 - 模型能力反馈”的数据建设闭环,为模型训练源源不断地生产知识密度高、数据多样、领域覆盖广的大规模数据,同时,数据建设流程具备良好的可扩展性,可轻松迁移到全新的数据类型,实现快速、高效的数据生产。

按照惯例,笔者也测了 2 个典型的案例,分别从深度思考和多工具调用角度来看一下效果。

案例三:深度思考与锐评能力

今年五一假期马上来临,笔者在文心一言上输入「请锐评下五一期间各大景区人从众的现象」问题,仅仅 30 秒就给出了答案。

实测内容:

实测结果:

从现象背后的供需失衡、矛盾凸显带来的双重挑战、破局之道 3 个维度进行锐评。并且还给出了结论:五一景区“人从众”现象,既是旅游市场复苏的喜讯,也是行业转型的警钟。通过供需两端协同发力,制度与技术双轮驱动,才能让旅游业从“流量狂欢”走向“质量发展”。







请到「今天看啥」查看全文