文心X1/4.5 Turbo深度测评：真干活 AI，又强又全！

InfoQ · 公众号 · 科技媒体 · 2025-04-25 18:48

正文

请到「今天看啥」查看全文

笔者在文心一言上提交了一个任务，即「⼈到 30 岁时，心态会产生⼀些变化，以“看山还是山”为题，写⼀篇符合 30 岁⼈生感悟的文章」，仅 30 秒就输出一份 1000 多字的内容。

实测内容：

实测结果： 文章完整性高、结构清晰（总－分－总）、语⾔有深度，并且语句优美、有细节。内容深度远超普通 AI，能够让笔者产生共鸣，例如这一段“在经历了迷茫与挣扎后，三十岁的我们，终于在岁月的沉淀中迎来了心态的升华……我们不再执着于将山定义为某种特定的模样，而是学会了接纳它的全部。”

笔者认为，文心 4.5 Turbo 的文本生成 / 创造能力或许已达到商用级别，逻辑连贯性、情感表达优于 GPT 4.1。

案例二：视频内容理解与续写

上面的任务还是太简单了，开始上难度。

笔者察觉，自步入三十岁门槛之后，每日的生活轨迹便局限于公司与住所的两点一线之间，就好像电影《楚门的世界》一样，仿佛一切均已预先编排。为此，笔者上传了一段时长 57 秒的《楚门的世界》经典结尾片段，并抛出一个创作任务——「根据这部电影之前的情节，续写结尾，要求深刻、有创意、出⼈意料且合情合理」。

实测内容：

实测结果： 文心 4.5Turbo 展现了出色跨模态信息融合与深度关联能力，能结合视觉与文本信息进行创作。

例如能准确识别视频中的关键隐喻元素（如人造天空、导演控制室），续写内容在保持原作黑色幽默风格的同时，提出合理的情节发展（笔者认为续写结局虽非惊艳，但合理）。这种水平的视频理解能力，或许已能满足短视频平台 70% 以上的自动化内容生产需求。

基于前述两个案例的测评分析，笔者对文心大模型的技术能力形成了更为明确的认知框架。在此基础上，现将测评视角转向另一款新模型——文心大模型 X1 Turbo。

基于文心 4.5 Turbo，X1 升级到 X1 Turbo，性能提升的同时，具备更先进的思维链，问答、创作、逻辑推理、工具调用和多模态能力进一步增强。技术亮点之一就是打造了“数据挖掘与合成 - 数据分析与评估 - 模型能力反馈”的数据建设闭环，为模型训练源源不断地生产知识密度高、数据多样、领域覆盖广的大规模数据，同时，数据建设流程具备良好的可扩展性，可轻松迁移到全新的数据类型，实现快速、高效的数据生产。

按照惯例，笔者也测了 2 个典型的案例，分别从深度思考和多工具调用角度来看一下效果。

案例三：深度思考与锐评能力

今年五一假期马上来临，笔者在文心一言上输入「请锐评下五一期间各大景区人从众的现象」问题，仅仅 30 秒就给出了答案。

实测内容：

实测结果：

从现象背后的供需失衡、矛盾凸显带来的双重挑战、破局之道 3 个维度进行锐评。并且还给出了结论：五一景区“人从众”现象，既是旅游市场复苏的喜讯，也是行业转型的警钟。通过供需两端协同发力，制度与技术双轮驱动，才能让旅游业从“流量狂欢”走向“质量发展”。