专栏名称: MacTalk
MacTalk 开通于2012年末,内容起于 Mac 而不止 Mac,内容覆盖了技术、创业、产品和人文思考。文风有趣,又有一点力量。相关图书《MacTalk·人生元编程》《MacTalk·跨越边界》
目录
相关文章推荐
51好读  ›  专栏  ›  MacTalk

那个能打的百度,今天回来了。

MacTalk  · 公众号  · 科技自媒体  · 2025-03-16 09:39

正文

请到「今天看啥」查看全文


后来 GPT-4o 发布,你记得吧,当时大家对它的多模态能力给出了很高的评价。而 GPT-4o 就是一个原生的多模型基础大模型,Gemini 2.0 也是。原生多模态大模型指的是在一个模型之内,完成对不同模态内容的统一。就像我们人一样,听说读写,本身就是一体多面的能力。
文心 X1 则是一款能力更全面的深度思考模型,虽然文心 4.5 的能力已经非常惊艳,但我测试下来,感觉 X1 在复杂图片理解及推理任务上效果还会更好,并且,X1 的文笔也非常不错。
百度的大模型我一直在用。年前我曾写过一篇文章,聊到了他们的 RAG 技术。如果研究大模型的话,你会知道 RAG 是个基本功,百度在这块有相当深厚的积累,自研了一套兼顾搜索和大模型的增强检索系统,以此来降低大模型的幻觉。
事实上,百度大模型的优势之一是幻觉很少。这次发布的 4.5 和 X1 更是如此。我曾经测评行业的几款大模型,问他们董宇辉目前的粉丝数。其他几款模型都直接引用了另外一篇老旧文章中的数据,而文心则是去董宇辉的抖音页面拿了最新的数据。
我们直接上测评吧,今天我话太多了。
上周一,我曾经发过一篇 Notion 创始人的访谈。那篇文章我是用 DeepSeek R1 翻译的。刚刚我扔进去同样的段落和提示词,发现文心 X1 的表现更好。DeepSeek R1 翻译文章时,有个毛病,总喜欢大范围地修改表达,哪怕我指令里明确说了原汁原味的翻译,它也不听。所以,那天有用户猜测我是用 DeepSeek 翻译的,因为语言风格太像了。
下面是文心 X1 的翻译,我认为这个会更符合预期的效果。你要是感兴趣,可以去我 Notion 那篇文章中找下对应的段落对比看看。
如果翻译看不出来,我们继续看看文字续写。我仍然对比下 DeepSeek R1。下面是除夕那天时,我让 DeepSeek R1 续写的话,你感受下:






请到「今天看啥」查看全文