专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
51好读  ›  专栏  ›  大数据文摘

多款 AI 搜索引用错误率高达 60%,付费版本错误率更高

大数据文摘  · 公众号  · 大数据  · 2025-03-18 12:00

正文

请到「今天看啥」查看全文


后续团队特意选择了那些如果粘贴到传统 Google 搜索中,能在前 3 条结果中返回原始来源的摘录内容,然后总共运行了 1600 次查询(20家出版商 × 10篇文章 × 8个 AI),并根据是否正确检索到文章、是否正确识别出版商、是否正确提供URL三个属性手动评估了 AI 的回答。
并且根据这些标准,将每个回答都标记为以下标签之一:
  • 正确 :所有三个属性均正确。
  • 正确但不完整 :部分属性正确,但回答缺少信息。
  • 部分错误 :部分属性正确,而其他属性错误。
  • 完全错误 :所有三个属性均错误和/或缺失。
  • 未提供 :未提供任何信息。
  • 爬虫被阻止 :出版商在其robots.txt文件中禁止了聊天机器人的爬虫访问。
然而最后的结果却令人大跌眼镜,实验表明,AI 搜索经常无法检索到正确的文章。它们在所有查询中提供了超过 60% 的错误答案。并且不同平台的错误率还有所不同,Perplexity 的错误率为 37%,而 Grok 3 的错误率则高得多,达到了 94%,DeepSeek 的错误率则在 58% 左右。
值得一提的是,研究人员测试的 AI 都以 十分自信的给出了错误答案, 它们很少使用“看起来”、“可能”、“或许”这种有限定性的词语,或者通过“我无法找到确切文章”等语句承认知识空白。
例如,ChatGPT 错误识别了134篇文章,但在其 200 次回答中仅有 15 次表现出缺乏信心,但从未拒绝提供答案。除了 Copilot(它拒绝回答的问题比回答的更多)之外,所有工具都更倾向于提供错误答案,而不是承认自身的局限性。
除此之外,经过研究,团队发现 付费版本的错误率竟然更高。
像 Perplexity Pro(20美元/月)或 Grok 3(40美元/月)这样的付费模型,凭借着更高的成本和他们自己声称的计算优势,被人们理所当然的认为会比免费版本更值得信赖。
然而,尽管付费的 AI 比对应的免费版本回答了更多的内容,但同时它们的错误率也更高了。这种矛盾的现象主要是因为它们宁愿提供错误的答案,也不会直接拒绝回答。
它们倾向于提供明确但错误的答案,而不是直接拒绝回答问题。付费用户期望得到更优质、准确的服务,然而这种权威的语气和错误答案,无疑给用户带来了极大的困扰。
02 爬虫乱象,出版商权益被侵犯
在本次研究中测试到的 8 款 AI 搜索工具中,ChatGPT、Perplexity 和 Perplexity Pro、Copilot 以及 Gemini 都已经公开了各自的爬虫程序名称,而 Grok 2 和 Grok 3 则尚未公开。






请到「今天看啥」查看全文