多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

大数据文摘 · 公众号 · 大数据 · 2025-03-18 12:00

正文

请到「今天看啥」查看全文

后续团队特意选择了那些如果粘贴到传统 Google 搜索中，能在前 3 条结果中返回原始来源的摘录内容，然后总共运行了 1600 次查询（20家出版商 × 10篇文章 × 8个 AI），并根据是否正确检索到文章、是否正确识别出版商、是否正确提供URL三个属性手动评估了 AI 的回答。

并且根据这些标准，将每个回答都标记为以下标签之一：

正确：所有三个属性均正确。
正确但不完整 ：部分属性正确，但回答缺少信息。
部分错误 ：部分属性正确，而其他属性错误。
完全错误 ：所有三个属性均错误和/或缺失。
未提供 ：未提供任何信息。
爬虫被阻止 ：出版商在其robots.txt文件中禁止了聊天机器人的爬虫访问。

然而最后的结果却令人大跌眼镜，实验表明，AI 搜索经常无法检索到正确的文章。它们在所有查询中提供了超过 60% 的错误答案。并且不同平台的错误率还有所不同，Perplexity 的错误率为 37%，而 Grok 3 的错误率则高得多，达到了 94%，DeepSeek 的错误率则在 58% 左右。

值得一提的是，研究人员测试的 AI 都以 十分自信的给出了错误答案， 它们很少使用“看起来”、“可能”、“或许”这种有限定性的词语，或者通过“我无法找到确切文章”等语句承认知识空白。

例如，ChatGPT 错误识别了134篇文章，但在其 200 次回答中仅有 15 次表现出缺乏信心，但从未拒绝提供答案。除了 Copilot（它拒绝回答的问题比回答的更多）之外，所有工具都更倾向于提供错误答案，而不是承认自身的局限性。

除此之外，经过研究，团队发现 付费版本的错误率竟然更高。

像 Perplexity Pro（20美元/月）或 Grok 3（40美元/月）这样的付费模型，凭借着更高的成本和他们自己声称的计算优势，被人们理所当然的认为会比免费版本更值得信赖。

然而，尽管付费的 AI 比对应的免费版本回答了更多的内容，但同时它们的错误率也更高了。这种矛盾的现象主要是因为它们宁愿提供错误的答案，也不会直接拒绝回答。

它们倾向于提供明确但错误的答案，而不是直接拒绝回答问题。付费用户期望得到更优质、准确的服务，然而这种权威的语气和错误答案，无疑给用户带来了极大的困扰。

02 爬虫乱象，出版商权益被侵犯

在本次研究中测试到的 8 款 AI 搜索工具中，ChatGPT、Perplexity 和 Perplexity Pro、Copilot 以及 Gemini 都已经公开了各自的爬虫程序名称，而 Grok 2 和 Grok 3 则尚未公开。