专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯科技

万字解构“幻觉陷阱”:大模型犯的错,会摧毁互联网吗?丨AGI之路04期

腾讯科技  · 公众号  · 科技媒体  · 2025-03-06 12:41

正文

请到「今天看啥」查看全文


腾讯科技: 请问李维老师,您认为在什么样的场景下,大模型容易产生幻觉?比如在提供论文信息时,它为什么能够清楚地提供一个虚假的论文标题和作者?
李维: 大模型在涉及具体实体(如人名、地名、书名、标题、时间、地点等)时最容易出错,这其实和人脑有相似之处,我们也往往记不住所有细节。大模型在消化数据时采用的是一种抽象过程,它试图从大量数据中找出各种规律,而不是记录所有细节。习惯性说谎者除外,人类记不住事实的时候,就说自己忘了或者添加“好像、可能”等不确定的语气。而现在的语言大模型与此不同,它“记不住”事实的时候,就会编造读起来似乎最顺畅的细节。
胡泳: 长期以来,我一直关注知识生产的过程,尤其是当前知识的生产方式。 随着技术发展,专家的权威正在逐步下降 。尤其是在中国,专家的角色常常被批评和质疑,甚至有时被讽刺为“砖家”。
这种“专家之死”的观念在全球范围内流行了很久。许多人认为像ChatGPT这样的技术是“专家终结者”,因为它能够为各行各业提供看似专业的内容。 很多人因此认为专家的作用在大模型出现后变得不再重要。但这种现象潜藏着巨大的危险。
李维老师提到,像ChatGPT这样的模型容易误导人,因为 它试图展现一种“准权威”的风格 ,实际上却无法避免错误和偏见。 它的危险之处在于,当无法区分真伪时,它会自信地给出错误的答案,看似可信,实际上却可能误导了用户 。因此,在使用这些大模型时,第一法则应该是怀疑而非盲信。大模型的开发者也已经意识到这一点,并提醒用户对其结果保持警觉。
回到刚才的观点, 虽然大模型降低了专家的门槛,但它实际上提高了真正成为专家的门槛。 大量并不精通某一领域专业知识的普通人现在可以通过复制粘贴的方式给出看似令人印象深刻的内容。 这加剧了普通人之间的竞争,同时使得真正的专业知识竞争相对减弱 。这意味着那些具有表面知识而缺乏深入理解的人,可能会在某些领域获得更多的影响力和话语权。
李维: 但从另一个方面来看, 大模型的“幻觉”其实是它抽象能力的体现 。也可以理解为一种类似想象力的表现。

例如,新闻记者撰写报道时,如果提供了虚假的信息,意味着不诚实;但小说家创作故事时,所有人物、时间和地点都可以是虚构的,这是创作的自由。大模型的情况类似于小说家,它编造“事实”其实是它学到的想象力的产物。

如何应对大模型的“幻觉”?

腾讯科技: 所以大模型既像“新闻记者”,也像“小说家”;它既要遵循客观事实,又具备一定想象力。各位认为 作为“非专家”应该怎样识别大模型在何时扮演“记者”的角色,何时又充当“小说家”的角色 ?尤其是现在推理模型能够在短时间内给出大量答案,并引用数十个甚至上百个来源。作为非专家,如何理性怀疑这些结果?

胡泳: 不管它引用多少个来源,给出多么雄辩的数据, 依然要把怀疑放在首位
李维: 我认为这是一个平衡的问题。许多人刚接触大模型时容易被它流畅的表达和广博的知识面所迷惑。特别是当你对某一领域不熟悉时,很容易被误导。因此,从大众的角度来说, 怀疑的态度、保持警惕并核对信息是必要的 。不过也需要找到一种平衡。如果你始终保持全盘怀疑,就无法最大化利用大模型的价值。
对于深入使用大模型的专业人士来说,他们会发现大模型的确有其独到之处,可以迅速融会贯通大量知识,如果持怀疑一切的态度,可能会错失具有启发性的观点。我认为一个人随着使用大模型逐渐深入,能逐渐找到辨别真伪的感觉。一般来说,大模型的整体框架和逻辑通常更合理;但涉及 某个具体事实的论述时则要保持警惕
腾讯科技: 很多学生,甚至一些小朋友开始使用大模型来获取知识或帮助写作,天昊怎么看待这种现象?
陈天昊:大家的共识是,大模型本质上是一个语言模型。虽然因为出色的自然语言处理能力,AI大模型已经扩展到包括法律、医学在内的许多领域,但它仍然只是一个“语文特别好”的工具,不能完全代替专业人士。所以 本质上的问题是,我们的期待与现实是错配的
腾讯科技: 那么像儿童、老年人这样特殊群体,或在法律、医学这样的严肃场景下,是否需要限制其使用?
陈天昊: 其实现在已经有相关的工作了。例如法律这样的垂直领域,有些企业会使用自身长期积累的法律数据库与更强大的底层大模型,从而提高输出的准确性。

至于儿童的使用,情况就更复杂了。针对未成年人肯定需要更严格的内容筛查与引导。这更多是产品侧的问题。

大模型的“幻觉”

不应该被称之为“幻觉”?

腾讯科技: 您之前提到认为“幻觉”这个词不太好,如果不叫它大模型幻觉,应该怎么称呼?

胡泳: 在人工智能中,有一个参数叫“温度”,与创造力的设置有关。创造力高时,模型就容易做出较为天马行空的猜测;设置较低时,则会根据数据集提供更准确的回答。这也是大语言模型使用起来有趣的地方。所以平衡创造力与准确性,实际上是使用大模型时的一大挑战。
所以我个人一直认为,大模型幻觉这种现象不能一概而论。对于事实性问题,幻觉应该被摒弃,但如果是涉及想象力的领域,特别是娱乐性内容,幻觉则可以成为一个有用的提升创造力的工具。
李维: 能够编造故事、虚构事实,这也是人类智慧的一部分,而且是很关键的能力。赫拉利在《人类简史》中提到,人类的文明发展正是依赖于“讲故事”的能力,能够编造神话、宗教、理想,甚至情怀,这些形而上的东西。正是这种能力,才使得人类能够组织庞大的群体合作,战胜所有动物,成为地球的主宰。
腾讯科技: 虽然我们称之为“大模型幻觉”,但事实上,大模型并不能真正理解人类的语言。我们有时是否高估了大模型的能力, 并且对其赋予了过多的拟人化评价?
李维: 的确,我们关于大模型的所有用词都是在拟人化的基础上进行的。人工智能实质是机器智能,只是在模拟人类智能。AI的一切行为,无论翻译、摘要、创作、解题、问答、聊天、自动驾驶,这些用词都是拟人的,只是电路和模型在运行。大模型的智能表现和回应,本质是基于概率模型进行的。但大模型爆发以来,我们都看到了,它的拟人的智能表现非常出色,以至于从行为上看,已经真假莫辨。这就是业界常说的,现代的大模型已经通过了“图灵测试”。
腾讯科技: 从人类的角度来看,主动说谎与无意识的错误是有本质区别的。而目前的大模型其实并不具备主动说谎的能力,是否可以这么理解?






请到「今天看啥」查看全文