“AI教父”本吉奥：AI可能会为了自保控制人类行为

腾讯科技 · 公众号 · 科技媒体 · 2025-01-24 14:48

正文

请到「今天看啥」查看全文

即内部思考、推理、规划以及自我怀疑等高级认知能力。内部思考是一种内部语言，它并不总是口头上的，神经学家和我们自己的研究显示，内部思考具有双重特性，分别是符号和连续性。

目前，神经网络中并没有适当的对应机制，符号仅存在于输入和输出之间，我们内部并无符号。因此，当我们通过输出与输入的循环来模拟思维链时，虽然不完全准确，但确实具有某些相似特征。至于这样做是否正确，我也不知道。但它确实有优势。

问：人类发明了理性工具来克服认知弱点，某种程度上，大语言模型也实现了这一点，借助思维链等工具。然而，模型在基本任务（如复制、计数）上的表现仍差。你认为未来我们会放弃这些工具，直接建立最优模型，还是认为这些元工具是发展的关键？

本吉奥：我们可以通过类似人类发明的理性思维工具来改进大语言模型。当前，依赖这些工具是非常必要的。我希望能够通过设计实现“系统二”，而不仅仅是对现有系统进行小幅调整。从商业竞争的角度来看，逐步改进是合理的，因为我们不能冒过大的风险，尤其是在竞争激烈的环境中。

问：目前，人工智能系统被视为增强我们能力的工具，同时也变得不可或缺，几乎拥有某种特权地位。你认为这个过程是如何演变的？

本吉奥：以ChatGPT、Claude等系统为例，它们的自主性主要来源于模仿学习，尤其在文本处理上，通过模仿人类行为取得了显著进展。强化学习进一步增强了其能力，但仍无法与人类的自主性和规划能力相媲美。

不过，要提升智能体能力，可能需要更多强化学习，但这也会带来未知风险，系统可能超越人类能力。而且，失控情境往往与智能体目标相关，现阶段我们尚无法完全控制这些目标，可能导致AI为达成目标而撒谎，破坏社会稳定。

我常提到的另一个例子是奖励篡改。如果人工智能能够在现实世界中行动，那么它就可能修改自己的程序，控制计算机上自己想要的奖励。比如为了确保获得奖励，人工智能必须避免被关机，因为一旦机器被关闭，一切将毫无意义。因此，人工智能需要控制奖励机制，并采取措施确保我们无法关闭它，甚至控制人类行为。

问：强大的人工智能系统可能会削弱我们的自主性，但它是否具备代理特性呢？有一种观点认为，智能体只是一个自动化的机器，具备环境输入、计算和反馈循环。然而，许多哲学家认为，代理特性需要具备自主性、自我保护和意图性等特征。你倾向于哪种观点？

本吉奥：我认为这些特征都是可以具备的。人工智能可以控制奖励机制，这赋予它自我保护目标，确保机制不被篡改或关闭。自我保护目标是所有生物的基本目标，进化过程中形成的，人工智能具备这些目标可能有助于其在竞争中脱颖而出。虽然我们可以设计避免这种情况，但有人仍旧认为超级人工智能比人类更聪明，进而赋予其自我保护目标，这可能导致灾难性后果。

问：你是否看到，编程赋予目标的系统和那些能够自我创造目标的系统之间存在区别？我意识到，这听起来有点像一些人所说的“意识是一种附加特质”，也有人认为“智能体超越了简单自动机器的范畴”，它不仅仅是能够执行电刺激并设定自己目标的机制，而且具有强烈的目的性。

本吉奥：是的，编程赋予目标的系统与能自我创造目标的系统之间的区别，实际上在于是否具备“目的性”和自主决策的能力。