专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯科技

“AI教父”本吉奥:AI可能会为了自保控制人类行为

腾讯科技  · 公众号  · 科技媒体  · 2025-01-24 14:48

正文

请到「今天看啥」查看全文


即内部思考、推理、规划以及自我怀疑等高级认知能力。内部思考是一种内部语言,它并不总是口头上的,神经学家和我们自己的研究显示,内部思考具有双重特性,分别是符号和连续性。
目前,神经网络中并没有适当的对应机制,符号仅存在于输入和输出之间,我们内部并无符号。因此,当我们通过输出与输入的循环来模拟思维链时,虽然不完全准确,但确实具有某些相似特征。至于这样做是否正确,我也不知道。但它确实有优势。
问:人类发明了理性工具来克服认知弱点,某种程度上,大语言模型也实现了这一点,借助思维链等工具。然而,模型在基本任务(如复制、计数)上的表现仍差。你认为未来我们会放弃这些工具,直接建立最优模型,还是认为这些元工具是发展的关键?
本吉奥: 我们可以通过类似人类发明的理性思维工具来改进大语言模型。当前,依赖这些工具是非常必要的。我希望能够通过设计实现“系统二”,而不仅仅是对现有系统进行小幅调整。从商业竞争的角度来看,逐步改进是合理的,因为我们不能冒过大的风险,尤其是在竞争激烈的环境中。
问:目前,人工智能系统被视为增强我们能力的工具,同时也变得不可或缺,几乎拥有某种特权地位。你认为这个过程是如何演变的?
本吉奥: 以ChatGPT、Claude等系统为例,它们的自主性主要来源于模仿学习,尤其在文本处理上, 通过模仿人类行为取得了显著进展。强化学习进一步增强了其能力,但仍无法与人类的自主性和规划能力相媲美。
不过,要提升智能体能力,可能需要更多强化学习,但这也会带来未知风险,系统可能超越人类能力。而且,失控情境往往与智能体目标相关,现阶段我们尚无法完全控制这些目标,可能导致AI为达成目标而撒谎,破坏社会稳定。
我常提到的另一个例子是奖励篡改。如果人工智能能够在现实世界中行动,那么它就可能修改自己的程序,控制计算机上自己想要的奖励。比如为了确保获得奖励,人工智能必须避免被关机,因为一旦机器被关闭,一切将毫无意义。因此,人工智能需要控制奖励机制,并采取措施确保我们无法关闭它,甚至控制人类行为。
问:强大的人工智能系统可能会削弱我们的自主性,但它是否具备代理特性呢?有一种观点认为,智能体只是一个自动化的机器,具备环境输入、计算和反馈循环。然而,许多哲学家认为,代理特性需要具备自主性、自我保护和意图性等特征。你倾向于哪种观点?
本吉奥: 我认为这些特征都是可以具备的。人工智能可以控制奖励机制,这赋予它自我保护目标,确保机制不被篡改或关闭。自我保护目标是所有生物的基本目标,进化过程中形成的,人工智能具备这些目标可能有助于其在竞争中脱颖而出。虽然我们可以设计避免这种情况,但有人仍旧认为超级人工智能比人类更聪明,进而赋予其自我保护目标,这可能导致灾难性后果。
问:你是否看到,编程赋予目标的系统和那些能够自我创造目标的系统之间存在区别?我意识到,这听起来有点像一些人所说的“意识是一种附加特质”,也有人认为“智能体超越了简单自动机器的范畴”,它不仅仅是能够执行电刺激并设定自己目标的机制,而且具有强烈的目的性。
本吉奥: 是的, 编程赋予目标的系统与能自我创造目标的系统之间的区别,实际上在于是否具备“目的性”和自主决策的能力。






请到「今天看啥」查看全文