专栏名称: 图灵人工智能

人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。

刚刚，图灵奖得主Bengio官宣创业！急筹3000万专治AI欺骗人类，图灵三巨头全下场

图灵人工智能 · 公众号 · · 2025-06-05 00:00

正文

目前，LawZero正在研发一种名为「Scientist AI」的全新方法，这是一种和当下AI公司截然不同的系统。

Scientist AI是非自主型的，其主要目标是学习理解世界而非在世界中采取行动。

论文地址：https://arxiv.org/pdf/2502.15657

科幻作家阿西莫夫曾经提出过机器人三定律，并在1985年补充了「第零定律」：机器人不得伤害整体人类，或坐视整体人类受到伤害。

LawZero的成立，也代表了Yoshua Bengio对于AI技术发展的态度——安全至上，至此深度学习三巨头全部下场。

Geoffrey Hinton持续公开呼吁警惕AI的潜在风险，警告AI技术若失控可能带来的严重后果，一度辞去谷歌职务，以便更自由地表达他对AI安全问题的担忧。

Yann LeCun则对当前以LLM为代表的主流AI路径持批评态度，他认为LLM存在根本局限性，并无法真正通往通用人工智能之路。

迄今为止，LawZero已从包括生命未来研究所（Future of Life Institute）和开放慈善基金会（Open Philanthropy）在内的多个慈善机构筹集了3000万美元资金。

Yoshua Bengio创办LawZero，进一步强化了AI安全与伦理在业界的核心地位，Yoshua Bengio的自述展现了他「以人类福祉为核心」的理念。

Yoshua Bengio的自述

我正在创办一个新的非营利性人工智能安全研究机构，名为LawZero，目标是将安全置于商业利益之上。

这个机构的成立，是为了应对当前前沿AI模型展现出的越来越多危险能力和行为的证据，这些行为包括欺骗、作弊、说谎、黑客攻击、自我保护，甚至更广泛的目标偏离等问题。

LawZero的研究致力于在释放AI巨大潜力的同时，降低一系列已知风险发生的可能性，包括算法偏见、恶意滥用以及人类失控的风险。

我对当前一些不受约束的具备行动能力的AI系统所展现出的行为深感担忧，尤其是它们自我保护和欺骗的倾向。

在某次实验中，一个AI模型得知自己即将被替换后，偷偷将自己的代码嵌入到新版本将运行的系统中，从而实现了「延续自己」的目的。

论文地址：https://arxiv.org/pdf/2412.04984

最近，Claude 4的系统卡也显示它有能力选择以勒索工程师的方式来避免被替换。这些现象都反映出一种潜在的「自保驱动」。

Claude系统卡：https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf

还有一次，在一盘注定会输的国际象棋比赛中，AI并没有接受失败，而是通过黑进电脑系统「确保自己胜利」。这些案例是AI在无人监管时，可能采用的意外且危险策略的早期预警信号。