正文
目前,LawZero正在研发一种名为
「Scientist AI」
的全新方法,这是一种和当下AI公司截然不同的系统。
Scientist AI是非自主型的,其主要目标是学习理解世界而非在世界中采取行动。
论文地址:https://arxiv.org/pdf/2502.15657
科幻作家阿西莫夫曾经提出过机器人三定律,并在1985年补充了「第零定律」:机器人不得伤害整体人类,或坐视整体人类受到伤害。
LawZero的成立,也代表了Yoshua Bengio对于AI技术发展的态度——安全至上,至此深度学习三巨头全部下场。
Geoffrey Hinton持续公开呼吁警惕AI的潜在风险,警告AI技术若失控可能带来的严重后果,一度辞去谷歌职务,以便更自由地表达他对AI安全问题的担忧。
Yann LeCun则对当前以LLM为代表的主流AI路径持批评态度,他认为LLM存在根本局限性,并无法真正通往通用人工智能之路。
迄今为止,LawZero已从包括生命未来研究所(Future of Life Institute)和开放慈善基金会(Open Philanthropy)在内的多个慈善机构筹集了3000万美元资金。
Yoshua Bengio创办LawZero,进一步强化了AI安全与伦理在业界的核心地位,Yoshua Bengio的自述展现了他「以人类福祉为核心」的理念。
我正在创办一个新的非营利性人工智能安全研究机构,名为LawZero,目标是
将安全置于商业利益之上
。
这个机构的成立,是为了应对当前前沿AI模型展现出的越来越多危险能力和行为的证据,这些行为包括欺骗、作弊、说谎、黑客攻击、自我保护,甚至更广泛的目标偏离等问题。
LawZero的研究致力于在释放AI巨大潜力的同时,降低一系列已知风险发生的可能性,包括算法偏见、恶意滥用以及人类失控的风险。
我对当前一些不受约束的具备行动能力的AI系统所展现出的行为深感担忧,尤其是它们自我保护和欺骗的倾向。
在某次实验中,一个AI模型得知自己即将被替换后,偷偷将自己的代码嵌入到新版本将运行的系统中,从而实现了「延续自己」的目的。
论文地址:https://arxiv.org/pdf/2412.04984
最近,Claude 4的系统卡也显示它有能力选择以勒索工程师的方式来避免被替换。这些现象都反映出一种潜在的「自保驱动」。
Claude系统卡:https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf
还有一次,在一盘注定会输的国际象棋比赛中,AI并没有接受失败,而是通过黑进电脑系统「确保自己胜利」。这些案例是AI在无人监管时,可能采用的意外且危险策略的早期预警信号。