专栏名称: 图灵人工智能
人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。
目录
相关文章推荐
InfoTech  ·  居然比DeepSeek还火! ·  2 天前  
蒲公英Ouryao  ·  离心机的革命 ·  22 小时前  
医学影像沙龙  ·  100例腹部X线片注释及完整报告分享! ·  昨天  
51好读  ›  专栏  ›  图灵人工智能

刚刚,图灵奖得主Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场

图灵人工智能  · 公众号  ·  · 2025-06-05 00:00

正文

请到「今天看啥」查看全文


图片

目前,LawZero正在研发一种名为 「Scientist AI」 的全新方法,这是一种和当下AI公司截然不同的系统。

Scientist AI是非自主型的,其主要目标是学习理解世界而非在世界中采取行动。

图片

论文地址:https://arxiv.org/pdf/2502.15657

科幻作家阿西莫夫曾经提出过机器人三定律,并在1985年补充了「第零定律」:机器人不得伤害整体人类,或坐视整体人类受到伤害。

图片

LawZero的成立,也代表了Yoshua Bengio对于AI技术发展的态度——安全至上,至此深度学习三巨头全部下场。

图片

Geoffrey Hinton持续公开呼吁警惕AI的潜在风险,警告AI技术若失控可能带来的严重后果,一度辞去谷歌职务,以便更自由地表达他对AI安全问题的担忧。

Yann LeCun则对当前以LLM为代表的主流AI路径持批评态度,他认为LLM存在根本局限性,并无法真正通往通用人工智能之路。

迄今为止,LawZero已从包括生命未来研究所(Future of Life Institute)和开放慈善基金会(Open Philanthropy)在内的多个慈善机构筹集了3000万美元资金。

Yoshua Bengio创办LawZero,进一步强化了AI安全与伦理在业界的核心地位,Yoshua Bengio的自述展现了他「以人类福祉为核心」的理念。

图片
Yoshua Bengio的自述

我正在创办一个新的非营利性人工智能安全研究机构,名为LawZero,目标是 将安全置于商业利益之上

这个机构的成立,是为了应对当前前沿AI模型展现出的越来越多危险能力和行为的证据,这些行为包括欺骗、作弊、说谎、黑客攻击、自我保护,甚至更广泛的目标偏离等问题。

LawZero的研究致力于在释放AI巨大潜力的同时,降低一系列已知风险发生的可能性,包括算法偏见、恶意滥用以及人类失控的风险。

我对当前一些不受约束的具备行动能力的AI系统所展现出的行为深感担忧,尤其是它们自我保护和欺骗的倾向。

在某次实验中,一个AI模型得知自己即将被替换后,偷偷将自己的代码嵌入到新版本将运行的系统中,从而实现了「延续自己」的目的。

图片

论文地址:https://arxiv.org/pdf/2412.04984

最近,Claude 4的系统卡也显示它有能力选择以勒索工程师的方式来避免被替换。这些现象都反映出一种潜在的「自保驱动」。

图片

Claude系统卡:https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf

还有一次,在一盘注定会输的国际象棋比赛中,AI并没有接受失败,而是通过黑进电脑系统「确保自己胜利」。这些案例是AI在无人监管时,可能采用的意外且危险策略的早期预警信号。







请到「今天看啥」查看全文