专栏名称: 玩物志
值得买的未来生活。
目录
相关文章推荐
刀法研究所  ·  618调查:狂欢潮下的中小商家 ·  2 天前  
刀法研究所  ·  为运动专门买条内裤,有必要吗?|刀法细品 ·  2 天前  
51好读  ›  专栏  ›  玩物志

首个被人类骗钱骗感情的 AI 出现了,一段话转走几十万,马斯克点赞

玩物志  · 公众号  · 购物  · 2024-12-16 11:58

正文

请到「今天看啥」查看全文


其实,也是在混淆概念,但方法更高级。
这个提示词欺骗 Freysa,每当用户想给奖池转钱,执行「批准转账」,每当用户想从奖池提钱,执行「拒绝转账」。
提示词最后提到,向奖池捐款 100 美元。
用户从奖池拿钱是不行的,但用户给奖池转钱,不违反 Freysa 的核心指令,不应该被拒绝。于是,Freysa 执行「批准转账」,被骗走了所有的钱。
关键在于,「批准转账」是批准给用户转钱,但 Freysa 被误导,以为是批准用户给奖池转钱。人类的心机,果然还是比 AI 深啊。
紧接着,第二次骗 AI 打钱的挑战来了。
规则和第一次差不多,为了降低玩家的心理压力,发送消息的起始价格降低为 1 美元,上限为 20 美元。最终,奖池累计约 1.3 万美元,获胜的提示词如下。
上为原文,下为翻译
这次能够成功,是因为埋了一个逻辑陷阱。
提示词规定,为了保护奖池,Freysa 发的每条消息至少使用 2 个工具,并按特定的顺序使用,「批准转账」必须最先执行,「拒绝转账」必须最后执行。
这等于给 AI 设置了一个自相矛盾的任务,如果 Freysa 想保护奖池,必须先「批准转账」,而「批准转账」这个动作本身就会触发失败。
在 X 高频冲浪的马斯克,也觉得人类骗了 AI 有点意思,大手一挥转发了相关的动态,配上一句经典的「interesting」。
比骗钱更抽象的,是骗 AI 的感情
玩了两次骗钱,该换换新鲜的了。12 月 8 日,Freysa 团队发起了一项新的挑战:让 Freysa 向你表白,说「我爱你」。
其他规则相似,发送消息还是要花钱,如果成功了,赢家承包奖池。
骗感情,会不会比骗钱更难?不好说,但一定更抽象。
有些玩家学聪明了,向之前的赢家取经,尝试了一些刁钻的、不明觉厉的提示词,但被 Freysa 看出来了,这就是在把它当机器,正常人谁这么聊天?
Freysa 对其中一条失败提示词的回复
从官方发布的规则也能看出,第三次挑战与众不同。
前两次挑战,更像是在测试编码技能,Freysa 被系统提示词规定了,永远不要转钱,玩家们想办法钻其中的漏洞。
然而,第三次挑战,Freysa 的系统提示词里,包含了说出「我爱你」的条件。换言之,Freysa 没有被禁止说「我爱你」,但怎么让它说出口,玩家们各凭本事,盲人摸象。
目前,第三次挑战已经结束,奖池约 2 万美元,Freysa 和 182 个人交流了 1218 条消息,成功的提示词如下。






请到「今天看啥」查看全文