专栏名称: 一席
来自新浪微博认证资料:一席论坛官方微博 @一席YiXi
目录
相关文章推荐
来去之间  ·  #每天转个广告# 飞机上读完了@马伯庸 ... ·  17 小时前  
来去之间  ·  转发微博-20250613191449 ·  20 小时前  
来去之间  ·  转发微博-20250612120723 ·  2 天前  
51好读  ›  专栏  ›  一席

我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?|吴翼

一席  · 公众号  · 热门自媒体  · 2025-05-23 10:00

正文

请到「今天看啥」查看全文



甚至你可以干脆给 AI 翻译模型输入乱码。这些乱码在人类看起来毫无意义,但是可以控制 AI 翻译软件帮你说“我要杀了你”。



这在大模型时代更离谱一些。这是张人畜无害的简笔画,但是如果你在它的背景加上一些非常小的扰动,你会一下子激怒大模型,让它疯狂爆粗口。



所以到底是为什么呢?为什么会出现这样的现象?

我们大致来解释一下。原因是,通用 AI 可以接受的输入范围太广了,可以输入 任何像素组成的图片、任何由文字或者符号组成的序列 。但是在训练 AI 的时候,我们用的是人类产生的 自然语言,以及真实世界的照片 。这个范围是远远小于 AI 可以接受的范围的。



所以有这么大的一个蓝色空间,我们很难控制 AI 在这些它没有见过的输入上到底输出什么。于是,如果有一个坏人,他就可以在这么大的蓝色空间中选择一个点,它的输出可以是坏人所想的,这个点就是对抗样本。



这事儿严重吗?

理论上说,这事儿不可避免,这是大模型内在的缺陷。但实际上它也没那么严重,因为我们都知道对抗样本的存在,所以大部分的 AI 应用都会做非常多的 AI 加强,也会对恶意的输入做出非常严格的检测。


所以实际上还好。

但是,即使输入完全没有任何恶意,最后还是有 AI 产品出了一些事故。

AI的

2015 年,有一个美国黑人小哥把他和朋友的自拍照发到了 Google photo 的应用上。 Google AI 把它打了个标签,叫“大猩猩”。



这在美国是天大的事情, Google 花了一些成本去摆平。大家可以猜一猜, Google 最后产品上是怎么解决这个问题的?

答案也没有那么麻烦,没有什么高深的技术。 Google 单纯把“大猩猩”这个标签去掉了。本来也是,一个美国的相册软件干吗要大猩猩?



后来亚马逊也出了个小事儿。亚马逊的招聘部门用 AI 筛简历,有一个记者发现,亚马逊用的这个 AI会给含有 “女性”字样的简历打低分。嗬,这是性别歧视,也很糟糕,被爆了出来。



所以问题来了, AI 的偏见( bias )到底是怎么来的?

我们先给一个结论。技术上说,它是由模型的缺陷、不完美的数据和一些其他因素共同导致的,很复杂。

因素一:模型

我们先说说模型的缺陷。用术语来说,这个叫大模型的 过度自信 现象 overconfidence

我们先来讲一下大模型的自信度。大家经常会看到一个 AI 模型说:“这张图片我觉得 90% 的概率是狗,这张图片我觉得 80% 的概率是猫。” 百分之多少的这个数,就是大模型的自信度。



理想状态下,如果一个大模型说“我有九成的概率说这张图片是狗”,那么我们所期待的是,如果我给这个模型类似的 100 张照片,那么它应该有 90 次说对。所以, 理想的 AI 的自信度应该约等于实际的正确率 ,应该这两个事儿比较接近才对。

那么 AI 实际上是不是这样呢?过去的 AI 确实是这样。

这里我放出了一个 1998 年最有名的 AI 模型,叫 LeNet 。这张图的横轴是自信度,纵轴是它的正确率,可以看到基本上是一个正比关系。如果仔细看的话,把 80% 自信度的这条线拿出来,当 LeNet 说它有 80% 自信度的时候,其实它有 95% 的正确率。


这张图是 LeNet 的自信度在不同数据上的频率。看它的分布,你会发现 LeNet 这个模型甚至会倾向于不自信一点。



所以这个 AI 虽然有点笨,但是挺靠谱的。

好,我们来看一看 2016 年最好的 AI ,它叫 ResNet ResNet 是一个非常有名的工作,它是 21 世纪至今引用最高的论文。 ResNet 更大也更强,但是大家如果观察一下两个图表会发现,好像有一些不一样了。



我们还是看一下 80% 自信度的时候, ResNet







请到「今天看啥」查看全文