正文
甚至你可以干脆给
AI
翻译模型输入乱码。这些乱码在人类看起来毫无意义,但是可以控制
AI
翻译软件帮你说“我要杀了你”。
这在大模型时代更离谱一些。这是张人畜无害的简笔画,但是如果你在它的背景加上一些非常小的扰动,你会一下子激怒大模型,让它疯狂爆粗口。
所以到底是为什么呢?为什么会出现这样的现象?
我们大致来解释一下。原因是,通用
AI
可以接受的输入范围太广了,可以输入
任何像素组成的图片、任何由文字或者符号组成的序列
。但是在训练
AI
的时候,我们用的是人类产生的
自然语言,以及真实世界的照片
。这个范围是远远小于
AI
可以接受的范围的。
所以有这么大的一个蓝色空间,我们很难控制
AI
在这些它没有见过的输入上到底输出什么。于是,如果有一个坏人,他就可以在这么大的蓝色空间中选择一个点,它的输出可以是坏人所想的,这个点就是对抗样本。
这事儿严重吗?
理论上说,这事儿不可避免,这是大模型内在的缺陷。但实际上它也没那么严重,因为我们都知道对抗样本的存在,所以大部分的
AI
应用都会做非常多的
AI
加强,也会对恶意的输入做出非常严格的检测。
所以实际上还好。
但是,即使输入完全没有任何恶意,最后还是有
AI
产品出了一些事故。
AI的
偏
见
2015
年,有一个美国黑人小哥把他和朋友的自拍照发到了
Google photo
的应用上。
Google
的
AI
把它打了个标签,叫“大猩猩”。
这在美国是天大的事情,
Google
花了一些成本去摆平。大家可以猜一猜,
Google
最后产品上是怎么解决这个问题的?
答案也没有那么麻烦,没有什么高深的技术。
Google
单纯把“大猩猩”这个标签去掉了。本来也是,一个美国的相册软件干吗要大猩猩?
后来亚马逊也出了个小事儿。亚马逊的招聘部门用
AI
筛简历,有一个记者发现,亚马逊用的这个
AI会给含有
“女性”字样的简历打低分。嗬,这是性别歧视,也很糟糕,被爆了出来。
所以问题来了,
AI
的偏见(
bias
)到底是怎么来的?
我们先给一个结论。技术上说,它是由模型的缺陷、不完美的数据和一些其他因素共同导致的,很复杂。
因素一:模型
我们先说说模型的缺陷。用术语来说,这个叫大模型的
过度自信
现象
(
overconfidence
)
。
我们先来讲一下大模型的自信度。大家经常会看到一个
AI
模型说:“这张图片我觉得
90%
的概率是狗,这张图片我觉得
80%
的概率是猫。”
百分之多少的这个数,就是大模型的自信度。
理想状态下,如果一个大模型说“我有九成的概率说这张图片是狗”,那么我们所期待的是,如果我给这个模型类似的
100
张照片,那么它应该有
90
次说对。所以,
理想的
AI
的自信度应该约等于实际的正确率
,应该这两个事儿比较接近才对。
那么
AI
实际上是不是这样呢?过去的
AI
确实是这样。
这里我放出了一个
1998
年最有名的
AI
模型,叫
LeNet
。这张图的横轴是自信度,纵轴是它的正确率,可以看到基本上是一个正比关系。如果仔细看的话,把
80%
自信度的这条线拿出来,当
LeNet
说它有
80%
自信度的时候,其实它有
95%
的正确率。
这张图是
LeNet
的自信度在不同数据上的频率。看它的分布,你会发现
LeNet
这个模型甚至会倾向于不自信一点。
所以这个
AI
虽然有点笨,但是挺靠谱的。
好,我们来看一看
2016
年最好的
AI
,它叫
ResNet
。
ResNet
是一个非常有名的工作,它是
21
世纪至今引用最高的论文。
ResNet
更大也更强,但是大家如果观察一下两个图表会发现,好像有一些不一样了。
我们还是看一下
80%
自信度的时候,
ResNet