正文
此类的检测技术,学界已有研究,不过大多都是
“二分类”检测方法,虽然也能达到98%的准确率,然而这些检测方法往往会受到过渡匹配的影响,也就是说在处理不同类型的图片时,检测方法的性能会显著下降。
更为具体一点,能区分真人和照片的技术叫做
liveness detection,中文叫做“活体取证”。当前的技术主要是根据分辨率、三维信息、眼动等来区分,因为翻拍的照片分辨率比直接从真人上采集的照片在质量、分辨率上有差别。
而对于视频欺骗,根据三维信息、光线等来区分。
对于具体的应用,谷歌曾经推出一款照片打假神器名为 Assembler,具有 7 个检测器(detectors),其中 5 个由美国和意大利的大学研究团队开发,分别负责检测经不同类型的技术处理过的照片,例如合成、擦除等。
而另外两个检测器由 Jigsaw 自己的团队开发,其中一个旨在识别deepfake,也就是这两年引起热议的AI 换脸,该检测器使用机器学习区分真人图像和 StyleGAN 技术生成的 deepfake。
而
Face X-Ray方法可以针对合成图片的共性:图片拼接,即一张图片和另一张图片混合。
检测图片可能存在的混合区域,分析差异,找到图片标记,从而判断是否是合成图片。
现有的对面部合成图像检测通常面向第二阶段,并基于数据集训练有监督的每帧二进制分类器。这种方法可以测试数据集上实现近乎完美的检测精度,如果遇见训练时没见过的换脸图像,性能会出现明显下降。
而Face X-Ray的关键步骤是从图像中获取标记数据,然后用“自监督”的方式训练框架。值得一提的是这里的自监督是打引号的,不同于传统的自监督定义,这里的无监督是指不从换脸数据库里训练算法。
前面也提到,图片的标记主要来自两个方面,硬件和软件。在正常的图像中,硬软件产生的标记一般是具有“周期性”或者是均匀的。一旦图像改变,就会打破这种均匀,因此可以利用标记判断是否是合成图片。