正文
(一)水印的类型
1. 显式水印(
Visible Watermarks
)
最简单的数字水印是给图像添加可见标签、给音频片段添加独特声音或给文本添加引文。
2. 隐式水印(
Invisible Watermarks
)
3. 统计水印(Statistical Watermarks)
统计水印,也是隐式水印的一种,其不是在文本或音频/视频内容中嵌入明确的标记,而是嵌入统计上特殊的单词/像素/声音排列。
原理
简单来说,统计水印的核心思想是在内容生成过程中引入一点随机性,以留下一个可以被后续检测到的“指纹”。
优势
(1)不易被删除或伪造(如马里兰大学开发的一种"tree-ring watermarks",即使图片裁剪、模糊、旋转都不影响水印);
(2)不会明显降低内容生成的质量。
局限性
统计水印的应用受到AI模型输出中随机性空间的限制
(1)由于音频/视频内容生成的呈现方式更多样,其有足够的随机空间嵌入统计水印,相对来说更易实现。
(2)对于文本,有些类型的文本比较容易添加水印,比如儿童故事的写法有很多种,因此有足够的随机空间;而有些类型的文本不容易添加水印,比如代码或数学题答案,因为正确的结果可能只有一种,随机性空间不足,相对来说更难嵌入统计水印。
(二)AI水印的五个挑战
1. 带来新的用户隐私问题
虽然目前AI 公司无需在其水印中包含任何可识别的用户信息,但出于追责的考虑,水印可能不仅追溯到模型,还可以追溯到用户,这可能会侵犯用户的隐私,尤其是如果用户对此并不知情的时候。
如果这种带有用户信息水印的AI生成物,需要交由第三方检测,那么第三方机构也会承担很大的用户数据保护责任。比如检测完是直接删除文件还是保留下来用来优化检测工具,如果保留如何获得授权?
2. 缺少通用的AI水印检测方案
一个模型开发人员实现的水印只能验证某个内容是否由该模型生成(如Google 的 SynthID 只能检测由 Google 的图像 AI 模型嵌入的水印)。而在该情况下,如果要检查某个内容是否含有任何 AI 模型的水印,则需要尝试每种 AI 模型的检测协议。
3. 嵌入水印依赖AI模型开发者的配合