专栏名称: 网舆勘策院

互联网时代的法律与政策研究资讯！依法治天下、一语观乾坤。网舆勘策院由具有丰富互联网管理经验的法律专家主办，洞察互联网动态，聚焦法律与政策，为互联网精英、公务员、法务、公共事务、律师、高级知识分子、法学师生提供行业资讯和法律与政策研究服务。

美国版权局“版权与人工智能”报告：数据训练中侵权与合理使用边界

网舆勘策院 · 公众号 · · 2025-05-16 18:20

正文

请到「今天看啥」查看全文

1. 数据收集和整理：生成包含受版权保护作品的训练数据集所需的步骤涉及复制权侵权。

2. 数据训练：训练过程可能涉及复制权侵权。训练需要开发人员进行数据下载和复制存储，而在训练期间，大部分训练可能涉及临时复制。版权局认为，模型权重是否构成对复制权或演绎权的侵犯，关键在于模型是否保留涉案作品中受版权保护的实质性表达。在构建训练数据集和模型训练过程中，若涉及复制权侵权争议，只有在模型权重与涉案作品存在实质性相似的情况下，才可能构成侵权。

3. 检索增强生成：通常，检索增强生成以两种方式之一工作。第一种是，AI开发人员将材料复制到检索数据库中，模型通过访问数据库以检索相关材料，另一种是从外部获取，例如搜索引擎或特定网站。这两种方法都需要进行复制，包括系统在生成时复制检索到的内容以增强其响应能力。

4. 输出：模型如果生成与受版权保护的作品非常相似的内容，则可能侵犯权利方的复制权，并在改编原作的范围内侵犯了相关衍生作品权利，此外，据内容类型和受众，还可能涉及表演权等。