10月AI诉讼案：作家集体起诉Meta！

AI与网络法 · 公众号 · · 2024-10-21 20:40

正文

请到「今天看啥」查看全文

Meta公司称其LLMs为"Llama"。Llama的输出质量取决于输入数据的质量， Meta知道向Llama输送的高质量长篇文本越多，Llama的商业表现就越好 。因此，Llama就是它所吸收的内容。Meta在其开发工作、预训练和训练数据中故意包含原告受版权保护的文学作品的未经授权和盗版副本，在未经同意或任何形式补偿的情况下利用了作者的文学才能。

二、原告对Meta的事实指控部分

（一） Meta 公司对 Llama 的开发和商业化

Meta公司成立于2004年，是一家社交媒体公司，当时名为Facebook公司。在过去的20年里，Meta公司迅速发展壮大，其技术服务也日趋多样化。目前， Meta的市值超过1.4万亿美元 ，跻身全球十大最有价值公司之列。Meta通过在 Facebook、Instagram和WhatsApp等旗舰平台 上销售广告和服务赚取数十亿美元。

2022年11月 ，OpenAI发布了ChatGPT，引起了消费者的热烈反响，此后，世界上许多最大的技术公司都加快了对商用LLMs的研究和开发。ChatGPT由一个LLMs提供支持，它能够对人们的询问做出不可思议的类人回应。

2023年2月 ，Meta开发并发布了一组基础LLMs，并将其称为LLaMA，作为其商业生成式人工智能开发计划的一部分。这些LLM后来更名为Llama 1。Meta最初发布的Llama 1用于非商业研究用途。不到5个月后，即2023年7月，Meta发布了Llama 2，这次是“根据许可的商业许可证提供”。据Meta公司报告， 截至2023年9月27日，用户已经下载了超过3000万份基于Llama的模型 。

2024年4月18日 ，Meta在Llama 1和2的基础上发布了Llama 3。在商业发布时，Meta将Llama 3称作其新的消费者服务Meta AI的动力，"世界领先的人工智能助手之一"。Meta公司承认正在使用其LLMs来增强其当前的商业产品，而且据了解， Meta公司正在开发由Llama 3驱动的高级付费订阅版人工智能助理服务。

（二）Meta 使用盗用的版权材料开发商业人工智能模型

1、大型语言模型和训练过程

有争议的是一种被称为大型语言模型或LLMs的人工智能模型。LLMs的设计目的是模仿人类使用语言。 LLMs能够通过处理输入文本（"提示"）和根据这些提示生成输出文本来模拟人类语言的模式，即确定什么词接什么词。

从高层次上讲，LLMs是一种算法，旨在通过一种称为"训练"的过程，以数学方式提炼书面作品中单词之间的关系。当一个模型通过消化越来越多的书面作品进行训练时，提炼出各种词块之间关系的算法也会随之改变。然后，模型会在整个训练材料语料库中重复同样的循环数百万次，甚至数十亿次，每次都会调整算法以反映语料库中的文本输入。这就是所谓的"预训练"过程，它是创建LLMs模型"基础"的基础，以后可以对其进行"微调"，以获得更具体的结果。

从字面意义上讲，模型就是它所摄取的东西：没有对材料的训练，就没有LLMs。 训练语料库的质量和数量对于最终模型的质量至关重要。 书籍对于LLMs的训练和发展是特别宝贵的训练材料。

2、Meta 复制了大量盗版书籍来训练其 Llama 模型

The Pile是一个800 GB的开源数据集，用于训练大型语言模型。Meta下载The Pile时，该数据集由一家名为EleutherAI的非营利组织托管并在网上公开提供。The Pile的设计者之一是一位名叫肖恩·普雷塞尔（Shawn Presser）的独立开发者。Presser创建了一个包含在The Pile中的名为"Books3"的数据集，这是一个盗版书籍的宝库。

Presser解释说，他创建Books3是为了回应"OpenAI关于GPT-2和3的论文"，其中"提到了名为'all of libgen'"。LibGen指的是"Library Genesis"，这是一个提供盗版图书的网站。为了创建一个与他怀疑OpenAI为自己创建的盗版图书数据集相媲美的数据集，Presser宣布Books3是直接从一个名为"bibliotik"的不同盗版网站下载的所有"196,640本图书"。