专栏名称: 数据何规

数据安全及个人信息保护。

意大利500万欧元AI罚单详解

数据何规 · 公众号 · · 2025-05-21 00:00

正文

请到「今天看啥」查看全文

事实调查活动

在采取预防性措施的同时，意大利个人数据保护局开始收集开展事实调查活动所需的信息，依据GDPR第58（1）（e）条和隐私法典第157条发送了信息请求。

2023年4月6日（登记号58925/23），意大利个人数据保护局向Luka发送了一封信息请求信，要求其详细说明Replika的运作方式（所处理的个人数据类别及其来源；收集方法；收集的数据如何处理；数据存储位置；采取的安全措施；用户数据用于系统训练或其他目的的处理），用户个人数据的处理（法律依据；存储期限；使用Replika服务的最低年龄；数据保护影响评估（DPIA）；依据GDPR第27条指定代表；依据GDPR第12–22条行使数据权利的程序；如适用，依据GDPR第五章的法律依据和充分性保证；依据GDPR第22条对自动化处理的澄清），以及在第39/23号紧急措施通知之日的服务访问年龄验证措施。

关于此请求，2023年5月8日（登记号74173/23），该公司在最初声称在欧盟仅在荷兰设有一个机构后，声明如下：

- 其利用用户发送给聊天机器人的消息和内容来与该用户进行对话（“聊天机器人互动”）。在聊天机器人互动方面，数据库的内容可能包括基本信息、对话主题、用户可能提出的问题以及选定的偏好或兴趣。当用户发送消息时，模型会分析文本，使聊天机器人能够根据对话中的最新消息生成回应。该公司还明确表示，其利用通过聊天发送的所有信息创建数据库，以生成去标识化数据并微调构成聊天机器人基础的大型语言模型（LLM）（“模型开发”）。用于创建去标识化数据的数据库部分仅限于：

1）用户“反应”（“喜欢”、“不喜欢”、“爱”、“搞笑”、“无意义”或“冒犯”），如果用户选择进行此类选择；

2）对对话满意度的“反馈”（“开心”、“中性”或“伤心”）；

3）“片段”，即提供解释反应和反馈上下文的用户对话的小部分。公司用于模型开发的信息不会识别特定个人，也无法与特定个人相关联（“去标识化数据”），因为对话片段中可能包含的任何个人标识符（如姓名、地址、电子邮件地址、电话号码和身份证号码）均已被移除，并且片段以随机方式“洗牌”；

- 其从用户与服务的互动中收集上述所有个人数据；

- 其使用网络钩子（webhooks）收集（“反应”、“反馈”和“片段”）并实时处理用户与聊天机器人的互动，网络钩子是自动工具，可捕获此类信息并将其发送到公司的服务器；

- 其在对去标识化数据进行模型开发处理时遵循以下步骤：

1）如上所述的数据收集；

2）预处理，包括清理、结构化和去除此类数据中的任何个人识别数据，以保护隐私（通过聚合和随机化技术）；

3）对预处理数据进行标记；

4）分析和开发，以评估LLM的性能、识别模式并开发防止模型产生不当内容输出的过滤器；

5）测试和验证（根据预定义标准进行定期测试和验证）；

- 其将个人数据存储在美国亚马逊网络服务公司（Amazon Web Services, Inc.）托管的加密数据库中；

- 其不使用用户提供的个人数据进行模型开发；

- 其采取技术和组织措施，保护个人数据和去标识化数据的安全，防止未经授权的访问、使用和披露。这些措施包括加密、访问控制、漏洞管理、对“片段”、“反应”和“反馈”的预处理和匿名化、培训以及在公司人员不遵守措施时可能采取的纪律措施；

- 其依据合同法律基础进行聊天机器人互动，因为处理用户数据对于根据服务条款提供服务是必要的。此处理包括创建和维护用户账户资料、促进支付和交易以及处理用户输入的数据以生成聊天机器人的回应；

- 其依据合法利益法律基础进行模型开发；

- 其保留数据“只要认为对于为用户提供了一致、愉快和成功的平台体验是合理必要的”，符合最小化原则；

- 其保留聊天机器人互动数据“足够长的时间，以便能够检索信息，确保用户与聊天机器人对话体验的连贯性，符合用户期望”；

- 其保留用户数据以创建模型开发的去标识化数据；

- 使用Replika服务的最低年龄要求为18岁；

- 该最低年龄要求与公司隐私政策中的声明并不矛盾，该声明称：“我们不会明知收集13岁以下儿童的个人数据。如果您未满13岁，请不要通过服务提交任何个人数据”，此声明是根据美国联邦法律（儿童在线隐私保护法，COPPA）的要求包含的；

- 在意大利个人数据保护局2023年2月2日的决定之前，Replika移动应用程序已包含年龄门槛，防止18岁以下未成年人访问服务。公司还将应用程序在苹果应用商店（Apple App Store）的年龄分级列为17+，这是苹果允许的最高年龄分级；

- 所有成人内容都被置于付费墙后，未成年人无法访问；

- 在2023年2月2日的决定之后，公司故意改进了防止18岁以下未成年人访问服务的措施；

- 其未根据GDPR第27条指定代表，因为公司在欧盟设有机构；

- 关于数据主体权利的行使，相关的信息通过公司网站和应用程序上发布的隐私政策提供。用户可以请求访问、更正和删除数据，也可以反对处理任何对于提供服务不必要的个人数据，并限制此类数据的处理。请求将逐案评估；

- 其不进行任何对数据主体的画像处理，也不做出具有法律效力或同等重大影响的自动化决策；

- 其直接从用户处收集个人数据，并且根据GDPR第五章的规定，不将个人数据从意大利或欧盟转移出去，并与数据处理者签订了数据处理协议，如有要求，包括标准合同条款；

- 为了内容管控的目的，其训练了模型，以防止不当内容或不当回应的出现和升级。在此过程中，公司使用了专门为人工智能研究界设计和提供的开源数据集，旨在提高机器学习模型的安全性和稳健性。公司还开发并不断改进和细化能够识别与有害行为（如自我伤害、侮辱或谋杀）相关的关键词、短语和模式的过滤器。这些过滤器会触发LLM对这类内容做出适当回应，例如改变对话主题或向用户提供了一助资源。公司还在AI模型评估和过滤器开发中使用人工审查；

- 其使用其他方法来控制不符合应用程序服务条款的不当内容，包括：

1）将所谓的浪漫内容置于付费墙后，并对新用户禁用性相关内容；

2）允许用户实时报告特定内容或对话为攻击性内容，并利用此类报告改进模型，防止其未来生成类似内容；

3）在服务条款中禁止用户上传非法、有害和威胁性内容。

随2023年5月8日的回复信件，公司附上了2023年2月2日适用的隐私政策副本、2023年3月22日更新的版本以及一份影响评估（未注明日期和签名）。

2024年2月27日（登记号23744/24），意大利个人数据保护局通知公司启动根据法典第166（5）条和第1/2019号法规第12条采取纠正措施和制裁的程序，指控Luka在2023年2月2日通过Replika服务处理个人数据时违反了GDPR第5、6、7、8、12、13、24和25（1）条。

公司未回复启动程序通知，也未根据法典第166（6）条和意大利个人数据保护局第1/2019号法规第13条要求听取其意见。

在启动程序通知中，意大利个人数据保护局明确且全面地引用了该通知，基于第39/2023号紧急措施中确定的关键问题，指控公司三项违规行为。意大利个人数据保护局的评估集中于2023年2月2日Luka实施的事实、处理操作和措施。

关于未能确定处理合法性条件的问题，意大利个人数据保护局发现，在紧急措施采用时在线的隐私政策——于2022年7月5日更新——未对与Replika服务相关的各种处理操作的法律基础提供细致描述。

提及的履行合同确需（GDPR第6（1）（b）条）和数据主体同意（GDPR第6（1）（a）条）的法律基础，以及法律的一般授权（“授权”，而非义务），实际上并未与特定处理操作相关联或可归属于特定处理操作（所谓的细致性），使得无法识别和评估这些法律基础的适用性。此外，2022年7月5日更新的隐私政策在2023年2月2日生效时，未提及为开发聊天机器人所用LLM而处理个人数据的法律基础，随后提供的文件——尤其是2023年3月22日更新的隐私政策和DPIA——也未包含任何表明公司在2023年2月2日之前已为此目的确定法律基础的要素。

鉴于此，意大利个人数据保护局认为，截至2023年2月2日， Luka未能确定通过Replika服务进行的各种处理操作的法律基础，可能违反了GDPR第5（1）（a）条和第6条。

关于透明度义务，意大利个人数据保护局评估了2023年2月2日适用的隐私政策，即2022年7月5日更新的版本。从形式上看，意大利个人数据保护局在启动程序的行为中发现，截至2023年2月2日，隐私政策仅提供英文版本（包括供未成年人使用）且不易获取。从内容上看，发现截至2023年2月2日，隐私政策存在以下问题：

- 未指示每项处理活动和处理的数据类型的法律基础；

- 未指示处理目的，特别是未具体说明“聊天机器人互动”和“模型开发”这两种不同类型的处理；

- 在“聊天中提及的人”和“与您的Instagram账户集成”部分，指出了为启用用户对话而处理的两类个人数据；

- 未澄清该服务仅向成人提供，因为如上所述，隐私政策仅根据COPPA（儿童在线隐私保护法）的要求提及13岁以下未成年人；

- 未提供有关个人数据存储期限或用于确定此类期限的标准的具体信息；

- 未澄清个人数据是否被传输到EEA之外，如是，GDPR第五章中提及的法律基础和充分性保证是什么。特别是，隐私政策中的文本（特别是声明“通过使用我们的服务或向我们提供任何信息，您同意将您的信息转移、处理和存储在美国，一个隐私法规可能不如您居住或公民身份所在国家全面的司法管辖区”）明显与公司在2023年5月8日信件（登记号74173/23）中的声明相矛盾，其中称由于不满足在欧盟设立的标准，根据GDPR第五章，不可能从欧盟（特别是意大利）向美国转移个人数据；

- 在题为“您的数据保护权利”的第6部分，隐私政策提供了有关GDPR第22条所述权利的具体信息，尽管未明确提及该条款。这一引用（在2023年3月22日版本中已删除）足以使用户认为其个人数据受到自动化决策的约束，违反了透明和公平原则。数据控制者在回复（登记号74173/23）中对此情况予以否认，称“尽管聊天机器人依赖自动化流程生成回应，但服务不会根据个人资料做出具有法律效力或类似影响的决策”。

鉴于此，意大利个人数据保护局认为，截至2023年2月2日， Replika服务的隐私政策未遵守一般义务和透明度原则，并且提供方式和时间使得用户无法轻易获取，Luka可能因此违反了GDPR第5（1）（a）、6、12和13条。

最后，关于未成年人年龄验证机制的缺失，意大利个人数据保护局指控截至2023年2月2日，Luka未能实施确保未成年人在访问和使用Replika服务时得到特定保护的措施。特别是，发现存在以下缺失：

- 用户年龄验证程序（系统仅要求姓名、电子邮件地址和性别），导致未成年人可能接触到不适合其发展水平和自我认知的回应，包括具有性暗示的内容；

- 即使用户明确表明其为未成年人，也缺乏禁止或阻止访问的机制；此外，聊天机器人提供的回应明显与应确保未成年人和更广泛意义上的所有脆弱个体受到的保护相冲突。

在启动程序时，意大利个人数据保护局承认，公司在2023年2月2日意大利个人数据保护局紧急决定采取临时限制措施后，实施了年龄验证机制。特别是在随后的交流中，数据控制者声明已在服务的所有注册页面上实施年龄门槛，限制18岁及以上用户访问，并且年龄验证机制包括一个“冷静期”，旨在防止用户在通过输入真实个人信息发现无法访问服务后立即更换不同的出生日期以访问服务。公司还声明，正在开发一个利用语言分析来识别和防止18岁以下人员使用服务的过程。

鉴于此，意大利个人数据保护局认为，截至2023年2月2日，Luka未能建立适当的年龄验证系统，可能因此违反了GDPR第5（1）（c）、6、7、8、24和25（1）条。

欧盟管辖权及GPDP的权限