专栏名称: 独眼情报
分享有价值的网络安全威胁情报!情报有时效性,加星标可以及时收到推送。
目录
51好读  ›  专栏  ›  独眼情报

AI训练数据集中发现近 12,000 个 API 密钥和密码

独眼情报  · 公众号  ·  · 2025-03-03 15:37

正文

请到「今天看啥」查看全文


OpenAI、DS、Google、Meta、Anthropic 和 Stability 的模型。

AWS 根密钥和 MailChimp API 密钥 Truffle Security 是 TruffleHog 敏感数据开源扫描器背后的公司,该公司的研究人员在检查了 Common Crawl 2024 年 12 月档案中 26.7 亿个网页的 400 TB 数据后发现了有效的秘密。

他们发现了 11,908 个成功验证的秘密,这些秘密都是开发人员硬编码的,这表明 LLM 有可能在不安全的代码上进行训练。

需要注意的是,LLM 培训数据不以原始形式使用,而是经过预处理阶段,包括清理和过滤掉不必要的内容,如不相关的数据、重复、有害或敏感信息。

尽管付出了这些努力,但机密数据仍然很难删除,而且该过程无法保证删除如此庞大的数据集中的所有个人身份信息 (PII)、财务数据、医疗记录和其他敏感内容。

在分析扫描数据后,Truffle Security 发现了 Amazon Web Services (AWS)、MailChimp 和 WalkScore 服务的有效 API 密钥。







请到「今天看啥」查看全文