AI训练数据集中发现近 12,000 个 API 密钥和密码

独眼情报 · 公众号 · · 2025-03-03 15:37

正文


   
    OpenAI、DS、Google、Meta、Anthropic 和 Stability

的模型。

AWS 根密钥和 MailChimp API 密钥 Truffle Security 是 TruffleHog 敏感数据开源扫描器背后的公司，该公司的研究人员在检查了 Common Crawl 2024 年 12 月档案中 26.7 亿个网页的 400 TB 数据后发现了有效的秘密。

他们发现了 11,908 个成功验证的秘密，这些秘密都是开发人员硬编码的，这表明 LLM 有可能在不安全的代码上进行训练。

需要注意的是，LLM 培训数据不以原始形式使用，而是经过预处理阶段，包括清理和过滤掉不必要的内容，如不相关的数据、重复、有害或敏感信息。

尽管付出了这些努力，但机密数据仍然很难删除，而且该过程无法保证删除如此庞大的数据集中的所有个人身份信息 (PII)、财务数据、医疗记录和其他敏感内容。

在分析扫描数据后，Truffle Security 发现了 Amazon Web Services (AWS)、MailChimp 和 WalkScore 服务的有效 API 密钥。

推荐文章

TomXu · 关于UG和商业化，以下是语音内容的文字整理：一、不同阶段用

昨天

TomXu · 短视频赛道，抖音也熬了两年多，才量变到质变。当时卡在大几百万

18 小时前

亚马逊全球开店 · 销量迟迟起不来？别让运营漏洞拖后腿，亚马逊大促自查指南来了！

昨天

TomXu · 我2011-2017在的一家创业公司也是这样的氛围，每年至少

昨天

亚马逊全球开店 · 国货逆袭！他以小搏大狂卷日本电视，亚马逊上线7个月卖爆千万！

2 天前

家长慧 · 婆婆抱怨媳妇懒，而媳妇说了10句话，婆婆听后沉默了

8 年前

家长慧 · 婆婆抱怨媳妇懒，而媳妇说了10句话，婆婆听后沉默了

8 年前

电脑报 · 下棋太简单了，这场人机大战的题目据说难到变态

8 年前

阑夕 · 译见 | 在Snapchat里出售日常生活的性工作者们

8 年前

中国智慧城市导刊 · 90后最想去哪买房？大数据为你揭示真相！

7 年前