专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
51好读  ›  专栏  ›  大数据文摘

AI领域的全面战争,从AI爬虫毁灭互联网开始。

大数据文摘  · 公众号  · 大数据  · 2025-03-24 12:00

正文

请到「今天看啥」查看全文


而现在,啥也没了。
更令人无奈的是,他们原本就明确禁止爬虫机器人未经许可抓取网站数据。
但是因为没那么懂AI,也不太知道那些AI大模型公司的玩法,所以没有严格配置robot.txt 文件,没有配专门告知OpenAI的机器人GPTBot不要访问该网站的标签,这基本等同于默认允许了OpenAI的抓取行为。
关键是吧,配了GPTBot的标签也不够,因为OpenAI还有ChatGPT-User和OAI-SearchBot,这两个标签也要配。你甚至不知道他们还有啥。
"我们原以为禁止条款就足够了,没想到还必须专门设定拒绝机器人的规则。"
几天后,Tomchuk终于设置好了Triplegangers的robot.txt文件,并启用了Cloudflare服务以屏蔽更多爬虫。
Cloudflare大家可能没听过,但是大多数人应该都见过。
就这个玩意,让你在进入某些网页之前,验证一下你是否是人类。
不过这玩意也不是免费的,挺烧钱的,都是成本。但是为了再防一波OpenAI那种流氓行为,他们只能启用。
这些服务的钱,都还好说,但是让Tomchuk最痛苦的事,他根本不知道,OpenAI到底拿走了多少素材。
而且,Tomchuk说:
"我们甚至联系不上OpenAI,也无法要求他们删除已抓取的数据。"
甚至最离谱的是,如果不是OpenAI这么贪,一次性请求太多,直接把 Triplegangers爬崩溃了,而是慢慢爬,一点一点的。
Tomchuk可能这辈子都发现不了自己的数据已经全部丢的干干净净了。
OpenAI的爬虫逻辑很简单,如果你家门口没有保安站岗,那就说明你默认你家里的东西我就都可以拿走,都是我的。因为你没说不准我拿,也没设保安,所以我就可以进门全部洗劫一空。
这是一场战争。
一场没有硝烟的战争。
一场关乎于保护自己财产神圣不可侵犯的战争。
一场关乎于我们,跟这些AI公司的AI爬虫的战争。
Trilegangers的遭遇并不是孤例。
在许多许多公司和内容创作者的眼中,AI爬虫就是这个时代的数字蝗虫,所过之处令网站不堪重负,数据还被洗劫一空。
去年夏天,还有一个著名的的例子,来自于非常老牌的维修教程网站,iFixit。
iFixit发现,他们的网站也成了AI爬虫的盘中餐。
但这一次,吃相难看的不是OpenAI,而是另一个AI王者,Anthropic公司的爬虫ClaudeBot。
当时iFixit的CEO怒不可遏地在社交媒体上爆料:
ClaudeBot在短短24小时内疯狂访问了iFixit近一百万次。直接差点把他们的网站挤爆,触发了所有报警系统,迫使iFixit的运维团队连夜加班处理。






请到「今天看啥」查看全文