为了不让微博 AI 抓取数据，我被迫进入一场「鱿鱼游戏」

爱范儿 · 公众号 · 科技媒体 · 2025-05-04 17:11

正文

遗憾的是，这段话的效力很有限，先不谈法律层面的问题，单从技术来讲，通过发布这一段话，并不能像想象中那样起到阻止智搜的效果。

在一般情况下，这段话更有可能被当作语料，而不是指令。 大语言模型训练时，主要把网页、文本等视为数据源，不带指令解释 。

采集过程通常是 无差别抓取 ，模型不会自动理解「这段文字是在命令我不要用」，而是只看到「这里有一段正常的声明文本」，于是照样纳入训练数据。

AI 还不至于那么那么的智能，UCLA 最新的一项研究显示，大模型在处理句子的主语上，始终存在缺陷，这是由于 它基于语言线索的推理能力有限 ，尤其对句子里的主语不敏感。

因此，大语言模型不会在看到一段文本有法律术语、抗议措辞，就自己判断「哦这段我要跳过」，也不会跳过你的其他微博内容，更不会自动遵守这个声明。

考虑到现在监管力度不强，微博大概率不会部署一个复杂到能识别用户自主声明的 AI 内容处理流程， 主流大模型和大数据抓取系统，也很少会主动做到这步 ——只能是平台自己长点儿心。

好消息是，经过一周的舆情发酵， 微博出来回应称 ，技术会不断迭代，也不会收录用户设置为不公开的内容。

推荐文章

新浪科技 · 【午评：#有色金属板块涨幅居前#】#金陵体育跌超10%# 三大指-20250606114207

23 小时前

新浪科技 · 【#地平线CEO称自动驾驶还欠火候##地平线CEO称自动驾驶很多-20250606114905

23 小时前

百度 · 在武汉，交到了229位好朋友

昨天

新浪科技 · 【#董明珠外出吃饭向饭店推荐格力饭煲#】6月5日，河南郑州董明珠-20250605115543

昨天

新浪科技 · 【#跟着董明珠逛董明珠健康家#】董明珠健康家再度上新！这一次，@-20250605091035

2 天前

248游戏 · 【测试】你是个“好心”的人吗？

8 年前

车早茶 · 柴油车好处那么多，为啥在国内就是没人买？

8 年前

中国经济网 · 京州在哪？丁义珍是谁？揭秘《人民的名义》故事原型

8 年前

知心 · 真正的朋友，不用每天联系

8 年前

奥斯CAR · 说来你可能不信，你买了一辆“假的”SUV！

7 年前