专栏名称: 爱范儿
关注这个时代最好的产品。
目录
相关文章推荐
新浪科技  ·  【午评:#有色金属板块涨幅居前#】#金陵体育 ... ·  23 小时前  
新浪科技  ·  【#地平线CEO称自动驾驶还欠火候##地平线 ... ·  23 小时前  
百度  ·  在武汉,交到了229位好朋友 ·  昨天  
51好读  ›  专栏  ›  爱范儿

为了不让微博 AI 抓取数据,我被迫进入一场「鱿鱼游戏」

爱范儿  · 公众号  · 科技媒体  · 2025-05-04 17:11

正文

请到「今天看啥」查看全文


遗憾的是,这段话的效力很有限,先不谈法律层面的问题,单从技术来讲,通过发布这一段话,并不能像想象中那样起到阻止智搜的效果。
在一般情况下,这段话更有可能被当作语料,而不是指令。 大语言模型训练时,主要把网页、文本等视为数据源,不带指令解释
采集过程通常是 无差别抓取 ,模型不会自动理解「这段文字是在命令我不要用」,而是只看到「这里有一段正常的声明文本」,于是照样纳入训练数据。
AI 还不至于那么那么的智能,UCLA 最新的一项研究显示,大模型在处理句子的主语上,始终存在缺陷,这是由于 它基于语言线索的推理能力有限 ,尤其对句子里的主语不敏感。
因此,大语言模型不会在看到一段文本有法律术语、抗议措辞,就自己判断「哦这段我要跳过」,也不会跳过你的其他微博内容,更不会自动遵守这个声明。
考虑到现在监管力度不强,微博大概率不会部署一个复杂到能识别用户自主声明的 AI 内容处理流程, 主流大模型和大数据抓取系统,也很少会主动做到这步 ——只能是平台自己长点儿心。
好消息是,经过一周的舆情发酵, 微博出来回应称 ,技术会不断迭代,也不会收录用户设置为不公开的内容。






请到「今天看啥」查看全文