专栏名称: 王路在隐身
发布文章。
目录
相关文章推荐
界面文化  ·  在加沙,呼吸是一项任务|一周新书推荐 ·  15 小时前  
KnowYourself  ·  你脱不了单的原因竟是—— ·  昨天  
正和岛  ·  胖东来大胜!红内裤案,狠罚40万 ·  2 天前  
罗辑思维  ·  苏东坡的端午节:人生如逆旅,我亦是行人 ·  2 天前  
差评X.PIN  ·  从 “九子夺嫡” 到 ... ·  3 天前  
51好读  ›  专栏  ›  王路在隐身

200字抓包大模型

王路在隐身  · 公众号  · 热门自媒体  · 2025-05-17 23:24

主要观点总结

本文介绍了一种判断大模型在预训练中是否学过一段文本的方法,并给出了一个具体的例子来展示该方法是如何工作的。文章详细描述了使用困惑度和Loss值来判断模型对文本的熟悉程度。另外,文章还探讨了当前AI在文学创作上表现不佳的可能原因。

关键观点总结

关键观点1: 判断大模型在预训练中是否学过一段文本的方法

可以直接问大模型或者通过给一段文本,观察其困惑度或Loss值来判断。在给出的例子中,通过Idx Token Loss的值来分析模型是否学过特定的文本内容。

关键观点2: 当前AI在文学创作上的表现

当前AI在文学创作上的表现并不理想,可能存在模型对文学作品的复杂性和深度理解不足的问题。此外,模型的训练数据和算法也可能限制了其在文学创作方面的能力。


正文

请到「今天看啥」查看全文



14 5.1562 (前 15 token ,平均 loss 是相当高的,截至目前,我们还完全没有证据知道模型看过《受戒》。)
15 1.2734
16 0.0972
17 0.1582
18 0.1318 (前面出现过 名字 ,这里作为她 的宾语, 明子 完全不在意料之外, loss 一下子掉到地板了。)
19 0.0013
20 0.1641
21 0.0732
22
3.2812 (句号加换行符,是一个 token 。因为是 BPE 分词的。句号加换行是个很大概率的组合。如果这里没有分段,只是一个句号, loss 就会很低,但这里分段,是模型没有太想到的。)
23 4.4688
24 5.8438
25 0.5430 挎着 不用说,常见组合。模型预测的 loss ,主要是被这些地方拉下来的。)
26 2.5000
27 0.0210 (这里值得注意!这是模型第一次肉眼可见地暴露所学。乍一看, 字的概率低,并不意外,因为前面有个 ,后面有 毫不意外,但是,如果盖住 我们预测,我们更有可能在这个位置预测出 ”——“ 她挎着一个 ,如果抛开背景, 出现在这里的概率不应该很低,但是, loss 低到 0.0210 ,意味着什么呢?意味着模型认为这里出现 的概率是 97.92% 。你说它见过没见过?但是,不用着急下结论。孤证不立,我们暂且往后看。 )

28 0.2617 (这没什么, 后面当然是 。只是,你要注,意 的概率都没有 高,如果这段文本对模型完全陌生的话,就反常了。正常情况下,比如你写一段文本,里面有 挎着篮子 的表述, loss 会比 高。)
29 4.2812 (冷不丁来个 loss 当然高。注意,模型虽然预训练时见过这段,而且见过多次,也绝对不意味着它能背下来。名词,尤其是陌生名词在第一次出现的时候, token 通常都会很高。所以这里很正常,什么都说明不了。我们需要留意的是反常。)
30 0.0001 (这里不是 才怪,很正常。插一句,荸荠的荠读 qi 。和 荠菜 读法不一样。高中语文。)
31 2.6094
32 去了 0.0153
33 ,在 0.0280 (逗号加在也是一个 token ,但 loss 低到这地步也反常。也是一个佐证。)
34 柔软







请到「今天看啥」查看全文