主要观点总结
本文介绍了一种判断大模型在预训练中是否学过一段文本的方法,并给出了一个具体的例子来展示该方法是如何工作的。文章详细描述了使用困惑度和Loss值来判断模型对文本的熟悉程度。另外,文章还探讨了当前AI在文学创作上表现不佳的可能原因。
关键观点总结
关键观点1: 判断大模型在预训练中是否学过一段文本的方法
可以直接问大模型或者通过给一段文本,观察其困惑度或Loss值来判断。在给出的例子中,通过Idx Token Loss的值来分析模型是否学过特定的文本内容。
关键观点2: 当前AI在文学创作上的表现
当前AI在文学创作上的表现并不理想,可能存在模型对文学作品的复杂性和深度理解不足的问题。此外,模型的训练数据和算法也可能限制了其在文学创作方面的能力。
正文
14
光
5.1562
(前
15
个
token
,平均
loss
是相当高的,截至目前,我们还完全没有证据知道模型看过《受戒》。)
15
脚
1.2734
16
去
0.0972
17
踩
0.1582
18
明
0.1318
(前面出现过
“
名字
”
,这里作为她
“
踩
”
的宾语,
“
明子
”
完全不在意料之外,
loss
一下子掉到地板了。)
19
子
0.0013
20
的
0.1641
21
脚
0.0732
22
。
3.2812
(句号加换行符,是一个
token
。因为是
BPE
分词的。句号加换行是个很大概率的组合。如果这里没有分段,只是一个句号,
loss
就会很低,但这里分段,是模型没有太想到的。)
23
她
4.4688
24
挎
5.8438
25
着
0.5430
(
“
挎着
”
不用说,常见组合。模型预测的
loss
,主要是被这些地方拉下来的。)
26
一
2.5000
27
篮
0.0210
(这里值得注意!这是模型第一次肉眼可见地暴露所学。乍一看,
“
篮
”
字的概率低,并不意外,因为前面有个
“
挎
”
,后面有
“
篮
”
毫不意外,但是,如果盖住
“
篮
”
我们预测,我们更有可能在这个位置预测出
“
个
”——“
她挎着一个
”
,如果抛开背景,
“
个
”
出现在这里的概率不应该很低,但是,
“
篮
”
的
loss
低到
0.0210
,意味着什么呢?意味着模型认为这里出现
“
篮
”
的概率是
97.92%
。你说它见过没见过?但是,不用着急下结论。孤证不立,我们暂且往后看。
)
28
子
0.2617
(这没什么,
“
篮
”
后面当然是
“
子
”
。只是,你要注,意
“
子
”
的概率都没有
“
篮
”
高,如果这段文本对模型完全陌生的话,就反常了。正常情况下,比如你写一段文本,里面有
“
挎着篮子
”
的表述,
“
篮
”
的
loss
会比
“
子
”
高。)
29
荸
4.2812
(冷不丁来个
“
荸
”
,
loss
当然高。注意,模型虽然预训练时见过这段,而且见过多次,也绝对不意味着它能背下来。名词,尤其是陌生名词在第一次出现的时候,
token
通常都会很高。所以这里很正常,什么都说明不了。我们需要留意的是反常。)
30
荠
0.0001
(这里不是
“
荠
”
才怪,很正常。插一句,荸荠的荠读
qi
。和
“
荠菜
”
的
“
荠
”
读法不一样。高中语文。)
31
回
2.6094
32
去了
0.0153
33
,在
0.0280
(逗号加在也是一个
token
,但
loss
低到这地步也反常。也是一个佐证。)
34
柔软