主要观点总结
本文讨论了媒体上关于不同预训练模型如DeepSeek、Grok 3等的讨论和比较,包括预训练阶段的Scaling Law是否成立、不同模型的优缺点以及未来模型的发展趋势。文章分析了不同模型的性价比和效率,并提出了关于模型规模扩大和性能提升的一些假设和推测。
关键观点总结
关键观点1: 预训练阶段的Scaling Law仍然成立,但遇到数据瓶颈时,增加模型尺寸可提高效果,但性价比降低。
文章指出预训练阶段的Scaling Law成立,但当数据不足时,增加模型尺寸可以提高效果。按照性价比排序,Test time Scaling Law > RL Scaling Law > 预训练阶段Scaling Law。
关键观点2: Grok 3作为通用基座模型的特点和争议
文章讨论了Grok 3作为通用基座模型的特性,包括其评估方法、性能提升手段、算力消耗等。提出Grok 3耗费大量算力推大模型规模的原因可能是为了在Post-Training阶段通过RL Scaling获得更好的效果。
关键观点3: 对Grok 3和DeepSeek模型的比较与推测
文章比较了Grok 3和DeepSeek等模型的特点和性能,并对一些假设进行了推测,如RL Scaling和Test Time Scaling的天花板问题,以及AGI解决方案的完整性等。
正文
Grok 3 基座模型
(对标 DeepSeek V3,非 R1 这种逻辑推理模型)
为何Grok 3作为通用基座模型,它的评测指标只有数学、科学和代码数据集?没有通用能力比如最常用的MMLU指标的对比,这是不太规范的对比模式。推断可能Grok 3的通用能力相对OpenAI和DeepSeek的模型没有大幅提升,所以不拿出来比?
如果想要提升基座模型的数学、科学和代码能力,无论从方法还是从成本角度来讲,难度并不大,目前比较标准的做法是类似DeepSeek V3从DeepSeek R1蒸馏数学、代码等逻辑题的长COT数据,即深度思考过程数据。
就是说把深度思考长COT数据引入基座的Post-Training阶段、甚至前置到预训练阶段(所谓大模型 “左脚(DeepSeek 基座)踩右脚(DeepSeek R1)自我飞升” 的模式),这样就能大幅提升基座模型在数学和代码方面相关的能力,也就是Grok 3宣传具备的 “有思维链推理和自我纠错机制”,评测指标看着会比较好看,而且蒸馏的数据总量也不会太大(几百 B 级别应该够了),成本很低,对算力要求不高。
OpenAI很快会发布的非逻辑推理模型GPT 4.5 ,大概也应是类似的思路,从o3模型蒸馏COT数据,用深度思考数据来提升GPT 4.5基座模型的智商,大模型 “左脚踩右脚自我飞升” 大法,这会是之后基座模型提升能力的主要手段。
Grok 3的算力消耗是Grok 2的10倍,如果遵照Chinchilla Scaling Law,最佳做法是Grok 3的训练数据量比Grok 2增加3倍,模型大小同时比Grok 2增加3倍(但是目前的趋势是减小模型大小,增大数据量[就是说“小模型大数据”的模式],尽管这样不满足训练最优原则,但因为模型尺寸小了,所以这种模型更适合在线推理服务,降低服务成本)。
如果像发布会宣称的,Grok 3耗费算力是Grok 2的10倍消息为真的话,那有两种可能。
一种是数据量增长极大,这样只能是增加了大量多模态数据,比如数据量从10T增长到30T(目前文本模型使用的数据量,最多到18T到20T之间,基本到顶,再多没有了,要大幅增加只能加多模态数据,但是增加多模态数据对提升大模型智商帮助不大,所以这个增量按理说不应该太大),如果这样推算,Grok3的模型规模增长3倍左右。
第二种可能是训练数据量比20T增加的不多,如果这样可以推出Grok 3模型尺寸比Grok 2要大很多,至少4到5倍起步(若新增数据不多,那只能靠增加模型尺寸来消耗新增算力)。不论是哪种可能,Grok 3的模型大小肯定比Grok 2大了很多,而Grok 2模型本身可能就不小(Grok 2发布网页评测效果超 Llama 3.1 405 B,所以无论数据还是模型大小,都不会太小,要是Dense模型, 70B是最小的估计了),所以Grok 3的尺寸规模很可能不是一般的大(感觉在200B到500B之间)。