专栏名称: 特大号
IT B2B 特大号!每日八卦最香艳2B绯闻!
目录
相关文章推荐
51好读  ›  专栏  ›  特大号

漫画趣解:一口气搞懂模型蒸馏!

特大号  · 公众号  ·  · 2025-02-12 11:20

正文

请到「今天看啥」查看全文


进行知识蒸馏,这些学生模型包括↓
看,前几天让大家本地安装的那些模型,其实就是从DeepSeek R1这个老师蒸馏得到的,每个学生都从老师身上学到了些“三脚猫”功夫。
因为学生模型的初始资质不同,所以得到的蒸馏模型能力也不同。
总之,脑容量越大(权重数/参数量),能力就越强,就越接近老师的水平。

那么,模型蒸馏具体是怎么干的呢?
简单说,就是老师做一遍,学生跟着学。
但针对每个输入的问题,老师不会直接给出确定答案,而是给出解题思路(俗称软标签)。
比如,输入一张猫的照片给老师模型,老师不会直接给出答案: 这是猫,而是给出一组概率分布,告诉学生,这张图可能是什么。
老师这么干,就是为了让学生具备 举一反三、触类旁通 的能力,用概率分布来对应各种类别的相似程度。
如果只告诉学生这是猫,学生就不知道它和老虎有多少差别。通过这种有概率分布的软标签,学生就知道了老师是如何判断、如何区分。

接下来,需要建立小模型的学习标准(综合损失函数)。
老师虽然NB,但小模型在学习的时候,并不会完全照搬老师的思路。
它会结合自己原有数据集中的硬标签( 猫就是猫、狗就是狗 ),再参考老师的答案,最终给出自己的判断。

所以,学生模型既要参考“ 教授给的学习笔记 ”(软标签),又要结合“ 妈妈给的判断 ”(原有监督学习中的硬标签)。
实操中,用“蒸馏损失”来衡量学生模型与教授模型输出结果的差异。用“真实监督损失”来衡量学生模型对基本是非问题的判断。
然后,再设定一个平衡系数(α)来调节这两种损失,达到一个最优效果。






请到「今天看啥」查看全文