专栏名称: 数据何规
数据安全及个人信息保护。
目录
相关文章推荐
青海教育  ·  带你认识大学专业 | ... ·  昨天  
青海教育  ·  带你认识大学专业 | ... ·  昨天  
Switch头号玩家  ·  索尼:在日本我们只将任天堂视为对手 ·  2 天前  
Switch头号玩家  ·  索尼:在日本我们只将任天堂视为对手 ·  2 天前  
GBA Community  ·  Vlogger's Stolen ... ·  2 天前  
GBA Community  ·  Vlogger's Stolen ... ·  2 天前  
广西新闻频道  ·  灵山县联合调查组发布情况通报 ·  2 天前  
广西新闻频道  ·  灵山县联合调查组发布情况通报 ·  2 天前  
科技日报  ·  重大突破!试验成功! ·  2 天前  
51好读  ›  专栏  ›  数据何规

漫画趣解:一口气搞懂模型蒸馏!

数据何规  · 公众号  · 科技自媒体  · 2025-02-18 19:02

主要观点总结

本文主要介绍了模型蒸馏的概念和过程。模型蒸馏是一种将大模型的能力迁移到小模型上的方法,在保证一定精度的同时,大幅降低运算成本和硬件要求。文章详细解释了模型蒸馏的过程,包括建立小模型的学习标准、结合原有数据集和教授模型的答案进行训练等。此外,文章还介绍了不同的蒸馏路线,如知识蒸馏、中间层蒸馏等,以及蒸馏与其他优化大模型的方法的比较和应用场景。

关键观点总结

关键观点1: 模型蒸馏的定义

模型蒸馏是把大模型学到的能力,通过“浓缩”的方式教给 small 模型的过程。

关键观点2: 模型蒸馏的过程

包括建立小模型的学习标准、结合原有数据集和教授模型的答案进行训练等步骤。

关键观点3: 知识蒸馏和中间层蒸馏的区别和联系

知识蒸馏是最常见、最通用的方式,相当于老师直接告诉学生答案;而中间层蒸馏则能学到最终的判断以及老师对图像或文本的内部理解。

关键观点4: 模型蒸馏的应用场景

模型蒸馏适用于将大模型的能力迁移到小模型上,以适配更低端的算力环境,如企业私有云、个人电脑、手机、边缘终端等。


正文

请到「今天看啥」查看全文


进行知识蒸馏,这些学生模型包括↓
看,前几天让大家本地安装的那些模型,其实就是从DeepSeek R1这个老师蒸馏得到的,每个学生都从老师身上学到了些“三脚猫”功夫。
因为学生模型的初始资质不同,所以得到的蒸馏模型能力也不同。
总之,脑容量越大(权重数/参数量),能力就越强,就越接近老师的水平。

那么,模型蒸馏具体是怎么干的呢?
简单说,就是老师做一遍,学生跟着学。
但针对每个输入的问题,老师不会直接给出确定答案,而是给出解题思路(俗称软标签)。
比如,输入一张猫的照片给老师模型,老师不会直接给出答案: 这是猫,而是给出一组概率分布,告诉学生,这张图可能是什么。
老师这么干,就是为了让学生具备 举一反三、触类旁通 的能力,用概率分布来对应各种类别的相似程度。
如果只告诉学生这是猫,学生就不知道它和老虎有多少差别。通过这种有概率分布的软标签,学生就知道了老师是如何判断、如何区分。

接下来,需要建立小模型的学习标准(综合损失函数)。
老师虽然NB,但小模型在学习的时候,并不会完全照搬老师的思路。
它会结合自己原有数据集中的硬标签( 猫就是猫、狗就是狗 ),再参考老师的答案,最终给出自己的判断。

所以,学生模型既要参考“ 教授给的学习笔记 ”(软标签),又要结合“ 妈妈给的判断 ”(原有监督学习中的硬标签)。
实操中,用“蒸馏损失”来衡量学生模型与教授模型输出结果的差异。用“真实监督损失”来衡量学生模型对基本是非问题的判断。
然后,再设定一个平衡系数(α)来调节这两种损失,达到一个最优效果。






请到「今天看啥」查看全文