专栏名称: 学习时报
《学习时报》1999年9月创刊,中共中央党校主办,面向全国,服务全党,以各级党政干部和广大知识分子为主要对象,是国内外公开发行的全党唯一专门讲学习的报纸。
目录
相关文章推荐
半月谈  ·  统一规划下的旅游区,变成了流水线? ·  19 小时前  
底线思维  ·  如此恶行,仅追究“寻衅滋事”是否足够? ·  2 天前  
半月谈  ·  6岁女童被男子拖进巷子,警方通报! ·  2 天前  
51好读  ›  专栏  ›  学习时报

何为“知识蒸馏”

学习时报  · 公众号  · 政治  · 2025-05-22 19:30

正文

请到「今天看啥」查看全文


知识蒸馏最早被用于减少模型的参数量,以此降低人工智能模型的存储成本和计算成本。当前的人工智能模型参数量大,其计算速度慢、存储成本高,在实际应用中存在诸多不便。例如,在自动驾驶中,人工智能模型计算速度慢会导致自动驾驶汽车无法快速地感知周围环境,容易造成交通事故;在手机应用上,人工智能存储成本过高会导致其占用大量手机存储空间,导致手机卡顿,影响用户体验。早期的知识蒸馏让参数量小、性能不佳的学生模型学习参数量大、性能好的教师模型。理想情况下,如果学习成功,小的学生模型掌握了与教师模型相同的知识,那么就可以在继承教师模型优良性能的同时维持参数量小的优势,实现“又小又好”。研究人员将这一过程与物理学中的“蒸馏”联系起来,意在通过此种方式将模型中无用的参数“蒸发”,将重要的知识保留,因此称为知识蒸馏。

在大模型时代,知识蒸馏受到了更加广泛的关注。一方面,大模型的参数量与传统模型相比有了百倍、千倍乃至万倍的增长,模型的参数成本和计算成本被进一步放大,因此对于它们的压缩和加速需求也就更加显著。例如,DeepSeek V3模型有6710亿参数,是传统人工智能模型BERT的2000多倍,这意味其计算耗时和存储成本也增长了千倍以上。为了将类似DeepSeek的大模型在个人电脑、手机等小设备上部署,就需要进一步探索和利用知识蒸馏技术,将DeepSeek的知识提取出来,存到小的模型上。







请到「今天看啥」查看全文