专栏名称: 机器学习算法与自然语言处理
一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
目录
相关文章推荐
山东省交通运输厅  ·  绿丝带飘扬十九载,爱心护航大学梦 ·  20 小时前  
德州晚报  ·  刚刚,开考!加油,高考生! ·  昨天  
数据中心运维管理  ·  弱电智能化中究竟有多少个子系统? ·  2 天前  
澜铂湾  ·  奥特莱斯·澜铂湾 ... ·  昨天  
鲁中晨报  ·  国足,出局! ·  2 天前  
51好读  ›  专栏  ›  机器学习算法与自然语言处理

深入剖析!如何区分有价值和无价值的数据?

机器学习算法与自然语言处理  · 公众号  ·  · 2025-05-29 00:00

正文

请到「今天看啥」查看全文


这让我联想到教育心理学中的"最近发展区"理论——学习最有效的内容不是太简单也不是太难,而是那些恰好有一定挑战性的内容。

2.3 选择性语言建模(SLM):聚焦有价值的学习

基于以上发现,论文提出了"选择性语言建模"方法。核心思想很直观:只对有价值的token进行训练。

具体来说,SLM通过以下步骤工作:

  • • 计算每个token的"超额损失":主模型损失减去参考模型损失
  • • 根据超额损失排序,选择top-k%(通常60-70%)的token
  • • 只对选中的token计算梯度并更新模型参数

表面上看,这似乎会导致信息丢失。但实际上,模型仍然会处理所有token以维持上下文理解,只是不对那些"不值得学习"的token计算损失和更新参数。

2.4 实现细节

原作者开源但是没有完全开源,因此本文是基于unoffical的代码来讲解SLM Loss的细节

2.4.1 超额损失计算:

每个token的超额损失公式为:

其中,







请到「今天看啥」查看全文