专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
目录
相关文章推荐
跟我学个P  ·  有必要回应关于降价的问题 ·  昨天  
旁门左道PPT  ·  29个粉丝,接到800元每页订单,他是咋做的? ·  昨天  
旁门左道PPT  ·  点一下就做出500元的PPT动画效果!这个定 ... ·  2 天前  
51好读  ›  专栏  ›  大模型智能

Qwen3-0.6B 能击败 Bert 吗?

大模型智能  · 公众号  ·  · 2025-05-26 00:00

正文

请到「今天看啥」查看全文


模型配置:

图片

数据集配置:fancyzhx/ag_news,分类数为 4,分别为 World(0)、Sports(1)、Business(2)、Sci/Tech(3)。训练样本数 120000,测试样本数 7600,样本数量绝对均衡。

数据集展示:

{  "text": "New iPad released Just like every other September, this one is no different. Apple is planning to release a bigger, heavier, fatter iPad that..."  "label": 3}
选择该数据集是在 Paper with code Text Classification 类中看到的榜单,并且该数据集元素基本上不超过 510 个 token(以 Bert Tokenizer 计算)。
因为 Bert 的最大输入长度是 510 个 token ,超过会进行截断,保留前 510 个 token ,所以为了进行公平的比较,尽量避免截断。
因为是多分类任务,我们以模型在测试集上的 F1 指标为标准,F1 值越高,模型效果越好。
04
Bert 训练细节
Bert 的训练比较简单,将文本使用 Tokenizer 转换成 input_ids 后,使用 Trainer 进行正常训练即可。
训练参数(若未单独指出,则代表使用 Trainer 默认值):
图片

训练过程中模型对测试集的指标变化:

图片
图片
可以看到 Bert 在测试集上最好结果是:0.945。
05
Qwen3 训练细节
使用 Qwen3 训练文本分类模型有 2 种方法:
  • 第 1 种是修改模型架构,将模型最后一层替换为输出维度为分类数的线性层。
  • 第 2 种是构造 Prompt ,以选择题的方式创建问答对,然后进行 SFT 训练。
06
线性层分类






请到「今天看啥」查看全文