主要观点总结
本文介绍了合成数据在生成式人工智能模型训练中的重要性以及带来的挑战。研究团队在ICML 2025会议上提出了一种新的数据生成策略Token-Level Editing,旨在避免模型崩溃。该策略在真实数据上进行微编辑操作,构建出结构更稳定、泛化性更强的半合成数据。文章还分析了合成数据对语言模型训练的影响,并指出合成数据的结构性缺陷。通过实验验证了Token-Level Editing方法的有效性,并在不同语言模型训练阶段进行了系统实验。
关键观点总结
关键观点1: 合成数据在生成式人工智能模型训练中的重要性及挑战。
随着生成式人工智能技术的飞速发展,合成数据成为大模型训练的重要组成部分,但也带来了模型崩溃的风险。
关键观点2: Token-Level Editing策略的提出及作用。
研究团队在ICML 2025会议上提出了一种新的数据生成策略Token-Level Editing,该策略在真实数据上进行微编辑操作,旨在有效避免模型崩溃。
关键观点3: 合成数据对语言模型训练的影响及结构性缺陷。
研究团队分析了合成数据在语言模型训练中的影响,并指出合成数据存在分布覆盖收窄和特征过度集中等结构性缺陷。
关键观点4: Token-Level Editing方法的有效性验证。
研究团队通过系统实验验证了Token-Level Editing方法的有效性,并在预训练、持续预训练和监督微调阶段都取得了良好的结果。
正文
非迭代式模型崩溃现象识别
为了揭示合成数据对语言模型训练的影响,研究团队系统分析了不同合成比例下的模型训练行为。实验显示,即使只进行一次预训练,在数据中混入高比例的合成数据,也会显著导致性能下降。这种现象被称为
非迭代式模型崩溃(Non-iterative Collapse)
,并在多个语言理解任务上得到了验证。
通过进一步统计分析,研究发现,合成数据相较于人工数据存在两类结构性缺陷:
Token-Level Editing
以编辑替代纯生成
更精细、更高质量的数据生成方式
为了解决上述问题,作者团队提出了一种 Token-Level Editing 方法不依赖生成整段文本,而是在训练数据中仅针对模型 “过度自信” 的 token 进行替换,定义如下编辑规则: