专栏名称: InfoQ
有内容的技术社区媒体。
目录
相关文章推荐
51好读  ›  专栏  ›  InfoQ

腾讯混元 TurboS 技术报告首次全公开:560B 参数混合 Mamba 架构,自适应长短链融合

InfoQ  · 公众号  · 科技媒体  · 2025-05-24 10:15

正文

请到「今天看啥」查看全文


本节将详细介绍预训练数据的处理、创新的模型架构设计,以及退火(Annealing)和长上下文预训练策略。

预训练数据

图片

预训练数据的质量、数量和多样性对 LLM 的性能至关重要。相较于先前的混元 Large 模型,腾讯混元 TurboS 在数据处理上进行了显著增强。团队开发了全面的评估模型和数据混合模型,引入了包含数十个结构化领域标签的基础质量标准,确保了数据选择和整合的原则性。 最终,腾讯混元 TurboS 在包含 16 万亿 Token 的语料上进行训练

模型架构

图片

混元 TurboS 的核心是一种混合架构,整合了 Transformer、Mamba2 和 FFN 组件,旨在实现训练和推理的效率与可扩展性。

  • 宏观参数:模型总层数为 128 层,激活参数量 56B,总参数量 560B。其中,每个 Attention、FFN、Mamba2 块计为一层。

  • 层级构成:FFN 层占比 50%,Attention 层占比约 5.5%,Mamba2 层占比约 44.5%。FFN 层采用 MoE 结构,包含 1 个共享专家和 32 个专门专家,每个前向传播激活 1 个共享专家和 2 个专门专家。Mamba2 层采用状态空间模型(SSM)架构,实现了序列长度的线性复杂度 O(n)。

  • 模块模式:“AMF”(Attention→Mamba2→FFN)被确认为一种优化的原子配置,有效平衡了效率。同时,结构中也采用了“MF”(Mamba2→FFN)模块以进一步提升效率。Hunyuan-TurboS 采用了“AMF”和“MF”模块的交错架构。

退火阶段 (Annealing)

退火阶段的数据是异构混合的,包括高质量预训练数据、代码、数学、STEM 相关语料、指令遵循数据(如长 CoT 数据)和其他合成样本。

长上下文扩展

预训练的最后阶段,采用课程学习策略逐步扩展模型的上下文窗口,从 4K Tokens 扩展到 32K,最终到 256K Tokens。

预训练模型评估

在 23 个广泛使用的基准上对预训练的腾讯混元 TurboS 进行了评估,结果显示其与 SOTA 模型相比具有强大的基础能力。

图片

注:表格中,其它模型的评测指标来自官方评测结果,官方评测结果中不包含部分来自混元内部评测平台

后训练:自适应长短思维链融合

后训练阶段对混元 TurboS 的各项能力进行了精雕细琢和显著增强。该阶段包含四个环环相扣的关键模块:监督微调、自适应长短思维链融合、多轮反思学习以及两阶段大规模强化学习。

图片

监督微调 (SFT)

SFT 数据的质量和多样性对 LLM 在各类任务上的表现至关重要。混元 TurboS 的 SFT 数据被细致地划分为多个主题,为每个主题收集高质量样本并整合。

数据来源与构建

涵盖数学(教材、考试、竞赛)、代码(开源仓库代码片段转为指令对)、逻辑(公共 / 授权数据源,自动化合成)、科学(物理、化学、生物)、语言中心任务(理解、翻译、生成)、创意写作、英文及多语言、复杂指令、角色扮演、知识问答、多轮对话、金融 / 法律 / 医学以及安全等 13 个领域。

最终构建了百万级样本的 SFT 数据集(包含推理型和非推理型数据)。其中,需要较长 CoT 的复杂推理任务(数学、代码、科学、逻辑)会经过额外处理,采用内部教师模型,生成自适应长短 CoT 响应。非推理型数据则直接使用原始响应。

自适应长短思维链融合

(Adaptive Long-short CoT Fusion)

该方法旨在让 LLM 能够根据问题复杂度自主决定使用长 CoT 还是短 CoT,以及推理的深度,创造性地将两种推理模式融合进单一模型。先前研究表明长 CoT 在数学等推理领域特别有效,因此该方法主要应用于推理数据(数学、STEM 等),而非推理数据主要使用短 CoT 模式。团队训练了一个自适应长短 CoT 融合教师模型,其训练分为两阶段:







请到「今天看啥」查看全文