主要观点总结
文章介绍了腾讯混元系列模型中的快思考模型Turbo S的发布及特点。Turbo S能够实现快速响应,同时在知识、数理、创作等方面有突出表现。通过模型架构创新和工程优化,其部署成本大幅下降。文章还提到了快思考模型与慢思考模型的结合和补充,以及长短思维链融合等技术。最后,文章讨论了这一新模型对大模型市场可能产生的影响。
关键观点总结
关键观点1: Turbo S是腾讯混元系列模型的快思考模型,能实现快速响应。
区别于深度思考模型,Turbo S能够在几秒内给出答案,吐字速度提升一倍,首字时延降低44%。
关键观点2: Turbo S在知识、数理、创作等方面有突出表现。
通过模型架构创新和工程优化,Turbo S在多个领域展现出与业界领先模型相当的效果。
关键观点3: Turbo S的推出降低了大模型的应用门槛。
通过模型架构创新和优化,Turbo S的部署成本大幅下降,使得更多开发者和企业用户能够使用大模型。
关键观点4: 快思考和慢思考的结合和补充让大模型更智能。
快思考提供通用场景下的快速响应能力,慢思考提供深度解决问题的能力,两者的结合使大模型更智能、更高效地解决问题。
关键观点5: Turbo S的推出对大模型市场产生影响。
随着快思考模型的兴起,大模型市场的竞争将更加激烈,同时为用户提供了更多选择。
正文
团队通过分析和观察发现,用户约 90% 的请求都可以依靠大模型的「直觉」(即快思考模型),无需深度思考就能精准简洁地给出答案,所以针对这些请求需要模型能更快、更准地回应。
对于剩下的约 10% 的请求,需要模型能进行深度思考甚至反思,从而给出更精准的答案。
同时,快思考模型不仅成本更低,还具备强大的数据融合能力,能够融入 MySQL 模型或 Max 模型中的优质数据。
Turbo S 借鉴了腾讯的慢思考模型 Hunyuan T1 的数据,该模型使用一种称为长思维链合成的技术进行训练。这有助于 Turbo S 在保持其速度优势的同时,通过多步骤问题进行推理,使得对于其余 10% 需要反复反思思考的问题也能得到较精准答案。
在业界通用的多个公开 Benchmark 上,腾讯混元 Turbo S 在知识、数学、推理等多个领域展现出对标 DeepSeek V3、GPT 4o、Claude3.5 等业界领先模型的效果表现。
*表格中,其它模型的评测指标来自官方评测结果,官方评测结果中不包含部分来自混元内部评测平台
架构方面,通过创新性地采用了 Hybrid-Mamba-Transformer 融合模式,混元 Turbo S 有效降低了传统 Transformer 结构的计算复杂度,减少了 KV-Cache 缓存占用,实现训练和推理成本的下降。
传统 Transformer 架构存在以下缺陷
:
计算复杂度高,序列维度呈平方级关系,在训练和推理时复杂度高;
推理时需要 KV-Cache,且随着序列长度增加线性增加,部署成本高;预测时时间成本高,每步预测因叠加 KV-Cache 与序列长度呈线性关系,越往后生成越慢,尤其对于 Mamba 线性 Attention 机制,每步预测都是 O1 复杂度,所以需要做更高效的 attention 或甚至 linear 的 attention,目前行业内已有一些相关探索方案如 window attention、mobile、NSA 等,都是通过不同方式压缩计算复杂度。
Hybrid-Mamba-Transformer 融合架构是混元 Turbo S 中的一项突破性架构创新,通过融合两种强大的架构,平衡效率和上下文推理能力:
Mamba 是一种状态空间模型(SSM),专为高效处理长序列而设计,在内存使用上比 Transformer 更为节省。与 Transformer 不同,后者在处理长文本时会遇到 KV-cache 内存的平方级扩展问题,而 Mamba 可以在不产生过多计算开销的情况下处理更长的文本,更适合阅读、总结和生成长文档的回答(例如法律文本、研究论文等)。