专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

9位顶级研究员连讲3晚,华为盘古大模型底层研究大揭秘

机器之心  · 公众号  · AI  · 2025-05-26 18:59

主要观点总结

华为诺亚方舟实验室在系列分享会上介绍了其在大语言模型(LLMs)领域的最新进展,包括多个关键技术的突破和研究成果。分享涉及多个主题,包括模型性能优化、结构化剪枝、稀疏注意力等。

关键观点总结

关键观点1: 华为诺亚方舟实验室成功开发出基于昇腾算力训练的千亿级通用语言大模型Pangu Ultra,并在多个领域和评测上超越其他模型。

实验室团队在分享会上详细介绍了Pangu Ultra的特点和优势,包括其在计算资源和存储需求方面的优化。

关键观点2: 华为诺亚方舟实验室推出了稀疏大语言模型Pangu Ultra MoE,并在6000+块昇腾NPU上实现了对MoE模型的长期稳定训练。

实验室分享了其在MoE模型优化方面的技术突破,包括解决负载不均衡问题的创新架构MOGE。

关键观点3: 系列分享会包括多个子主题,如CBQ:一种基于跨块重建的LLM后训练量化框架、SlimLLM:面向大语言模型的精确结构化剪枝方法、KnowTrace: 一个基于结构化知识追踪的迭代式RAG框架等。

每个子主题的分享都包括了嘉宾简介、分享摘要和相关链接。

关键观点4: 分享会还涉及昇腾原生的盘古MoE大模型和无需训练、近似无损的基于LLM机理分析的大模型KV优化与反思压缩等话题。

实验室团队介绍了其在推理加速和高效部署方面的研究成果,包括硬件友好的KV分层混合精度自动寻优算法和verifier based LRM高效反思压缩算法。


正文

请到「今天看啥」查看全文



SlimLLM:面向大语言模型的精确结构化剪枝方法


嘉宾简介: 郭佳龙,华为诺亚方舟实验室研究员,研究生毕业于中国科学院大学。主要从事模型压缩领域相关工作,研究成果发表于国际机器学习顶会 ICML,以第一作者 / 共同作者身份发表论文 2 篇。


分享摘要: 大语言模型(LLMs)因其卓越的能力在众多应用中受到广泛关注,但其庞大的计算成本严重限制了实际部署与应用。为解决这一问题,结构化剪枝是一种有效压缩 LLMs 参数并减少计算量的方法,其关键在于准确评估各子模块的重要性并最小化性能损失。本文提出了一种高效快速的大语言模型结构化剪枝方法 SlimLLM。针对通道和注意力头的剪枝,我们基于整体通道或 head(而非简单聚合子模块内单个元素的重要性)评估重要性,从而更全面地考虑子模块内元素间的相互依赖关系。此外,我们为输出矩阵设计了一种简单的线性回归策略以快速恢复性能,并提出基于层的重要性比例来确定每层的剪枝率。在 LLaMA 基准测试中,SlimLLM 证明能有效保留剪枝模型精度,达到了最先进的性能水平。

20:20-21:00

KnowTrace: 一个基于结构化知识追踪的迭代式 RAG 框架


嘉宾简介: 戴全宇, 华为诺亚方舟实验室研究员。他本科毕业于上海交通大学,博士毕业于香港理工大学。他的主要研究兴趣是大语言模型智能体、个性化大语言模型和推荐系统。他在 KDD、WWW、NeurIPS、TKDE、TNNLS 等顶级学术会议和期刊上发表了 50 多篇论文,并常年担任这些会议和期刊的审稿人。


分享摘要: 近年来,检索增强生成(RAG)领域的最新进展为 LLM 提供了迭代检索相关信息的能力,以处理复杂的多跳问题。这些方法通常在 LLM 推理和检索之间交替进行,将外部信息逐步累积到 LLM 的上下文中。然而,迭代过程中不断增长的上下文使 LLM 难以捕捉关键信息片段之间的关联,而无效的推理步骤进一步加剧了这种过载问题。在本工作中,我们提出了 KnowTrace—— 一种简洁高效的 RAG 框架,旨在:(1)缓解上下文过载问题;(2)促进更高质量的多步推理。与简单堆叠检索内容不同,KnowTrace 能够自主追踪所需的知识三元组,构建与输入问题相关的特定知识图谱。这种结构化工作流程不仅为 LLM 提供了易于理解的推理上下文,还自然激发了一种知识回溯的反思机制,可识别出有贡献的 LLM 生成结果,将其作为过程监督数据用于自我引导提升。充分的实验表明,KnowTrace 在三个多跳问答基准测试中均持续超越现有方法,且通过自我引导提升的版本进一步放大了其优势。


相关链接:

Code: https://github.com/rui9812/KnowTrace

5月29日分享内容

19:00-19:40







请到「今天看啥」查看全文