专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
爱可可-爱生活  ·  《爱可可微博热门分享(6.18)》 ... ·  15 小时前  
机器学习研究组订阅  ·  谷歌Gemini ... ·  19 小时前  
爱可可-爱生活  ·  这篇论文从复杂性科学的视角,批判性地审视了L ... ·  2 天前  
51好读  ›  专栏  ›  量子位

华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群

量子位  · 公众号  · AI  · 2025-06-11 13:13

正文

请到「今天看啥」查看全文


,又要长文本生成 (像越野耐力赛) ,硬件很难同时满足;
  • 万卡集群:好比管理一个庞大车队,要避免“堵车”、“故障”,确保长时间稳定运行。
  • 而数字化风洞在这个过程中起到的作用,就像是一位让AI算力“少踩坑、跑得更快更稳”的智能调度专家。

    并且是对上述三大痛点逐一击破的那种。

    Sim2Train:小时级自动寻优

    训练大模型这件事可以说是越来越复杂,例如由于参数量越发庞大,就会对硬件提出更高的要求,传统的调度策略没法充分发挥它们的潜力。

    因此,华为团队提出了一个叫做 Sim2Train 的仿真平台,用来模拟训练过程,找到最优的硬件配置和训练策略,让昇腾设备跑得更快、更高效。

    这个平台主要的发力点在两个方面。

    首先是 模拟训练过程

    具体的方法叫做动静态融合的大规模训练集群建模仿真,可以通过模块化拼装AI任务流程,像搭积木一样灵活构建复杂模型,快速分析计算、内存和通信的资源消耗。

    再结合对昇腾硬件的深度适配能力,静态规划与动态调优双管齐下,精准提升大规模训练集群的运行效率。

    其次是 自动寻找最优方案

    它可以实现面向昇腾平台的模型结构智能搜索与优化,做到模型性能与功能能力的最优均衡。







    请到「今天看啥」查看全文