专栏名称: 美股投资网
美国洛杉矶投资公司,TradesMax.com为美股投资者提供美股行情和投资策略的专业网站。一支有着多年华尔街投资银行工作经验的美籍分析师团队,提供公司研究报告、美股交易技巧、美股软件、美股开户指南、微信客服niugu88,微博美股投资网
目录
相关文章推荐
年大  ·  熬过黑夜,方见黎明 ·  6 小时前  
年大  ·  熬过黑夜,方见黎明 ·  6 小时前  
固收彬法  ·  流动性|资金利率中枢再度下移 ·  昨天  
诸海滨科新先声  ·  【周周北交所问卷No.49】北交所市场热点持 ... ·  2 天前  
唐史主任司马迁  ·  昨天大家都只有20啷当岁,想着怎么摇拉布布, ... ·  2 天前  
东方财富网  ·  3年30倍!有“泡泡”了吗? ·  2 天前  
51好读  ›  专栏  ›  美股投资网

“不用英伟达GPU”!中国产AI芯片重大突破,训练成本降百万

美股投资网  · 公众号  · 股市  · 2025-03-28 09:21

正文

请到「今天看啥」查看全文



此外,蚂蚁还优化了存储和异常处理机制,进一步提高了大规模训练的效率。通过采用多租户技术和用户空间文件系统(FUSE),蚂蚁有效提升了MoE场景中的I/O效率,减少了训练的时间开销。针对硬件故障和异常,蚂蚁开发了多层次的异常检测系统和自动恢复机制,以确保训练进度不受影响。


为了在跨集群训练中提高模型评估的准确性,蚂蚁还提出了一些创新的评估策略。他们开发了一种自主创新的离线推理框架Flood,以及可扩展的跨集群评估系统,成功提高了评估结果的稳定性,平均偏差小于0.5%。同时,蚂蚁还将评估结果与模型性能、数据集相结合,形成了一个实时反馈调整训练策略的自动分析系统。


更重要是,蚂蚁在提升工具使用能力方面也做了大量的工作,特别是在高质量数据合成和自适应工具学习上。通过知识图谱技术和广义调用指令,蚂蚁成功地提取出多样化和复杂的函数链,从而增强了模型在实际场景中的应用能力。


其中,蚂蚁的Ling系列MoE模型便是这一系列技术优化的成功应用。Ling-Lite模型包含168亿个参数,激活参数为27.5亿,而Ling-Plus则拥有2900亿参数和288亿激活参数。知情人士透露,蚂蚁计划利用这些技术突破为医疗、金融等行业提供AI解决方案。根据一系列综合评估基准,Ling-Lite模型在资源和预算有限的情况下,性能与Qwen2.5-7B-Instruct相当,同时优于Llama3.1-8B-Instruct和Mistral-7B-v0.3-Instruct。在数学和代码基准测试中,Ling-Lite的表现与Qwen2.5-7B相当,超过了Llama3.1-8B和Mistral-7B v0.3。

Ling-Plus模型在性能上与DeepSeek等领先的开源模型非常接近,尤其在英语理解能力和GPQA数据集的得分上,Ling-Plus超越了DeepSeek-V2.5。 在数学、中文测试中,Ling-Plus的表现与Qwen2.5-72B相似,在代码测试中也与Qwen2.5-72B持平,略低于DeepSeek-V2.5。

图片

图片 然而,蚂蚁也表示,尽管Ling-Plus在多个方面表现优秀,但与DeepSeek V3相比,仍有一定差距。

图片


训练过程中遇到的几大难题


蚂蚁集团在训练过程中遇到了一些非常棘手的难题。


首先,损失发散、损失尖峰和专家负载不平衡成了他们的主要挑战, 尤其是在MoE(专家混合)模型中,保持专家之间的负载均衡至关重要。任何损失尖峰都会引发梯度爆炸,进而打乱路由平衡,最终导致整个模型的不稳定。为了应对这些问题,蚂蚁团队采用了尖峰缓解技术,并结合了平衡损失和路由器Zloss策略,这使得他们能够稳定训练拥有数千亿参数的MoE模型,成功避免了损失发散和专家路由失衡等问题。


此外LLM的跨平台迁移训练同样困难重重。 蚂蚁团队发现,不同平台之间基础操作的实现差异和框架问题,往往导致训练结果的不一致。为了避免这种情况,蚂蚁采取了严格的对齐策略,通过大量前期实验,确保不同平台间的基础操作和通信算法能够保持一致,并且特别关注了数值计算中的微小精度误差。在验证这些基础组件之后,蚂蚁才开始进行大规模的语言模型训练。


然而,验证了基本操作后,蚂蚁团队意识到,仅仅对齐基本操作并不足以确保无缝的跨平台迁移。在接下来的训练过程中,他们发现,跨平台的训练依然存在损失收敛的不一致性。







请到「今天看啥」查看全文