专栏名称: 蚂蚁技术AntTech
分享蚂蚁集团的技术能力和技术文化。
目录
相关文章推荐
老刘说NLP  ·  48个流行开源ML数据集及KG三元组抽取工具 ... ·  2 天前  
程序员技术  ·  前美团员工求助:在美团背了个C绩效,慌得不行 ... ·  21 小时前  
大淘宝技术  ·  大模型微调知识与实践分享 ·  昨天  
极客之家  ·  22k star,微软硬核开源,让 ... ·  3 天前  
51好读  ›  专栏  ›  蚂蚁技术AntTech

加码 AI 生态,蚂蚁集团开源代码大模型 Ling-Coder-Lite

蚂蚁技术AntTech  · 公众号  · 程序员  · 2025-03-28 21:29

正文

请到「今天看啥」查看全文


本次发布关键总结如下:

  • 模型和数据集开源 :2 个轻量级代码大模型 Ling-Coder-Lite 和 Ling-Coder-Lite-Base 已在 Hugging Face 与 ModelScope 开源 。同时,蚂蚁集团开源用于退火训练的 SyntheticQA、用于后训练 SFT(Supervised Fine-tuning)和 DPO(Direct Preference Optimization)共计约 3000 万条数据(图 1(a)),支持社区进一步研究和开发。

  • 技术细节公开 :本次开源同步发布技术报告,公开更多关于高质量训练代码数据集构建方法,以及训练中数据分阶段混合配比策略的细节,助力行业共同推进代码大模型研究。

  • 效率与效果平衡升级 :基于 Ling-MoE 架构,Ling-Coder-Lite 总参数量为 16.8B,推理时激活参数仅为 2.75B ,同时兼顾了更高效率和更好效果。

  • 多语言和多任务支持 :Ling-Coder-Lite 支持 Python、Java、C++、JavaScript 等数十种常用编程语言,在 MultiPL-E 和 MBXP 等多语言基准测试中表现优秀;除简单的和多语言的代码生成之外,还支持竞赛类和应用类高级代码生成、代码理解和输入输出推理、数据科学和 SQL 类数据分析、代码修复等多个任务场景。

模型效果

在 12 个代码基准测试中,Ling-Coder 的表现和类似尺寸最佳模型(Qwen2.5-Coder-7B)不相上下(12 个中 7 个胜出),领先于 OpenCoder-8B 和 DeepSeek-Coder-V2-lite,具体参见图 1(b); 推理效率比 Qwen2.5-Coder-7B 快 1.5X~2X (图 1(c)),特别适合需要低延迟响应的场景,如 AI-IDE 中的代码补全。实际内部使用中,Ling-Coder-Lite 在相同延迟设定下,比此前基于 dense 架构的类似尺寸模型







请到「今天看啥」查看全文