专栏名称: AIGC新智界

区块链/数字货币/比特币中文资讯，创立于2011年，200多位专栏作入驻平台，国内最大区块链资讯原创基地（公众号【原创】认证），我们为以下合作伙伴供稿：火币、OKCoin、BTC.com、BTCC、币看、BTC123、比特时代、挖币网

国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

AIGC新智界 · 公众号 · 比特币 · 2024-11-22 17:25

主要观点总结

国内初创公司阶跃星辰的AI模型Step系列在LiveBench排行榜上取得显著成绩，其中Step-2成为全球前五的唯一国产公司，展现了强大的语言生成能力和内容创作能力。该公司在语言模型和多模态模型方面都有出色的表现，并采用了MoE架构进行自主研发。同时，阶跃星辰还展示了其在图像生成和多模态理解方面的技术能力。另外，智源研究院推出的辩论平台FlagEval Debate为评估大模型能力提供了新的度量标尺。

关键观点总结

关键观点1: Step系列在LiveBench排行上获得亮眼成绩

Step-2在全球第五的位置中展现出强大的语言生成和内容创作能力，尤其在指令跟随方面表现出色。

关键观点2: 阶跃星辰的技术实力和创新

阶跃星辰采用MoE架构自主研发语言模型和多模态模型，展现了强大的技术实力和创新能力。

关键观点3: FlagEval Debate平台的特点和意义

该平台通过模型辩论的方式评估大模型的能力，包括信息理解、知识整合、逻辑推理等方面，提供了一个新的度量标尺。

关键观点4: 中国AIGC产业应用峰会的意义和内容

该峰会汇集了行业专家和领军企业，共同探讨AIGC领域的热点话题，展示了中国在该领域的最新进展和发展趋势。

正文

请到「今天看啥」查看全文

这意味着，Step-2在语言生成上对细节有强控制力，理解能力max，然后更好地遵循人类指令。

更具体些可以理解为，当我们普通人输入语句颠倒、语意不清、表意模糊的非专业·真普通·prompt时，Step-2能结合上下文、具体情境推断使用者的具体需求，把一个模糊指令从“360p”进行“1080p”的理解，精准捕捉模糊指令背后的真实意图。

同时意味着内容创作能力也很强，比如让它创作一首古诗词，它在字数、格律、押韵、意境等方面，都能有精准的把控。

完全自主研发，MoE架构，万亿参数

在这次因为LiveBench又出来炸场一波之前，Step-2留给外界的最深刻印象，一定有一个是“国内首个由初创公司推出的万亿参数大模型”。

这有点像阶跃风格的具像化。在大模型六小虎中，阶跃的Step系列发布最晚，但出手毫不含糊。

今年3月，Step-2在全球开发者先锋大会开幕式预览亮相，一下子就从前作Step-1的千亿参数规模，拉升到了万亿参数规模。

吊足了胃口后，夏天的WAIC 2024期间，Step-2推出正式版。

模型采用了MoE架构。

一般而言，主流训练MoE模型有两种方式，不然就基于已有模型通过upcycle（向上复用）开始训练，不然就从头开始训练。

Upcycle方式所需算力相对更低、训练效率更高，但随随便便就到这种方式的天花板了。

比如基于拷贝复制得到的MoE模型，非常容易出现专家同质化严重的情况。

而选择从头开始训练MoE模型的话，能够探得更高的模型上限，但作为代价，训练难度也会增大。

但阶跃团队还是选择了后者，选择完全自主研发，选择从头开始训练。

过程中，通过部分专家共享参数、异构化专家设计等创新MoE架构设计，Step-2这个混合专家模型中的每个专家都得到了充分训练。

故而，Step-2总参数量达到万亿级别，每次训练或推理所激活的参数量也超过了市面上的大部分Dense模型。

此外，Step-2的训练过程中，阶跃的系统团队突破了6D并行、极致显存管理、完全自动化运维等关键技术，支撑起了整个模型的高效训练。

初亮相时，阶跃官方表示：

Step-2在数理逻辑、编程、中文知识、英文知识、指令跟随等方面体感全面逼近GPT-4。

结合这次LiveBench AI的成绩来看，团队对Step-2的定位、优势所在，把握得很清晰。

基座模型技术能力强，关键是要让人用起来才行。

官方消息是，Step-2已经接入了阶跃星辰的C端智能生活助手「跃问」，Web端和App都可以试一把。

如果是开发者，可以在阶跃星辰开放平台通过API接入使用Step-2。

语言模型和多模态模型全都要

开篇咱们提到，Step模型是一个系列，而Step-2是其语言模型的实力代表。

在这个系列中，除了语言模型，阶跃星辰的多模态模型也很有看头。