主要观点总结
本文介绍了近期大模型、端侧模型以及AI技术的发展和进步,包括面壁智能发布的端侧模型MiniCPM-4的技术亮点和规模法则可持续发展问题,苹果全球开发者大会(WWDC 2025)和「Advancing AI 2025」活动的预告及相关内容。文章还涉及训练后量化和量化感知训练的技术问题以及AMD在人工智能方面的愿景和新产品技术介绍。
关键观点总结
关键观点1: 大模型的知识密度正极速提升,训练成本加速降低。
从ChatGPT到多模态与具身智能的崛起,显示出大模型的快速发展。
关键观点2: 面壁智能发布端侧模型MiniCPM-4,实现超高稀疏度和极速响应。
模型具有5%的超高稀疏度,实现220倍极速响应,并解锁了端侧128K上下文。
关键观点3: 规模法则可持续发展问题受到关注。
随着模型参数的增长,训练成本将成为无法承受之重,引发对可持续发展的思考。
关键观点4: 苹果全球开发者大会(WWDC 2025)将发布全新系统,包括iOS 19、iPadOS 19等。
大会将展示前所未有的视觉设计变革和Apple Intelligence技术的深度整合。
关键观点5: AMD在人工智能方面有大胆愿景,将推出新产品和技术。
活动将介绍基于「CDNA4」架构及3nm制程的下一代Instinct GPU——MI350系列加速器,以及ROCm开放软件生态系统的最新进展。
正文
|
答主:
zibuyu9
规模法则可持续发展问题。
大模型在规模法则(Scaling Law)的指引下,参数规模从 2018 年的千万量级发展到 2024 年的千亿量级( Llama3.1-405B )。到了 2024 年下半年,逐渐出现规模法则是否可持续的大讨论,一方面有互联网公开可获取数据日益被用尽的担忧,另一方面则是模型训练和推理所需算力与模型参数呈正比,Llama3.1-405B 已经需要 1.6 万块 H100 进行训练,如果模型参数再像过去几年那样增长成百上千倍,意味着要训练一个 100 万亿参数的模型需要 400 万张 H100 ,这相当于英伟达 2023 年全年 H100 生产总量的几倍,训练和推理成本都将是人类无法承受之重。
信息革命与算力普惠。
我们从 2023 年底就在思考规模法则在算力成本上的可持续发展问题,研发 MiniCPM 系列模型的过程,也是我们不断加深对这个问题认识的过程。总结而言,我们认为近百年的信息革命为我们提供了重要启示: 1945 年全球第一台电子计算机 ENIAC 重达 27 吨、功耗为 150 千瓦、算力仅为 5000 次/秒,需要一大间屋子才能放得下;而 2024 年主流智能手机 iPhone 16 重量仅为百克、算力高达 35 万亿次/秒( A18 芯片 35TOPS ),几乎成为信息社会人人都会随身携带的计算设备。
|
答主: