正文
在处理多模态数据方面,
GPU具有不可替代性,未来端到端多模态大模型训练将进一步带动GPU需求。
在视频处理、仿真模拟领域,英伟达GPU仍然具有较大优势。
若采用语言大模型+转换器的方式,一些像素点可能会被略过导致训练效果不好,需要后期调整等各种工程化能力弥补;
但是,从美国的工程师文化来看,如果缺乏足够的资源支持开发团队进行大量尝试,过分强调工程上的优化会打击研发者的探索热情,因此在ASIC训练端出现重大突破之前,GPU仍然具有不可替代性,当前多模态(视频等)训练还有较大提升空间,仿真模拟场景训练刚刚兴起,GPU远未达到饱和。
1.4 远期视角,算力的合理配置或许是异构搭配模式
算力的最终形态可能将是ASIC、FPGA、GPU的统一生态。
对于大模型来说,算法可能还需要不断调整,使用通用性最好的GPU仍然是首选,展望未来,10万卡GPU集群或是企业能够承受的合理边际,进一步扩展会出现算力的边际效应递减,跨集群分布式训练或成为未来的新范式;
对于固定场景或垂直小模型来说,使用ASIC成功率更高,但需要关注未来小模型与大模型共存的情况下,模型间的协同问题;
在对性能功耗比要求比较苛刻的端侧使用ASIC、FPGA将成为比较好的解决方案。
2.1 推理大模型正在成为新一轮巨头竞赛的核心
传统大模型参数量的scaling law告一段落,目前巨头新模型的重点是推理的scaling law。
OpenAI o系列大模型的成功验证了推理的scaling law,更先进的大模型可能是将传统大模型与推理大模型二合一,不止能够对于简单问题快速响应,还能够对复杂问题利用推理链给出正确推理。
推理模型的兴起,一方面显著提高了推理端的算力需求(传统大模型输出一个答案可能几百tokens、推理大模型输出一个答案的思维链可能包含几千几万tokens),另一方面对RL强化学习产生新的需求(比如大模型给出几个落子选择,标注人员判断这几个选择哪个更好或更不好)。
需要注意的是,强化学习算法良好运行的前提是具有性能较好的大模型,而性能较好的大模型需要通过预训练来获得,所以RL与预训练是共赢的关系。
图:推理模型领先性
资料来源:
民生证券研究院
2.2 模型开始关注落地性,ROI成为重要指标
伴随
AI应用落地的不断探索,垂类模型和小模型等一系列能够跑出较高ROI的模型越发得到青睐,未来或成为应用的主力模型。