下一阶段的叙事

调研纪要 · 公众号 · · 2025-06-09 23:58

正文

请到「今天看啥」查看全文

推理的本质是token调用，我们详细梳理了一遍有官方宣布的token调用情况。

【微软】FY25Q1，Azure AI平台处理的Token数量超过了100万亿（同比5倍增长），该Q最后1个月达到50万亿（#日均1.67万亿）。

【谷歌】IO大会给了token处理量图，24年4月的月均token是9.7万亿，25Q4达到480T（日均#16万亿），12个月的CAGR接近40%。

国内2024年中国公有云上大模型调用量达114.2万亿tokens，#日均近1万亿（IDC数据），字节市占率第一46.4%。

【字节】24年5月#日均1200亿，7月#日均5000亿，9月#日均1.3万亿，12月#日均4万亿，25年3月#日均12.7万亿。

【百度】24年5月#日均2亿次调用，6月#日均5亿次调用，8月#日均6亿次调用（超1万亿token），9月#日均7亿次调用，11月#日均15亿次调用（注意百度公布的是调用次数，没有完全换算成tokens）。

【阿里】24年5月#日均过亿次调用（也是调用次数，非tokens），其他数据较少。可能和Qwen开源有关，后续应该也会公布相应的数据。

【腾讯】24年5月#内部调用量达到2亿次，7月#单日调用次数超3亿，日均千亿tokens。

2、Agent应用逐渐扎实。 Cursor近期融资9亿、ARR超5亿美金。Manus可能已经近1亿美金ARR，Genspark 45天达到3600万美金ARR。其他无需多言。

3、国产算力“训练”逐渐扎实。 5月HW发布Pangu Ultra MoE，比肩R1，用的是910B，通过并行、通信、内存、专家负载优化，以及建模仿真确定参数等方法，实现6K Ascend NPUs 上 30.0% 的模型浮点运算利用率 (MFU) 和 1.46M 的每秒 token (TPS)。这个市场讨论的不多，但是我们觉得被低估了，全国产系统训练模型跑的已经不错了。

4、“具身智能”可用性逐渐扎实。终于不仅仅是搬箱子了，Figure的Helix在物流环境部署3个月后，灵活性与速度基本接近人类水平（单件4s vs 之前5s），而且那种软包装的快递也能很好的抓取、展平（官网连续展示了1h的物流产线操作，感兴趣可以看看）。主要优化包括增加视觉记忆、状态历史、力反馈，并验证了通过增加训练数据，包裹处理时间和准确度有很好的Scaling Law。

5、长任务执行能力逐渐扎实。 “长”序列执行能力是Agent必备的要素。一方面，Claude 4最值得关注的就是“模型独立运行7小时仍保持稳定性能”，为Agent的长序列执行能力奠定了基础。另一方面，Helix也加入了视觉记忆模块，实现时间延展性行为（比如记住之前包裹条码位置，以翻转包裹），并增强对任务中断的鲁棒性。