TPU 性能提升 10 倍，开源 A2A 颠覆智能体交互 | Google Cloud Next 2...

InfoQ · 公众号 · 科技媒体 · 2025-04-10 12:34

正文

请到「今天看啥」查看全文

自去年与英伟达强强联手以来，谷歌提供了非常广泛的基于英伟达 GPU 的产品，这意味着用户可以使用英伟达的最新硬件在 Google Cloud 上训练生成式 AI 模型。今年，谷歌进一步推出了搭载英伟达 B200 和 GB200 Blackwell GPU 的 A4 和 A4X 虚拟机，显著增强了 GPU 产品组合。据透露，Google Cloud 还将成为首批提供英伟达下一代 Vera Rubin GPU 的公司之一，该 GPU 每个机架可提供高达 15 exaflops 的 FP4 推理性能。

除了芯片之外，在谷歌看来，存储是最大程度减少训练和推理瓶颈的关键组件，而为了实现更高的吞吐量和更低的延迟，谷歌此次在存储层面也进行了一系列更新，包括：

Hyperdisk Exapools：提供超大规模器的最高聚合性能和容量块存储，每个 AI 集群的容量高达 EB，性能高达每秒 TB 级；
随处缓存：能够智能地将数据保存在靠近加速器的位置，将存储延迟减少高达 70% ，并显著加快训练时间；
快速存储：这是谷歌的第一个区域对象存储解决方案，与最快的同类云解决方案相比，随机读写延迟降低了 5 倍。

软件层面，谷歌推出了三项针对 AI 推理的重大增强功能，包括：

Google Kubernetes Engine (GKE) 推理：GKE 中的新推理功能，包括新一代 AI 感知扩展和负载平衡功能，可根据内部基准测试将服务成本降低 30% 、将尾部延迟减少 60% 并将吞吐量提高 40%；
Pathways 上线：由 Google DeepMind 开发，支持先进的多主机推理，可实现动态扩展，并以最优成本提供卓越的性能；
vLLM 可用性：将 vLLM 引入 TPU，使得已使用 vLLM 针对 GPU 优化 PyTorch 的客户能够轻松且经济高效地在 TPU 上运行其工作负载，从而最大限度地利用其投资并提升灵活性。

AI 模型持续深入企业级场景

正是基于以上在 AI 超级计算机硬件和软件等层面的持续性能提升，使得谷歌可以提供更加智能、更低成本、更低门槛的 AI 工具，而这，恰恰是企业级规模化 AI 应用的重要前提。

其中，Gemini 作为谷歌功能最强大的 AI 模型系列，两周前谷歌就提前释出了 Gemini 2.5 Pro 公开预览版。据 Pichai 介绍，Gemini 2.5 Pro 现已在 AI Studio、Vertex AI 和 Gemini 应用程序中向所有人开放。

而在本次大会上，谷歌方面再次宣布，Gemini 2.5 Flash 即将登陆 Vertex AI。Gemini 2.5 Flash 是谷歌专为低延迟和成本效益而优化的主力模型，适用于实时摘要和文档探索，其特点是能够根据提示的复杂程度调整推理水平。此外，响应时间也可以根据问题的复杂程度进行调整，这意味着它需要更长的时间来响应需要事实核查的查询。

除了 Gemini，谷歌还是为数不多提供涵盖所有模式（包括图像、语音、音乐和视频）模型的公司，所有这些模型在本次大会上也有突破性的进展：

Imagen 3（文本转图像模型）：改进了图像生成和修复功能，可以重建图像中缺失或损坏的部分。此次更新显著提升了对象移除的质量，带来更自然、更流畅的编辑体验，在 LMArena 上排名第一；
Chirp 3（音频生成模型）：只需输入 10 秒音频就可以创建自定义语音，使企业能够个性化配置呼叫中心、创作内容并建立独特的品牌声音。此外，新的转录功能还可以在多人对话中分离并识别单个说话人，显著提高会议摘要、音频分析和多方通话录音等应用的转录清晰度和可用性；