专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
相关文章推荐
51好读  ›  专栏  ›  DeepTech深科技

开启人机交互新范式:科学家构建超级智能体基础设施体系,突破AI部署的“不可能三角”

DeepTech深科技  · 公众号  · 科技媒体  · 2025-05-07 16:23

正文

请到「今天看啥」查看全文



有句广告语“只选对的,不选贵的”,对于模型的选择也同样适用。尽管 DeepSeek、ChatGPT 等大模型拥有强大的性能,但对于总结文档、日常聊天等简单任务,利用小模型或调用经过微调的专家模型往往更高效。


该团队所开发的 TensorOpera Router(以下简称为“Router”)[2] 本质上是一个“Prompt-to-Model”分类系统。其通过 谷歌 的 BERT 等语义理解模型和监督学习方法,通过分析任务需求,动态选择最适合的专家模型对相关请求进行处理。


图丨 Router 系统对路由器数据准备、路由器模型训练和部署流程的概述(来源: arXiv


Router 系统的技术优势体现在多个维度:


首先,它能精准识别任务的复杂度。例如面对数学问题时,系统可以识别“1+1=2”这类简单计算无需调用大模型,而对看似简短实则复杂的问题则能匹配专家模型。


其次,系统整合了生物、金融等领域的微调专家模型,通过智能路由实现最优模型组合,为高效智能地进行多模型选择提供了新方案,而这种智能的路由方式是之前静态路由所无法实现的。


更重要的是, Router 创新性地解决了模型选择中准确率、效率和成本的“不可能三角”问题。


在 8 台 NVIDIA DGX H100 GPU 的实验条件下,相比于固定模型推理, Router 实现了最高 30% 成本下降(基于真实商业定价模型),以及 40% 的吞吐量提升。 即便面对模型服务商动态调整计费策略(如按 API 调用次数收费)的情况,系统仍能保持高效运行。


考虑到真实高并发场景(如每秒数万次请求)下单点故障的情况,研究人员设计了一种冗余机制:当某次请求失败时,系统可自动切换到备用节点重新发起请求,以保障系统的持续正常运行。


在技术指标方面,模型选择性能接近最优模型选择,BERT 相似度评分提升达 10%;在边缘-云混合部署架构中,Router 系统能够有效将大部分请求分配到如 Fox-1.6B 等边缘小模型上,仅将复杂任务交给 GPT-4o 等云端模型,从而实现了推理效率与资源调度的最佳配置。


图丨对独立部署的专家模型和不同路由方法的模型性能、吞吐量和总查询成本进行了全面的分析(来源: arXiv


目前,该技术已在实际应用场景中展现出显著价值。例如, TensorOpera 与高通合作,成功将 Router 部署在 高通 显卡上,显著提升了能效比和性价比。


另一个典型案例是某大型聊天网站,通过 Router 架构每天高效处理 300 万次访问请求。“我们仅用少量 GPU 资源就满足了他们的业务需求,这充分证明了智能路由系统的商业价值。” 姚宇航 表示。


解决 Agent 实际部署难题:四大核心模块,构建超级智能体的操作系统


在 Router 基础上,研究人员通过开发 Super Agent System 实现了技术架构的进一步扩展。


Super Agent System 采用模块化设计理念,由四大核心组件构成一个完整的智能体生态系统。


1. 意图路由与自动规划(Intent Router + Planner)


用户只需输入自然语言请求,系统会自动识别其意图并路由到合适的任务 Agent(如财务分析、代码生成、内容检索等)。


图丨通过函数调用对用户意图进行分类(来源: arXiv


值得关注的是,系统还能自动生成多 Agent 协作的执行计划。以用户需要写一篇关于不稳定关税交易策略的文章为例,该系统会自动规划并协调三个 Agent 构成完整的流程,它们分别负责:查找实时关税信息、设计金融策略,以及实现 C++ 代码。







请到「今天看啥」查看全文


推荐文章
考研英语时事阅读  ·  【核心词汇】DAY 22
8 年前
药时代  ·  科学家或揭开湿疹之谜
8 年前