多快好省，Qwen3混合部署模式引爆MCP

阿里云开发者 · 公众号 · 科技公司 · 2025-05-20 18:52

正文

请到「今天看啥」查看全文

docstring 等。

@classmethod def from_function(     cls,     fn: Callable,     name: str | None = None,     description: str | None = None,     context_kwarg: str | None = None, ) -> "Tool":     """Create a Tool from a function."""     func_name = name or fn.__name__ # 获取函数名
     if func_name == "":         raise ValueError("You must provide a name for lambda functions")
     func_doc = description or fn.__doc__ or"" # 获取函数 docstring     is_async = inspect.iscoroutinefunction(fn)

模型是通过prompt engineering，即提供所有工具的结构化描述和few-shot 的example来确定该使用哪些工具。

1.2.2 工具执行与结果反馈机制

承接上一步，我们把 system prompt（指令与工具调用描述）和用户消息一起发送给模型，然后接收模型的回复。当模型分析用户请求后，它会决定是否需要调用工具：

无需工具时：模型直接生成自然语言回复。

需要工具时：模型输出结构化 JSON 格式的工具调用请求。

如果回复中包含结构化 JSON 格式的工具调用请求，则客户端会根据这个 json 代码执行对应的工具。具体的实现逻辑都在process_llm_response中。

async def start(self):     ... # 上面已经介绍过了，模型如何选择工具
     while True:         # 假设这里已经处理了用户消息输入.         messages.append({"role": "user", "content": user_input})
         # 获取 LLM 的输出         llm_response = self.llm_client.get_response(messages)
         # 处理 LLM 的输出（如果有 tool call 则执行对应的工具）         result = await self.process_llm_response(llm_response)
         # 如果 result 与 llm_response 不同，说明执行了 tool call （有额外信息了）         # 则将 tool call 的结果重新发送给 LLM 进行处理。         if result != llm_response:             messages.append({"role": "assistant", "content": llm_response})             messages.append({"role": "system", "content": result})
             final_response = self.llm_client.get_response(messages)             logging.info("\nFinal response: %s", final_response)             messages.append(                 {"role": "assistant", "content": final_response}             )         # 否则代表没有执行 tool call，则直接将 LLM 的输出返回给用户。         else:             messages.append({"role": "assistant", "content": llm_response})

如果模型执行了 tool call，则工具执行的结果 result 会和 system prompt 和用户消息一起重新发送给模型，请求模型生成最终回复。如果 tool call 的 json 代码存在问题或者模型产生了幻觉，我们会跳过掉无效的调用请求。

所以，工具文档至关重要，模型通过工具描述文本来理解和选择工具，因此精心编写工具的名称、docstring 和参数说明至关重要。由于 MCP 的选择是基于 prompt 的，所以任何模型其实都适配 MCP，只要你能提供对应的工具描述。

1.3 用户如何使用MCP

对于用户来说，我们并不关心 MCP 是如何实现的，通常我们只考虑如何更简单的使用。

具体的使用方式参考官方文档： For Claude Desktop Users[3] 。这里不再赘述，配置成功后可以在 Claude 中测试： Can you write a poem and save it to my desktop? Claude 会请求你的权限后在本地新建一个文件。

并且官方也提供了非常多现成的 MCP Servers，你只需要选择你希望接入的工具，然后接入即可。

Awesome MCP Servers[4]
MCP Servers Website[5]
Official MCP Servers[6]

比如官方介绍的 filesystem 工具，它允许 Claude 读取和写入文件，就像在本地文件系统中一样。

1.4 总结

MCP (Model Context Protocol) 代表了 AI 与外部工具和数据交互的标准建立。通过本文，我们可以了解到：

MCP 的本质：它是一个统一的协议标准，使 AI 模型能够以一致的方式连接各种数据源和工具，类似于 AI 世界的“USB-C”接口。
MCP 的价值：它解决了传统 function call 的平台依赖问题，提供了更统一、开放、安全、灵活的工具调用机制，让用户和开发者都能从中受益。
使用与开发：对于普通用户，MCP 提供了丰富的现成工具，用户可以在不了解任何技术细节的情况下使用；对于开发者，MCP 提供了清晰的架构和 SDK，使工具开发变得相对简单。

二、Qwen3

2.1 介绍

4 月 29 日凌晨，在一众预告和期待中，阿里巴巴终于发布并开源了新一代通义千问模型 Qwen3。

Qwen3 采用混合专家（MoE）架构，总参数量 235B，激活仅需 22B。其中参数量仅为 DeepSeek-R1 的 1/3，成本大幅下降，性能全面超越 R1、OpenAI-o1 等全球顶尖模型。

Qwen3 还是国内首个“混合推理模型”，“快思考”与“慢思考”集成进同一个模型，对简单需求可低算力“秒回”答案，对复杂问题可多步骤“深度思考”，大大节省算力消耗。

Qwen3 在推理、指令遵循、工具调用、多语言能力等方面均大幅增强。在官方的测评中，Qwen3 创下所有国产模型及全球开源模型的性能新高：在奥数水平的 AIME25 测评中，Qwen3 斩获 81.5 分，刷新开源纪录；在考察代码能力的 LiveCodeBench 评测中，Qwen3 突破 70 分大关，表现甚至超过 Grok3；在评估模型人类偏好对齐的 ArenaHard 测评中，Qwen3 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。

性能大幅提升的同时，Qwen3 的部署成本还大幅下降，仅需 4 张 H20 即可部署 Qwen3 满血版，显存占用仅为性能相近模型的三分之一。对于部署，官方建议使用 SGLang 和 vLLM 等框架。对于本地使用，官方强烈推荐使用 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 等工具。

此外，Qwen3 还提供和开源了丰富的模型版本，包含 2 款 30B、235B 的 MoE 模型，以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款稠密模型，每款模型均斩获同尺寸开源模型 SOTA（最佳性能）：Qwen3 的 30B 参数 MoE 模型实现了 10 倍以上的模型性能杠杆提升，仅激活 3B 就能媲美上代 Qwen2.5-32B 模型性能；Qwen3 的稠密模型性能继续突破，一半的参数量可实现同样的高性能，如 32B 版本的 Qwen3 模型可跨级超越 Qwen2.5-72B 性能。

2.2 Qwen3 主要特点

2.2.1 混合思维模式

所有 Qwen3 模型都是混合推理模型，支持两种模式：

思考模式：在此模式下，模型会逐步推理，经过一系列思考后再给出最终答案。适用于需要深入思考的复杂问题。

非思考模式：在此模式下，模型快速响应，几乎即时给出答案，适合对速度要求高、但不需要深度推理的简单问题。

用户使用 API 可按需设置“思考预算”（即预期最大深度思考的 tokens 数量），进行不同程度的思考，灵活满足 AI 应用和不同场景对性能和成本的多样需求。比如，4B 模型是手机端的绝佳尺寸；8B 可在电脑和汽车端侧丝滑部署应用；32B 最受企业大规模部署欢迎，有条件的开发者也可轻松上手。

该设计使 Qwen3 展现出与推理预算成正比的、可扩展且平滑的性能提升。用户能够更轻松地根据不同任务配置推理预算，在成本效率与推理质量之间实现更优的平衡。

2.2.2 增强对 Agent 支持

Qwen3 为即将到来的智能体 Agent 和大模型应用爆发提供了更好的支持。团队优化了 Qwen3 模型的编码和 Agent 能力，并增强了对 MCP 的支持。

在评估模型 Agent 能力的 BFCL 评测中，Qwen3 创下 70.8 的新高，超越 Gemini2.5-Pro、OpenAI-o1 等顶尖模型，将大幅降低 Agent 调用工具的门槛。同时，Qwen3 原生支持 MCP 协议，并具备强大的工具调用（function calling）能力，结合封装了工具调用模板和工具调用解析器的 Qwen-Agent 框架，将大大降低编码复杂性，实现高效的手机及电脑 Agent 操作等任务。

2.2.3 多语言支持

Qwen3 模型支持 119 种语言和方言，极大地扩展了其在全球应用中的可用性。这种广泛的多语言功能使世界各地的用户能够在不同的语言和文化背景下充分发挥 Qwen3 的潜力。