专栏名称: OSC开源社区
OSChina 开源中国 官方微信账号
目录
相关文章推荐
大淘宝技术  ·  淘宝直播数字人LLM推理优化:模型蒸馏与路径 ... ·  4 小时前  
程序猿  ·  阿里自曝被DeepSeek逼急了,春节加班搞研发 ·  20 小时前  
码农翻身  ·  60K*15薪!进字节了! ·  昨天  
程序员的那些事  ·  黄仁勋回应任正非最新讲话 ·  4 天前  
51好读  ›  专栏  ›  OSC开源社区

AI 云原生时代,开发一个 Agent 可以多便利?

OSC开源社区  · 公众号  · 程序员  · 2025-06-17 19:49

主要观点总结

本文介绍了火山引擎在 2023 年 6 月举办的开发者大会上发布的一系列 AI 相关产品和技术进展,包括 Agent 开发工具的更新以及多模态大模型的能力提升等。展现了火山引擎致力于打造覆盖 Agent 全生命周期的开发工具链和构建完整的生态闭环的努力。

关键观点总结

关键观点1: 火山引擎提出“AI 云原生”理念,并进行了三次迭代升级,旨在让 AI 从推理阶段开始就在云基础设施中得到原生支持。

火山引擎通过提出“AI 云原生”理念,将 AI 融入云基础设施,为大规模 AI 推理提供原生支持。该理念已经进行了三次迭代升级,旨在不断提升模型能力,以支持复杂的自主行为。

关键观点2: 火山引擎发布了豆包大模型的多个版本,包括支持深度思考、多模态理解等功能,并提供了按输入长度区间定价的模型调用方式。

火山引擎的豆包大模型在深度思考、多模态理解等方面有了显著提升,可以处理更复杂任务。同时,为了降低企业调用成本,推出了按输入长度区间定价的模型调用方式。

关键观点3: 火山引擎围绕“AI 云原生”理念,推出了 Agent 全栈开发工具链,包括提示词工具 PromptPilot、大模型生态广场 MCP Servers、TRAE 等平台与工具。

为了简化 Agent 开发过程,火山引擎提供了一系列工具,如提示词工具 PromptPilot、大模型生态广场 MCP Servers 和 TRAE 等。这些工具旨在解决 Agent 开发中的复杂性,确保开发者能够充分利用强大的模型,并获得平台、数据、安全等全方位的支持。

关键观点4: 开源技术方面,火山引擎展示了多个已开源的聚焦具体任务并显著提升生产力的 Agent 开发框架,如 veRL 强化学习框架、Deep Research 开源框架 DeerFlow 和 UI-TARS GUI Agent 框架等。

火山引擎在开源技术方面也取得了显著进展,推出了多个聚焦具体任务的 Agent 开发框架。这些框架旨在提高开发效率,降低开发门槛,并赋能开发者复用已验证方案,加速 AI 应用的落地与生产力革新。


正文

请到「今天看啥」查看全文


  • 系统设计: 架构围绕 LLM 推理能力或 RL 策略网络构建,重点设计工具集成、记忆机制和决策流程(如 Chain-of-Thought 或RL 环境)。

  • 编码实现: LLM 在运行时动态生成逻辑/决策( Prompt 工程驱动),或通过 RL 训练生成策略网络,开发者聚焦工具实现和流程编排。

  • 测试验证: 核心评估 LLM 输出的质量、安全性和工具调用准确性,或 RL Agent 的累积奖励,进行 Prompt 鲁棒性和对抗性测试。

  • 部署迭代: 部署模型和编排框架,通过更新 Prompt、工具、知识库(RAG)、微调模型或重训 RL策略实现持续学习和优化。

  • 开发者工作的重心从“编写具体业务逻辑的代码”转向“设计、训练、引导和约束 AI 的行为”,让 AI 自己去理解、推理、决策和执行任务。

    这就要求模型能力需要大幅提升,以支持复杂的自主行为。

    模型演进:多模态 + 深度思考的底层能力

    火山引擎最新发布的豆包大模型 1.6 系列,由三个版本组成:

    • Doubao-Seed-1.6: All-in-One  的综合模型,是国内首个支持256K  上下文的思考模型,支持深度思考、多模态理解、图形界面操作等多项能力。支持选择开启或关闭深度思考、自适应思考三种方式,其中自适应思考模式可根据提示词难度自动决定是否开启思考,提升效果的同时大幅减少 tokens 消耗。

    • Doubao-Seed-1.6-thinking: 豆包大模型 1.6 系列在深度思考方面的强化版本;在代码、数学、逻辑推理等基础能力上进一步提升;支持 256K 上下文。

    • Doubao-Seed-1.6-flash: 豆包大模型1.6系列的极速版本,支持深度思考、多模态理解、256K 上下文;延迟极低,TOPT 低至 10ms;视觉理解能力比肩友商旗舰模型。

    如今,豆包大模型的深度思考、多模态理解、图形界面操作等多种能力进一步提升,可以像人类一样理解和处理真实世界问题。

    其多模态能力支持文本、图像、视频等多模态数据的协同理解与生成,已广泛应用在电商识图、自动驾驶数据标注、门店巡检等场景。

    图形界面(GUI)操作能力基于视觉深度思考与精准定位,可以打开网页、填写表单、浏览器图片,下单预订等等。从大会现场演示案例来看,豆包 1.6 系列可自动操作浏览器完成酒店预订、识别购物小票并整理成 Excel 表格等任务。

    此外,火山引擎还发布了豆包视频生成模型 Seedance  1.0 pro,支持文字与图片输入,可生成多镜头无缝切换的 1080P 高品质视频。在国际知名评测榜单 Artificial Analysis 上,Seedance 在文生视频、图生视频两项任务上均排名首位,超越 Veo3、可灵2.0 等优秀模型。

    与此同时,豆包大模型一如既往地坚持低价策略。

    Agent 任务对 Token 的消耗极高,一个复杂任务可能需要 20 万 Token。因此火山引擎提出了按“输入长度”区间定价,深度思考、多模态能力与基础语言模型统一价格。

    在 0—32K 输入区间,豆包 1.6 的输入价格为 0.8 元/百万 tokens、输出价格为 8 元/百万 tokens,综合成本是豆包 1.5 深度思考模型或 DeepSeek  R1 的三分之一。当前,超过 80% 的企业调用请求集中在 32K tokens 以内。

    至于 Seedance 1.0 pro 模型,其每千 tokens 是 0.015 元,每生成一条 5 秒的 1080P 视频,要 3.67 元。

    豆包大模型的定价模式,意味着无论用户是否开启深度思考或多模态功能,Token 价格都完全一致,这让企业无需为非必要功能支付额外成本。

    事实证明,这些底层能力的持续优化和效率提升,正在转化为显著的技术红利,让开发者能更低成本、更高效率地构建复杂 Agent 应用,推动 AI 从技术能力向产业价值的大规模转化。







    请到「今天看啥」查看全文