专栏名称: 字节跳动技术团队
字节跳动的技术实践分享
目录
相关文章推荐
字节跳动技术团队  ·  掘金 AI 编程社区- 人人都是 AI 编程家竞赛 ·  13 小时前  
字节跳动技术团队  ·  ByteBrain团队EuroSys25 ... ·  昨天  
字节跳动技术团队  ·  基于LLM的AI应急:多模态信息智能化分析整 ... ·  2 天前  
51好读  ›  专栏  ›  字节跳动技术团队

ByteBrain团队EuroSys25 | 秒级推理强化学习系统,实现云计算虚机重调度

字节跳动技术团队  · 公众号  · 架构  · 2025-06-05 13:56

主要观点总结

本文介绍了字节跳动ByteBrain团队联合UC Merced和UC Berkeley提出的VMR²L系统,旨在解决云数据中心虚拟机重调度(VMR)问题。该系统结合了深度强化学习,在保持近似最优性能的同时,将推理时间压缩至1.1秒,实现了系统性能与工业可部署性的统一。文章还介绍了VMR的背景、动机、模型细节、实验结果和ByteBrain团队的相关介绍。

关键观点总结

关键观点1: 研究背景

虚拟机调度(VM Scheduling)和重调度(VM Rescheduling)是云数据中心的关键环节,以保障计算资源的高效利用。尽管初始调度已被广泛研究,但虚拟机重调度问题长期被忽视。特别是在大规模云数据中心,VMR面临诸多挑战,成为“重要却难解”的优化难题。

关键观点2: 挑战与动机

虚拟机重调度面临状态复杂、搜索空间巨大、系统约束多样、推理效率要求高等诸多挑战。为了满足系统实时性和高频调度的需求,必须满足低延迟推理的要求。

关键观点3: 方法与系统

本研究提出了VMR²L系统,采用深度强化学习的方法,设计了两阶段智能体结构,以支持复杂的系统约束。该系统具备碎片率优化、快速推理、适应不同优化目标和异常负载下的鲁棒性等特点。

关键观点4: 实验结果

实验结果表明,VMR²L在碎片率、推理延迟等方面均表现出优异的性能,显著优于传统启发式算法和其他强化学习方案。此外,VMR²L还具备良好的泛化能力和策略可视化工具。

关键观点5: 团队介绍

ByteBrain是字节跳动AI for Infra / AI for System服务平台,旨在利用AI技术对基础架构和系统的全生命周期进行自动优化。团队正在招聘相关方向研究员,联系方式为[email protected]


正文

请到「今天看啥」查看全文


图2部分展示了 VM 重调度 过程:系统将已部署的 VM 从当前 PM 迁移至另一台 PM,以优化整体资源利用率、减少资源碎片,或满足如亲和性/反亲和性、负载均衡等系统约束条件。

- 系统动态性与高频调度需求

图3所示为字节跳动内部数据中心某集群在连续 30 天内的运行数据,展示了系统每分钟处理的 VM 创建与销毁数量。

2) 动机分析:为何必须满足低延迟推理?

图4:碎片率与计算时间对比(Fragment Rate, FR)

在迁移次数上限(MNL)设为 50 的场景下,基于 MIP(混合整数规划)的方法能够获得最优解,碎片率显著下降。然而,其推理时间可达 50 分钟以上 ,难以满足实时系统需求。相比之下,启发式算法(HA)虽然推理更快,但重排效果明显劣于 MIP,存在稳定性与调度效果的短板。

图5:推理延迟的边界效应(Elbow Point)

实验进一步发现, 5 秒推理时长 是 MIP 解仍可保持近似最优的“转折点”:

  • 当推理时长 ≤ 5 秒,碎片率仍显著下降;

  • 一旦超时,性能迅速退化,碎片率降低幅度大幅缩减。

  • 模型细节

1)两阶段框架(Two-Stage Agent)







请到「今天看啥」查看全文