主要观点总结
本文介绍了字节跳动ByteBrain团队联合UC Merced和UC Berkeley提出的VMR²L系统,旨在解决云数据中心虚拟机重调度(VMR)问题。该系统结合了深度强化学习,在保持近似最优性能的同时,将推理时间压缩至1.1秒,实现了系统性能与工业可部署性的统一。文章还介绍了VMR的背景、动机、模型细节、实验结果和ByteBrain团队的相关介绍。
关键观点总结
关键观点1: 研究背景
虚拟机调度(VM Scheduling)和重调度(VM Rescheduling)是云数据中心的关键环节,以保障计算资源的高效利用。尽管初始调度已被广泛研究,但虚拟机重调度问题长期被忽视。特别是在大规模云数据中心,VMR面临诸多挑战,成为“重要却难解”的优化难题。
关键观点2: 挑战与动机
虚拟机重调度面临状态复杂、搜索空间巨大、系统约束多样、推理效率要求高等诸多挑战。为了满足系统实时性和高频调度的需求,必须满足低延迟推理的要求。
关键观点3: 方法与系统
本研究提出了VMR²L系统,采用深度强化学习的方法,设计了两阶段智能体结构,以支持复杂的系统约束。该系统具备碎片率优化、快速推理、适应不同优化目标和异常负载下的鲁棒性等特点。
关键观点4: 实验结果
实验结果表明,VMR²L在碎片率、推理延迟等方面均表现出优异的性能,显著优于传统启发式算法和其他强化学习方案。此外,VMR²L还具备良好的泛化能力和策略可视化工具。
关键观点5: 团队介绍
ByteBrain是字节跳动AI for Infra / AI for System服务平台,旨在利用AI技术对基础架构和系统的全生命周期进行自动优化。团队正在招聘相关方向研究员,联系方式为
[email protected]。
正文
图2部分展示了
VM 重调度
过程:系统将已部署的 VM 从当前 PM 迁移至另一台 PM,以优化整体资源利用率、减少资源碎片,或满足如亲和性/反亲和性、负载均衡等系统约束条件。
- 系统动态性与高频调度需求
图3所示为字节跳动内部数据中心某集群在连续 30 天内的运行数据,展示了系统每分钟处理的 VM 创建与销毁数量。
2)
动机分析:为何必须满足低延迟推理?
图4:碎片率与计算时间对比(Fragment Rate, FR)
在迁移次数上限(MNL)设为 50 的场景下,基于 MIP(混合整数规划)的方法能够获得最优解,碎片率显著下降。然而,其推理时间可达
50 分钟以上
,难以满足实时系统需求。相比之下,启发式算法(HA)虽然推理更快,但重排效果明显劣于 MIP,存在稳定性与调度效果的短板。
图5:推理延迟的边界效应(Elbow Point)
实验进一步发现,
5 秒推理时长
是 MIP 解仍可保持近似最优的“转折点”:
-
当推理时长 ≤ 5 秒,碎片率仍显著下降;
-
一旦超时,性能迅速退化,碎片率降低幅度大幅缩减。
-
模型细节
1)两阶段框架(Two-Stage Agent)