专栏名称: 字节跳动技术团队

字节跳动的技术实践分享

目录

相关文章推荐

架构师之路 · 上半年国内AI届最盛大，最高质量的大会是哪个？ · 昨天

架构师之路 · 包你不知道，究竟如何从架构上保证，区块是匀速 ... · 15 小时前

字节跳动技术团队 · 掘金 AI 编程社区- 人人都是 AI 编程家竞赛 · 13 小时前

字节跳动技术团队 · ByteBrain团队EuroSys25 ... · 昨天

字节跳动技术团队 · 基于LLM的AI应急：多模态信息智能化分析整 ... · 2 天前

51好读 › 专栏 › 字节跳动技术团队

ByteBrain团队EuroSys25 | 秒级推理强化学习系统，实现云计算虚机重调度

字节跳动技术团队 · 公众号 · 架构 · 2025-06-05 13:56

主要观点总结

本文介绍了字节跳动ByteBrain团队联合UC Merced和UC Berkeley提出的VMR²L系统，旨在解决云数据中心虚拟机重调度（VMR）问题。该系统结合了深度强化学习，在保持近似最优性能的同时，将推理时间压缩至1.1秒，实现了系统性能与工业可部署性的统一。文章还介绍了VMR的背景、动机、模型细节、实验结果和ByteBrain团队的相关介绍。

关键观点总结

关键观点1: 研究背景

虚拟机调度（VM Scheduling）和重调度（VM Rescheduling）是云数据中心的关键环节，以保障计算资源的高效利用。尽管初始调度已被广泛研究，但虚拟机重调度问题长期被忽视。特别是在大规模云数据中心，VMR面临诸多挑战，成为“重要却难解”的优化难题。

关键观点2: 挑战与动机

虚拟机重调度面临状态复杂、搜索空间巨大、系统约束多样、推理效率要求高等诸多挑战。为了满足系统实时性和高频调度的需求，必须满足低延迟推理的要求。

关键观点3: 方法与系统

本研究提出了VMR²L系统，采用深度强化学习的方法，设计了两阶段智能体结构，以支持复杂的系统约束。该系统具备碎片率优化、快速推理、适应不同优化目标和异常负载下的鲁棒性等特点。

关键观点4: 实验结果

实验结果表明，VMR²L在碎片率、推理延迟等方面均表现出优异的性能，显著优于传统启发式算法和其他强化学习方案。此外，VMR²L还具备良好的泛化能力和策略可视化工具。

关键观点5: 团队介绍

ByteBrain是字节跳动AI for Infra / AI for System服务平台，旨在利用AI技术对基础架构和系统的全生命周期进行自动优化。团队正在招聘相关方向研究员，联系方式为[email protected]。

正文

请到「今天看啥」查看全文

图2部分展示了 VM 重调度 过程：系统将已部署的 VM 从当前 PM 迁移至另一台 PM，以优化整体资源利用率、减少资源碎片，或满足如亲和性/反亲和性、负载均衡等系统约束条件。

- 系统动态性与高频调度需求

图3所示为字节跳动内部数据中心某集群在连续 30 天内的运行数据，展示了系统每分钟处理的 VM 创建与销毁数量。

2） 动机分析：为何必须满足低延迟推理？

图4：碎片率与计算时间对比（Fragment Rate, FR）

在迁移次数上限（MNL）设为 50 的场景下，基于 MIP（混合整数规划）的方法能够获得最优解，碎片率显著下降。然而，其推理时间可达 50 分钟以上 ，难以满足实时系统需求。相比之下，启发式算法（HA）虽然推理更快，但重排效果明显劣于 MIP，存在稳定性与调度效果的短板。

图5：推理延迟的边界效应（Elbow Point）

实验进一步发现， 5 秒推理时长 是 MIP 解仍可保持近似最优的“转折点”：

当推理时长 ≤ 5 秒，碎片率仍显著下降；
一旦超时，性能迅速退化，碎片率降低幅度大幅缩减。
模型细节

1）两阶段框架（Two-Stage Agent）

请到「今天看啥」查看全文

推荐文章

架构师之路 · 上半年国内AI届最盛大，最高质量的大会是哪个？

昨天

架构师之路 · 包你不知道，究竟如何从架构上保证，区块是匀速生成的？（第71讲）

15 小时前

字节跳动技术团队 · 掘金 AI 编程社区- 人人都是 AI 编程家竞赛

13 小时前

字节跳动技术团队 · ByteBrain团队EuroSys25 | 秒级推理强化学习系统，实现云计算虚机重调度

昨天

字节跳动技术团队 · 基于LLM的AI应急：多模态信息智能化分析整合助力字节事故处置效率提升30%

2 天前

盒饭财经 · 从白雪公主到杰克逊，马云的造型与阿里巴巴的大事

7 年前

德外5号 · 顶尖新闻机构正在搭建什么技术团队？哪些新领域媒体人急缺？美国国际记者中心最新发布：全球媒体技术报告（上篇） |德外独家

7 年前

生物制品圈 · 遗传发育所高保真 CRISPR-Cas9 基因组编辑方法研究获新进展

7 年前

健身课代表 · 不改掉这6个坏习惯，再怎么健身都白搭！

7 年前

中国药闻 · 国家食品药品监管总局举办学习宣传贯彻党的十九大精神首期集中轮训班

7 年前

移动版

51好读 - 微信公众号文章