专题演讲嘉宾:付冰尧
小米 手机 IoT 团队 SRE 负责人
在运维领域积累了较丰富经验。曾任职世界 200 强央企,负责 OA、邮箱、SAP 部署实施运维。后担任闪送运维总监,主导公司基础设施软件架构规划与实施。在小米手机部 SRE 团队,推动运维标准化、自动化,实现降本增效,还负责小米相册百 PB 级数据迁移项目。拥有多年 DevOps 开发经验,掌握 Golang、Python 等技术栈,研究方向聚焦云原生与软件工程管理。
演讲:稳中求胜:小米米家稳定性保障与故障应急实践
智能家居市场近年来高速增长,技术革新与消费升级是主要驱动力。米家作为小米 IoT 业务的核心,已成为全球最大的消费级物联网平台,接入设备达 8.61 亿台,月活用户超 1 亿。由于 IoT 业务的特殊性,运维需同时保障用户和设备的稳定性,且用户对故障的容忍度极低,故障易引发社会关注。
本次演讲将通过米家历史故障案例,介绍近 2-3 年米家是如何通过完善应急保障体系和运维自动化平台,逐步提升业务稳定性,包括业务架构优化、基础组件升级、质量加固经验以及故障预案的制定与实施。
演讲提纲
-
小米 IoT 业务及架构介绍
-
IoT 业务质量保障遇到的问题和挑战
-
用户和设备双侧稳定性保障难题
-
用户对故障的低容忍与应对压力
-
SRE 的故障应急体系的建设与落地
-
预警机制
-
预案管理
-
关键服务的故障自愈
-
应急指挥 & 协作机制