专栏名称: InfoQ Pro
InfoQ Pro是由InfoQ推出的全新媒体服务平台,关注我们,第一时间获得IT深度内容和会员定制福利。
目录
相关文章推荐
字节跳动技术团队  ·  远程访问代理+内网穿透:火山引擎边缘网关助力 ... ·  12 小时前  
字节跳动技术团队  ·  稀土掘金 x Trae ... ·  12 小时前  
51好读  ›  专栏  ›  InfoQ Pro

充电计划 | SRE的 “狂飙” 之路

InfoQ Pro  · 公众号  · 架构  · 2025-05-30 12:00

正文

请到「今天看啥」查看全文


  • 规则库推广:通过灵活的可组合能力,降低使用门槛,支持业务共建生态

  • 数字化风险治理:风险治理与智能闭环探索

  • 总结与展望

    • 从数字化到数智化免疫系统的核心价值与行业意义

    • AI 时代质量保障能力的持续探索方向

    您认为,这样的技术在实践过程中有哪些痛点?

    • 统一数仓的构建仍然存在一定的适配成本、维护成本以及后期的拓展成本

      • 对接(理解)底层不同云产品的数据过程中,需要投入专家人力

      • 随着接入用户和定制化策略增多,统一数仓在未来每一次的结构更新和性能优化都面临较大挑战

    • 产品化开放生态的同时,也面临着大量的“冗余”策略,对策略调优有较大挑战

      • 自定义策略较高的灵活性,在业务接入初期可以带来明显的正向收益;但是随着业务的迭代、人员更替,新旧策略的汰换、历史任务退场等可能影响评估准确性

      • 对于自定义策略,目前暂无较好的通用调优方案;用户想自行维护低冗余策略,减少低效开支,需要投入较大成本

    演讲亮点

    • 质量能力保障理念革新:由被动治理转变为协同共建治理,降低理解和使用成本

    • 质量能力治理左移:由被动解决问题到风险治理,规避故障发生

    听众收益

    • 了解百度在质量保障领域的数字化转型与智能化实践的工程经验

    • 了解数字免疫能力在落地过程中的技术点

    • 了解云原生与 AI 时代下质量保障的未来发展方向,为其他企业提供参考

    专题演讲二

    专题演讲嘉宾:付冰尧

    小米 手机 IoT 团队 SRE 负责人

    在运维领域积累了较丰富经验。曾任职世界 200 强央企,负责 OA、邮箱、SAP 部署实施运维。后担任闪送运维总监,主导公司基础设施软件架构规划与实施。在小米手机部 SRE 团队,推动运维标准化、自动化,实现降本增效,还负责小米相册百 PB 级数据迁移项目。拥有多年 DevOps 开发经验,掌握 Golang、Python 等技术栈,研究方向聚焦云原生与软件工程管理。

    演讲:稳中求胜:小米米家稳定性保障与故障应急实践

    智能家居市场近年来高速增长,技术革新与消费升级是主要驱动力。米家作为小米 IoT 业务的核心,已成为全球最大的消费级物联网平台,接入设备达 8.61 亿台,月活用户超 1 亿。由于 IoT 业务的特殊性,运维需同时保障用户和设备的稳定性,且用户对故障的容忍度极低,故障易引发社会关注。

    本次演讲将通过米家历史故障案例,介绍近 2-3 年米家是如何通过完善应急保障体系和运维自动化平台,逐步提升业务稳定性,包括业务架构优化、基础组件升级、质量加固经验以及故障预案的制定与实施。

    演讲提纲

    • 小米 IoT 业务及架构介绍

      • 业务概况

      • 架构详解

    • IoT 业务质量保障遇到的问题和挑战

      • 用户和设备双侧稳定性保障难题

      • 用户对故障的低容忍与应对压力

    • SRE 的故障应急体系的建设与落地

      • 预警机制

      • 预案管理

      • 关键服务的故障自愈

      • 应急指挥 & 协作机制







    请到「今天看啥」查看全文