正文
腾讯社交业务规模庞大,历史悠久,架构复杂。从运维的全局角度来看,无论从运维技术还是监控难度都很大,传统的监控手段和思想已经无法应对如此海量的场景。
腾讯社交网络运营部历经十年的建设,在运维监控领域经过了多个建设阶段。近几年通过创新的方法引入了多种技术手段并实践落地,将监控技术带入一个新的运维高度,本次将主要分享四个创新技术点。
本次演讲将主要分享从2006开始,腾讯内部从无存储平台到存储量达EB级别的TFS2.0存储平台这一过程中所经历的技术问题。在社交图片和视频盛行的时代,存储系统的设计和运营如何进行适配,我们将揭秘微信C2C图片和视频如何提升体验、降低成本,以及在云时代腾讯是如何开放内部的存储技术的。
复杂性是一切系统设计困难的基础,对于大型的分布式系统更是如此。在架构设计中,已经有大量的经验和实践用于对抗这些复杂性。本次分享从多个维度剖析了架构设计中的复杂性,包括消息传递、性能优化、数据同步、成本优化等,同时也将总结和分享一些在实践中被广泛使用的措施来缓解这些复杂性。
风控场景的扫描策略一般是采用规则+模型的方式。在DT+AI时代,模型作为一种机器学习的代言,在其中扮演越来越重要的角色。由于模型是对数据进行机器学习训练得到的,在这次分享中我们将主要解答下列问题:
如何原始数据加工成为模型所需要的数据?如何简单方便地进行模型训练,并评估模型效果?如何把线下的模型推送上线,并保证线上线下逻辑一致?如何有效地监控模型运行的情况,并在模型衰退之前作出反应?如何做到快速模型的在线更新,实时更新?