专栏名称: 字节跳动技术团队
字节跳动的技术实践分享
目录
相关文章推荐
字节跳动技术团队  ·  字节跳动技术副总裁洪定坤:TRAE 想做 ... ·  16 小时前  
java1234  ·  跟阿里P9学 画架构图,永久免费了 ·  23 小时前  
java1234  ·  跟阿里P9学 画架构图,永久免费了 ·  23 小时前  
字节跳动技术团队  ·  豆包大模型升级1.6版,视频模型上新 ·  昨天  
高可用架构  ·  4 年融资 1 ... ·  昨天  
51好读  ›  专栏  ›  字节跳动技术团队

揭秘字节跳动内部流量调度与容灾实践【上】

字节跳动技术团队  · 公众号  · 架构  · 2025-01-25 09:00

正文

请到「今天看啥」查看全文



2.1地址资源编排:地址按需分类


资源是指流量访问的终点,包括公有云的 EIP 、CDN 的 CNAME 或边缘接入点等。TrafficRoute GTM 支持用户按照业务场景对资源(地址)进行自定义分类、组合和编排,编排形成的地址池可被路由规则引用,进而打造个性化的流量调度与容灾解决方案。



2.2健康检查编排:全链路监测能力


健康检查是实现自动容灾的必要条件,TrafficRoute GTM 具备覆盖 全球范围 的 L3/L4/L7 健康检查功能,用户可以配置不同灵敏度的全链路监测能力,以此为自动容灾提供精准的决策支持,最终实现最快分钟级自动容灾。



2.3路由规则编排:流量调度和容灾


通过精心配置 TrafficRoute GTM 的路由(调度)规则,可以精确控制流量的来源与去向,同时在发生故障时,确保流量能够按照预设的容灾方案进行故障转移。



3.字节跳动流量编排内部实践


在字节跳动内部业务中,通过 TrafficRoute GTM 的自定义流量编排实现了同城多活、异地灾备、全球多CDN调度、CDN回源调度等经典架构,帮助内部业务:

  • 在稳定性上 ,将MTTR降低至分钟级,实现最快1分钟故障发现,3-5分钟90%+流量收敛(由于流量收敛时长受客户端分布、localDNS行为、是否使用长连接等多种因素影响,3-5分钟90%+为参考值)

  • 在性能上 ,通过编排,将客户流量调度至各自访问体验最佳节点上,实现访问时延降低15%+

  • 在成本上 ,通过编排,将流量优先调度至单位成本更低的资源上,实现带宽成本降低10%+

3.1同城多活,异地灾备,确保业务稳定与连续


在字节跳动业务中,同城多活与异地灾备架构是确保超大规模业务全天候稳定运行的核心策略之一。借助 GTM 的 GEO-基础路由模式,我们成功构建了 AZ 间流量 负载均衡 、 Region 间异地灾备、客户端 GEO & ISP 就近访问、分钟级自动 容灾 4大能力, 以这 4 大能力为保障,实现了流量负载均衡、客户端就近接入、分钟级自动容灾等,确保了业务的稳定性和连续性。







请到「今天看啥」查看全文