主要观点总结
本文报道了近期发生的云服务大规模中断事件,涉及AWS、谷歌云、Azure和Cloudflare等多个云服务提供商。文章详细描述了各云服务的中断情况、受影响的服务和范围,以及用户对此事件的反应。特别关注了谷歌云的大规模宕机事件,包括其影响范围、持续时间、可能的原因以及对此类事件的讨论。
关键观点总结
关键观点1: 云服务大规模中断事件概述
多个云服务提供商如AWS、谷歌云、Azure和Cloudflare同时出现中断,导致大量服务和应用受到影响。
关键观点2: 谷歌云宕机事件
谷歌云在全球范围内宕机近三个小时,影响包括其旗下应用和服务以外的第三方应用。电商软件供应商Shopify等是受影响的主要企业之一。此次宕机事件对全球企业产生了严重影响。
关键观点3: Cloudflare受影响的程度及恢复过程
Cloudflare的部分服务使用谷歌云而受到影响,但其核心服务并未受影响。中断事件发生后,Cloudflare迅速采取措施恢复服务。
关键观点4: 公众对宕机事件原因的讨论
有网友猜测宕机事件可能是由于谷歌的Chemist服务故障导致的多米诺骨牌效应。此外,还讨论了大型云厂商之间的相互依赖关系及其对互联网稳定性的影响。
关键观点5: 谷歌的应对措施及裁员传闻
谷歌正努力在云基础设施领域与竞争对手保持同步,裁员传闻及降本增效策略也被视为此次事件背景的一部分。
正文
谷歌云的状态页面显示: “我们的多款 GCP 产品遇到了服务问题” ,并指出服务
中断始于太平洋夏时令时间上午 10:51
。“我们的工程团队正在继续调查此问题。”
十几分钟后,谷歌表示,客户“仍在遭受不同程度的影响”,工程师正在努力恢复服务,但公司尚未确定修复的预计时间。
随后,经过快速的修复,
太平洋夏时令下午 12 点 41 分
,谷歌在谷歌云状态页面上表示,“我们的工程师已经找到了根本原因并采取了适当的缓解措施。虽然我们的工程师已确认除 us-central1 之外的所有位置的底层依赖关系均已恢复,但我们注意到,客户在各个 Google Cloud 产品上仍会受到不同程度的影响。所有相关工程团队均已积极参与并致力于服务恢复。我们还没有全面恢复服务的预计到达时间。我们将在太平洋夏令时间 2025 年 6 月 12 日星期四 13:30 之前提供最新详细信息。”
太平洋夏时令下午 14:00 点时
,谷歌又在谷歌云状态页面上更新了最新进展。
谷歌表示:“我们已在 us-central1 和美国多个地区针对该问题实施了缓解措施,并看到了恢复的迹象。我们已收到来自内部监控和客户的确认,表明谷歌云产品在多个地区也正在恢复,在 us-central1 和美国多个地区也出现了一些恢复的迹象,”谷歌云表示,预计恢复将在一小时内完成。
太平洋夏时令下午 15:16
,谷歌云表示:“截至太平洋夏令时间 13:45,大多数 Google Cloud 产品已完全恢复。”
但仍然有一部分产品没有恢复服务,包括 Google Cloud Dataflow: 由于积压问题正在逐步清除,客户在使用 Dataflow 操作时可能会遇到延迟;Vertex AI 在线预测:客户在使用 Model Garden 中的某些模型时可能会继续遇到 5xx 错误增多的情况;个性化服务健康:个性化服务健康的更新延迟,我们建议客户继续使用云服务健康仪表板进行更新。
到了
太平洋夏时令下午 18:27
,谷歌云表示,所有服务均已恢复正常。
在主要服务经历了近三个小时的大规模瘫痪后,不少企业因谷歌云的宕机受到了严重影响。
Spotify、Cloudflare 成严重“受灾区”
具体而言,除了谷歌旗下应用和服务外,还有谁受到了严重影响?
电子商务软件供应商 Shopify 是谷歌云的主要客户,是这次宕机受影响最严重的企业之一。他们在 X 上的一篇帖子中表示,“已意识到一个影响多项服务的问题”。