6月2日,谷歌网络的重大中断导致无法使用谷歌提供的服务以及某些地区使用谷歌云的各种网络服务,或者操作变得沉重。 Google Cloud通过官方博客解释了此类大规模灾难的原因。
由于6月初发生的中断,美国和欧洲部分地区出现了一些问题,包括Google提供的服务,如Google Cloud,YouTube和G Suite,以及使用Google Cloud(包括iCloud)的网络服务。谷歌云监控团队(Google 24×7)解释说,官方博客用于应用于邻近区域的服务器,因为应用于特定区域服务器的设置更改是错误的。此案例还会影响软件配置错误和错误。
数据中心中的Google计算机分为多个逻辑集群。每个集群都包含专用管理软件,可实现灾难恢复基础架构更改,数据中心维护和自动事件触发。将Google数据中心维护设置为事件时,通常是全局维护,仅管理本地服务器的情况很少见。
这次,事件被设置为停止网络维护,在特定区域内更好地控制服务器。 6但是您已经应用了设置以确保本地服务器也停止接近同时管理保持事件开始时间为11:45 May 2维护事件的软件错误。因此,如果不在服务器设置上使用相邻区域,则覆盖丢弃可用网络容量的一半,从而导致网络拥塞。
失败后两分钟,Google工程团队开始了恢复操作。恢复原本应该在几分钟内完成,但由于网络拥塞,管理软件调试受到阻碍,最终停止软件在1小时16分钟后自动执行维护事件。之后,我们首次重新设计了预订,并在14:03重新分发了服务器。网络容量恢复到15:9,所有服务都在16:10恢复。
这种影响导致YouTube每小时点击率降低2.5%,而Google云端存储报告流量减少了30%。一些用户受到影响,但数百万用户无法发送和接收电子邮件。欲了解更多信息,请点击这里 。