谷歌提供了一些有关周日大规模停产的原因的详细信息,这些事件影响了使用谷歌云以及谷歌自己的服务的主要科技品牌,包括YouTube,Gmail,谷歌搜索,G Suite,谷歌驱动器和谷歌文档。
谷歌工程副总裁本杰明·特雷诺·斯洛斯(Benjamin Treynor Sloss) 在一篇博文中解释说,上周日停机的根本原因是一个区域中一小群服务器的配置更改被错误地应用于多个相邻区域中的大量服务器。
然后,该错误导致这些区域停止使用其可用网络容量的一半以上。
对于像YouTube这样的高带宽平台来说,影响是严重的,而对于像Google搜索这样的低带宽服务来说,影响却不那么严重,延迟只是短暂的增加。
斯洛斯说:“总体而言,YouTube衡量了事件发生期间全球观看次数下降了10%,而Google Cloud Storage衡量了访问量下降了30%。”
“大约有百分之一的活跃Gmail用户的帐户有问题;虽然这只是一小部分用户,但仍然代表数百万无法接收或发送电子邮件的用户。”
Google Cloud状态信息中心指出, Google Cloud Networking在美国东部遇到网络拥塞,影响了Google Cloud,G Suite和YouTube。中断持续了四个小时,该问题在太平洋时间下午4点得到解决。
Sloss解释说,容量受限的区域在试图将入站和出站流量塞入剩余容量后被堵塞。
“网络变得拥塞,我们的网络系统正确地处理了流量过载,并丢弃了较大的,对延迟不敏感的流量,以保留较小的对延迟不敏感的流量,这与紧急自行车可能会通过最严重的交通拥堵来提供紧急包裹一样。”他指出。
而且,尽管Google的工程师“在几秒钟内”发现了该问题,但修复该问题所需的时间却比几分钟的目标“更长”,部分原因是网络拥塞阻碍了工程师恢复正确配置的能力。
此外,正如一位Google员工在HackerNews帖子中解释的那样,这次中断破坏了Google工程师一直用于内部沟通中断情况的内部工具。
Sloss的职位并不是该公司已承诺向客户提供的完整的验尸报告,因为该调查仍在进行中,旨在发现网络容量损失和恢复缓慢背后的所有因素。