谷歌提供了一些有關(guān)周日大規(guī)模停產(chǎn)的原因的詳細(xì)信息,這些事件影響了使用谷歌云以及谷歌自己的服務(wù)的主要科技品牌,包括YouTube,Gmail,谷歌搜索,G Suite,谷歌驅(qū)動器和谷歌文檔。
谷歌工程副總裁本杰明·特雷諾·斯洛斯(Benjamin Treynor Sloss) 在一篇博文中解釋說,上周日停機(jī)的根本原因是一個區(qū)域中一小群服務(wù)器的配置更改被錯誤地應(yīng)用于多個相鄰區(qū)域中的大量服務(wù)器。
然后,該錯誤導(dǎo)致這些區(qū)域停止使用其可用網(wǎng)絡(luò)容量的一半以上。
對于像YouTube這樣的高帶寬平臺來說,影響是嚴(yán)重的,而對于像Google搜索這樣的低帶寬服務(wù)來說,影響卻不那么嚴(yán)重,延遲只是短暫的增加。
斯洛斯說:“總體而言,YouTube衡量了事件發(fā)生期間全球觀看次數(shù)下降了10%,而Google Cloud Storage衡量了訪問量下降了30%。”
“大約有百分之一的活躍Gmail用戶的帳戶有問題;雖然這只是一小部分用戶,但仍然代表數(shù)百萬無法接收或發(fā)送電子郵件的用戶。”
Google Cloud狀態(tài)信息中心指出, Google Cloud Networking在美國東部遇到網(wǎng)絡(luò)擁塞,影響了Google Cloud,G Suite和YouTube。中斷持續(xù)了四個小時,該問題在太平洋時間下午4點得到解決。
Sloss解釋說,容量受限的區(qū)域在試圖將入站和出站流量塞入剩余容量后被堵塞。
“網(wǎng)絡(luò)變得擁塞,我們的網(wǎng)絡(luò)系統(tǒng)正確地處理了流量過載,并丟棄了較大的,對延遲不敏感的流量,以保留較小的對延遲不敏感的流量,這與緊急自行車可能會通過最嚴(yán)重的交通擁堵來提供緊急包裹一樣。”他指出。
而且,盡管Google的工程師“在幾秒鐘內(nèi)”發(fā)現(xiàn)了該問題,但修復(fù)該問題所需的時間卻比幾分鐘的目標(biāo)“更長”,部分原因是網(wǎng)絡(luò)擁塞阻礙了工程師恢復(fù)正確配置的能力。
此外,正如一位Google員工在HackerNews帖子中解釋的那樣,這次中斷破壞了Google工程師一直用于內(nèi)部溝通中斷情況的內(nèi)部工具。
Sloss的職位并不是該公司已承諾向客戶提供的完整的驗尸報告,因為該調(diào)查仍在進(jìn)行中,旨在發(fā)現(xiàn)網(wǎng)絡(luò)容量損失和恢復(fù)緩慢背后的所有因素。