中國IDC圈4月15日報(bào)道,日前,谷歌云陷入了前所未有大麻煩之中。由于兩個(gè)bug的產(chǎn)生,致使谷歌云全線下線,長達(dá)18分鐘的無云時(shí)間使得谷歌云變成了烏云。
谷歌是全球最大的云服務(wù)提供商之一,谷歌云在公有云的圈子內(nèi)也算是巨頭級別的存在。越是強(qiáng)大的公司就越不允許有任何的瑕疵,18分鐘的烏云時(shí)間卻足以砸了谷歌云的金字招牌?,F(xiàn)在,谷歌的母公司Alphabet已經(jīng)就此事件的原因進(jìn)行了解釋。Google 的工程副總裁Benjamin Sloss Treyno表示將進(jìn)行“7×24”的全天候個(gè)人道歉。
為什么是Treynor背起這口大黑鍋呢?這事也確實(shí)與他有著不可分割的關(guān)系。作為谷歌的工程副總裁,Treynor的主要工作就是“確保 Google 的網(wǎng)站永不掉線”。谷歌云下線18分鐘如此重大的過失讓他負(fù)責(zé)并不為過。
僅僅道歉是不夠的,Treynor也就該事件的原因?qū)ν膺M(jìn)行了解釋。起初,谷歌的工程師要對谷歌的網(wǎng)絡(luò)配置進(jìn)行瘦身,谷歌計(jì)算引擎(Google Compute Engine ,GCE)中的部分IP模塊長期未使用,工程師選擇了對其刪除并讓谷歌的自動(dòng)化系統(tǒng)在谷歌的網(wǎng)絡(luò)系統(tǒng)里完成剩余的傳輸工作。
GCE是谷歌云的核心
而IP模塊是用于幫助用戶數(shù)據(jù)連接傳輸?shù)焦雀柙频闹匾K。于是事故就這樣發(fā)生了,在機(jī)緣巧合的時(shí)候,一個(gè)IP模塊從其配置文件中被刪除時(shí),用于網(wǎng)絡(luò)配置管理的其他配置文件并沒有完成相應(yīng)的傳輸轉(zhuǎn)移,于是乎這個(gè)模塊傳輸失敗了。
當(dāng)傳輸失敗時(shí),谷歌通常會(huì)選擇還原故障部分到之前的位置,然后添加新的模塊重新傳輸。但是這次,前所未有的軟件bug被觸發(fā)了。這次傳輸失敗后,并沒有將故障部分還原到原來的位置,而是將GCE所有的IP模塊進(jìn)行了重新配置。而這次配置的用的就是用于更新的不完整的IP模塊。
如果說僅僅是這一個(gè)bug,那么正常情況下也不會(huì)有太大的問題。谷歌有一個(gè)專門巡查此類問題的系統(tǒng)“金絲雀(canary step)”,但是這次金絲雀也出現(xiàn)了一個(gè)bug。因?yàn)檫@個(gè)bug推動(dòng)了系統(tǒng)認(rèn)定此次新的配置有效,并且在全范圍內(nèi)逐步開始推出。
這些新的配置信息從谷歌的數(shù)據(jù)中心推廣到了世界各地的數(shù)據(jù)庫,但這個(gè)巨大的變動(dòng)很快引起了谷歌技術(shù)人員的注意。他們立刻宣布停止了所有的IP模塊,中止了這一新型配置的推出,并且開啟備用的數(shù)據(jù)中心,最快的速度恢復(fù)用戶的工作。
兩個(gè)bug,一個(gè)悲劇
另一發(fā)面,技術(shù)人員在從世界各地的數(shù)據(jù)庫當(dāng)中將這些沒用的IP模塊配置信息刪除恢復(fù)。但這一系列的bug已經(jīng)導(dǎo)致了谷歌云出現(xiàn)了長達(dá)18分鐘的中斷。18分鐘的烏云也許可以很快驅(qū)走,但是18分鐘的無云卻是無法抹平的用戶心理陰影。
谷歌方面表示,他們已經(jīng)第一時(shí)間發(fā)現(xiàn)了這兩個(gè)bug,并且網(wǎng)絡(luò)配置軟件方面的負(fù)責(zé)人也已經(jīng)解決了這個(gè)問題。而且,今后谷歌將推出14種不同的應(yīng)急解決方案用于預(yù)防、檢測和緩解類似情況的發(fā)生。
飄搖的谷歌云需要挽回用戶的信任
但是谷歌能否真正做到這一點(diǎn)依然是值得讓人懷疑的,因?yàn)樵缭?015年8月發(fā)生過類似的故障。當(dāng)時(shí)的谷歌云因?yàn)樽址e(cuò)亂、管理變更、雷擊、自動(dòng)化失敗和補(bǔ)丁失敗等原因?qū)е逻^故障,此次故障后的彌補(bǔ)能否真正為谷歌挽回人心呢?
作為此次故障的主要負(fù)責(zé)人,Treynor發(fā)表了一份很長的道歉信。“谷歌非常認(rèn)真的對待此次中斷事件,這次事件影響范圍之廣使得谷歌的很多客戶受到了影響。這一事件的報(bào)告比以往的更長和更詳細(xì),因?yàn)楣雀柘M脩裟軌蛄私馑l(fā)生的原因,以及谷歌在做什么。
谷歌希望通過透明化的服務(wù)幫助用戶建立信心,也用此證明谷歌云平臺(tái)的可靠性在不斷的成長。”而用戶的希望則相對簡單,以后別再出現(xiàn)這種問題了。
本文來源:中關(guān)村在線