文章內容

Twitter宕機背后：兩套數據系統同時癱瘓

發布時間: 2012/9/16 23:39:22

位于美國加州中部的薩克拉門托（Sacramento）有三個身份：1850年代的淘金人口集散地、如今的加州州府和Twitter的數據中心。

7月26日上午8點20分，這個數據中心停止了工作。當你輸入Twitter網址時，你會看到頁面顯示“Twitter目前因某些原因宕機，預計稍后恢復”的提示。這種狀況持續了兩個多小時，直到10點25分，Twitter才恢復正常。部分用戶懷疑這和7月27日開幕的倫敦奧運會有關。

盡管Twitter的運營團隊通過后臺的流量圖看到了即將到來的奧運會熱潮對各項指標的拉升—這種可預期的、能帶來大流量的事件，Twitter一般都會提前做準備，然而意外還是發生了。

在Twitter的預案里，如果這里發生了洪水、地震或者其他任何有可能導致服務器停止工作的問題，距離薩克拉門托965公里的另一個數據中心就會開始工作，它位于托管服務商Raging Wire旗下的一處建筑內，當然，情況也可能相反：Raging Wire這邊出了問題，薩克拉門托開始工作。

無論哪一種情況，Twitter希望保證的是用戶的不間斷使用體驗，即便是遠在大洋彼岸的用戶，也可以正常地把自己的消息Tweet出去，而不會感受到服務中斷。

對于互聯網公司而言，在線就是生命。Facebook早期迅速積累用戶并不是由于它來自哈佛大學的好名聲，而是它幾乎從不宕機。這與當時強勁的競爭對手MySpace形成了鮮明對照。

但在7月26日這一天，Twitter兩個數據中心同時發生故障，全球用戶的Twitter服務中止。Twitter提供的解釋是由于“基礎設施元件中的級聯式漏洞”，但沒有公布更詳細的信息。在Twitter的成長史上幾乎每年都會有多次重大宕機事故，宕機時網站就會顯示出一幅有趣的圖片：幾只小鳥用線艱難地拉起一頭擱淺的鯨魚。

這是Twitter在兩個月之內的第二次重大宕機故障。此前一次是6月21日，Twitter停止服務將近兩個多小時。

Twitter負責工程技術的副總裁拉瓦德（Mazen Rawashdeh）事后解釋說，Twitter在數據中心有兩套能互相備份的數據系統同時出現了故障，這是基礎設施上的“巧合事件”。通常情況下，如果一個系統出現故障，那么另一個將被緊急啟用。而兩套系統同時出現問題則比較少見，為避免類似故障重演，Twitter稱計劃對基礎設施大幅投資。

數據中心問題一直困擾著Twitter.截至3月，Twitter已有1.4億活躍用戶，每天會發出3.4億條Tweet.隨著用戶量和信息讀寫量的增長，Twitter迫切需要一個能自我完全掌控的數據中心。

Twitter早期租用第三方的數據服務，之后計劃轉向租用位于猶他州鹽湖城的定制化數據中心，然而在去年該數據中心卻出現了漏雨、電力不足等問題，于是Twitter不得不改變其計劃，另謀他處。

在同一天，悲催的不僅僅是Twitter.谷歌（微博）的即時通訊服務Gtalk也在早上6點40分發生故障，并遲遲沒有被修復。有用戶報告，微軟（微博）旗下面對企業客戶的云服務工具Windows Azure在西歐地區也發生了宕機問題。

在宕機這段時間內，Gtalk用戶發現雖然能夠登錄，但無法像以往一樣正常發送信息以及進行語音、視頻聊天。他們持續接到谷歌通過網頁更新的問題修復狀態通知，時間單位大約為半小時，而這一狀態持續了近5個小時，算是谷歌史上罕見的長時間故障。習慣線上溝通的用戶們不得不轉向其他工具，有人說，接連兩起宕機事件讓他們有一種“全球停電”的感覺。

谷歌的數據中心分布全球且多達20多個，目前無法得知是哪一塊數據中心發生了故障以致Gtalk癱瘓，谷歌至今也未解釋具體原因。

世界正在變成一個由數據洪流組成的存在，而整個世界也因幾個重要信息節點而相互連接在一起。但即使是像谷歌這樣著名的互聯網公司也無法保證自己所有的服務全年都不出問題。

據谷歌稱，其最受歡迎的服務Gmail電子郵件服務2010年全年宕機時間為7分鐘，這已經是業內最短時間。根據Radicati Group的數據，電子郵件系統平均宕機時間為每月3.8小時。對比起來，Gmail可謂優秀。

一般造成系統不穩定甚至宕機的原因是多樣的，開發安卓手機管理工具豌豆莢的豌豆實驗室技術總監高磊對《第一財經周刊》介紹，在用戶使用網站服務時，從用戶輸入信息，網絡傳送信息給網站服務器，網站服務器按照程序對用戶要求進行處理，將結果返還用戶，整個過程中其中一個環節出現問題就會導致網站的服務受到影響，甚至發生宕機而不可用。

引發問題的潛在因素多種多樣，包括網站自身程序、服務器的操作系統、硬件設備、機房與網絡運營商等基礎設施。

如果網站自身程序有Bug，可能會導致使用變慢，或部分功能失效；服務器的操作系統也會出現漏洞，比如裝有Linux部分版本的服務器就在本月因為閏秒問題而宕機；服務器硬件本身損壞，比如硬盤或內存都存在一定物理故障的機率。

而在基礎設施上，機房停電或進水、遭到雷擊等也會造成設備停止運行。最基礎的問題是過熱，因此大型數據中心旁邊一般都有冷卻裝置。

6月底，美國一場風暴襲擊了弗吉尼亞北部，大面積電力供應中斷。而恰巧亞馬遜（微博）在這里安置了US-East-1數據中心，因為停電，整個數據中心癱瘓。

亞馬遜是業界領先的云服務提供商，其提供給網站以數據服務的云服務Amazon Web Services也因此一度中斷服務。之后連鎖反應便產生，使用其服務的Instagram、Pinterest、Quora、Netflix等知名網站也停止了服務，進而影響到各自的生態系統。

為避免風險，一些網絡公司選擇不把雞蛋放在一個籃子里，設置多個數據中心，或者在使用云服務時同時選擇多家供應商，當然，這也會增加成本。

據新浪微博技術總監楊衛華對《第一財經周刊》介紹，是否能穩定登錄，響應的速度怎樣，都會對用戶的體驗造成直接影響。新浪微博采用了分布式的架構，這意味著它沒有把所有的服務器都放在新浪所在的北京，而是在國內多個主要城市都設置了數據中心，在突發事件發生后的流量處理和響應速度等各方面來保證用戶體驗。

你在宕機時體驗到多少焦慮，穩定對于互聯網公司就有多重要。

當越來越多的人被接入同一個網絡─比如被稱為“世界的脈搏”的Twitter，數據中心癱瘓的風險等級也相應增加。這些數據就存儲在像加州薩克拉門托的大房子里，一旦宕機，空白也從這里開始。

本文出自：億恩科技【www.vbseamall.com】

服務器租用/服務器托管中國五強！虛擬主機域名注冊頂級提供商！15年品質保障！--億恩科技[ENKJ.COM]

上一篇 >> 利用大數據加速應答響應時間
下一篇 >> 數據中心基礎設施管理供應商的關鍵的問題

服務器租用

服務器托管

機柜批發

云服務器

建站俠

空間/域名

安全保姆

幫助類別

幫助中心

文章內容

Twitter宕機背后：兩套數據系統同時癱瘓

同類文章

億恩公告

在線客服