到底有沒有不壞的服務器 |
發布時間: 2012/9/11 19:22:49 |
到底有沒有不壞的服務器? 世界沒有從來不壞的服務器,這是可以肯定的。但對于業務應用而言,“Uptime”,“Allthetime”也就是系統的永續運行是最基本的需求。要求信息系統能夠提供7×24×365的永不間斷服務。如果用99.999%可靠性要求,一年累計的宕機時間不能夠超過5分鐘。業務對可靠性的近似苛刻要求也有其不得已的苦衷。根據統計,金融企業每次宕機損失平均為1000萬美元,所造成的無形資產損失更是無法估量。 如何處理業務需求永續運行和服務器宕機之間的矛盾?有一點可以肯定,我們需要的不是永不宕機的服務器,而是永不宕機的系統。 如果我們構建一個7×24×365穩定運行的系統,對于永續運行構成威脅的故障,一個是來自硬件,一是來自軟件。無論硬件還是軟件都會造成系統故障。從經驗看,軟件的故障率遠遠高于硬件。這是不是意味著硬件的高可靠性失去了意義呢? 硬件的高可靠性并不因為軟件高故障率而有所削弱。硬件的高可靠性不能夠解決應用軟件的故障。對此,專家指出,軟件錯誤屬于應用邏輯問題,硬件不能夠修復邏輯的錯誤。解決軟件故障需要通過軟件升級和打補丁來解決,但這不意味著硬件高可靠性沒有意義。在任何時候,我們都需要構建一個穩定可靠的硬件基礎平臺。硬件不可靠將直接導致系統崩潰。 我們沒有一個永不宕機的服務器。為了保障系統不中斷,很多用戶采用了HA(高可用性)解決方案,通過雙機冗余的方式來解決問題。目前,雙機方案普遍被采用,但是非常遺憾,系統中斷仍然時有發生。遠的不說,亞馬遜云計算宕機事件仍然歷歷在目。 專家指出,問題就出在雙機方案。從根本上,設計雙機冗余并能夠解決系統不中斷的問題。雙機只保障了在系統發生故障時的,系統可以恢復運行的問題。至于恢復的時間,也就是解決了MTTR(平均修復時間)的問題。鑒于目前系統日益復雜,交易量和交易規模龐大,任何一個系統要想進行全面恢復,其MTTR一定不會斷,5分鐘基本是不可能的。 如果雙機冗余的方案行不通,就只有繼續在硬件層面需求答案。容錯服務器就是惟一的答案。道理很簡單,從處理器、內存、I/O通道,容錯服務器都采用了雙系統,通過鎖步技術確保計算的可靠性和可信性。說白了,就是2個一樣的系統計算同一個應用,當答案一致,就認為計算結果可信。否則推倒重來。以往,業內對容錯服務器的認知多集中在可信計算上。但人們也忽略了,雙系統對可靠性的貢獻。雙系統同時發生故障的概率非常低,當其中一個部件,例如CPU出現硬件故障時,容錯服務器失去鎖步,也就是失去可信計算的功能。但系統服務不會中斷,管理人員擁有充裕的時間對故障部件進行更換,恢復可信計算。 雙機冗余也是雙系統,但與容錯服務器最大的差別在于,容錯的雙系統是一個系統,運算處理同一個上層的應用。雙機冗余在業務處理上,是兩個單獨的系統,分別處理應用。雙機冗余依靠HA軟件來判別故障。當一個系統產生故障時,雙機冗余的系統,就會存在數據的不一致性。所以,雙機冗余只能夠恢復,而不能夠保障業務不中斷。容錯與雙機冗余不同,容錯不存在應用軟件不一致性,通過單系統承載應用,雖然降低了可信性,但卻可以保障系統不中斷。這也是為什么,容錯可以提供超過99.999%可靠性的俄原因。 世界上沒有不宕機的服務器,但有可能存在永續運行的系統。不存在悖論,容錯就是答案。 但非常可惜,出于商業上的考慮,無論是操作系統、數據庫,還是應用軟件的商家都不會主動向用戶推介容錯方案,因為推廣雙機冗余方案,從硬件到軟件,皆大歡喜。看來,容錯服務器只能是用戶的選擇!因為容錯意味可靠,容錯意味高效,也意味著真正可以節省大量的金錢! 本文出自:億恩科技【www.vbseamall.com】 |