遇到服務器宕機怎么解決?有什么預防措施? |
發布時間: 2012/5/18 19:23:51 |
宕機,是IT行業常用的一個專業術語,其實就是我們經常說的死機。對于IT管理者和應用者來說,宕機是一件讓人很頭疼的事情。
普通家庭用的電腦宕機可能沒有太大的影響,頂多就是數據無法完全恢復,但是如果是一臺服務器宕機了,可能會導致機要文件和高等級數據丟失,如果處理不當可能會造成很嚴重的后果。
宕機常見的表象多為操作界面靜止無響應或“藍屏”,操作系統無響應,軟件運行無響應,鼠標、鍵盤無響應,硬盤指示燈恒亮不閃爍。盡管造成死機的原因是多方面的,但是萬變不離其宗,其原因總也脫離不了硬件與軟件(包括主機系統、操作系統、應用軟件)兩方面。
下面我們一起來看一下什么原因會引起服務器宕機,有什么解決方案和預防措施。
由硬件故障引起的服務器宕機
硬件其實脫不了這幾大件:CPU、內存、硬盤、電源、散熱系統,而最常見的硬件引起的當機原因則是散熱系統故障。
1.散熱不良
散熱不良是大家碰到的導致服務器當機最普遍的原因,CPU、硬盤、電源在工作中發熱量非常大,因此保持良好的通風狀況非常重要。CPU相當于人的大腦,對于服務器來說,它要對服務器內硬件軟件的各種請求進行并發多線程處理,當并發處理要求突然增多時,CPU的熱量就好象人腦飛速思考時一樣,會出現“腦熱”的癥狀,而硬盤I/O的吞吐量也將向額定量靠近,由此帶來的功率增高,必然導致熱量的增加;同時,功率的增加又對電源的支持產生了很大的壓力,必然也會帶來電源高熱量的產生。當運算量超過服務器運算負荷之后,這三個“高熱生產大戶”短時間內的熱量突然“增產”,很可能導致服務器的死機現象。
解決的辦法是,在進行服務器選購時,盡量選擇發熱量較小的CPU,在系統設計時設置可以實現負載動態平衡的運算系統,選擇散熱性能良好的服務器準系統。
2.硬件之間或軟硬件之間不兼容
在硬件之間,如果主板、CPU、內存由于內外頻相互不匹配,有可能在裝配之初由于處理并發事件較少,還可以正常運行,但是當并發數上升到一定高度時,設備之間的匹配問題導致的硬件系統不穩定就凸顯,這樣產生的服務器當機事件發生幾率也相應提高就算有準系統的支持,也得考慮硬件的兼容性哦。
服務器配件之間的不兼容問題一般出在朋友們自己DIY的服務器上,軟硬件兼容問題主要出在用戶對于硬件與應用之間的銜接不完善的時候。解決以上問題的方法是在選購硬件設備時,以需要采用的具體系統實現為基礎,全面的考慮全新硬件之間、需要升級的配件與新配件之間、軟件與硬件之間的兼容性問題,以構建一個穩定的系統。
3.CPU故障
CPU引起當機的故障主要有以上提到的兼容問題、超頻引起的處理性能不穩定、一些JS為獲更多利潤通過軟件改寫頻率引起的性能不穩。
改動頻率引起CPU不穩定從而導致運行中當機的現象比較少,主要出在一些DIY市場領域。解決改頻引起的問題很簡單,服務器本身要求的就是系統的穩定運行,沒有特殊愛好,沒有特別專業的知識,不要隨便改動。
4.內存故障
內存引起當機的故障主要有前文提到的兼容問題、內存條松動、內存容量不足、內存質量問題、內存資源沖突。
內存條松動,基本不會出現在品牌服務器中,因為一般服務器出廠前都會經過專業技術人員全面的系統檢測;內存條松動的現象主要出在DIY服務器市場或操作員對品牌服務器進行升級時的疏忽導致的內存條沒有插牢。
內存容量不足主要是由于服務器同一時間處理并發太多,占用太多的內存資源,導致服務器處理響應不過來,產生宕機。
內存質量問題主要是內存芯片出廠前的芯片故障或內存廠商裝配時的虛焊等。
內存資源沖突的問題主要是在運行操作系統或應用軟件時,由于系統線程搶占資源或軟件應用程序爭搶內存地址而產生的內存資源沖突,從而導致服務器死機的現象。
解決的方法只能是采購員與操作員在進行裝配和升級、測試等工作時,持嚴謹的技術態度,認真細致的檢查硬件的每個環節;對于內存資源沖突的問題,主要通過選用冗余支持的內存和在并發高峰期來臨前進行內存清理等工作來避免。
5.硬盤故障
硬盤引起當機的故障主要是由于使用時間長久、讀寫次數過多引起了磁道、扇區損壞的故障,再加上硬盤各部位的老化、磁盤碎片與垃圾文件過多等。
在一些有實力的公司,每隔兩三年,會對正運行的服務器磁盤進行更新換代,將舊硬盤數據向新硬盤實現遷移,并將舊硬盤替換到一些測試或者辦公備用等地方,最大限度的避免了硬盤故障引起的當機現象。大家可以以此為參考,參照成本預算等因素,盡量在磁盤損壞之前進行更新換代,避免引起重要數據的損毀。
磁盤碎片與垃圾文件在每時每刻的運行中都會產生,由于磁盤碎片過多或垃圾文件過多,造成可用空間資源過少時,也可能會在服務器多程序運行時當機。解決的辦法是定期對磁盤碎片與垃圾文件進行清理。
6.電源故障
電源引起當機的故障主要是風扇壞掉或電子器件與線路損壞等,F在市面上的服務器廠家批量采用的電源很多都是HIPRO 電源由于風扇或其中電子器件與線路故障引起的當機,除了需要進行防塵處理外,基本沒什么特殊的防范準則,因為隨機的偶然性,大多數情況下只能在當機出現的時候,拿備用電源替換,盡量減少當機引起的運行時間損耗的問題。
7.操作不當
一般情況下,機房的空間都是盡量有效利用的。打個比方,如果需要對機柜內的一部服務器拆開進行硬件升級,在它上面還碼放了幾部機架式服務器,為了不中斷上面幾部服務器的運行,可能需要二至三個操作人員協作才能將上面幾部服務器托起,并把需升級的服務器拖出。這個過程看起來很簡單,不過如果沒有什么移機經驗,冒失地跑上去拖拽抬放,很可能就導致上面幾部服務器內硬盤部件因振動而與總線接觸不良,從而導致當機。
另外,主板故障引起的服務器當機基本都需要返廠修理,與電源故障原由基本相同,其處理方法在次不再贅述。
由軟件原因引起的死機
軟件引起的死機需要考慮的問題比較多雜,涉及到主機系統、操作系統和應用軟件
主機系統故障引起的服務器當機
1.CMOS參數設置不合理
CMOS參數設置不合理,是主機系統引起當機故障中最普遍的現象。
由于涉及到具體應用的規劃或更改,如果對系統模式設定、CPU、內存、硬盤、溫度限制等參數設置不合理,很可能會導致服務器運行中死機。
避免的方法只能在相對專業的工程師指導下,根據服務器所需的一些應用,對CMOS參數進行合理的設置。
2.BIOS設置或升級不當
BIOS的設置與升級一般在服務器出廠前已經設置完畢,有部分用戶由于特殊需求,對BIOS設置進行改動或生機,稍一不慎就可能導致服務器無法啟動;另外,一些應用程序可能會對BIOS不支持或者運行時對BIOS信息進行改動,這些操作也會導致服務器在以后的使用中不穩定而宕機。
避免的方法是盡量避免對BIOS數據進行改動,遇到有更改BIOS參數的程序,應盡快對服務器內數據進行備份,并對BIOS數據進行出廠設置恢復。
操作系統故障引起的服務器當機
服務器的操作系統相對個人版的操作系統,容錯的能力有很大的提高,但是,在繁忙的運算與處理過程中,免不了也會出現當機的現象。操作系統引起的服務器宕機主要有以下一些原因。
1.操作系統導引文件損壞或更改
操作系統運行前,需要導引文件對系統進行引導,如果這些文件損壞,當即會產生藍屏當機,并在重新啟動時仍無法進入系統。
引導程序損壞與更改的解決辦法,只能利用備用的同類型操作系統引導程序引導與恢復。
2.系統文件誤刪除
服務器里許多重要的系統文件,在刪除前都會有提示信息,如果稍不留神多按一下回車,刪除的文件可就再也沒法恢復了。
解決系統文件誤刪除,需要從平常的操作中養成習慣,以Windows服務器系統為例,刪除文件不要按住Shift,讓文件經過系統回收站,這樣當誤刪除操作進行后,還可以及時的進行還原恢復。
3.動態鏈接庫文件損壞或丟失暫時系統沒有太大的問題
當操作者需要通過操作系統調用程序時,會通過調用程序與操作系統之間的動態鏈接庫文件來協調。動態鏈接庫文件大多屬于多程序共享文件,如果進行程序反安裝等操作,動態鏈接文件由于在操作時被發安裝程序記錄為曾經使用的文件,會隨著反安裝同時被刪除。如果被刪除的動態鏈接庫文件同時也是操作系統重要程序的調用,很可能產生服務器當機。
以WindowsServer操作系統為例,動態鏈接庫文件損壞或丟失的解決辦法,最好是通過優化大師與超級兔子等優化軟件對系統內的動態鏈接庫文件進行優化、管理與備份,以盡快在當機發生后對文件進行有效的恢復。
應用軟件引起的服務器宕機
1.軟件bug
軟件bug是應用軟件里最常見的引起服務器當機的故障原因,一些占用CPU或內存較大的軟件應用,在bug發生時,很容易造成服務器當機。
軟件bug在應用驅動、運算處理、系統與軟件升級等各重要環節中發生的時候,因為本身程序占用內存和處理需求比較高,這就很容易造成程序處理響應不過來而當機。
軟件bug沒有哪家軟件開發公司能夠避免,唯一的方法只能使得bug發生的幾率減少,那就是在應用軟件上線時督促開發人員進行全面的測試或在bug發生后,及時的對軟件程序進行修補。
2.病毒感染與黑客攻擊
病毒感染與黑客攻擊是導致NOC、IDC等大型服務器安置中心當機的主要原因。
無論是病毒感染還是黑客攻擊,最主要的解決方式還是提高服務器安全防護人員的技術含量,盡量減少服務器被攻擊的危險從而最大限度的降低服務器宕機的危險性。
3.殺毒軟件與防火墻
結合上文,為了對那些粗暴復制衍生的病毒或木馬程序進行有效的查殺,殺毒軟件與防火墻需要對各種代碼的特征進行辨認,那就需要不斷的提高病毒庫文件的容量;而高等級的防火墻甚至還需要智能的辨別IP訪問許可,并對文件包的接收與發送與否進行人工智能式的篩選,這就需要更大的處理與存儲空間保障其運行。
殺毒軟件與防火墻運行對于處理和存儲空間的高要求,必然帶來實時監控、病毒掃描與查殺時的高存儲占有,如果同時發生系統內部的多個線程響應,宕機也是很可能發生的事情。
總結
硬件方面,服務器可以通過更好的優化配置,做好新舊替換與升級規劃,在系統應用之初就做好硬件兼容、承載和壓力等測試、預測,這樣可以最大限度的保障服務器的穩定與正常運行,減少宕機發生的幾率。
軟件方面,服務器也需要更好的協作硬件、操作系統與軟件系統之間的兼容與穩定性,做好壓力測試、流量測試和負載預測等前期規劃,搭配好網絡與系統的安全防護,為以后的系統應用做好準備。
當機在我們服務器應用的時候,是可以減少幾率但絕對無法避免的事情。在我們規劃好硬件、軟件、網絡、安全等各方面搭配以后,也只是將當機的可能性減到最小。 |