遇到服務器宕機(jī)怎麽解決?有什麽預防措施?
宕機(jī),是IT行業常用的一個專業術(shù)語,其實就(jiù)是我們經常說(shuō)的死機(jī)。對于IT管理(lǐ)者和應用者來(lái)說(shuō),宕機(jī)是一件(jiàn)讓人(rén)很頭疼的事(shì)情。
普通家庭用的電腦宕機(jī)可(kě)能沒有太大(dà)的影(yǐng)響,頂多就(jiù)是數據無法完全恢複,但(dàn)是如(rú)果是一台服務器宕機(jī)了,可(kě)能會導緻機(jī)要文件(jiàn)和高等級數據丢失,如(rú)果處理(lǐ)不當可(kě)能會造成很嚴重的後果。
宕機(jī)常見(jiàn)的表象多爲操作(zuò)界面靜(jìng)止無響應或“藍屏”,操作(zuò)系統無響應,軟件(jiàn)運行無響應,鼠标、鍵盤無響應,硬盤指示燈恒亮不閃爍。盡管造成死機(jī)的原因是多方面的,但(dàn)是萬變不離(lí)其宗,其原因總也脫離(lí)不了硬件(jiàn)與軟件(jiàn)(包括主機(jī)系統、操作(zuò)系統、應用軟件(jiàn))兩方面。
下面我們一起來(lái)看(kàn)一下什麽原因會引起服務器宕機(jī),有什麽解決方案和預防措施。
由硬件(jiàn)故障引起的服務器宕機(jī)
硬件(jiàn)其實脫不了這幾大(dà)件(jiàn):CPU、内存、硬盤、電源、散熱(rè)系統,而最常見(jiàn)的硬件(jiàn)引起的當機(jī)原因則是散熱(rè)系統故障。
1.散熱(rè)不良
散熱(rè)不良是大(dà)家碰到的導緻服務器當機(jī)最普遍的原因,CPU、硬盤、電源在工(gōng)作(zuò)中發熱(rè)量非常大(dà),因此保持良好的通風(fēng)狀況非常重要。CPU相(xiàng)當于人(rén)的大(dà)腦,對于服務器來(lái)說(shuō),它要對服務器内硬件(jiàn)軟件(jiàn)的各種請(qǐng)求進行并發多線程處理(lǐ),當并發處理(lǐ)要求突然增多時,CPU的熱(rè)量就(jiù)好象人(rén)腦飛速思考時一樣,會出現“腦熱(rè)”的症狀,而硬盤I/O的吞吐量也将向額定量靠近,由此帶來(lái)的功率增高,必然導緻熱(rè)量的增加;同時,功率的增加又對電源的支持産生(shēng)了很大(dà)的壓力,必然也會帶來(lái)電源高熱(rè)量的産生(shēng)。當運算量超過服務器運算負荷之後,這三個“高熱(rè)生(shēng)産大(dà)戶”短(duǎn)時間内的熱(rè)量突然“增産”,很可(kě)能導緻服務器的死機(jī)現象。
解決的辦法是,在進行服務器選購(gòu)時,盡量選擇發熱(rè)量較小的CPU,在系統設計(jì)時設置可(kě)以實現負載動态平衡的運算系統,選擇散熱(rè)性能良好的服務器準系統。
2.硬件(jiàn)之間或軟硬件(jiàn)之間不兼容
在硬件(jiàn)之間,如(rú)果主闆、CPU、内存由于内外頻相(xiàng)互不匹配,有可(kě)能在裝配之初由于處理(lǐ)并發事(shì)件(jiàn)較少,還(hái)可(kě)以正常運行,但(dàn)是當并發數上升到一定高度時,設備之間的匹配問(wèn)題導緻的硬件(jiàn)系統不穩定就(jiù)凸顯,這樣産生(shēng)的服務器當機(jī)事(shì)件(jiàn)發生(shēng)幾率也相(xiàng)應提高就(jiù)算有準系統的支持,也得(de)考慮硬件(jiàn)的兼容性哦。
服務器配件(jiàn)之間的不兼容問(wèn)題一般出在朋友們自(zì)己DIY的服務器上,軟硬件(jiàn)兼容問(wèn)題主要出在用戶對于硬件(jiàn)與應用之間的銜接不完善的時候。解決以上問(wèn)題的方法是在選購(gòu)硬件(jiàn)設備時,以需要采用的具體(tǐ)系統實現爲基礎,全面的考慮全新硬件(jiàn)之間、需要升級的配件(jiàn)與新配件(jiàn)之間、軟件(jiàn)與硬件(jiàn)之間的兼容性問(wèn)題,以構建一個穩定的系統。
3.CPU故障
CPU引起當機(jī)的故障主要有以上提到的兼容問(wèn)題、超頻引起的處理(lǐ)性能不穩定、一些JS爲獲更多利潤通過軟件(jiàn)改寫頻率引起的性能不穩。
改動頻率引起CPU不穩定從(cóng)而導緻運行中當機(jī)的現象比較少,主要出在一些DIY市場領域。解決改頻引起的問(wèn)題很簡單,服務器本身(shēn)要求的就(jiù)是系統的穩定運行,沒有特殊愛好,沒有特别專業的知識,不要随便改動。
4.内存故障
内存引起當機(jī)的故障主要有前文提到的兼容問(wèn)題、内存條松動、内存容量不足、内存質量問(wèn)題、内存資源沖突。
内存條松動,基本不會出現在品牌服務器中,因爲一般服務器出廠(chǎng)前都(dōu)會經過專業技術(shù)人(rén)員(yuán)全面的系統檢測;内存條松動的現象主要出在DIY服務器市場或操作(zuò)員(yuán)對品牌服務器進行升級時的疏忽導緻的内存條沒有插牢。
内存容量不足主要是由于服務器同一時間處理(lǐ)并發太多,占用太多的内存資源,導緻服務器處理(lǐ)響應不過來(lái),産生(shēng)宕機(jī)。
内存質量問(wèn)題主要是内存芯片出廠(chǎng)前的芯片故障或内存廠(chǎng)商裝配時的虛焊等。
内存資源沖突的問(wèn)題主要是在運行操作(zuò)系統或應用軟件(jiàn)時,由于系統線程搶占資源或軟件(jiàn)應用程序争搶内存地址而産生(shēng)的内存資源沖突,從(cóng)而導緻服務器死機(jī)的現象。
解決的方法隻能是采購(gòu)員(yuán)與操作(zuò)員(yuán)在進行裝配和升級、測試等工(gōng)作(zuò)時,持嚴謹的技術(shù)态度,認真細緻的檢查硬件(jiàn)的每個環節;對于内存資源沖突的問(wèn)題,主要通過選用冗餘支持的内存和在并發高峰期來(lái)臨前進行内存清理(lǐ)等工(gōng)作(zuò)來(lái)避免。
5.硬盤故障
硬盤引起當機(jī)的故障主要是由于使用時間長久、讀(dú)寫次數過多引起了磁道、扇區損壞的故障,再加上硬盤各部位的老化、磁盤碎片與垃圾文件(jiàn)過多等。
在一些有實力的公司,每隔兩三年(nián),會對正運行的服務器磁盤進行更新換代,将舊硬盤數據向新硬盤實現遷移,并将舊硬盤替換到一些測試或者辦公備用等地方,最大(dà)限度的避免了硬盤故障引起的當機(jī)現象。大(dà)家可(kě)以以此爲參考,參照(zhào)成本預算等因素,盡量在磁盤損壞之前進行更新換代,避免引起重要數據的損毀。
磁盤碎片與垃圾文件(jiàn)在每時每刻的運行中都(dōu)會産生(shēng),由于磁盤碎片過多或垃圾文件(jiàn)過多,造成可(kě)用空間資源過少時,也可(kě)能會在服務器多程序運行時當機(jī)。解決的辦法是定期對磁盤碎片與垃圾文件(jiàn)進行清理(lǐ)。
6.電源故障
電源引起當機(jī)的故障主要是風(fēng)扇壞掉或電子器件(jiàn)與線路(lù)損壞等。現在市面上的服務器廠(chǎng)家批量采用的電源很多都(dōu)是HIPRO 電源由于風(fēng)扇或其中電子器件(jiàn)與線路(lù)故障引起的當機(jī),除了需要進行防塵處理(lǐ)外,基本沒什麽特殊的防範準則,因爲随機(jī)的偶然性,大(dà)多數情況下隻能在當機(jī)出現的時候,拿備用電源替換,盡量減少當機(jī)引起的運行時間損耗的問(wèn)題。
7.操作(zuò)不當
一般情況下,機(jī)房(fáng)的空間都(dōu)是盡量有效利用的。打個比方,如(rú)果需要對機(jī)櫃内的一部服務器拆開進行硬件(jiàn)升級,在它上面還(hái)碼放(fàng)了幾部機(jī)架式服務器,爲了不中斷上面幾部服務器的運行,可(kě)能需要二至三個操作(zuò)人(rén)員(yuán)協作(zuò)才能将上面幾部服務器托起,并把需升級的服務器拖出。這個過程看(kàn)起來(lái)很簡單,不過如(rú)果沒有什麽移機(jī)經驗,冒失地跑上去(qù)拖拽擡放(fàng),很可(kě)能就(jiù)導緻上面幾部服務器内硬盤部件(jiàn)因振動而與總線接觸不良,從(cóng)而導緻當機(jī)。
另外,主闆故障引起的服務器當機(jī)基本都(dōu)需要返廠(chǎng)修理(lǐ),與電源故障原由基本相(xiàng)同,其處理(lǐ)方法在次不再贅述。
由軟件(jiàn)原因引起的死機(jī)
軟件(jiàn)引起的死機(jī)需要考慮的問(wèn)題比較多雜,涉及到主機(jī)系統、操作(zuò)系統和應用軟件(jiàn)
主機(jī)系統故障引起的服務器當機(jī)
1.CMOS參數設置不合理(lǐ)
CMOS參數設置不合理(lǐ),是主機(jī)系統引起當機(jī)故障中最普遍的現象。
由于涉及到具體(tǐ)應用的規劃或更改,如(rú)果對系統模式設定、CPU、内存、硬盤、溫度限制等參數設置不合理(lǐ),很可(kě)能會導緻服務器運行中死機(jī)。
避免的方法隻能在相(xiàng)對專業的工(gōng)程師(shī)指導下,根據服務器所需的一些應用,對CMOS參數進行合理(lǐ)的設置。
2.BIOS設置或升級不當
BIOS的設置與升級一般在服務器出廠(chǎng)前已經設置完畢,有部分(fēn)用戶由于特殊需求,對BIOS設置進行改動或生(shēng)機(jī),稍一不慎就(jiù)可(kě)能導緻服務器無法啓動;另外,一些應用程序可(kě)能會對BIOS不支持或者運行時對BIOS信息進行改動,這些操作(zuò)也會導緻服務器在以後的使用中不穩定而宕機(jī)。
避免的方法是盡量避免對BIOS數據進行改動,遇到有更改BIOS參數的程序,應盡快(kuài)對服務器内數據進行備份,并對BIOS數據進行出廠(chǎng)設置恢複。
操作(zuò)系統故障引起的服務器當機(jī)
服務器的操作(zuò)系統相(xiàng)對個人(rén)版的操作(zuò)系統,容錯的能力有很大(dà)的提高,但(dàn)是,在繁忙的運算與處理(lǐ)過程中,免不了也會出現當機(jī)的現象。操作(zuò)系統引起的服務器宕機(jī)主要有以下一些原因。
1.操作(zuò)系統導引文件(jiàn)損壞或更改
操作(zuò)系統運行前,需要導引文件(jiàn)對系統進行引導,如(rú)果這些文件(jiàn)損壞,當即會産生(shēng)藍屏當機(jī),并在重新啓動時仍無法進入系統。
引導程序損壞與更改的解決辦法,隻能利用備用的同類型操作(zuò)系統引導程序引導與恢複。
2.系統文件(jiàn)誤删除
服務器裡(lǐ)許多重要的系統文件(jiàn),在删除前都(dōu)會有提示信息,如(rú)果稍不留神多按一下回車,删除的文件(jiàn)可(kě)就(jiù)再也沒法恢複了。
解決系統文件(jiàn)誤删除,需要從(cóng)平常的操作(zuò)中養成習慣,以Windows服務器系統爲例,删除文件(jiàn)不要按住Shift,讓文件(jiàn)經過系統回收站(zhàn),這樣當誤删除操作(zuò)進行後,還(hái)可(kě)以及時的進行還(hái)原恢複。
3.動态鏈接庫文件(jiàn)損壞或丢失暫時系統沒有太大(dà)的問(wèn)題
當操作(zuò)者需要通過操作(zuò)系統調用程序時,會通過調用程序與操作(zuò)系統之間的動态鏈接庫文件(jiàn)來(lái)協調。動态鏈接庫文件(jiàn)大(dà)多屬于多程序共享文件(jiàn),如(rú)果進行程序反安裝等操作(zuò),動态鏈接文件(jiàn)由于在操作(zuò)時被發安裝程序記錄爲曾經使用的文件(jiàn),會随着反安裝同時被删除。如(rú)果被删除的動态鏈接庫文件(jiàn)同時也是操作(zuò)系統重要程序的調用,很可(kě)能産生(shēng)服務器當機(jī)。
以WindowsServer操作(zuò)系統爲例,動态鏈接庫文件(jiàn)損壞或丢失的解決辦法,最好是通過優化大(dà)師(shī)與超級兔子等優化軟件(jiàn)對系統内的動态鏈接庫文件(jiàn)進行優化、管理(lǐ)與備份,以盡快(kuài)在當機(jī)發生(shēng)後對文件(jiàn)進行有效的恢複。
應用軟件(jiàn)引起的服務器宕機(jī)
1.軟件(jiàn)bug
軟件(jiàn)bug是應用軟件(jiàn)裡(lǐ)最常見(jiàn)的引起服務器當機(jī)的故障原因,一些占用CPU或内存較大(dà)的軟件(jiàn)應用,在bug發生(shēng)時,很容易造成服務器當機(jī)。
軟件(jiàn)bug在應用驅動、運算處理(lǐ)、系統與軟件(jiàn)升級等各重要環節中發生(shēng)的時候,因爲本身(shēn)程序占用内存和處理(lǐ)需求比較高,這就(jiù)很容易造成程序處理(lǐ)響應不過來(lái)而當機(jī)。
軟件(jiàn)bug沒有哪家軟件(jiàn)開發公司能夠避免,唯一的方法隻能使得(de)bug發生(shēng)的幾率減少,那就(jiù)是在應用軟件(jiàn)上線時督促開發人(rén)員(yuán)進行全面的測試或在bug發生(shēng)後,及時的對軟件(jiàn)程序進行修補。
2.病毒感染與黑(hēi)客攻擊
病毒感染與黑(hēi)客攻擊是導緻NOC、IDC等大(dà)型服務器安置中心當機(jī)的主要原因。
無論是病毒感染還(hái)是黑(hēi)客攻擊,最主要的解決方式還(hái)是提高服務器安全防護人(rén)員(yuán)的技術(shù)含量,盡量減少服務器被攻擊的危險從(cóng)而最大(dà)限度的降低服務器宕機(jī)的危險性。
3.殺毒軟件(jiàn)與防火(huǒ)牆
結合上文,爲了對那些粗暴複制衍生(shēng)的病毒或木馬程序進行有效的查殺,殺毒軟件(jiàn)與防火(huǒ)牆需要對各種代碼的特征進行辨認,那就(jiù)需要不斷的提高病毒庫文件(jiàn)的容量;而高等級的防火(huǒ)牆甚至還(hái)需要智能的辨别IP訪問(wèn)許可(kě),并對文件(jiàn)包的接收與發送與否進行人(rén)工(gōng)智能式的篩選,這就(jiù)需要更大(dà)的處理(lǐ)與存儲空間保障其運行。
殺毒軟件(jiàn)與防火(huǒ)牆運行對于處理(lǐ)和存儲空間的高要求,必然帶來(lái)實時監控、病毒掃描與查殺時的高存儲占有,如(rú)果同時發生(shēng)系統内部的多個線程響應,宕機(jī)也是很可(kě)能發生(shēng)的事(shì)情。
總結
硬件(jiàn)方面,服務器可(kě)以通過更好的優化配置,做好新舊替換與升級規劃,在系統應用之初就(jiù)做好硬件(jiàn)兼容、承載和壓力等測試、預測,這樣可(kě)以最大(dà)限度的保障服務器的穩定與正常運行,減少宕機(jī)發生(shēng)的幾率。
軟件(jiàn)方面,服務器也需要更好的協作(zuò)硬件(jiàn)、操作(zuò)系統與軟件(jiàn)系統之間的兼容與穩定性,做好壓力測試、流量測試和負載預測等前期規劃,搭配好網絡與系統的安全防護,爲以後的系統應用做好準備。
當機(jī)在我們服務器應用的時候,是可(kě)以減少幾率但(dàn)絕對無法避免的事(shì)情。在我們規劃好硬件(jiàn)、軟件(jiàn)、網絡、安全等各方面搭配以後,也隻是将當機(jī)的可(kě)能性減到最小。