在互聯網高速發展的現在,即使是擁有高性能和冗余功能的現代
服務器,增加的工作負載整合與可靠性,也讓服務器忙得不可開交。究竟如何維護服務器?如何提高服務器的穩定性呢?答案是,需要為服務器列出維護清單,包括物理
配件以及系統關鍵配置,做好以下五大清單!

1
檢查事件日志輸出
服務器事件日志中記錄著豐富的信息,尤其是一些細節。如果沒有仔細檢查系統日志、惡意軟件日志和其他日志,服務器維護是不規范不完整的。當然,關鍵的系統問題應該引起IT管理員和技術人員的注意,但也有無數的非關鍵問題,可能是慢性或嚴重問題的危險信號。
要積極主動的分析日志數據,當日志檢查發現慢性或反復出現的問題,要積極主動的尋找
解決方案,避免問題升級。例如:如果服務器日志顯示一些
內存模塊的可恢復報告,那么不會觸發嚴重告警,但報告說明了某個模塊的問題,那么IT人員就可以進行更詳細的診斷程序以識別即將發生的故障。如果問題影響輕微,無須關閉服務器,那么它可以返回到線上繼續服務,直到需要更換硬件的時候。
2
檢查內部
硬盤
許多服務器依賴內部
硬盤,用于承載工作量和
存儲,保存用戶數據以及其他功能。硬盤介質出現問題會嚴重影響服務器的負載性能和穩定性,最終會導致硬盤故障。磁盤介質是不完美的,常見問題包括壞道和碎片化。RAID可以比較穩定地確保出現磁盤故障時數據穩定與一致性,但更小型的服務器,如1U的機架式服務器可能無法提供足夠的空間來實施RAID。使用如CHKDSK(CheckDisk)這樣的工具來檢查硬盤完整性,還可以嘗試修復其中損壞的扇區。
磁盤碎片不會消失,使用NFS并且文件分配表或FAT,文件系統會使用首個可用集群的磁盤空間。碎片可能會降低服務器磁盤速度并引發故障,諸如Windows Server 2012自帶的卷組優化工具,可以安排每個文件集群,并確保數據連續。
3
定期安裝更新和補丁
BIOS、操作系統、虛擬機管理程序、驅動程序、應用程序、支持工具必須確保互動與協作,但是軟件代碼很少完美或沒有任何問題,所以此類軟件問題需要通過修補或更新來修復錯誤、簡化操作、提高安全性和性能等。不是所有軟件都可以自動更新,管理員需要確認哪些補丁或升級包是必要的,然后評估和測試更新效果。如果更新包修復的是服務器不存在的問題,實屬多此一舉。
軟件開發者無法測試到每個軟硬件兼容性以及補丁、更新的潛在問題,因此可能會導致更多的問題,這種情況可能在特定的服務器或軟件集中發生。要在實驗室環境內測試補丁或更新,始終確??梢猿蜂N原來的更改,并可以恢復修改前的軟件配置。
4
確保服務器可以呼吸
一旦服務器關機,檢查其內部和外部的空氣流動路徑,清除任何積累的灰塵和雜物,確保冷卻空氣通行順暢。從外部空氣出入口開始,然后繼續到系統機箱CPU散熱器和風扇組件,內存模塊和所有冷卻風扇葉片與風道路徑。防靜
電工作區用清潔、干燥的壓縮空氣去除塵和碎屑。不要在機架中清潔服務器。
除塵是個長期的傳統過程,但這并不意味著它已經過時了。灰塵是一種熱絕緣體,需要清除掉,現代的替代冷卻方案以及ASHARE建議已經提出了調高數據中心工作溫度?;覊m和其他空氣流動的障礙物會導致服務器使用更多能源,甚至沉淀積累導致某些組件過早出現故障。
5
堅持例行維護
服務器管理員往往忽視計劃好的例行維護。不要等到實際出現故障才進行維護,預留時間進行日常維護可以防止問題。維護頻率取決于設備年齡、數據中心環境、待維護服務器的容量和其他因素。
放置在設備間的舊設備會比放置在配有HEPA過濾器、良好冷卻設施數據中心里的設備需要更頻繁的檢查,組織可以根據供應商或第三方的例行巡檢策略來安排日常維護。