複製鏈接
請複製以下鏈接發送給好友

系統故障分析

鎖定
系統故障分析就是對系統的故障進行分析排查,使系統正常運行。系統故障分析包括日誌文件分析、系統啓動類故障分析和文件系統類故障分析。
中文名
系統故障分析
外文名
System Failure Analysis
英文簡寫
SFA
分    類
日誌文件、系統啓動類等
意    義
發現並改正故障,使系統正常運行
領    域
計算機
系統故障分析包括日誌文件分析、系統啓動類故障排除和文件系統類故障排除。

系統故障分析日誌文件分析

系統故障分析日誌的功能

日誌用於記錄系統、程序運行中發生的各種事件。通過閲讀日誌,有助於診斷和解決系統故障 [1] 

系統故障分析日誌文件的分類

1.內核系統日誌:由系統服務syslog統一進行管理,日誌格式基本相似。
2.用户日誌:記錄系統用户登錄及退出系統的相關信息。
3.程序日誌:由各種應用程序獨立管理的日誌文件,記錄格式不統一 [1] 

系統故障分析主要日誌文件介紹

內核及公共消息日誌:/var/log/messages;
計劃任務日誌:/var/log/cron;
系統引導日誌:/var/log/dmesg;
郵件系統日誌:/var/log/maillog;
用户登錄日誌:/var/log/lastlog、/var/log/secure、/var/log/wtmp、/var/run/btmp [1] 

系統故障分析日誌消息的級別

0 EMERG(緊急):會導致主機系統不可用的情況;
1 ALERT(警告):必須馬上採取措施解決的問題;
2 CRIT(嚴重):比較嚴重的情況;
3 ERR(錯誤):運行出現錯誤;
4 WARNING(提醒):可能會影響系統功能的事件;
5 NOTICE(注意):不會影響系統但值得注意;
6 INFO(信息):一般信息;
7 DEBUG(調試):程序或系統調試信息等 [1] 

系統故障分析用户日誌分析

日誌保存了用户登錄、退出系統等相關信息。
/var/log/lastlog:最近的用户登錄事件;
/var/log/wtmp:用户登錄、註銷及系統開、關機事件;
/var/run/utmp:當前登錄的每個用户的詳細信息;
/var/log/secure:與用户驗證相關的安全性事件;
分析工具:users 、who、w、last、lastb [1] 

系統故障分析程序日誌分析

由相應的應用程序獨立進行管理,如下:
Web服務:/var/log/httpd/access_log、error_log;
代理服務:/var/log/squid/access.log、cache.log、squid.out、store.log;
FTP服務:/var/log/xferlog。
分析工具:文本查看、grep過濾檢索、Webmin管理套件中查看;awk、sed等文本過濾、格式化編輯工具;Webalizer、Awstats等專用日誌分析工具 [1] 

系統故障分析日誌管理策略

1.及時作好備份和歸檔;
2.延長日誌保存期限;
3.控制日誌訪問權限:日誌中可能會包含各類敏感信息,如賬户口令等;
4.集中管理日誌:便於日誌信息的統一收集、整理和分析;杜絕日誌信息的意外丟失、惡意篡改或刪除。
應用示例:調整syslogd服務設置,建立集中管理的日誌服務器;將客户機B中crond服務產生的日誌消息,自動發送到服務器A的/var/log/cron文件中 [1] 

系統故障分析系統啓動類故障分析

系統故障分析MBR扇區故障

故障原因:病毒木馬等造成的破壞;不正確的分區操作、磁盤讀寫誤操作。
故障現象:找不到引導程序,啓動中斷;無法加載操作系統,開機後黑屏。
解決思路:應提前作好備份文件;以RHEL5安裝光盤引導進入急救模式;從備份文件中恢復。
應用示例:
1.備份MBR扇區數據:dd if=/dev/sda of=/backup/sda.mbr.bak bs=512 count=1;
2.模擬MBR被破壞的故障:dd if=/dev/zero of=/dev/sda bs=512 count=1;
3.RHEL5光盤引導,進入急救模式:boot: linux rescue;
4.從備份文件中恢復MBR扇區:dd if=/tempdir/sda.mbr.bak of=/dev/sda bs=512 count=1 [1] 

系統故障分析GRUB引導故障

故障原因:MBR中的GRUB引導程序遭到破壞;grub.conf文件丟失、引導配置有誤。
故障現象:系統引導停滯,顯示“grub>”提示符。
解決思路:嘗試手動輸入引導命令;進入急救模式,從備份中恢復 grub.conf;向MBR扇區中重建grub程序。
應用示例:在“grub>”提示符後,手動輸入引導命令;成功進入系統後,恢復或重建 grub.conf 配置文件 [1] 

系統故障分析/etc/inittab文件丟失

故障原因:inittab文件被誤刪除,或者存在配置錯誤。
故障現象:啓動中提示 “INIT: No inittab file found”;系統停滯,無法完成初始化
解決思路:進入急救模式,從備份文件中恢復;或者,在急救模式中重新安裝 initscripts 軟件包即rpm -ivh --replacepkgs initscripts-8.45.14.EL.i386.rpm [1] 

系統故障分析遺忘root用户的密碼

故障原因:遺忘root用户的密碼。
故障現象:無法進行需要root權限的管理操作;若沒有其他可用賬號,將無法登錄系統。
解決思路:引導進入單用户模式,然後重設密碼;grub > kernel ... single 或 s 或 1;或進入急救模式,然後重設密碼 [1] 

系統故障分析文件系統類故障分析

系統故障分析修復文件系統

故障原因:非正常關機、突然斷電、設備讀寫失誤等;文件系統的超級塊(super-block)信息被破壞。
故障現象:無法向分區中讀取或寫入數據;啓動後提示“Give root password for maintenance” 。
解決思路:根據提示輸入root口令,進入修復狀態;使用fsck命令進行修復 [2] 

系統故障分析磁盤資源耗盡故障

故障原因:磁盤空間已被大量的數據佔滿,空間耗盡;雖然還有可用空間,但文件數i節點耗盡 。
故障現象:無法寫入新的文件,提示“… : 設備上沒有空間”;部分程序無法運行,甚至系統無法啓動。
解決思路:清理磁盤空間,刪除無用、冗餘的文件;轉移或刪除佔用大量i節點的瑣碎文件;進入單用户模式、急救模式進行修復;為用户設置磁盤配額 [2] 

系統故障分析檢測磁盤環境

故障原因:磁盤設備中存在壞道(邏輯的或物理的)。
故障現象:讀取磁盤中的數據時,磁盤設備發出異常聲響;訪問磁盤中的某個文件時,反覆讀取且出錯,提示文件損壞;對於新建立的分區無法完成格式化;系統使用該磁盤時頻繁死機。
解決思路:檢測硬盤中是否存在壞道;修復硬盤,或更換新的硬盤 [2] 
參考資料
  • 1.    蘭德爾 E.布萊恩特(Randal E.·Bryant) .深入理解計算機系統: 機械工業出版社 ,2016
  • 2.    霍士勇 ,網絡系統故障分析 [J].計算機光盤軟件與應用 , 2011 (23) :83-83