100條運維設備日常維護檢查單Checklist 覆蓋日常90%以上工作!
2025-08-04 09:17:26
RAIZ
在IT運維領域,設備的穩(wěn)定運行是企業(yè)業(yè)務連續(xù)性的基石。一套詳盡、嚴謹的日常維護檢查單(Checklist),是運維工程師高效、規(guī)范工作的核心工具。本文將系統(tǒng)梳理涵蓋服務器、網絡、存儲、安全、機房環(huán)境等關鍵領域的100條必會維護檢查點,為運維工作提供標準化操作指南。
一、服務器硬件維護檢查(15條)
1. 物理狀態(tài)檢查: 目視檢查服務器外觀有無明顯損傷、變形;指示燈狀態(tài)(電源、硬盤、風扇、故障燈)是否正常。 2. 電源與供電:
? 檢查冗余電源模塊狀態(tài)是否均為正常(綠燈)。 ? 確認電源線連接牢固,無松動、老化、破損。 ? 檢查PDU(電源分配單元)指示燈、電流電壓顯示是否在正常范圍。
3. 風扇與散熱: ? 檢查服務器內部及機柜風扇運轉是否正常,無異常噪音(尖銳聲、摩擦聲、停轉)。 ? 清理風扇及散熱器格柵的灰塵(按需,結合機房清潔計劃)。 ? 監(jiān)控服務器進風口、出風口溫度(通過管理口或傳感器)。 4. CPU狀態(tài): 通過操作系統(tǒng)命令(如Linux的 top/htop
, Windows任務管理器)或硬件管理工具(如iLO, iDRAC, IMM)查看CPU利用率、溫度是否在合理閾值內(通常<80%持續(xù)高負載需關注)。5. 內存狀態(tài): ? 檢查操作系統(tǒng)報告的內存總量是否與物理配置一致。 ? 檢查內存使用率、Swap使用率(過高需排查)。 ? 通過硬件管理工具或 dmidecode
等命令檢查是否有內存ECC錯誤報告。6. 磁盤狀態(tài): ? 物理磁盤: 檢查硬盤指示燈狀態(tài)(通常綠色正常,黃色預警,紅色故障/離線);通過RAID卡管理工具( MegaCLI
,storcli
,hpssacli
)或操作系統(tǒng)檢查所有物理磁盤狀態(tài)(Online
,Predictive Failure
等)。? 陣列狀態(tài): 確認RAID級別,檢查RAID陣列狀態(tài)是否為 Optimal
或Normal
,無降級(Degraded
)或失效(Failed
)。? 背板/線纜: 檢查SAS/SATA/NVMe背板連接、線纜是否牢固。 7. PCIe設備: 檢查關鍵擴展卡(HBA卡、網卡、GPU卡等)在操作系統(tǒng)和設備管理器中的狀態(tài)是否正常。 8. 管理接口: 測試服務器帶外管理接口(如iLO, iDRAC, iBMC)的網絡連通性和登錄功能是否正常。 9. 固件版本: (定期)檢查關鍵組件(BIOS/UEFI, BMC, RAID卡, 網卡)固件版本,評估是否需要按計劃升級(非緊急不打補丁)。 10. 物理連接: 檢查所有數據線纜(網線、光纖、存儲線纜)連接是否牢固、標簽清晰、無過度彎折。 11. 日志檢查: 查看服務器硬件日志(通過操作系統(tǒng)事件查看器、 dmesg
、journalctl
或硬件管理工具),篩選硬件相關錯誤(Critical
,Error
,Warning
)并處理。12. 備件狀態(tài): (周/月)確認關鍵備件(電源、風扇、硬盤)庫存狀態(tài)和可用性。 13. 資產信息核對: (定期)核對服務器物理位置、資產標簽、配置信息(CPU、內存、硬盤)是否與CMDB記錄一致。 14. 清潔度: (按機房清潔周期)確保服務器表面及周邊無明顯積塵。 15. 螺絲與安全: 檢查機箱蓋板是否蓋好,固定螺絲是否齊全(影響散熱和安全)。 16. 物理狀態(tài)檢查: 目視檢查交換機、路由器、防火墻等設備外觀、指示燈(電源、狀態(tài)、端口燈)是否正常。 17. 電源與供電: 檢查冗余電源狀態(tài)、電源線連接、PDU狀態(tài)(同服務器檢查點)。 18. 風扇與散熱: 檢查風扇運轉狀態(tài)、噪音、散熱口通暢度。 19. CPU與內存利用率: 登錄設備CLI或Web界面,檢查CPU和內存利用率是否在正常范圍(通常<70%),高峰時段重點監(jiān)控。 20. 端口狀態(tài): ? 檢查所有業(yè)務端口狀態(tài)( up/up
),速率和雙工模式是否正確。? 檢查有無 err-disable
端口,并查明原因。? 檢查關鍵端口(上聯(lián)、核心互聯(lián))的輸入/輸出錯誤計數( input errors
,output errors
,CRC
,giants
,runts
)是否持續(xù)增長或過高。21. 鏈路聚合狀態(tài): 檢查聚合端口組狀態(tài)是否為 up
,成員端口狀態(tài)一致,無端口被踢出聚合組。22. 生成樹協(xié)議狀態(tài): 檢查STP/RSTP/MSTP根橋位置是否預期,各端口角色( Root
,Designated
,Alternate/Blocking
)是否正確,無異常拓撲變更(TCN)。23. 路由協(xié)議狀態(tài): ? 檢查BGP/OSPF/EIGRP等鄰居狀態(tài)是否正常( Established
,Full
)。? 檢查路由表是否收斂、完整,無異常路由抖動或缺失。 24. ACL與策略應用: (按需)檢查關鍵ACL、策略路由、QoS策略是否按預期應用在正確接口。 25. 管理訪問: 測試帶外管理口(如管理網口、Console口)的連通性和登錄功能。 26. 配置文件與備份: (定期/變更后)檢查當前運行配置與啟動配置是否一致;(定期)備份設備配置文件到安全位置。 27. 日志檢查: 檢查設備系統(tǒng)日志( Syslog
),關注Error
,Warning
級別信息,特別是鏈路狀態(tài)變化、協(xié)議鄰居震蕩、硬件故障等。28. 固件/OS版本: (定期)檢查操作系統(tǒng)(IOS, NX-OS, Junos, EOS, VRP等)版本,評估是否需要按計劃升級。 29. 物理連接與標簽: 檢查所有網線、光纖跳線連接牢固,光纖接口清潔(無塵),線纜標簽清晰準確。 30. 機柜內環(huán)境: 檢查網絡設備在機柜內安裝是否穩(wěn)固,線纜整齊規(guī)范,散熱空間充足。 31. 控制器狀態(tài): 檢查存儲控制器狀態(tài)是否均為 Online
,無Failed
或Degraded
。32. 電源與風扇: 檢查冗余電源、風扇模塊狀態(tài)是否正常(同服務器)。 33. 磁盤柜與磁盤: ? 檢查磁盤擴展柜狀態(tài)、鏈路狀態(tài)。 ? 檢查所有物理磁盤狀態(tài)( Online
,Spare
, 無Failed
,Predictive Failure
)。? 檢查磁盤槽位指示燈。 34. 存儲池/LUN/卷狀態(tài): 檢查存儲池/卷組狀態(tài)是否正常( Normal
),LUN/卷狀態(tài)是否為Online
,無Degraded
。35. RAID狀態(tài): 確認RAID組狀態(tài)為 Optimal
,無降級或重建中(如有,監(jiān)控重建進度和性能影響)。36. 緩存狀態(tài): 檢查讀寫緩存狀態(tài)是否啟用、電池/電容狀態(tài)(如BBU, FBWC)是否正常( OK
,Charged
),無警報。37. 前端端口狀態(tài): 檢查主機連接(FC, iSCSI, NFS, CIFS)端口狀態(tài)是否 Online
,無錯誤計數異常。38. 后端端口狀態(tài): 檢查連接磁盤柜的SAS/FC后端端口狀態(tài)是否正常。 39. 性能監(jiān)控: 檢查關鍵性能指標(IOPS, 吞吐量MB/s, 延遲ms)是否在基線范圍內,無異常飆升或持續(xù)過高。 40. 快照與復制狀態(tài): (如配置)檢查本地快照、遠程復制(同步/異步)狀態(tài)是否正常,無失敗或掛起。 41. 容量管理: ? 檢查存儲池/文件系統(tǒng)的總容量、已用容量、可用容量。 ? 檢查容量利用率是否超過預設閾值(如>80%),提前規(guī)劃擴容。 42. 管理接口與日志: 檢查管理接口(帶內/帶外)連通性,審查系統(tǒng)告警日志和事件日志。 43. 固件版本: (定期)檢查控制器、磁盤柜、磁盤固件版本,評估升級計劃。 44. 物理環(huán)境: 檢查存儲設備散熱、線纜連接、標簽。 45. 系統(tǒng)負載與運行狀態(tài): ? 檢查平均負載( uptime
,w
- Linux;性能監(jiān)視器 - Windows)。? 檢查關鍵服務/進程狀態(tài)是否運行( systemctl status
,ps -ef | grep
- Linux;服務管理器 - Windows)。46. CPU利用率: 使用 top
,htop
,vmstat 1
,mpstat -P ALL 1
(Linux) 或任務管理器/性能監(jiān)視器 (Windows) 監(jiān)控CPU使用率及%idle
,識別高負載進程。47. 內存使用: ? 檢查總內存、已用內存、空閑內存、緩沖區(qū)/緩存內存( free -m
,vmstat
- Linux)。? 檢查Swap使用量( free
,swapon -s
- Linux;頁面文件使用 - Windows),過高Swap使用是內存不足的信號。48. 磁盤空間: ? 檢查所有掛載點的磁盤使用率( df -h
- Linux;資源監(jiān)視器/wmic
- Windows)。? 識別大文件或增長過快的目錄( du -sh * | sort -h
,ncdu
- Linux;WinDirStat - Windows)。49. 磁盤I/O: 監(jiān)控磁盤讀寫速率、I/O等待時間、隊列深度( iostat -dx 1
- Linux;性能監(jiān)視器 - Windows),識別I/O瓶頸。50. 網絡連接與帶寬: ? 檢查網絡接口狀態(tài)、IP配置( ip addr
,ifconfig
- Linux;ipconfig
- Windows)。? 監(jiān)控網絡流量( iftop
,nload
,vnstat
- Linux;資源監(jiān)視器/第三方工具 - Windows)。? 檢查TCP連接狀態(tài)( netstat -anp
,ss
- Linux;netstat -ano
- Windows),關注TIME_WAIT
,CLOSE_WAIT
過多。51. 用戶與登錄: ? 檢查當前登錄用戶( who
,w
- Linux;query user
- Windows)。? 檢查最近的登錄記錄( last
- Linux;事件查看器安全日志 - Windows)。? 檢查異常用戶或提權操作。 52. 關鍵進程資源占用: 檢查數據庫、中間件、應用進程的CPU、內存、句柄數等資源消耗是否異常。 53. 系統(tǒng)日志: ? 集中檢查或本地檢查核心系統(tǒng)日志( /var/log/messages
,/var/log/syslog
,dmesg
- Linux;事件查看器系統(tǒng)/應用日志 - Windows)。? 篩選 ERROR
,WARNING
,CRIT
,FAIL
等級別信息并處理。54. 定時任務: 檢查計劃任務( crontab -l
,/etc/cron*/*
- Linux;任務計劃程序 - Windows)執(zhí)行狀態(tài),查看日志確認是否成功。55. 文件系統(tǒng)健康: (定期)檢查文件系統(tǒng)完整性( fsck
- Linux;chkdsk
- Windows),通常在維護窗口進行。56. 包管理與補丁: ? 檢查可用的系統(tǒng)更新( yum check-update
,apt list --upgradable
- Linux;Windows Update)。? (按變更管理流程)評估、測試、安排補丁安裝。 57. 時間同步: 檢查NTP服務狀態(tài),確認系統(tǒng)時間與NTP服務器同步( ntpq -p
,timedatectl
- Linux;w32tm /query /status
- Windows)。58. 安全更新與配置: (定期)審計系統(tǒng)安全配置(如SSH配置 /etc/ssh/sshd_config
,密碼策略,防火墻規(guī)則iptables/nftables/firewalld
- Linux;Windows防火墻/安全策略)。59. 備份驗證: (定期)驗證操作系統(tǒng)層面的關鍵配置文件備份的可用性和完整性。 60. 實例狀態(tài): 確認數據庫實例運行狀態(tài)正常( sqlplus / as sysdba
->SELECT status FROM v$instance;
- Oracle;SHOW DATABASES;
- MySQL;SELECT state_desc FROM sys.databases;
- SQL Server)。61. 監(jiān)聽器狀態(tài): 檢查數據庫監(jiān)聽器是否運行并能接受連接( lsnrctl status
- Oracle;SHOW PROCESSLIST;
- MySQL;SQL Server配置管理器)。62. 表空間/文件組使用率: 檢查所有表空間/文件組的空間使用情況,確保有足夠空閑空間(Oracle: DBA_FREE_SPACE
;MySQL:information_schema.FILES
;SQL Server:sp_helpdb
/sys.database_files
)。63. 性能監(jiān)控: ? 監(jiān)控關鍵性能指標(活動會話數、邏輯讀/物理讀、緩存命中率、鎖等待)。 ? 識別慢查詢( AWR
,ASH
- Oracle;慢查詢日志 - MySQL;sp_whoisactive
, 擴展事件 - SQL Server)。64. 備份狀態(tài): ? 檢查最近一次全備、增量備/日志備份是否成功完成。 ? 檢查備份文件大小是否合理,備份日志有無錯誤。 ? (定期)進行恢復演練驗證備份有效性。 65. 日志文件: ? 檢查數據庫告警日志( alert_.log
- Oracle;錯誤日志 - MySQL;SQL Server錯誤日志)是否有ORA-
,Error
信息。? 檢查事務日志文件狀態(tài)和使用率(避免日志滿)。 66. 作業(yè)與調度: 檢查數據庫作業(yè)調度器(Oracle Scheduler, MySQL Event Scheduler, SQL Server Agent)中的關鍵作業(yè)(如備份、統(tǒng)計信息收集、數據歸檔)執(zhí)行狀態(tài)是否成功。 67. 統(tǒng)計信息: (定期)檢查表/索引統(tǒng)計信息是否陳舊,確保自動或手動收集任務正常運行。 68. 連接與會話: 檢查當前連接數是否在合理范圍,識別異常或長時間空閑會話。 69. 復制狀態(tài): (如配置)檢查主從復制(MySQL Replication, SQL Server AlwaysOn/Replication, Oracle DG)狀態(tài)是否正常,延遲是否在可接受范圍內。 70. 安全審計: (定期)檢查數據庫用戶權限、審核日志,確保符合安全策略。 71. 集群狀態(tài): 檢查vCenter/SCVMM/Proxmox VE集群狀態(tài)是否正常,主機無隔離、無錯誤。 72. 主機狀態(tài): 檢查所有ESXi/Hyper-V/KVM宿主機連接狀態(tài)、健康狀態(tài)(CPU, 內存, 存儲, 網絡告警)、補丁級別。 73. 虛擬機狀態(tài): 檢查所有虛擬機電源狀態(tài)是否預期,無異常(無響應、啟動失敗、心跳丟失)。 74. 存儲狀態(tài): 檢查Datastore/LUN/存儲池狀態(tài)、容量使用率、性能指標(延遲、IOPS),確保無數據存儲不可訪問(APD/ PDL)。 75. 網絡狀態(tài): 檢查虛擬交換機(vSwitch, vDS)、端口組狀態(tài)、物理網卡綁定狀態(tài)。 76. 資源池與資源利用率: 監(jiān)控集群及主機的CPU、內存使用率,是否有資源爭用或瓶頸。 77. 高可用與容錯: (如配置)檢查HA(高可用性)、FT(容錯)、DRS(分布式資源調度)功能狀態(tài)是否正常。 78. 備份狀態(tài): 檢查虛擬機備份作業(yè)是否成功完成,備份文件驗證狀態(tài)。 79. 管理節(jié)點: 檢查vCenter Server/SCVMM服務器/Proxmox VE管理節(jié)點的狀態(tài)、性能和日志。 80. 固件與驅動: (定期)檢查宿主機的HBA卡、網卡固件和驅動版本,評估升級需求。 81. 備份作業(yè)狀態(tài): 檢查所有計劃備份作業(yè)(全備、增量備、差異備)是否按計劃成功完成。重點:檢查作業(yè)日志中的錯誤或警告信息。 82. 備份數據驗證: ? (定期)執(zhí)行備份數據的完整性驗證(如果備份軟件支持)。 ? (定期)執(zhí)行關鍵數據的恢復演練(粒度恢復、整機恢復),驗證備份實際可恢復性。這是最重要也是最易被忽略的環(huán)節(jié)。 83. 備份存儲容量: 監(jiān)控備份目標(磁盤庫、磁帶庫、云存儲)的存儲空間使用率,確保有足夠空間容納未來的備份。 84. 介質狀態(tài): (如使用磁帶)檢查磁帶驅動器狀態(tài)、磁帶介質狀態(tài)(清洗帶、數據帶)、磁帶庫機械手狀態(tài)。 85. 備份策略審核: (定期)審核備份策略(RPO, RTO)是否仍符合業(yè)務需求,備份保留周期是否合理。 86. 備份客戶端狀態(tài): 檢查所有需要備份的服務器/應用上的備份代理(Agent)狀態(tài)是否正常、在線。 87. 備份軟件狀態(tài): 檢查備份服務器/介質服務器的狀態(tài)、性能、日志。確認軟件許可證有效。 88. 異地備份狀態(tài): (如配置)檢查異地復制或云備份任務的狀態(tài)和同步情況。 89. 防火墻狀態(tài): 檢查防火墻引擎狀態(tài)、HA狀態(tài)(主備/集群)、接口狀態(tài)、會話數是否正常。 90. 安全策略狀態(tài): 檢查關鍵安全策略(ACL、NAT、IPS/IDS策略、應用控制策略)是否處于激活狀態(tài)。 91. 威脅檢測與日志: ? 檢查IPS/IDS告警日志,分析最新威脅事件。 ? 檢查防火墻拒絕日志( deny
),分析是否有異常掃描或攻擊嘗試。92. VPN狀態(tài): (如配置)檢查VPN隧道狀態(tài)(是否 up
)、用戶連接數。93. 防病毒狀態(tài): (網絡層/終端層)檢查防病毒控制臺,確認病毒定義更新正常,掃描任務執(zhí)行正常,無大規(guī)模病毒感染告警。 94. 漏洞掃描結果: (定期)查看最新漏洞掃描報告,跟蹤高中危漏洞的修復進度。 95. 日志審計: 檢查集中日志平臺(SIEM)或安全設備本地日志,關注安全事件(登錄失敗、權限變更、策略修改、高危操作)。 96. 訪問控制列表: (定期)審計防火墻、路由器、服務器上的訪問控制列表(ACL),清理過期或無效規(guī)則。 97. 證書狀態(tài): 檢查SSL VPN、HTTPS代理等服務使用的數字證書有效期,避免過期。 98. 配置備份: (變更后/定期)備份安全設備(防火墻、IPS、WAF)的配置文件。 99. 固件/特征庫更新: 檢查安全設備的操作系統(tǒng)版本、IPS特征庫、病毒庫版本,按計劃進行更新。 100. 溫濕度監(jiān)控: 實時監(jiān)控機房溫度和濕度(通常溫度22-24°C,濕度40-60%RH),確保在設定閾值范圍內。 101. UPS狀態(tài):
* 檢查UPS輸入/輸出電壓、電流、頻率、負載百分比。
* 檢查電池狀態(tài)(浮充電壓、內阻、后備時間估算)。
* 檢查UPS運行模式(通常應為Normal
在線模式)。102. 精密空調狀態(tài): 檢查空調運行狀態(tài)、設定溫度/濕度、送回風溫度、壓縮機/風機狀態(tài)、告警信息。 103. 配電柜狀態(tài): 檢查配電柜總輸入、各輸出支路電流、電壓、開關狀態(tài)、指示燈。注意安全,非專業(yè)人員勿操作。 104. 漏水檢測: 檢查漏水檢測系統(tǒng)狀態(tài)是否正常,探頭位置合理,無漏水告警。 105. 消防系統(tǒng)狀態(tài): (專業(yè)人員/維保人員)檢查氣體滅火系統(tǒng)、煙感溫感探測器狀態(tài)是否正常,壓力表指示在綠區(qū)。嚴禁非授權操作。 106. 門禁系統(tǒng)狀態(tài): 測試門禁刷卡/生物識別功能、門磁狀態(tài)、記錄查詢功能是否正常。 107. 視頻監(jiān)控狀態(tài): 檢查攝像頭畫面是否清晰、覆蓋關鍵區(qū)域(出入口、機柜通道、配電間、空調間)、錄像存儲正常。 108. 物理環(huán)境:
* 檢查機房清潔衛(wèi)生,地面、機柜頂部無積塵。
* 檢查通道(冷/熱通道)是否暢通無阻,無雜物堆放。
* 檢查機柜門是否關閉。109. 標簽標識: 檢查所有設備、線纜、開關、配電回路標簽是否清晰、準確、完整。 ? Checklist執(zhí)行記錄: 每次執(zhí)行檢查后,應有記錄(時間、執(zhí)行人、結果、異常處理情況)。 ? 異常處理流程: 對檢查中發(fā)現的異常,應有明確的報告、響應、升級和處理流程。 ? 定期Review: 定期(如每季度/半年)Review這份Checklist本身,根據業(yè)務變化、技術演進、故障教訓進行增刪修訂。 ? 知識庫更新: 將檢查標準、常見問題處理方案沉淀到運維知識庫。
二、網絡設備維護檢查(15條)
三、存儲系統(tǒng)維護檢查(10條)
四、操作系統(tǒng)維護檢查(15條)
五、數據庫維護檢查(10條)
六、虛擬化平臺維護檢查(8條)
七、備份系統(tǒng)維護檢查(7條)
八、安全設備與策略維護檢查(10條)
九、機房基礎設施維護檢查(10條)
十、文檔與流程