段晨
存儲系統(tǒng)作為如今大數(shù)據(jù)云計算時代的根基,它的穩(wěn)定才是支撐起如此海量數(shù)據(jù)的根本。所以各大相關(guān)行業(yè)對于這部分非常重視,在此針對存儲系統(tǒng)的故障處置簡單提出一些思路。
首先在處理存儲系統(tǒng)發(fā)生的可能故障前必須對于整個存儲系統(tǒng)的架構(gòu)以及原理有一個清楚的了解。普遍來說存儲系統(tǒng)由主機、交換機及存儲設(shè)備組成。它們之間可以是直連或者是IP網(wǎng)絡(luò)或FC網(wǎng)絡(luò)的方式進行連接,整個系統(tǒng)的穩(wěn)定性跟每個組成部分都息息相關(guān)。
其次了解故障的分類,故障分類大致分為硬件故障、配置故障或者license類問題,先外部后內(nèi)部,先處理高級警告后處理低級警告,先共性后個性。
面對故障的發(fā)生,第一步永遠都是先進行必要的信息收集,對于整個存儲系統(tǒng)的基本信息、故障信息、存儲設(shè)備信息以及組網(wǎng)、主機服務(wù)器信息要有了解。這些部分可以直接到主機、交換機或存儲設(shè)備中進行收集,如今廠商也都有專門研發(fā)維護工具來幫助管理者做這些事情。收集清楚這些信息之后,才能對整個存儲系統(tǒng)有一個普遍清晰的認知,至少對當前故障可能發(fā)生的原因有一個了解,然后再細化到每個組成部分上排查可能問題。
一、主機層
在主機層面大多需要檢查的是操作系統(tǒng)版本,相應(yīng)的 Hba卡是否達到合適的標準,如速率、IOPS及帶寬等。其次是在主機上安裝的多路徑軟件,查看一下與存儲設(shè)備連接的物理路徑的狀態(tài)以及存儲LUN等信息。
二、網(wǎng)絡(luò)層
網(wǎng)絡(luò)層次可能發(fā)生的問題大多是連通性問題,由于鏈路故障導致的丟包或者誤碼率上升等現(xiàn)象,此現(xiàn)象可以在交換機上觀察端口的信息,觀察誤碼率是否在持續(xù)增長,如有,則可能存在鏈路部件異常或接觸不良的現(xiàn)象。其次可能是端口速率或帶寬未達到標準,查看端口配置及協(xié)商狀況,這些都有可能導致故障或者性能問題。
三、存儲層
存儲設(shè)備可以在導出相關(guān)告警,事件或者運行數(shù)據(jù)、系統(tǒng)日志和硬盤日志來進一步分析可能發(fā)生故障的原因,到底是存儲控制器問題還是底層的硬盤問題都需要一一排查。在底層存儲方面主要考慮存儲模塊的配置,指示燈狀態(tài)等信息,從指示燈狀態(tài)可以分析出是否存在硬件故障等,其次在配置方面:RAID級別、分條深度、LUN讀寫策略、cache策略、LUN歸屬和硬盤類型等,是否符合業(yè)務(wù)的特點以及不符合時可能導致的問題,都是需要在故障排查處理時需要考慮的。
總之面對存儲系統(tǒng)的故障,一定要具備一個清晰的思路,不要盲目的去做,盲目地去做可能會惡化故障,從而使得排查難度進一步加大。