国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

IT設(shè)備帶外管理研究與實(shí)踐

2011-03-11 09:03
電信科學(xué) 2011年9期
關(guān)鍵詞:磁盤陣列跳板報(bào)文

金 鑫

(中國移動(dòng)通信集團(tuán)廣西有限公司 南寧 530022)

IT設(shè)備帶外管理研究與實(shí)踐

金 鑫

(中國移動(dòng)通信集團(tuán)廣西有限公司 南寧 530022)

IT硬件設(shè)備以往主要依賴“帶內(nèi)管理+現(xiàn)場管理”的維護(hù)模式,在維護(hù)人員數(shù)量有限的情況下,難以應(yīng)對不斷增長的設(shè)備數(shù)量,也無法滿足日益提高的維護(hù)要求。為解決IT設(shè)備管理和維護(hù)中遇到的難題,迫切需要尋找有效的技術(shù)手段,以提升維護(hù)質(zhì)量、管理效率并減少人力消耗。本文重點(diǎn)就IT設(shè)備引入帶外管理的思路進(jìn)行闡述,并對帶外管理的實(shí)施經(jīng)驗(yàn)進(jìn)行總結(jié),以供后續(xù)IT設(shè)備的管理工作參考借鑒。

IT設(shè)備;帶外管理;控制器;巡檢

1 管理現(xiàn)狀

隨著廣西移動(dòng)網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,數(shù)據(jù)業(yè)務(wù)和網(wǎng)管應(yīng)用的不斷推廣,相應(yīng)的IT硬件設(shè)備數(shù)量越來越多,設(shè)備機(jī)房分布也相對零散,給硬件設(shè)備的管理和維護(hù)工作帶來一定的困難。

1.1 設(shè)備類型繁雜,數(shù)量眾多

目前網(wǎng)絡(luò)運(yùn)營中心管理的IT設(shè)備逾千臺(tái),主要由主機(jī)、磁盤陣列和網(wǎng)絡(luò)設(shè)備3類構(gòu)成,其中,主機(jī)包括Unix小型機(jī)和 PC服務(wù)器,涉及 Sun、IBM、Fujitsu、HP等廠商硬件;磁盤陣列涉及Sun、IBM、EMC、華為等廠商硬件;網(wǎng)絡(luò)設(shè)備包括交換機(jī)、路由器和防火墻,涉及Cisco、華為、烽火、Juniper等廠商硬件。

同一廠商的某類設(shè)備,還可細(xì)分為多種具體型號(hào)。以Sun的Unix小型機(jī)為例,從低端到高端包括V240、V440、V880、V890、E4800、E4900、E6900、M5000、M8000等機(jī)型。

可見,IT設(shè)備具備類型多、廠商雜、型號(hào)密、數(shù)量大的特點(diǎn),其管理與維護(hù)工作的難度也與語音網(wǎng)設(shè)備不同。

1.2 設(shè)備分布零散,維護(hù)不便

目前網(wǎng)絡(luò)運(yùn)營中心管理的IT設(shè)備,主要分布在二樞紐機(jī)房、白沙機(jī)房和608機(jī)房。出于安全管理的需要,機(jī)房進(jìn)出需要辦理相關(guān)通行手續(xù),并登記出入情況,不便于硬件故障的搶修;各機(jī)房的地理位置相對較遠(yuǎn),無論是例行巡檢還是故障搶修,都要耗費(fèi)一定的路途成本;一般機(jī)房內(nèi)部不設(shè)置桌椅,機(jī)柜附近也很難給筆記本電腦取電,而且機(jī)房內(nèi)外溫差較大,不利于人工長期作業(yè)。

因此,面對海量的IT設(shè)備,以人力奔走于機(jī)房之間的維護(hù)方式不但效率低下,而且耗時(shí)耗力。

1.3 維護(hù)手段單一,效率低下

目前IT設(shè)備的管理和維護(hù)手段主要是“帶內(nèi)管理+現(xiàn)場管理”的方式,即在設(shè)備運(yùn)行正常的情況下通過業(yè)務(wù)通道對設(shè)備進(jìn)行帶內(nèi)管理,在設(shè)備無法遠(yuǎn)程訪問的情況下到機(jī)房現(xiàn)場對設(shè)備進(jìn)行console管理,同時(shí)將機(jī)房巡檢的方式作為硬件保障的基本手段。在實(shí)際運(yùn)維工作中,仍然存在下述難題。

·機(jī)房巡檢是硬件維護(hù)最基礎(chǔ)的工作,面對大量的IT設(shè)備,以人力到機(jī)房現(xiàn)場進(jìn)行巡檢的方式效率非常低下,既無法保證巡檢的及時(shí)性,也無法驗(yàn)證巡檢的有效性。

·當(dāng)突發(fā)緊急硬件故障時(shí),只能依賴維護(hù)人員趕到機(jī)房現(xiàn)場進(jìn)行排障工作,對于位置較偏遠(yuǎn)的機(jī)房,在路途上的時(shí)間消耗比較大,而且整個(gè)故障處理的流程顯得過于被動(dòng)。同時(shí),現(xiàn)場console連接需要使用多種接口的線纜串接,并在終端上配置特定的連接參數(shù)才能實(shí)現(xiàn)console登錄,略顯繁瑣。

·由于機(jī)房環(huán)境的制約,現(xiàn)場操作往往不便于與支持人員進(jìn)行有效溝通。因?yàn)槿狈W(wǎng)絡(luò)支持,WWW、郵件和IM工具等高效的溝通途徑無法實(shí)現(xiàn),通常只能依賴電話支持的方式,將現(xiàn)場情況通過語言描述給支持人員,由于語言表達(dá)的溝通效率和準(zhǔn)確性相對較低,往往會(huì)影響事件處理的效率。

1.4 存在的問題

毫無疑問,隨著廣西移動(dòng)網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,相應(yīng)的IT設(shè)備越來越多,而且機(jī)房管理有既定的規(guī)范和要求,不可能為了維護(hù)的便利性而犧牲管理的安全性。因此,在IT設(shè)備越來越多而維護(hù)人員數(shù)量有限的情況下,迫切需要改變現(xiàn)有的管理和維護(hù)手段,通過技術(shù)手段提升維護(hù)質(zhì)量、管理效率并減少人力消耗。

2 解決方案

面對上述問題,要想達(dá)到“提升維護(hù)質(zhì)量、管理效率并減少人力消耗”的目標(biāo),就必須通過技術(shù)手段實(shí)現(xiàn)“四化”,介紹如下。

(1)管理遠(yuǎn)程化

將管理界面盡量拉到機(jī)房之外,從區(qū)公司網(wǎng)絡(luò)運(yùn)營中心辦公區(qū)即可實(shí)現(xiàn)遠(yuǎn)程管理,除硬件更換之類必須現(xiàn)場操作外,大部分管理和維護(hù)工作均可遠(yuǎn)程實(shí)現(xiàn),不再需要在機(jī)房間奔走。

(2)維護(hù)智能化

通過編寫腳本程序,對IT設(shè)備進(jìn)行CLI(命令行接口)方式巡檢,并對指令執(zhí)行結(jié)果進(jìn)行自動(dòng)化分析,從而得出設(shè)備運(yùn)行概況,并最終以友好的界面呈現(xiàn),供維護(hù)人員監(jiān)控。

(3)巡檢自動(dòng)化

通過腳本程序的定時(shí)執(zhí)行,維護(hù)人員可以準(zhǔn)實(shí)時(shí)地對IT設(shè)備進(jìn)行硬件級(jí)別的監(jiān)控,相當(dāng)于人工到機(jī)房進(jìn)行現(xiàn)場巡檢,但巡檢頻次得以大幅提高,巡檢效果得到有效保證。

(4)接口簡易化

為IT設(shè)備的管理網(wǎng)口規(guī)劃IP地址,從而通過Telnet、SSH、HTTP等更友好的方式實(shí)現(xiàn)設(shè)備的console訪問,不再需要現(xiàn)場復(fù)雜的線纜連接和參數(shù)配置。

2.1 設(shè)備管理模式

根據(jù)控制信息與承載信息在物理通道上的關(guān)聯(lián)性以及控制終端與設(shè)備實(shí)體在通信距離上的遠(yuǎn)近性,IT設(shè)備的管理模式可以分為3種層次。

(1)帶內(nèi)管理

控制與承載共用同一物理鏈路或同一操作界面。帶內(nèi)管理是目前最常用的管理手段,其最大的缺陷在于當(dāng)設(shè)備出現(xiàn)故障無法遠(yuǎn)程訪問時(shí),管理行為將無法實(shí)施,如日常維護(hù)中對主機(jī)A進(jìn)行重啟操作,但主機(jī)在重啟過程中吊死,導(dǎo)致無法正常啟動(dòng),從維護(hù)終端側(cè)將無法遠(yuǎn)程訪問主機(jī)A,此時(shí)維護(hù)人員在遠(yuǎn)端束手無策,只能趕到機(jī)房現(xiàn)場實(shí)施近端帶外管理。帶內(nèi)管理模式如圖1所示。

(2)近端帶外管理

控制與承載相分離,通過數(shù)據(jù)線進(jìn)行近端控制。近端帶外管理是現(xiàn)場處理故障最主要的手段,通常以專用數(shù)據(jù)線纜將設(shè)備console口與筆記本電腦對接,通過筆記本電腦對設(shè)備控制器進(jìn)行訪問,從而實(shí)施管理行為。近端帶外管理模式如圖2所示。

(3)帶外管理網(wǎng)絡(luò)

控制與承載相分離,通過IP網(wǎng)絡(luò)實(shí)現(xiàn)遠(yuǎn)程控制。帶外管理網(wǎng)絡(luò)是近端帶外管理的IP化延伸,通過對設(shè)備的管理網(wǎng)口配置靜態(tài)IP地址,并接入專門規(guī)劃的IP網(wǎng)絡(luò),就能實(shí)現(xiàn)硬件設(shè)備的遠(yuǎn)程管理。帶外管理網(wǎng)絡(luò)模式如圖3所示。

要實(shí)現(xiàn)“管理遠(yuǎn)程化”與“接口簡易化”的目標(biāo),首先必須構(gòu)建帶外管理網(wǎng)絡(luò),而構(gòu)建帶外管理網(wǎng)絡(luò)就必須對IT設(shè)備的管理網(wǎng)口配置IP地址。

2.2 設(shè)備管理網(wǎng)口

無論是Unix小型機(jī)還是PC服務(wù)器,無論是交換機(jī)還是路由器乃至磁盤陣列,所有中高端IT設(shè)備均提供控制器的管理功能。console口是IT設(shè)備最基礎(chǔ)的管理端口,在設(shè)備未部署任何配置的情況下,只能通過console口對控制器進(jìn)行訪問。通常console口的物理形式是串口或RJ45口,并以串口線與計(jì)算機(jī)相連,從而進(jìn)行設(shè)備的初始化配置。

除了console口外,IT設(shè)備還有一個(gè)二級(jí)管理端口——管理網(wǎng)口,該端口必須經(jīng)由console口進(jìn)行簡單的IP配置后才能訪問。配置IP地址后,維護(hù)人員就可以通過網(wǎng)線連接管理網(wǎng)口,并獲得與console口同樣的管理權(quán)限。因此不管是console口還是管理網(wǎng)口,都是訪問IT設(shè)備控制器的管理端口,只不過連接的形式不同。

針對不同的設(shè)備類型,控制器的硬件形式也有所不同。

·對于Unix小型機(jī)而言,控制器也稱SC(system controller),相當(dāng)于硬件設(shè)備最底層的操作系統(tǒng),其運(yùn)行獨(dú)立于設(shè)備本身,即使小型機(jī)宕機(jī),只要控制器工作正常,仍然可以通過控制器對設(shè)備進(jìn)行管理和維護(hù)。通常低端小型機(jī)只有一個(gè)控制器,而中高端小型機(jī)往往具備兩個(gè)控制器,可以提供更高級(jí)別的設(shè)備保障。

·對于PC服務(wù)器而言,控制器獨(dú)立于設(shè)備本身,是硬件設(shè)備最底層的操作系統(tǒng),這與Unix小型機(jī)類似??紤]到PC應(yīng)用的保障要求較低,通常PC服務(wù)器只提供一個(gè)控制器。

·對于磁盤陣列而言,不存在上層操作系統(tǒng)的概念,控制器就是設(shè)備的核心處理器,一旦控制器發(fā)生故障,主機(jī)將無法正常訪問磁盤陣列上的數(shù)據(jù)。當(dāng)然,通過訪問控制器,可以對磁盤陣列進(jìn)行管理和維護(hù)。通常低端磁盤陣列只有一個(gè)控制器,而中高端磁盤陣列則具備兩個(gè)控制器。

·對于網(wǎng)絡(luò)設(shè)備而言,控制器就是設(shè)備的操作系統(tǒng),由于管理網(wǎng)口的配置數(shù)據(jù)是網(wǎng)絡(luò)設(shè)備配置數(shù)據(jù)的一部分,一旦網(wǎng)絡(luò)設(shè)備發(fā)生嚴(yán)重故障,管理網(wǎng)口可能無能為力,還得依賴console口的管理功能。

可見,構(gòu)建帶外管理網(wǎng)絡(luò)實(shí)際上就是把IT設(shè)備的控制器當(dāng)作IP設(shè)備接入IP網(wǎng)絡(luò)。作為IP設(shè)備,控制器的管理網(wǎng)口需要配置IP地址、掩碼和網(wǎng)關(guān),才能在IP網(wǎng)絡(luò)中正常通信。因此,將控制器接入IP網(wǎng)絡(luò),離不開網(wǎng)絡(luò)規(guī)劃和IP分配工作。

2.3 管理網(wǎng)絡(luò)規(guī)劃

目前網(wǎng)絡(luò)運(yùn)營中心管理的IT設(shè)備基本承載于MDCN之上,因此IT設(shè)備的控制器也盡量就近接入MDCN,從而在區(qū)公司網(wǎng)絡(luò)運(yùn)營中心辦公區(qū)實(shí)現(xiàn)IT設(shè)備的遠(yuǎn)程管理。

在控制器的管理網(wǎng)口IP(簡稱管理IP,以區(qū)別于設(shè)備的業(yè)務(wù)IP)地址分配方面,綜合考慮MDCN地址(后簡稱公網(wǎng))資源的有限性和遠(yuǎn)程連接的便利性,擬定規(guī)劃原則如下。

·對于公網(wǎng)IP資源富裕的網(wǎng)段,給控制器分配公網(wǎng)IP(如10.184.0.0段),以獲取遠(yuǎn)程直接訪問的便利性,如圖4所示。有兩臺(tái)華為的M2000網(wǎng)管服務(wù)器,其業(yè)務(wù)IP分別為10.184.28.90和10.184.28.88,管理IP分別為10.184.28.91和10.184.28.89,從區(qū)公司辦公大樓5樓的維護(hù)終端可以很方便地直接訪問兩臺(tái)網(wǎng)管主機(jī)的控制器(即SC)。

·對于公網(wǎng)IP資源緊張的網(wǎng)段,給控制器分配私網(wǎng)IP(如192.168.1.0段),然后通過一臺(tái)雙網(wǎng)口主機(jī)作為跳板,實(shí)現(xiàn)遠(yuǎn)程間接訪問,如圖5所示。廣西EOMS(電子運(yùn)維系統(tǒng))服務(wù)器的業(yè)務(wù)IP是10.184.13.165,由于10.184.13.0段的IP資源有限,只能給該主機(jī)分配私網(wǎng)地址作為管理IP,如192.168.1.75。同時(shí),以設(shè)備所在機(jī)房(二樞紐機(jī)房)的一臺(tái)主機(jī)作為跳板機(jī),實(shí)現(xiàn)從維護(hù)終端到設(shè)備控制器的間接訪問,即維護(hù)人員先遠(yuǎn)程訪問(Telnet或圖形界面)跳板機(jī),再從跳板機(jī)訪問目的設(shè)備的控制器。

在管理IP配置方面,除IP地址外,還涉及子網(wǎng)掩碼和默認(rèn)網(wǎng)關(guān)。對于采用公網(wǎng)IP的情況,建議掩碼和網(wǎng)關(guān)參考業(yè)務(wù)IP配置;對于采用私網(wǎng)IP的情況,建議掩碼設(shè)為255.255.255.0,網(wǎng)關(guān)設(shè)為跳板機(jī)的私網(wǎng)IP(如圖 5中跳板機(jī)第 2 個(gè) IP:192.168.1.201)。

2.4 跳板環(huán)境部署

根據(jù)IT設(shè)備所在機(jī)房和控制器訪問方式的不同,其使用的跳板主機(jī)也不盡相同,每個(gè)機(jī)房最起碼應(yīng)設(shè)置一臺(tái)Unix主機(jī)作為跳板機(jī),必要時(shí)還需設(shè)置一臺(tái)Windows跳板機(jī)??紤]到某些控制器(常見于磁盤陣列)需要在跳板機(jī)上安裝相應(yīng)的管理軟件才能實(shí)現(xiàn)管理功能,而且管理軟件需要占用一定的磁盤空間和主機(jī)負(fù)荷,因此建議跳板機(jī)采用配置較高的閑置工作站。

為滿足多臺(tái)IT設(shè)備的帶外管理需求,在跳板機(jī)私網(wǎng)側(cè)還需要部署至少一臺(tái)交換機(jī),作為私網(wǎng)IP控制器的接入??紤]到私網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)相對簡單,一般按照整個(gè)C類地址進(jìn)行分配,不存在多邏輯子網(wǎng)并存的情況,因此跳板交換機(jī)只需要使用低端交換設(shè)備即可,如Hub或二層交換機(jī)。

3 應(yīng)用模式

搭建完善的帶外管理網(wǎng)絡(luò),僅僅為維護(hù)人員與IT設(shè)備之間鋪設(shè)了獨(dú)立控制通道,利用該控制通道可以方便、快捷地對IT設(shè)備進(jìn)行遠(yuǎn)程管理和維護(hù)。但更重要的是,如何將帶外管理網(wǎng)絡(luò)應(yīng)用到實(shí)際的運(yùn)維生產(chǎn)中,如何通過控制器對硬件設(shè)備進(jìn)行遠(yuǎn)程巡檢,是接下來需要進(jìn)一步探討的話題。

3.1 遠(yuǎn)程訪問方式

首先從控制器的訪問方式看,各類IT設(shè)備所提供的管理界面不盡相同,目前最主流的3種帶外管理UI分別是:CLI方式,即命令行方式,維護(hù)人員通過輸入專有指令對設(shè)備進(jìn)行管理;B/S方式,維護(hù)人員通過Web瀏覽器打開管理頁面對設(shè)備進(jìn)行管理;C/S方式,維護(hù)人員通過專用管理軟件對設(shè)備進(jìn)行管理。另外,還有少數(shù)控制器采用“菜單交互方式”,如Sun的3000系列磁盤陣列。

早期的IT設(shè)備通常只提供一種管理UI(CLI或B/S方式),隨著硬件產(chǎn)品的日新月異,提供兩種管理UI漸漸成為IT業(yè)界的趨勢。多種管理UI并存緣于IT設(shè)備在管理和維護(hù)需求上的千差萬別,每種管理UI都有其優(yōu)劣所在,見表1。

盡管B/S與C/S方式具備管理UI界面友好的優(yōu)勢,但是并沒有真正解決設(shè)備數(shù)量眾多帶來的巡檢人力消耗的難題。因?yàn)檫h(yuǎn)程訪問逐臺(tái)設(shè)備進(jìn)行圖形化操作的巡檢方式,與在機(jī)房現(xiàn)場查看設(shè)備狀態(tài)燈的巡檢方式相比,本質(zhì)上并沒有解放巡檢勞動(dòng)力。因此這兩種管理UI更適用于設(shè)備發(fā)生故障時(shí)的遠(yuǎn)程處理以及預(yù)處理,其意義在于提高故障處理效率、減少設(shè)備退服時(shí)長。

表1 帶外管理UI對比

顯而易見,最理想的巡檢方式就是利用CLI接口的開放性,通過二次開發(fā)編寫巡檢程序,讓程序代替維護(hù)人員對海量IT設(shè)備進(jìn)行巡檢,即自動(dòng)巡檢。常見的支持CLI管理 UI的 IT設(shè)備包括 Sun的 Unix小型機(jī)、Fujitsu的 Unix小型機(jī)、Sun的磁盤陣列、IBM的磁盤陣列等,這些設(shè)備都可以利用自動(dòng)化巡檢減輕巡檢人力消耗。

3.2 遠(yuǎn)程巡檢規(guī)范

實(shí)現(xiàn)自動(dòng)巡檢,必須針對各類CLI管理UI的IT設(shè)備制定指令級(jí)的巡檢規(guī)范,即通過什么CLI指令查看設(shè)備運(yùn)行狀況,對指令的輸出報(bào)文如何進(jìn)行分析和判斷。下面以幾種常見的主機(jī)和磁盤陣列為例,整理歸納單條指令巡檢的分析規(guī)范。

(1)Sun Fire V880/V890

Sun中低端Unix小型機(jī),通過Telnet<管理IP>方式訪問控制器CLI。

巡檢指令:showenvironment。

分析規(guī)范:指令輸出報(bào)文中,GEN FAULT(設(shè)備故障燈狀態(tài))為OFF時(shí),表示設(shè)備運(yùn)行正常,否則設(shè)備運(yùn)行異常,需要進(jìn)一步診斷,報(bào)文范例如圖6所示(粗體標(biāo)識(shí)部分)。

(2)Sun Fire E4800/E4900/E6900

圖6 Sun Fire V880/V890報(bào)文范例

Sun中的高端Unix小型機(jī),通過Telnet<管理IP>方式訪問控制器CLI。

巡檢指令:showcomponent。

分析規(guī)范:指令輸出報(bào)文中,所有組件的Status列(設(shè)備狀態(tài))為enabled時(shí),表示組件狀態(tài)正常,否則該組件狀態(tài)異常,需要進(jìn)一步診斷,報(bào)文范例如圖7所示(粗體標(biāo)識(shí)部分)。

(3)Fujitsu Enterprise M4000/M5000/M8000/M9000

富士通主流Unix小型機(jī),通過Telnet<管理IP>方式訪問控制器CLI。

巡檢指令:showstatus。

分析規(guī)范:指令輸出報(bào)文中,存在“No failures found in System Initialization.”字符串時(shí),表示設(shè)備運(yùn)行正常,否則設(shè)備運(yùn)行異常,需要進(jìn)一步診斷,報(bào)文范例如圖8所示(粗體標(biāo)識(shí)部分)。

(4)Sun StorageTek 6130/6140/2540

Sun主流磁盤陣列,需要在Unix跳板機(jī)上安裝Sun Storage Common Array Manager管理軟件,以便在跳板機(jī)上直接運(yùn)行CLI指令。

巡檢指令:sscs list alarm。

分析規(guī)范:指令輸出報(bào)文中,無任何告警信息時(shí),表示設(shè)備運(yùn)行正常,否則Device所標(biāo)識(shí)的設(shè)備運(yùn)行異常,需要進(jìn)一步診斷,特別要注意Date所顯示的告警時(shí)間,通常只關(guān)注最近的告警即可,報(bào)文范例如圖9所示(粗體標(biāo)識(shí)部分)。

(5)IBM System Storage DS3000/DS4000/DS5000

IBM主流磁盤陣列,需要在Unix跳板機(jī)上安裝IBM DS Storage Manager管理軟件,以便在跳板機(jī)上直接運(yùn)行CLI指令。

巡檢指令:SMcli<管理IP>-c"show storagesubsystem healthstatus;"。

分析規(guī)范:指令輸出報(bào)文中,Storage Subsystem health status(存儲(chǔ)子系統(tǒng)健康狀態(tài))為optimal時(shí),表示設(shè)備運(yùn)行正常,否則設(shè)備運(yùn)行異常,需要進(jìn)一步診斷,報(bào)文范例如圖10所示(粗體標(biāo)識(shí)部分)。

3.3 設(shè)備自動(dòng)巡檢

通過對巡檢規(guī)范的梳理,不難看出CLI管理UI是純文本的接口方式,即輸入的指令和指令輸出的報(bào)文都是純文本??紤]到Unix平臺(tái)天生具備功能強(qiáng)大的shell腳本編程環(huán)境,而且shell腳本對文本的支持友好靈活,因此可以在Unix跳板機(jī)上以shell腳本編寫巡檢程序,實(shí)現(xiàn)CLI管理UI設(shè)備的自動(dòng)化巡檢。自動(dòng)化巡檢相關(guān)流程如圖11所示。

圖7 Sun Fire E4800/E4900/E6900報(bào)文范例

圖8 Fujitsu Enterprise M4000/M5000/M8000/M9000報(bào)文范例

圖9 Sun Storage Tek 6130/6140/2540報(bào)文范例

圖10 IBM System Storage DS3000/DS4000/DS5000報(bào)文范例

步驟1:巡檢程序部署在Unix跳板機(jī)上,以crontab的形式周期性運(yùn)行;程序以CLI方式訪問設(shè)備A的管理UI,并執(zhí)行相關(guān)巡檢指令。

步驟2:設(shè)備A接收巡檢指令后,將指令執(zhí)行結(jié)果以文本報(bào)文的方式返回給Unix跳板機(jī);巡檢程序根據(jù)既定的巡檢規(guī)范對報(bào)文進(jìn)行分析,通過字符串匹配的方式判斷設(shè)備的運(yùn)行狀況。

步驟3:程序匯總同類型多臺(tái)設(shè)備的巡檢結(jié)果,生成HTML文件,并通過FTP上傳到Web服務(wù)器相關(guān)Web目錄下;Web服務(wù)器是Windows平臺(tái),利用自帶的IIS服務(wù)發(fā)布簡單的HTTP和FTP站點(diǎn)。

步驟4:最終維護(hù)人員可以在終端上以HTTP頁面瀏覽的方式,便捷直觀地查看多臺(tái)IT設(shè)備最近的巡檢情況。

毫無疑問,利用程序?qū)T設(shè)備進(jìn)行周期巡檢的方式,從根本上將維護(hù)人員從繁瑣機(jī)械的現(xiàn)場巡檢工作中解放出來。維護(hù)人員只需要在終端上瀏覽Web頁面,就能掌握設(shè)備(僅限于CLI管理UI的IT設(shè)備)的運(yùn)行狀況,而且巡檢的頻次和效果均明顯優(yōu)于現(xiàn)場巡檢。

3.4 多維管理模式

依據(jù)上述帶外管理相關(guān)技術(shù)背景,可以建立更強(qiáng)有力的IT設(shè)備多維管理模式,即“以遠(yuǎn)程帶外管理為主,以現(xiàn)場維護(hù)為輔”的立體維護(hù)模式。無論是設(shè)備的例行巡檢,還是設(shè)備的故障處理,都不再局限于現(xiàn)場維護(hù)的單一手段,依托帶外管理的靈活性和擴(kuò)展性,在減少人力消耗的前提下,仍然有效地提升維護(hù)質(zhì)量和管理效率。

(1)例行巡檢

鑒于大多數(shù)IT設(shè)備都支持CLI管理UI,那么通過程序?qū)崿F(xiàn)的自動(dòng)化巡檢可以覆蓋大部分設(shè)備;而少數(shù)不支持CLI管理UI的設(shè)備,也可以通過遠(yuǎn)程圖形化操作的方式進(jìn)行巡檢,從而節(jié)省機(jī)房奔走的路途人力消耗。同時(shí),機(jī)房現(xiàn)場巡檢作為輔助手段,以彌補(bǔ)遠(yuǎn)程帶外巡檢的盲點(diǎn)與不足(如不支持控制器的低端IT設(shè)備)。

(2)故障處理

通常設(shè)備故障主要緣于軟錯(cuò)誤(即不是硬件損壞),使用遠(yuǎn)程帶外維護(hù)的方式,可以及時(shí)對故障設(shè)備進(jìn)行診斷和修復(fù),大大縮短故障歷時(shí),有效保障業(yè)務(wù)質(zhì)量;對于較復(fù)雜的設(shè)備故障,維護(hù)人員也可以利用遠(yuǎn)程帶外維護(hù)的方式提取設(shè)備信息、日志,并通過互聯(lián)網(wǎng)方式申請技術(shù)支持。若經(jīng)過遠(yuǎn)程診斷,確認(rèn)為硬件損壞,那么硬件搶修人員在趕到機(jī)房現(xiàn)場之前,也可以有針對性地申請備件。

4 結(jié)束語

在運(yùn)維工作中,不可避免地面臨網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大、維護(hù)要求不斷提高的現(xiàn)狀,帶外管理是有效提升IT設(shè)備維護(hù)質(zhì)量的可靠手段和必然要求。盡管在搭建帶外管理網(wǎng)絡(luò)和部署程序自動(dòng)巡檢方面,本文進(jìn)行了一定程度的探索和實(shí)踐,但距離開篇提出“管理遠(yuǎn)程化、維護(hù)智能化、巡檢自動(dòng)化、接口簡易化”的理想尚有一定的差距,畢竟有些設(shè)備不支持控制器,而且有些設(shè)備不支持CLI管理UI??傊疚奶岢龅腎T設(shè)備帶外管理思路是值得借鑒的,同時(shí)IT設(shè)備管理模式的研究,也是需要持續(xù)探索和不斷深入的。

Research and Practice on Put-of-Band Management for IT Equipment

Jin Xin
(China Mobile Group Guangxi Co.,Ltd.,Nanning 530022,China)

To address management and maintenance problems encountered,the urgent need to find effective techniques to improve maintenance quality,improve management efficiency and reduce human consumption.This article focuses on the introduction of out-of-band management for IT equipment to elaborate the idea,and sums up the experience in the implementation of out-of-band management.It is a reference to the management of IT equipment.

IT equipment,out-of-band management,controller,patrol

2011-09-02)

猜你喜歡
磁盤陣列跳板報(bào)文
基于J1939 協(xié)議多包報(bào)文的時(shí)序研究及應(yīng)用
CTCS-2級(jí)報(bào)文數(shù)據(jù)管理需求分析和實(shí)現(xiàn)
淺析反駁類報(bào)文要點(diǎn)
農(nóng)機(jī)過溝鋪跳板未料跳板砸傷人
活跳板
更換磁盤陣列磁盤
ATS與列車通信報(bào)文分析
電視播出機(jī)房磁盤陣列預(yù)防性維護(hù)
存儲(chǔ)虛擬化的三個(gè)層次
不過是一塊跳板