,
(國家開放大學(xué),北京 100039 )
隨著信息化建設(shè)的持續(xù)推進(jìn)和發(fā)展,高校IT設(shè)備種類越來越多,虛擬化、云計算等新技術(shù)的應(yīng)用,高校各種信息系統(tǒng)接擁上線,信息系統(tǒng)運(yùn)行的網(wǎng)絡(luò)環(huán)境和數(shù)據(jù)中心環(huán)境以及數(shù)據(jù)中心所能提供的運(yùn)維服務(wù)逐漸成為高校信息化建設(shè)和管理的重要工作。數(shù)據(jù)中心所提供的的信息化保障工作關(guān)系高校各種業(yè)務(wù)的正常運(yùn)轉(zhuǎn),一旦出現(xiàn)重大故障將對高校造成嚴(yán)重影響和損失。
保障高校數(shù)據(jù)中心正常運(yùn)行,及時掌握數(shù)據(jù)中心軟硬件運(yùn)行情況,需要對數(shù)據(jù)中心進(jìn)行實時監(jiān)控及時發(fā)現(xiàn)數(shù)據(jù)中心運(yùn)行情況。監(jiān)控是為了及時掌握了解運(yùn)行發(fā)現(xiàn)的問題,但如何快速解決數(shù)據(jù)中心運(yùn)行中存在的問題是數(shù)據(jù)中心運(yùn)維管理長期研究的課題。以信息化技術(shù)和手段解決數(shù)據(jù)中心信息化帶來的問題是亟待研究解決方案。
信息系統(tǒng)廣義的軟件生命周期人力和物力投入具有二八原則,即信息系統(tǒng)建設(shè)期占整個生命周期的20%、運(yùn)維期占80%。信息系統(tǒng)建設(shè)完成后運(yùn)行在數(shù)據(jù)中心。隨著信息技術(shù)的發(fā)展,高校數(shù)據(jù)中心由原來的一兩臺服務(wù)器規(guī)模到近年幾百臺服務(wù)器規(guī)模,純靠人工進(jìn)行物理巡檢解決問題的運(yùn)維模式面臨的問題日益凸顯:
1.被動運(yùn)維。 數(shù)據(jù)中心的傳統(tǒng)運(yùn)維管理模式是應(yīng)用信息系統(tǒng)運(yùn)維人員發(fā)現(xiàn)系統(tǒng)無法使用后,首先利用ping命令連接應(yīng)用系統(tǒng)運(yùn)行服務(wù)器,一旦出現(xiàn)ping不通的情況,運(yùn)維人員將問題上報告給數(shù)據(jù)中心運(yùn)維人員,經(jīng)過排查無論是系統(tǒng)問題或者數(shù)據(jù)中心運(yùn)行環(huán)境問題,一切的責(zé)任和問題解決都是數(shù)據(jù)中心運(yùn)維人員進(jìn)行解決。該運(yùn)維模式,對數(shù)據(jù)中心運(yùn)維管理往往處于被動,難以及時高效發(fā)現(xiàn)問題及解決問題。
2.工作效率低。 由于缺乏監(jiān)控平臺,應(yīng)用系統(tǒng)一旦無法使用,運(yùn)維人員首先要做的工作就是對問題進(jìn)行定位和排查,應(yīng)用系統(tǒng)故障往往不僅僅涉及數(shù)據(jù)中心,還有網(wǎng)絡(luò)和系統(tǒng)本身的問題,故障及問題定位要運(yùn)維人員的經(jīng)驗和技術(shù)水平。在問題解決的過程中,應(yīng)用系統(tǒng)涉及相關(guān)的運(yùn)維人員相互之間推卸責(zé)任的情況不在少數(shù)。縱使運(yùn)維人員一起解決問題,涉及對問題處理的溝通、問題描述的不清楚等因素導(dǎo)致故障及問題解決耗時耗力。
3.工作量難以體現(xiàn)。 數(shù)據(jù)中心運(yùn)維工作枯燥繁瑣,雖然運(yùn)維人員工作十分忙碌,但教職工經(jīng)常抱怨“找不到人”、“解決問題太慢”等。缺少運(yùn)維管理平臺,運(yùn)維人員每天的工作量難以得到體現(xiàn)和量化,很難體現(xiàn)數(shù)據(jù)中心運(yùn)維人員工作的價值和意義。
搭建高校數(shù)據(jù)中心監(jiān)控運(yùn)維平臺,梳理網(wǎng)絡(luò)設(shè)備、服務(wù)器、虛擬化、存儲等軟硬件資源,實現(xiàn)對數(shù)據(jù)中心軟硬件資源使用情況、運(yùn)行狀況進(jìn)行監(jiān)控并實時呈現(xiàn)監(jiān)控情況。總結(jié)運(yùn)維服務(wù)中存在問題,建立服務(wù)臺與運(yùn)維管理流程,增強(qiáng)信息化服務(wù)和運(yùn)維管理手段。數(shù)據(jù)中心監(jiān)控運(yùn)維平臺建設(shè)意義和價值:
1.主動監(jiān)控,提高利用率。 監(jiān)控運(yùn)維平臺可以實現(xiàn)對數(shù)據(jù)中心的實時主動監(jiān)控,及時了解數(shù)據(jù)中心服務(wù)器、存儲及網(wǎng)絡(luò)等各種設(shè)備運(yùn)行情況,比如對服務(wù)器CPU的監(jiān)控,可以提升服務(wù)器CPU利用率,靈活CPU資源的再分配和使用,合理配置利用數(shù)據(jù)中心各種資源,提高數(shù)據(jù)中心資源利用率。
2.實現(xiàn)故障預(yù)警,風(fēng)險前移。 對數(shù)據(jù)中心運(yùn)行情況進(jìn)行監(jiān)控,建立靈活的事件管理機(jī)制、集中告警分析處理和故障預(yù)警機(jī)制,提前預(yù)警、快速定位故障,做到提前防范、防微杜漸。
3.變被動為主動,高效運(yùn)維。 監(jiān)控運(yùn)維平臺可以通過實時對數(shù)據(jù)中心的監(jiān)控發(fā)現(xiàn)數(shù)據(jù)中心應(yīng)用情況,可以提前處理告警事件,避免故障發(fā)現(xiàn)。針對數(shù)據(jù)中心突發(fā)的事件及故障可及時發(fā)現(xiàn),利用知識管理模塊可以利用已有事件、問題或者故障的處理經(jīng)驗和做法,可以極大的提供效率;而知識模塊查詢不到的解決方案,通過并通過運(yùn)維管理工作流程啟動處理流程,快速上報專業(yè)人員進(jìn)行處理和解決問題。
以業(yè)務(wù)系統(tǒng)為切入點,逐級呈現(xiàn)業(yè)務(wù)系統(tǒng)、網(wǎng)絡(luò)拓?fù)?、服?wù)器及存儲運(yùn)行情況。通過對業(yè)務(wù)應(yīng)用系統(tǒng)縱向呈現(xiàn),運(yùn)維人員查看其業(yè)務(wù)拓?fù)鋱D,詳細(xì)查看業(yè)務(wù)系統(tǒng)與數(shù)據(jù)中心運(yùn)行設(shè)備直接的邏輯關(guān)系。通過業(yè)務(wù)系統(tǒng)一覽表,以列表形式展現(xiàn)所有業(yè)務(wù)系統(tǒng)運(yùn)行狀態(tài),直觀呈現(xiàn)業(yè)務(wù)應(yīng)用運(yùn)行情況。
數(shù)據(jù)中心監(jiān)控運(yùn)維平臺立足于提高IT軟硬件資源使用效率、完善IT管理流程和手段、提升高校的IT服務(wù)質(zhì)量,采用ITIL最佳實踐理論,構(gòu)建數(shù)據(jù)中心亟待的事件、問題等的運(yùn)維管理流程,集中對數(shù)據(jù)中心的軟硬件進(jìn)行監(jiān)控并對接口結(jié)果以圖形化界面進(jìn)行呈現(xiàn)。
1. 統(tǒng)一監(jiān)控運(yùn)維門戶。 按照領(lǐng)導(dǎo)、管理和維護(hù)三種角色進(jìn)入不同的個人中心,個人界面層面呈現(xiàn)不同的內(nèi)容,可定制用戶感興趣的欄目以及相應(yīng)的統(tǒng)計分析報表,查詢相關(guān)流程處理進(jìn)展和所有相關(guān)的事務(wù)、知識點和資產(chǎn)信息,亦可以設(shè)置提醒、已閱、待閱等對相關(guān)事宜的處理。
以上方法由廠家提出,但具體實施則需要進(jìn)行論證,并采取進(jìn)一步的措施。當(dāng)前利用停電機(jī)會將相關(guān)保護(hù)裝置掉電重啟并手動復(fù)歸信號,保護(hù)裝置邏輯問題由于對設(shè)備正常運(yùn)行影響不大,經(jīng)所主管部門領(lǐng)導(dǎo)同意保護(hù)裝置可以投入運(yùn)行。
2. 統(tǒng)一視圖呈現(xiàn)。 采用統(tǒng)一視圖對數(shù)據(jù)中心應(yīng)用系統(tǒng)及服務(wù)器、網(wǎng)絡(luò)等各種軟硬件資源的運(yùn)行情況以圖形化界面的形式進(jìn)行呈現(xiàn),建立視圖的多個切入點,如:以應(yīng)用系統(tǒng)為切入點,逐一深入點擊查看應(yīng)用系統(tǒng)邏輯架構(gòu)、網(wǎng)絡(luò)架構(gòu)圖以及服務(wù)器部署情況,從應(yīng)用系統(tǒng)運(yùn)維人員的視角進(jìn)行監(jiān)控數(shù)據(jù)頁面呈現(xiàn);以數(shù)據(jù)中心物理位置為切入點,一目了然情況數(shù)據(jù)中心服務(wù)器及網(wǎng)絡(luò)運(yùn)行總體情況,便于數(shù)據(jù)中心運(yùn)維人員對數(shù)據(jù)中心硬件資源運(yùn)行情況的實時掌控。
3. 數(shù)據(jù)統(tǒng)計分析。 數(shù)據(jù)中心運(yùn)維情況處理用實時視圖進(jìn)行呈現(xiàn),為了對故障、問題等運(yùn)維工作的統(tǒng)計分析,以及數(shù)據(jù)中心一段時間周期內(nèi)各個軟硬件資源的運(yùn)行情況,需要對監(jiān)控運(yùn)維平臺的歷史數(shù)據(jù)進(jìn)行統(tǒng)計分析,分析應(yīng)用系統(tǒng)、服務(wù)器、網(wǎng)絡(luò)等各種資源的選定時間段的運(yùn)行情況,并支持生產(chǎn)各種報表及報告,以便給信息化管理者進(jìn)行數(shù)據(jù)中心建設(shè)提供依據(jù)。
監(jiān)控平臺建設(shè)完成中心機(jī)房及各分校信息點的網(wǎng)絡(luò)、主機(jī)服務(wù)器、存儲設(shè)備、等硬件設(shè)施以及應(yīng)用系統(tǒng)使用與運(yùn)行情況的集中監(jiān)控和統(tǒng)一展現(xiàn)、分析。監(jiān)控數(shù)據(jù)采集接口必須安全、標(biāo)準(zhǔn)化,同時不能影響業(yè)務(wù)系統(tǒng)運(yùn)行環(huán)境參數(shù),系統(tǒng)應(yīng)能夠支持無代理模式,如SNMP、WMI、TELNET、SSH、ODBC、JDBC、IPMI、SMI-S等接口將被允許使用。集中監(jiān)控主要包括網(wǎng)絡(luò)、主機(jī)服務(wù)器、存儲、應(yīng)用系統(tǒng)等方面的監(jiān)控。
1.網(wǎng)絡(luò)監(jiān)控。 實現(xiàn)對高校各校區(qū)有線、無線網(wǎng)絡(luò)的集中監(jiān)控與告警,內(nèi)嵌Visio繪圖工具,通過SMNP協(xié)議自動發(fā)現(xiàn)網(wǎng)拓?fù)鋱D并進(jìn)行繪制與管理,集中對網(wǎng)絡(luò)設(shè)備、IP地址等網(wǎng)絡(luò)資源和配置的管理等,快速發(fā)現(xiàn)網(wǎng)絡(luò)告警及故障定位,支持網(wǎng)絡(luò)流量分析等功能。
2.服務(wù)器監(jiān)控。 通過服務(wù)器監(jiān)控功能模塊,對數(shù)據(jù)中心運(yùn)行的應(yīng)用系統(tǒng)各類服務(wù)器進(jìn)行監(jiān)控,支持對Unix服務(wù)器、Window和Linux服務(wù)器等運(yùn)行情況的監(jiān)控。服務(wù)器運(yùn)行數(shù)據(jù)的獲取采用無代理模式,如SNMP接口協(xié)議。具體服務(wù)器運(yùn)行情況的監(jiān)控指標(biāo)包括:CPU、內(nèi)存、硬盤。為了更好呈現(xiàn)服務(wù)器運(yùn)行情況,監(jiān)控運(yùn)維平臺提供基于WEB的實時的圖形化展示界面。
圖1 數(shù)據(jù)中心監(jiān)控運(yùn)維平臺系統(tǒng)架構(gòu)
3.應(yīng)用監(jiān)控。 應(yīng)用監(jiān)控功能主要監(jiān)控應(yīng)用系統(tǒng)運(yùn)行情況,包括應(yīng)用系統(tǒng)的訪問情況、故障情況以及系統(tǒng)部署架構(gòu)等,通過監(jiān)控實時呈現(xiàn)應(yīng)用系統(tǒng)是否運(yùn)行良好、以及幫助快速定位系統(tǒng)故障及問題,幫助運(yùn)維人員快速恢復(fù)系統(tǒng)運(yùn)行。支持系統(tǒng)模擬用戶以WEB的方式進(jìn)行登陸測試系統(tǒng)運(yùn)行情況,進(jìn)行客戶的感受分析。
數(shù)據(jù)中心運(yùn)維管監(jiān)控平臺的運(yùn)維管理工作按照ITIL,結(jié)合高校數(shù)據(jù)中心運(yùn)維管理工作急需解決的服務(wù)請求、事件及問題處理等實際需求。通過制定相應(yīng)的運(yùn)維流程,規(guī)范化、流程化數(shù)據(jù)中心日程運(yùn)維工作,通過知識管理流程及知識庫的建設(shè),充分利用已有的運(yùn)維管理經(jīng)驗,提高運(yùn)維管理的效率。
圖2 高校數(shù)據(jù)中心運(yùn)維服務(wù)體系
1.服務(wù)臺。 服務(wù)臺提供數(shù)據(jù)中心運(yùn)維服務(wù)的統(tǒng)一窗口,用戶可以根據(jù)需要選擇網(wǎng)頁的自助服務(wù)和人工服務(wù)臺。其中,自助服務(wù)臺與知識庫對接,用戶可進(jìn)行常見問題的查詢與解決,以及基于網(wǎng)頁的問題詢問及遠(yuǎn)程解決。人工服務(wù)臺主要依靠服務(wù)經(jīng)理進(jìn)行電話解決并記錄用戶的問題及服務(wù)情況,如能直接解決問題則解決后直接錄入信息,并進(jìn)行判斷是否在知識庫里是否有此類的問題,如果沒有增加知識庫內(nèi);如果服務(wù)臺不能解決,則對服務(wù)請求類別分批解決優(yōu)先級和服務(wù)類別,并發(fā)起相應(yīng)的任務(wù)處理單,講服務(wù)請求發(fā)送給相應(yīng)的運(yùn)維人員進(jìn)行解決,并督促任務(wù)處理的情況,任務(wù)處理后總結(jié)經(jīng)驗,關(guān)閉任務(wù)單。
2.事件管理。 事件模塊是用來規(guī)范和處理數(shù)據(jù)中心日常運(yùn)維的告警、故障等工作流程,事件處理過程記錄、推進(jìn)和總結(jié)分析的過程,具體包括事件的登記、事件的分配、事件的方案記錄、事件的升級和事件關(guān)閉等,為的ITSM事件管理提供堅實的技術(shù)支撐。詳細(xì)功能有:事件信息的創(chuàng)建、修改和刪除;事件進(jìn)行分類和優(yōu)先級分級;事件的流轉(zhuǎn),如事件的分配;事件自動分配到相應(yīng)的支持角色和個人;支持對知識庫的查詢;事件單和其他運(yùn)維管理流程的關(guān)聯(lián);對事件數(shù)據(jù)進(jìn)行趨勢分析。
3.問題管理。 問題管理以事件管理為輸入,即事件難以一時處理,或者某個事件處理完畢后重復(fù)發(fā)生,為了找到事件發(fā)現(xiàn)的原因,啟動問題管理流程。問題管理功能模塊具有的詳細(xì)功能:問題信息的創(chuàng)建、修改和刪除;劃分問題類別及問題處理的優(yōu)先級別;問題的流轉(zhuǎn),如問題的分配;問題自動分配到相應(yīng)的支持角色和個人;支持關(guān)聯(lián)其他管理流程。
4.變更管理。 無論是服務(wù)請求、運(yùn)維服務(wù)事件或者問題,往往最后解決涉及到數(shù)據(jù)中心軟硬件相關(guān)資源的增加、更新或者更替,對數(shù)據(jù)中心軟硬件資源的變動及管理尤為重要。變更管理主要在規(guī)范和約束資源變更流程及過程管理,記錄變更的事由、變更方案及變更回退的措施等。變更管理功能模塊的詳細(xì)功能有:變更信息的創(chuàng)建、修改和刪除;劃分變更的類別及變更處理的優(yōu)先級別;關(guān)聯(lián)其他管理流程。
5.知識管理。 運(yùn)維服務(wù)管理是一個監(jiān)控、排查出問題,并不斷解決問題的過程。問題的解決作為知識進(jìn)行收集、整理并存放,不僅大大提升問題的解決效率,而且減少運(yùn)維工作依賴個人能力解決的弊端。知識管理詳細(xì)的功能包括:知識的收集與審核;知識的分類與存儲;知識的發(fā)布與獲??;關(guān)聯(lián)其他管理流程。
在云計算大力發(fā)展和運(yùn)用的時代,高校具有內(nèi)部用戶多、物理位置集中等特點,以及各個應(yīng)用系統(tǒng)和App軟件的上線,數(shù)據(jù)中心建設(shè)越來越重視。通過對數(shù)據(jù)中心應(yīng)用系統(tǒng)、服務(wù)器、網(wǎng)絡(luò)和存儲等軟硬件資源的監(jiān)控,實現(xiàn)高校數(shù)據(jù)中心自動化運(yùn)維、規(guī)范化運(yùn)維,為高校信息化建設(shè)提供穩(wěn)定可靠的運(yùn)行環(huán)境。運(yùn)維管理工作不是一蹴而就,需要在實踐中不斷探索與使用,引用更好的實踐應(yīng)用進(jìn)行完善監(jiān)控運(yùn)維平臺,將主動運(yùn)維服務(wù)變?yōu)樽詣幼灾\(yùn)維服務(wù)。
參考文獻(xiàn):
[1]程志華,楊孝果,付雄.面向大規(guī)模云數(shù)據(jù)中心的輕量級監(jiān)控研究[J].計算機(jī)應(yīng)用與軟件. 2017(6): 7-11.
[2]周偉.基于ITIL的浦東教育城域網(wǎng)運(yùn)行管理探索與實踐[J].中小學(xué)信息技術(shù)教育,2014(10):61-63.
[3]朱玉立,等.談大數(shù)據(jù)時代下的數(shù)據(jù)中心運(yùn)維管理[J].信息系統(tǒng)工程. 2015 (5): 101-102,106.
[4]馬勇,等.數(shù)據(jù)中心IT設(shè)備可視化建模與監(jiān)控平臺技術(shù)研究[J].電力信息與通信技術(shù). 2015(7): 61-64
[5]何秀全,等.基于ITIL 的高校IT 服務(wù)管理應(yīng)用研究[J].現(xiàn)代教育技術(shù),2011 (10):60-63.
[6]戚偉強(qiáng),等.基于ITIL 的電力信息自動化運(yùn)維體系研究[J].現(xiàn)代電子技術(shù),2017(2):153-156.