向陽奎 雷金紅 孟波 劉田間 丁闖
摘? 要:借鑒“互聯(lián)網(wǎng)+”先進(jìn)理念,綜合運(yùn)用云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等技術(shù),構(gòu)建了“云-網(wǎng)-端”架構(gòu)的某大數(shù)據(jù)中心平臺(tái),打造了“物理分布、邏輯一體、架構(gòu)一致”的裝備運(yùn)用體系;基于大平臺(tái)+微服務(wù)架構(gòu),實(shí)現(xiàn)了數(shù)據(jù)同源、服務(wù)解耦,形成一個(gè)面向各級(jí)單位裝備運(yùn)用的開放共享的環(huán)境,研究大數(shù)據(jù)中心運(yùn)維管理工作的標(biāo)準(zhǔn)化、規(guī)范化、流程化,為備戰(zhàn)打仗的綜合信息服務(wù)提質(zhì)增效。
關(guān)鍵詞:大數(shù)據(jù)中心;運(yùn)維管理;管理體系
中圖分類號(hào): TP308? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A
1 運(yùn)維管理指導(dǎo)理念
該大數(shù)據(jù)中心運(yùn)維管理是以ITIL和ITSS理念為指導(dǎo),參照地方政務(wù)云數(shù)據(jù)中心,結(jié)合實(shí)際,開展運(yùn)行維護(hù)體系建設(shè),ITIL是IT服務(wù)管理的國(guó)際標(biāo)準(zhǔn),ITSS是借鑒吸收質(zhì)量管理原理和過程改進(jìn)方法后形成的符合我國(guó)國(guó)情的國(guó)家標(biāo)準(zhǔn)[1]。
以服務(wù)臺(tái)、事件管理、問題管理、配置管理、變更管理和發(fā)布管理等基本流程為依據(jù),構(gòu)建本大數(shù)據(jù)中心運(yùn)維流程管理[3]。運(yùn)維管理應(yīng)該覆蓋運(yùn)維制度和流程、運(yùn)維組織和隊(duì)伍、、運(yùn)維工作流程、運(yùn)維技術(shù)服務(wù)平臺(tái)等全要素內(nèi)容。
2 運(yùn)維管理體系
在大數(shù)據(jù)中心運(yùn)維管理的總體規(guī)劃下,通過標(biāo)準(zhǔn)的制度管理、人員管理、流程管理以及高效的技術(shù)管理體系建設(shè),構(gòu)建標(biāo)準(zhǔn)化、規(guī)范化、流程化、高效率的運(yùn)維管理體系,實(shí)現(xiàn)對(duì)機(jī)房運(yùn)行環(huán)境、服務(wù)器集群、網(wǎng)絡(luò)設(shè)備、安全防護(hù)設(shè)備、云平臺(tái)等整個(gè)運(yùn)行系統(tǒng)的統(tǒng)一監(jiān)控、維護(hù)與管理,打造一體化的規(guī)范高效運(yùn)維管理體系,從根本上提高運(yùn)維效率與維護(hù)質(zhì)量[5]。該大數(shù)據(jù)中心的運(yùn)行維護(hù)體系建設(shè)主要涉及制度、人、技術(shù)和對(duì)象等4類因素。
3 運(yùn)維技術(shù)體系架構(gòu)
大數(shù)據(jù)中心正常運(yùn)轉(zhuǎn)是以完善的運(yùn)維體系為基礎(chǔ),通過運(yùn)維體系持續(xù)運(yùn)作實(shí)現(xiàn)大數(shù)據(jù)中心安全、穩(wěn)定、高效、低成本運(yùn)行的運(yùn)維保障目標(biāo)。
運(yùn)維體系包括運(yùn)維技術(shù)、運(yùn)維流程、運(yùn)維團(tuán)隊(duì)、運(yùn)維工作、運(yùn)維績(jī)效、標(biāo)準(zhǔn)規(guī)范和規(guī)章制度等7個(gè)部分。運(yùn)維體系以運(yùn)維技術(shù)為支撐、構(gòu)建標(biāo)準(zhǔn)化運(yùn)維管理流程,通過專業(yè)化的運(yùn)維團(tuán)隊(duì)完成大數(shù)據(jù)中心的運(yùn)行維護(hù)保障工作;運(yùn)維標(biāo)準(zhǔn)規(guī)范和運(yùn)維規(guī)章制度在運(yùn)維過程中持續(xù)完善和持續(xù)改進(jìn),并為運(yùn)維工作提供工作指導(dǎo)和約束,運(yùn)維績(jī)效對(duì)運(yùn)維工作進(jìn)行全方位的考核評(píng)估,涉及制度、人和技術(shù)等各個(gè)方面,促進(jìn)運(yùn)維管理工作持續(xù)優(yōu)化改善,達(dá)到最優(yōu)效果[4]。
4 運(yùn)維管理體系架構(gòu)
運(yùn)維管理體系架構(gòu)包括3個(gè)方面:監(jiān)控體系、控制體系、流程體系。其中監(jiān)控體系是提供快速業(yè)務(wù)故障響應(yīng)與支持的自動(dòng)化平臺(tái),并對(duì)IT環(huán)境實(shí)現(xiàn)全面監(jiān)控,控制體系的目標(biāo)是實(shí)現(xiàn)對(duì)運(yùn)維效果與效率的管控并滿足法規(guī)遵從的要求,流程體系的目標(biāo)是確保為業(yè)務(wù)提供高質(zhì)量的運(yùn)維服務(wù)并降低運(yùn)行風(fēng)險(xiǎn)。從監(jiān)控體系的技術(shù)架構(gòu)上看,分為數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)呈現(xiàn)3個(gè)層次。
4.1 運(yùn)維管理控制體系
這里主要是從IT治理的角度實(shí)現(xiàn)運(yùn)維治理,主要是從運(yùn)維的控制(包括運(yùn)維治理的模式、績(jī)效考核制度、管理制度和成本控制體系等),運(yùn)維的管理信息透明(包括運(yùn)維的報(bào)告機(jī)制和手段等)以及運(yùn)維的責(zé)任和職責(zé)(包括崗責(zé)體系等)3個(gè)方面進(jìn)行管控。
4.2 運(yùn)維管理流程體系
運(yùn)維管理的流程體系是參照業(yè)界最佳實(shí)踐ITIL (信息技術(shù)基礎(chǔ)架構(gòu)庫)并符合ISO20000 國(guó)際標(biāo)準(zhǔn)管理框架要求,其中運(yùn)維管理的最佳實(shí)踐符合運(yùn)維管理服務(wù)生命周期管理的發(fā)展要求,流程體系包括服務(wù)戰(zhàn)略、服務(wù)設(shè)計(jì)、服務(wù)轉(zhuǎn)型、服務(wù)運(yùn)維和服務(wù)改5個(gè)部分。
4.3 運(yùn)維管理監(jiān)控體系
運(yùn)維管理的監(jiān)控體系是通過IT流程管理平臺(tái),IT服務(wù)管理平臺(tái)和IT操作管理平臺(tái)3個(gè)部分的自動(dòng)化實(shí)現(xiàn)和有效集成實(shí)現(xiàn)基于最佳實(shí)踐的組織人員結(jié)構(gòu),運(yùn)維管理流程,數(shù)據(jù)信息流轉(zhuǎn)和技術(shù)高效支撐的融合體現(xiàn)[2]。從監(jiān)控體系的技術(shù)架構(gòu)上看,則分為數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)呈現(xiàn)3個(gè)層次。
5 運(yùn)維組織架構(gòu)及職責(zé)
運(yùn)維團(tuán)隊(duì)要擁有專業(yè)的技術(shù)人才、涵蓋平臺(tái)各個(gè)部分,面向保障大數(shù)據(jù)中心高可用性與安全性的運(yùn)維目標(biāo),以規(guī)范、嚴(yán)密的流程以及配套的運(yùn)行保障平臺(tái)來支撐和維護(hù)整套運(yùn)行保障服務(wù)體系。
基于大數(shù)據(jù)中心的網(wǎng)絡(luò)信息體系的正常運(yùn)行涉及多種復(fù)雜技術(shù)的組合,包括基礎(chǔ)設(shè)施、APP應(yīng)用和安全運(yùn)維等,需要根據(jù)運(yùn)維工作劃分,精心設(shè)計(jì)運(yùn)維工作崗位,并組織運(yùn)行維護(hù)隊(duì)伍。大數(shù)據(jù)中心運(yùn)維團(tuán)隊(duì)架構(gòu)如圖2所示。
主要職責(zé)是完成大數(shù)據(jù)中心的軟硬件基礎(chǔ)設(shè)施運(yùn)行維護(hù)、各類資源規(guī)劃及管理、數(shù)據(jù)中心各類應(yīng)用軟件的集成和管理、緊急事件的應(yīng)急響應(yīng)、重大活動(dòng)保障、數(shù)據(jù)中心現(xiàn)場(chǎng)管理、運(yùn)維制度建設(shè)、安全保障、文件資料管理、對(duì)外協(xié)調(diào)、運(yùn)維工作持續(xù)改進(jìn)以及上級(jí)領(lǐng)導(dǎo)安排的其它各項(xiàng)運(yùn)維工作,具體完成11項(xiàng)工作。1)負(fù)責(zé)軟硬件基礎(chǔ)設(shè)施運(yùn)行維護(hù),包括基礎(chǔ)設(shè)施、網(wǎng)絡(luò)、基礎(chǔ)云平臺(tái)和基礎(chǔ)系統(tǒng)等。2)負(fù)責(zé)各類資源規(guī)劃及管理,包括云平臺(tái)軟件資源、數(shù)據(jù)產(chǎn)品資源、服務(wù)器硬件資源等。3)負(fù)責(zé)數(shù)據(jù)中心各類應(yīng)用軟件的集成和管理,包括應(yīng)用軟件配置管理、第三方應(yīng)用集成入云、后端服務(wù)的調(diào)用和升級(jí)、應(yīng)用運(yùn)行狀態(tài)和數(shù)據(jù)監(jiān)控、軟件版本和補(bǔ)丁發(fā)布的配置管理等。4)負(fù)責(zé)緊急事件的應(yīng)急響應(yīng),包括IT設(shè)備故障應(yīng)急、基礎(chǔ)設(shè)施應(yīng)急處理、網(wǎng)絡(luò)故障應(yīng)急處理、病毒攻擊應(yīng)急處理等。5)負(fù)責(zé)重大活動(dòng)保障支撐,包括參觀接待、演訓(xùn)活動(dòng)、演示匯報(bào)支撐等。6)負(fù)責(zé)運(yùn)維制度建設(shè)、包括數(shù)據(jù)采報(bào)制度、安全保密制度、應(yīng)急響應(yīng)制度、入網(wǎng)審批制度等。7)負(fù)責(zé)安全保障建設(shè),包括網(wǎng)絡(luò)安全維護(hù)、入侵檢測(cè)系統(tǒng)維護(hù)、防火墻維護(hù)、防病毒系統(tǒng)維護(hù)等。8)負(fù)責(zé)文件資料管理,包括文件資料登記造冊(cè)、日常文件使用登記、借閱登記手續(xù)辦理等。9)負(fù)責(zé)對(duì)外協(xié)調(diào),包括供應(yīng)商協(xié)調(diào)、第三方技術(shù)支持服務(wù)協(xié)調(diào)等。10)負(fù)責(zé)運(yùn)維工作持續(xù)改進(jìn),包括知識(shí)庫的建立和維護(hù)等。11)負(fù)責(zé)上級(jí)領(lǐng)導(dǎo)交辦的其它工作任務(wù)的解決完成、記錄和反饋。
參考文獻(xiàn)
[1]李勁.云計(jì)算數(shù)據(jù)中心規(guī)劃與設(shè)計(jì)[M].北京:人民郵電出版社,2018.
[2]林子雨.大數(shù)據(jù)技術(shù)原理與應(yīng)用[M].北京:人民郵電出版社,2017.
[3]李鵬.IT運(yùn)維之道[M].北京:人民郵電出版社,2019.
[4]姜才康.大數(shù)據(jù)系統(tǒng)運(yùn)維[M].北京:清華大學(xué)出版社,2018.
[5]鐘景華.中國(guó)數(shù)據(jù)中心運(yùn)維管理指針[M].北京:機(jī)械工業(yè)出版社,2017.