楊高攀 王倩
摘要:本文以A公司數(shù)據(jù)中心主機(jī)房運維管理為討論對象,通過對主機(jī)房所涉及的各類基礎(chǔ)設(shè)施、電子信息設(shè)備的具體運維內(nèi)容、運維體系、流程管理體系、溝通管理體系的研究分析,論述了在數(shù)據(jù)中心主機(jī)房運維工作中應(yīng)該關(guān)注的要點,以期對同類工作有所助益。
關(guān)鍵詞:數(shù)據(jù)中心;主機(jī)房;機(jī)房運維;ITIL
中圖分類號? TP308? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)22-0019-02
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
A Preliminary Study on Operation and Maintenance Management System of Data Center
YANG Gao-pan, WANG Qian
(Baoji Cigarette Factory of China Tobacco Shaanxi Industrial Co.,Ltd., Baoji 721000 , China)
Abstract:This paper studied Company As Date Base computer room, analyzed its hardware condition, and its Operation system of Content, System,Process,Communication,expound key points in Operation job of? IDC, expected to be helpful for such jobs.
Key words: Data Center; Computer Room; operation and maintenance management; ITIL
在我國社會經(jīng)濟(jì)發(fā)展過程中,沒有信息化就沒有現(xiàn)代化,而數(shù)據(jù)中心作為信息化的基石,沒有數(shù)據(jù)中心就沒有信息化。數(shù)據(jù)中心建設(shè)好后該怎樣具體運維,怎樣讓數(shù)據(jù)中心穩(wěn)定、可靠、安全、高效地運行,并在質(zhì)量、成本、效率、安全等方面為業(yè)務(wù)系統(tǒng)提供堅強(qiáng)后盾,已成為運維部門關(guān)注的重點,本文以A公司數(shù)據(jù)中心主機(jī)房運維工作為討論對象,通過對主機(jī)房所涉及的各類基礎(chǔ)設(shè)施、電子信息設(shè)備的具體運維內(nèi)容、運維體系、流程管理體系、溝通管理體系的研究分析,論述了在數(shù)據(jù)中心主機(jī)房運維工作中應(yīng)該關(guān)注的要點,以期對同類工作有所助益。
1 A公司數(shù)據(jù)中心主機(jī)房概要
1.1 A公司概況
A公司屬于輕工業(yè)生產(chǎn)制造企業(yè),其產(chǎn)品線豐富、產(chǎn)品受用群體龐大,年工業(yè)總產(chǎn)值百億元,公司內(nèi)部有眾多的業(yè)務(wù)領(lǐng)域,各業(yè)務(wù)領(lǐng)域均有相對應(yīng)的信息系統(tǒng)予以支撐,用戶群數(shù)量較大、活躍度及并發(fā)量均較高,公司內(nèi)各類流水線對信息系統(tǒng)的實時性和可靠性等均有較高要求,總之A公司的信息化及自動化程度均屬于所處行業(yè)的先進(jìn)水平, A公司所有的信息系統(tǒng)歸納為四大類,分別發(fā)力于數(shù)據(jù)分析、業(yè)務(wù)管控、制造執(zhí)行、基礎(chǔ)保障,基于A公司的信息化及自動化特點,其數(shù)據(jù)中心運維部門在公司內(nèi)部的作用就至關(guān)重要,運維工作的質(zhì)量和效率將直接影響到公司的生產(chǎn)經(jīng)營目標(biāo),所以有必要在本文中將A公司數(shù)據(jù)中心運維過程的經(jīng)驗和教訓(xùn)進(jìn)行分析研究,以期為今后類似的工作提供解決方案。
1.2 A公司數(shù)據(jù)中心
A公司的數(shù)據(jù)中心(Data Center)是一棟建筑物的一部分,主要由主機(jī)房、輔助區(qū)、支持區(qū)和行政管理區(qū)等功能區(qū)組成。主機(jī)房(Computer room)是主要用于數(shù)據(jù)處理、設(shè)備安裝和運行的建筑空間,A公司在主機(jī)房內(nèi)配置了空調(diào)系統(tǒng)(精密空調(diào)系統(tǒng)、新風(fēng)系統(tǒng))、電力系統(tǒng)(供配電系統(tǒng)、UPS系統(tǒng))、安防系統(tǒng)(防雷接地系統(tǒng)、消防系統(tǒng)、視頻監(jiān)控系統(tǒng)、門禁系統(tǒng))、綜合布線系統(tǒng)、智能網(wǎng)絡(luò)管理平臺、服務(wù)器主機(jī)群、服務(wù)器虛擬化系統(tǒng)、網(wǎng)絡(luò)安全類軟硬件系統(tǒng)(病毒網(wǎng)關(guān)、安全審計、入侵檢測、入侵防御、運維審計、日志管理等)、環(huán)境監(jiān)控系統(tǒng)、虛擬化系統(tǒng)、存儲管理系統(tǒng)、備份系統(tǒng)等,對上述各類軟硬件系統(tǒng)運行與維護(hù)構(gòu)成了A公司運維部門的基礎(chǔ)性業(yè)務(wù)工作。
1.3 運維體系
A公司的運維體系,一是基于本公司的戰(zhàn)略規(guī)劃、信息化發(fā)展規(guī)劃、運維發(fā)展規(guī)劃、人力資源規(guī)劃、軟硬件系統(tǒng)架構(gòu)、數(shù)據(jù)中心特點等指導(dǎo)性文件,發(fā)布了規(guī)范化的數(shù)據(jù)中心運維體系標(biāo)準(zhǔn)文件。二是成立了一支專業(yè)化的運維團(tuán)隊,團(tuán)隊成員專業(yè)主要包含:企業(yè)管理與標(biāo)準(zhǔn)化、服務(wù)器、網(wǎng)絡(luò)、信息安全、軟件工程、安防、電氣、弱電、暖通等,團(tuán)隊成員除在專業(yè)技術(shù)領(lǐng)域擅長外,同時兼?zhèn)淞酥圃炱髽I(yè)所需要的管理能力。三是加大資金投入,A公司已經(jīng)意識到信息化在生產(chǎn)制造過程中的積極意義,在設(shè)計研發(fā)、原料采購、倉儲運輸、訂單處理、生產(chǎn)制造、批發(fā)和零售等環(huán)節(jié),大力引進(jìn)云計算、大數(shù)據(jù)等信息化技術(shù),用以推進(jìn)傳統(tǒng)制造向數(shù)字化、智能化轉(zhuǎn)型。四是加大宣傳力度。A公司雖然只是一個商品制造企業(yè),但是其在公司內(nèi)部提倡全體職員進(jìn)行互聯(lián)網(wǎng)思維,宣傳貫徹中國制造2025,突出“互聯(lián)網(wǎng)+”“智能化+”對于日常業(yè)務(wù)的引領(lǐng)與提升,已將信息化、智能化提升至公司戰(zhàn)略層面。五是加強(qiáng)運維部門人員的職業(yè)技能培訓(xùn),走人才引領(lǐng)的發(fā)展道路,A公司歷來重視信息化專業(yè)技術(shù)人員的培訓(xùn)工作,建立了一套職業(yè)晉升體系,通過培訓(xùn)與鑒定,可以充分激發(fā)運維人員的工作主觀能動性,團(tuán)隊氛圍積極向上。
2 運維基礎(chǔ)工作分析
2.1 基礎(chǔ)設(shè)施的運維工作概況
A公司數(shù)據(jù)中心主機(jī)房基礎(chǔ)設(shè)施的具體工作由三大類組成,即狀態(tài)監(jiān)控、預(yù)防性檢查、常規(guī)作業(yè),簡述其工作內(nèi)容如下。
空調(diào)系統(tǒng)的運維內(nèi)容有:精密空調(diào)系統(tǒng)的環(huán)境溫濕度、出風(fēng)溫度、回風(fēng)溫度、加濕罐狀態(tài)、加濕罐陽極棒、壓縮機(jī)狀態(tài)、高低壓壓力、冷卻水壓力、濾網(wǎng)灰塵、室內(nèi)機(jī)漏水檢查、室外風(fēng)機(jī)運轉(zhuǎn),新風(fēng)系統(tǒng)的風(fēng)壓和風(fēng)速、上下水等。
電力系統(tǒng)的運維內(nèi)容有:供配電系統(tǒng)的電流、電壓、功率因數(shù)、有功功率、無功功率、諧波、接地電阻、零序電流、導(dǎo)線及器件的發(fā)熱、防浪涌器件等,不間斷電源的輸入輸出電壓電流、頻率、負(fù)載率、溫度、電池充放電電壓、外觀、通風(fēng)等。
安防系統(tǒng)的狀態(tài)監(jiān)控內(nèi)容有:防雷接地系統(tǒng)的浪涌保護(hù)器、避雷器狀態(tài)、接地電阻等,消防系統(tǒng)的控制系統(tǒng)狀態(tài)、探頭污染、管道開關(guān)、氣體滅火器容器壓力、滅火器有效期等。
視頻監(jiān)控系統(tǒng)的狀態(tài)監(jiān)控內(nèi)容有:監(jiān)控錄像記錄信息的完整和真實性、存儲狀態(tài)、云臺狀態(tài)、監(jiān)控死角、照明情況等,門禁系統(tǒng)的自動報警功能、門禁與視頻監(jiān)控聯(lián)動狀態(tài)、防觸電、防短路和開路、門磁、門禁授權(quán)等。
綜合布線系統(tǒng)光纖、銅鏈路狀態(tài)、線纜標(biāo)識與拓?fù)鋱D等。
2.2 電子信息設(shè)備的運維工作概況
主機(jī)房內(nèi)的服務(wù)器群、網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)安全設(shè)備、存儲設(shè)備等的主要運維工作為三大類,即狀態(tài)監(jiān)控、預(yù)防性檢查、常規(guī)作業(yè),簡述其主要內(nèi)容如下。
服務(wù)器主機(jī)類:設(shè)備機(jī)身和各類板卡運行狀態(tài)、電源、CPU峰值、內(nèi)存峰值、文件系統(tǒng)空間、IO讀寫、網(wǎng)絡(luò)端口、與存儲的鏈路性能、微碼版本、RAID信息等。
網(wǎng)絡(luò)及安全設(shè)備類:端到端時延變化、鏈路端口、鏈路負(fù)載百分比、路由條目變化、軟件配置變動審計、設(shè)備日志審計、負(fù)載均衡、應(yīng)用流量管理、上網(wǎng)行為、網(wǎng)頁防篡改、WEB防火墻、APT檢測、木馬檢測、無線AP、日志審計、網(wǎng)絡(luò)審計、運維審計、數(shù)據(jù)庫審計等。
3 運維的流程管理體系
A公司對于數(shù)據(jù)中心的運維工作,設(shè)計了總體的管控流程,包括每一個流程動作的觸發(fā)條件、工作規(guī)范、成果等,保證流程所涉及的每一個人都有規(guī)范統(tǒng)一的理解和標(biāo)準(zhǔn)的操作,同時可以實現(xiàn)對運維工作的量化管理與考核,規(guī)范化流程包含了:統(tǒng)一服務(wù)臺管理、事件管理、問題管理、變更管理、發(fā)布管理、配置管理、知識庫管理、系統(tǒng)管理、角色授權(quán)管理等。
統(tǒng)一服務(wù)臺管理。運維部門設(shè)置統(tǒng)一的對外服務(wù)接口,用于處理用戶服務(wù)請求、知識庫維護(hù)、運維服務(wù)工單派發(fā)、進(jìn)度跟蹤、服務(wù)回訪等,這樣設(shè)置有助于管理決策層人員做對整個運維部門的工作進(jìn)行績效管理,進(jìn)而對運維人力資源配置、資金支持等進(jìn)行優(yōu)化調(diào)整。
事件管理。服務(wù)臺和工單指定人員能夠快速響應(yīng)軟硬件故障或服務(wù)請求,按規(guī)范記錄事件,對事件的影響度和緊急度進(jìn)行評估,進(jìn)而對事件分級,能夠有效提高整體運維工作效率,提升用戶滿意度。
問題管理。有主動管理和被動管理兩個維度,主動問題管理重點關(guān)注數(shù)據(jù)中心基礎(chǔ)設(shè)施和電子信息設(shè)備的運行質(zhì)量及趨勢,分析并找出潛在隱患加以預(yù)防修復(fù),防止其發(fā)生。被動管理關(guān)注突發(fā)事件的解決,及事后的排查分析,找到問題根源并徹底解決。在數(shù)據(jù)中心主機(jī)房運維過程中,運維人員大部分精力應(yīng)放在主動管理方面,努力使數(shù)據(jù)中心的對外服務(wù)透明化。
變更管理。在數(shù)據(jù)中心主機(jī)房內(nèi),始終堅持的原則是在最小風(fēng)險范圍內(nèi),高效經(jīng)濟(jì)的實施變更。A公司將變更分為三級,即常規(guī)變更、標(biāo)準(zhǔn)變更、重大變更,所有變更均進(jìn)行請求登記,經(jīng)過評估和授權(quán)后才付諸實施。
發(fā)布管理。建立規(guī)范的發(fā)布過程,控制發(fā)布風(fēng)險,提高發(fā)布成功率。首先確認(rèn)發(fā)布的可追溯和安全,只有經(jīng)過測試并授權(quán)批準(zhǔn)的內(nèi)容才能發(fā)布。第二考慮發(fā)布的時間和范圍規(guī)劃,與用戶確認(rèn)試運行期間。第三對發(fā)布信息的備份進(jìn)行妥善安置,并更新配置管理數(shù)據(jù)庫。
配置管理。該管理的總目標(biāo)是提供一個統(tǒng)一的、一致的過程來管理運維各流程所涉及的所有組成部分。該管理過程統(tǒng)計所有的數(shù)據(jù)中心資產(chǎn),為其他管理流程提供準(zhǔn)確統(tǒng)一的信息,是事件、變更、發(fā)布管理的基礎(chǔ),配置項記錄的完整性和正確性得到維護(hù)和確認(rèn),所有的數(shù)據(jù)存儲在配置管理數(shù)據(jù)庫中。
知識庫管理。運維過程中的所有事件均在統(tǒng)一服務(wù)臺管理中入庫,入庫的過程按照已劃分的角色、確定的流程進(jìn)行,在經(jīng)評估批準(zhǔn)后發(fā)布。設(shè)置知識庫管理可以實現(xiàn)知識共享及轉(zhuǎn)化、避免知識流失、提高運維的響應(yīng)效率,當(dāng)知識庫積累到一定量時,可以進(jìn)行大數(shù)據(jù)分析,進(jìn)而發(fā)現(xiàn)潛在問題,預(yù)測分析,幫助擬定未來的工作重點、計劃及預(yù)算等。
4 運維的溝通管理體系
A公司為確保運維工作效率和管理質(zhì)量,制定了包括會簽制度、例會制度、匯報制度、專項會議制度等在內(nèi)容的溝通管理體系。
會簽制度。在運維過程中,當(dāng)出現(xiàn)涉及重大業(yè)務(wù)變更事件時,運維部門會組織召開由各業(yè)務(wù)部門負(fù)責(zé)人及業(yè)務(wù)骨干參加的協(xié)調(diào)會議,當(dāng)雙方達(dá)成業(yè)務(wù)及技術(shù)的一致后,經(jīng)批準(zhǔn)授權(quán)交由技術(shù)人員實施。
例會制度。定期組織運維部門例會,會上對運維工作過程中的技術(shù)與管理問題進(jìn)行面對面溝通協(xié)調(diào),確定解決方案和工作計劃。
匯報制度。運維部門的管理人員有1至2個,但技術(shù)人員會有很多,所以技術(shù)人員的工作進(jìn)展情況,必須定期向管理人員匯報,A公司建立該制度能使管理人員全面把控運維整體工作進(jìn)展和質(zhì)量,同時能提升技術(shù)人員在本單位的管理能力。
5 結(jié)語
現(xiàn)階段我國各個行業(yè)中數(shù)據(jù)中心的建設(shè)依然處于快速的發(fā)展階段,其中運維體系的規(guī)劃和設(shè)計在數(shù)據(jù)中心建設(shè)過程中占據(jù)著重要的角色,運維體系的搭建應(yīng)同數(shù)據(jù)中心的規(guī)劃設(shè)計同時開展,這樣有助于數(shù)據(jù)中心在交付運營之后的運維工作可靠有效地開展,才能讓數(shù)據(jù)中心穩(wěn)定、可靠、安全、高效地運行,并在質(zhì)量、成本、效率、安全等方面為業(yè)務(wù)系統(tǒng)提供堅強(qiáng)后盾。
參考文獻(xiàn):
[1] GB50174—2017,數(shù)據(jù)中心設(shè)計規(guī)范[S].
[2] 陳永青,張正培.數(shù)據(jù)中心機(jī)房建設(shè)和運維中的色標(biāo)輔助管理[J] .中國金融電腦,2018(6):42-48.
[3] 費晰,胡璋,楊海. 關(guān)于提升衛(wèi)星發(fā)射中心遠(yuǎn)程數(shù)據(jù)機(jī)房運維保障水平的若干思路[J] .中國航天,2018(6):31-33.
[4] 張亞軍,張金隆,陳江濤. 基于ITIL的H企業(yè)信息化運維服務(wù)的管理與研究[J].數(shù)字通信世界,2019(2):244-245.
【通聯(lián)編輯:王力】