郭泰
摘 要:虛擬機技術具有彈性大、靈活快速擴展、降低運維成本、自動化資源監(jiān)控、多用戶環(huán)境等特點。因此需要我們對機房日常管理進行有效控制,才能使整套的計算機系統(tǒng)長久無故障運行。
關鍵詞: 運維;虛擬機;數(shù)據(jù)中心
基金項目:重慶市高等教育教學改革項目:“基于VMware的虛擬機環(huán)境在計算機教學中的應用研究”,項目編號:173306
現(xiàn)代信息中心已成為人們?nèi)粘I钪胁豢扇鄙俚牟糠?,因此信息中心機房設備的運行正常與否就非常關鍵。在數(shù)據(jù)中心 生命周期中,數(shù)據(jù)中心運維管理是數(shù)據(jù)中心生命周期中最后一個、也是歷時最長的一個階段。加強對云計算運維管理的要點以及相應改進方面措施的研究與探討,以此不斷提高IT運維質(zhì)量,實現(xiàn)高效的運維管理。這就給運維是否到位提出了嚴格要求。
1 運維在機房中的地位
數(shù)據(jù)中心運維管理是,為提供符合要求的信息系統(tǒng)服務,而對與該信息系統(tǒng)服務有關的數(shù)據(jù)中心各項管理對象進行系統(tǒng)地計劃、組織、協(xié)調(diào)與控制,是信息系統(tǒng)服務有關各項管理工作的總稱。數(shù)據(jù)中心 運維管理主要肩負合規(guī)性、可用性、經(jīng)濟性、服務性等四大目標。
在信息中心機房配備有運維人員,但大都是“全才”的,即什么都管,尤其是對供電系統(tǒng)大都是由主機運維的人員代管。當電源系統(tǒng)出故障時,此代管人員一問三不知,甚至連配電柜門都沒開過。這實際上就是把機房的運維放在了一個次要的地位。
當然也有的地方有所分工,看似重視,實際上也沒得到真正地重視。比如說機房設備長時間一直運行正常,這時如果運維人員提出要增添運維方面的測量設備,有的領導就認為多余,很難得到批準。但他不知道機房設備所以長時間一直運行正常,正是由于這些運維人員的細心維護和努力保養(yǎng)所獲得的。并不是這些人員每天閑著無事可干,他們的這些工作一般是領導看不見的。比如同樣多款的UPS在同樣的環(huán)境條件下,在某衛(wèi)星地面站就極少出故障,而在同系統(tǒng)別的地方機房同一家同規(guī)格的機器就故障連連。原來是前者的運維人員每天都在細心觀察和分析機器面板LCD上顯示的數(shù)據(jù),一旦發(fā)現(xiàn)異常苗頭及時采取措施;而后者只限于每天抄寫這些數(shù)據(jù)就算完成任務,使異常苗頭不斷積累,以致于導致故障。比如斷路器在額定閉合狀態(tài)發(fā)現(xiàn)觸點處溫度高了,就要檢查是不是電流過大到超過額定值,如果不是就要檢查觸點接觸是否牢靠,是否需要再緊固一下。這樣一來,故障隱患就排除了。如果一直不管不問久而久之就會導致跳閘而使系統(tǒng)崩潰。這都是一些小的動作,都是在巡查中順便做的事情。所以同是運維人員在巡查,但前者在做事而后者只是走馬觀花。這就是數(shù)據(jù)中心可靠與不可靠的區(qū)別。
運維人員就像幼兒園的保育員和老師。孩子交到幼兒園后,起主要作用的就是保育員和老師,這時保育員和老師就是主體。機器就好比是幼兒園的孩子,孩子是否健康成長,機器是否正常運行,除去本身的健康(可靠性質(zhì)量)狀況外,那就是運維人員的責任了。由于云計算的要求彈性、靈活快速擴展、降低運維成本、自動化資源監(jiān)控、多租戶環(huán)境等特性,除基于ITIL(IT基礎設施庫)的常規(guī)數(shù)據(jù)中心運維管理理念之外,以下運維管理方面的內(nèi)容,需要我們加以重點關注。
2 虛擬技術數(shù)據(jù)中心運維管理的要點
(1)理清虛擬技術數(shù)據(jù)中心 的運維對象
數(shù)據(jù)中心的運維管理指的是與數(shù)據(jù)中心信息服務相關的管理工作的總稱。虛擬技術數(shù)據(jù)中心運維對象一般可分成5大類:
①機房環(huán)境基礎設施
這里主要指的是為保障數(shù)據(jù)中心 所管理的設備正常運行所必需的網(wǎng)絡通信、供配電系統(tǒng)、環(huán)境系統(tǒng)、消防系統(tǒng)和安保系統(tǒng)等。這部分設備對于用戶來說幾乎是透明的,比如大多數(shù)用戶都不會忽略數(shù)據(jù)中心的供電和制冷。因為這類設備如果發(fā)生意外,對依托于該基礎設施的應用來說是致命的。
②數(shù)據(jù)中心所應用的各種設備
這些設備包括存儲、服務器、網(wǎng)絡設備和安全設備等硬件資源。這類設備在向用戶提供IT服務過程中提供了計算、存?zhèn)鬏敽屯ㄐ诺裙δ?,是IT服務最核心的部分。
③系統(tǒng)與數(shù)據(jù)
這部分包括操作系統(tǒng)、數(shù)據(jù)庫、中間環(huán)節(jié)和應用程序等軟件資源,還有業(yè)務數(shù)據(jù)、配置文件、日志等各類數(shù)據(jù)。這類管理對象雖然不像前兩類管理對象那樣“看得見,摸得著”,但卻是IT服務的邏輯載體。
④管理工具
這部分包括基礎設施監(jiān)控軟件、IT監(jiān)控軟件、工作流管理平臺、報表平臺和短信平臺等。
這類管理對象是幫助管理主體更高效地管理數(shù)據(jù)中心內(nèi)各種管理對象的工作情況,并在管理活動中承擔起部分管理功能的軟硬件設施。通過這些工具,可以直觀感受并考證數(shù)據(jù)中心如何管理好與其直接相關的資源,從而間接地提升了可用性與可靠性。
⑤人員管理
人員管理包括數(shù)據(jù)中心在內(nèi)的技術人員、運維人員、管理人員以及提供服務的廠商人員的管理。
人員一方面作為管理的主體負責管理數(shù)據(jù)中心 的運維對象,另一方面也作為管理的對象,支持IT的運行。這類對象與其他運維對象不同,具有很強的主觀能動性,其管理的好壞將直接影響到整個運維管理體系,而不僅僅是運維對象本身。
(2)定義各運維對象的運維內(nèi)容
虛擬技術數(shù)據(jù)中心資源管理所涵蓋的范圍很廣,包括環(huán)境管理、網(wǎng)絡管理、設備管理、軟件管理、存儲介質(zhì)管理、防病毒管理、應用管理、日常操作管理、用戶密碼管理和員工管理等。這就需要對每一個管理對象的日常維護工作內(nèi)容有一個明確的定義,定義操作內(nèi)容、維護頻度、對應的責任人,要做到有章可循,責任人可追蹤。實現(xiàn)對整個系統(tǒng)全生命周期地追蹤管理。
(3)建立信息化的運維管理平臺系統(tǒng)和IT服務管理系統(tǒng)
虛擬技術數(shù)據(jù)中心的運維管理應從數(shù)據(jù)中心的日常監(jiān)控入手,事件管理、變更管理、應急預案管理和日常維護管理等方面全方位地進行數(shù)據(jù)中心的日常監(jiān)控。實現(xiàn)提前發(fā)現(xiàn)問題、消除隱患,首先要有完整的、全方位實時有效的監(jiān)控系統(tǒng),并著重監(jiān)控數(shù)據(jù)的記錄和技術分析。
數(shù)據(jù)中心的業(yè)務可以概括為:通過運行系統(tǒng)來向客戶提供服務。沒有信息系統(tǒng)的支撐來運行IT系統(tǒng)就如超市里仍然采用手工結賬一樣不能讓顧客滿意。信息化的數(shù)據(jù)中心運維管理平臺系統(tǒng)包括如下方面:
①機房環(huán)境基礎設施監(jiān)控管理系統(tǒng);
②IT系統(tǒng)監(jiān)控管理系統(tǒng);
③IT服務管理系統(tǒng)。
結束語:數(shù)據(jù)中心作為信息與信息系統(tǒng)的物理載體,目前主要用于與IT相關的主機、網(wǎng)絡、存儲等設備和資源的存放、管理。只有運維管理好一個數(shù)據(jù)中心,才能發(fā)揮數(shù)據(jù)中心的作用,使之能更好地為云計算提供強大的支持能力。通過有效實施云計算數(shù)據(jù)中心運維管理,降低人員工作量的同時提高運維人員工作效率,保障業(yè)務人員的工作效率,提高業(yè)務系統(tǒng)運行狀況,進而提高企業(yè)整體管理效益,同時提高客戶滿意度,實現(xiàn)云計算數(shù)據(jù)中心的價值最大化。
參考文獻
[1] 陸軍.虛擬機技術及其在計算機教學中的應用[J].石家莊理工職業(yè)學院學術研究,2009,(4).
[2] 黎東蘭.利用虛擬機技術搭建計算機教學平臺的探索與實踐[J].時代教育,2010,(9).
[4] 梁誠等.Vmware“虛擬機”技術在計算機實踐教學中的應用[J].電腦開發(fā)與應用,2007,(8).