康賢軍
2010~2012年,《商業(yè)銀行數(shù)據(jù)中心監(jiān)管指引》、《商業(yè)銀行業(yè)務(wù)連續(xù)性監(jiān)管指引》和《關(guān)于銀行業(yè)金融機(jī)構(gòu)災(zāi)備中心規(guī)劃布局的指導(dǎo)意見》(征求意見稿)相繼發(fā)布和組織討論。保障數(shù)據(jù)中心安全、可靠、穩(wěn)定,建立業(yè)務(wù)連續(xù)性運(yùn)行管理體系及全面風(fēng)險(xiǎn)管理體系的戰(zhàn)略,實(shí)施“兩地三中心”科學(xué)部署,成為金融機(jī)構(gòu)持續(xù)穩(wěn)定運(yùn)行、持續(xù)發(fā)展的必然選擇。以此背景下,掀起了各家銀行數(shù)據(jù)中心建設(shè)浪潮,經(jīng)過近些年的建設(shè)與發(fā)展,基本上形成了以“兩地三中心”為主體,涵蓋專業(yè)支持中心及分行多中心接入的IT運(yùn)營格局。在數(shù)據(jù)中心建設(shè)過程中,虛擬化、移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)等新技術(shù)逐步廣泛融入其中,實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)中心向現(xiàn)代數(shù)據(jù)中心的轉(zhuǎn)變。數(shù)據(jù)中心規(guī)?;⒓谢?、新技術(shù)的應(yīng)用、多個(gè)數(shù)據(jù)中心聯(lián)動(dòng)運(yùn)行等新情況,給數(shù)據(jù)中心運(yùn)維管理帶來了機(jī)遇與挑戰(zhàn)。
運(yùn)維管理現(xiàn)狀
數(shù)據(jù)中心運(yùn)維經(jīng)歷了手工運(yùn)維、自動(dòng)化運(yùn)維在到如今的云數(shù)據(jù)中心三個(gè)階段,現(xiàn)階段的本質(zhì)是全面實(shí)現(xiàn)數(shù)據(jù)中心極致自動(dòng)化。數(shù)據(jù)中心 “運(yùn)營專業(yè)化”的特征,它具有一定規(guī)模的數(shù)據(jù)中心、專業(yè)化分工以及獨(dú)立的管理目標(biāo)、組織與相應(yīng)制度等,同時(shí)引入了一些體系化的管理框架與標(biāo)準(zhǔn)。數(shù)據(jù)中心的運(yùn)維管理,通常按系統(tǒng)、應(yīng)用、網(wǎng)絡(luò)、供配電等不同技術(shù)專業(yè)進(jìn)行組織架構(gòu)的設(shè)計(jì)及崗位職責(zé)設(shè)定。這樣的管理模式,基于數(shù)據(jù)中心各專業(yè)、數(shù)據(jù)中心之間較為明確的物理界限,各司其職,能夠發(fā)揮各自專業(yè)的特長。然而這種模式,面向?qū)I(yè)技術(shù),以“高可用性”為目標(biāo),使得運(yùn)維人員疲于運(yùn)行監(jiān)控、故障處理等工作,難以滿足云數(shù)據(jù)中心資源化、面向業(yè)務(wù)服務(wù)的要求。
面對(duì)這一情況,某銀行以“新一代核心系統(tǒng)”為建設(shè)契機(jī),通過云管理平臺(tái)的建設(shè),構(gòu)建了支撐“兩地三中心”云數(shù)據(jù)中心體系。數(shù)據(jù)中心的管理更多成為一種服務(wù)模式,并提出了基于ITIL的運(yùn)維管理方案。云平臺(tái)運(yùn)維管理系統(tǒng)相關(guān)產(chǎn)品主要有:游龍、優(yōu)利普華、廣通、摩卡以及北塔,國外典型案例主要有IBMTivoli、HPOpenView和BMCRemedy。ITIL運(yùn)維管理平臺(tái)、統(tǒng)一門戶系統(tǒng)、統(tǒng)一監(jiān)控平臺(tái)、集中監(jiān)控平臺(tái),各種運(yùn)維管理系統(tǒng)層出不窮,引入ITIL管理框架,基于云平臺(tái)的標(biāo)準(zhǔn)化、流程化、自動(dòng)化、集中化是當(dāng)前運(yùn)維的必然趨勢(shì)。
雖然針對(duì)現(xiàn)代數(shù)據(jù)中心運(yùn)維管理已有了大量的探索與實(shí)踐,仍然存在著以下問題:一方面數(shù)據(jù)中心監(jiān)控系統(tǒng)眾多,動(dòng)環(huán)監(jiān)控系統(tǒng)、網(wǎng)絡(luò)監(jiān)控系統(tǒng)、應(yīng)用監(jiān)控系統(tǒng)、存儲(chǔ)監(jiān)控等各個(gè)系統(tǒng)各自為政,涉及眾多廠家、眾多專業(yè)工程師,運(yùn)行信息彼此割裂,缺少信息共享與交互,即便有些數(shù)據(jù)中心已經(jīng)采用了統(tǒng)一監(jiān)控系統(tǒng)或統(tǒng)一門戶,僅實(shí)現(xiàn)了信息的集中監(jiān)控與展示,并不能根本上建立信息與信息之間的關(guān)系,從而挖掘出數(shù)據(jù)所具有的價(jià)值意義;二是數(shù)據(jù)中心規(guī)模的擴(kuò)大以及多個(gè)數(shù)據(jù)中心的存在,運(yùn)行數(shù)據(jù)存在于從基礎(chǔ)設(shè)施、IT設(shè)備、應(yīng)用、業(yè)務(wù)等各個(gè)環(huán)節(jié),面臨著數(shù)據(jù)采集廣泛、采集頻率、傳輸質(zhì)量等標(biāo)準(zhǔn)統(tǒng)一的問題;三是數(shù)據(jù)中心資源調(diào)度問題以及多個(gè)數(shù)據(jù)中心的協(xié)作問題,如何實(shí)現(xiàn)數(shù)據(jù)中心運(yùn)行的資源最有效配置,以及跨數(shù)據(jù)中心的資源調(diào)度與分配;四是現(xiàn)有ITIL運(yùn)維管理平臺(tái)、開發(fā)平臺(tái)、OA系統(tǒng)、統(tǒng)一門戶甚至人力資源系統(tǒng)、會(huì)計(jì)財(cái)務(wù)系統(tǒng)等各種管理平臺(tái),或限于解決部門內(nèi)部的協(xié)同工作或側(cè)重于某一方面的職能,缺乏頂層的設(shè)計(jì),管理流程交叉復(fù)雜、管理效能較低。
針對(duì)上述問題,筆者以開放、共享、主動(dòng)、智能、自動(dòng)為理念,基于多個(gè)現(xiàn)代數(shù)據(jù)中心,依靠自動(dòng)化、智能化等計(jì)算機(jī)技術(shù)手段,依靠運(yùn)維管理模式的轉(zhuǎn)變,對(duì)運(yùn)維管理進(jìn)行了研究,提出了運(yùn)維管理的思路。
運(yùn)維管理系統(tǒng)建設(shè)思路
現(xiàn)代數(shù)據(jù)中心運(yùn)維離不開信息系統(tǒng)的支撐,建立一套高效的、智能化高信息系統(tǒng),是提高運(yùn)維效率、實(shí)現(xiàn)運(yùn)維自動(dòng)化的關(guān)鍵。
一體化運(yùn)維管理系統(tǒng)是支撐數(shù)據(jù)中心運(yùn)行有效手段和工具,它提供數(shù)據(jù)中心運(yùn)行策劃、監(jiān)視、分析、決策、指揮、操作、控制和管理等功能,縱向上整合所有監(jiān)控系統(tǒng),橫向上實(shí)現(xiàn)與其他系統(tǒng)的連接和信息交互,發(fā)揮綜合效益,實(shí)現(xiàn)運(yùn)行管理的智能化、自動(dòng)化。一體化運(yùn)維管理系統(tǒng)應(yīng)能實(shí)現(xiàn)接入了多個(gè)數(shù)據(jù)中心、各分中心機(jī)房。
它包括運(yùn)行監(jiān)控平臺(tái)、智能管理平臺(tái)和決策平臺(tái)等三個(gè)平臺(tái)。運(yùn)行監(jiān)控系統(tǒng)具備數(shù)據(jù)采集與交互、全景建模和數(shù)據(jù)集成與服務(wù)等功能,實(shí)現(xiàn)數(shù)據(jù)中心所有設(shè)備運(yùn)行狀態(tài)監(jiān)視、網(wǎng)絡(luò)監(jiān)視、系統(tǒng)監(jiān)視、環(huán)境監(jiān)視、在線計(jì)算、事件記錄、分析預(yù)警、自動(dòng)控制和手動(dòng)操作。智能管理平臺(tái)實(shí)現(xiàn)運(yùn)維場(chǎng)景管理、各類資源管理、自動(dòng)化管理、多數(shù)據(jù)中心系統(tǒng)管理等多種管理功能。決策平臺(tái)構(gòu)建于前兩個(gè)系統(tǒng)之上,面向管理決策人員,以大數(shù)據(jù)分析為基礎(chǔ),以服務(wù)用戶為目標(biāo),提供“一站式”運(yùn)行展示和決策支持。
(一)運(yùn)行監(jiān)控平臺(tái)
運(yùn)行監(jiān)控平臺(tái)是實(shí)現(xiàn)運(yùn)維管理系統(tǒng)的基礎(chǔ)和前提。監(jiān)控的對(duì)象和范圍是各個(gè)數(shù)據(jù)中心所有資源以及其他外部關(guān)聯(lián)的信息,包括動(dòng)力、場(chǎng)地環(huán)境、IT設(shè)備、系統(tǒng)、網(wǎng)絡(luò)等。這些資源基本上都有針對(duì)的獨(dú)立監(jiān)控產(chǎn)品及技術(shù),如動(dòng)力環(huán)境監(jiān)控系統(tǒng)實(shí)現(xiàn)了電力、制冷、環(huán)境等資源的監(jiān)控。因此,運(yùn)行監(jiān)控平臺(tái)是對(duì)各監(jiān)控系統(tǒng)數(shù)據(jù)的二次集中采集。而這不僅僅是簡(jiǎn)單的集中和搬運(yùn),必須有統(tǒng)一的數(shù)據(jù)源標(biāo)準(zhǔn),包括統(tǒng)一規(guī)范編碼、名稱、數(shù)據(jù)類型、單位精度、更新頻率、儲(chǔ)存要求,舉例如表1所示,從而保證數(shù)據(jù)源的統(tǒng)一、標(biāo)準(zhǔn)、準(zhǔn)確性。
而采集之后的數(shù)據(jù)處理,包括預(yù)處理、結(jié)構(gòu)化、儲(chǔ)存和建模等,關(guān)鍵在于建立全景信息模型,即建立數(shù)據(jù)與數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,并進(jìn)行全景、直觀地展示。它包括以資源為對(duì)象的全景信息建模、以應(yīng)用為對(duì)象的全景信息建模以及以業(yè)務(wù)為對(duì)象的全景信息建模三個(gè)層次,可方便地追蹤到某個(gè)數(shù)據(jù)或某個(gè)業(yè)務(wù)或某個(gè)設(shè)備所有相關(guān)信息,例如針對(duì)完成一筆業(yè)務(wù)交易,可以調(diào)出所有以此相關(guān)的資源信息,包括所屬的應(yīng)用、占用的CPU和內(nèi)存、所消耗的電能和制冷等信息。如此一來,為故障處理、資源利用率評(píng)估、能效評(píng)估以及其他分析和應(yīng)用提供數(shù)據(jù)支撐。
(二)智能管理平臺(tái)
智能管理平臺(tái)在運(yùn)行監(jiān)控平臺(tái)的基礎(chǔ)上,通過構(gòu)建資源、業(yè)務(wù)、應(yīng)用等多種場(chǎng)景化專題視圖,依靠大數(shù)據(jù)分析的手段,融合多種管理職能,實(shí)現(xiàn)所有數(shù)據(jù)中心主動(dòng)管理、精細(xì)化管理和智能管理。實(shí)現(xiàn)智能化、自動(dòng)化管理在于根據(jù)不同的運(yùn)維場(chǎng)景,關(guān)聯(lián)涉及的業(yè)務(wù)、應(yīng)用、各類資源以及ITIL、開發(fā)等其他系統(tǒng),設(shè)置告警、事件等觸發(fā)條件,定義自動(dòng)處置的程序,以實(shí)現(xiàn)特定的運(yùn)維目標(biāo),如圖1所示。
現(xiàn)代數(shù)據(jù)中心特征,使得各類資源沒有明顯的物理界限,運(yùn)維管理另一重要方面就是各類資源管理,實(shí)現(xiàn)業(yè)務(wù)與網(wǎng)絡(luò)、存儲(chǔ)、內(nèi)存、電力等資源的最優(yōu)配置,建立基于多數(shù)據(jù)中心的資源靈活調(diào)度、快速切換機(jī)制,從而提升數(shù)據(jù)中心的安全性,提升整體的運(yùn)行效能。
運(yùn)維管理體現(xiàn)開放、共享原則,它不是固化的,是可自定義的,是智能化與自動(dòng)化的,既體現(xiàn)在運(yùn)維各專業(yè)之間、各技術(shù)人員之間內(nèi)部的共享與互動(dòng),又體現(xiàn)在與客戶、適用對(duì)象等其他相關(guān)人員的信息共享與交互,還體現(xiàn)在設(shè)備與設(shè)備之前、系統(tǒng)與系統(tǒng)之間的自動(dòng)交互。
(三)決策平臺(tái)
決策平臺(tái)位于運(yùn)行監(jiān)控平臺(tái)和智能管理平臺(tái)之上,它采用態(tài)勢(shì)感知和決策支持技術(shù)體系、運(yùn)維KPI體系,采用模型驅(qū)動(dòng)的顯示技術(shù),兼顧傳統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)的用戶界面,為數(shù)據(jù)中運(yùn)行和控制提供快捷的、智能的和自動(dòng)化的任務(wù)導(dǎo)向的界面,提高用戶對(duì)數(shù)據(jù)中心真實(shí)運(yùn)行狀態(tài)的掌握以及對(duì)運(yùn)維決策的支持。決策平臺(tái)框如圖2所示。
智能信息引擎,通過大數(shù)據(jù)分析技術(shù),對(duì)各種智能應(yīng)用數(shù)據(jù)進(jìn)行處理,為運(yùn)行全局和重點(diǎn)的態(tài)勢(shì)感知提供有效的信息。智能任務(wù)引擎起到承上啟下的作用,它按照數(shù)據(jù)中心運(yùn)行狀態(tài)的認(rèn)知規(guī)律, 針對(duì)運(yùn)行特定需求,確定需要執(zhí)行的流程,實(shí)現(xiàn)任務(wù)導(dǎo)向功能。態(tài)勢(shì)感知必須是關(guān)鍵任務(wù)驅(qū)動(dòng)的,保證了用戶根據(jù)數(shù)據(jù)中心運(yùn)行狀態(tài)、環(huán)境狀態(tài)和設(shè)備運(yùn)行狀態(tài)特征,快速進(jìn)行決策行為的選擇。任務(wù)根據(jù)設(shè)定的條件進(jìn)行自動(dòng)觸發(fā);一系列順序觸發(fā)的任務(wù)形成了流程,引導(dǎo)用戶逐步實(shí)現(xiàn)任務(wù),保證數(shù)據(jù)中心安全、優(yōu)質(zhì)、經(jīng)濟(jì)地運(yùn)行。綜合展示界面以全景圖為基礎(chǔ)畫面,展示數(shù)據(jù)中心運(yùn)行的態(tài)勢(shì)感知信息。運(yùn)行操作界面以任務(wù)導(dǎo)向方式輔助進(jìn)行運(yùn)行控制和異常處理。應(yīng)用界面定制根據(jù)運(yùn)行、管理和決策的任務(wù)需求,定制各種專項(xiàng)任務(wù)界面供運(yùn)行、管理和決策人員按照任務(wù)需求單獨(dú)或組合調(diào)用。
運(yùn)維管理模式
運(yùn)維管理系統(tǒng)是結(jié)合運(yùn)維組織管理模式,依靠計(jì)算機(jī)技術(shù),體現(xiàn)運(yùn)維管理思想、方法與經(jīng)驗(yàn),實(shí)現(xiàn)運(yùn)維自動(dòng)化和智能化的手段和工具,從而有效地解放繁復(fù)的日常運(yùn)維工作,有效提高運(yùn)維效率。同時(shí),運(yùn)維管理系統(tǒng)促進(jìn)了運(yùn)維管理模式的轉(zhuǎn)型和發(fā)展,這樣的轉(zhuǎn)型和發(fā)展也是現(xiàn)代數(shù)據(jù)中心管理的需要。
運(yùn)維管理模式經(jīng)歷了分散模式、集中模式、平臺(tái)模式以及自主模式,這是運(yùn)維管理不同發(fā)展的四個(gè)階段,最終的目標(biāo)是實(shí)現(xiàn)運(yùn)維的自主模式。前三種方式正是目前大多數(shù)數(shù)據(jù)中心已經(jīng)經(jīng)歷或正在經(jīng)歷的階段,前文從提及的以專業(yè)劃分運(yùn)維團(tuán)隊(duì),并依靠各運(yùn)維團(tuán)隊(duì)開發(fā)建設(shè)的系統(tǒng)或平臺(tái),也是基本上融合了前三種運(yùn)維方式的特征。而自主運(yùn)維模式是正在探索與研究的方向,是真正實(shí)現(xiàn)主動(dòng)運(yùn)維的有效途徑。它打通了用戶、開發(fā)、運(yùn)維之間繁瑣的流程與界限,提供了針對(duì)不同專業(yè)、不同群體的接口,能夠覆蓋用戶、開發(fā)、運(yùn)維等所有相關(guān)人員的廣泛參與度。
自主運(yùn)維模式對(duì)管理系統(tǒng)要求較高,它要求有開放、統(tǒng)一、標(biāo)準(zhǔn)的平臺(tái)和接口,融入了統(tǒng)一和標(biāo)準(zhǔn)的規(guī)范體系,具有強(qiáng)大的信息引擎、任務(wù)引擎等智能引擎,不需要人為集中推動(dòng),各相關(guān)人員都能夠自主實(shí)現(xiàn)運(yùn)維,比如當(dāng)用戶發(fā)現(xiàn)某一業(yè)務(wù)出現(xiàn)異常,即可在相關(guān)聯(lián)的界面觸發(fā)任務(wù),此時(shí)系統(tǒng)能夠自動(dòng)分析,或通過系統(tǒng)自動(dòng)解決問題,或要求開發(fā)人員接入,或要求運(yùn)維人員更換某一硬件。
現(xiàn)代數(shù)據(jù)中心的運(yùn)維將越來越凸顯技術(shù)和管理的重要性,無論是運(yùn)維管理系統(tǒng)的建設(shè)還是運(yùn)維管理模式探索,都需要加大運(yùn)維研發(fā)資源的投入,依靠技術(shù)手段、依靠運(yùn)維隊(duì)伍轉(zhuǎn)型,持續(xù)改進(jìn)、不斷總結(jié)提升。