姜濤
【摘 要】隨著IT業(yè)務(wù)的不斷發(fā)展,弱電工程對(duì)于網(wǎng)絡(luò)數(shù)據(jù)量的需求大幅提升。使得IT基礎(chǔ)架構(gòu)的管理建設(shè)在弱電工程中占據(jù)越來越重要的位置。本項(xiàng)研究基于從業(yè)務(wù)視角管理IT出發(fā),探尋弱電工程中IT子系統(tǒng)管理的拓展與延伸,為IT子系統(tǒng)的管理探索一種全新的視角。
【關(guān)鍵詞】IT基礎(chǔ)架構(gòu);IT業(yè)務(wù);IT綜合管理
1 弱電工程中IT基礎(chǔ)架構(gòu)管理的現(xiàn)狀
隨著弱電工程信息化的發(fā)展,人們對(duì)IT系統(tǒng)的安全運(yùn)行要求越來越高。IT系統(tǒng)的平穩(wěn)運(yùn)行關(guān)系到弱電工程各個(gè)子系統(tǒng)的正常運(yùn)行。為此,IT系統(tǒng)維護(hù)所需要的人員也越來越多,技術(shù)水平要求也越來越高。這就需要對(duì)IT環(huán)境和運(yùn)行情況進(jìn)行監(jiān)控,將故障解決在萌芽之中。
當(dāng)前弱電行業(yè)在IT子系統(tǒng)管理主要存在以下的難點(diǎn):
(1)無法從業(yè)務(wù)角度發(fā)現(xiàn)IT業(yè)務(wù)的問題
由于IT業(yè)務(wù)的運(yùn)行依賴于諸多IT資源,當(dāng)業(yè)務(wù)出現(xiàn)異常后的逐一排查增加了處理時(shí)間和業(yè)務(wù)中斷造成的損失,降低了運(yùn)維效率。
(2)缺少統(tǒng)一的報(bào)表及分析工具
目前數(shù)據(jù)統(tǒng)計(jì)依賴手動(dòng)的方式,無法實(shí)現(xiàn)自動(dòng)匯聚、抽取、分析數(shù)據(jù)。用戶無法通過報(bào)表進(jìn)行決策分析,管理決策沒有數(shù)據(jù)依據(jù)。
(3)缺乏有效的IT資產(chǎn)管理手段
面對(duì)眾多的IT硬件資產(chǎn),無法準(zhǔn)確、有效的進(jìn)行資產(chǎn)的配置項(xiàng)變更管理。
2 建立IT綜合管理平臺(tái)的探索
通過建立IT綜合業(yè)務(wù)監(jiān)控管理平臺(tái),用ITIL理論及實(shí)踐來指導(dǎo)、規(guī)范和提升弱電工程IT子系統(tǒng)信息化水平,為其建立高效IT監(jiān)控與靈活服務(wù)管理平臺(tái),形成一套規(guī)范的管理體系,解決實(shí)際運(yùn)行維護(hù)問題,實(shí)現(xiàn)精細(xì)化管理,降低運(yùn)營(yíng)成本和操作風(fēng)險(xiǎn),提高工作效率和服務(wù)品質(zhì)。
3 構(gòu)建基于業(yè)務(wù)視角的綜合管理平臺(tái)
3.1 邏輯架構(gòu)設(shè)計(jì)
IT綜合管理平臺(tái)的邏輯架構(gòu)設(shè)計(jì)可分為如下四層:
數(shù)據(jù)采集層:由各種協(xié)議適配器構(gòu)成,向上層提供統(tǒng)一的接口訪問管理協(xié)議棧,獲取管理信息,并在初始發(fā)現(xiàn)時(shí)作為驅(qū)動(dòng)模塊構(gòu)建信息模型。
數(shù)據(jù)匯聚層:統(tǒng)一描述底層數(shù)據(jù),組織管理信息庫。使得各個(gè)業(yè)務(wù)模塊面對(duì)統(tǒng)一的數(shù)據(jù)模型,方便對(duì)資源進(jìn)行權(quán)限管理,使得面向事務(wù)的并發(fā)管理成為可能。
數(shù)據(jù)處理層:專注實(shí)現(xiàn)管理業(yè)務(wù),不關(guān)心底層差異協(xié)議。響應(yīng)前臺(tái)應(yīng)用的請(qǐng)求,完成數(shù)據(jù)查詢,處理等功能。
數(shù)據(jù)展現(xiàn)層:從數(shù)據(jù)處理層得到數(shù)據(jù)在前臺(tái)界面顯示。
利用分布式總線實(shí)現(xiàn)各邏輯層之間的通信。模塊通過內(nèi)部定義數(shù)據(jù)接口,進(jìn)行交互式操作。
3.2 技術(shù)架構(gòu)設(shè)計(jì)
IT綜合監(jiān)控管理平臺(tái)的技術(shù)架構(gòu)擁有以下幾方面的特性:
(1)符合信息行業(yè)標(biāo)準(zhǔn)和規(guī)范,采用層次化、模塊化的設(shè)計(jì),各模塊采用松耦合設(shè)計(jì),可部署于不同的服務(wù)器上;
(2)選用的產(chǎn)品或工具平臺(tái)均是業(yè)界成熟、穩(wěn)定、主流的,對(duì)監(jiān)控對(duì)象的影響達(dá)到最??;
(3)監(jiān)控指標(biāo)、策略均可通過配置界面進(jìn)行增加和調(diào)整,無需修改源程序;
(4)按照統(tǒng)一工作平臺(tái)現(xiàn)有集成規(guī)范與統(tǒng)一工作平臺(tái)進(jìn)行集成,按照運(yùn)維管理系統(tǒng)的集成規(guī)范與其他子系統(tǒng)進(jìn)行整合集成;
(5)用戶界面采用B/S架構(gòu),支持通用的瀏覽器,集成接口良好,支持通用標(biāo)準(zhǔn),支持向大型監(jiān)控顯示屏輸出顯示;
(6)支持國(guó)際標(biāo)準(zhǔn)協(xié)議,如HTTP、JMX、SNMP、JDBC、Telnet、WMI等。
3.3 平臺(tái)集成設(shè)計(jì)
管理邊界應(yīng)為網(wǎng)絡(luò)內(nèi)的所有IT網(wǎng)元元素,通過標(biāo)準(zhǔn)的監(jiān)控協(xié)議及數(shù)據(jù)接口監(jiān)控業(yè)務(wù)系統(tǒng)信息。與其他系統(tǒng)平臺(tái)的數(shù)據(jù)交互將通過數(shù)據(jù)接口及Web Service 的方式實(shí)現(xiàn),監(jiān)控系統(tǒng)在管理邊界上以主動(dòng)推送事件為主。
3.4 平臺(tái)功能設(shè)計(jì)
3.4.1 業(yè)務(wù)健康分析指數(shù)的建立
以關(guān)鍵業(yè)務(wù)為中心,提供圖形化工具,根據(jù)實(shí)際環(huán)境,定義個(gè)性化模型,從業(yè)務(wù)角度對(duì)被監(jiān)測(cè)資源進(jìn)行關(guān)聯(lián)、重組,建立業(yè)務(wù)內(nèi)部關(guān)系模型圖,幫助管理者搭建業(yè)務(wù)卡片視圖,準(zhǔn)確判斷業(yè)務(wù)健康度、繁忙度、層級(jí)和告警等內(nèi)容,客觀評(píng)估業(yè)務(wù)運(yùn)行水平,為管理者提供準(zhǔn)確、有價(jià)值的管理信息。管理者宏觀可掌握業(yè)務(wù)整體運(yùn)行狀況,微觀可查詢底層資源運(yùn)行狀況,提高故障定位準(zhǔn)確性,保障業(yè)務(wù)穩(wěn)定運(yùn)行。
3.4.1.1 構(gòu)建IT健康指數(shù)
該指數(shù)通過關(guān)鍵業(yè)務(wù)系統(tǒng)、關(guān)鍵資源的參數(shù)計(jì)算得來,包括業(yè)務(wù)的連續(xù)運(yùn)行時(shí)間、故障恢復(fù)時(shí)間、告警信息、健康度、繁忙度等信息。綜合反應(yīng)整體IT運(yùn)維狀態(tài),構(gòu)建管理視角,快速定位環(huán)境弱點(diǎn)。
3.4.1.2 關(guān)鍵業(yè)務(wù)的健康度管理
指標(biāo)由IT資源實(shí)時(shí)采集而得,包含業(yè)務(wù)系統(tǒng)可用性和性能狀態(tài)指標(biāo),記錄每天不同時(shí)間段的健康度指標(biāo),形成平均值,通過K線圖顯示
業(yè)務(wù)健康度監(jiān)控指標(biāo)項(xiàng)包含有:
(1)IT資源的連通性
(2)URL服務(wù)的狀態(tài)、響應(yīng)時(shí)間、響應(yīng)結(jié)果正確性
(3)數(shù)據(jù)庫的狀態(tài)、響應(yīng)時(shí)間、響應(yīng)結(jié)果正確性
3.4.1.3 關(guān)鍵業(yè)務(wù)監(jiān)控
使用360度雷達(dá)掃描視圖,及時(shí)發(fā)現(xiàn)并了解關(guān)鍵業(yè)務(wù)的薄弱環(huán)節(jié)、運(yùn)行狀況,并同步顯示到業(yè)務(wù)健康分析視圖之上,方便管理人員了解業(yè)務(wù)狀況,提前預(yù)知故障,及時(shí)采取措施。
3.4.1.4 關(guān)鍵業(yè)務(wù)建模
通過點(diǎn)擊進(jìn)入告警控制臺(tái),實(shí)時(shí)呈現(xiàn)所有的網(wǎng)絡(luò)、系統(tǒng)、應(yīng)用、安全等告警信息,包含告警的時(shí)間、告警源、告警次數(shù)、告警類型、告警描述等,支持運(yùn)維知識(shí)庫的創(chuàng)建和修改。并支持直接通過告警信息關(guān)聯(lián)到IT資源的詳細(xì)信息監(jiān)測(cè)頁面。
3.4.1.5 關(guān)鍵業(yè)務(wù)的繁忙度
綜合管理平臺(tái)可以就業(yè)務(wù)繁忙程度進(jìn)行建模管理,提供相應(yīng)監(jiān)控指標(biāo),支持查看歷史性繁忙度數(shù)據(jù)、對(duì)繁忙度指標(biāo)進(jìn)行權(quán)重比調(diào)整。endprint
3.4.1.6 關(guān)鍵業(yè)務(wù)的SLA指標(biāo)建立
對(duì)業(yè)務(wù)系統(tǒng)的SLA指標(biāo)進(jìn)行考核需要重點(diǎn)考慮各資源間的權(quán)重比關(guān)系,通過選擇重要資源,用權(quán)重比計(jì)算方式,計(jì)算業(yè)務(wù)系統(tǒng)的健康度和繁忙度等指標(biāo)。
3.4.2 綜合資源管理
弱電工程有大量資源,因此平臺(tái)要自動(dòng)發(fā)現(xiàn)全網(wǎng)網(wǎng)絡(luò)設(shè)備,其次發(fā)現(xiàn)網(wǎng)絡(luò)中的安全設(shè)備,服務(wù)器,應(yīng)用軟件及機(jī)房環(huán)境等,并能自動(dòng)計(jì)算出設(shè)備之間的線路連接關(guān)系。通過網(wǎng)絡(luò)拓?fù)?,提供?zhǔn)確數(shù)據(jù),完成網(wǎng)絡(luò)管理。
3.4.2.1 資源的自動(dòng)發(fā)現(xiàn)
平臺(tái)應(yīng)全面支持SNMP 協(xié)議,能根據(jù)網(wǎng)絡(luò)規(guī)模、協(xié)議應(yīng)用情況,有針對(duì)性的配置發(fā)現(xiàn)協(xié)議、并發(fā)進(jìn)程、管理域和區(qū)域、屏蔽設(shè)備和網(wǎng)段等參數(shù)信息。
通過向?qū)酵負(fù)滟Y源發(fā)現(xiàn)功能,使用戶能夠快速了解平臺(tái)自動(dòng)發(fā)現(xiàn)的各類設(shè)備的統(tǒng)計(jì)信息,實(shí)時(shí)觀測(cè)進(jìn)程,掌握發(fā)現(xiàn)情況,減少管理復(fù)雜程度。
3.4.2.2 網(wǎng)絡(luò)故障監(jiān)控
平臺(tái)應(yīng)根據(jù)預(yù)先設(shè)定的參數(shù),跟蹤網(wǎng)絡(luò)拓?fù)涞淖兓?,?dāng)網(wǎng)絡(luò)發(fā)生故障或拓?fù)浒l(fā)生變化時(shí)可迅速通過前臺(tái)拓?fù)浞从常烧宫F(xiàn)設(shè)備故障、鏈路故障、網(wǎng)絡(luò)協(xié)議故障事件等。通過節(jié)點(diǎn)告警將故障進(jìn)行展現(xiàn),顯示在統(tǒng)一告警控制臺(tái)中。根據(jù)報(bào)警事件的重要級(jí)別、優(yōu)先級(jí)等信息,可以直觀、快速地了解報(bào)警事件的緊要性??稍O(shè)定報(bào)警過濾器和排列順序,重點(diǎn)關(guān)注重要的網(wǎng)絡(luò)報(bào)警事件。系統(tǒng)支持通過聲音、郵件、短信等方式提示及時(shí)告警,為用戶發(fā)現(xiàn)和處理事件提供數(shù)據(jù)信息支持。
3.4.2.3 網(wǎng)絡(luò)資源性能監(jiān)控
平臺(tái)實(shí)時(shí)監(jiān)測(cè)網(wǎng)絡(luò)設(shè)備、服務(wù)器的端口流量、丟包率、Ping延時(shí)、CPU利用率等運(yùn)行參數(shù),超過預(yù)設(shè)閥值時(shí)能在拓?fù)鋱D上據(jù)定義閥值以不同顏色、粗細(xì)顯示線路運(yùn)行狀態(tài),當(dāng)鏈路出現(xiàn)異常自動(dòng)告警。并提供歷史數(shù)據(jù)統(tǒng)計(jì)分析。
3.4.2.4 主機(jī)操作系統(tǒng)管理
平臺(tái)可實(shí)現(xiàn)對(duì)Windows、IBM AIX、Linux、等各種操作系統(tǒng)的主機(jī)的關(guān)鍵資源的自動(dòng)監(jiān)控,幫助管理員及時(shí)發(fā)現(xiàn)故障和故障隱患。
3.4.2.5 應(yīng)用監(jiān)控管理
系統(tǒng)能監(jiān)控Oracle、SQL Server、J2EE、JBOSS、Mysql、DB2等應(yīng)用,按照屬性分為數(shù)據(jù)庫工作狀態(tài)、表空間的利用情況、數(shù)據(jù)文件和數(shù)據(jù)設(shè)備的讀寫命中率等??芍苯邮褂孟嚓P(guān)的監(jiān)控參數(shù)和項(xiàng)目,也可支持自定義。
3.4.2.6 機(jī)房動(dòng)力環(huán)境
平臺(tái)能集動(dòng)力環(huán)境設(shè)備監(jiān)控、安防報(bào)警系統(tǒng)、網(wǎng)絡(luò)監(jiān)控系統(tǒng)于統(tǒng)一的平臺(tái)??蓪?shí)現(xiàn)安防報(bào)警、供配電、UPS、空調(diào)、溫濕度監(jiān)測(cè)等子系統(tǒng)的統(tǒng)一監(jiān)控,提高系統(tǒng)可靠性,減輕用戶工作負(fù)擔(dān)。
3.4.3 故障及告警事件處理
平臺(tái)在事件發(fā)生時(shí)通過事件過濾、壓縮和根因分析等方式幫助管理人員定位故障,向相關(guān)人員發(fā)送報(bào)警,及時(shí)處理問題,提高工作效率。建立綜合告警通知機(jī)制,例如短信、郵件、移動(dòng)終端、桌面即時(shí)通訊工具等;
4 構(gòu)建綜合監(jiān)控管理平臺(tái)的顯示意義
4.1 管理效益分析
從管理效益分析:
(1)減少系統(tǒng)事故發(fā)生,降低事故造成的影響和損失。
(2)通過管理工具及時(shí)獲悉資源狀態(tài),處理潛在問題,提高工作效益。
(3)建立IT資源與業(yè)務(wù)的關(guān)系,提升項(xiàng)目的影響度。
(4)通過IT服務(wù)管理保障體系的建立實(shí)施,規(guī)范和評(píng)估第三方維護(hù)公司的工作質(zhì)量。
4.2 經(jīng)濟(jì)效益分析
從經(jīng)濟(jì)效益分析:
(1)全面、及時(shí)發(fā)現(xiàn)問題,針對(duì)信息系統(tǒng)具體情況,制定相關(guān)解決方案,保證系統(tǒng)平穩(wěn)運(yùn)行,減少投資成本。
(2)使運(yùn)維人員的時(shí)間和精力放在解決技術(shù)問題上,利用知識(shí)庫降低人員變動(dòng)風(fēng)險(xiǎn),減少聘請(qǐng)專業(yè)人員開支。
(3)降低事故發(fā)生的次數(shù)、減少不利影響帶來的損失,提高系統(tǒng)可用性、可靠性、運(yùn)行效率,帶來間接的經(jīng)濟(jì)效益。
【參考文獻(xiàn)】
[1](荷)博恩.基于ITIL的IT服務(wù)管理基礎(chǔ)篇.北京,清華大學(xué)出版社,2007.
[2](南非)布魯克斯.IT服務(wù)管理指標(biāo).北京,清華大學(xué)出版社,2008.
[3]黎連業(yè).智能建筑弱電工程設(shè)計(jì)與實(shí)施.北京,中國(guó)電力出版社,2006.endprint