● 國網(wǎng)湖南省電力有限公司信息通信分公司 童一維 陳中偉
南瑞集團(tuán)(國網(wǎng)電力科學(xué)研究院)有限公司 盛紅雷
隨著國家電網(wǎng)公司信息化建設(shè)的不斷深入,信息系統(tǒng)已經(jīng)融入到電力公司生產(chǎn)經(jīng)營的各個(gè)層面,信息化逐漸成為生產(chǎn)經(jīng)營不可或缺的重要組成部分,也是保障電力公司安全生產(chǎn)的重要環(huán)節(jié)。
營銷系統(tǒng)是湖南省電力有限公司信息化的核心業(yè)務(wù)應(yīng)用系統(tǒng),直接面向社會(huì)公眾。系統(tǒng)于2009年上線,電力客戶繳費(fèi)、客戶信息查詢、抄表計(jì)費(fèi)等核心業(yè)務(wù)均在營銷系統(tǒng)中開展,營銷系統(tǒng)的安全、穩(wěn)定運(yùn)行成為了電力公司為電力客戶提供優(yōu)質(zhì)服務(wù)的關(guān)鍵。自營銷系統(tǒng)上線以來,業(yè)務(wù)規(guī)模不斷擴(kuò)大,用戶量從450萬增加到2400萬,接口從8個(gè)增加到29個(gè),核心業(yè)務(wù)功能增加了35個(gè),系統(tǒng)架構(gòu)愈加復(fù)雜。
在這種情況下,一旦營銷系統(tǒng)發(fā)生故障,信息系統(tǒng)運(yùn)維人員往往只能根據(jù)經(jīng)驗(yàn)對(duì)數(shù)量眾多的營銷系統(tǒng)組件(服務(wù)器、數(shù)據(jù)庫、中間件等)進(jìn)行逐一排查,很難快速定位到故障點(diǎn),導(dǎo)致故障恢復(fù)時(shí)間長、故障影響范圍擴(kuò)大,直接影響營銷系統(tǒng)為客戶提供優(yōu)質(zhì)的服務(wù)。
如何通過監(jiān)控后臺(tái)及時(shí)、準(zhǔn)確地發(fā)現(xiàn)營銷系統(tǒng)的故障,成為了擺在運(yùn)維人員面前的一個(gè)課題。
監(jiān)控系統(tǒng)使用的多是監(jiān)控主流信息設(shè)備,如服務(wù)器、數(shù)據(jù)庫、中間件、網(wǎng)絡(luò)設(shè)備等,隨著公司信息化工作不斷深入,信息設(shè)備類型越來越多樣化,這就需要將生產(chǎn)環(huán)境中的各類設(shè)備均納入監(jiān)控,減少人工巡視工作量。
同時(shí),傳統(tǒng)的物理設(shè)備/節(jié)點(diǎn)監(jiān)控有時(shí)無法完全、真實(shí)地反應(yīng)信息系統(tǒng)的實(shí)際運(yùn)行狀況。營銷系統(tǒng)業(yè)務(wù)功能的響應(yīng)快慢,與用戶的體驗(yàn)感息息相關(guān),直接影響到營銷優(yōu)質(zhì)服務(wù)的開展,因此,必須要實(shí)時(shí)獲取營銷系統(tǒng)業(yè)務(wù)流程的完整性能情況。
傳統(tǒng)的監(jiān)控軟件多是關(guān)注監(jiān)控信息設(shè)備/節(jié)點(diǎn)的幾個(gè)主流指標(biāo),如服務(wù)器的CPU利用率、內(nèi)存利用率等,實(shí)質(zhì)上每一類型信息設(shè)備/節(jié)點(diǎn)均含有豐富的運(yùn)行指標(biāo)來反應(yīng)其運(yùn)行狀況,需要將其他的運(yùn)行指標(biāo)進(jìn)行綜合評(píng)估分析與納控。
信息系統(tǒng)監(jiān)控其中一個(gè)重要作用就是需要發(fā)出合適的告警信息。傳統(tǒng)的告警配置多是根據(jù)行業(yè)推薦值進(jìn)行告警等級(jí)分類與對(duì)應(yīng)的閾值設(shè)定,不一定適合每個(gè)信息系統(tǒng)的實(shí)際生產(chǎn)監(jiān)控需要,因此,需對(duì)每個(gè)監(jiān)控指標(biāo)的告警閾值進(jìn)行合理分析與調(diào)整,以便更精確地反映系統(tǒng)運(yùn)行情況。此外,一個(gè)告警事件的發(fā)生可能會(huì)影響到多個(gè)信息設(shè)備/節(jié)點(diǎn)的正常運(yùn)行,產(chǎn)生多條告警信息,因此需根據(jù)一定的規(guī)則對(duì)告警進(jìn)行壓制合并,輔助提供告警源信息,并協(xié)助進(jìn)行告警根源分析。
由于信息設(shè)備類型眾多,通常是利用多種監(jiān)控采集軟件或者其他手段對(duì)相關(guān)運(yùn)行指標(biāo)進(jìn)行采集,這些數(shù)據(jù)分散于各個(gè)監(jiān)控采集軟件中。為了方便運(yùn)維人員與運(yùn)行值班人員從整體上掌握系統(tǒng)運(yùn)行情況,需要構(gòu)建統(tǒng)一的告警展示平臺(tái),集中展現(xiàn)采集到的各類告警信息與指標(biāo)性能變化情況。
傳統(tǒng)的監(jiān)控往往只能顯示零散的監(jiān)控信息,無法從信息系統(tǒng)的整體角度直觀顯示其運(yùn)行情況,而在信息運(yùn)維過程中,需要能夠直觀展示信息系統(tǒng)相關(guān)的業(yè)務(wù)流程、應(yīng)用程序、軟硬件平臺(tái)和基礎(chǔ)架構(gòu)等之間的關(guān)聯(lián)關(guān)系,從整體角度展示系統(tǒng)相關(guān)的各設(shè)備/節(jié)點(diǎn)的運(yùn)行情況與告警信息,精確定位故障點(diǎn),并在第一時(shí)間通知運(yùn)維人員及運(yùn)行值班人員,實(shí)現(xiàn)故障的及時(shí)響應(yīng)、快速修復(fù)。
隨著新技術(shù)在實(shí)際生產(chǎn)中的不斷應(yīng)用,信息設(shè)備類型越來越多樣化,在湖南省電力有限公司營銷系統(tǒng)中,除了常用的Linux操作系統(tǒng)、Oracle數(shù)據(jù)庫、WebLogic中間件、存儲(chǔ)設(shè)備等軟硬件設(shè)備外,還使用了InfiniteBand卡、閃存卡、SSD盤、Oracle Active DataGuard等關(guān)鍵新技術(shù)/設(shè)備。
通過監(jiān)控系統(tǒng)的部署、研究與實(shí)施,已經(jīng)將這些新技術(shù)/設(shè)備納入了監(jiān)控,填補(bǔ)了公司在此類新設(shè)備監(jiān)控方面的空白,實(shí)現(xiàn)了營銷系統(tǒng)軟硬件平臺(tái)監(jiān)控的全覆蓋。
針對(duì)營銷系統(tǒng)中各種不同類型的設(shè)備,首先根據(jù)經(jīng)驗(yàn)設(shè)置監(jiān)控指標(biāo)和告警閾值,在實(shí)際監(jiān)控過程中,根據(jù)運(yùn)行以及告警情況,持續(xù)對(duì)監(jiān)控指標(biāo)和告警閾值進(jìn)行調(diào)整、優(yōu)化,使得告警閾值趨于合理。構(gòu)建監(jiān)控指標(biāo)體系,使監(jiān)控納管工作有章可循,監(jiān)控采集指標(biāo)更有針對(duì)性,更準(zhǔn)確地反映信息系統(tǒng)與設(shè)備的運(yùn)行狀況,告警信息更準(zhǔn)確,最大限度避免不必要的告警對(duì)正常運(yùn)維、監(jiān)控工作造成干擾。
通過與短信平臺(tái)、郵件系統(tǒng)的集成,將告警信息通過短信、郵件等方式實(shí)時(shí)地通知給相關(guān)工作人員,提高告警信息處理的及時(shí)性。
經(jīng)過調(diào)研溝通,選取營銷系統(tǒng)的“抄表算費(fèi)”“客戶查詢”這2個(gè)與客戶服務(wù)密切相關(guān)的核心業(yè)務(wù)流程。采用自動(dòng)撥測(cè)技術(shù),模擬用戶每5分鐘登錄營銷系統(tǒng),執(zhí)行這2個(gè)業(yè)務(wù)流程。
對(duì)這2個(gè)流程中共計(jì)12個(gè)流程節(jié)點(diǎn)(如營銷系統(tǒng)登錄、電量電費(fèi)計(jì)算等)的響應(yīng)時(shí)間進(jìn)行了實(shí)時(shí)監(jiān)測(cè)。同時(shí),定期對(duì)抄表用戶數(shù)、待處理任務(wù)數(shù)等28個(gè)反映營銷系統(tǒng)業(yè)務(wù)量的業(yè)務(wù)指標(biāo)也進(jìn)行統(tǒng)計(jì)和計(jì)算。
通過采集業(yè)務(wù)流程執(zhí)行狀態(tài)及響應(yīng)時(shí)間,實(shí)時(shí)獲取了營銷系統(tǒng)用戶體驗(yàn)的第一手?jǐn)?shù)據(jù),即時(shí)發(fā)現(xiàn)營銷系統(tǒng)性能的薄弱點(diǎn)。
根據(jù)業(yè)務(wù)流程響應(yīng)時(shí)間以及業(yè)務(wù)指標(biāo)量的變化趨勢(shì),分析營銷系統(tǒng)業(yè)務(wù)高峰期,分析用戶操作數(shù)量和系統(tǒng)吞吐量,協(xié)助對(duì)應(yīng)用系統(tǒng)承載能力進(jìn)行評(píng)估,助力系統(tǒng)的容量管理。
利用Obashi方法論,對(duì)營銷系統(tǒng)的系統(tǒng)架構(gòu)進(jìn)行梳理,從業(yè)務(wù)模塊、業(yè)務(wù)環(huán)節(jié)、業(yè)務(wù)數(shù)據(jù),到相應(yīng)的應(yīng)用、硬件設(shè)備、數(shù)據(jù)庫、中間件等軟硬件平臺(tái),建立起邏輯架構(gòu)關(guān)系,建立面向業(yè)務(wù)可視化監(jiān)控的分層模型并定義各層的管理對(duì)象,形成分層監(jiān)控視圖模型,如圖1所示。
圖1 營銷系統(tǒng)分層監(jiān)控視圖模型
結(jié)合生產(chǎn)實(shí)際,營銷系統(tǒng)分層監(jiān)控模型包括應(yīng)用系統(tǒng)層、業(yè)務(wù)功能層、軟件平臺(tái)層、硬件平臺(tái)層這4個(gè)層級(jí)。
監(jiān)控信息的統(tǒng)一、分層展示是監(jiān)控平臺(tái)的一個(gè)重要特性,通過采用動(dòng)態(tài)圖形、靈活定制監(jiān)控對(duì)象以及與動(dòng)態(tài)告警提示的結(jié)合,實(shí)時(shí)展現(xiàn)被監(jiān)控資源的關(guān)鍵性能指標(biāo)與信息指標(biāo),幫助用戶克服信息盲視,更加輕松有效地管理日益增多的信息資源。
數(shù)據(jù)展示接受來自數(shù)據(jù)處理實(shí)時(shí)推送過來的數(shù)據(jù),并及時(shí)地反饋到互動(dòng)視圖當(dāng)中,用戶不用頻繁的設(shè)定和等待查詢,提高了系統(tǒng)界面的互動(dòng)性和信息的準(zhǔn)確性、及時(shí)性。
可視化展示根據(jù)不同的數(shù)據(jù)維度導(dǎo)航并展示不同的信息,劃分為多個(gè)層次,包括應(yīng)用系統(tǒng)層、應(yīng)用服務(wù)層、系統(tǒng)服務(wù)層、物理平臺(tái)層。
(1)應(yīng)用系統(tǒng)層:分層展示營銷系統(tǒng)的軟硬件平臺(tái)、業(yè)務(wù)應(yīng)用等組件及其運(yùn)行情況。
(2)業(yè)務(wù)功能層:可視化展示營銷系統(tǒng)關(guān)鍵業(yè)務(wù)功能的辦理流程。點(diǎn)擊流程的每個(gè)節(jié)點(diǎn),可以展示該節(jié)點(diǎn)的響應(yīng)時(shí)長及業(yè)務(wù)辦理量。
(3)軟件平臺(tái)層:展示支撐營銷系統(tǒng)運(yùn)行的中間件、數(shù)據(jù)庫等軟件的運(yùn)行情況,按照其所支撐的業(yè)務(wù)功能,對(duì)軟件平臺(tái)進(jìn)行分組。點(diǎn)擊每個(gè)節(jié)點(diǎn),可詳細(xì)查看中間件節(jié)點(diǎn)、數(shù)據(jù)庫服務(wù)具體的性能指標(biāo)和告警信息。
(4)硬件平臺(tái)層:展示支撐營銷系統(tǒng)運(yùn)行的的主機(jī)、網(wǎng)絡(luò)設(shè)備的運(yùn)行情況,以及主機(jī)與網(wǎng)絡(luò)設(shè)備的關(guān)聯(lián)關(guān)系。點(diǎn)擊每臺(tái)設(shè)備,可詳細(xì)查看該主機(jī)、網(wǎng)絡(luò)設(shè)備性能指標(biāo)和告警信息。
一旦營銷系統(tǒng)發(fā)生故障或者異常,在統(tǒng)一展現(xiàn)平臺(tái)會(huì)實(shí)時(shí)彈出告警信息,相關(guān)異常點(diǎn)在可視化視圖中會(huì)出現(xiàn)紅燈閃爍,準(zhǔn)確定位故障源,便于快速修復(fù)故障。
通過對(duì)軟硬件平臺(tái)全面納控,開展業(yè)務(wù)功能監(jiān)控,實(shí)現(xiàn)了對(duì)營銷系統(tǒng)的全方位精準(zhǔn)監(jiān)控。構(gòu)建起營銷系統(tǒng)全局監(jiān)控視圖,實(shí)現(xiàn)營銷系統(tǒng)監(jiān)控一張圖,提供了一雙監(jiān)視營銷系統(tǒng)運(yùn)行和應(yīng)用狀況的“火眼金睛”。采用短信、郵件等多種方式將告警信息實(shí)時(shí)通知到相關(guān)人員,有效提升了故障處理效率,營銷系統(tǒng)故障平均處理時(shí)長縮短了75%。一方面節(jié)省了運(yùn)維人員的人力資源,另一方面,營銷系統(tǒng)故障處理效率提高,用戶體驗(yàn)好感提升。
該方法現(xiàn)已推廣到了國網(wǎng)湖南省電力有限公司的全部信息系統(tǒng)。下一步,提高系統(tǒng)監(jiān)控、告警的自動(dòng)化程度,將是深化應(yīng)用的努力方向。