文/顏培志 王鋼 楊海東
編者按:本刊從本期開始連載中國高校信息化創(chuàng)新應(yīng)用案例,這些案例來自于高教學(xué)會(huì)教育信息化分會(huì)組織編著的《高等教育信息化創(chuàng)新應(yīng)用案例選編》一書。全書一共28篇,將分期刊載。這些案例內(nèi)容涵蓋高校教育教學(xué)與科研支撐、校務(wù)管理與信息服務(wù)、基礎(chǔ)設(shè)施與運(yùn)維服務(wù)、信息化建設(shè)與運(yùn)營服務(wù)模式創(chuàng)新等諸多方面,旨在為當(dāng)前高校信息化發(fā)展提供一些可以借鑒和參考的模式。本期刊載內(nèi)蒙古工業(yè)大學(xué)、華東師范大學(xué)以及香港理工大學(xué)的案例。該案例集一書在近期由清華大學(xué)出版社出版發(fā)行。
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展,網(wǎng)絡(luò)的接入用戶數(shù)量在爆炸式增長,以學(xué)校實(shí)際情況為例,開通用戶數(shù)已近3萬人,白天平均在線人數(shù)多達(dá)1萬人。面對(duì)這樣一個(gè)龐大的用戶群體,網(wǎng)絡(luò)的管理維護(hù)人員所背負(fù)的工作壓力越來越大。這時(shí)再依靠個(gè)人經(jīng)驗(yàn)的傳統(tǒng)方式來進(jìn)行基礎(chǔ)網(wǎng)絡(luò)服務(wù)工作將面臨巨大問題,這不僅浪費(fèi)寶貴的人力資源,而且效率也是非常低下。因此需要一套規(guī)范高效的IT運(yùn)維服務(wù)管理方法,再配合以準(zhǔn)確全面的解決方案知識(shí)庫,才會(huì)大大降低運(yùn)維人員的工作壓力,使工作變得從容有序。基于這樣的需求,我們組織并實(shí)施了基于ITIL和特征知識(shí)庫的校園IT綜合運(yùn)維服務(wù)系統(tǒng)的研發(fā)工作。
校園IT綜合運(yùn)維服務(wù)系統(tǒng)的目標(biāo)是建設(shè)一套符合ITIL管理理念的網(wǎng)絡(luò)中心業(yè)務(wù)服務(wù)管理信息系統(tǒng),它能夠針對(duì)用戶遇到的網(wǎng)絡(luò)問題,與現(xiàn)有網(wǎng)絡(luò)管理系統(tǒng)相結(jié)合,實(shí)現(xiàn)網(wǎng)絡(luò)設(shè)備運(yùn)行數(shù)據(jù)獲取,提供問題解決方案,以幫助運(yùn)維管理人員快速準(zhǔn)確地找到故障原因,并為用戶進(jìn)行解答。系統(tǒng)要降低故障診斷的專業(yè)性和難度,使網(wǎng)絡(luò)運(yùn)維工作人人能上手,人人愿出力。同時(shí),通過事件流程的監(jiān)督提醒機(jī)制,縮短事件處理的時(shí)間,促進(jìn)網(wǎng)絡(luò)中心服務(wù)承諾制度的落實(shí)。
最佳距離度量算法
在IT運(yùn)維中,某個(gè)故障都有區(qū)別于其他故障的明顯特征,且有可能是多個(gè)特征。對(duì)于這些明顯特征,我們稱之為基本特征,是線性無關(guān)的。為了計(jì)算故障和解決方案的相似度,首先建立度量空間,將故障的每個(gè)基本特征定義為空間的一維,則整個(gè)空間的維數(shù)為我們?nèi)粘w納出的基本特征的個(gè)數(shù),每個(gè)故障由其所表現(xiàn)的特征的坐標(biāo)來表示。那么實(shí)際中的一個(gè)故障(即一個(gè)問題Problem)可定義為Pi,它由一些基本特征唯一確定,在度量空間中的坐標(biāo)為(X1,X2, Xn)其中n為基本特征總數(shù)。同時(shí),將解決方案(也即知識(shí)稱為Solution)定義為Sj,同理也由基本特征惟一確定。再將Pj定義為Sj對(duì)應(yīng)的故障,且假定Pj與Sj之間的映射為雙射,即一一對(duì)應(yīng)。將基本特征作為空間的基,將Sj、Pj用其坐標(biāo)與空間基的乘積表示,那么求解可能解決問題的Pi解決方案的集合{Sj}的過程就可以歸結(jié)為求解問題空間中與點(diǎn)Pi比較接近的點(diǎn)的集合的過程,這些點(diǎn)可以是已有的解決方案或已經(jīng)解決過的問題。
例如,校園網(wǎng)用戶電話報(bào)修,稱其網(wǎng)卡燈亮,但上不去網(wǎng)。窗口服務(wù)人員利用網(wǎng)絡(luò)故障特征檢測輔助程序?qū)ζ渌诘慕粨Q機(jī)進(jìn)行檢測,檢測到交換機(jī)可以PING通,但用戶端口環(huán)路。這其中,網(wǎng)卡燈不亮、交換機(jī)可PING通、端口環(huán)路都是基本特征,那么這三個(gè)特征即可表達(dá)為空間三個(gè)基向量產(chǎn)生的點(diǎn)P(1, ,0,1, ,0,1),通過度量算法找到與P點(diǎn)距離最近的方案,就定位到了一個(gè)最佳的解決方案。在特征知識(shí)庫中,由網(wǎng)絡(luò)工程師事先定義了環(huán)路問題的解決方案,它與點(diǎn)P的距離最近,由此,不了解技術(shù)細(xì)節(jié)的服務(wù)人員就可以將這個(gè)最可能的解決方案提供給用戶。
圖1 系統(tǒng)架構(gòu)
故障特征庫
根據(jù)學(xué)校校園網(wǎng)的實(shí)際組成結(jié)構(gòu)和運(yùn)行狀況,常見故障問題一般都有相對(duì)固定的現(xiàn)象。在本次項(xiàng)目中,運(yùn)維管理人員對(duì)這些現(xiàn)象特征做了詳細(xì)的總結(jié)和分類,形成了故障基本特征分類統(tǒng)計(jì)表。在表中又對(duì)不同分類級(jí)別的特征規(guī)定了一個(gè)數(shù)據(jù)庫內(nèi)的特征編號(hào),由此形成特征分類數(shù)據(jù)庫。應(yīng)用程序采用樹形結(jié)構(gòu)展現(xiàn)特征分類數(shù)據(jù)庫,供窗口服務(wù)人員選擇相應(yīng)的故障特征。當(dāng)分類級(jí)別最低的特征被選定時(shí),其特征編號(hào)以及父分類的特征編號(hào)同時(shí)被取出,這些編號(hào)組合在一起就產(chǎn)生了本次選擇的特征向量值,進(jìn)而在知識(shí)庫中選出與本向量值相匹配的知識(shí)庫條目。
當(dāng)知識(shí)庫中未找到與特征向量相匹配的內(nèi)容條目時(shí),就說明知識(shí)庫中缺少針對(duì)這種特征的解決方案,此時(shí)事件將轉(zhuǎn)交到后臺(tái)工程師來處理。后臺(tái)工程師對(duì)事件進(jìn)行跟進(jìn)解決時(shí),必須對(duì)缺少的知識(shí)庫內(nèi)容進(jìn)行填寫,后臺(tái)程序把填寫的內(nèi)容與本事件的特征向量值對(duì)應(yīng)起來并保存到知識(shí)庫中,這樣就形成了知識(shí)庫的積累、更新功能。
建設(shè)過程
系統(tǒng)的建設(shè)過程大致分為需求調(diào)研分析、系統(tǒng)設(shè)計(jì)、編碼實(shí)現(xiàn)、測試等幾個(gè)階段,總共歷時(shí)1年。系統(tǒng)建設(shè)工作由網(wǎng)絡(luò)中心主任牽頭,工作團(tuán)隊(duì)包括網(wǎng)絡(luò)中心的信息系統(tǒng)管理部、網(wǎng)絡(luò)運(yùn)行服務(wù)部、校園卡服務(wù)中心等科室的多名一、二線技術(shù)人員。在建設(shè)過程前期的需求調(diào)研分析階段,多次召開項(xiàng)目實(shí)施協(xié)調(diào)會(huì),集中討論系統(tǒng)建設(shè)的目標(biāo)、使用需求、技術(shù)路線等重要問題。在系統(tǒng)設(shè)計(jì)工作完成后,所有參與人員共同討論,論證系統(tǒng)的各部分流程、各種模型的可行性,為編碼實(shí)現(xiàn)工作奠定了良好的基礎(chǔ)。
架構(gòu)設(shè)計(jì)
如圖1所示,本系統(tǒng)先從原有用戶認(rèn)證計(jì)費(fèi)系統(tǒng)和網(wǎng)絡(luò)監(jiān)控管理系統(tǒng)中抽取原始數(shù)據(jù),結(jié)合eService系統(tǒng)數(shù)據(jù)如解決方案知識(shí)庫等,來完成服務(wù)臺(tái)流程。同時(shí),服務(wù)臺(tái)還可以延伸為自助服務(wù)模式,通過網(wǎng)站、自助終端、短信及語音網(wǎng)關(guān)等方式通過eService系統(tǒng)的WebService接口來獲取用戶所需要的信息。
知識(shí)庫建設(shè)
系統(tǒng)初期的知識(shí)庫建設(shè)工作主要由網(wǎng)絡(luò)中心各科室的主要技術(shù)負(fù)責(zé)人來完成。他們先后查閱了兩年所積累的近1000份紙質(zhì)工單記錄,歸納出70多項(xiàng)現(xiàn)象特征,并有針對(duì)性地撰寫出圖文并茂的解決方案。
系統(tǒng)于2013年初上線至今,經(jīng)過幾次優(yōu)化調(diào)整,現(xiàn)已平穩(wěn)運(yùn)行,全面支撐起了網(wǎng)絡(luò)中心的網(wǎng)絡(luò)運(yùn)維業(yè)務(wù)。
工作中前臺(tái)工程師為一線支持服務(wù)人員,在固定時(shí)間、固定地點(diǎn)接待用戶上門或電話求助,受理用戶申請(qǐng)辦理的業(yè)務(wù),對(duì)網(wǎng)絡(luò)故障的求助提供初步的技術(shù)支持。當(dāng)問題無法在前臺(tái)解決時(shí),可轉(zhuǎn)交至后臺(tái)工程師。前臺(tái)工程師僅可以看到本人提交添加的事件,包括轉(zhuǎn)交給其他角色的事件,并可以看到此事件的狀態(tài)。當(dāng)轉(zhuǎn)交出去的事件長時(shí)間沒有關(guān)閉時(shí),需催促轉(zhuǎn)交的后臺(tái)工程師盡快處理事件。
后臺(tái)工程師為二線支持管理人員,擁有較深的專業(yè)技術(shù)知識(shí)和處理問題的能力,熟悉信息系統(tǒng)和校園網(wǎng),處理由前臺(tái)工程師轉(zhuǎn)交過來的事件,對(duì)大面積網(wǎng)絡(luò)或系統(tǒng)故障進(jìn)行調(diào)查處理,并根據(jù)需要生成片區(qū)故障信息。接到前臺(tái)工程師轉(zhuǎn)交的事件,應(yīng)該立即對(duì)問題進(jìn)行診斷,當(dāng)無法在遠(yuǎn)程調(diào)試解決或診斷為現(xiàn)場硬件故障時(shí),需把事件進(jìn)一步生成工單,安排現(xiàn)場工程師赴現(xiàn)場處理。
現(xiàn)場工程師為現(xiàn)場服務(wù)支持人員,熟練掌握現(xiàn)場維修服務(wù)需要的各項(xiàng)技能,完成后臺(tái)工程師指派的維修工單,并在工單成功處理完成以后關(guān)閉工單。
清晰的一線、二線、現(xiàn)場工程師工作角色及工作流程,配合故障自動(dòng)分析判斷功能,使系統(tǒng)在網(wǎng)絡(luò)中心面向用戶的服務(wù)中發(fā)揮了重要的作用。在受理的事件中,由前臺(tái)工程師受理直接解決的簡單重復(fù)性問題超過50%,不必再轉(zhuǎn)交給后臺(tái)工程師,很大程度上緩解了后臺(tái)工程師的工作壓力,也提高了用戶服務(wù)體驗(yàn)度。
校園IT綜合運(yùn)維服務(wù)系統(tǒng)將傳統(tǒng)方式的校園IT綜合運(yùn)維服務(wù)用遵循ITIL框架的管理系統(tǒng)支撐起來,規(guī)范了業(yè)務(wù)辦理流程,減少了人為因素產(chǎn)生的疏漏、推諉,提升了業(yè)務(wù)辦理的效率和用戶的滿意度。簡化了運(yùn)行維護(hù)工作的方式方法,降低了工作中一些關(guān)鍵環(huán)節(jié)的難度,使得許多并不具備扎實(shí)網(wǎng)絡(luò)技術(shù)的人員也能參與其中,既緩解了校園網(wǎng)維護(hù)人員人力不足的問題,又提升了大家的工作積極性。平臺(tái)下一步將向網(wǎng)絡(luò)中心業(yè)務(wù)全支持、信息全公開和支持移動(dòng)終端方向繼續(xù)發(fā)展。