文/劉建峰 朱亦寧
南京大學:IT服務提升校園網(wǎng)運維效率
文/劉建峰 朱亦寧
如何提高校園網(wǎng)絡的運維管理效率,切實保障應用系統(tǒng)可靠、穩(wěn)定、高效地運行,以進一步提升用戶的滿意度,是高校網(wǎng)絡信息中心長期的追求。南京大學網(wǎng)絡從平臺架構、運行監(jiān)控及服務理念等方面進行了系列實踐。
作為基礎設施的校園網(wǎng)絡管理,已經(jīng)逐步實現(xiàn)從被動式用戶報障服務,轉變到要求能夠主動發(fā)現(xiàn)問題,以流程貫穿整個管理過程,提高運維管理的效率,切實保障應用系統(tǒng)可靠、穩(wěn)定、高效地運行,提高用戶的滿意度,全面提升校園網(wǎng)的服務質量。
雖然通過學校的信息化系統(tǒng)的整合,部分實現(xiàn)運維系統(tǒng)功能的集成和數(shù)據(jù)的統(tǒng)一,但此前南京大學的網(wǎng)絡運維在資源管理、任務調度、故障處理、任務分發(fā)等方面依舊采取傳統(tǒng)的方式,缺少運維服務流程管理的網(wǎng)絡化、自動化,無法及時跟蹤故障情況,不能有效利用歷史故障的發(fā)生頻率、發(fā)生類型、處理情況、解決辦法等知識的經(jīng)驗,對于故障的處理無法進行效率評估和考核;技術人員忙于應付突發(fā)事件和處理問題,工作效率不高。為此,我?;谛@網(wǎng)運維管理與服務的具體實踐,提出有效提升運維管理效率的方法。
優(yōu)化網(wǎng)絡架構
傳統(tǒng)的大學校園網(wǎng)普遍采用三層架構模式,即核心、匯聚、接入的三層交換網(wǎng)絡架構,就一般校園應用而言,傳統(tǒng)的三層架構適應校園網(wǎng)在不斷擴展階段的高帶寬內部互聯(lián)互通的需求。但是,三層交換模式存在這樣一些問題:支持新業(yè)務難,故障點定位慢,無法實現(xiàn)精細化管理,用戶端的安全問題導致全網(wǎng)受影響等等。以上這些問題將隨著校園網(wǎng)規(guī)模的逐步擴大、多業(yè)務應用模式的疊加、用戶數(shù)的不斷增加和流量的爆發(fā)式增長而顯得越來越突出,校園網(wǎng)整體的穩(wěn)定性和可靠性降低,管理維護成本越來越大。
通過國內高校多次學校調研及專家論證,廣泛借鑒運營商的大規(guī)模網(wǎng)絡建設與運維管理的思路,南京大學校園網(wǎng)絡在體系架構上一改傳統(tǒng)的思路和模式,即采用以純路由為核心的扁平化的校園網(wǎng)絡架構模式,全網(wǎng)實現(xiàn)精細化的用戶管理。扁平化的網(wǎng)絡架構,并非將網(wǎng)絡物理層面變?yōu)閮蓪?,而是從網(wǎng)絡中設備所承擔的功能上進行區(qū)分,將網(wǎng)絡劃分為業(yè)務控制層和寬帶接入層。寬帶接入層由匯聚和接入層設備構成,僅提供基本的用戶高帶寬接入功能和相互之間的VLAN二層隔離功能;業(yè)務控制層則由核心層設備構成,提供網(wǎng)絡中的用戶接入控制、業(yè)務功能實現(xiàn)等復雜功能。這樣進行功能劃分后,網(wǎng)絡的層次更加清晰,更有利于全網(wǎng)的管理維護。
精細化管理
以純路由為核心的扁平化的校園網(wǎng)絡架構模式可以實現(xiàn)對校園網(wǎng)進行精細化的管理控制。
通過網(wǎng)絡中的寬帶接入層面實現(xiàn)VLAN 的細分功能,VLAN的劃分可以細致到每個接入層交換機的接入端口,這樣能夠實現(xiàn)任意端口之間的二層VLAN隔離功能,避免相互的干擾和影響,做到可細分、可隔離;當端口數(shù)量超過4K時,需要采用QinQ的方案,實現(xiàn)VLAN支持能力的擴展,提供全網(wǎng)4K×4K的VLAN支持。
對用戶的各種信息,如用戶賬號、MAC地址、IP地址、上線時間及其訪問行為的識別和記錄,做到可跟蹤、可追查。
實現(xiàn)基于用戶身份的行為控制,對諸如可訪問的資源權限、對網(wǎng)絡帶寬的占用等方面,做到可控制、可管理。
網(wǎng)絡應用的精細化管理,實現(xiàn)完善的流量識別和控制能力,保障重要應用系統(tǒng)的網(wǎng)絡承載,包括安全性、帶寬保障、可靠性等方面,做到可識別、可保障。
此前我校網(wǎng)絡信息中心的部門設置,是采用縱向一條龍的管理模式,即從規(guī)劃、調研、建設、管理到維護都是由一個部門負責到底。在網(wǎng)絡規(guī)模不大、應用相對簡單的情況下,此種管理維護模式可以保證最快速度、最高效率的運行。在網(wǎng)絡規(guī)模擴大、應用系統(tǒng)增多而高校網(wǎng)絡中心運維管理人員數(shù)量增長較低的情況下,常常因為應急性的事務而忽略了很多細節(jié),如分管設備的巡檢和數(shù)據(jù)備份,數(shù)據(jù)中心機房的公共設施的健康狀況等。從用戶的角度來講,出現(xiàn)的問題是各式各樣的,涉及網(wǎng)絡、安全、應用系統(tǒng)等各種情況。
顯然,傳統(tǒng)應付式的運維服務方式,已經(jīng)無法滿足用戶的需求。參考國外大學設定的專門的服務管理機構ITSC(Information Technology Services Center),以及學習國內高校的經(jīng)驗,我校網(wǎng)絡信息中心成立系統(tǒng)運行部,對內負責數(shù)據(jù)中心環(huán)境及各種應用服務系統(tǒng),對外負責用戶綜合信息咨詢及故障處理,有統(tǒng)一的服務電話,工作人員登記信息至運維管理系統(tǒng)以進行流轉,負責監(jiān)控的流程將最終信息反饋給用戶,同時處理結果,形成經(jīng)驗保存為經(jīng)驗庫,作為后續(xù)維護參考。系統(tǒng)運行部促進了組織業(yè)務流程與服務管理基礎架構集成,協(xié)調用戶和IT服務人員之間的聯(lián)系,為提升運維管理效率做好體制保障。
源自于英國的ITIL(Information Technology Infrastructure Library,信息技術基礎架構庫)管理理論是IT基礎架構運維管理最佳實踐的集合。許多企業(yè)多年的實踐證明,ITIL的良好應用可以幫助企業(yè)優(yōu)化IT服務管理流程,提高內外部客戶的滿意度,提升IT服務管理水平,幫助企業(yè)降低IT服務成本,提高管理效率,ITIL也就成為事實上IT服務管理的國際標準。
采用ITIL標準的網(wǎng)絡運維服務體系包括:建立符合ITIL標準的統(tǒng)一信息架構,建立服務臺,建設標準的配置管理數(shù)據(jù)庫和知識庫,規(guī)范工作流程,明確工作職責,實現(xiàn)進度可視化,由角色分工向流程分工轉變,實行績效管理。
建立自動化運維管理平臺
IT運維自動化管理建設的第一步是建立IT運維的自動化監(jiān)控和管理平臺。通過監(jiān)控工具實現(xiàn)對用戶操作規(guī)范的約束和對IT資源的實時監(jiān)控,包括服務器、數(shù)據(jù)庫、中間件、存儲備份、網(wǎng)絡、安全、機房、業(yè)務應用和客戶端等,通過自動監(jiān)控管理平臺實現(xiàn)故障或問題綜合處理和集中管理。例如在自定義周期內進行自動觸發(fā),完成對IT運維的例行巡檢,形成檢查報告,包括自動運行維護、數(shù)據(jù)備份、病毒查殺等。
智能告警,提高效率
建立共享數(shù)據(jù)庫,把各個監(jiān)控系統(tǒng)的信息采集到同一數(shù)據(jù)平臺,進行數(shù)據(jù)分析挖掘,變被動查詢?yōu)橹鲃臃治?。同時根據(jù)全面的數(shù)據(jù)采集和智能化的分析手段,對告警信息進行標準化、壓縮、歸并關聯(lián)處理,將重復的告警信息進行合并處理之后,提煉出事件的主要故障排除人員和輔助故障排除人員,將智能化之后的告警事件指派到具體負責人和協(xié)助人員,并分配不同的任務,運維人員必須在指定時間內完成流程所規(guī)定的環(huán)節(jié)與工作,以提高運維響應問題的效率。
流程跟蹤,保障進度
IT運維自動化管理建設時,需要建立故障和事件處理跟蹤流程,利用表格工具或知識庫等記錄故障及其處理情況,以建立運維日志,并定期回顧,從中辨識和發(fā)現(xiàn)問題的線索和根源。事實證明可以減少運維操作的隨意性和強化執(zhí)行力度,在很大程度上降低故障發(fā)生的概率。同時,用戶也可以通過開放的頁面隨時追蹤該用戶故障請求的處理狀態(tài)。
等級劃分,保障核心業(yè)務
針對不同的運維流程和不同的業(yè)務系統(tǒng),設定不同的優(yōu)先級,在設置自動化流程時要引入優(yōu)先處理原則,例行的事件按常規(guī)處理,特別事件要按優(yōu)先級次序處理,優(yōu)先級高的優(yōu)先處理,這可以最大限度地保障核心和關鍵業(yè)務的正常服務。
利用外包服務,優(yōu)化資源配置
就數(shù)字化校園運維來講,外包是指將具有基礎性的、非核心、耗時耗力的大量簡單重復性的運行維護工作外包給其他企業(yè)來完成,使高校網(wǎng)絡信息中心能優(yōu)化資源配置,讓有限的技術人員從事網(wǎng)絡技術的研究、應用系統(tǒng)的開發(fā)等高層次工作。南京大學自2008年到現(xiàn)在,采用將重復、基礎性的校園網(wǎng)維護維修工作承包給專業(yè)公司的模式,取得了很好的效果,解決了高校網(wǎng)絡信息中心人手不足、多校區(qū)校園網(wǎng)維護困難的狀況。
采用“校園網(wǎng)維護維修外包,中心工作人員接聽報修電話,登記在報修系統(tǒng),給外包人員派單”的方式,充分融合了人員、技術設施和流程這三大關鍵因素,形成統(tǒng)一的整體,在相關規(guī)則的作用下,形成對運維事件的快速響應、流程化處理,實現(xiàn)事件處理的高效性、效果可重復性和服務質量可期性,切實有效地提高高校師生的滿意度。
目前數(shù)字化校園關注的重心慢慢地從“以數(shù)據(jù)為中心”、“以系統(tǒng)為中心”轉移為“以用戶為中心”。系統(tǒng)運行部以用戶為中心,不斷調整服務體系的組織結構、工作內容、工作方式、工作方法、工作流程和工作范圍,全力保障網(wǎng)絡和應用系統(tǒng)安全、高效、穩(wěn)定地運行,為用戶提供優(yōu)質服務。
統(tǒng)一服務平臺
打破時間及地域限制,提供開放式的網(wǎng)絡服務、一站式服務和緊急故障電話24小時服務,同時保證每天14小時的現(xiàn)場服務,在服務過程中注重服務態(tài)度和細節(jié)。
“以網(wǎng)相連,用心溝通”的服務理念
秉承“以網(wǎng)相連,用心溝通”的服務理念,南京大學網(wǎng)絡信息中心多次開展“請進來,走出去”的活動,與用戶進行溝通交流。一方面把用戶請到中心來,給用戶介紹網(wǎng)絡與數(shù)字化校園建設情況,讓用戶更加了解數(shù)字化校園建設,了解IT服務人員的具體工作環(huán)境、方式、方法,并聽取用戶的合理化建議,并融入后期的工作中。另一方面,我們變被動服務為主動服務,到院系部門單位中去主動幫他們解決在網(wǎng)絡和應用系統(tǒng)中遇到的問題,并聽取部門用戶對網(wǎng)絡建設和應用建設的需求和意見,共建共享合理、優(yōu)化的數(shù)字化校園。
南京大學網(wǎng)絡信息中心在采用了扁平化架構及上述IT服務管理方法后,校園網(wǎng)絡運維變得更加順暢、更加高效和富有針對性。新的實施方案提升了校園網(wǎng)絡服務質量,在師生中贏取了較高的美譽度。
(作者單位為南京大學網(wǎng)絡信息中心)