文/張智龍 宮劍 陸春 黃杰
IT運維促進信息化良性循環(huán)
文/張智龍 宮劍 陸春 黃杰
上海財經大學IT運維管理體系以基于ITIL V3的服務運營流程為主線,以服務管理、服務改進為輔助,配合一系列的管理制度與技術工具的支撐,使原有相對雜亂、重復的運維工作轉向分工清晰、職責明確、快速響應、安全可信的良性循環(huán)。
隨著上海財經大學數字化校園建設的進一步開展,信息系統的覆蓋范圍越來越廣,信息化建設和運維的復雜度不斷提升,一方面需要繼續(xù)深化信息系統建設,實現業(yè)務支持到決策支持的轉變;另一方面需要加強信息系統運維管理,確保信息系統的穩(wěn)定運行和可持續(xù)發(fā)展。
面對新的挑戰(zhàn),上海財經大學遵循PPT(People、Process、Technology)原則,即受到良好培訓的人員,通過執(zhí)行明確定義的、以技術驅動的流程,為所支持的業(yè)務提供高質量服務,同時借鑒ITIL最佳實踐體系,依據本校實際情況,開展IT運維管理體系的建設實踐,形成具有上海財經大學特色的信息化運維管理體系。
圖1 IT運維管理體系框架
上海財經大學IT運維管理體系以基于ITIL V3的服務運營流程為主線,以服務管理、服務改進為輔助,配合一系列的管理制度與技術工具的支撐,使原有相對雜亂、重復的運維工作轉向分工清晰、職責明確、快速響應、安全可信的良性循環(huán)。上海財經大學IT運維管理體系框架如圖1所示。
上海財經大學運維管理體系的主體由服務臺、服務支持流程和服務持續(xù)改進三部分組成,其內容既相對獨立又相互關聯。服務臺針對用戶進行管理,對用戶的咨詢和需求進行統一處理,為服務支持流程提供服務;服務支持流程作為運維工作的核心,一方面以日常運維中的服務運營和服務轉移為抓手,通過相關服務流程和支持工具為用戶提供服務,快速響應用戶需求,另一方面從服務設計出發(fā),通過工具的支撐和管理流程的控制,提高系統的可用性、系統和數據的安全性以及服務的持續(xù)性;服務持續(xù)改進,通過對服務支持流程體系中的問題進行階段性的總結和分析,以及對用戶的系統使用情況的調查和整理,發(fā)現運維工作中存在的問題并及時進行調整,實現對運維工作的持續(xù)改進。
在運維管理體系的主體之外,運維組織與制度和運維開發(fā)與管理工具也是貫穿在運維管理過程中的不可或缺的部分,是高效開展運維工作的基礎。在多年的實踐中,上海財經大學制定一系列對運維的標準化工作進行指導的制度,使得運維工作有理所依、有條不紊地進行;此外,通過對各類系統管理工具和開發(fā)工具的不斷調查和使用,也找出一套適用于自身情況的IT工具,使得開發(fā)和管理工作事半功倍。
圖2 服務臺工作流程
服務臺扮演和用戶交流的角色,主要負責接收和管理用戶的咨詢和服務請求,第一時間了解用戶反映的問題并準確記錄,為后期的問題處理和事件處理的快速準確打下基礎。
目前,我們已在服務臺開辟多種渠道與用戶進行實時交流,包括:面向全校用戶的7×24小時電話服務和E-Mail服務,針對學生的BBS信息化答疑板塊,針對行政部門的即時反饋QQ、MSN服務群。除此之外,針對目前較為流行的微博,也即將開通“上海財經大學信息化問題反饋官方微博”,通過多種形式的溝通機制保障用戶反映問題的暢通性。
除了多路徑的問題采集方式外,問題的順利流轉很大程度上依賴于問題記錄工作。學校運維部門通過開源問題跟蹤工具Mantis來監(jiān)控整個問題的生命周期,使得一個問題經歷從記錄到問題處理流程,到變更、發(fā)布部署的完整流程。圖2為一個典型的服務臺問題記錄流程。
問題被完整記錄后便完成其在服務臺的生命周期,處理過程將進入服務支持流程。
服務支持流程體系的內容
服務支持流程體系,從運維工作所屬的不同職能的角度,可劃分為兩部分內容。
一部分歸屬應用管理的職能,直接處理從服務臺引入的服務事件和問題,根據事件處理所處的不同生命周期,分為服務運營和服務轉移兩方面內容。服務運營包括ITIL框架中的事件管理、問題管理、訪問管理以及知識管理等流程,服務轉移涵蓋配置管理、變更管理、發(fā)布管理等流程。
服務支持流程體系的另外一部分內容是服務設計,它屬于IT運維管理和技術管理的職能,既包括對系統運行狀態(tài)、數據庫使用狀態(tài)、數據質量和用戶權限等IT運行核心指標的實時監(jiān)控,又包括對它們的事后審計,同時涵蓋數據和系統的備份和恢復方案以及后臺數據申請的日常工作流程,從系統可用性、IT服務連續(xù)性和信息安全管理等方面予以支撐。
通過這些標準化流程的約束,避免運維階段的混亂局面,使工作人員的工作有理所依。同時這些流程也并非是割裂的部分,而是共同組成一個整體的服務支持流程體系。服務運營和服務轉移對用戶進行快速響應,解決在運營狀態(tài)中出現的各種問題,及時準確地進行處理。服務設計是系統正常穩(wěn)定運行的基礎,保證系統和信息的安全性。
運維的核心
服務運營和服務轉移是運維日常工作中的核心內容。它們包括以下幾個典型的主流程:事件管理,問題處理,變更管理,發(fā)布管理,最后記錄進入知識庫。每一步驟都對應著相應的流程文檔,并作為配置管理中的配置項信息,保證IT服務的不斷持續(xù)循環(huán),達到運維管理的可持續(xù)發(fā)展目標。一個典型的服務處理流程如圖3所示。
1. 事件管理與問題處理
在一個問題接受、問題處理到問題解決的過程中,問題的流轉通過Mantis問題記錄單來完成,它監(jiān)控整個時間的生命周期。記錄單中的記錄內容包括問題的接收時間、報告人,問題的整個指派和流轉過程、處理過程中的詳細處理方法以及配置項變更信息、發(fā)布與部署信息等。
為防止系統更改對現有系統的運行產生影響,上海財經大學信息辦制定一套嚴格的涉及運行維護員、發(fā)布管理員、配置管理員、運維部長等多個角色的發(fā)布流程,整個發(fā)布流程整合到Mantis記錄單中,同時發(fā)布確認單也作為一項重要的配置項進行管理。發(fā)布流程與變更管理這兩個功能對任何配置項的變更進行嚴格把關,加強質量控制和審核。
3. 配置管理
配置管理作為ITIL中的一個核心,在整個流程體系中有著舉足輕重的作用。信息化辦公室定制配置管理規(guī)范。規(guī)范內容分為軟件配置管理和CMDB管理。軟件配置管理的目標配置項主要包括信息系統項目文檔、源代碼、數據庫腳本、可執(zhí)行程序及其他相關資料。CMDB管理的目標配置項主要包括所有硬件設備、應用服務、數據庫系統及其相應的用戶、權限、相關部門、責任人等元素。所有軟件配置管理和CMDB中的配置項的變更,都能夠關聯到具體的問題記錄單,做到從問題記錄單到配置項,以及從配置項到問題記錄單的雙向追溯。
服務設計
在高校信息化應用日益深化的今天,信息和資源的整合日益密切,如何保障信息系統的持續(xù)穩(wěn)定運行,確保信息安全是亟待解決的關鍵問題。服務設計主要包含兩方面內容:第一,保障系統的可用性和持續(xù)性。通過對網絡、主機、應用系統、數據庫的運行狀態(tài)和性能指標進行實時監(jiān)控,保證系統的不間斷運行;第二,確保系統安全與數據安全。通過對用戶賬號與權限的監(jiān)控以及系統安全檢測和事后審計等措施,保障系統和數據安全。
1. 權限變更的規(guī)范化流程與審計
系統中的數據查看和管理職能幾乎都是建立在系統的角色和權限的基礎上,所以權限問題尤為重要,權限的泛濫將嚴重危害到系統數據的安全,有意或無意的誤操作都將對系統數據造成嚴重危害。學校運維部門制定一套權限申請審核流程,要求用戶的權限變更必須提交權限變更申請表,通過權限變更流程,審批后,再進行權限的修改。除此之外,運維部定期開展系統的權限審計工作,要求各部門對本部門的人員角色和系統權限進行確認,并遞交給信息化辦公室進行審核,如發(fā)現有超出權限范圍的功能或數據查看權,立即停用。
2. 數據質量
隨著業(yè)務的逐年運行,信息系統中的數據量越發(fā)龐大,不可避免地產生大量不符合系統標準的垃圾數據,這些數據極有可能造成系統不正常運行。為了避免此種情況發(fā)生,我們制定一系列針對各信息系統情況的數據錄入維護規(guī)范,同時,運維部門還根據數據錄入維護規(guī)范,制定日常數據質量檢查工作機制,定期通過技術手段對系統數據進行監(jiān)控檢查,確認數據是否符合各業(yè)務、數據接口的標準,同時給出數據質量檢查報告,針對存在問題的數據,查找數據源頭,進行數據重新修正錄入,以滿足系統要求。
網絡上的東西更新速度快,出于對網絡的迷戀,大多數高校大學生喜歡通過網絡去學習一些自己感興趣的知識,不斷豐富著自己的大腦,使自己開闊眼界,運用自己的判斷力對某一觀點進行評判,從而不愿意被動地接受教育者機械似的灌輸和教育,思想政治教育者的權威地位就會受到威脅。
圖3 服務運營流程
3. 系統環(huán)境備份
對所有的系統分別搭建4套系統環(huán)境:開發(fā)環(huán)境、測試環(huán)境、模擬環(huán)境和生產環(huán)境。通過4套環(huán)境的有機結合,最大程度地減少發(fā)布風險,滿足系統擴展開發(fā)的需求。
4. 系統安全檢測
為確保主機安全和信息安全,運維部定期進行安全檢測和掃描,具體內容有:使用開源漏洞掃描工具掃描所有服務器主機,生成主機安全等級報告,對高級和中級安全漏洞進行專家分析和處理,確保主機運行于低安全風險;使用商業(yè)漏洞掃描工具掃描全校應用系統,生成應用安全等級報告,針對高風險安全漏洞進行分析和處理,確保Web應用沒有較高的安全漏洞。
5. 異常登錄監(jiān)控
系統賬號作為認定責任人的最重要的手段,一旦被盜用,將引起重大的糾紛。為了保證在校的近2萬用戶的權利不被侵犯,我們對重要系統的賬號登錄情況進行監(jiān)控。監(jiān)控內容包括每天登錄各信息系統的賬號、登錄的時間、注銷的時間、每次登錄的IP地址等。通過這些信息的統計挖掘,對可疑的登錄信息進行調查、確認及核實。
服務持續(xù)改進
通過對服務支持流程體系中的問題進行階段性的總結、分析和處理,實現對運維工作的持續(xù)改進。
1. 事件管理分析
事件管理分析工作,本著規(guī)范流程、提升管理水平、降低事件發(fā)生率、提高工作效率的目標,通過對各季度和學期的各應用系統事件數進行總結與分析,制定出運維事件階段性總結處理指導文檔。目前,運維部門將問題歸為12大類,基本囊括運維中的所有常見問題。事件分析會對各類問題所占的百分比進行統計,總結出本時間周期里的問題的特點和共性,對今后的運維工作進行指導。
2. 調查問卷和系統運行情況分析
運維部門定期對學生、教師發(fā)布系統使用的調查問卷,定期舉辦用戶討論座談會,獲取用戶對系統、運維服務的各類意見和建議,找出工作盲點,為運行維護的規(guī)范化提供依據,還定期采用專門工具對各系統的訪問日志、操作日志進行分析,獲取用戶使用偏好和使用習慣,為給用戶提供更優(yōu)質的服務提供參考。
3. 安全應急演練
應急演練是在事先虛擬的事件(事故)條件下,應急指揮體系中各個組成部門、單位或群體的人員針對假設的特定情況,執(zhí)行實際突發(fā)事件發(fā)生時各自職責和任務的活動,是一種模擬突發(fā)事件發(fā)生的應對演習。運維部門對應急演練制定合理的演練周期,對頻率較高的突發(fā)事件增加演練頻次,本著演練內容可控、不能影響生產系統正常運行的原則使演練逼真。演練的過程遵循有重點、有層次、先易后難的策略展開。演練結束后,演練工作小組對演練方案執(zhí)行及演練過程和結果進行總結,針對發(fā)現的問題,及時修改應急預案,并應用到實際工作中。
上海財經大學信息辦系統運維部結合本校自身的信息化開展情況,通過對ITIL管理流程的裁剪,制定出一套適合學校自身特點的運維管理規(guī)范體制,并在實踐中取得令人滿意的成效。但目前標準化流程還無法覆蓋運維的全部環(huán)節(jié),且隨著信息化建設的不斷深入,運維工作還將面臨越來越多的挑戰(zhàn),運維工作任重而道遠。下一步,我們將進一步加強對ITIL理念的研究和實踐,促進對人員技術水平和管理能力的提升,配合數字化校園的深入建設,使運維管理與服務更上新臺階。