国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

報業(yè)集團IT運維管理平臺建設(shè)思路

2012-04-29 00:44:03王任華黃格非施蕓
信息化建設(shè) 2012年7期
關(guān)鍵詞:運維監(jiān)控故障

王任華 黃格非 施蕓

隨著浙江日報報業(yè)集團業(yè)務(wù)系統(tǒng)

向多元化結(jié)構(gòu)發(fā)展,新媒體技術(shù)及報業(yè)信息化技術(shù)也發(fā)生日新月異的變化,集團信息化網(wǎng)絡(luò)的規(guī)模越來越大,報業(yè)出版及發(fā)行等業(yè)務(wù)系統(tǒng)越來越多。這直接推動Web服務(wù)器、應(yīng)用服務(wù)器、數(shù)據(jù)庫以及服務(wù)器虛擬化的應(yīng)用快速發(fā)展,IT部門的重要性也不斷提升的同時, IT運維面臨的挑戰(zhàn)也更加復(fù)雜化。如,原有的機房已經(jīng)不能滿足現(xiàn)有信息化設(shè)備的發(fā)展;日益增多的信息化終端設(shè)備和放開的USB設(shè)備權(quán)限導(dǎo)致病毒攻擊、流量異常的情況增多;眾多的業(yè)務(wù)系統(tǒng)和需要開啟的遠程監(jiān)控窗口,易出現(xiàn)搶桌面和重復(fù)開啟服務(wù)的狀況;IP地址沖突以及IP地址不夠用等現(xiàn)象。

如何能將現(xiàn)有的IT管理小軟件進行資源整合,實現(xiàn)統(tǒng)一平臺的集中管理,做到跨域掃描IT運維管理體系,并通過制定相應(yīng)的流程規(guī)范來合理、高效的調(diào)配資源,使IT運維管理架構(gòu)與集團業(yè)務(wù)系統(tǒng)的管理架構(gòu)相統(tǒng)一,并將網(wǎng)絡(luò)擁塞狀況直觀展現(xiàn),為管理者和運維工作人員決策提供參考。這將是IT運維監(jiān)控系統(tǒng)建設(shè)項目的總體目標(biāo)。

總體設(shè)計思路

為更合理地配置網(wǎng)絡(luò)資源、更好地管理網(wǎng)絡(luò)IP資源,及時統(tǒng)計用戶訪問量、網(wǎng)絡(luò)帶寬分析、機房環(huán)境預(yù)知和巡檢等,針對集團的實際情況,我們研發(fā)了IT運維綜合管理平臺(IT Operation Management platform,ITOM),為技術(shù)管理者提供了多管理領(lǐng)域的全方位解決方案。IT運維綜合管理平臺的設(shè)計主要分三個:

1.信息采集層。包含故障性能信息采集和故障信息采集。性能信息采集是對運行在服務(wù)器的中間件、數(shù)據(jù)庫以及應(yīng)用程序的監(jiān)控。通過在被管理設(shè)備上安裝監(jiān)控程序的方式,然后將來自ICT內(nèi)各部分的信息標(biāo)準(zhǔn)化為通用格式,實時保存為邏輯分析提供信息基礎(chǔ)。包括發(fā)現(xiàn)網(wǎng)絡(luò)拓撲,通過網(wǎng)絡(luò)運行狀況監(jiān)控,判斷網(wǎng)絡(luò)的運行質(zhì)量、運行效率、網(wǎng)絡(luò)流量以及連通率信息等。

在信息采集層采集到的故障信息通常是邏輯故障信息。采集是通過接收IT基礎(chǔ)設(shè)施發(fā)送的標(biāo)準(zhǔn)日志,同時輔以主動對設(shè)備輪詢,將所收集的故障時間發(fā)送給探針,提交給事件管理器進行信息匯總。而其他類網(wǎng)絡(luò)故障判斷需要通過在信息處理層完成。初始故障等級判別是根據(jù)信息匯聚層收集上來的事件,級別定義。

2.信息處理層。按照事先設(shè)定的業(yè)務(wù)模型規(guī)則,將信息采集層收集的海量數(shù)據(jù)進行數(shù)據(jù)分析、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)處理,使得看似無序和不同類的事件,通過事先定義的業(yè)務(wù)模型規(guī)則,對信息采集層所采集到的信息進行根源分析和對比,達到故障定位的目的。

網(wǎng)絡(luò)故障判斷在信息處理層須根據(jù)默認(rèn)的規(guī)則定義,通過告警系統(tǒng)中的Automation 自動引擎,對故障事件進行分析和計算,經(jīng)過數(shù)據(jù)關(guān)聯(lián)和處理后,得出的網(wǎng)絡(luò)故障判斷,生成故障結(jié)果表單。例如端口流量、錯報和丟包發(fā)生率、廣播包與非廣播包的多少來對設(shè)備閥值設(shè)定,超過預(yù)設(shè)參數(shù)進入故障結(jié)果表單。

3.信息應(yīng)用層。數(shù)據(jù)應(yīng)用層對日常運維的性能參數(shù)通過圖表的方式反映出來,包括流量報告、故障分析報告、網(wǎng)絡(luò)監(jiān)控平臺、統(tǒng)計分析報告等。

ITOM基于WEB方式的管理界面,允許維護人員通過瀏覽器方式查看業(yè)務(wù)運行狀態(tài)和告警信息,支持界面的個性化定制。監(jiān)控平臺可實時監(jiān)控包括網(wǎng)絡(luò)狀態(tài)、設(shè)備狀態(tài)、業(yè)務(wù)主機狀態(tài)、鏈路狀態(tài)、性能管理、流量管理等信息。

支持多種應(yīng)用接口,包括WebService接口、API接口、文件接口、碼流接口等,集成多種第三方管理應(yīng)用的綜合數(shù)據(jù)接入,在同一平臺上予以展現(xiàn),是全域IT運維管理的決策支持系統(tǒng)。

十大功能描述

1.T運維管理平臺采用 ITIL的標(biāo)準(zhǔn)。

ITIL(IT Infrastructure Librry 信息技術(shù)基礎(chǔ)架構(gòu)庫)是英國各個行業(yè)在IT管理方面的最佳實踐歸納起來變成規(guī)范,它結(jié)合流程、人員和技術(shù)三要素,為企業(yè)的IT部門提供一套從計劃、研發(fā)、實施到運行維護的最佳實踐方案,可以引導(dǎo)組織高效和有效地使用技術(shù),讓既有的信息化資源發(fā)揮更大的效能。

ITIL實際上是建立在業(yè)務(wù)和技術(shù)之間的橋梁,框架圖如圖1所示:

ITIL含服務(wù)支持和服務(wù)提供兩部分,對應(yīng)的10個管理流程是IT運維管理的核心過程,如圖2所示:

圍繞十個管理流程,并通過服務(wù)級別協(xié)議(SLA)來保證IT服務(wù)的質(zhì)量,IT運維管理平臺的結(jié)構(gòu)圖如圖3所示。

2.分級用戶管理,不同用戶擁有不同子域、子系統(tǒng)的使用權(quán)限。

不同用戶的分級管理通過統(tǒng)一入口授權(quán)完成,管理者、IT運維人員登錄系統(tǒng)后分別可以查看對應(yīng)角色的子系統(tǒng)信息,如網(wǎng)絡(luò)管理員可以看到對應(yīng)的機房監(jiān)控數(shù)據(jù)和網(wǎng)絡(luò)擁塞信息,資產(chǎn)管理人員可以對資產(chǎn)信息掃描和登記,實現(xiàn)真正意義上的分級管理。

3.網(wǎng)絡(luò)狀況可以做到實時監(jiān)控,核心設(shè)備做負載均衡。

網(wǎng)絡(luò)部分設(shè)備采用雙核心雙鏈路熱備連接,這種接法的網(wǎng)絡(luò)經(jīng)系統(tǒng)智能分析后生成的網(wǎng)絡(luò)拓撲圖與真實物理拓撲結(jié)構(gòu)略有出入,經(jīng)人為修正后形成集團的網(wǎng)絡(luò)拓撲圖,真實反映整個網(wǎng)絡(luò)的運行狀態(tài),直觀反映設(shè)備的分布情況、負載狀況和設(shè)備屬性,以及線路的實時流量,同時通過負載均衡動態(tài)平衡;流量異常或者超負荷時會有顏色顯示,告警網(wǎng)管關(guān)注點,動態(tài)預(yù)警可能存在的故障隱患。

網(wǎng)絡(luò)平臺管理對核心及匯聚等重要設(shè)備的UP/DOWN、CPU負載、線路負載等重要指標(biāo)做告警設(shè)置,對核心業(yè)務(wù)服務(wù)器的操作系統(tǒng)參數(shù)(系統(tǒng)范圍的CPU 使用情況、磁盤和I/O 使用情況、文件系統(tǒng)資源、日志文件等)實施告警監(jiān)控,協(xié)助IT運維人員診斷和排除相關(guān)問題。同時可以提供靈活的警報條件定義,生成基于Web的報表,為工作人員進行應(yīng)用系統(tǒng)的性能分析及系統(tǒng)優(yōu)化提供依據(jù)。

通過ITOM讀取在AIMS Server上集中創(chuàng)建生產(chǎn)主機環(huán)境的基線數(shù)據(jù)庫,實時監(jiān)控核心業(yè)務(wù)服務(wù)器的系統(tǒng)環(huán)境和應(yīng)用環(huán)境,減少長期運營維護費用、降低危害攻擊的可能性,保證了生產(chǎn)環(huán)境的穩(wěn)定和核心業(yè)務(wù)數(shù)據(jù)的安全。

4.值班機房做到無人值守。

ITOM通過讀取第三方廠商監(jiān)測的機房溫度數(shù)據(jù)、濕度數(shù)據(jù)、UPS電源信息等各類指標(biāo),若超出閥值信息發(fā)出警告,從而可以在無人值守的情況下,消除機房管理中的安全隱患。

5.遵循事件處理流程,完善IT運維服務(wù)。

事件管理即通常所說的現(xiàn)場管理,流程相對復(fù)雜,發(fā)起事件通常有兩個途徑,一個是ITOM的系統(tǒng)故障告警,一個是服務(wù)臺。系統(tǒng)告警后無法馬上處理完成可以直接生成事件,進入事件處理流程。

ITOM在事件生成后,可以由調(diào)度統(tǒng)一生成派工單,同時可以通過短信告知設(shè)備信息目前所處的維修狀態(tài)。

6.融合進項目管理,使項目狀態(tài)一目了然。

項目管理是ITOM非常重要的一塊,主要記錄目前在建項目的進展情況,包含項目小組成員及分工、項目進度、項目變更及項目調(diào)度信息,以方便其他項目人員隨時查詢。一旦項目結(jié)束,該項目信息將由相關(guān)人員做信息梳理及歸檔,對后續(xù)維護有幫助的解決方案、使用說明等文檔將分類歸到相關(guān)知識庫。

7.根據(jù)項目和運維解決方案,形成一套系統(tǒng)的運維知識庫。

知識庫來源于常規(guī)的運維解決方案和項目管理文檔。原來的情況是,各系統(tǒng)的解決方案、說明書、分析、手冊和各種專業(yè)文檔,零散地分布在各個系統(tǒng)管理員手里,或者一段時間整理放在FTP方式共享,但是缺少高效而有序的管理,檢索起來很困難,IT部門的新員工往往需要跟班很長時間才能掌握必備的工作技能。ITOM則根據(jù)IT運維流轉(zhuǎn)的各種文檔進行規(guī)范化的管理,建立一套有系統(tǒng)的知識庫和維護檢修庫,知識庫管理是員工獲取知識的有效途徑。讓所有人都能快速而方便地把自己掌握的經(jīng)驗技能更新進知識庫共享,同時可以學(xué)習(xí)到自己所需要的信息和知識,保證IT系統(tǒng)的維護工作有據(jù)可依。

8.資產(chǎn)信息可以動態(tài)抓取,及時更新資產(chǎn)庫信息。

ITOM的資產(chǎn)管理功能比較強大,除了初期人工錄入數(shù)據(jù)外,還可把被管的網(wǎng)絡(luò)設(shè)備、主機設(shè)備、配置信息、軟件等信息抓取到,與資產(chǎn)庫對比,若信息有差異,可以實時更新到庫中。關(guān)聯(lián)集團信息管理平臺(EIP)的通訊錄信息,管理者可以很清楚地掌握資產(chǎn)狀況:設(shè)備信息、所屬部門、房間號、使用人、使用人聯(lián)系電話等信息。通過對資產(chǎn)信息全面和規(guī)范化的管理,同時與事件管理結(jié)合,可以向技術(shù)維護人員提供資產(chǎn)的完整“生命周期”,包括采購入庫、領(lǐng)用、維修、升級和報廢的整個生命周期事件以及歷史維護記錄,幫助技術(shù)維護人員迅速解決問題。

資產(chǎn)管理還可以拓撲形式展現(xiàn)資產(chǎn)分布平面圖(分布圖以樓層為單位,具體到每個房間的每項資產(chǎn)。平面圖上的資產(chǎn)圖標(biāo)鏈接到資產(chǎn)管理庫的記錄,點擊圖標(biāo),自動檢索庫中的相關(guān)記錄)。

IP管理是資產(chǎn)管理的重要部分,ITOM的IP管理可以檢測后生成IP地址、網(wǎng)絡(luò)端口與MAC地址對應(yīng)的地址簿,從而實現(xiàn)IP-MAC-物理地址綁定。通過地址簿與安全認(rèn)證系統(tǒng)匹配,可以對P2P或者BT下載以及非法接入設(shè)備的端口進行關(guān)閉,保證桌面系統(tǒng)的安全。

9.設(shè)備變更。

針對設(shè)備用途的變更、位置的變更以及設(shè)備更新等,根據(jù)全域網(wǎng)絡(luò)拓撲結(jié)構(gòu)圖展示,會顯示設(shè)備負載的位置,從而核實該設(shè)備可能發(fā)生的變化。

10.變被動服務(wù)為主動服務(wù),定期做系統(tǒng)巡檢。

通過系統(tǒng)設(shè)定巡檢項目和巡檢參數(shù),可以生成日巡檢、周巡檢、月巡檢項目等。目前我們對機房設(shè)備、郵件服務(wù)器、短信發(fā)送服務(wù)器、衛(wèi)星發(fā)送和接受系統(tǒng)、暢流系統(tǒng)、全媒體采編系統(tǒng)和數(shù)字報生成系統(tǒng)設(shè)定為每日巡檢項目;醫(yī)保系統(tǒng)、發(fā)行系統(tǒng)設(shè)定為每周巡檢。設(shè)定巡檢項目生成巡檢表后,系統(tǒng)執(zhí)行巡檢動作并生成巡檢報告,巡檢未通過項目以手機短信提示相關(guān)的系統(tǒng)管理員,以便及時掌握系統(tǒng)運行是否處于“健康”狀態(tài)。

展望與思考

IT運維管理平臺(ITOM)讓IT運維管理人員在日常工作中變得更輕松,變得更加以服務(wù)為中心。但是仍然有兩點還值得思考:

第一,數(shù)據(jù)挖掘還可以應(yīng)用得更廣。對全域各類運維相關(guān)數(shù)據(jù)信息進行統(tǒng)一的存儲和分析處理,我們目前只是從海量數(shù)據(jù)中提取部分有用信息做分析,其他隱含在數(shù)據(jù)倉庫中的、有助于決策的信息和知識點還有很多,怎么形成和提取各類有用數(shù)據(jù)以支持我們做決策分析,還需要深度思考。

第二,虛擬化設(shè)備還是IT運維管理平臺的難點。企業(yè)機構(gòu)正在通過各種虛擬化技術(shù)整合其基礎(chǔ)設(shè)施來提高網(wǎng)絡(luò)效率,虛擬化必然會帶來云計算的遷移,由于核心基礎(chǔ)設(shè)施資源(計算、存儲和服務(wù)器虛擬化)的虛擬性質(zhì)有不穩(wěn)定狀態(tài),導(dǎo)致虛擬化設(shè)備的監(jiān)控系統(tǒng)相當(dāng)復(fù)雜,目前在ITOM系統(tǒng)中還沒有相應(yīng)的應(yīng)用。

IT運維管理在報業(yè)集團的應(yīng)用,不僅帶來了全新的IT運維管理理念,而且在服務(wù)質(zhì)量和服務(wù)成本壓縮方面有了很大的提升。通過全域網(wǎng)絡(luò)的智能監(jiān)控以及事前預(yù)警和巡檢功能,及時排除潛在隱患,使運維工作變得更為高效,網(wǎng)絡(luò)運行更加安全和通暢。 同時,我們也在不斷探討和完善現(xiàn)有的IT運維管理系統(tǒng),使其適應(yīng)更為復(fù)雜的網(wǎng)絡(luò)架構(gòu),以在報業(yè)IT運維中得到更好的應(yīng)用。

(作者單位:浙江日報報業(yè)集團信息技術(shù)中心)

猜你喜歡
運維監(jiān)控故障
The Great Barrier Reef shows coral comeback
故障一點通
運維技術(shù)研發(fā)決策中ITSS運維成熟度模型應(yīng)用初探
你被監(jiān)控了嗎?
Zabbix在ATS系統(tǒng)集中監(jiān)控中的應(yīng)用
風(fēng)電運維困局
能源(2018年8期)2018-09-21 07:57:24
雜亂無章的光伏運維 百億市場如何成長
能源(2017年11期)2017-12-13 08:12:25
看監(jiān)控攝像機的4K之道
奔馳R320車ABS、ESP故障燈異常點亮
基于ITIL的運維管理創(chuàng)新實踐淺析
彩票| 新兴县| 建始县| 恩施市| 保德县| 福泉市| 凌源市| 旬邑县| 阳泉市| 杭州市| 景德镇市| 福泉市| 德令哈市| 汾阳市| 高青县| 分宜县| 巩义市| 抚州市| 安溪县| 东阿县| 界首市| 福建省| 温泉县| 定日县| 新蔡县| 临漳县| 云安县| 鸡西市| 灵山县| 容城县| 上高县| 岑巩县| 兰坪| 高唐县| 蒲江县| 玉屏| 富锦市| 承德县| 刚察县| 拉萨市| 县级市|