企業(yè)內(nèi)部網(wǎng)絡(luò)的設(shè)備和資源的監(jiān)控管理是企業(yè)運維和安全保障體系中的重要環(huán)節(jié)。尤其是大中型企業(yè),其內(nèi)部網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)復(fù)雜,企業(yè)的運維管理人員難以對各個設(shè)備的運行狀況進(jìn)行統(tǒng)一的監(jiān)控管理和實時異常信息查詢。因此,企業(yè)對網(wǎng)絡(luò)設(shè)備的物理故障往往缺乏事前預(yù)防機制和快速響應(yīng)措施,對網(wǎng)絡(luò)資源的浪費和異常情況疏于管理,造成企業(yè)網(wǎng)絡(luò)普遍存在較多安全隱患。
當(dāng)前企業(yè)網(wǎng)絡(luò)設(shè)備環(huán)境的監(jiān)控技術(shù)仍處在研究探索階段,目前國內(nèi)針對企業(yè)網(wǎng)絡(luò)和設(shè)備資源的專業(yè)監(jiān)控軟件價格昂貴,且種類和功能匱乏;而大部分免費軟件產(chǎn)品易用性和兼容性有所欠缺,難以定制化地滿足企業(yè)實際運維和安全管理需要。
根據(jù)這種情況,本文專門針對大中型企業(yè),探討基于CactiEZ的企業(yè)網(wǎng)絡(luò)監(jiān)據(jù)到服務(wù)器端。服務(wù)器將采集到的數(shù)據(jù)存入可伸縮數(shù)據(jù)庫RRD文件中?;谠撥浖脚_可以設(shè)置固定時間間隔對目標(biāo)設(shè)備進(jìn)行數(shù)據(jù)采集。RRD數(shù)據(jù)庫具有循環(huán)特性,在檢索某個時間區(qū)間的網(wǎng)絡(luò)流量數(shù)據(jù)時無需遍歷整個數(shù)據(jù)文件,節(jié)省了存儲空間資源。監(jiān)控平臺基于RRD數(shù)據(jù)文件可以繪制實時監(jiān)控圖表,并通過各種參數(shù)的閾值設(shè)置對設(shè)備運行狀態(tài)進(jìn)行管理。
在服務(wù)器端進(jìn)行配置時,CactiEZ可根據(jù)物理位置或局域網(wǎng)段設(shè)置分支,將設(shè)備按類型放置在不同的分支下,利用所有監(jiān)控主機的拓?fù)潢P(guān)系形成圖形樹,能實時訪問網(wǎng)頁界面,監(jiān)管整個網(wǎng)絡(luò)系統(tǒng)的運行狀態(tài)。同時,還能查看部署監(jiān)控的全部網(wǎng)絡(luò)設(shè)備的樹狀結(jié)構(gòu)、主機情況以及詳細(xì)數(shù)據(jù)圖表。
此外,該監(jiān)控平臺允許用控技術(shù)的研究和應(yīng)用方法,解決設(shè)備監(jiān)控難題?;贑actiEZ搭建網(wǎng)絡(luò)監(jiān)控平臺的優(yōu)勢是軟件免費和代碼開源,功能全面而且可擴展性強,可根據(jù)企業(yè)的實際需求對各類網(wǎng)絡(luò)設(shè)備和資源指標(biāo)定制不同的圖形化監(jiān)控模板,開發(fā)出完全適合自身網(wǎng)絡(luò)特點的復(fù)雜監(jiān)控系統(tǒng)。
基于CactiEZ的企業(yè)網(wǎng)絡(luò)監(jiān)控技術(shù)的主要思路是在企業(yè)內(nèi)部網(wǎng)絡(luò)中搭建一個安裝了CactiEZ監(jiān)控軟件的服務(wù)器,然后在被監(jiān)測的設(shè)備上完成網(wǎng)絡(luò)配置和采集軟件的安裝等工作。
CactiEZ的主要工作原理是在測量端用SNMP網(wǎng)絡(luò)通訊協(xié)議或其他方法定時采集各項指標(biāo)數(shù)據(jù),并傳輸數(shù)戶自己增加和修改模板。這些模板既能使用官方或者業(yè)內(nèi)同行分享的優(yōu)秀模板,也能自己根據(jù)實際情況進(jìn)行定制化編寫。
單位基于CactiEZ部署的企業(yè)網(wǎng)絡(luò)監(jiān)控實施方案主要包括在機房部署監(jiān)控專用服務(wù)器和在各主要網(wǎng)絡(luò)設(shè)備上進(jìn)行相應(yīng)的采集配置。首先搭建好基于CactiEZ的網(wǎng)絡(luò)監(jiān)控平臺,然后根據(jù)平臺提供的模板定制創(chuàng)建出符合自身需要的監(jiān)控規(guī)則,在服務(wù)器端添加被監(jiān)控的設(shè)備,在客戶端配置服務(wù)器SNMP團體屬性并進(jìn)行安全設(shè)置。
在服務(wù)器端部署監(jiān)控系統(tǒng)時,主要工作是創(chuàng)建各類型模板,配置和添加網(wǎng)絡(luò)設(shè)備、閾值和告警設(shè)置,構(gòu)建企業(yè)網(wǎng)絡(luò)拓?fù)浜蜌庀髨D。主機配置包括監(jiān)控服務(wù)器配置、監(jiān)控點配置、創(chuàng)建監(jiān)控模板和自定義腳本等內(nèi)容。
目前,使用CactiEZ監(jiān)控平臺,我們對全公司內(nèi)部共計53臺網(wǎng)絡(luò)核心設(shè)備已經(jīng)進(jìn)行了兩年的監(jiān)控,并通過端口監(jiān)控圖表,覆蓋了內(nèi)網(wǎng)全部一千余臺主機的流量實時狀況監(jiān)控工作內(nèi)容。該方案在公司部署實施以來,運行效果良好,為安全運維工作提供了大量的輔助信息。
我們在實施過程中配置了一臺虛擬專用服務(wù)器作為CactiEZ平臺的服務(wù)器,在Linux服務(wù)器系統(tǒng)上部署CactiEZ軟件,根據(jù)實際情況配置IP地址段、子網(wǎng)掩碼和網(wǎng)關(guān)、DNS服務(wù)器等信息,然后設(shè)置community團體口令,完成服務(wù)器配置。
每次聞到街邊烤紅薯的味道,我們就想買一個嘗一嘗。但很多人都很奇怪:街邊為什么只有烤紅薯,就沒有烤紫薯、烤白薯呢?這些不同顏色的“薯”有什么區(qū)別呢?
CactiEZ通過導(dǎo)入多種設(shè)備模板,可以監(jiān)控啟用了SNMP服務(wù)的網(wǎng)絡(luò)設(shè)備以及服務(wù)器、UPS主機、傳感器等。SNMP服務(wù)開啟方法如下。Windows主機和服務(wù)器需要在系統(tǒng)服務(wù)設(shè)置中將SNMP服務(wù)開啟并在服務(wù)中設(shè)置團體名。交換機和Linux主機通過遠(yuǎn)程登錄命令行開啟SNMP服務(wù),然后配置所屬SNMP團體和權(quán)限,更改vtp模式為客戶端模式。
CactiEZ可通過自定義腳本來采集數(shù)據(jù),對于國內(nèi)許多交換機設(shè)備型號,無論是CactiEZ官方網(wǎng)站還是各大運維論壇都沒有提供對應(yīng)的設(shè)備模板,因此監(jiān)控這些設(shè)備十分困難。但通過查閱設(shè)備的說明書和反復(fù)測試研究,可以獲取這些設(shè)備各種常見指標(biāo)的OID(對象標(biāo)識符)值。收集完成這些信息后,我們自定義制作了思科2950、3750、3560 等型號的模板,華為S5700、S2700以及核心交換機等交換機模板、監(jiān)控設(shè)備的溫度、CPU占有率、內(nèi)存以及各端口流量信息等指標(biāo),監(jiān)測運行效果良好。針對主機和各類應(yīng)用服務(wù)器設(shè)備,我們也制作了包含數(shù)據(jù)庫、IIS等監(jiān)控模塊的特殊模板。
實時監(jiān)控,即對溫度、CPU利用率和內(nèi)存等信息進(jìn)行監(jiān)控。監(jiān)控可以及時發(fā)現(xiàn)交換機設(shè)備異常,定位故障發(fā)生時間,確定故障設(shè)備范圍、分析故障情況。當(dāng)設(shè)備CPU溫度過高時,應(yīng)及時派出運維人員檢查異常發(fā)生的原因,并針對設(shè)備問題進(jìn)行處理。圖1所示分別為核心交換機溫度、CPU利用率和流量實時監(jiān)控效果。對交換機能監(jiān)控各個網(wǎng)絡(luò)接口流量,能夠記錄設(shè)備各年度不同時間段的數(shù)據(jù)流量信息,方便觀察設(shè)備運行狀況并進(jìn)行相關(guān)的流量優(yōu)化,根據(jù)統(tǒng)計掌握規(guī)律,便于網(wǎng)絡(luò)安全管理,查看交換機任意時間段的流量情況。
通過實時檢測計算機網(wǎng)絡(luò)流量情況,可以采取分時段進(jìn)行限制訪問和流量檢測的措施,并且及時將這些站點的設(shè)置文件保存到計算機網(wǎng)絡(luò)數(shù)據(jù)庫中,進(jìn)行分類的管理控制,不斷提高計算機網(wǎng)絡(luò)流量管理效率。如圖1所示,可以對三層交換機的任意端口進(jìn)行全天24小時無間斷的實時有效的流量監(jiān)測和管理。
閾值設(shè)定和告警通知,即針對不同設(shè)備的關(guān)鍵性能指標(biāo),可以根據(jù)運維經(jīng)驗設(shè)置上下限閾值,當(dāng)指定參數(shù)數(shù)值超過閾值時,監(jiān)控頁面會發(fā)出聲音報警,并郵件通知設(shè)備管理員進(jìn)行及時處理。如對交換機網(wǎng)絡(luò)設(shè)備設(shè)置CPU和溫度閾值告警,服務(wù)器設(shè)置內(nèi)存和流量閾值告警,均有助于及時發(fā)現(xiàn)故障問題,有效防止設(shè)備損壞和災(zāi)害發(fā)生。如圖2所示為通過該監(jiān)控方法獲取的各類實時監(jiān)控信息指標(biāo)。
圖1 核心交換機實時流量圖
圖2 核心交換機實時監(jiān)控效果圖
部署該平臺能夠?qū)Ψ啦《痉?wù)器、EMP服務(wù)器等服務(wù)器虛擬主機進(jìn)行定制監(jiān)控。并且管理人員可以將監(jiān)控和具體應(yīng)用相結(jié)合,個性化定制監(jiān)控指標(biāo)。如對防病毒服務(wù)器的主機性能、進(jìn)程個數(shù)進(jìn)行監(jiān)控,對應(yīng)用服務(wù)器的訪問次數(shù)、連接次數(shù)和網(wǎng)絡(luò)流量進(jìn)行監(jiān)控,對數(shù)據(jù)庫服務(wù)器的TCP連接情況、響應(yīng)狀態(tài)進(jìn)行監(jiān)控等,均取得了良好的效果。圖3和圖4基于不同的時間維度展示了本單位部分服務(wù)器的CPU使用率和TCP連接等主要性能參數(shù)的實時監(jiān)控情況。
通過CactiEZ氣象圖模塊提供的元件模板,管理員可以很方便地構(gòu)建本地各交換機設(shè)備的網(wǎng)絡(luò)實時流量氣象流圖。通過網(wǎng)絡(luò)氣象圖,我們不僅可以明確看到核心網(wǎng)絡(luò)拓?fù)錉顩r、查詢核心和匯聚交換機各個端口的實時流量,還可以點擊設(shè)備圖標(biāo)查看設(shè)備的CPU利用率狀況,實現(xiàn)企業(yè)網(wǎng)絡(luò)實時監(jiān)控的安全目標(biāo)。
圖3 服務(wù)器每日CPU使用率圖
圖4 服務(wù)器年度TCP連接數(shù)統(tǒng)計圖
CactiEZ中監(jiān)視器圖像功能,在主機發(fā)生故障或失去連接時,監(jiān)視器上會顯示報警信息,對于被測數(shù)據(jù)超出閾值的情況會以聲音警示、電子郵件等方式通知網(wǎng)絡(luò)管理者,這對于網(wǎng)絡(luò)故障的及時預(yù)防、故障定位和恢復(fù)能起到重要作用。
在過去一年的監(jiān)控中發(fā)現(xiàn)了多起故障識別,如網(wǎng)絡(luò)故障中斷、服務(wù)器內(nèi)存和CPU占用已滿、服務(wù)器宕機、虛擬機IP地址漂移等事件。如在網(wǎng)絡(luò)線路故障時,通過流量變化,成功找出了網(wǎng)絡(luò)異常中斷的準(zhǔn)確時間并確定了發(fā)生故障的主要設(shè)備,從而為分析斷網(wǎng)原因、故障修復(fù)節(jié)省了時間和人力,有效完善了網(wǎng)絡(luò)故障管理、安全管理和性能管理。
目前該監(jiān)控系統(tǒng)仍然有很多改進(jìn)空間,比如增加對其他安全設(shè)備的監(jiān)控,擴展監(jiān)控指標(biāo)等。我們將會在后續(xù)工作中不斷進(jìn)行修改和完善。
網(wǎng)絡(luò)監(jiān)控是確保企業(yè)網(wǎng)絡(luò)安全運行的必要手段?;贑actiEZ的網(wǎng)絡(luò)監(jiān)控系統(tǒng)對突發(fā)的網(wǎng)絡(luò)故障能及時郵件或短信進(jìn)行提醒,可有效縮短故障響應(yīng)和恢復(fù)時間,提高企業(yè)網(wǎng)絡(luò)管理和服務(wù)水平。該技術(shù)的部署實施能在企業(yè)信息化方面減少資金投入, 同時保證了設(shè)備監(jiān)控效果。我們希望通過將該技術(shù)應(yīng)用在企業(yè)內(nèi)網(wǎng)環(huán)境中,并結(jié)合其他網(wǎng)絡(luò)安全設(shè)備和技術(shù)共同使用,構(gòu)建一個完善的安全運維保障體系,為企業(yè)網(wǎng)絡(luò)安全和正常運行提供有力保障。N