史紀(jì)強(qiáng) 任恩茂 張敏
油田大力推進(jìn)“兩化”深度融合,通過“兩化”本質(zhì)貫標(biāo),著力培育構(gòu)建智能勘探開發(fā)、創(chuàng)新驅(qū)動發(fā)展、價值創(chuàng)造推動能力,應(yīng)用安全也成為重要的基石。經(jīng)過多年的建設(shè),油田信息設(shè)施已具有一定的規(guī)模,各種各樣的應(yīng)用系統(tǒng)持續(xù)上線運(yùn)行。由于應(yīng)用系統(tǒng)分散部署,錯綜復(fù)雜,難以準(zhǔn)確發(fā)現(xiàn)、監(jiān)管和管控,給日常管理、維護(hù)帶來很大的障礙。如何保證計算機(jī)系統(tǒng)及應(yīng)用系統(tǒng)的正常運(yùn)行,并實(shí)現(xiàn)高效安全的運(yùn)轉(zhuǎn)成了一個艱巨的任務(wù)。為實(shí)現(xiàn)應(yīng)用系統(tǒng)的集中管控,集成基礎(chǔ)服務(wù)和業(yè)務(wù)應(yīng)用數(shù)據(jù),系統(tǒng)管控的可視化、規(guī)范化和精細(xì)化,為生產(chǎn)、辦公、決策等提供更大的價值,有效提高應(yīng)用系統(tǒng)資源的利用率,最終達(dá)到統(tǒng)籌管理、運(yùn)維和使用的目的,油田應(yīng)用系統(tǒng)集成整合勢在必行。為了完成油田應(yīng)用系統(tǒng)的整合,首先要進(jìn)行對各個應(yīng)用系統(tǒng)進(jìn)行探測發(fā)現(xiàn)。在應(yīng)用主動發(fā)現(xiàn)的基礎(chǔ)上,通過對發(fā)現(xiàn)應(yīng)用系統(tǒng)的運(yùn)行現(xiàn)狀、軟件功能等情況進(jìn)行多維分析和實(shí)際效果評估,最終形成一套應(yīng)用系統(tǒng)主動發(fā)現(xiàn)和智能診斷方法,準(zhǔn)確發(fā)現(xiàn)油田網(wǎng)上運(yùn)行的應(yīng)用系統(tǒng),實(shí)現(xiàn)應(yīng)用系統(tǒng)的優(yōu)化管理。
為了判斷各服務(wù)器部署和發(fā)布的疑似應(yīng)用系統(tǒng),將采用網(wǎng)絡(luò)爬蟲技術(shù),Web內(nèi)容掃描技術(shù)以及桌面管理系統(tǒng)的數(shù)據(jù)挖掘相結(jié)合的方法,對疑似應(yīng)用系統(tǒng)特征信息進(jìn)行收集、分析和識別,多方式綜合判定。綜合利用三種技術(shù),彌補(bǔ)了單種技術(shù)所帶來局限性,形成一套完整的邏輯處理方法,較大程度實(shí)現(xiàn)了對應(yīng)用系統(tǒng)的主動探測。
(一) 爬蟲技術(shù)
要實(shí)現(xiàn)應(yīng)用系統(tǒng)的主動發(fā)現(xiàn),首先要使用爬蟲技術(shù)。在對應(yīng)用系統(tǒng)的主動發(fā)現(xiàn)過程中,網(wǎng)絡(luò)爬蟲和掃描插件在調(diào)度中心的統(tǒng)一調(diào)度下工作。選取固定入口,設(shè)計應(yīng)用特征庫解析關(guān)聯(lián)鏈接,逐級“爬行”遍歷,探找未注冊、未登記應(yīng)用。與一般爬蟲相比,主動發(fā)現(xiàn)技術(shù)所使用的網(wǎng)絡(luò)爬蟲不僅要發(fā)現(xiàn)在頁面內(nèi)的正常鏈接,也需要發(fā)現(xiàn)目標(biāo)服務(wù)器上存在的一些特殊文件數(shù)據(jù)用來分析,比如相關(guān)腳本的備份文件以及配置信息等。因此,要實(shí)現(xiàn)應(yīng)用系統(tǒng)信息的有效爬行抓取,提高解析速度和準(zhǔn)確性,動態(tài)擴(kuò)展網(wǎng)頁分析能力,對深層網(wǎng)頁分析及JS腳本分析,提供更豐富的爬行信息和技術(shù)方法是應(yīng)用系統(tǒng)主動發(fā)現(xiàn)技術(shù)網(wǎng)絡(luò)爬蟲的主要特點(diǎn)。網(wǎng)絡(luò)爬蟲工作機(jī)理如圖1所示。
(二) Web信息掃描
對一些爬蟲技術(shù)沒有發(fā)現(xiàn)的孤立系統(tǒng),可以依據(jù)油田安全漏洞掃描的結(jié)果數(shù)據(jù)來比對應(yīng)用特征庫,開展定點(diǎn)排查,追蹤疑似應(yīng)用。借鑒掃描工具的功能,對Web進(jìn)行內(nèi)容掃描,對應(yīng)用系統(tǒng)路徑、暴露關(guān)鍵問題信息等進(jìn)行收集、分析。這里主要研究開源的Web內(nèi)容掃描軟件,建立數(shù)據(jù)分析和特征庫,形成應(yīng)用識別模型和算法。
(三) 油田桌面管理系統(tǒng)的數(shù)據(jù)挖掘
為了全面實(shí)現(xiàn)服務(wù)器部署和發(fā)布的疑似應(yīng)用系統(tǒng)的主動探測。采用桌面管理系統(tǒng)的數(shù)據(jù)挖掘來彌補(bǔ)爬蟲技術(shù)和Web信息掃描對探測的不足之處。按照油田網(wǎng)絡(luò)管理規(guī)定,油田桌面管理系統(tǒng)安裝率100%。因此可以對油田桌面管理系統(tǒng)的數(shù)據(jù)分析和挖掘,監(jiān)控主機(jī)下IIS、Tomcat等進(jìn)程及配置數(shù)據(jù),輔助實(shí)現(xiàn)應(yīng)用系統(tǒng)的發(fā)現(xiàn)。
(四) 建立綜合應(yīng)用識別方法
每種技術(shù)方法都一定的局限性,如爬蟲方式需要有鏈接關(guān)系,需要幾種技術(shù)要綜合應(yīng)用,從多維度綜合判定。桌面系統(tǒng)根據(jù)進(jìn)程監(jiān)控,通知爬蟲系統(tǒng)對疑似URL遍歷;根據(jù)油田信息安全掃描數(shù)據(jù),對可能的Web應(yīng)用進(jìn)行爬行遍歷;通過內(nèi)容掃描,進(jìn)一步識別。
在應(yīng)用主動發(fā)現(xiàn)的基礎(chǔ)上,通過對發(fā)現(xiàn)應(yīng)用系統(tǒng)的運(yùn)行現(xiàn)狀、用戶粘度、分布狀況、應(yīng)用范圍、軟件功能等情況進(jìn)行多維分析和實(shí)際效果評估,形成一套完整的發(fā)現(xiàn)應(yīng)用運(yùn)行狀況評估技術(shù)方案;建立應(yīng)用質(zhì)量評估模型,形成應(yīng)用性能監(jiān)測診斷技術(shù)體系。最終達(dá)到為應(yīng)用瘦身、停用替代、提供診斷的目的,使油田網(wǎng)絡(luò)資源達(dá)到統(tǒng)一管理、安全運(yùn)維和節(jié)約化使用,實(shí)現(xiàn)應(yīng)用系統(tǒng)集中管控,有效提高應(yīng)用系統(tǒng)利用率。
(一) 性能監(jiān)控
分為模擬性能監(jiān)控和真實(shí)用戶監(jiān)控。模擬性能監(jiān)控通過嵌碼和探針等方法從應(yīng)用前后端獲取不同性能參數(shù),設(shè)計算法形成應(yīng)用性能綜合評價。定期訪問網(wǎng)站并記錄每次運(yùn)行的性能數(shù)據(jù)。測量的流量并非實(shí)際用戶所產(chǎn)生的,而是用于收集頁面性能時生成的。真實(shí)用戶監(jiān)控由供應(yīng)商提供嵌入到每個頁面的代理(JavaScript腳本),報告當(dāng)前頁面的每個請求的加載數(shù)據(jù),觀測實(shí)際用戶的交互,分析數(shù)據(jù),最終形成應(yīng)用性能指標(biāo)。
(二) 性能分析與量化評估數(shù)據(jù)處理
1、 數(shù)據(jù)整理
在獲取了大量的有關(guān)應(yīng)用系統(tǒng)的數(shù)據(jù)之后,這些數(shù)據(jù)中可能包含一些不一致、重復(fù)、不完整、存在錯誤或異常(偏離期望值)的數(shù)據(jù),為了使后續(xù)預(yù)測階段有較好的表現(xiàn),需要對這些數(shù)據(jù)進(jìn)行:數(shù)據(jù)清洗,去掉噪聲和無關(guān)數(shù)據(jù);數(shù)據(jù)集成,將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中;數(shù)據(jù)變換,把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式;數(shù)據(jù)歸約,數(shù)據(jù)立方體聚集,維歸約,數(shù)據(jù)壓縮,數(shù)值歸約,離散化和概念分層等。
2、關(guān)聯(lián)分析
兩個或兩個以上變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)中存在的一類重要的、可被發(fā)現(xiàn)的知識。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個閥值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。
3、序列模式
時間序列分析則側(cè)重研究數(shù)據(jù)序列的互相依賴關(guān)系。實(shí)際上是對離散指標(biāo)的隨機(jī)過程的統(tǒng)計分析,所以又可看作是隨機(jī)過程統(tǒng)計的一個組成部分。在一組有序的數(shù)據(jù)列組成的數(shù)據(jù)集中,經(jīng)常出現(xiàn)的那些序列組合構(gòu)成的模式。跟我們所熟知的關(guān)聯(lián)規(guī)則挖掘不一樣,序列模式挖掘的對象以及結(jié)果都是有序的。在經(jīng)過了數(shù)據(jù)處理之后所得到的數(shù)據(jù)可以直接用于預(yù)測模型,可以提高后期工作效率。
(三) 應(yīng)用性能指數(shù)(Apdex)
Apdex 是用戶對應(yīng)用性能滿意度的量化值,提供統(tǒng)一的測量和報告用戶體驗方法,把最終用戶的體驗和應(yīng)用性能作為一個完整指標(biāo)進(jìn)行度量。采樣結(jié)果被量化為一個0 到 1之間的數(shù)值即 “Apdex 指數(shù)”,0 代表沒有滿意用戶,1則代表所有用戶都滿意。經(jīng)過統(tǒng)計,Apdex 把這個數(shù)值與用戶滿意程度細(xì)化對應(yīng),如圖4所示.
對于應(yīng)用性能的 Apdex 評分與用戶的體驗緊密關(guān)聯(lián),為管理者提供了一種通過應(yīng)用性能量化值來評估用戶滿意度的方法。
(四) 量化分析指標(biāo)
采集系統(tǒng)模塊訪問量、在線人數(shù)、停留時間、數(shù)據(jù)庫增量、更新時間、數(shù)據(jù)更新情況等數(shù)據(jù);通過指標(biāo)對比、應(yīng)用對比、分單位應(yīng)用情況、數(shù)據(jù)庫更新對比等。建立符合實(shí)際的量化分析指標(biāo),在此基礎(chǔ)上形成可視化的性能分析。
針對應(yīng)用系統(tǒng)難以準(zhǔn)確掌握,低效無效應(yīng)用占用資源,存在安全風(fēng)險的問題,借鑒國內(nèi)外相關(guān)應(yīng)用優(yōu)化最新成果,采用網(wǎng)絡(luò)爬蟲技術(shù),Web內(nèi)容掃描技術(shù)以及桌面管理系統(tǒng)的數(shù)據(jù)挖掘相結(jié)合的方法,多維度綜合判定存在的應(yīng)用系統(tǒng);對所發(fā)現(xiàn)應(yīng)用系統(tǒng)的運(yùn)行現(xiàn)狀、用戶粘度、分布狀況、應(yīng)用范圍、軟件功能等情況進(jìn)行多維分析,建立應(yīng)用智能識別和評估模型和算法,開發(fā)應(yīng)用發(fā)現(xiàn)與診斷系統(tǒng),對應(yīng)用系統(tǒng)進(jìn)行性能分析與量化評估,達(dá)到高效利用有限網(wǎng)絡(luò)資源,提高用戶體驗和降低維護(hù)成本的目的。
平臺架構(gòu)如圖5所示,分為三層。
數(shù)據(jù)采集層:獲取用戶訪問信息、響應(yīng)時間等;
數(shù)據(jù)分析層:利用應(yīng)用系統(tǒng)性能分析與量化評估技術(shù)對采集到的數(shù)據(jù)進(jìn)行多維度分析;
告警層:通過應(yīng)用性能監(jiān)測及故障診斷技術(shù)對出現(xiàn)的異常情況告警可視化。
平臺通過高速數(shù)據(jù)采集設(shè)備對核心交換機(jī)骨干鏈路的業(yè)務(wù)流量進(jìn)行實(shí)時采集和 DPI 分析,通過系統(tǒng)性能分析、量化評估和應(yīng)用系統(tǒng)異常預(yù)警進(jìn)行端到端的性能測量和管理,幫助網(wǎng)絡(luò)運(yùn)維部門預(yù)先和實(shí)時掌握網(wǎng)絡(luò)應(yīng)用系統(tǒng)運(yùn)行質(zhì)量狀況。
首先,在系統(tǒng)性能與量化評估分析方面,平臺具備數(shù)據(jù)流量透視能力,可實(shí)現(xiàn)對鏈路層、網(wǎng)絡(luò)層、傳輸層的流量和流數(shù)目進(jìn)行統(tǒng)計分析。從應(yīng)用、用戶、外部地址三個不同的角度對流量的趨勢、排名進(jìn)行統(tǒng)計分析,查看最近5分鐘、最近3小時、 最近1天、最近一月、最近一年等不同時間段里哪些應(yīng)用所 產(chǎn)生的流量最大,可確定異常流量來源、識別其所對應(yīng)的應(yīng)用類型、記錄其發(fā)生的時刻和存在的時間、追蹤其傳輸?shù)穆窂胶湍康牡?,對異常流量進(jìn)行定位、跟蹤、溯源。傳統(tǒng)的網(wǎng)管監(jiān)測,對鏈路性能進(jìn)行監(jiān)測時,只有通過運(yùn)維人員 ping 鏈路 IP,才能看出鏈路的延遲、丟包率 等數(shù)據(jù),無法監(jiān)測出鏈路實(shí)時帶寬。而應(yīng)用性能監(jiān)測及故障診斷平臺可以實(shí)時看出應(yīng)用服務(wù)器網(wǎng)絡(luò)的延遲、抖動、丟包率,甚至是可用帶寬、 瓶頸帶寬等性能參數(shù)。能對鏈路上運(yùn)行的應(yīng)用進(jìn)行深度分析得出有價值的性能數(shù)據(jù)和統(tǒng)計數(shù)據(jù),依據(jù)統(tǒng)計數(shù)據(jù)可分析出鏈路中哪種應(yīng)用運(yùn)行更加順暢,定位應(yīng)用性能瓶頸,有助于合理分配網(wǎng)絡(luò)應(yīng)用資源,快速解決因資源分配不合理導(dǎo)致的網(wǎng)絡(luò)擁塞現(xiàn)象。
其次,在智能診斷方面,針對油田內(nèi)部網(wǎng)絡(luò)各類業(yè)務(wù)(包括 Web、DNS、視頻、流媒體、FTP、數(shù)據(jù)庫、郵件、內(nèi)部生產(chǎn)業(yè)務(wù)等)實(shí)時運(yùn)行性能進(jìn)行可視化深度分析,可實(shí)時感知DDos攻擊、蠕蟲爆發(fā)、大規(guī)模病毒傳播和非規(guī)律的流量變化等網(wǎng)絡(luò)異常情況,精準(zhǔn)定位問題根源組件,有助于區(qū)分故障是在網(wǎng)絡(luò)側(cè)還是服務(wù)器側(cè)。 通過對應(yīng)用網(wǎng)絡(luò)流量動態(tài)基線分析,維護(hù)人員無須為每一異常流量數(shù)據(jù)包特征尋求或開發(fā)專屬的偵測程序,高精度、高同步性的動態(tài)流量監(jiān)測測量數(shù)據(jù)為運(yùn)維人員提供了更可靠、 更精確網(wǎng)絡(luò)應(yīng)用流量告警。使運(yùn)維人員對油田內(nèi)部網(wǎng)絡(luò)應(yīng)用巡視維護(hù)效率大大提升;從傳統(tǒng)的被動排查,到現(xiàn)在及時主動發(fā)現(xiàn),提高故障響應(yīng)速度,降低應(yīng)用網(wǎng)絡(luò)性能分析成本,從而提升整個油田內(nèi)部應(yīng)用的可靠性及運(yùn)維效率。有助于即時發(fā)現(xiàn)網(wǎng)絡(luò)應(yīng)用配置故障、路由環(huán)回故障、顯著性能下降等服務(wù)器網(wǎng)絡(luò)故障,避免了傳統(tǒng)排查的費(fèi)時費(fèi)力。
通過研究,形成一套應(yīng)用系統(tǒng)主動發(fā)現(xiàn)和智能診斷方法,準(zhǔn)確發(fā)現(xiàn)油田網(wǎng)上運(yùn)行的應(yīng)用系統(tǒng),實(shí)現(xiàn)應(yīng)用系統(tǒng)的優(yōu)化管理。對于進(jìn)一步整合油田應(yīng)用系統(tǒng),高效利用網(wǎng)絡(luò)資源具有重要意義??梢詫?shí)現(xiàn)油田應(yīng)用系統(tǒng)的有效管控,對整個油田應(yīng)用系統(tǒng)的分布狀況,應(yīng)用范圍,利用率,運(yùn)行現(xiàn)狀等全面及時了解。明確油田各應(yīng)用系統(tǒng)之間的關(guān)系,為應(yīng)用的故障預(yù)測提供依據(jù)。使油田網(wǎng)絡(luò)資源達(dá)到統(tǒng)一管理、安全運(yùn)維和節(jié)約化使用。分析應(yīng)用系統(tǒng)的功能和業(yè)務(wù),在更高層次上分析業(yè)務(wù)關(guān)聯(lián),為信息化頂層設(shè)計提供科學(xué)的決策依據(jù)。為云平臺的推廣應(yīng)用,基于組件復(fù)用集成穩(wěn)定運(yùn)行提供保障。
基金項目:中國石化勝利油田分公司科研項目“應(yīng)用系統(tǒng)主動發(fā)現(xiàn)與診斷處置技術(shù)分析”,項目編號:YKJ1904-1