今天,當(dāng)我們回顧運(yùn)維工作時(shí),我們發(fā)現(xiàn)可以把其分為四個(gè)階段。
在運(yùn)維1.0階段,運(yùn)維工作主要采用了指標(biāo)監(jiān)控、閥值報(bào)警的方法,其過程采取定義應(yīng)用關(guān)鍵指標(biāo),利用事件觸發(fā)細(xì)顆粒度數(shù)據(jù)采集的方法。但這種方法存在一個(gè)巨大的問題,就是故障分析的工作量成倍增長;另一方面,由于應(yīng)用間調(diào)用關(guān)系的存在,判斷故障根因必須參考多個(gè)應(yīng)用在同一時(shí)刻的狀態(tài),導(dǎo)致故障根因的判斷流程漫長,需要多部門協(xié)同工作,故障排查的時(shí)間無法控制。
同時(shí),運(yùn)維1.0階段存在的一個(gè)較大的問題,是無法避免大量誤報(bào),這極大的消耗了寶貴的時(shí)間和人力,由此提出了運(yùn)維2.0的思路和方法。在這一階段,通過對(duì)已知問題的根因進(jìn)行分析,將根因?qū)е碌膯栴}場景化,并定義相關(guān)監(jiān)控指標(biāo),在此基礎(chǔ)上對(duì)增量問題不斷加以分析補(bǔ)充,使得報(bào)警數(shù)據(jù)量得到了極大的減少。在某大型銀行中,減少了40%的報(bào)警數(shù)據(jù)量。
圖1 運(yùn)維4.0平臺(tái)
但是,運(yùn)維2.0階段依然無法完全滿足運(yùn)維工作的需求,其問題表現(xiàn)為由于相關(guān)應(yīng)用部署時(shí)存在的資源差異,導(dǎo)致的重復(fù)報(bào)警。由此,運(yùn)維3.0階段來到了。在這一階段,人們采用基線報(bào)警和事件分級(jí)的方法,基于生產(chǎn)環(huán)境的數(shù)據(jù),建立應(yīng)用系統(tǒng)的性能基線,并定義性能基線的相關(guān)分級(jí)警報(bào)數(shù)值,并與事件相關(guān)聯(lián),從而實(shí)現(xiàn)了基于模型規(guī)則的報(bào)警事件,并根據(jù)不同角色推送相應(yīng)警報(bào)內(nèi)容,從而在運(yùn)維3.0階段實(shí)現(xiàn)了60%的問題量減少。
運(yùn)維3.0階段存在一個(gè)較大的問題,即由于應(yīng)用間調(diào)用關(guān)系和第三方服務(wù)的存在,以及業(yè)務(wù)視角和覆蓋全局和第三方的視圖的缺乏,針對(duì)單一應(yīng)用的監(jiān)控?zé)o法準(zhǔn)確描述業(yè)務(wù)的可用性和質(zhì)量,因此需要引入新的工具以進(jìn)一步提升運(yùn)維工作的質(zhì)量和效率,促使運(yùn)維平臺(tái)進(jìn)化到4.0時(shí)代。針對(duì)這一需求,比較有效的方法是在運(yùn)維平臺(tái)中引入網(wǎng)絡(luò)流量分析數(shù)據(jù),和ELK工具實(shí)現(xiàn)針對(duì)大量應(yīng)用、業(yè)務(wù)日志的集中式高效分析。在運(yùn)維4.0平臺(tái)上。應(yīng)當(dāng)實(shí)現(xiàn)幾個(gè)目標(biāo):端到端的監(jiān)控?cái)?shù)據(jù)管理;系統(tǒng)資源的自動(dòng)化按需分配;關(guān)聯(lián)應(yīng)用特點(diǎn)的模型;日志檢查和規(guī)范化;客戶端性能監(jiān)控;交易路徑和覆蓋率檢查;面向業(yè)務(wù)交易的性能基線;最終實(shí)現(xiàn)事件觸發(fā)的運(yùn)維自動(dòng)化操作。
對(duì)比運(yùn)維4.0平臺(tái)的目標(biāo)和Gartner定義的AIOps,可 以 發(fā) 現(xiàn) 兩者的需求和目標(biāo)是完全一致的。即下一代運(yùn)維平臺(tái)應(yīng)當(dāng)是一個(gè)多層次的技術(shù)平臺(tái),使用分析和機(jī)器學(xué)習(xí)技術(shù),采集和分析來自于不同IT運(yùn)維工具、設(shè)備的大數(shù)據(jù),以實(shí)現(xiàn)故障根因的自動(dòng)分析和定位,響應(yīng)實(shí)時(shí)問題,使得IT運(yùn)維工作通過自動(dòng)化得到增強(qiáng)。
基于以上定義,可以發(fā)現(xiàn)新一代的智能運(yùn)維管理平臺(tái)是針對(duì)現(xiàn)有運(yùn)維平臺(tái)的提升,以大數(shù)據(jù)和機(jī)器學(xué)習(xí)為手段將現(xiàn)有多種監(jiān)控?cái)?shù)據(jù)和業(yè)務(wù)數(shù)據(jù)、事件加以整合,結(jié)合原有的人工運(yùn)維操作包括故障根因判斷和操作等,實(shí)現(xiàn)復(fù)雜能力的工具化,進(jìn)而實(shí)現(xiàn)運(yùn)維操作的自動(dòng)化,并以此為基礎(chǔ),實(shí)現(xiàn)整個(gè)運(yùn)維監(jiān)控平臺(tái)的不斷進(jìn)化。而就整個(gè)智能運(yùn)維平臺(tái)的技術(shù)架構(gòu)來說,其數(shù)據(jù)源不僅涵蓋現(xiàn)有的監(jiān)控?cái)?shù)據(jù)源,如網(wǎng)絡(luò)設(shè)備、操作系統(tǒng)、應(yīng)用程序等等,還應(yīng)當(dāng)包含業(yè)務(wù)操作日志、變更管理、配置管理、設(shè)備管理等等,以大數(shù)據(jù)技術(shù)為手段,實(shí)現(xiàn)所有運(yùn)維監(jiān)控?cái)?shù)據(jù)的計(jì)算、分析,以機(jī)器學(xué)習(xí)技術(shù)引導(dǎo)運(yùn)維操作的不斷進(jìn)化,最終以可視化的方式實(shí)現(xiàn)系統(tǒng)狀態(tài)、故障根因、排障操作的可視化、自動(dòng)化。
圖2 AIOps的定義
當(dāng)前,作為一個(gè)新生領(lǐng)域的智能運(yùn)維平臺(tái)還處于發(fā)展的初期,發(fā)現(xiàn)并收集有價(jià)值的數(shù)據(jù)是當(dāng)務(wù)之急和首要問題。而網(wǎng)絡(luò)流量作為整個(gè)IT系統(tǒng)的基礎(chǔ),任何的系統(tǒng)間通信、業(yè)務(wù)處理都以網(wǎng)絡(luò)流量為基礎(chǔ),任何故障也都必然以網(wǎng)絡(luò)流量為表現(xiàn),所有的運(yùn)維操作也都以網(wǎng)絡(luò)流量為手段實(shí)現(xiàn),因此網(wǎng)絡(luò)全流量數(shù)據(jù)是最為完整的數(shù)據(jù)源,對(duì)其進(jìn)行采集和深度分析,可以作為智能運(yùn)維平臺(tái)的基礎(chǔ)。同時(shí),結(jié)合其他數(shù)據(jù)源,也是構(gòu)建智能運(yùn)維平臺(tái)的最佳路徑。
當(dāng)我們以網(wǎng)絡(luò)全流量分析為基礎(chǔ)組件之一構(gòu)建智能運(yùn)維平臺(tái)時(shí),需要考慮的一個(gè)問題是,僅在IT系統(tǒng)中關(guān)鍵節(jié)點(diǎn)或者應(yīng)用前段部署網(wǎng)絡(luò)流量采集點(diǎn)是無法滿足全系統(tǒng)監(jiān)控分析的要求的,因此,不僅在應(yīng)用前段需要部署流量采集點(diǎn),在應(yīng)用交易路徑的所有環(huán)節(jié)都應(yīng)當(dāng)部署流量采集點(diǎn),并加以統(tǒng)一視圖的分析,才能清晰準(zhǔn)確的實(shí)現(xiàn)應(yīng)用和整個(gè)系統(tǒng)的運(yùn)維監(jiān)控需求。
另一方面,網(wǎng)絡(luò)流量采集探針不能僅針對(duì)網(wǎng)絡(luò)設(shè)備等硬件,由于云計(jì)算、SDN技術(shù)的大規(guī)模應(yīng)用,流量采集探針也必須支持虛擬化環(huán)境、云和SDN環(huán)境,不僅能采集物理設(shè)備間的流量,還必須能夠在采集虛擬環(huán)境內(nèi)部的流量,特別是由于SDN環(huán)境的特點(diǎn)限制,網(wǎng)絡(luò)全流量采集分析是SDN環(huán)境下最佳故障排查手段。
在數(shù)據(jù)中心層面,新一代的智能運(yùn)維平臺(tái)必須能夠?qū)崿F(xiàn)應(yīng)用的全局監(jiān)控,快速準(zhǔn)確的展現(xiàn)應(yīng)用和業(yè)務(wù)運(yùn)行狀態(tài),同時(shí)對(duì)于應(yīng)用路徑的各個(gè)環(huán)節(jié)也必須實(shí)現(xiàn)全路徑監(jiān)控,當(dāng)任意一點(diǎn)由于任何原因?qū)е碌漠惓,F(xiàn)象,實(shí)現(xiàn)快速、準(zhǔn)確的展現(xiàn)和警報(bào),更進(jìn)一步,新一代的智能運(yùn)維平臺(tái)還應(yīng)當(dāng)具有深度的數(shù)據(jù)挖掘能力,可以對(duì)任何異?,F(xiàn)象實(shí)現(xiàn)數(shù)據(jù)包的深度挖掘和分析,還原異?,F(xiàn)象并對(duì)根因做出最準(zhǔn)確的還原和分析。
另一方面,由于移動(dòng)互聯(lián)網(wǎng)的快速普及,在很多行業(yè),基于移動(dòng)端的業(yè)務(wù)交易已經(jīng)成為業(yè)務(wù)的主要實(shí)現(xiàn)方式,特別是在金融行業(yè),移動(dòng)端交易量已經(jīng)超過了50%的交易占比,但是由于移動(dòng)互聯(lián)網(wǎng)的復(fù)雜度和移動(dòng)設(shè)備的多樣性,導(dǎo)致異?,F(xiàn)象的排查難度大幅提高,因此,新一代的智能運(yùn)維平臺(tái)不能僅面向數(shù)據(jù)中心提供運(yùn)維監(jiān)控支持,還必須具備客戶端特別是移動(dòng)端的運(yùn)維監(jiān)控能力,能夠快速準(zhǔn)備的采集、匯總、分析移動(dòng)端應(yīng)用程序的運(yùn)行狀態(tài)。同時(shí),基于當(dāng)前精準(zhǔn)營銷,業(yè)務(wù)快速拓展的需求,移動(dòng)端客戶行為分析也成為了業(yè)務(wù)需求之一,新一代的智能運(yùn)維平臺(tái)應(yīng)對(duì)此需求具備支持手段,作為數(shù)據(jù)源之一為業(yè)務(wù)營銷提供支持。
在數(shù)值監(jiān)控方面,新一代的智能運(yùn)維平臺(tái)不能僅面向IT運(yùn)維,還應(yīng)當(dāng)具備業(yè)務(wù)運(yùn)行的支撐能力,能夠?qū)崟r(shí)反映業(yè)務(wù)的運(yùn)行狀態(tài),對(duì)于交易成功率、交易時(shí)延、交易類別等等業(yè)務(wù)運(yùn)行狀態(tài)提供快速準(zhǔn)確的監(jiān)控報(bào)警能力,特別是在業(yè)務(wù)促銷、大業(yè)務(wù)量突發(fā)等場景下具備實(shí)時(shí)監(jiān)控能力。相應(yīng)的,新一代的智能運(yùn)維平臺(tái)在應(yīng)用層面還必須具備交易路徑的監(jiān)控分析能力,這種能力不同于針對(duì)IT環(huán)境的監(jiān)控,其應(yīng)當(dāng)是對(duì)交易路徑中包括關(guān)聯(lián)業(yè)務(wù)和第三方等各個(gè)環(huán)節(jié)的監(jiān)控分析能力。而在警報(bào)分析能力層面,新一代的智能運(yùn)維平臺(tái)不能采用傳統(tǒng)的閥值警報(bào)模式,基線警報(bào)模式是其基本的要求之一。只有采用性能基線監(jiān)控和報(bào)警模式才能準(zhǔn)確反映一個(gè)時(shí)間段內(nèi)業(yè)務(wù)和應(yīng)用的變化趨勢,并對(duì)未來的業(yè)務(wù)和應(yīng)用發(fā)展態(tài)勢做出預(yù)測。
圖3 AIOps的技術(shù)架構(gòu)
在今天的IT團(tuán)隊(duì)中,網(wǎng)絡(luò)、應(yīng)用、研發(fā)、安全是必備的四個(gè)部門,各部門的配合與協(xié)調(diào)確保了整個(gè)IT系統(tǒng)的平穩(wěn)可靠運(yùn)行,進(jìn)而確保了業(yè)務(wù)和交易的平穩(wěn)可靠。因此,從整個(gè)IT團(tuán)隊(duì)的角度出發(fā),新一代的智能運(yùn)維平臺(tái)不能像傳統(tǒng)平臺(tái)一樣僅面向單一的團(tuán)隊(duì),完成單一的網(wǎng)絡(luò)或者應(yīng)用等的運(yùn)維工作。新一代的智能運(yùn)維平臺(tái)應(yīng)當(dāng)是一個(gè)集成的平臺(tái),面向網(wǎng)絡(luò)、應(yīng)用、研發(fā)、安全部門,提供全方位的支持和操作平臺(tái)。因此,新一代的智能運(yùn)維平臺(tái)應(yīng)當(dāng)具備多層次的監(jiān)控運(yùn)維能力,既針對(duì)特定部門的特定需求提供精準(zhǔn)的監(jiān)控和操作工具,也可以針對(duì)部門間配合協(xié)調(diào)需求,提供集成化監(jiān)控分析和操作手段。
當(dāng)新一代的智能運(yùn)維平臺(tái)具備多種能力之后,其面向IT團(tuán)隊(duì)的人機(jī)接口就成為其可用性關(guān)鍵因素。只有具備了清晰、準(zhǔn)確、快速的展現(xiàn)能力,才能為整個(gè)業(yè)務(wù)應(yīng)用系統(tǒng)提供更好的支撐。因此新一代的智能運(yùn)維平臺(tái)的展現(xiàn)能力也應(yīng)當(dāng)是層次化的。面向業(yè)務(wù),其應(yīng)當(dāng)具備不同業(yè)務(wù)間的關(guān)聯(lián)關(guān)系和業(yè)務(wù)運(yùn)行狀態(tài)的展現(xiàn)能力,從而提供業(yè)務(wù)狀態(tài)的監(jiān)控分析能力。
而針對(duì)單一業(yè)務(wù),新一代的智能運(yùn)維平臺(tái)也必須提供全應(yīng)用系統(tǒng)的監(jiān)控、分析、展現(xiàn)能力,不僅僅包括了網(wǎng)絡(luò)設(shè)備或者應(yīng)用的單一視圖,還應(yīng)當(dāng)提供涵蓋了客戶端、網(wǎng)絡(luò)、應(yīng)用的統(tǒng)一視圖,從而實(shí)現(xiàn)針對(duì)應(yīng)用全系統(tǒng)的統(tǒng)一監(jiān)控,提升網(wǎng)絡(luò)、應(yīng)用、安全等不同運(yùn)維部門間的協(xié)同配合能力。相應(yīng)的,新一代的智能運(yùn)維平臺(tái)也必須具備定制化的數(shù)值監(jiān)控能力,可以將重要的業(yè)務(wù)數(shù)據(jù)、應(yīng)用狀態(tài)、網(wǎng)絡(luò)狀態(tài)集中監(jiān)控和分析,提升網(wǎng)絡(luò)、應(yīng)用、安全等不同運(yùn)維部門間的協(xié)同配合能力。
當(dāng)前,新一代的智能運(yùn)維平臺(tái)已經(jīng)成為了IT系統(tǒng)運(yùn)維工作的發(fā)展方向,而基于網(wǎng)絡(luò)全流量分析的智能運(yùn)維平臺(tái)已經(jīng)具備基本的能力,但是距離智能運(yùn)維平臺(tái)的要求尚存在差距。未來,應(yīng)當(dāng)引入多種數(shù)據(jù)源,采集分析來自業(yè)務(wù)事件、運(yùn)維操作、配置管理、資產(chǎn)管理等等多個(gè)來源的數(shù)據(jù),實(shí)現(xiàn)綜合的智能化分析,從而實(shí)現(xiàn)異常事件的自動(dòng)發(fā)現(xiàn)、警報(bào)和根因分析,并在此基礎(chǔ)上實(shí)現(xiàn)自動(dòng)化操作。