国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時(shí)代下的Hadoop智能運(yùn)維

2018-07-04 01:06中移蘇州軟件技術(shù)有限公司吳文昊
通信世界 2018年15期
關(guān)鍵詞:時(shí)序日志集群

中移(蘇州)軟件技術(shù)有限公司|吳文昊

面對(duì)企業(yè)數(shù)據(jù)的爆發(fā)式增長(zhǎng),大數(shù)據(jù)系統(tǒng)的節(jié)點(diǎn)數(shù)量眾多、日志數(shù)據(jù)繁雜、組件種類(lèi)多樣等特點(diǎn),使得傳統(tǒng)的運(yùn)維工具難以很好地保障系統(tǒng)的穩(wěn)定運(yùn)行。

目前,市面上傳統(tǒng)的Hadoop運(yùn)維工具的功能主要集中在自動(dòng)化安裝部署、集群指標(biāo)監(jiān)控、集群故障告警等方面,旨在通過(guò)自動(dòng)化處理和腳本執(zhí)行的方式對(duì)Hadoop集群進(jìn)行故障的自動(dòng)診斷和處理,但是處理手段比較薄弱,并且對(duì)于復(fù)雜故障的診斷,還是需要依賴(lài)資深運(yùn)維人員的知識(shí)積累和經(jīng)驗(yàn)。

大數(shù)據(jù)運(yùn)維領(lǐng)域“長(zhǎng)路漫漫”

在自動(dòng)化安裝部署方面,傳統(tǒng)自動(dòng)化運(yùn)維工具基本上可以通過(guò)向?qū)У姆绞酵瓿蒆adoop組件在各個(gè)節(jié)點(diǎn)的安裝,但是對(duì)于集群安裝完成后的配置項(xiàng),卻無(wú)法進(jìn)行自動(dòng)化的初始配置,需要運(yùn)維人員根據(jù)部署機(jī)器的硬件環(huán)境來(lái)進(jìn)行調(diào)整。這就導(dǎo)致即使集群已經(jīng)安裝部署完成,但是其使用的效率卻比較低,無(wú)法達(dá)到初步滿(mǎn)足正常生產(chǎn)使用的效果。

在集群指標(biāo)監(jiān)控上,目前業(yè)界的監(jiān)控指標(biāo)軟件相對(duì)來(lái)說(shuō)較為成熟,大多數(shù)都能夠?qū)崿F(xiàn)集群,以及節(jié)點(diǎn)和服務(wù)級(jí)別的多維度監(jiān)控。但是對(duì)于這些監(jiān)控指標(biāo)項(xiàng)的處理分析,卻基本上很難見(jiàn)到,無(wú)法根據(jù)一些統(tǒng)計(jì)學(xué)甚至人工智能的算法,來(lái)識(shí)別指標(biāo)項(xiàng)之間的關(guān)系,從而發(fā)現(xiàn)Hadoop集群深層次的內(nèi)在聯(lián)系。

在故障告警上,業(yè)界傳統(tǒng)運(yùn)維工具的功能基本上大同小異,幾乎都是通過(guò)前端頁(yè)面/郵件/短信等方式,將故障信息告知相關(guān)運(yùn)維人員,并提供了基本的管理功能,如告警周期管理、告警人員管理等。目前的告警功能,主要是在集群異常發(fā)生后,觸發(fā)了預(yù)設(shè)的告警機(jī)制,從而產(chǎn)生告警,而無(wú)法對(duì)集群的故障進(jìn)行提前預(yù)警和發(fā)現(xiàn),從而實(shí)現(xiàn)未雨綢繆、故障規(guī)避的效果。

由上,我們可以看到,在大數(shù)據(jù)的運(yùn)維領(lǐng)域,其實(shí)還有很長(zhǎng)的路要走。目前的運(yùn)維機(jī)制,對(duì)于保障大規(guī)模、超大規(guī)模的Hadoop集群來(lái)說(shuō),還遠(yuǎn)遠(yuǎn)不夠。因此,結(jié)合機(jī)器學(xué)習(xí)、深度學(xué)習(xí)以及知識(shí)庫(kù)等人工智能技術(shù),打造一套能夠自動(dòng)化發(fā)現(xiàn)故障,分析根因并且提供相關(guān)故障解決方案的智能化運(yùn)維系統(tǒng),顯得尤為關(guān)鍵。

Hadoop智能運(yùn)維

從工業(yè)界的角度來(lái)說(shuō),目前對(duì)于Hadoop集群的智能運(yùn)維,所圍繞的主線集中在故障發(fā)現(xiàn)——根因分析——問(wèn)題修復(fù)——故障規(guī)避的全流程,簡(jiǎn)單來(lái)說(shuō),也就是對(duì)于集群已出現(xiàn)的故障,能夠快速分析其發(fā)生原因,并針對(duì)性地解決故障,甚至在后期通過(guò)故障預(yù)處理在故障實(shí)際發(fā)生之前就使其得到解決。

圖 深度學(xué)習(xí)模型訓(xùn)練和預(yù)測(cè)流程圖

上述相關(guān)功能,很多都要依靠人工智能的技術(shù)來(lái)進(jìn)行實(shí)現(xiàn),例如對(duì)集群資源進(jìn)行預(yù)測(cè),通常采用深度神經(jīng)網(wǎng)絡(luò)模型對(duì)輸入數(shù)據(jù)訓(xùn)練時(shí)序進(jìn)行判別,具體流程如圖所示。

從整體的流程圖可以看出,整個(gè)預(yù)測(cè)流程分為離線訓(xùn)練部分和在線預(yù)測(cè)部分。離線部分主要包括深度學(xué)習(xí)模型的訓(xùn)練和預(yù)測(cè)技術(shù)實(shí)現(xiàn),模型的選擇依據(jù)數(shù)據(jù)特征,可以考慮使用卷積神經(jīng)網(wǎng)路(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)等綜合評(píng)測(cè)模型的結(jié)果,選擇最佳模型。而在線部分,主要是基于已成熟的數(shù)學(xué)模型,導(dǎo)入實(shí)時(shí)數(shù)據(jù),進(jìn)行未來(lái)集群資源指標(biāo)的預(yù)測(cè)。

在日志分析方面,已采集的日志數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ),并通過(guò)深度學(xué)習(xí)平臺(tái)建立和訓(xùn)練數(shù)學(xué)模型,同時(shí)通過(guò)深度學(xué)習(xí)API實(shí)時(shí)監(jiān)控模型的能力。具體實(shí)現(xiàn)步驟如下。

步驟1:建立詞典詞庫(kù)

將運(yùn)維過(guò)程中會(huì)產(chǎn)生的同等意義的詞語(yǔ)、單詞、符號(hào)等內(nèi)容建立鏈接,形成同義詞詞庫(kù);

將集群、組件、接口中的日志信息、操作流水以及告警信息中含有的關(guān)鍵詞進(jìn)行標(biāo)注具體事件,并建立知識(shí)庫(kù)詞典。

步驟2:日志中提取關(guān)鍵詞,形成模型訓(xùn)練數(shù)據(jù)

將日常監(jiān)控的日志數(shù)據(jù)格式過(guò)濾,再進(jìn)行分詞處理,提取關(guān)鍵詞后根據(jù)同義詞詞庫(kù)進(jìn)行同一化處理,實(shí)現(xiàn)以“時(shí)序-關(guān)鍵詞”為結(jié)構(gòu)的訓(xùn)練數(shù)據(jù)。

步驟3:通過(guò)貝葉斯算法計(jì)算事件發(fā)生的時(shí)序關(guān)聯(lián)關(guān)系

將“時(shí)序-事件”結(jié)構(gòu)的訓(xùn)練數(shù)據(jù)通過(guò)貝葉斯算法進(jìn)行計(jì)算形成類(lèi)似{時(shí)序,事件1→事件2,P(事件2|事件1)}的結(jié)果。

步驟4:確定目標(biāo)故障分類(lèi)

對(duì)故障事件進(jìn)行標(biāo)注、分類(lèi),明確集群故障預(yù)測(cè)目標(biāo)。

步驟5:在RNN中訓(xùn)練模型

將訓(xùn)練數(shù)據(jù)在RNN中,選擇隱藏層數(shù)量、調(diào)整參數(shù)和權(quán)重,并多次訓(xùn)練后得到模型。

步驟6:模型結(jié)果封裝API接口提供給BOMC調(diào)用

模型結(jié)果封裝成API提供給上層平臺(tái)調(diào)用。集群監(jiān)控日志數(shù)據(jù)通過(guò)格式過(guò)濾、分詞處理和關(guān)鍵詞提取后,通過(guò)封裝API的處理,接入短信、郵件、電話告警,及時(shí)提醒運(yùn)維人員對(duì)系統(tǒng)故障進(jìn)行處理,減少對(duì)集群上層應(yīng)用能力的影響。

目前,隨著大數(shù)據(jù)集群部署的越來(lái)越多,集群規(guī)模日益增長(zhǎng),對(duì)于集群運(yùn)維的需求越來(lái)越強(qiáng)。通過(guò)智能運(yùn)維技術(shù),我們力求盡可能地釋放運(yùn)維人員壓力,使得運(yùn)維人員在面對(duì)復(fù)雜的系統(tǒng)故障時(shí),能夠利用人工智能技術(shù)對(duì)監(jiān)控指標(biāo),日志數(shù)據(jù)的多維分析,準(zhǔn)確定位故障發(fā)生的原因,并且根據(jù)知識(shí)庫(kù)的反饋,快速找到解決問(wèn)題的辦法,甚至自動(dòng)完成故障的排查和處理。

猜你喜歡
時(shí)序日志集群
顧及多種弛豫模型的GNSS坐標(biāo)時(shí)序分析軟件GTSA
清明
一名老黨員的工作日志
扶貧日志
基于不同建設(shè)時(shí)序的地鐵互聯(lián)互通方案分析
海上小型無(wú)人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
雅皮的心情日志
雅皮的心情日志
一種無(wú)人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
基于FPGA 的時(shí)序信號(hào)光纖傳輸系統(tǒng)