国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

IT監(jiān)控中的三層智能關(guān)聯(lián)實(shí)現(xiàn)及應(yīng)用實(shí)踐

2024-12-08 00:00:00邊江濤

摘 要:本文提出了一種基于三層智能關(guān)聯(lián)的監(jiān)控框架。該框架專注于SaaS/PaaS/IaaS三層資源的統(tǒng)一管理和關(guān)聯(lián),利用智能關(guān)聯(lián)技術(shù)自動(dòng)識(shí)別資源實(shí)體并構(gòu)建資源間的關(guān)聯(lián)關(guān)系。采用多維時(shí)序指標(biāo)算法和事件鏈法2種方法,針對(duì)異常檢測(cè)和根因分析提供有效的解決方案。在北京電信CRM系統(tǒng)中的實(shí)際應(yīng)用中驗(yàn)證了這些方法的有效性,成功診斷了多個(gè)異常情況,證明了該監(jiān)控框架在實(shí)踐中的可行性。該框架為各種IT系統(tǒng)監(jiān)控提供新的思路和解決方案,提高資源管理的自動(dòng)化水平和故障排除的效率,對(duì)企業(yè)的運(yùn)維和管理有重要的價(jià)值。

關(guān)鍵詞:IT監(jiān)控;智能關(guān)聯(lián);SaaS;PaaS;IaaS;根因定位

中圖分類號(hào):TP 391 " " " " " " 文獻(xiàn)標(biāo)志碼:A

隨著IT系統(tǒng)數(shù)字化架構(gòu)不斷更新,其架構(gòu)復(fù)雜度逐漸提升。當(dāng)面臨復(fù)雜多變的IT基礎(chǔ)設(shè)施時(shí),傳統(tǒng)的IT監(jiān)控系統(tǒng)面臨很多挑戰(zhàn),由于數(shù)據(jù)增長(zhǎng)速度快,因此監(jiān)控范圍變得更廣。通過(guò)監(jiān)控系統(tǒng)只能看到表面現(xiàn)象,不能看出潛在的問(wèn)題。因此,智能關(guān)聯(lián)技術(shù)的應(yīng)用顯得尤為重要。智能關(guān)聯(lián)允許監(jiān)控系統(tǒng)跨越不同層級(jí)的IT資源,通過(guò)關(guān)聯(lián)分析和智能處理,將不同層級(jí)的資源關(guān)聯(lián)起來(lái)。采用該技術(shù)可以通過(guò)監(jiān)控系統(tǒng)快速追溯問(wèn)題的根源。

1 三層智能關(guān)聯(lián)的總體設(shè)計(jì)

本文搭建基于三層智能關(guān)聯(lián)的一體化運(yùn)維監(jiān)控平臺(tái),該平臺(tái)監(jiān)控對(duì)象范圍覆蓋信息系統(tǒng)數(shù)據(jù)流轉(zhuǎn)和業(yè)務(wù)處理全過(guò)程,從上到下依次為SaaS、PaaS、IaaS三層的全部軟、硬設(shè)備和資源對(duì)象。平臺(tái)通過(guò)配置數(shù)據(jù)庫(kù)(CMDB)集中統(tǒng)一管理服務(wù)間調(diào)用關(guān)系、實(shí)體間的承載關(guān)系、設(shè)備的物理連接關(guān)系三類關(guān)系信息,具有告警收斂、異常檢測(cè)以及根因定位等智能運(yùn)維功能。系統(tǒng)架構(gòu)及數(shù)據(jù)流圖如圖1所示。

2 三層智能關(guān)聯(lián)的關(guān)鍵技術(shù)

2.1 引入基于大數(shù)據(jù)的自動(dòng)管理CMDB技術(shù)

本文提供一種基于大數(shù)據(jù)進(jìn)行自動(dòng)關(guān)聯(lián)的動(dòng)態(tài)CMDB技術(shù)方法[1],采用多種措施將SaaS/PaaS/IaaS三層資源統(tǒng)一納入管理范疇,自動(dòng)構(gòu)建三層之間的動(dòng)態(tài)拓?fù)潢P(guān)聯(lián)關(guān)系,為運(yùn)維監(jiān)控、安全管控以及資產(chǎn)管理等應(yīng)用場(chǎng)景提供精準(zhǔn)實(shí)時(shí)的資源配置管理數(shù)據(jù)。

2.1.1 重點(diǎn)舉措一:實(shí)體發(fā)現(xiàn)

SaaS應(yīng)用實(shí)體發(fā)現(xiàn):通過(guò)調(diào)用鏈自動(dòng)發(fā)現(xiàn)識(shí)別全量及未知服務(wù),利用調(diào)用鏈追蹤技術(shù)[2],監(jiān)控并記錄服務(wù)之間的調(diào)用關(guān)系,跟蹤一個(gè)請(qǐng)求從一個(gè)服務(wù)到另一個(gè)服務(wù)的完整路徑。利用Jaeger工具[3],對(duì)服務(wù)間的請(qǐng)求和響應(yīng)進(jìn)行監(jiān)控和數(shù)據(jù)采集,捕捉請(qǐng)求所經(jīng)過(guò)的每個(gè)服務(wù)并記錄詳細(xì)信息。運(yùn)用識(shí)別算法和模式匹配技術(shù),識(shí)別服務(wù)的關(guān)鍵信息。

PaaS組件實(shí)體發(fā)現(xiàn):通過(guò)組件API接口,解析關(guān)鍵配置數(shù)據(jù),自動(dòng)發(fā)現(xiàn)組件基本信息。根據(jù)API返回?cái)?shù)據(jù)的結(jié)構(gòu),準(zhǔn)確提取出組件的關(guān)鍵信息。

IaaS資源實(shí)體發(fā)現(xiàn):通過(guò)各類工具(SNMP、DPI等),自動(dòng)掃描探測(cè)設(shè)備基礎(chǔ)信息(IP/端口等)。通過(guò)發(fā)送特定的SNMP請(qǐng)求進(jìn)行深度解析,獲取設(shè)備的基礎(chǔ)信息。

2.1.2 重點(diǎn)舉措二:內(nèi)部關(guān)聯(lián)

SaaS之間關(guān)聯(lián):通過(guò)調(diào)用鏈自動(dòng)發(fā)現(xiàn)服務(wù)與服務(wù)之間的調(diào)用關(guān)系,監(jiān)控系統(tǒng)對(duì)收集的調(diào)用鏈數(shù)據(jù)進(jìn)行聚合,將同一調(diào)用鏈的信息聚集為一個(gè)全局視圖。PaaS之間關(guān)聯(lián):通過(guò)組件API接口,解析組件關(guān)系數(shù)據(jù),自動(dòng)發(fā)現(xiàn)組件關(guān)系信息。IaaS之間關(guān)聯(lián):通過(guò)網(wǎng)絡(luò)流量自動(dòng)解析,發(fā)現(xiàn)設(shè)備之間的訪問(wèn)關(guān)系,形成網(wǎng)絡(luò)拓?fù)潢P(guān)系圖。

2.1.3 重點(diǎn)舉措三:外部關(guān)聯(lián)

SaaS與PaaS關(guān)聯(lián):通過(guò)調(diào)用鏈自動(dòng)發(fā)現(xiàn)服務(wù)所訪問(wèn)的組件實(shí)例信息。

SaaS與IaaS關(guān)聯(lián):自動(dòng)發(fā)現(xiàn)服務(wù)所部署的容器信息。

PaaS與IaaS關(guān)聯(lián):通過(guò)組件API接口,解析組件部署數(shù)據(jù),自動(dòng)發(fā)現(xiàn)組件所部署的資源信息。

2.2 構(gòu)建指標(biāo)異常檢測(cè)引擎,實(shí)現(xiàn)問(wèn)題事件因果關(guān)系的根因判斷

基于SaaS、PaaS、IaaS指標(biāo)的采集和動(dòng)態(tài)CMDB配置管理,將各層指標(biāo)進(jìn)行關(guān)聯(lián)分析,調(diào)用根因定位模型,構(gòu)建三層指標(biāo)異常檢測(cè)引擎[4]。系統(tǒng)整體設(shè)計(jì)如圖2所示。該設(shè)計(jì)包括以下4個(gè)步驟。步驟一,指標(biāo)實(shí)時(shí)監(jiān)控。通過(guò)Agent對(duì)S/P/IaaS三層進(jìn)行數(shù)據(jù)實(shí)時(shí)采集監(jiān)控。步驟二,數(shù)據(jù)處理。對(duì)采集指標(biāo)數(shù)據(jù)進(jìn)行清洗/轉(zhuǎn)換/計(jì)算。步驟三,指標(biāo)關(guān)聯(lián)分析。縮小指標(biāo)異常的排查范圍。步驟四,根因分析。根據(jù)時(shí)間因果、應(yīng)用調(diào)用因果和事務(wù)因果證據(jù)綜合判斷出根因問(wèn)題。

2.3 建立根因定位模型,快速定位故障根因

以具體業(yè)務(wù)場(chǎng)景的運(yùn)維監(jiān)控需求為輸入,引入AI能力至監(jiān)控排障的生產(chǎn)環(huán)節(jié)中,對(duì)服務(wù)層、組件層以及云資源層的監(jiān)控指標(biāo)進(jìn)行整合,診斷故障[5]。

2.3.1 多維時(shí)序指標(biāo)算法

層內(nèi)掃描采用的多維時(shí)序指標(biāo)算法是一種基于時(shí)間序列數(shù)據(jù)分析的方法,通過(guò)收集和分析多個(gè)維度的指標(biāo)數(shù)據(jù)來(lái)識(shí)別問(wèn)題的根因[6]。例如在SaaS層內(nèi)進(jìn)行多維時(shí)序指標(biāo)算法的異常檢測(cè)其基本步驟如下。

2.3.1.1 數(shù)據(jù)收集和預(yù)處理

收集與SaaS服務(wù)相關(guān)的多維度指標(biāo)數(shù)據(jù),例如服務(wù)調(diào)用性能指標(biāo)數(shù)據(jù)、服務(wù)調(diào)用日志數(shù)據(jù)等。

預(yù)處理:對(duì)數(shù)據(jù)進(jìn)行清洗、去除異常值以及歸一化等預(yù)處理,例如對(duì)有明顯邊界且對(duì)異常值比較敏感的數(shù)據(jù)采用歸一化方法[7],將數(shù)據(jù)線性地映射至指定的范圍,如公式(1)所示。

? " " " "(1)

式中:X′為輸出結(jié)果;X為實(shí)際輸入的值;min(X)為輸入數(shù)據(jù)的最小值;max(X)為輸入數(shù)據(jù)的最大值。

2.3.1.2 時(shí)序數(shù)據(jù)構(gòu)建和特征提取

2.3.1.2.1 構(gòu)建時(shí)序數(shù)據(jù)集

將收集的多維度指標(biāo)數(shù)據(jù)按時(shí)間序列進(jìn)行組織,形成時(shí)序數(shù)據(jù)集。以指標(biāo)數(shù)據(jù)采集的時(shí)間點(diǎn)或時(shí)間段標(biāo)記時(shí)間戳,進(jìn)行時(shí)序排列。

2.3.1.2.2 特征提取

從時(shí)序數(shù)據(jù)中提取特征,例如均值、方差、最大值和最小值等。采用最小二乘法做線性趨勢(shì)分析,以線性方程表示模型最小化觀測(cè)值與模型預(yù)測(cè)值之間的殘差平方和。將數(shù)據(jù)劃分為自變量(X)和因變量(Y),設(shè)定線性模型,即Y=βX+α,計(jì)算回歸系數(shù)(β和α),以最佳方式擬合數(shù)據(jù)。在自變量有很多的情況下,回歸系數(shù)通過(guò)矩陣運(yùn)算來(lái)計(jì)算,使用歷史根因案例數(shù)據(jù),檢查殘差分布,驗(yàn)證模型是否滿足線性回歸的假設(shè)。

2.3.1.3 異常檢測(cè)算法應(yīng)用

選擇異常檢測(cè)算法:根據(jù)數(shù)據(jù)特點(diǎn)和需求選擇適當(dāng)?shù)漠惓z測(cè)算法,例如采用孤立森林算法,隨機(jī)選擇一個(gè)特征和該特征的一個(gè)隨機(jī)值來(lái)劃分?jǐn)?shù)據(jù)。根據(jù)選定的特征和值,將數(shù)據(jù)分成2個(gè)部分。這個(gè)分割過(guò)程是遞歸進(jìn)行的,直到達(dá)到指定的樹(shù)的最大深度,通過(guò)重復(fù)上述過(guò)程構(gòu)建多棵隨機(jī)樹(shù)。

異常點(diǎn)識(shí)別:應(yīng)用選擇的算法來(lái)識(shí)別在時(shí)序數(shù)據(jù)中的異常點(diǎn)或異常模式。計(jì)算每個(gè)數(shù)據(jù)點(diǎn)在每棵樹(shù)中的路徑長(zhǎng)度,并計(jì)算平均路徑長(zhǎng)度。較短的平均路徑長(zhǎng)度表明這些點(diǎn)相對(duì)更容易被孤立,因此被標(biāo)識(shí)為異常點(diǎn)。

3 根因定位和異常原因分析

確定異常點(diǎn)所在的關(guān)鍵指標(biāo),這些指標(biāo)可能是當(dāng)異常發(fā)生時(shí)出現(xiàn)顯著變化的特定指標(biāo)。分析關(guān)鍵指標(biāo)的異常變化,并考慮指標(biāo)之間的相關(guān)性或影響,找出可能導(dǎo)致異常的具體原因。例如采用皮爾遜相關(guān)系數(shù),衡量2個(gè)變量之間的線性關(guān)系,如公式(2)所示。

(2)

式中:r為皮爾遜相關(guān)系數(shù);x、y為2個(gè)變量的觀測(cè)值;、為2個(gè)變量的平均值。

收集相關(guān)指標(biāo)的時(shí)間序列數(shù)據(jù),這些指標(biāo)與異常事件相關(guān)聯(lián),對(duì)于每個(gè)指標(biāo)來(lái)說(shuō),計(jì)算數(shù)據(jù)指標(biāo)的均值與樣本變量之間的協(xié)方差、標(biāo)準(zhǔn)差。將協(xié)方差除以變量的標(biāo)準(zhǔn)差的乘積,得到相關(guān)系數(shù),根據(jù)相關(guān)系數(shù)的取值范圍進(jìn)行解釋。接近1或-1的相關(guān)系數(shù)表示強(qiáng)相關(guān)性,0表示無(wú)相關(guān)性。

3.1 事件鏈法

跨層掃描使用事件鏈法,基于事件之間的因果關(guān)系來(lái)確定問(wèn)題的根本原因。該方法通過(guò)追溯事件鏈,從起始事件逐步分析直至問(wèn)題發(fā)生,以確定導(dǎo)致問(wèn)題的根本因素。例如在SaaS與PaaS層間使用事件鏈法進(jìn)行根因分析涉及以下步驟。

3.2 事件數(shù)據(jù)收集與準(zhǔn)備

跨層事件收集:收集與SaaS層到PaaS層甚至底層基礎(chǔ)設(shè)施相關(guān)的事件數(shù)據(jù),例如服務(wù)請(qǐng)求、資源利用以及系統(tǒng)警報(bào)等。

3.3 事件鏈構(gòu)建和關(guān)聯(lián)分析

3.3.1 事件鏈構(gòu)建

將收集的事件數(shù)據(jù)按時(shí)間序列進(jìn)行組織,構(gòu)建事件鏈,顯示事件之間的關(guān)聯(lián)性和時(shí)間順序。構(gòu)建事件關(guān)聯(lián)度量,用于衡量事件之間的關(guān)聯(lián)程度,如公式(3)所示。

(3)

式中:Support(A→B)為事件A、 事件B的關(guān)聯(lián)度。

3.3.2 因果關(guān)系分析

分析事件之間的因果關(guān)系,使用CMDB的知識(shí)圖譜方法來(lái)推斷事件之間的因果關(guān)系[8],了解不同層級(jí)事件如何相互影響或?qū)е缕渌录l(fā)生。

3.4 根因推斷和分析

追溯事件鏈:從SaaS層開(kāi)始追溯事件鏈,對(duì)事件鏈進(jìn)行路徑分析,分析事件如何傳播和影響,找到導(dǎo)致異?;騿?wèn)題的根本原因。關(guān)鍵事件識(shí)別:確定在事件鏈中影響最大、導(dǎo)致最終問(wèn)題的關(guān)鍵事件。因果推斷: 推斷出不同層級(jí)事件之間的因果關(guān)系,確定引起SaaS層異常的可能PaaS層或底層基礎(chǔ)設(shè)施事件。

4 應(yīng)用效果

針對(duì)北京電信CRM的綜合查詢接口、產(chǎn)品信息查詢等接口的調(diào)用量、系統(tǒng)成功率以及業(yè)務(wù)成功率等3個(gè)重要指標(biāo)進(jìn)行異常監(jiān)控。監(jiān)控內(nèi)容包括調(diào)用量波動(dòng)監(jiān)控、接口調(diào)用業(yè)務(wù)成功率監(jiān)控、接口調(diào)用系統(tǒng)成功率監(jiān)控。采集的數(shù)據(jù)見(jiàn)表1。

以北京電信某日TeleDB的故障案例為例,當(dāng)日數(shù)據(jù)庫(kù)故障引起多條指標(biāo)異常時(shí),主要包括以下幾種情況。指標(biāo)異常一:賬本使用查詢AccuUseQry有4個(gè)發(fā)起方調(diào)用出現(xiàn)問(wèn)題。指標(biāo)異常二:北京PAA分布式數(shù)據(jù)庫(kù)實(shí)例mysql_server,數(shù)據(jù)庫(kù)主進(jìn)程不存在。指標(biāo)異常三:ACCTPG_DB欠費(fèi)復(fù)機(jī)工單積壓積壓值為18。根因判定:當(dāng)指標(biāo)發(fā)生告警時(shí),啟動(dòng)根因定位,診斷結(jié)果如下。北京PAAS域分布式數(shù)車實(shí)例XX.XX.XX.XX_mysql_server_XXXX,數(shù)據(jù)庫(kù)主進(jìn)程不存在,影響繳費(fèi)復(fù)機(jī)、賬本使用查詢API等業(yè)務(wù)。

5 結(jié)語(yǔ)

本研究針對(duì)現(xiàn)有IT監(jiān)控系統(tǒng)面臨的挑戰(zhàn),提出了三層智能關(guān)聯(lián)的監(jiān)控框架,并在北京電信CRM系統(tǒng)中進(jìn)行實(shí)際應(yīng)用。通過(guò)構(gòu)建一體化的運(yùn)維監(jiān)控平臺(tái),整合了SaaS、PaaS、IaaS三層資源的監(jiān)控,并利用智能關(guān)聯(lián)技術(shù)實(shí)現(xiàn)了指標(biāo)的關(guān)聯(lián)分析和根因定位。在監(jiān)控系統(tǒng)中,對(duì)多種異常情況進(jìn)行監(jiān)控、診斷和根因定位,為故障排查提供便利。隨著大數(shù)據(jù)、人工智能以及云計(jì)算等技術(shù)的不斷進(jìn)步,IT監(jiān)控三層智能關(guān)聯(lián)應(yīng)用更廣泛,可以實(shí)現(xiàn)監(jiān)控畫(huà)面的自動(dòng)識(shí)別、異常檢測(cè)及監(jiān)控系統(tǒng)的彈性擴(kuò)展、動(dòng)態(tài)管理等。未來(lái)可以進(jìn)一步引入機(jī)器學(xué)習(xí)和人工智能技術(shù),構(gòu)建智能化的決策支持系統(tǒng),提供更精準(zhǔn)的異常預(yù)測(cè)和自動(dòng)化的故障處理能力。

參考文獻(xiàn)

[1]王德成,郭永和,閆龍川,等.云計(jì)算環(huán)境下數(shù)字化業(yè)務(wù)全鏈路監(jiān)測(cè)關(guān)鍵技術(shù)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用, 2023(6):72-74.

[2]王子勇,王燾,張文博,等.一種基于執(zhí)行軌跡監(jiān)測(cè)的微服務(wù)故障診斷方法[J].軟件學(xué)報(bào),2017,28(6):1435-1454.

[3]徐飛宇.基于調(diào)用鏈追蹤的無(wú)服務(wù)器應(yīng)用異常檢測(cè)方法[J].信息技術(shù)與信息化,2022(5):5.

[4]孫健飛.基于無(wú)監(jiān)督學(xué)習(xí)的接口異常檢測(cè)及根因定位方法[J].江蘇通信,2023,39(5):88-92.

[5]COOK D J, HOLDER L B. Mining graph data[M].New Jersey:

John Wiley amp; Sons, Inc, Hoboken, 2006.

[6]AGGARWAL C C, WANG H.Managing and mining graph data[M].

Boston:Springer Publishing Company, Incorporated, MA,2012.

[7]湯榮志.數(shù)據(jù)歸一化方法對(duì)提升SVM訓(xùn)練效率的研究[D].濟(jì)南:山東師范大學(xué),2017.

[8]劉瑞宏,謝國(guó)強(qiáng),苑宗港,等.基于知識(shí)圖譜的智能故障診斷研究[J].郵電設(shè)計(jì)技術(shù),2020(10):30-35.

正安县| 行唐县| 宁乡县| 远安县| 克东县| 斗六市| 西充县| 建瓯市| 日喀则市| 龙岩市| 元阳县| 东乡县| 昭觉县| 松桃| 德化县| 宁国市| 四川省| 安龙县| 蒲江县| 花垣县| 上饶市| 鹤岗市| 新竹市| 绵竹市| 德惠市| 革吉县| 定日县| 新邵县| 汾阳市| 宁明县| 泊头市| 牡丹江市| 南皮县| 北海市| 罗山县| 芦山县| 松原市| 湛江市| 万源市| 合山市| 远安县|