智能化網格電信系統(tǒng)的故障預測方法

2018-07-03 10:37:48蔡珩戈磊

電信科學 2018年6期

蔡珩，戈磊

蔡珩，戈磊

（中國電信股份有限公司上海分公司，上海 200042）

嘗試用基于深度學習的相關人工智能技術，分析服務器集群上的進程和端口網絡，并對網絡節(jié)點進行狀態(tài)預測。具體地，結合運維過程中的先驗知識對網絡節(jié)點的特征進行細致選擇，預測網絡中各個進程和端口的異常（崩潰）狀態(tài)。實驗結果表明，進程節(jié)點的運行信息（如CPU和內存使用率）、進程間的通信情況以及進程節(jié)點在整個網絡中的結構特征對于判斷該節(jié)點的狀態(tài)具有一定的指導價值，而這些特征在時間維度上的變化量同樣反映了進程/端口的狀態(tài)。

故障預測；深度學習；二分類

1 引言

隨著信息技術的發(fā)展，大規(guī)模服務器集群和網絡設備的部署和使用日益廣泛，在集群上運行各種服務[1]逐漸成為大型企業(yè)的選擇。同時，對集群上各種資源的監(jiān)視和管理也得到學術界和工業(yè)界的大量關注。

人們總是希望部署一個可靠穩(wěn)定的服務器集群，然而事與愿違，大部分集群上還是會出現(xiàn)如進程崩潰[2]、端口流量過大、端口阻塞[3]等異常情況。人們往往采取人工查看服務器日志的方式，通過各個進程和端口的狀態(tài)判斷哪些進程或端口可能會發(fā)生異常并采取相應的措施，但是這種方式耗時耗力，并且人工查看具有時限性和一定的誤差。

本文將采用一些基于深度學習的方法，對服務器集群上的進程和端口網絡進行分析，并對該網絡上的節(jié)點即某個進程或端口的狀態(tài)進行預測。

本文首先對服務器集群上的進程網絡進行建模，而和被廣泛關注的社交網絡[4-8]不同的是，缺乏對該進程網絡上節(jié)點的了解，比如一個進程何時會與周圍的進程產生通信、為什么會產生通信以及本文的預測目標：一個進程是否會發(fā)生崩潰，因為進程間的通信通常依賴于某個進程的具體功能和實際服務的使用情況。即便如此，本文還是可以類比社交網絡中節(jié)點的相關性質，對該進程網絡中的節(jié)點做出如下分析。

??將某個進程的占用CPU、內存情況看作進程節(jié)點的“固有屬性”。

??進程之間的通信看作進程網絡中的邊，那么，節(jié)點在網絡中的中心度[9-10]可以衡量節(jié)點的活躍程度以及與外界聯(lián)系的緊密程度。

??把進程崩潰視作一個進程的行為，那么進程崩潰這一現(xiàn)象可以類比為社交網絡中信息的擴散[11-12]。

基于以上分析，本文把一個進程或端口發(fā)生崩潰、阻塞等異常的現(xiàn)象定義為網絡中一個節(jié)點的狀態(tài)；在給定的時間戳下，網絡中的節(jié)點可以被分為兩類：處于異常狀態(tài)的節(jié)點和處于正常狀態(tài)的節(jié)點。因此，預測網絡中節(jié)點的異常[13]可以轉化為針對網絡節(jié)點的二分類問題[14]。本文仔細地選取節(jié)點的相關屬性作為節(jié)點分類的特征，用卷積神經網絡（convolutional neural network，CNN）[15]對該模型進行分類，并得到了較為可信的結果。

2 相關定義

2.1 進程網絡

本文對服務器集群上的進程網絡以及該網絡中的節(jié)點、邊和節(jié)點狀態(tài)做出如下定義。

定義1 （進程標識符）用一個進程的如下信息作為其標識符：本地IP地址、本地主機名、本地進程組、進程描述以及進程號。換句話說，上述5個字段可以唯一地確定一個進程。

如果兩條日志記錄中進程的標識符完全一致，則認為是同一進程的記錄。

定義5 （遠端進程）把在日志記錄中本地IP地址或本地主機名為空的進程定義為遠端進程。由于日志記錄是由本地probe（探針）對正在運行的進程進行遍歷得到的，因此，日志記錄中本地IP地址或主機名為空可以視作該進程不在這個服務器集群上，將這類進程稱為遠端進程。

2.2 端口網絡

定義6 （端口標識符）用一個端口的如下信息作為其標識符：主機名、端口名。如果兩條日志記錄中主機名和端口名一致，認為這是同一端口的記錄。

3 數(shù)據觀察

在對進程和端口狀態(tài)進行預測前，先從整體上對數(shù)據做一些基本的分析。

3.1 進程網絡

?3.1.1 數(shù)據量

?3.1.2 靜態(tài)特征分布

??CPU占用率；

??內存使用量；

??與之存在通信的進程數(shù)量（即進程網絡中節(jié)點的度）；

??與其他進程的通信總量（即進程網絡中節(jié)點的邊權之和）；

??存在通信的遠端進程數(shù)量；

如圖1所示，正負樣本在CPU這一“固有屬性”上存在一定的差異：對于負樣本即正常進程，它們的CPU使用率集中在20%以下和100%以上；而正樣本（異常進程）的CPU使用率分布較為分散。根據經驗，這種分布是可以理解的，因為對于正在運行的進程，如果是計算密集型的，CPU使用量會較高，否則一般不會太多地占用CPU資源。

圖1 CPU占比的整體分布

圖2為存在通信的進程數(shù)量這一非結構特征的整體分布?？梢钥吹剑嬖谕ㄐ诺倪M程數(shù)量在正負樣本之間沒有顯著區(qū)別（進程網絡中節(jié)點的度大多為1）；進程節(jié)點的帶權重的度以及遠端通信進程數(shù)量這兩個特征的結果也和圖2類似。也就是說，正負樣本在這3個非結構特征上沒有明顯差異。

圖2 存在通信的進程數(shù)量的整體分布

對該進程網絡中的結構特征的分布情況進行考察。再次回到本文的目標：對于給定的進程，其是否為崩潰狀態(tài)。對于較大規(guī)模的服務器集群，其上運行著大量進程，不難想象，一個進程關聯(lián)的其他進程越多，該進程就越重要，其對服務器的負載就越重，崩潰的可能性就越大。

因此，選擇進程網絡圖上的結構特征來衡量一個進程的重要性或者核心程度，希望通過進程節(jié)點的中心度[9-10]來幫助對進程狀態(tài)進行分析。圖3給出了進程節(jié)點的中心度的分布情況。其中，橫坐標為中心度的十進對數(shù)，縱坐標為累積分布概率。

圖3 中心度的整體分布

可以看到，相對于正常進程，正樣本（異常進程）的中心度偏小，但整體分布是相似的，緊密性也是類似的結果。但這并不意味著“中心度高的重要進程更容易崩潰”這一假設不正確，因為往往一個中心進程崩潰會導致與其存在通信的其他進程或者該進程的子進程產生異常，而日志記錄是在某個特定的時間點通過探針生成的，因此很有可能在生成日志記錄的時候，以該中心進程為核心的進程組都進行了重啟，因此正樣本的中心度分布和樣本的整體分布沒有較大區(qū)別。

值得注意的是，中心度和緊密性具有一定的相關性，二者作為特征訓練分類器的效果也許會有意想不到的效果，在實驗中也將看到這一點。

?3.1.3 時間間隔分布

前文對進程的靜態(tài)特征做了整體分析，但是還應當注意到，進程的崩潰是一個過程，時間維度上的特征也許會較好地反映進程的狀態(tài)。

本文考慮進程從正常狀態(tài)到崩潰狀態(tài)的時間間隔，體現(xiàn)在日志記錄中即同一進程的進程號兩條不同的連續(xù)日志記錄的時間戳的差。如果進程一直保持著正常狀態(tài)（沒有崩潰），則傾向于認為其在日志記錄中出現(xiàn)的時間戳應當是比較穩(wěn)定的，即不會突然在一段時間內沒有日志記錄。而對于發(fā)生崩潰的進程，由于其重啟等因素，可能會有較長時間間隔沒有日志記錄的現(xiàn)象。

圖4為正負樣本的時間間隔的整體分布。其中，橫坐標為進程距離上次出現(xiàn)在探針日志中的時間間隔（分鐘），縱坐標為累積分布概率。

再一次地，可以發(fā)現(xiàn)在時間間隔這一特征上沒有顯著區(qū)別。由于探針每3 min采樣一次，因此時間戳的差集中在3、6或9等數(shù)值上。

圖4 時間間隔的整體分布

3.2 端口網絡

?3.2.1 數(shù)據量

?3.2.2 端口特征

對具體某個端口，定義以下特征：

圖5為端口在前一天各個小時中的平均入口流量分布?？梢钥吹疆惓６丝诤驼６丝诘牟罹嗍禽^為明顯的：相對于正常端口，異常端口各個小時的平均流量有明顯的下降，可以猜測發(fā)生了端口阻塞，導致異常端口在同時段內流量較少。

同樣地，如圖6所示，異常端口和正常端口在前3天的出口流量方差這一指標上也是區(qū)別顯著：相對于正常端口，異常端口的出口流量在一天內的方差很大（很可能是因為異常端口時斷時續(xù)地進行工作，出入流量的方差相比正常端口自然要大一些）。圖7是端口在前3天出現(xiàn)告警次數(shù)的平均值?？梢钥吹剑绻斕於丝诔霈F(xiàn)異常情況，那么在前3天這個端口也很有可能已經出現(xiàn)了異常情況。

圖5 前一天平均入口流量分布

圖6 前3天出口流量方差

值得注意的是，圖5和圖6的結果是在2017年4月份的數(shù)據集上得出的，不同時間段內異常端口的表現(xiàn)可能不一致，如異常端口可能會出現(xiàn)出入口流量方差較小的情況（和圖6恰恰相反），這有可能是因為異常端口被阻塞，流量在一天的大部分時間內恒定地處于較低水平，表現(xiàn)出方差較小的情況。但經過大量數(shù)據的測試，發(fā)現(xiàn)異常端口和正常端口在出入口流量方差和小時總量這兩個指標上總是有較為顯著的區(qū)別。

圖7 前3天告警次數(shù)分布

4 實驗方法

將用分類問題的思路判斷給定進程或端口的狀態(tài)。進一步地，由于狀態(tài)只有異常和正常兩種，因此目標簡化為二分類[14-18]問題：給定一個進程/端口的相關描述，輸出該進程/端口所處的狀態(tài)（異常與否）。

4.1 訓練方法

?4.1.1 進程網絡

根據樣本的輸入特征，在訓練集上訓練得到CNN，對測試集中的每個進程或輸出判斷結果，用準確率、召回率和F1得分來衡量分類器的優(yōu)劣。

其中，由于正負樣本比過?。ㄕ龢颖具^少），本文采用過采樣（over-sampling）[20]的方法生成訓練集，用交叉驗證（cross-validation）[21-22]的方式對分類器進行訓練，然后對正樣本極少的原始數(shù)據集進行測試。

?4.1.2 端口網絡

類似地，對于端口的異常預測這一問題，人工提取第3.2節(jié)中提及的各個特征作為輸入，通過訓練集得到一個CNN分類器，對測試集中的每個進程或輸出判斷結果，用準確率、召回率和F1得分來衡量分類器的優(yōu)劣。

同樣，由于正負樣本比過?。ㄕ龢颖具^少），本文采用部分隨機采樣（partly-random sampling）的方法對負樣本進行采樣，以平衡正負樣本比生成訓練集，然后用交叉驗證的方式對分類器進行訓練，對正樣本極少的原始數(shù)據集進行測試。

4.2 標簽的提取

對于進程網絡，按照定義4給出的方式，人工從原始數(shù)據集中提取進程標簽（正負樣本）。即首先過濾日志得到常駐進程，對每個常駐進程，判斷其上一條時間戳的日志記錄的進程號是否與當前時間戳的進程號一致。若不一致，則認為在當前時間戳該進程發(fā)生崩潰，采集為正樣本，否則為負樣本。

而端口網絡數(shù)據集中含有標簽信息，直接提取即可。

5 實驗結果

5.1 進程網絡

本數(shù)據集（上海電信CSB服務器集群的進程日志）時間跨度為2016年8月30日14—18時，共2 858 063條日志記錄。其中，常駐進程973個，進程崩潰次數(shù)為25次，正負樣本比為0.16‰。

本文隨機地對正負樣本進行分割，使訓練集和測試集的大小一致。由于正負樣本比過低，本文采用正樣本過采樣和交叉驗證的方式進行訓練，每次訓練和測試過程重復10次，結果取平均值。

首先考慮具體的某個基本特征對分類效果的影響。

圖8給出了不同特征對分類結果的影響的比較。橫向地和沒有剔除任何特征的分類器相比，可以發(fā)現(xiàn)，CPU、內存使用量以及遠端進程數(shù)量這3個特征對區(qū)分正負樣本的作用是顯著的，剔除其中任何一個都會使F1得分有明顯的下降。這個結果和特征的分布具有一致性，因為正負樣本的CPU占用率和內存使用量的分布有著明顯的區(qū)別；而對于剔除節(jié)點的度、邊權和以及圖的結構化特征中心度和緊密性，可以發(fā)現(xiàn)隨著正負樣本比的降低，F(xiàn)1得分反而在增加。

圖8 單個特征對結果的影響

進一步地，為了考慮不同特征之間的相關性的影響，把上述的特征分為3類：進程的運行信息，即CPU和內存使用情況；進程的通信情況，體現(xiàn)為進程網絡中節(jié)點的度（或帶權重的邊權和）以及存在通信的遠端進程數(shù)量；進程網絡中節(jié)點的結構特征，即中心度和緊密性。

圖9展示了不同特征對分類結果的影響?？梢钥吹剑诙愄卣骷催M程的通信情況，極大地提高了分類器的召回率，但是準確率很低，這是因為有大量的負樣本在該特征上和正樣本具有相同的值，在只有第二類特征的條件下，分類器傾向于認為大部分樣本都是正樣本。因而崩潰預測在沒有第二類特征的分類器上達到了最好的效果。

圖9 單組特征和組合特征對分類的影響

而第一類和第三類特征都可以在一定程度上反映進程的狀態(tài)。這是因為正如在圖9中，正負樣本的CPU和內存使用情況的分布不同，而第三類特征即進程節(jié)點的中心度，盡管分布相似，但二者具有緊密的相關性，結合在一起考慮便可以作為崩潰檢測的指標之一。

圖10 不同特征變化量對應的F1得分

這說明進程的崩潰不是突然的，一個進程在發(fā)生崩潰的前后，其CPU、內存使用情況以及和其他進程的通信等屬性往往會有突出的變化：比如在PC（個人計算機）上，往往一個進程占用內存過大會出現(xiàn)崩潰，崩潰前內存使用量增加的趨勢則反映了其崩潰的可能性。

實驗結果表明，將時間信息加入進程的特征進行訓練，得到了效果更好的分類器以對進程的崩潰進行檢測。

5.2 端口網絡

本文選取了上海電信IDC的2017年4月份的端口流量監(jiān)控記錄，日活躍端口數(shù)量均值為6 175.5。

本文將4月1—13日的數(shù)據作為訓練集訓練分類器，用4月14—20日的數(shù)據作為測試集。

如表1所示，訓練得到的分類器對測試集的預測是較為準確的，平均F1得分可以達到0.8左右。

表1 端口網絡實驗結果

6 結束語

本文針對上海電信的進程網絡和網絡端口，分析了網絡中節(jié)點的有關屬性，選取節(jié)點的特征進行訓練以對節(jié)點的異常狀態(tài)進行預測。

通過仔細地選取特征和相應的預測結果，可以得到如下結論。

??由于數(shù)據集上正樣本的稀疏性，訓練數(shù)據的正負樣本比對訓練結果有顯著的影響。

??相比于進程的通信情況，進程節(jié)點的結構特征以及進程運行信息（如CPU占用率、內存使用量等）對于判斷一個進程是否會崩潰更具參考價值。

??從時間的維度看，進程的運行和通信信息的變化量更能反映該進程的狀態(tài)。

??從時間的維度看，端口過去3天的告警次數(shù)和出入流量方差更能區(qū)分其是否異常。

針對進程故障預測這一問題，未來還可以從以下兩方面著手考慮。

??類比社交網絡中的信息擴散[11-12]，可以把進程崩潰看作進程的一種行為，通過對進程節(jié)點之間的影響力進行建模，可以預測進程的崩潰情況。同樣的，對于網絡端口來說，對網絡上的邊進行建模（如端口的通信），也可以將端口出現(xiàn)異常視作在端口網絡中擴散的一種行為。

??除了人工地選取進程特征進行訓練，還可以運用圖表示[23]的方法對進程和端口網絡進行建模，用embedding的結果作為特征訓練分類器。

[1] DAMANI O P, CHUNG P E, HUANG Y, et al. ONE-IP: techniques for hosting a service on a cluster of machines[J]. Computer Networks and ISDN Systems, 1997, 29(8-13): 1019-1027.

[2] MOOLENBROEK D V C, APPUSWAMY R, TANENBAUM A S. Integrated system and process crash recovery in the loris storage stack[C]//Networking, Architecture and Storage(NAS), 2012 IEEE 7th International Conference, October 14-17, 2012, Seoul, Korea (South). Piscataway: IEEE Press, 2012: 1-10.

[3] MOHAMED E, ABDEL-WAHAB H, SALAMA I. Multicast address management in the internet: a study of the port blocking problem[R]. 1999.

[4] NEWMAN M, BARABASI A L, WATTS D J. The structure and dynamics of networks[M]. Princeton: Princeton University Press, 2006: 419-421.

[5] GRANOVETTER M. The strength of weak ties[J]. American Journal of Sociology, 1973, 78(6): 1360-1380.

[6] ONNELA J P, SARAMAKI J, HYVONEN J, et al. Structure and tie strengths in mobile communication networks[J]. The National Academy of Sciences, 2007, 104(18): 7332-7336.

[7] CHORMANSKI K, MATUSZAK M, MIEKISZ J. Scale-free graph with preferential attachment and evolving internal vertex structure[J]. Journal of Statistical Physics, 2013, 151(6): 1175- 1183.

[8] MILGRAM S. The small world problem[J]. Psychology Today, 1967, 2(1): 185-195.

[9] FREEMAN L. A set of measures of centrality based on betweenness[J]. Sociometry, 1977, 40(1): 35-41.

[10] NEWMAN M. Networks: an introduction[M]. Oxford: Oxford University Press, 2010.

[11] GOMEZ-RODRIGUEZ M, LESKOVEC J, KRAUSE A. Inferring networks of diffusion and influence[J]. ACM Transactions on Knowledge Discovery from Data, 2010, 5(4): 1-37.

[12] RODRIGUEZ M G, BALDUZZI D, SCHOLKOPF B. Uncovering the temporal dynamics of diffusion networks[C]//The 28th International Conference on Machine Learning (ICML), June 28-July 2, 2011, Bellevue, Washington, USA. [S.l.:s.n.], 2011: 561-568.

[13] LIBEN-NOWELL D, KLEINBERG J. The link prediction problem for social networks[J]. Journal of the Association for Information Science & Technology, 2007, 58(7): 1019-1031.

[14] LAST M. Kernel methods for pattern analysis[M]. Beijing: China Machine Press, 2005.

[15] KIM I. Convolutional neural networks for sentence classification[J]. arXiv: 1408.5882, 2014.

[16] CONKLIN J D. Applied logistic regression[J]. Technometrics, 2013, 44(1): 81-82.

[17] BRANDES U. A faster algorithm for betweenness centrality[J]. Journal of Mathematical Sociology, 2001, 25(2): 163- 177.

[18] SABIDUSSI G.The centrality index of a graph[J]. Psychometrika, 1966, 31(4): 581-603.

[19] JAPKOWICZ N. The class imbalance problem: significance and strategies[C]//The 2000 International Conference on Artificial Intelligence(IC-AI’2000), June 26-29, 2000, Las Vegas, USA. [S.l.:s.n.], 2000.

[20] GEISSER S. Predictive inference: an introduction [M]. New York: Chapman and Hall, 1993.

[21] KOHAVI R. A study of cross-validation and bootstrap for accuracy estimation and model selection[C]//The Fourteenth International Joint Conference on Artificial Intelligence, August 20-25, 1995, Montreal, Quebee, Canada. New York: ACM Press, 1995: 1137-1143.

[22] LEIKE, A. Demonstration of the exponential decay law using beer froth[J]. European Journal of Physics, 2002, 23(1): 21.

[23] MOHAR B. A linear time algorithm for embedding graphs in an arbitrary surface[J]. SIAM Journal on Discrete Mathematics, 2006, 12(1): 6-26.

Intelligent fault prediction method of telecom system

CAI Heng, GE Lei

Shanghai Branch of China Telecom Co., Ltd., Shanghai 200042, China

Some approaches based on deep learning would be used to analyze the process and port network on a server cluster. Specifically, the features of nodes were carefully selected in server cluster network, by combining the prior knowledge from actual operations, and the abnormal state of processes or ports on the cluster was predicted. According to the research, the running information such as loads of CPU and memory, communications between processes and the structural features in the process network was valuable in predicting the states of processes and ports; furthermore, the changes of features mentioned above in the time dimension reflected the states of processes or ports, too.

fault prediction, deep learning, binary classification

TP391.1

10.11959/j.issn.1000?0801.2018118

蔡珩（1976?），女，中國電信股份有限公司上海分公司工程師，主要研究方向為IT智慧運營、利用大數(shù)據技術提升系統(tǒng)運維的智能化。

戈磊（1973?），男，中國電信股份有限公司上海分公司企業(yè)信息化部高級項目經理，主要研究方向為云計算、開源架構、大數(shù)據分析、Devops運營、流程生命周期管控等。

2017?10?17；

2018?02?05

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

智能化網格電信系統(tǒng)的故障預測方法

1 引言

2 相關定義

2.1 進程網絡

2.2 端口網絡

3 數(shù)據觀察

3.1 進程網絡

3.2 端口網絡

4 實驗方法

4.1 訓練方法

4.2 標簽的提取

5 實驗結果

5.1 進程網絡

5.2 端口網絡

6 結束語