蔣仕寶,杜翠鳳**,聶丹彤
(1.廣州杰賽科技股份有限公司,廣東 廣州 510310;2.中移互聯(lián)網有限公司,廣東 廣州 510000)
傳統(tǒng)的網絡質量優(yōu)化管理是結合專家經驗對監(jiān)控平臺話統(tǒng)數據的網元指標或者小區(qū)指標進行人工提取特征,然后再結合投訴行為,找出KQI 數據特征與投訴行為的關系。該方法嚴重依賴專家經驗,而且由于監(jiān)控該平臺的話統(tǒng)數據具有海量、高維的特點,因此,傳統(tǒng)的網絡質量優(yōu)化管理方法已經不適用于當前的時代特征。
基于網絡質量的投訴預警模型受到了很多學者的關注。朱龍珠等人[1]提出基于隨機森林算法的投訴預警模型優(yōu)化方法,采用隨機森林實現(xiàn)投訴預警;陽許軍等人[2]提出基于大數據模型的投訴預警與提前干預分析,實現(xiàn)投訴原因的追溯;任華等人[3]提出基于大數據技術的客服投訴智能分類與預警系統(tǒng),應用多重算法,實現(xiàn)投訴歸類分析、指標分析、預警分析、根源分析及關聯(lián)分析,實現(xiàn)事前預防和預警、降低投訴數量、提升客戶服務質量的目的;張婷[4]提出基于通信告警數據實現(xiàn)網絡投訴的智能分析系統(tǒng)。上述研究沒有考慮用戶投訴的滯后性特征,也就是用戶的投訴一般晚于網絡質量問題的發(fā)生時間,因此,基于投訴信息的網元指標或者小區(qū)指標很難排查到真正的網絡問題。
本文針對投訴滯后性的特點,以滑動窗口的方式構造KQI 數據的訓練集合,其中預測標簽為N時刻之后的用戶投訴數據。在此基礎上,采用CNN 和LSTM 的方法提取KQI 數據的空間維度和時間維度的特征。
深度學習受到業(yè)界廣泛關注是因為其在圖像處理和自然語言處理方面具有優(yōu)秀的表現(xiàn)。和淺層算法相比,深度學習方法更擅長學習數據的特征,因此,深度學習在各種任務分類中具有顯著效果。作為一種數據驅動的算法,深度學習無須建立一個確定性的模型,只需要利用足夠多的歷史數據進行訓練以獲取數據的特征表示,從而能夠完成諸如特征表示、分類、預測等任務。卷積神經網絡(Convolutional Neural Networks,CNN)作為經典的深度學習算法被應用在圖像處理、人臉識別、語音識別、自然語言處理等領域[5-10],循環(huán)神經網絡(Recurrent Neural Network,RNN)、改進型遞歸神經網絡(Modified Recurrent Neural Network)、長短期記憶神經網絡(Long Short Term Memory Network,LSTM)等也相繼被提出,用于情感分類、句子翻譯、問答系統(tǒng)等領域[11-15]。本文就CNN 和LSTM 的算法展開研究。
卷積神經網絡是包含卷積層計算并具有深度結構的前饋神經網絡[16]。卷積神經網絡用來解決傳統(tǒng)網絡參數過多和調參工作量過大的問題。首先通過卷積核提取原始圖像或數據的特定特征;然后采用池化的方式縮小原始圖像或者數據的尺寸;接著將不同卷積核池化的結果進行平鋪(或稱為Flatten);最后將Flatten 的輸出結果放進全連接層,采用Softmax 的方式對圖像或者數據進行分類。因此,卷積神經網絡一般分為3 層:卷積層、池化層以及全連接層。
(1)卷積層
利用本層卷積核在上一級輸入層上逐一滑動窗口,加上偏置值,通過Sigmoid 函數得到各個特征提取層,然后采用下采樣Subsampling 得到各個特征映射層。特征提取層和特征映射層的輸出通常稱為特征圖(Feature Map)。
(2)池化層
池化層的目的是采用降采樣的方式,在不影響圖像質量或者數據本身特征的情況下,通過壓縮維度,減少參數,減低原始圖像或者數據的尺寸。通常使用的池化方法是Maxpooling。
(3)全連接層
采用多個不同尺寸的卷積核對圖像或者數據進行卷積后,將會得到多維的數據特征值,在對多維數據進行池化后,通常需要對數據進行Flatten,然后將經過Flatten處理的數據放進全連接層(Full Connected Layer)中,采用Softmax 實現(xiàn)圖像或者數據的分類。
相對于傳統(tǒng)的淺層前饋神經網絡,CNN 在不明顯增加計算量的情況下使得網絡的性能明顯增強,因此得到很多學者的追捧。
LSTM 是一種時間遞歸神經網絡,擅長處理時間序列數據。與傳統(tǒng)的遞歸神經網絡RNN 相比,LSTM 由于引入了記憶單元,該記憶單元能夠決定哪些狀態(tài)應該被留下來,哪些狀態(tài)應該被遺忘,因此能夠處理長期依賴問題。LSTM 由輸入層、隱含層和輸出層構成,圖1 展現(xiàn)了LSTM 的內部結構,其中,朱紅色的圈代表向量的乘和向量的和,每一個神經元都有一條水平線貫穿其中,這條水平線代表細胞的狀態(tài),細胞的狀態(tài)就在這條水平線上進行傳送。而LSTM 的特色在于黃色矩形所代表的各種“門”。圖1 中第一個黃色矩形表示忘記門,決定哪些信息被保留,哪些信息被遺忘;第二個黃色矩形是輸入門,決定什么值將被更新,然后采用tanh 層創(chuàng)建一個新的候選值向量,用于更新細胞的狀態(tài);最后就要決定該神經單元需要輸出一個什么樣的值,該輸出是基于當前被更新后的細胞狀態(tài)的。首先運行最后一個黃色矩形輸出門(其實就是一個Sigmoid 層)來確定細胞狀態(tài)的哪個部分將輸出出去;接著,把細胞狀態(tài)通過tanh 層進行處理(得到一個-1~1 的值)并將它和Sigmoid 層的輸出相乘,最終得到輸出值。
圖1 長短記憶網絡LSTM的結構示意圖
注意力機制源于人類的認知研究,由于信息處理的局限性,人類往往根據當前需求關注特定的信息。注意力機制最初應用于圖像識別,當采用深度神經網絡進行圖像識別時,僅關注部分重要的特征,以此提升識別的準確率。目前注意力機制一般用于seq2seq 模型中。seq2seq 模型如圖2 所示。
從圖2 可知,引入注意力機制后,語義編碼C并不是固定的,是根據不同時刻的輸入來決定,也就是注意力系數Ci是一個可變語義向量。
圖2 引入注意力機制的seq2seq模型
根據yi的概率分布決定yi的取值,定義條件概率為:
其中,yi-1表示上一時刻的輸出,X表示輸入值,si表示解碼器在i時刻的隱藏向量,ci表示在i時刻語義向量內容。而ci是由編碼的隱含向量序列按照權重相加得到,可表示為:
其中,ɑij表示注意力分配概率分布,hj表示編碼器在j時刻的隱藏向量。而ɑij則由i-1 時刻的解碼器隱藏狀態(tài)si-1和j時刻的編碼器的隱層狀態(tài)hj共同決定,本文采用對齊模型來求解注意力分配的概率分布:
其中,eij表示si-1和hj的對齊程度,實際上是一個權重,vɑ與Wɑ則表示對齊模型的權值矩陣。
基于上述的方式,注意力模型就能運用在機器翻譯中,并能夠很好地表示整個輸入向量的意義。
由于影響網絡質量的數據維度較多,因此,在選取網絡質量特征提取的模型時,不僅需要考慮網絡特征多維數據的空間關系,還要考慮數據在時間維度的延續(xù)關系。本文通過融合CNN 和LSTM 模型,對網絡質量特征進行提取,使得所提取的特征不僅具有空間表達能力,還具備時間表達能力。融合CNN 與LSTM 的網絡特征提取模型如圖3 所示。
圖3 融合CNN與LSTM的網絡質量特征提取模型
原始輸入是以T為時間長度,n個樣本組成的數據。原始輸入分別輸入到CNN 和LSTM 網絡,經過CNN 的一系列處理,最后由n個神經元得到1×n維的特征向量:
經過LSTM 處理后,在LSTM 的隱含層單元數量為n,最后隱含層輸出n×m維特征向量:
得到原始樣本在CNN 和LSTM 的特征表達之后,引入注意力機制對特征表達進行融合,形成融合特征表達fmap。特征融合的表達具體過程由公式(7)~公式(9) 表示。
其中,Wα為m×n維的權值矩陣,bα為偏置參數,均由網絡訓練學習得到。是Cr的轉置項。通過公式(7)將CNN 的特征向量和LSTM 的特征向量進行統(tǒng)合,并通過一組“權重”的方式表現(xiàn)出來,而這組“權重”實質上就是對不同時間點的輸入向量進行有區(qū)別的賦值,采用Softmax 函數將“權重”進行歸一化后,將歸一化的“權重”αi與不同時間點的隱含層輸出向量進行相乘,并進行求和得到最終的融合特征表達fmap。αi和fmap的求解公式為:
引入注意力機制將CNN 抽取空間維度特征表達與LSTM 抽取時間維度特征進行融合,利用空間維度特征來調節(jié)時間維度特征,使時間維度特征在某些數據維度加強,在某些數據維度減弱。隨著時間的推移,某些關鍵因素對網絡質量影響的程度正在加強,某些關鍵因素對網絡質量影響的程度逐漸在減弱,而這種現(xiàn)象在不同網絡場景應具有不同的變化規(guī)律。
網優(yōu)平臺包括異頻硬切換成功率、同頻硬切換成功率、CS 異系統(tǒng)硬切換成功率等460 個指標,但是由于各個指標的數據數量級不一致,因此,本文需要對數據進行歸一化處理后,才能做后續(xù)分析。
將上述歸一化數據按照時間順序進行排列,考慮到用戶投訴的滯后性,網絡質量數據很難通過滑動窗口截取,結合實際網絡質量管理的經驗,一般設置滑動周期為2 周,也就是以2 周為時間長度構造某一個樣本的二維矩陣數據,結合網優(yōu)平臺對KPI 數據的采集頻率,那么樣本的大小為336×460。樣本數據對應的結果數據為某小區(qū)被預測為QOE 異常的時段數所占的比例。樣本的構造方法如圖4 所示。
為了驗證模型的準確性,本文對單步預測和多步預測進行比較,構造不同的數據集合,分別取N=1,3,5,7并構造對應的數據集合。
圖4 樣本構造方法示意圖
本文的數據集太大,如果用單純的CNN 神經網絡對多維數據進行提取,只能得出深層的語義信息,很可能忽略淺層數據特征信息所對應的局部特征語義信息。因此,本文采用CNN 對數據進行卷積處理,由淺入深提取數據的空間特征,采用不同的滑動窗口截取不同大小區(qū)域的數據進行特征提取,然后通過池化層將特征圖進行降維操作,最后通過融合層對淺層數據語義信息和深層數據語義信息進行融合,也就是將淺層和深層的特征圖進行疊加。根據相關的研究可知,融合層能夠在很大程度上減小輸入特征圖的尺寸,使得輸出通道數量增加,也就是從空間維度上提升了特征信息提取的精度。本文將深層語義信息和淺層語義信息的特征進行融合,對同一輸入的數據根據不同的卷積層提取的特征圖進行疊加融合,將淺層的特征信息和深層的語義信息進行融合分析,提升分類器分類的特征信息的精度。通過淺層和深層特征信息融合獲取數據空間維度特征的過程如圖5 所示。
通過融合深淺層特征信息獲?。∟+P)維的空間特征,在一定程度上擴展了KQI 數據的空間維度,考慮到用戶投訴的滯后性問題,因此,在提取KQI 特征的時候需要考慮KQI 數據在時間維度上的變化。本文融合CNN 和LSTM 的方法提取KQI 的數據特征,使得模型具備空間和時間的表達能力,使得增強特征信息更加清晰。
圖6 是融合CNN 與LSTM 的網絡質量KQI 數據特征提取示意圖,輸入是以T為時間長度,(N+P)維度組成的數據(N+P<n)。輸入分別輸入到CNN 和LSTM網絡,經過CNN 的一系列處理,最后由(N+P)個神經元得到1×(N+P)維的特征向量;經過LSTM 處理后,在LSTM 的隱含層單元數量為(N+P),最后隱含層輸出(N+P)×m維特征向量;得到CNN 和LSTM 的特征表達之后,引入注意力機制對特征表達進行融合,形成融合特征表達fmap,實現(xiàn)網絡質量KQI 數據特征提取,在獲得特征提取后,能夠實現(xiàn)用戶投訴的預測。
圖5 淺層和深層特征信息融合示意圖
圖6 融合CNN與LSTM的網絡質量KQI數據特征提取示意圖
為驗證本文所提出的融合CNN 與LSTM 的網絡質量KQI 數據特征提取與預測的有效性,在基于TensorFlow的Keras 深度學習平臺上實現(xiàn)了該模型的訓練與預測,并將本文提出的模型與單獨使用LSTM 和CNN 模型的預測結果進行對比,對比結果如圖7 所示。
由于單步預測的預測時間間隔較短,因此三種不同算法的預測準確度與真實水平大體一致。CNN 模型相對于真實水平偏離較大,LSTM 模型整體存在一個滯后效應,CNN-LSTM 模型的偏離程度最小,但是在40 個點之后開始偏離真實曲線,但是其與真實曲線在趨勢上保持一致。圖8 為不同算法多步預測的準確率對比。
圖7 不同算法單步預測的準確率對比
圖8 不同算法多步預測的準確率對比
與單步預測相比,三種模型的多步預測都有不同程度的偏離,特別是CNN 和LSTM 均存在較嚴重的偏離真實趨勢的振蕩,只有CNN 和LSTM 算法與真實水平的趨勢大體保持一致。上述的實驗結果表明:由于本文融合CNN 和LSTM 算法的各自優(yōu)點,從某種程度上更加完備地提取KQI 數據的特征,那么投訴預測的準確率也就更加準確。
網絡部門根據KQI 的現(xiàn)狀數據進行實時提取,采用融合CNN-LSTM 的網絡質量KQI 數據特征提取與預測的方法對整個網絡的質量做出客觀的診斷和評判。以主動評估的方式代替被動投訴的方式收集現(xiàn)有實時的網絡業(yè)務質量信息,根據實時的診斷結果,結合設備優(yōu)化可充分改善現(xiàn)有網絡的數據業(yè)務質量,實現(xiàn)網絡業(yè)務質量的主動干預,提升用戶使用業(yè)務的滿意度。
本文提出一種融合CNN 和LSTM 的網絡質量數據特征提取方法,該方法不僅需要考慮網絡特征多維數據的空間關系,還要考慮數據在時間維度的延續(xù)關系。由于網絡質量數據具有高維特點,因此在處理數據空間關系時,引入融合深層語義信息和淺層語義信息來獲取數據的空間特征,使得特征空間的表達能力更強,更清晰。最后,在進行用戶投訴時,考慮到用戶投訴具有滯后性,因此,將T時間長度的特征信息放進模型中,從時間維度上訓練用戶投訴和網絡質量變化的關系,更能夠突出用戶感知的變化過程。實驗表明:CNN 與LSTM 的融合模型在特征表達上比單一模型更有效,單步預測與多步預測精度更高。