楊連報(bào),李 平,薛 蕊,馬小寧,吳艷華,鄒 丹
(1.中國鐵道科學(xué)研究院,北京 100081;2.中國鐵道科學(xué)研究院 電子計(jì)算技術(shù)研究所,北京 100081)
鐵路信號(hào)設(shè)備是鐵路信號(hào)、車站聯(lián)鎖設(shè)備、區(qū)間閉塞設(shè)備等的總稱,是保證列車運(yùn)行與調(diào)車作業(yè)安全的重要保障[1]。隨著鐵路信號(hào)設(shè)備的升級(jí)改造和快速發(fā)展,鐵路局積累了海量的鐵路信號(hào)設(shè)備事故故障數(shù)據(jù)。鐵路信號(hào)設(shè)備故障多以非結(jié)構(gòu)化文本形式記錄,需依靠人工理解和專家經(jīng)驗(yàn)進(jìn)行故障分類,易造成故障分類的不準(zhǔn)確和隨意性。在鐵路大數(shù)據(jù)時(shí)代,應(yīng)用文本挖掘等機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)鐵路信號(hào)設(shè)備故障的智能分類是當(dāng)前急需解決的問題。
鐵路信號(hào)設(shè)備類型眾多且各設(shè)備故障機(jī)理不同[2],存在故障類別數(shù)據(jù)不平衡的問題,即絕大多數(shù)文本屬于同一類故障,而其他故障只有少量的文本。鐵路信號(hào)設(shè)備故障智能分類通過文本挖掘技術(shù)實(shí)現(xiàn)對(duì)鐵路信號(hào)設(shè)備故障不平衡文本數(shù)據(jù)的結(jié)構(gòu)化轉(zhuǎn)換,通過故障類別數(shù)據(jù)均衡以及集成學(xué)習(xí)EL(Ensemble Learning)[3]實(shí)現(xiàn)故障的智能分類。
鐵路信號(hào)設(shè)備故障不平衡文本數(shù)據(jù)結(jié)構(gòu)化轉(zhuǎn)換,主要是指提取故障文本的特征并轉(zhuǎn)換為向量。目前,文本數(shù)據(jù)主要基于詞袋法BOW(Bag of Words)以向量空間模型VSM[4](Vector Space Model)來表征文檔,即將文檔看成一系列詞的集合,通過抽取能夠表征文檔特征的關(guān)鍵詞并轉(zhuǎn)換為向量。最常用的文本特征提取算法有詞頻-逆文檔頻率TF-IDF[5](Term Frequency-Inverse Document Frequency)、信息增益IG[6](Information Gain)、互信息MI[7](Mutual Information)、主題模型TM[8](Topic Model)、Word2Vec[9-10]、卡方檢驗(yàn)等。其中,以TF-IDF使用最為廣泛和簡(jiǎn)單。由于鐵路行業(yè)缺乏語料庫,關(guān)于鐵路信號(hào)設(shè)備文本結(jié)構(gòu)化轉(zhuǎn)換的研究較少。文獻(xiàn)[11]通過主題模型實(shí)現(xiàn)對(duì)高鐵信號(hào)系統(tǒng)車載設(shè)備文本的特征提取,并通過貝葉斯網(wǎng)絡(luò)實(shí)現(xiàn)故障診斷。文獻(xiàn)[12]通過TF-IDF實(shí)現(xiàn)文本特征向量提取,并通過詞云的形式實(shí)現(xiàn)對(duì)地鐵施工安全風(fēng)險(xiǎn)的分析。
鐵路信號(hào)設(shè)備的故障文本數(shù)據(jù)均衡與集成學(xué)習(xí),主要是從數(shù)據(jù)和算法兩方面來解決數(shù)據(jù)不平衡問題。數(shù)據(jù)層面主要是通過更改數(shù)據(jù)集的樣本分布來實(shí)現(xiàn)數(shù)據(jù)的平衡,主要分為過采樣和欠采樣兩種[13]。過采樣是自動(dòng)生成小類別數(shù)據(jù),欠采樣是選取大類別數(shù)據(jù)中的部分樣本。文獻(xiàn)[14]提出的SMOTE(Synthetic Minority Oversampling Technique)算法是過采樣中比較常用的一種,主要有Borderline-SMOTE[15]、SVM-SMOTE等幾種改進(jìn)版本。其基本思想是合成新的少數(shù)類別樣本,實(shí)現(xiàn)樣本類別的平衡。算法層面主要通過訓(xùn)練多個(gè)分類器,充分利用分類器的差異性,通過Voting方式實(shí)現(xiàn)不同分類器的集成學(xué)習(xí)。傳統(tǒng)的文本分類主要是基于單個(gè)分類器模型,如邏輯回歸LR(Logistic Regression)、決策樹DT(Decision Tree)、SVM(Support Vector Machine)和離散型樸素貝葉斯Multinomial NB(Multinomial Naive Bayesian)等[16],但這些分類器模型主要適用于平衡的訓(xùn)練數(shù)據(jù)樣本。集成分類器主要包含Bagging和Boosting兩種,Bagging的代表算法主要是隨機(jī)森林RF[17](Random Forest),Boosting的代表算法是梯度提升樹GBDT[18](Gradient Boost Decision Tree)等。
本文借鑒專家學(xué)者在文本結(jié)構(gòu)化處理和不平衡數(shù)據(jù)分類中的經(jīng)驗(yàn),結(jié)合鐵路信號(hào)設(shè)備文本數(shù)據(jù)特點(diǎn),提出基于TF-IDF+SVM-SMOTE+Voting的多分類器集成學(xué)習(xí)分類模型。該模型通過TF-IDF算法實(shí)現(xiàn)故障文本的特征抽取和向量轉(zhuǎn)化,并利用SVM-SMOTE算法實(shí)現(xiàn)鐵路信號(hào)設(shè)備故障小類別數(shù)據(jù)的自動(dòng)生成,通過Voting的方式集成LR、Multinomial NB、SVM等基分類器以及RF、GBDT等集成分類器算法,實(shí)現(xiàn)鐵路信號(hào)設(shè)備的智能分類。為驗(yàn)證模型的正確性和有效性,本文選取某鐵路局2012—2016年鐵路信號(hào)設(shè)備故障不平衡文本數(shù)據(jù)共計(jì)10類641條進(jìn)行試驗(yàn)分析。
基于不平衡文本數(shù)據(jù)挖掘的鐵路信號(hào)設(shè)備故障智能分類的整體架構(gòu)如圖1所示,整個(gè)架構(gòu)分為數(shù)據(jù)處理層、模型優(yōu)化層和智能分類層3個(gè)層次。
框架的最底層是數(shù)據(jù)處理層。數(shù)據(jù)處理層主要實(shí)現(xiàn)鐵路信號(hào)設(shè)備故障文本數(shù)據(jù)結(jié)構(gòu)化處理,抽取文本的特征,并轉(zhuǎn)換為計(jì)算機(jī)可識(shí)別和計(jì)算的文本向量。針對(duì)轉(zhuǎn)化后的文本向量,利用SVM-SMOTE模型對(duì)小類別數(shù)據(jù)進(jìn)行自動(dòng)生成,從數(shù)據(jù)層面解決樣本數(shù)據(jù)不均衡的問題。
框架的中間層為模型優(yōu)化層。針對(duì)數(shù)據(jù)處理層所得到的樣本數(shù)據(jù),模型優(yōu)化層利用邏輯回歸、樸素貝葉斯、支持向量機(jī)等基分類器,以及隨機(jī)森林、GBDT等集成分類器進(jìn)行分類,并根據(jù)參數(shù)特點(diǎn)進(jìn)行調(diào)優(yōu)。調(diào)優(yōu)的參數(shù)主要有迭代次數(shù)、學(xué)習(xí)步長(zhǎng)、采樣率等。最后,通過Voting的方式對(duì)調(diào)優(yōu)后的集成分類器以及基分類器進(jìn)行集成學(xué)習(xí),得到最終的智能分類模型。
框架的最上層為智能分類層。智能分類層主要是根據(jù)模型優(yōu)化層得到的智能分類模型,對(duì)待分類的文本進(jìn)行自動(dòng)分類。
鐵路信號(hào)設(shè)備主要包含調(diào)度集中CTC(Centralized Traffic Control)設(shè)備、列車調(diào)度指揮系統(tǒng)TDCS(Train Operation Dispatching Command System)設(shè)備、列車運(yùn)行監(jiān)控裝置LKJ、車載設(shè)備、聯(lián)鎖設(shè)備、閉塞設(shè)備、道岔、軌道電路、信號(hào)機(jī)、電源屏設(shè)備。鐵路信號(hào)設(shè)備故障分類方式有多種,本文按照設(shè)備的功能及現(xiàn)象來劃分,主要分為10類故障,即CTC設(shè)備故障、LKJ設(shè)備故障、TDCS設(shè)備故障、閉塞設(shè)備故障、車載設(shè)備故障、道岔故障、電源屏故障、軌道電路故障、微機(jī)聯(lián)鎖故障、信號(hào)機(jī)故障等。圖2為某鐵路局電務(wù)段2012—2016年信號(hào)設(shè)備故障分布情況。
圖1 基于不平衡文本數(shù)據(jù)挖掘的鐵路信號(hào)設(shè)備故障智能分類整體架構(gòu)
圖2 某鐵路局電務(wù)段2012—2016年鐵路信號(hào)設(shè)備故障分布情況
由圖2可知,故障主要以道岔、軌道電路、信號(hào)機(jī)等為主,對(duì)于微機(jī)聯(lián)鎖、TDCS、閉塞等設(shè)備的故障較少,不均衡比例達(dá)到1∶40,為典型的數(shù)據(jù)分類不均衡問題,直接通過模型訓(xùn)練容易造成分類的不準(zhǔn)確。
鐵路信號(hào)設(shè)備故障文本數(shù)據(jù)主要由現(xiàn)場(chǎng)人員通過自然語言記錄所形成。部分實(shí)例見表1,表1中記錄的主要信息為故障發(fā)生經(jīng)過、原因描述以及故障分類。
表1 鐵路信號(hào)設(shè)備故障文本數(shù)據(jù)(部分)
鐵路信號(hào)設(shè)備故障文本數(shù)據(jù)結(jié)構(gòu)化處理首先要實(shí)現(xiàn)故障文本的分詞。主流的分詞技術(shù)主要有基于詞典匹配的中文分詞、基于字統(tǒng)計(jì)模型的中文分詞、基于字標(biāo)注的中文分詞以及基于深度學(xué)習(xí)的中文分詞等。本文采用Jieba分詞工具,利用通用詞典和自定義領(lǐng)域詞典實(shí)現(xiàn)鐵路信號(hào)設(shè)備故障文本的分詞,如圖3所示。自定義領(lǐng)域詞典主要是鐵路信號(hào)設(shè)備故障的常用詞匯。
圖3 領(lǐng)域詞典與通用詞典相結(jié)合的鐵路信號(hào)設(shè)備中文分詞
TF-IDF(Term Frequency-Inverse Document Frequency)是一種基于統(tǒng)計(jì)的常用加權(quán)方法,廣泛應(yīng)用于檢索與文本分析中。TF-IDF假設(shè):如果一個(gè)詞在一個(gè)文檔中頻繁出現(xiàn),而在其他文檔中出現(xiàn)較少或不出現(xiàn),則認(rèn)為該詞作為該文檔的關(guān)鍵詞,將該文檔與其他文檔區(qū)分開來。
TF表示詞頻,即該詞在一個(gè)文檔中出現(xiàn)的次數(shù),理論上出現(xiàn)的次數(shù)越多則與文檔的主題越相關(guān),但需要排除一些停用詞,如“的”“地”“了”“但”等。詞頻TFi,j為
( 1 )
逆向文檔頻率IDFi為
( 2 )
式中:ki為詞wi在文檔集合D中相關(guān)的文檔個(gè)數(shù);N為D的大小;同理,分母加1是為了避免分母為0的情況。
將詞頻與逆向文檔頻率結(jié)合起來,即用IDFi來矯正TFi,就得到了文檔dj中詞wi的權(quán)重,即
Wi,j=TFi×IDFi
( 3 )
則某個(gè)文檔dj可用單詞權(quán)重構(gòu)成向量
dj=[W1,jW2,jW3,j…Wn,j]
( 4 )
SMOTE是一種常用的合成少數(shù)類樣本數(shù)據(jù)以達(dá)到訓(xùn)練集數(shù)據(jù)的類別平衡的過采樣技術(shù),使得分類器的學(xué)習(xí)能力得到顯著提高。其基本原理為:通過選擇少數(shù)類樣本xi的k個(gè)鄰近同類樣本,并從k個(gè)鄰近同類樣本中隨機(jī)選取一個(gè)xj,通過隨機(jī)線性插值,構(gòu)造出新的少數(shù)類樣本xnew為
xnew=xi+u(xi-xj) 0≤u≤1
( 5 )
由于傳統(tǒng)SMOTE沒有考慮其鄰近樣本的分布特點(diǎn),可能在類別間發(fā)生重復(fù)。近年來有一些基于SMOTE的改進(jìn)算法相繼被提出,具有代表性的算法包括Borderline-SMOTE算法、SVM-SMOTE算法等。Borderline-SMOTE僅對(duì)邊界上的少數(shù)類樣本進(jìn)行線性插值,從而起到加強(qiáng)邊界樣本的作用。SVM-SMOTE根據(jù)不同類別樣本鄰近比例,通過SVM構(gòu)造分類邊界,能夠根據(jù)實(shí)際的樣本數(shù)據(jù)分布進(jìn)行插值,使得類別之間區(qū)分更為明顯。需要說明的是,SVM-SMOTE主要利用SVM對(duì)不平衡數(shù)據(jù)分類不太敏感的特性,用于平衡數(shù)據(jù),使分類效果更佳。因此,本文選擇SVM-SMOTE算法實(shí)現(xiàn)少數(shù)類別數(shù)據(jù)的生成。不同SMOTE算法生成少數(shù)類樣本的效果如圖4所示。
圖4 不同SMOTE算法合成少數(shù)類樣本示意圖
(1)LR是一種基于統(tǒng)計(jì)分析的分類方法,可以得到概率型的分類結(jié)果為
( 6 )
由此可以得出相應(yīng)的Logistic回歸模型為
gk(x)=βk0+βk1x1+βk2x2+…+βkmxm
( 7 )
參數(shù)β的計(jì)算通常通過最大似然方法進(jìn)行估計(jì)。
(2)DT是一種特殊的樹形結(jié)構(gòu),主要用來進(jìn)行分類和決策。決策樹包含3種類型的節(jié)點(diǎn),分別為:決策節(jié)點(diǎn),通常用矩形框來表示;機(jī)會(huì)節(jié)點(diǎn),通常用圓圈來表示;終結(jié)點(diǎn),通常用三角形來表示。常用的決策樹生成算法有ID3、C4.5和C5.0等。
(3)SVM是通過構(gòu)造一個(gè)超平面f(x),使得該函數(shù)能夠表示類別y與樣本向量x的關(guān)系。定義線性x不敏感損失函數(shù)為
( 8 )
如果存在一個(gè)超平面,即
f(x)=ωTx+b=0
( 9 )
式中:ω∈Rn,b∈R,使得
|y-f(x)|≤ε
(10)
則稱樣本集D是ε-線性近似的,f(x)為線性回歸估計(jì)函數(shù)。樣本點(diǎn){xi,yi}到超平面的距離為
(11)
為得到最優(yōu)的超平面分類,轉(zhuǎn)換為一個(gè)優(yōu)化問題,即使‖ω‖2最小。
針對(duì)非線性問題,SVM通過非線性映射φ(xi)將樣本映射為高維特征空間,并通過核函數(shù)的方式計(jì)算內(nèi)積。此時(shí)優(yōu)化問題的目標(biāo)函數(shù)可表示為
(4)MultinomialNB是適用于離散特征的樸素貝葉斯模型。該模型將文檔看作是帶詞頻的詞語集合,在計(jì)算先驗(yàn)概率和條件概率時(shí),會(huì)做一些平滑處理,從而解決如果某一維的特征值沒在訓(xùn)練樣本中出現(xiàn),使得后驗(yàn)概率為0的問題。
先驗(yàn)概率p(y=k)為
條件概率p(xi|y=k)為
式中:Ny=k是類別為k的樣本個(gè)數(shù);Ny=k,xi是類別為k的樣本中,特征向量為值是xi的樣本個(gè)數(shù);α為平滑值。當(dāng)α=1時(shí),稱作Laplace平滑;當(dāng)0<α<1時(shí),稱作Lidstone平滑;當(dāng)α=0時(shí),不做平滑。
集成分類器是將多個(gè)基分類器按照一定策略進(jìn)行組合而共同決策的分類器。主要包括基分類器間相互依賴的Boosting算法和基分類器間相互獨(dú)立的Bagging算法。Boosting通過對(duì)樣本集的操作獲得樣本子集,利用樣本子集訓(xùn)練基分類器,最后通過對(duì)基分類器的加權(quán)融合獲得集成分類器。Bagging算法是隨機(jī)有放回的選擇訓(xùn)練數(shù)據(jù)構(gòu)造基分類器,進(jìn)行組合得到集成分類器。本文選取基于Bagging的并行集成分類器RF和基于Boosting的串行集成分類器GBDT進(jìn)行文本分類。
RF使用CART決策樹作為基分類器,同時(shí)對(duì)決策樹的建立做了改進(jìn)。傳統(tǒng)決策樹在節(jié)點(diǎn)上所有的n個(gè)樣本特征中選擇一個(gè)最優(yōu)的特征來做決策樹的左右子樹劃分,RF通過隨機(jī)選擇節(jié)點(diǎn)上的nsub(nsub≤n)個(gè)樣本特征,在這些隨機(jī)選擇的子樣本特征中,選擇一個(gè)最優(yōu)的特征來做決策樹的左右子樹劃分。RF進(jìn)一步增強(qiáng)了模型的泛化能力,避免了過擬合現(xiàn)象的出現(xiàn)。RF主要的調(diào)優(yōu)參數(shù)為Bagging框架參數(shù)和CART決策樹參數(shù),其中Bagging框架參數(shù)包括最大迭代次數(shù)等,CART決策樹參數(shù)有最大樹深度等。
GBDT又叫MART(Multiple Additive Regression Tree),是一種迭代的決策樹算法,該算法由多棵CART回歸決策樹組成,通過梯度提升算法實(shí)現(xiàn)損失函數(shù)的優(yōu)化,最終得到最優(yōu)的回歸樹。GBDT需要調(diào)優(yōu)的參數(shù)較多,主要分為Boosting框架參數(shù)和CART樹參數(shù),其中Boosting框架參數(shù)包括最大迭代次數(shù)、學(xué)習(xí)步長(zhǎng)等,CART決策樹參數(shù)有最大樹深度。
集成學(xué)習(xí)的基本原理是構(gòu)造若干個(gè)分類精度不高的弱分類器,把各個(gè)弱分類器的結(jié)果按照一定策略組成一個(gè)強(qiáng)分類器,從而解決分類問題。多分類器集成學(xué)習(xí)的優(yōu)勢(shì)在于,克服了弱分類器現(xiàn)實(shí)分類中存在的計(jì)算和統(tǒng)計(jì)方面的問題,減少分類中存在的位置風(fēng)險(xiǎn),具有更好的泛化能力。
假設(shè)分類器的錯(cuò)誤率相互獨(dú)立,隨著集成中基分類器數(shù)目的增大,集成的錯(cuò)誤率將以指數(shù)級(jí)下降,最終趨向于零。但在實(shí)際任務(wù)中,基分類器很難互相獨(dú)立。為了選取盡量準(zhǔn)確和多樣的集成分類器,本文根據(jù)基分類器和集成分類器在樣本數(shù)據(jù)集上的表現(xiàn)性能,優(yōu)先選取分類效果最好的分類器進(jìn)行集成學(xué)習(xí),通過最優(yōu)分類器與其他分類器的加權(quán)投票組合,選出表現(xiàn)性能最優(yōu)的組合集成分類器。該方法的基本流程如圖5所示。
圖5 基于Voting的多分類器集成學(xué)習(xí)流程
本文通過選擇某鐵路局電務(wù)段的電務(wù)設(shè)備不平衡故障文本數(shù)據(jù)來驗(yàn)證所提方法的有效性和準(zhǔn)確性。試驗(yàn)數(shù)據(jù)包含10種故障類別643條數(shù)據(jù)。本文采取準(zhǔn)確率Precision,召回率Recall和F-score作為模型評(píng)價(jià)和對(duì)比的指標(biāo)。
準(zhǔn)確率計(jì)算公式為
(15)
召回率計(jì)算公式為
F-score計(jì)算公式為
式中:TPi為被正確分到此類的實(shí)例個(gè)數(shù);TNi為被正確識(shí)別不在此類的實(shí)例個(gè)數(shù);FPi為被誤分到此類的實(shí)例個(gè)數(shù);FNi為屬于此類但被誤分到其他類的實(shí)例個(gè)數(shù);C表示所有類別的總數(shù)。
試驗(yàn)主要分為兩部分,即不平衡故障文本數(shù)據(jù)處理試驗(yàn)分析;基于SMOTE處理后基于Voting的多分類器集成學(xué)習(xí)故障智能分類試驗(yàn)分析。
試驗(yàn)使用Jieba分詞工具實(shí)現(xiàn)電務(wù)設(shè)備故障文本的分詞,并通過TF-IDF計(jì)算權(quán)重并進(jìn)行歸一化,得到試驗(yàn)文本故障數(shù)據(jù)的向量表示。為驗(yàn)證SMOTE處理不平衡數(shù)據(jù)的故障文本數(shù)據(jù)效果,通過SVM-SMOTE方法生成了少數(shù)類別數(shù)據(jù)。其中,TDCS設(shè)備故障數(shù)據(jù)由原來的6條自動(dòng)生成為172條,閉塞設(shè)備故障由原來的6條生成為84條,微機(jī)聯(lián)鎖故障由原來的6條生成為133條,總數(shù)據(jù)量變?yōu)? 014條,見表2。
表2 原始數(shù)據(jù)和SMOTE生成少數(shù)類別數(shù)據(jù)
試驗(yàn)選取了常用的傳統(tǒng)基分類器(LR,Multinomial NB和SVM)和集成分類器(RF和GBDT),分別在原始數(shù)據(jù)集和采用SMOTE處理前后的兩個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,并通過準(zhǔn)確率、召回率、F-score等分類性能指標(biāo)進(jìn)行對(duì)比分析,從而驗(yàn)證SMOTE處理不平衡數(shù)據(jù)的故障文本數(shù)據(jù)對(duì)分類性能的影響。為防止產(chǎn)生過擬合的問題,兩個(gè)數(shù)據(jù)集均隨機(jī)選取80%用來訓(xùn)練分類器,20%作為測(cè)試集。
4.2.1 原始文本數(shù)據(jù)集分類試驗(yàn)
集成分類器需要根據(jù)樣本數(shù)據(jù)調(diào)優(yōu)才能達(dá)到較好的分類效果。試驗(yàn)通過GridSearchCV進(jìn)行調(diào)優(yōu),經(jīng)過調(diào)優(yōu)后,RF的最佳迭代次數(shù)為180次,GBDT的最優(yōu)迭代次數(shù)為180,學(xué)習(xí)步長(zhǎng)為0.3,最優(yōu)采樣率為0.8。調(diào)優(yōu)后的集成分類器和傳統(tǒng)基分類器的分類結(jié)果見表3。
表3 原始數(shù)據(jù)分類效果
由表3可知,針對(duì)極端不平衡的文本數(shù)據(jù)集,集成分類器的效果略優(yōu)于基分類器,而基分類器中邏輯回歸的分類效果最差,集成分類器中隨機(jī)森林的分類效果最佳。
4.2.2 SMOTE處理后文本數(shù)據(jù)集分類試驗(yàn)
在用SMOTE方法對(duì)少數(shù)類數(shù)據(jù)進(jìn)行補(bǔ)足之后,對(duì)分類器進(jìn)行重新訓(xùn)練和測(cè)試。此時(shí)集成分類器的RF最優(yōu)迭代次數(shù)為160,GBDT的最優(yōu)迭代次數(shù)為180,學(xué)習(xí)步長(zhǎng)為0.3,最優(yōu)采樣率為0.6。分類結(jié)果見表4。
表4 SMOTE生成數(shù)后的分類效果
由表4可以看出,經(jīng)過SMOTE對(duì)不均衡故障文本數(shù)據(jù)處理之后,基分類器和集成分類器的各分類指標(biāo)均有明顯提高。尤其基分類器中SVM的分類效果有了大幅提升。
4.2.3 SMOTE+Voting集成分類試驗(yàn)
在上述試驗(yàn)的基礎(chǔ)上,選取基分類器和集成分類器進(jìn)行Voting集成學(xué)習(xí),其中選擇表現(xiàn)性能最好的SVM分類器與其他4種分類器的組合,通過Voting的方式實(shí)現(xiàn)集成學(xué)習(xí),得到的分類效果見表5。
表5 SMOTE+Voting集成分類效果
由表5可以看出,SVM+LR+RF、SVM+LR+GBDT、SVM+LR+Multinomial NB等的組合并沒有提高整體的分類效果,而是和基分類器SVM分類效果一樣。而SVM+Multinomial NB+RF、SVM+Multinomial NB+GBDT、SVM+GBDT+RF的集成學(xué)習(xí)均比SVM單個(gè)分類器的效果要好,尤其SVM+Multinomial NB+RF的性能最佳,準(zhǔn)確率、召回率和F-score均有1%的提高。
根據(jù)以上試驗(yàn)分析,以SVM分類為例,對(duì)比其在原始數(shù)據(jù)集、SMOTE處理后數(shù)據(jù)集和SMOTE+Voting方法之后的分類性能,如圖6所示。
圖6 SVM不同處理方法分類性能比較
由圖6可以看出,針對(duì)不平衡故障文本數(shù)據(jù),本文提出的SMOTE+Voting的多分類器集成算法在各方面的性能指標(biāo)最優(yōu)。說明本文提出的鐵路信號(hào)設(shè)備智能分類模型算法在處理不平衡樣本的文本數(shù)據(jù)上具有優(yōu)勢(shì),可為鐵路電務(wù)設(shè)置不平衡故障文本數(shù)據(jù)分類提供參考。
本文通過對(duì)鐵路信號(hào)設(shè)備故障文本數(shù)據(jù)進(jìn)行分詞和基于TF-IDF轉(zhuǎn)換為權(quán)重特征向量,實(shí)現(xiàn)故障文本數(shù)據(jù)的向量表示。同時(shí),利用SVM-SMOTE實(shí)現(xiàn)鐵路信號(hào)設(shè)備小類數(shù)據(jù)的自動(dòng)生成,從而均衡故障文本數(shù)據(jù),提高分類效果。通過邏輯回歸、Multinomial NB、SVM等基分類器以及隨機(jī)森林、GBDT等集成分類器,對(duì)SMOTE處理后的數(shù)據(jù)進(jìn)行訓(xùn)練和學(xué)習(xí),得到最優(yōu)的分類模型。為提高分類模型的泛化能力,提出基于Voting的多分類器集成學(xué)習(xí)分類方法。通過對(duì)某鐵路局電務(wù)段的鐵路信號(hào)設(shè)備不平衡故障文本數(shù)據(jù)的試驗(yàn),驗(yàn)證了所提模型的準(zhǔn)確性和有效性,為鐵路信號(hào)設(shè)備智能分類提供了新的思路和解決方案。
參考文獻(xiàn):
[1]佟立本.鐵道概論[M].7版.北京:中國鐵道出版社,2016.
[2]李佳奇,黨建武.基于MAS電務(wù)故障診斷模型的研究[J].鐵道學(xué)報(bào),2013,35(2):72-80.
LI Jiaqi,DANG Jianwu.Study on Electric Fault Diagnosis Model Based on MAS[J].Journal of the China Railway Society,2013,35(2):72-80.
[3]DIETTERICH T G.Ensemble Methods in Machine Learning[C]//Mutliple Classifier Systems.Berlin:Springer Berlin Heidelberg,2000:1-15.
[4]TURNEY,PETER D,PANTEL,et al.From Frequency to Meaning:Vector Space Models of Semantics[J].Journal of Artificial Intelligence Research,2010,37(1):141-188.
[5]El-KHAIR I A.TF*IDF[J].Encyclopedia of Database Systems,2009,13(12):3085-3086.
[6]STACHNISS C,GRISETTI G,BURGARD W.Information Gain-based Exploration Using Rao-Blackwellized Particle Filters[C]//Robotics:Science and Systems Conference,2005:65-72.
[7]WANG G,LOCHOVSKY F H.Feature Selection with Conditional Mutual Information Maximin in Text Categorization[C]//Thirteenth ACM International Conference on Information and Knowledge Management.ACM,2004:342-349.
[8]ZHU Y,LI L,LUO L.Learning to Classify Short Text with Topic Model and External Knowledge[C]//International Conference on Knowledge Science,Engineering and Management.Berlin:Springer Berlin Heidelberg,2013:493-503.
[9]MIKOLOV T,CHEN K,CORRADO G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013.
[10]MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed Representations of Words and Phrases and Their Compositionality[C]//International Conference on Neural Information Processing Systems.Nevada:Curran Associates Inc.,2013:3111-3119.
[11]趙陽,徐田華.基于文本挖掘的高鐵信號(hào)系統(tǒng)車載設(shè)備故障診斷[J].鐵道學(xué)報(bào),2015,37(8):53-59.
ZHAO Yang,XU Tianhua.Text Mining Based Fault Diagnosis for Vehicle On-board Equipment of High Speed Railway Signal System[J].Journal of the China Railway Society,2015,37(8):53-59.
[12]李解,王建平,許娜,等.基于文本挖掘的地鐵施工安全風(fēng)險(xiǎn)事故致險(xiǎn)因素分析[J].隧道建設(shè),2017,37(2):160-166.
LI Jie,WANG Jianping,XU Na,et al.Analysis of Safety Risk Factors for Metro Construction Based on Text Mining Method[J].Tunnel Construction,2017,37(2):160-166.
[13]HE H,BAI Y,GARCIA E A,et al.ADASYN:Adaptive Synthetic Sampling Approach for Imbalanced Learning[C]//IEEE International Joint Conference on Neural Networks.New York:IEEE,2008:1322-1328.
[14]CHAWLA N V,BOWYER K W,HALL L O,et al.SMOTE:Synthetic Minority Over-sampling Technique[J].Journal of Artificial Intelligence Research,2002,16(1):321-357.
[15]HAN H,WANG W Y,MAO B H.Borderline-SMOTE:a New Over-Sampling Method in Imbalanced Data Sets Learning[J].Lecture Notes in Computer Science,2005,3644(5):878-887.
[16]AGGARWAL C C,ZHAI C.A Survey of Text Classification Algorithms[J].Springer US,2012,45(3):163-222.
[17]BREIMAN L.Random Forests[J].Machine learning,2001,45(1):5-32.
[18]FRIEDMAN J H.Greedy Function Approximation:a Gradient Boosting Machine[J].Annals of Statistics,2001,29(5):1189-1232.