范馨予 徐雪遠 鄔 霞
(北京師范大學人工智能學院, 北京 100875)
隨著機器學習的發(fā)展,學習任務(wù)的特征維度不斷增加[1-3]。而在高維特征數(shù)據(jù)中,與任務(wù)不相關(guān)的特征數(shù)據(jù)或噪聲特征數(shù)據(jù)存在的規(guī)模也不斷增加[4]。這些特征數(shù)據(jù)不僅會降低學習任務(wù)的性能和效率,還會給結(jié)果的解釋增加困難性。為了解決上述問題,特征選擇和特征壓縮變換常被用來降低特征的規(guī)模[5]。相較于特征壓縮變換,特征選擇能夠不改變原始特征的物理屬性及數(shù)據(jù)結(jié)構(gòu),更加有利于保留學習任務(wù)的可解釋性[6]。
按照特征選擇模型和學習任務(wù)模型的關(guān)系來說,特征選擇算法可分為過濾式(filter)特征選擇算法、包裹式(wrapped)特征選擇算法以及嵌入式(embedded)特征選擇算法[7]。過濾式特征選擇算法通過某一種法則計算所有特征的權(quán)值,并根據(jù)權(quán)值大小排列挑選出重要的特征,例如ReliefF,拉普拉斯分數(shù)(Laplacian Score, LS)[8]和最小冗余最大相關(guān)算法(Minimum Redundancy Maximum Relevance, mRMR)[9];包裹式特征選擇算法將所有特征分成不同的子集,用分類器對所有子集進行評價,挑選分類性能最好的特征子集作為最終的特征選擇結(jié)果,例如序列特征選擇(Sequential Feature Selection, SFS)算法[10]和遺傳算法(Genetic Algorithm, GA)[11];嵌入式特征選擇算法則是將特征選擇的過程和學習的過程結(jié)合在一起,在模型訓練的過程中篩選出與任務(wù)相關(guān)的重要特征,例如線性判別分析(Linear Discriminant Analysis, LDA)[12],最小二乘法(Least Square Method, LSM)[13],和隨機森林(Random Forests, RF)[14]。對于這三類特征選擇算法來說,過濾式算法的特征選擇過程與分類學習過程相互獨立,挑選的特征子集往往不是最佳的特征子集;包裹式特征選擇算法由于依賴分類器來評價所有特征子集的性能,因此計算復雜度較高。而嵌入式特征選擇算法將特征選擇的過程融入分類模型的構(gòu)建中,能夠挑選出分類準確率較高的子集。
通常,正則化嵌入式特征選擇算法在目標函數(shù)中加入懲罰項進行約束,來對目標函數(shù)的求解加以引導[5]。在目標函數(shù)構(gòu)建中挑選符合學習任務(wù)的懲罰項,能夠?qū)ψ罱K的分類結(jié)果帶來積極的影響。其中,最常使用的約束項p范數(shù),因此對于p范數(shù)的正則化是當前研究熱點。例如,Hoerl等人提出了基于2范數(shù)的有偏估計嶺回歸,其中的2范數(shù)對所有系數(shù)計算平方和根,因此該方法對于誤差較大的離群值十分敏感[15]。但對于結(jié)構(gòu)相似的特征子集,2范數(shù)無法收縮系數(shù)得到稀疏解。為解決該問題,Tibshirani等人提出了基于1范數(shù)的最小絕對值收斂和選擇算子(LASSO)算法[16]。1范數(shù)采用正則化系數(shù)的絕對值進行求和,能夠?qū)⒋蟛糠值南禂?shù)收縮至零[17]。因此,基于1范數(shù)的模型能得到稀疏解。而1范數(shù)的模型只能解決單個任務(wù)的特征選擇問題,并且對噪聲數(shù)據(jù)十分敏感。G.Obozinski等人針對該問題提出了一種將1范數(shù)和2范數(shù)結(jié)合的聯(lián)合2,1范數(shù)[18]。隨后,Lai等人提出了一種魯棒的局部判別分析方法,用2,1范數(shù)代替2范數(shù)構(gòu)造類間散布矩陣。同時,他們在投影矩陣上施加了2,1范數(shù),以保證聯(lián)合稀疏性和魯棒性[19]。Yang等人提出了一種將LDA和2,1范數(shù)正則化相結(jié)合的特征選擇方法來實現(xiàn)特征選擇。在這種方法中,他們使用2,1范數(shù)項對變換矩陣的行施加稀疏約束[20]。2,1范數(shù)利用組內(nèi)和組間的聯(lián)合關(guān)系,在全局的范圍內(nèi)使關(guān)聯(lián)特征之間的系數(shù)為零,保證了系數(shù)的稀疏性和可解釋性。因此,2,1范數(shù)在特征選擇領(lǐng)域得到了廣泛的應(yīng)用[21]。
為了將重點落在原理的實現(xiàn)上,我們選擇了最基礎(chǔ)的后向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation,BP)結(jié)構(gòu),且只使用了一層隱藏層。因此,神經(jīng)網(wǎng)絡(luò)的模型只由輸入層,隱藏層和輸出層構(gòu)成。本章節(jié)使用的各參數(shù)定義如表1所示。
表1 各參數(shù)定義
一般來說,BP神經(jīng)網(wǎng)絡(luò)的正向傳播過程的輸出如公式(1)所示:
(1)
(2)
(3)
為了使模型更適合多分類任務(wù),且避免概率分值不平衡,我們采用交叉熵損失函數(shù)作為神經(jīng)網(wǎng)絡(luò)的損失函數(shù),將最大概率輸出為輸出。交叉熵損失定義函數(shù)為:
(4)
同時,輸出層的激活函數(shù)配合使用softmax函數(shù):
(5)
(6)
其中,λ為正則化參數(shù),防止過擬合。且2,1范數(shù)表示為:
(7)
其中,a為w的總列數(shù),b為w的總行數(shù)。因此,最終的求解問題表示為:
(8)
對于||W||2,1矩陣的偏導數(shù)的求解過程可表示為:
(9)
經(jīng)過每一次前向傳播和后向傳播的迭代,輸出與真實標簽之間的誤差會越來越小,此時設(shè)定迭代收斂的最小閾值來終止學習過程。為了直觀地反映特征選擇的結(jié)果,最后計算了權(quán)重矩陣W的2范數(shù)。綜上所述,我們將本文提出的方法命名為BPFS。
為了評估BPFS的性能,我們將BPFS特征選擇方法與六種具有代表性的特征選擇方法進行了比較,其中包括相關(guān)系數(shù)(Correlation Coefficient,CC)、ReliefF、mRMR經(jīng)典的特征選擇算法,以及通過線性方法優(yōu)化范數(shù)的RFS[23]、SDFS[26]和L21-RLDA[27]特征選擇算法。此外,選取公開的UCI數(shù)據(jù)集中的8個數(shù)據(jù)集對這些方法進行了驗證,八個數(shù)據(jù)集分別為Binalpha[28],Control[29],Corel5k[28],Crowdsowrced[30],Isolet[31],Movementlibras[32],Segment[28],Sensorless[33]。表2顯示了關(guān)于這些數(shù)據(jù)集的詳細信息。
表2 各數(shù)據(jù)集信息
首先,我們使用七種特征選擇方法選擇不同數(shù)量下的特征。然后使用線性的支持向量機分類器(Support Vector Machine, SVM)和非線性的隨機森林(Random Forest,RF)分類器分別對各結(jié)果進行分類,并且每次按照取百分之七十的數(shù)據(jù)作為訓練集,剩下的數(shù)據(jù)作為測試集,重復多次取平均值作為分類準確度。為了提高效率,直接將數(shù)據(jù)集的所有樣本和特征構(gòu)成的矩陣作為輸入傳入輸入層。需要注意的是,所有數(shù)據(jù)集都被零均值標準化。對于每次的分類結(jié)果,計算并記錄平均準確度以及收斂性來檢驗所提出方法的性能。所有代碼均在MATLAB上實現(xiàn),其中SVM分類器是由LIBSVM工具箱實現(xiàn)的,RF分類器是使用內(nèi)置函數(shù)實現(xiàn)。
算法的收斂速度能力一定程度反應(yīng)了算法的效率和穩(wěn)定性。為了加快計算速度和方便比較,將BP神經(jīng)網(wǎng)絡(luò)特征選擇過程的迭代次數(shù)設(shè)為常數(shù)2500,各數(shù)據(jù)集收斂情況如圖1所示。
圖1 BPFS在各數(shù)據(jù)集中的收斂結(jié)果Fig.1 Iteration results of BPFS in all dataset
可以看到,在迭代2500的時候,所有數(shù)據(jù)集都很好的實現(xiàn)了收斂。大部分的數(shù)據(jù)在迭代次數(shù)為500至1000左右時實現(xiàn)了收斂,其中收斂效果最好的是Segment數(shù)據(jù)集,在迭代次數(shù)不到500時實現(xiàn)收斂。而Sensorless數(shù)據(jù)集收斂稍慢些,到近2000次迭代才收斂。因此,BPFS具備達到局部極小值的可能性。
圖2和表3展示了SVM分類器下的7種算法在各數(shù)據(jù)集上的不同維度的分類準確度和所有維度下的平均分類準確度。
從圖2可以看到,不同數(shù)據(jù)集各算法的分類準確度結(jié)果,每種方法的精度隨著選擇的特征數(shù)量增加變得更加精確。在SVM的結(jié)果中,BPFS算法在部分數(shù)據(jù)集中得到的分類結(jié)果相較其他算法具有一定的優(yōu)勢,并且在很多數(shù)據(jù)集結(jié)果中都是最先趨于平滑,快速地調(diào)整誤差并選擇有更具有代表的特征。不過需要注意的是,在Control,Crowdsourced和Movementlibras數(shù)據(jù)集中,BPFS算法并未取得明顯的優(yōu)勢,尤其在Control和Crowdsourced數(shù)據(jù)集中提取的特征數(shù)量增長中后期??赡芤驗楸疚倪M行實驗的BPFS使用的是簡單基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),對于特征量龐大的數(shù)據(jù)集需要更深的網(wǎng)絡(luò)來實現(xiàn)更好的擬合。另外,結(jié)合表3所有維度平均分類準確度中的方差來看,BPFS算法在所有數(shù)據(jù)集中都取得了十分小的方差,因此,BPFS算法相較于其他算法具有更好的穩(wěn)定性。
表3 七種特征選擇方法在SVM分類器下的平均分類準確率和方差(%),其中加粗的是該數(shù)據(jù)集下準確率最高的方法
圖2 7種算法在SVM分類器下各數(shù)據(jù)集上的分類準確度Fig.2 Accuracy result of seven algorithm in SVM
同理,我們可以得到在RF分類器下的7種算法在各數(shù)據(jù)集上的不同維度的分類準確度和所有維度下的平均分類準確度,如圖3和表4所示。
圖3 7種算法在RF分類器下各數(shù)據(jù)集上的分類準確度Fig.3 Accuracy result of seven algorithm in RF
在圖3中可以看到BPFS算法在大部分的數(shù)據(jù)集中取了不錯的結(jié)果,而在表4中可以看到BPFS算法在所有的數(shù)據(jù)集中得到了最高的平均分類準確度。因此,基于非線性結(jié)構(gòu)的BPFS在不同的數(shù)據(jù)集中能夠發(fā)揮較好的作用,在神經(jīng)網(wǎng)絡(luò)的協(xié)助下選擇出更重要的特征。
表4 七種特征選擇方法在RF分類器下的平均分類準確率和方差(%),其中加粗的是該數(shù)據(jù)集下準確率最高的方法
結(jié)合表3和表4分析BPFS算法在SVM分類器和RF分類器下的結(jié)果可以得到,RF分類器下BPFS的結(jié)果在大部分數(shù)據(jù)集上比SVM分類器下BPFS的結(jié)果高,只有在Corel5k數(shù)據(jù)集上低于SVM分類器。這可能因為Corel5k數(shù)據(jù)集中的相關(guān)聯(lián)的特征較多,線性的SVM分類器能夠更好地處理這些線性特征。同理,在Sensorless數(shù)據(jù)集的結(jié)果中可以看到,RF分類器下所有算法的平均分類準確度都要遠遠高于SVM分類器下所有算法的平均分類準確度。這兩個數(shù)據(jù)集在SVM分類器和RF分類器下造成的差異的原因可能是因為Sensorless數(shù)據(jù)集中的特征結(jié)構(gòu)是非線性的結(jié)構(gòu),且冗余特征較多,因此在RF分類器中都取得了不錯的表現(xiàn)。