謝群輝,田 青
(1.南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106;2.南京信息工程大學(xué) 計(jì)算機(jī)與軟件學(xué)院,江蘇 南京 210044)
極速學(xué)習(xí)機(jī)(Extreme Learning Machines,ELM)[1]以其訓(xùn)練速度快,易實(shí)現(xiàn),泛化性能好等優(yōu)點(diǎn)受到廣泛關(guān)注。相關(guān)研究證明,ELM具有很好的萬能逼近能力(Universal Approximation Capability)[2]。相比SVM等機(jī)器學(xué)習(xí)分類方法,ELM具有更好的分類泛化性和學(xué)習(xí)快速性[3],并在特征學(xué)習(xí)、分類、回歸和聚類等方面獲得了一系列拓展[4-6]。例如,極速非線性判別分析方法(Extreme Nonlinear Discriminant Analysis,ENDA)就是在ELM基礎(chǔ)上提出的,通過隨機(jī)初始化輸入權(quán)重取代了傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)迭代訓(xùn)練,提高了計(jì)算效率;利用LDA進(jìn)行特征提取并能獲得全局最優(yōu),避免了神經(jīng)網(wǎng)絡(luò)局部最小的問題;通過對(duì)線性不可分?jǐn)?shù)據(jù)進(jìn)行非線性化特征選擇,在高維空間中進(jìn)行LDA降維和特征判別分析,并且獲得可視化效果,非常有利于后續(xù)的分類。
非線性化方法主要包含神經(jīng)網(wǎng)絡(luò)方法和核方法兩大類,其中神經(jīng)網(wǎng)絡(luò)非線性化方法又包含深度學(xué)習(xí)和淺層網(wǎng)絡(luò)(ELM)兩大類。文獻(xiàn)[6-7]表明,隨機(jī)初始化正交權(quán)重,可以改善其泛化性能。權(quán)重的正交化方法更適用于高維的圖像聚類或分類。在處理小樣本、高維度的數(shù)據(jù)時(shí),權(quán)重正交化的設(shè)計(jì)可以去除特征以外的噪聲,提高模型的計(jì)算效率。通過初始化正交權(quán)重,避免傳統(tǒng)深度學(xué)習(xí)的反向迭代計(jì)算權(quán)重,達(dá)到優(yōu)化非線性組合的目的。文獻(xiàn)[8-10]表明,正交性在深度網(wǎng)絡(luò)學(xué)習(xí)中至關(guān)重要,正交權(quán)重層通常被設(shè)計(jì)成濾波器組,實(shí)現(xiàn)更完備特征的提取,達(dá)到非常好的無監(jiān)督特征分類學(xué)習(xí)效果,給高維大數(shù)據(jù)學(xué)習(xí)正交化提供理論依據(jù)。在MATLAB環(huán)境下實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)的深度集成化[11],其中濾波器模塊利用權(quán)重正交化約束的設(shè)計(jì)。通過權(quán)重的隨機(jī)正交化可以過濾冗余信息,以達(dá)到快速訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)權(quán)重的目的。這種權(quán)重正交層被稱為施蒂費(fèi)爾(Stiefel Layer),在很多BP網(wǎng)絡(luò)中被廣泛應(yīng)用,它的作用是降維和特征提取。文獻(xiàn)[7]提出的傳統(tǒng)的深度學(xué)習(xí),不僅學(xué)習(xí)速度緩慢,而且在計(jì)算資源上花費(fèi)巨大。為解決這一問題,通過極速學(xué)習(xí)機(jī)自動(dòng)編碼(ELM-AE)代替?zhèn)鹘y(tǒng)的BP梯度下降算法,大大提高了計(jì)算速度,節(jié)省了計(jì)算成本。ELM-AE正是通過隨機(jī)正交初始化權(quán)重、偏置以及輸出權(quán)重達(dá)到子空間約束的目的。利用多層正交化ELM網(wǎng)絡(luò)組成多層神經(jīng)網(wǎng)絡(luò),在計(jì)算速度上要比傳統(tǒng)的深度學(xué)習(xí)快很多??紤]到深度學(xué)習(xí)計(jì)算的時(shí)效性問題,核方法顯然比深度的神經(jīng)網(wǎng)絡(luò)方法要快,而有關(guān)核方法的權(quán)重正交設(shè)計(jì)方法[12-13]相繼被提出,這足以說明,在學(xué)習(xí)理論中正交概念是至關(guān)重要的。
在機(jī)器學(xué)習(xí)中,由于多層網(wǎng)絡(luò)訓(xùn)練困難,核方法又受到核函數(shù)隱節(jié)點(diǎn)線性與樣本數(shù)的限制,當(dāng)樣本數(shù)很大時(shí),核方法計(jì)算花費(fèi)大。而只有一層隱含層的淺層模型備受歡迎,作為機(jī)器學(xué)習(xí)的重要發(fā)展方向-極速化的淺層學(xué)習(xí),ELM正是這種淺層學(xué)習(xí)代表。在此基礎(chǔ)上,文中提出了正交約束設(shè)計(jì)特征選擇方法(O-ENDA)。受ELM-AE的啟發(fā),將原有淺層神經(jīng)網(wǎng)絡(luò)ENDA改造成O-ENDA,不僅能過濾圖像的冗余信息,而且與前面提到的深度學(xué)習(xí)對(duì)比充分發(fā)揮了淺層神經(jīng)網(wǎng)絡(luò)計(jì)算速度快的優(yōu)勢(shì),在保證分類性能的基礎(chǔ)上,O-ENDA比深度學(xué)習(xí)和核方法更容易實(shí)現(xiàn)極速化。在保證數(shù)據(jù)結(jié)構(gòu)化多樣化特性的前提下,對(duì)輸入權(quán)重正交化強(qiáng)制約束,能夠提取結(jié)構(gòu)特征效果,正交后輸入權(quán)重映射在保持多樣性的基礎(chǔ)上同樣可以提高計(jì)算效率??紤]到隱層的節(jié)點(diǎn)數(shù)與數(shù)據(jù)維度空間問題,從而實(shí)現(xiàn)降維(或者升維)作用,在保證數(shù)據(jù)原有多樣化特性的情況下,降低了數(shù)據(jù)的冗余信息,提取數(shù)據(jù)特征。
極速學(xué)習(xí)機(jī)是由黃廣斌提出的快速求解單隱層神經(jīng)網(wǎng)絡(luò)的快速學(xué)習(xí)算法。與傳統(tǒng)的Back-Propagation(BP)算法不同的是,利用權(quán)重的隨機(jī)初始化設(shè)置輸入權(quán)重和偏差,代替?zhèn)鹘y(tǒng)的梯度下降的權(quán)重學(xué)習(xí)。假設(shè)網(wǎng)絡(luò)層輸入為x,目標(biāo)輸出為T,估計(jì)輸出為y。
隨機(jī)初始化隱層節(jié)點(diǎn),給定一個(gè)訓(xùn)練集{(xi,ti)|xi∈n,ti∈m,i=1,2,…,N},xi為特征輸入向量,ti為對(duì)應(yīng)的輸出目標(biāo)向量,L為隱節(jié)點(diǎn)個(gè)數(shù)。ELM代價(jià)函數(shù)最小的目的是最小化訓(xùn)練誤差,最小化輸出權(quán)重:
(1)
其中,H為隱層輸出矩陣。
(2)
T為訓(xùn)練數(shù)據(jù)目標(biāo)矩陣。
(3)
ELM訓(xùn)練算法流程如下:
步驟2:計(jì)算隱層輸出矩陣H。
步驟3:獲得輸出權(quán)重向量。
β?=H?T
(4)
當(dāng)T=[t1,t2,…,tN]T∈N×m,H?為H的Moore-Penrose廣義逆矩陣。
考慮到ELM優(yōu)化方法中更好的泛化性能,解得:
(5)
對(duì)應(yīng)的ELM輸出函數(shù)表示為:
(6)
回顧ENDA的訓(xùn)練過程,其網(wǎng)絡(luò)結(jié)構(gòu)為輸入層、隱層和輸出層三層網(wǎng)絡(luò),共分為兩個(gè)步驟。第一步,隨機(jī)生成輸入層的連接權(quán)重和偏置,對(duì)輸入進(jìn)行隨機(jī)特征映射;第二步,計(jì)算LDA層投影權(quán)重,將隱層輸出作為L(zhǎng)DA輸入數(shù)據(jù),同時(shí)輸出層可用于可視化,如圖1所示。由于第一層為隨機(jī)生成權(quán)重,所以只需計(jì)算第二層的投影權(quán)重,整個(gè)模型計(jì)算簡(jiǎn)單、有效。
圖1 O-ENDA網(wǎng)絡(luò)結(jié)構(gòu)
(7)
(8)
樣本總類內(nèi)散度矩陣Sb和類間散度矩陣Sw分別定義為:
(9)
(10)
(11)
然后對(duì)其進(jìn)行求解,最大化J(W)等價(jià)于求解如下廣義特征問題:
SbW=λSwW
(12)
正交特征選擇通過優(yōu)化算法選擇出有利于分類的特征子集[6],為避免“維數(shù)災(zāi)難”,處理高維數(shù)據(jù),提出權(quán)重正交試驗(yàn)設(shè)計(jì),從而選出數(shù)據(jù)中有代表的特征向量,在保留完備和均勻特征信息的條件下,減少了計(jì)算復(fù)雜度。假設(shè)樣本空間xi=[x1,x2,…,xN],xj∈n,對(duì)應(yīng)的標(biāo)簽T=[tj1,tj2,…,tjm]∈m,將樣本投影權(quán)重矩陣B到隱層,從而得到特征子空間H。
首先討論隱層節(jié)點(diǎn)參數(shù)L構(gòu)建不同的或者相等的維度空間,L與樣本維度n的關(guān)系:當(dāng)n=L時(shí),屬于平等維度表示;當(dāng)n>L時(shí),屬于壓縮表示(降維);當(dāng)n
(13)
其中,E為高斯擾動(dòng);g(·)為Sigmoid激勵(lì)函數(shù)。
正交化后必須保持子空間的基不變,等效優(yōu)化效果。ATA=I的約束條件是A∈{RW},R∈{RRT=RTR=IP}等效優(yōu)化效果,A是正交的,通過計(jì)算經(jīng)驗(yàn)誤差度量學(xué)習(xí)效果。O-ENDA模型的經(jīng)驗(yàn)損失如下:
(14)
O-ENDA算法步驟如下:
步驟1:對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;
步驟3:計(jì)算O-ENDA的隱層輸出hi(通過式(13));
步驟5:對(duì)輸出層結(jié)果進(jìn)行分類。
仿真環(huán)境如下:MATLAB R2015a,Intel(R) CoreTMi5-3470 CPU @3.20 GHz,16.0 GB內(nèi)存,64位Win10專業(yè)版操作系統(tǒng)。采用UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫CNAE-9數(shù)據(jù)、手寫數(shù)字MNIST數(shù)據(jù)和CIFAR10數(shù)據(jù)分別進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)中完整的數(shù)據(jù)集被劃分為10部分,訓(xùn)練和測(cè)試數(shù)據(jù)集使用了10重交叉驗(yàn)證方法。對(duì)輸出層采用KNN算法進(jìn)行分類,比較原ENDA和正交化改進(jìn)后的O-ENDA的分類性能,三種數(shù)據(jù)如表1所示。分別為文本、手寫數(shù)字、圖片的數(shù)據(jù),冗余信息較多,維度逐漸加大,對(duì)于了解正交化改進(jìn)后的效果有一定代表性。
表1 數(shù)據(jù)集
CNAE-9數(shù)據(jù)集包含1 080個(gè)文檔的自由文本,共分為9個(gè)類。從原始文本進(jìn)行預(yù)處理獲得當(dāng)前數(shù)據(jù)集。每個(gè)文檔被表示為一個(gè)向量,每個(gè)詞的權(quán)重是它在文檔中出現(xiàn)的頻率。其中,高斯擾動(dòng)參數(shù)設(shè)置均值μ為0,方差σ2為1。
調(diào)整隱節(jié)點(diǎn)參數(shù)獲得重復(fù)20次實(shí)驗(yàn)平均值和方差,在CNAE-9數(shù)據(jù)集上的表現(xiàn)如圖2所示。實(shí)驗(yàn)結(jié)果表明,在維度較大的情況下,ENDA和O-ENDA的分類效果都很明顯,O-ENDA分類的性能更穩(wěn)定。
從O-ENDA和ENDA的誤差率來看,O-ENDA分類效果更好。討論了隱節(jié)點(diǎn)參數(shù)L與數(shù)據(jù)原有維度n的關(guān)系,當(dāng)L>n時(shí),都正交化需要調(diào)整權(quán)重矩陣,與L 圖2 CNAE-9數(shù)據(jù)集誤差率對(duì)比曲線 該數(shù)據(jù)為手寫數(shù)字MNIST字體庫,包含70 000個(gè)樣本。要對(duì)0至9手寫數(shù)字圖像進(jìn)行識(shí)別,每一個(gè)手寫數(shù)字樣本是一個(gè)28*28像素的圖像,因此對(duì)于每一個(gè)樣本,其輸入信息就是每一個(gè)像素對(duì)應(yīng)的灰度,總共有784(28*28)個(gè)像素,也就是數(shù)據(jù)中包含784個(gè)特征,實(shí)驗(yàn)前需對(duì)轉(zhuǎn)換成普通的圖像格式進(jìn)行預(yù)處理。 手寫數(shù)字識(shí)別大多來源于郵政編碼以及銀行業(yè)務(wù)自動(dòng)識(shí)別,由于字體變化大,識(shí)別要求高,在多數(shù)情況下通常采用多網(wǎng)絡(luò)的深度學(xué)習(xí)來提高識(shí)別率,主要利用神經(jīng)網(wǎng)絡(luò)非線性化學(xué)習(xí)能力和快速并行來提高識(shí)別率。目的在于驗(yàn)證淺層的O-ENDA可以通過正交過濾器消除冗余信息來解決此類問題。其中,高斯擾動(dòng)參數(shù)設(shè)置均值μ為0,方差σ2為0.1。 從圖3可以看出,ENDA具有很好的分類精度,而且O-ENDA的誤差率平均值比ENDA還要小,這充分表明,在MNIST數(shù)據(jù)特征維度到隱層維度,實(shí)際上是進(jìn)行了非線性化升維再進(jìn)行判別分析。O-EDNA去除了更多冗余信息,更加易于分類,保留特征具有線性獨(dú)立的特點(diǎn),因?yàn)檎坏碾S機(jī)權(quán)重分布更均勻,提取特征更加完備,無論是從分類精度還是標(biāo)準(zhǔn)差上,O-ENDA都要優(yōu)于原來ENDA。 圖3 MNIST數(shù)據(jù)集誤差率對(duì)比曲線 CIFAR10數(shù)據(jù)顯示的每一行存儲(chǔ)32×32的彩色圖像,共50 000個(gè)數(shù)據(jù)集,第1 024項(xiàng)包含紅色通道值,1 024綠色,最后1 024藍(lán)色。標(biāo)簽范圍為0~9,10個(gè)類別每個(gè)類圖片5 000張。隨機(jī)采集10 000個(gè)樣本為10 000×3 072的矩陣進(jìn)行實(shí)驗(yàn)。 比較MNIST數(shù)據(jù)和UCI數(shù)據(jù),CIFAR10維度更大,權(quán)重正交化效果更明顯。從誤差率比較ENDA和O-ENDA,結(jié)果如圖4所示。其中,高斯擾動(dòng)參數(shù)設(shè)置均值μ為0,方差σ2為0.1。 從圖4(重復(fù)20次實(shí)驗(yàn))可以看出,當(dāng)L=3 500時(shí),O-ENDA權(quán)重正交化的誤差性能更加穩(wěn)定。當(dāng)隱節(jié)點(diǎn)參數(shù)在2 000~4 000范圍變化時(shí),與數(shù)據(jù)維度3 072相比,分別進(jìn)行了降維、等維和升維三種情況的表示。如圖5所示,可以得到CIFAR10數(shù)據(jù)集20次誤差率平均值和節(jié)點(diǎn)參數(shù)關(guān)系圖,從圖中可以看到,正交化O-ENDA使得物體更加線性獨(dú)立和易于分類。 圖4 隱節(jié)點(diǎn)參數(shù)3 500時(shí)的誤差率直方圖 圖5 CIFAR10數(shù)據(jù)集誤差率對(duì)比曲線 從三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,對(duì)較高維度的數(shù)據(jù)進(jìn)行分類時(shí),O-ENDA比ENDA分類效果更好,特別是在CIFAR10數(shù)據(jù)集作用更加明顯。由于圖像數(shù)據(jù)冗余信息越多,權(quán)重正交化取得分類效果就越明顯,O-ENDA算法分類性能越好,且隱層更能代表原樣本數(shù)據(jù)多樣性特征,充分驗(yàn)證了正交作為神經(jīng)網(wǎng)絡(luò)一種重要的特征提取方法的有效性,從而也開啟了淺層神經(jīng)網(wǎng)絡(luò)對(duì)高維度正交提取完備特征,能有效防止“維數(shù)災(zāi)難”。 在極速非線性化判別分析網(wǎng)絡(luò)基礎(chǔ)上提出正交約束。權(quán)重Gram-Schmidt正交化方法作為神經(jīng)網(wǎng)絡(luò)一種重要的優(yōu)化方法,與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法和核方法相比,具有速度和可伸縮性兩方面的優(yōu)勢(shì)。權(quán)重正交的對(duì)象為高維度小樣本數(shù)據(jù)集,通過正交化局部保持投影的度量學(xué)習(xí)分析,正交的隨機(jī)權(quán)重分布使得特征之間均勻更加線性獨(dú)立,一方面降低了數(shù)據(jù)的冗余信息,利于后續(xù)分類;另一方面提取更為完備的特征,整體上提高了模型泛化性能。實(shí)驗(yàn)表明正交優(yōu)化能提高算法的性能。 集成學(xué)習(xí)能夠?qū)δP捅容^獨(dú)立的樣本進(jìn)行訓(xùn)練,然后把結(jié)果整合起來進(jìn)行整體的投票決策。對(duì)于隨機(jī)映射每個(gè)不同的基分類器集成[14],這是一種非常有效的方法。計(jì)算機(jī)的并行化和批量擴(kuò)展能力更加適合集成學(xué)習(xí)的未來發(fā)展,這也是下一步研究的方向。 [1] HUANG G B,ZHU Q Y,SIEW C K.Extreme learning machine:a new learning scheme of feedforward neural networks[C]//International joint conference on neural networks.[s.l.]:IEEE,2004:985-990. [2] HUANG G B,CHEN L,SIEW C K.Universal approximation using incremental constructive feedforward networks with random hidden nodes[J].IEEE Transactions on Neural Networks,2006,17(4):879-892. [3] HUANG G B,ZHOU H,DING X,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B,2012,42(2):513-529. [4] HUANG G B,BAI Z,KASUN L L C, et al. Local receptive fields based extreme learning machine[J].IEEE Computational Intelligence Magazine,2015,10(2):18-29. [5] WIDROW B,GREENBLATT A,KIM Y,et al.The no-prop algorithm:a new learning algorithm for multilayer neural networks[J].Neural Networks,2013,37(1):182-188. [6] ONETO L,BISIO F,CAMBRIA E,et al.Statistical learning theory and ELM for big social data analysis[J].IEEE Computational Intelligence Magazine,2016,11(3):45-55. [7] KASUNL L C,ZHOU H,HUANG G B,et al.Representational learning with ELMs for big data[J].IEEE Intelligent Systems,2013,28(6):31-34. [8] TURK M,PENTLAND A.Eigenfaces for recognition[J].Journal of Cognitive Neuroscience,1991,3(1):71-86. [9] HYVARINEN A.Fast and robust fixed-point algorithms for independent component analysis[J].IEEE Transactions on Neural Networks,1999,10(3):626-634. [10] CAI D,HE X,HAN J,et al.Orthogonal laplacianfaces for face recognition[J].IEEE Transactions on Image Processing,2006,15(11):3608-3614. [11] VEDALDI A,LENC K.Matconvnet:convolutional neural networks for matlab[C]//Proceedings of the 23rd ACM international conference on multimedia.[s.l.]:ACM,2015:689-692. [12] 黃金杰,常英麗.基于支持向量機(jī)和正交設(shè)計(jì)的特征選擇方法[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(17):135-137. [13] 金 一,阮秋琦.基于核的正交局部保持投影的人臉識(shí)別[J].電子與信息學(xué)報(bào),2009,31(2):283-287. [14] YIN X C,HUANG K,YANG C,et al.Convex ensemble learning with sparsity and diversity[J].Information Fusion,2014,20:49-59.3.2 MNIST數(shù)據(jù)
3.3 CIFAR10數(shù)據(jù)
3.4 實(shí)驗(yàn)結(jié)果分析
4 結(jié)束語