王雪松,張翰林,程玉虎
Chen 等[1]提出的寬度學(xué)習(xí)系統(tǒng)(Broad Learning System,BLS),亦稱寬度網(wǎng)絡(luò),是一種由輸入層、中間層(包括映射特征和增強節(jié)點兩個部分)和輸出層構(gòu)成的前饋神經(jīng)網(wǎng)絡(luò). 因其簡潔靈活的網(wǎng)絡(luò)結(jié)構(gòu)、高效的學(xué)習(xí)過程等優(yōu)點,而被廣泛應(yīng)用于眾多領(lǐng)域. Sui 等[2]使用BLS識別動力學(xué)未知的不確定系統(tǒng),提出了一種隨機有限時間量化控制方法.Chu等[3]使用懲罰系數(shù)來約束每個樣本對模型的貢獻(xiàn),提出了一種加權(quán)BLS 并將其用以解決工業(yè)過程中的噪聲和離群值問題.Han等[4]提出了一種用于大規(guī)?;煦鐣r間序列建模的寬度學(xué)習(xí)系統(tǒng),解決了動力學(xué)系統(tǒng)建模中利用混沌系統(tǒng)演化信息進行時間序列預(yù)測的問題.
然而,上述方法均為監(jiān)督型寬度學(xué)習(xí)方法,在標(biāo)記樣本有限的情況下,往往存在泛化性不足的問題. 半監(jiān)督學(xué)習(xí)是一種可以同時使用少量標(biāo)記樣本和大量無標(biāo)記樣本進行學(xué)習(xí)的方法. 因此,半監(jiān)督寬度學(xué)習(xí)的研究引起了學(xué)者的廣泛關(guān)注.Kong等[5]將常規(guī)BLS進行半監(jiān)督拓展,提出了一種基于類別概率框架[6]的半監(jiān)督BLS(Semi-supervised BLS,SBLS),用于解決標(biāo)記樣本較少情況下的高光譜圖像分類問題. 但是,SBLS非常依賴偽標(biāo)簽的質(zhì)量,被錯誤標(biāo)記的樣本將嚴(yán)重影響算法的性能.Zhao 等[7]將BLS 和流形正則化框架[8]相結(jié)合,提出了一種基于圖的半監(jiān)督BLS(ss-BLS). ss-BLS 通過構(gòu)造標(biāo)記樣本和無標(biāo)記樣本的拉普拉斯矩陣,將流形正則化項加入BLS的目標(biāo)函數(shù)中,并使用嶺回歸算法求解構(gòu)造的目標(biāo)函數(shù). 傳統(tǒng)的圖模型[9]雖然可以在低維空間中保持?jǐn)?shù)據(jù)原有的流形結(jié)構(gòu),但是該模型僅考慮了兩個數(shù)據(jù)間的成對關(guān)系,無法準(zhǔn)確地表達(dá)數(shù)據(jù)間的復(fù)雜高階流形關(guān)系. 為此,本文引入超圖模型[10],提出一種基于超圖的半監(jiān)督寬度學(xué)習(xí)系統(tǒng). 此外,常規(guī)BLS中通常采用的線性稀疏特征提取方法難以挖掘數(shù)據(jù)的本質(zhì)特征,從而限制了BLS性能的發(fā)揮. 自編碼器[11]因其在無監(jiān)督情況下,仍能夠?qū)W習(xí)到數(shù)據(jù)的復(fù)雜非線性特征而被廣泛應(yīng)用于入侵檢測[12]、目標(biāo)檢測[13]和輻射源識別[14]等領(lǐng)域. 眾所周知,良好的特征提取方法對于提高模型的性能至關(guān)重要. 為此,本文將自編碼器與BLS相結(jié)合,用以提高BLS對復(fù)雜非線性特征的提取能力.
綜上,本文提出了一種基于自編碼器和超圖的半監(jiān)督寬度學(xué)習(xí)系統(tǒng)(Autoencoder and Hypergraph-based Semi-supervised Broad Learning System,AH-SBLS),主要工作包括:(1)將超圖模型引入到常規(guī)監(jiān)督型BLS中,以充分挖掘包括標(biāo)記樣本和未標(biāo)記樣本在內(nèi)的所有樣本之間的復(fù)雜流形關(guān)系;(2)利用多層自編碼器提取數(shù)據(jù)的復(fù)雜非線性特征,從而進一步提升AH-SBLS的泛化性能.
如圖1 所示,AH-SBLS 主要包括4 個部分:(1)基于自編碼器的特征提取. 首先,使用含標(biāo)記樣本和無標(biāo)記樣本在內(nèi)的全部樣本訓(xùn)練自編碼器;然后,將自編碼器特征層中的特征作為AH-SBLS 的特征節(jié)點;(2)特征增強. 對特征節(jié)點進行非線性映射以實現(xiàn)寬度拓展,并將得到的增強節(jié)點與特征節(jié)點進行堆疊;(3)超圖構(gòu)造.同樣利用全部樣本構(gòu)造半監(jiān)督超圖,并計算超圖的拉普拉斯矩陣;(4)目標(biāo)函數(shù)構(gòu)造. 根據(jù)得到的拉普拉斯矩陣進一步構(gòu)造超圖正則項,并與常規(guī)BLS 的目標(biāo)函數(shù)相結(jié)合. 通過對該目標(biāo)函數(shù)進行求解,可以得到輸出層權(quán)重,進而實現(xiàn)對無標(biāo)記樣本的類別預(yù)測.
圖1 AH-SBLS模型結(jié)構(gòu)圖
圖1中的自編碼器由編碼器fEN(?)和解碼器fDE(?)兩部分組成,其中,編碼器旨在將全部樣本映射到特征層以得到編碼特征Z,解碼器的目標(biāo)為對編碼特征進行重構(gòu). 給定輸入樣本矩陣X,則編碼器的計算過程為:
Z=fEN(X)=ζ(XWEN+bEN) (1)
其中,ζ(?)為編碼器的激活函數(shù),WEN和bEN分別為編碼器的權(quán)重和偏置. 類似地,令解碼器的權(quán)重和偏置分別為WDE和bDE,激活函數(shù)為δ(?),則解碼器的輸出可以表示為:
一般而言,自編碼器的損失函數(shù)通常為均方誤差損失. 均方誤差損失函數(shù)可以表示為:
其中,參數(shù)W,b可以使用梯度下降法[15]來更新,其更新規(guī)則為:
其中,α為學(xué)習(xí)率,用來控制參數(shù)更新的步長. 梯度下降法常用的優(yōu)化算法有SGD(Stochastic Gradient De?scent)、RMSprop(Root Mean Square prop)和Adam(Adaptive moment estimation)[16]等,鑒于Adam 具有較快的收斂速度,這里將其用于自編碼器參數(shù)的更新. 在完成自編碼器參數(shù)的更新后,將自編碼器的編碼特征Z作為AH-SBLS模型的特征節(jié)點.
AH-SBLS 的第II 部分為特征增強,旨在利用隨機生成的權(quán)重對特征節(jié)點進行映射,實現(xiàn)快速非線性寬度拓展,其計算過程為:
d=ξ(Zwd+bd) (7)
其中,ξ(?)為tansig 激活函數(shù),wd為隨機的線性稀疏權(quán)重,bd為增強節(jié)點的偏置. 設(shè)共有m組增強節(jié)點,則D=[d1,…,dm],將特征節(jié)點和增強節(jié)點堆疊,得到輸入樣本的特征矩陣A=[Z|D].
在半監(jiān)督學(xué)習(xí)中,雖然無標(biāo)記的樣本沒有標(biāo)記信息,但是無標(biāo)記樣本與標(biāo)記樣本包含相同的數(shù)據(jù)分布信息,所以利用無標(biāo)記樣本能夠幫助建立更具泛化性的分類模型. 為了利用無標(biāo)記樣本,必須假設(shè)無標(biāo)記樣本與類別標(biāo)記之間的聯(lián)系. 基于光滑度假設(shè),圖模型被提出用于解決半監(jiān)督學(xué)習(xí)問題. 然而,常規(guī)圖模型只能描述數(shù)據(jù)之間簡單的二元關(guān)聯(lián)關(guān)系,無法描述數(shù)據(jù)中復(fù)雜的單對多或多對多的多元關(guān)聯(lián)關(guān)系,從而難以對數(shù)據(jù)的復(fù)雜流形結(jié)構(gòu)進行充分描述.
相對于常規(guī)圖,超圖可以更加準(zhǔn)確地描述存在多元關(guān)聯(lián)的對象之間的關(guān)系. 在常規(guī)圖中,一條邊包含兩個頂點,而在超圖中,一條超邊可以包含多個頂點,從而對多個數(shù)據(jù)點之間的關(guān)系進行描述. 給定N個輸入樣本,則輸入樣本矩陣可以表示為X=[x1,x2,…,xN].AH-SBLS 將每個樣本x作為超圖頂點和一條超邊的中心,使該超邊連接該樣本最近鄰的k個樣本,以此來構(gòu)造樣本超圖模型. 將超圖模型表示為三元組G=其中,V={v1,v2,…,vN}為頂點的集合,E={e1,e2,…,eN}為超邊的集合,w為超邊的權(quán)重集合. 超圖模型可以通過構(gòu)造點邊關(guān)聯(lián)矩陣Hve?RN×N來建立頂點和超邊的關(guān)系,Hve中的元素可通過下式計算:
樣本之間的距離度量函數(shù)通過下式計算:
其中,是控制函數(shù)S(i,j)徑向作用范圍的超參數(shù). 定義超邊權(quán)重向量為,則每條超邊的權(quán)重可以通過下式來計算:
定義頂點的度向量為dv?R1×N,用于描述每個頂點的超邊權(quán)重. 則頂點的度的計算公式為:
定義超邊的度向量δe?R1×N,用于描述每條超邊包含的頂點個數(shù). 則超邊的度計算公式如下:
通過上述討論,可以定義超邊的權(quán)重矩陣We=diag(we)?RN×N,頂點的度矩陣Dv=diag(dv)?RN×N和超邊的度矩陣De=diag(δe)?RN×N三個對角矩陣. 根據(jù)光滑度假設(shè),距離接近的樣本應(yīng)該擁有相同的標(biāo)簽,亦即同一條超邊應(yīng)連接相同標(biāo)簽的樣本. 構(gòu)造超圖損失函數(shù):?為模型的預(yù)測樣本標(biāo)簽. 將式(13)表示為矩陣形式:
其中
其中,超圖拉普拉斯矩陣Lhyper的計算公式為:
給定l個標(biāo)記樣本X(l)?Rl×r和u個無標(biāo)記樣本X(u)?Ru×r,則全部樣本為X(l+u)?R(l+u)×r. 其中,r為樣本的維數(shù). 將標(biāo)記樣本的標(biāo)簽表示為矩陣形式Y(jié)(l),模型的預(yù)測標(biāo)簽矩陣記為Y?,標(biāo)記樣本的特征矩陣記為A(l),全部樣本的特征矩陣記為A(l+u). 常規(guī)BLS模型的目標(biāo)函數(shù)為:其中,Wo為輸出層權(quán)重,λ?[0,1]為結(jié)構(gòu)風(fēng)險項系數(shù).將式(14)作為超圖正則項與式(16)相結(jié)合,得到AHSBLS的目標(biāo)函數(shù):其中,ρ?[0,1]為超圖正則項的縮放因子. 令0,即可求解式(17),得到AH-SBLS 模型輸出層權(quán)重的計算公式:
Wo=(A(l)TA(l)+λI+ρA(l+u)TLhyperA(l+u))-1A(l)TY(l)(18)
所提AH-SBLS的流程如算法1所示:
為驗證AH-SBLS 的性能,選擇人手寫數(shù)字?jǐn)?shù)據(jù)集MNIST(Mixed National Institute of Standards and Tech?nology)和三維玩具模型數(shù)據(jù)集NORB(New York Uni?versity Object Recognition Benchmark)進行實驗.MNIST數(shù)據(jù)集[17]由來自250 位不同的人手寫的0~9 共十個數(shù)字70000 幅圖像構(gòu)成,每張均為28×28 像素的灰度圖像. NORB 數(shù)據(jù)集[18]是一個比MNIST 特征更為多樣的數(shù)據(jù)集,它包含50 種玩具模型的圖像,共5 類:四足動物、人物、飛機、卡車和汽車. NORB 數(shù)據(jù)集中的所有48600 幅圖像是用兩個攝像機在6 個光照條件,9 個仰角和18 個方位角對玩具模型拍攝的灰度圖像,由2×32×32個像素組成.
為分別考查自編碼器和超圖對AH-SBLS 性能的影響,將AH-SBLS 及其3個特例包括A-BLS1(僅使用單層自編碼器進行特征提取的監(jiān)督型學(xué)習(xí))、A-BLS(僅使用多層自編碼器進行特征提取的監(jiān)督型學(xué)習(xí))、AHSBLS1(使用單層自編碼器進行特征提取且利用超圖實現(xiàn)半監(jiān)督學(xué)習(xí))與下述6種方法進行對比,包括:堆棧自編碼器(SAE)[11]、抗噪堆棧自編碼器(SDA)[19]、深度置信網(wǎng)絡(luò)(DBN)[20]、深度玻爾茲曼機(DBM)[21]、BLS[1]和ss-BLS[7]. 實驗設(shè)置:(1)對于監(jiān)督型方法,分別從MNIST和NORB數(shù)據(jù)集中選擇6000個和4860個樣本作為訓(xùn)練樣本,剩余樣本用于測試;(2)對于半監(jiān)督型方法,從MNIST數(shù)據(jù)集中每類選擇100個標(biāo)記樣本和900個無標(biāo)記樣本,從NORB 數(shù)據(jù)集中每類選擇600 個標(biāo)記樣本和4260個無標(biāo)記樣本,其余樣本用于測試;(3)SAE、SDA、DBN、DBM 和BLS 的超參數(shù)及實驗結(jié)果直接取自文獻(xiàn)[1]. 所有寬度學(xué)習(xí)系統(tǒng)的超參數(shù)均采用網(wǎng)格搜索法確定,具體設(shè)置情況如表1、表2所示,其中“-”表示該參數(shù)不取值. 在AH-SBLS 中,參數(shù)λ和ρ分別控制嶺回歸正則項和超圖正則項在目標(biāo)函數(shù)中的權(quán)重. 如果λ=0,嶺回歸方法就退化為了最小二乘. 如果ρ=0,超圖正則項就失去了作用.k為超圖的最近鄰樣本數(shù). A-BLS 和AH-SBLS 均采用一個5 層自編碼器,在MNIST 和NORB數(shù)據(jù)集上每層的節(jié)點個數(shù)分別為600-500-50-500-600、1800-550-300-550-1800;(4)所有實驗均在配備有Inteli7 2.4 GHz CPU,GTX1080Ti GPU 的計算機上進行. 為消除隨機因素的影響,所有實驗重復(fù)5次并取平均值.
表1 寬度學(xué)習(xí)系統(tǒng)的超參數(shù)設(shè)置(MNIST數(shù)據(jù)集)
表2 寬度學(xué)習(xí)系統(tǒng)的超參數(shù)設(shè)置(NORB數(shù)據(jù)集)
表3、表4 給出了各方法在MNIST 和NORB 數(shù)據(jù)集上的圖像分類實驗結(jié)果對比,可以看出:
(1)在所有監(jiān)督型寬度學(xué)習(xí)方法中,A-BLS 的分類精度最高,A-BLS1 次之. 這印證了BLS 線性稀疏特征提取方法存在表征瓶頸,并且由自編碼器提取的非線性特征要比線性稀疏特征更能反映出樣本在特征空間中的真實分布. 在所有監(jiān)督型學(xué)習(xí)方法中,A-BLS 同樣取得了最高的分類精度. 這是因為多層的自編碼器可以學(xué)習(xí)到樣本不同層次的特征表示,通過組合不同層次的特征,A-BLS能夠?qū)崿F(xiàn)特征空間與標(biāo)記空間之間更準(zhǔn)確的映射;
(2)從時間上分析,在所有監(jiān)督型寬度學(xué)習(xí)方法中,BLS、A-BLS1 和A-BLS 的耗時均相對較少. 這是因為寬度網(wǎng)絡(luò)的輸出層參數(shù)可以直接通過廣義逆矩陣的計算得到,且模型的結(jié)構(gòu)較為簡潔. 同為寬度學(xué)習(xí)方法,BLS在MNIST數(shù)據(jù)集上的耗時最短,其次為A-BLS1. 這是因為訓(xùn)練自編碼器比直接提取線性稀疏特征需要更多的時間. 在NORB 數(shù)據(jù)集上,A-BLS1 為最快速的模型,比BLS 耗時更少. 這是因為A-BLS1 使用了更少的特征節(jié)點和增強節(jié)點.
表3 圖像分類結(jié)果對比(MNIST數(shù)據(jù)集)
表4 圖像分類結(jié)果對比(NORB數(shù)據(jù)集)
(3)同為半監(jiān)督寬度學(xué)習(xí)方法,相較于ss-BLS,AHSBLS1(特征節(jié)點數(shù)與增強節(jié)點數(shù)與ss-BLS 相同)能夠以很少的訓(xùn)練時間為代價,取得更高的分類精度. 同時,AH-SBLS 模型仍是精度最高的模型,這一結(jié)果充分說明了超圖模型比常規(guī)圖模型更能反映樣本之間的真實聯(lián)系.
為分析標(biāo)記樣本的數(shù)量對AH-SBLS 分類精度的影響,通過設(shè)置不同標(biāo)記樣本個數(shù)進行實驗,并選擇ss-BLS 和AH-SBLS1 作為對比方法. 在MNIST 數(shù)據(jù)集中,標(biāo)記樣本的數(shù)量由每類10逐漸遞增為100. 在NORB數(shù)據(jù)集中標(biāo)記樣本的數(shù)量由每類100 逐漸遞增為600. 實驗結(jié)果如圖2所示,由圖可知:
(1)在兩個數(shù)據(jù)集上,隨著標(biāo)記訓(xùn)練樣本量的增加,ss-BLS、AH-SBLS1 和AH-SBLS 的分類精度均逐漸提高. 這是因為對于半監(jiān)督學(xué)習(xí)方法來說,利用更多的標(biāo)記樣本能夠幫助學(xué)習(xí)到泛化能力更強的分類模型;
(2)標(biāo)記訓(xùn)練樣本數(shù)量相同的情況下,AH-SBLS 能夠取得最高的分類精度,而且擁有相同特征節(jié)點和增強節(jié)點數(shù)的AH-SBLS1 的分類精度仍高于ss-BLS. 這印證了相比于常規(guī)圖,超圖能夠通過對標(biāo)記樣本和無標(biāo)記樣本之間的復(fù)雜流形關(guān)系的建模,幫助獲取更高的分類精度.
為了直觀地展示AH-SBLS 模型中自編碼器的特征提取效果,在MNIST 和NORB 兩個數(shù)據(jù)集上使用t-SNE方法[22]對自編碼器提取的特征進行了可視化. 該實驗在兩個數(shù)據(jù)集上每類均隨機選取200 個樣本. 對于擁有多層特征層的AH-SBLS 模型,只顯示中間維數(shù)最少的特征層的可視化結(jié)果. 實驗結(jié)果如圖3、圖4所示.
圖2 標(biāo)記樣本數(shù)量對分類精度的影響
可以通過比較原始圖像的分布和模型提取特征的分布來評價模型的特征提取效果. 由圖3、圖4 可知:(1)在MNIST 數(shù)據(jù)集上,雖然大多數(shù)數(shù)字都可以被AH-SBLS 模型準(zhǔn)確地區(qū)分開,但無論是原始數(shù)據(jù)還是模型提取的特征,數(shù)字“4”和“9”在圖中的分布均非常接近,說明這兩個數(shù)字具有非常相似的特征,將它們區(qū)分開來的難度較大. 同樣在圖4 中,汽車和卡車的分布也具有這樣的特點. 汽車和卡車均屬于“車”,擁有較多的相似特征,將它們區(qū)分開來的難度較大也是符合直覺的;(2)相較于原始數(shù)據(jù)和BLS 提取的特征,AH-SBLS 提取得到的特征不同類別之間有了更大的間距,同類特征分布地更加密集,并且離群的數(shù)據(jù)點較少. 這說明利用AH-SBLS 提取的多層非線性特征具有更強的可分性,進而幫助寬度學(xué)習(xí)系統(tǒng)實現(xiàn)更加準(zhǔn)確的類別預(yù)測.
圖3 特征t-SNE可視化(MNIST數(shù)據(jù)集)
圖4 特征t-SNE可視化(NORB數(shù)據(jù)集)
隨著計算機技術(shù)的迅猛發(fā)展,人們將獲取越來越多的無標(biāo)記數(shù)據(jù),而有標(biāo)記樣本需要人工對樣本進行標(biāo)記,因而有標(biāo)記樣本的獲取相對比較困難而且代價昂貴. 在標(biāo)記樣本極少的情況下,常規(guī)的寬度學(xué)習(xí)系統(tǒng)難以取得良好的表現(xiàn),很容易陷入對少量樣本的過擬合或者及對目標(biāo)任務(wù)的欠擬合. 因此,將少量的標(biāo)記樣本信息和大量的無標(biāo)記樣本信息加以綜合利用的半監(jiān)督學(xué)習(xí)有著廣泛的需求. 本文提出的AH-SBLS 模型將超圖結(jié)構(gòu)引入到常規(guī)監(jiān)督型BLS 中,不僅能夠?qū)崿F(xiàn)半監(jiān)督學(xué)習(xí),而且充分考慮了數(shù)據(jù)之間的復(fù)雜多元關(guān)系.此外,多層自編碼器的使用有助于提取到輸入數(shù)據(jù)的本征特征,從而進一步提升半監(jiān)督BLS 的泛化性能.MNIST 和NORB 兩個數(shù)據(jù)集上的實驗結(jié)果驗證了AHSBLS的可行性和有效性.