王 宇,李延暉
(華中師范大學(xué)信息管理學(xué)院,武漢430079)
從PC時(shí)代到移動(dòng)互聯(lián)時(shí)代,從移動(dòng)互聯(lián)網(wǎng)到產(chǎn)業(yè)互聯(lián)網(wǎng),各行各業(yè)的數(shù)據(jù)正以前所未有的速度在累計(jì),大數(shù)據(jù)受到越來(lái)越多的關(guān)注.在由數(shù)據(jù)驅(qū)動(dòng)的情報(bào)創(chuàng)新研究中,如:情報(bào)分析與智能服務(wù)、信息行為與用戶畫(huà)像、信息可視化與社交媒體信息傳播等,眾多學(xué)者已經(jīng)進(jìn)行了全面深入的研究.其中大多數(shù)研究是以文本內(nèi)容為主并且已經(jīng)形成了成熟的框架體系[1].圖像作為一類(lèi)重要的信息載體,相比文本而言具有生動(dòng)形象,直觀清晰的特點(diǎn),同時(shí)蘊(yùn)含著更加豐富的信息,對(duì)這些海量的圖像數(shù)據(jù)進(jìn)行挖掘利用對(duì)于具有很重要的價(jià)值.已有學(xué)者在網(wǎng)絡(luò)輿論監(jiān)測(cè)、情感識(shí)別、推薦系統(tǒng)、隱私保護(hù)、信息檢索等方向取得一些成果,如:詹必勝等針對(duì)數(shù)字圖像文件設(shè)計(jì)出一種新的輿情信息安全體系[2].曾金等對(duì)網(wǎng)站新聞圖像情感傾向進(jìn)行了分析研究[3].陳芬等提出了一種視覺(jué)情感識(shí)別模型,并實(shí)現(xiàn)了通過(guò)圖文結(jié)合的方式向用戶推薦符合其情感需求的電影[4].王樹(shù)義等構(gòu)建出了社交網(wǎng)絡(luò)圖像隱私自動(dòng)分類(lèi)器,可以對(duì)社交媒體用戶進(jìn)行隱私暴露預(yù)警提示[5].包翔和劉桂鋒提出一種基于特征包的圖像檢索系統(tǒng)框架,并通過(guò)數(shù)字圖書(shū)館的圖像資源進(jìn)行了實(shí)證檢驗(yàn)[6].相比于較為成熟的文本數(shù)據(jù)分析,利用圖像進(jìn)行科學(xué)研究還有很大的空間.
隨著互聯(lián)網(wǎng)數(shù)據(jù)的大爆發(fā),獲得大量未標(biāo)記樣本變得越來(lái)越容易,相反地獲得有標(biāo)記樣本卻變得越來(lái)越困難.半監(jiān)督學(xué)習(xí)(semi-supervised learning)[7]可以將少量有標(biāo)記樣本和大量未標(biāo)記樣本有機(jī)地利用起來(lái),利用未標(biāo)記樣本數(shù)據(jù)中蘊(yùn)含的有用結(jié)構(gòu)信息輔助學(xué)習(xí),不僅可以解決標(biāo)記樣本不足的現(xiàn)實(shí)問(wèn)題,而且可以有效提高分類(lèi)器的性能,提升分類(lèi)的精度和效率.本研究提出一種基于半監(jiān)督學(xué)習(xí)的分類(lèi)算法,利用少量標(biāo)記樣本數(shù)據(jù)作為初始訓(xùn)練樣本,使用大量未標(biāo)記的樣本輔助學(xué)習(xí),提高分類(lèi)器的泛化性能,實(shí)現(xiàn)分類(lèi)精度的提升,希望能為情報(bào)信息領(lǐng)域的數(shù)據(jù)分析提供一定的借鑒意義.
半監(jiān)督分類(lèi)主要使用大量的無(wú)標(biāo)簽數(shù)據(jù)來(lái)提高分類(lèi)器的性能和泛化能力,在文本分類(lèi)、圖像處理、醫(yī)學(xué)診斷和感興趣信息推薦等領(lǐng)域中有廣泛的應(yīng)用,主要有四種主流類(lèi)型[8],包括基于生成式模型的方法、半監(jiān)督 SVM 方法、基于圖的方法和基于分歧的方法.
一般認(rèn)為,半監(jiān)督學(xué)習(xí)的研究開(kāi)始于Shahshahani和Landgrebe[9],首次提出了半監(jiān)督學(xué)習(xí)的概念,并通過(guò)建立未標(biāo)注數(shù)據(jù)和學(xué)習(xí)目標(biāo)之間的聯(lián)系,提升了學(xué)習(xí)的泛化性能.李寧寧[10]使用半監(jiān)督協(xié)同訓(xùn)練方法進(jìn)行文本感情分類(lèi),利用未標(biāo)記的數(shù)據(jù),選取電子商務(wù)和醫(yī)療社交媒體兩個(gè)應(yīng)用領(lǐng)域,證明半監(jiān)督協(xié)同訓(xùn)練方法在不同數(shù)據(jù)分布情況下取得了較好的效果.李村合等[11]使用半監(jiān)督支持向量機(jī)對(duì)E-MIMLSVM+算法進(jìn)行改進(jìn),利用少量有標(biāo)簽樣本和大量沒(méi)有標(biāo)簽的樣本進(jìn)行學(xué)習(xí),有助于發(fā)現(xiàn)樣本內(nèi)部隱藏的結(jié)構(gòu)信息,證明改進(jìn)后的算法有效提高分類(lèi)器的泛化性能.高飛等[12]提出了基于樣本類(lèi)別確定度(CSS)的半監(jiān)督分類(lèi)算法,利用SAR圖像測(cè)試,證實(shí)利用少量標(biāo)記樣本實(shí)現(xiàn)分類(lèi)精度優(yōu)于監(jiān)督分類(lèi).趙建華[13]采用3個(gè)分類(lèi)器作為基礎(chǔ)分類(lèi)器,使用無(wú)標(biāo)記樣本的信息輔助學(xué)習(xí),增強(qiáng)分類(lèi)器的差異性,同時(shí)保證較小的分類(lèi)器分別分類(lèi)誤差.韓彥嶺等[14]結(jié)合主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí),篩選出最優(yōu)代表性的半標(biāo)簽樣本,應(yīng)用于海冰圖像分類(lèi),實(shí)現(xiàn)了較高的分類(lèi)精度,有效的解決了遙感海冰分類(lèi)樣本少的問(wèn)題.戴斌等[15]提出多類(lèi)型文本的半監(jiān)督性別分類(lèi)方法,基于微博產(chǎn)生的不同類(lèi)型的文本對(duì)用戶的性別進(jìn)行分類(lèi),使用協(xié)同訓(xùn)練的半監(jiān)督學(xué)習(xí)方法,利用未標(biāo)記樣本數(shù)據(jù)輔助學(xué)習(xí),實(shí)驗(yàn)結(jié)果表明其優(yōu)于其他現(xiàn)有的半監(jiān)督性別分類(lèi)算法.劉欣媛[16]利用半監(jiān)督學(xué)習(xí)自動(dòng)標(biāo)注語(yǔ)音數(shù)據(jù),然后使用按需加權(quán)決策樹(shù)分類(lèi)優(yōu)化模型,實(shí)現(xiàn)了在小樣本的訓(xùn)練數(shù)據(jù)情況下,實(shí)現(xiàn)了較好的準(zhǔn)確性.在圖像分類(lèi)領(lǐng)域,半監(jiān)督結(jié)合深度學(xué)習(xí)的算法[17-18]也受到廣泛的關(guān)注,由于其在少量標(biāo)注的樣本數(shù)據(jù)情況下借助大量無(wú)標(biāo)記數(shù)據(jù)可以實(shí)現(xiàn)較好的分類(lèi)精度.
相較于一般的協(xié)同訓(xùn)練,本文方法主要在樣本正確性判別和多樣性增強(qiáng)方面進(jìn)行了如下改進(jìn):1)利用了兩個(gè)分類(lèi)器的預(yù)測(cè)標(biāo)簽一致作為高置信度的判斷條件;2)同時(shí)引入確定度閾值作為約束條件,在確保樣本高置信度的前提下,篩選出更具有代表性和多樣性的樣本,提高分類(lèi)器的泛化性能.以手寫(xiě)數(shù)字?jǐn)?shù)據(jù)和Landsat土壤數(shù)據(jù)作為數(shù)據(jù)集的實(shí)驗(yàn)表明,本文提出的基于多分類(lèi)器協(xié)同的半監(jiān)督樣本選擇方法可有效提高分類(lèi)器的泛化能力,提升分類(lèi)的精度.
半監(jiān)督學(xué)習(xí)(semi-supervised learning,SSL)的主要思想是在少量標(biāo)記樣本情況下,通過(guò)引入大量的未標(biāo)記樣本數(shù)據(jù)輔助模型學(xué)習(xí),以避免模型在訓(xùn)練集上出現(xiàn)過(guò)擬合等情況,解決監(jiān)督學(xué)習(xí)模型泛化能力弱的問(wèn)題.
因此,半監(jiān)督分類(lèi)就是利用U和UC構(gòu)造一個(gè)盡可能反映樣本特征和標(biāo)簽真實(shí)關(guān)系的分類(lèi)器,由貝葉斯公式可得:
(1)
后驗(yàn)概率P(yi│x)代表在輸入樣本特征x的條件下,其標(biāo)記為yi的概率,其值越大,表明該樣本真實(shí)標(biāo)簽是yi的可能性越大.先驗(yàn)概率P(yi)和P(x|yi)可以從標(biāo)記樣本集U中統(tǒng)計(jì)得到.當(dāng)我們有大量未標(biāo)記樣本的時(shí)候,可以使得計(jì)算得到P(x)更加精確,使得最后求得的后驗(yàn)概率P(yi│x)更為精確,相應(yīng)的分類(lèi)器的泛化性能也得到提高.
Miller等[19]在1996年從理論上證明了未標(biāo)記樣本可以在分類(lèi)過(guò)程中影響分類(lèi)器的性能.雖然無(wú)標(biāo)記樣本沒(méi)有包含樣本的標(biāo)簽信息,但其有與標(biāo)記樣本相似的特征信息分布,可以有效輔助模型識(shí)別類(lèi)別.圖1顯示了無(wú)標(biāo)記樣本輔助模型提升泛化能力的直觀示例.類(lèi)別A和B是兩個(gè)類(lèi)別,有標(biāo)記樣本和未標(biāo)記樣本,當(dāng)僅使用有標(biāo)記樣本建立分類(lèi)器時(shí),分類(lèi)器決策邊界為紅色虛線,而加入未標(biāo)記樣本后,分類(lèi)模型的決策邊界根據(jù)樣本的分類(lèi)密度重新調(diào)整(黑色實(shí)線),決策邊界向右移動(dòng),使得分類(lèi)器的泛化能力提高.
2.2.1 支持向量機(jī)(support vector machines,SVM) SVM是由Vapnik[20]領(lǐng)導(dǎo)的AT&T Bell實(shí)驗(yàn)室研究小組在20世紀(jì)60年代提出的一種新的監(jiān)督分類(lèi)技術(shù).SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的新型機(jī)器學(xué)習(xí)方法,以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為理論基礎(chǔ),其本質(zhì)的思想是核函數(shù)方法,其被廣泛應(yīng)用于解決小樣本、高維度、非線性和局部極小值等領(lǐng)域[21].
SVM通常用來(lái)分析線性問(wèn)題,對(duì)于線性不可分問(wèn)題可在高維空間內(nèi)轉(zhuǎn)化為線性可分問(wèn)題,構(gòu)造最優(yōu)分類(lèi)面.其目標(biāo)就是要根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理構(gòu)造目標(biāo)函數(shù),將樣本盡可能地區(qū)分開(kāi)來(lái),通常分為兩類(lèi)情況來(lái)討論:
1)線性可分.在線性可分的情況下,存在一個(gè)超平面使得訓(xùn)練樣本完全分開(kāi).分割超平面可描述為:
ωTx+b=0,
(2)
其中,ω是n維法向量,可以決定超平面的方向,b為偏移量,決定超平面與原點(diǎn)之間的距離.由于超平面是由法向量ω和位移b共同決定的,可將超平面記為(ω,b).
樣本集中的樣本x與分割超平面的距離r可表示為:
r=|ωTx+b|/‖ω‖.
(3)
最優(yōu)超平面是使得支持向量與超平面之間的距離和最大.
2)線性不可分.對(duì)于線性不可分的情況,SVM引入核函數(shù),其可以將輸入特征空間中的線性不可分問(wèn)題轉(zhuǎn)化為高維空間中的線性可分問(wèn)題,極大的提高分類(lèi)器對(duì)非線性問(wèn)題的處理能力.其次,高維空間中的內(nèi)積運(yùn)算均是通過(guò)原空間中的核函數(shù)來(lái)完成的,所以轉(zhuǎn)換為高維空間后只是改變了內(nèi)積運(yùn)算,并沒(méi)有增加算法的復(fù)雜度[22].
2.2.2 隨機(jī)森林(Random Forest,RF) RF算法主要是通過(guò)集成學(xué)習(xí)的思想將多個(gè)決策樹(shù)分類(lèi)器集成到一起,對(duì)于每一個(gè)輸入的訓(xùn)練樣本,隨機(jī)森林都會(huì)產(chǎn)生N個(gè)分類(lèi)預(yù)測(cè)結(jié)果,通過(guò)眾數(shù)投票得到最后的識(shí)別結(jié)果.隨機(jī)森林和Bagging算法類(lèi)似,但是RF算法采用隨機(jī)選擇屬性方法,先從特征集中選擇特征子集,再根據(jù)每個(gè)決策樹(shù)選擇最優(yōu)屬性.RF算法結(jié)合多顆決策樹(shù),然后采用投票策略,相比于單一決策樹(shù),其泛化能力得到很大的提升.
RF算法的流程如下:
① 利用Bootstrap從樣本集中隨機(jī)選擇T個(gè)訓(xùn)練集,S1,S2,…,ST;
②使用以上的訓(xùn)練集生成決策樹(shù)C1,C2,…,CT,從K個(gè)屬性中隨機(jī)選擇的k個(gè)屬性(k ③T顆決策樹(shù)形成隨機(jī)森林,通過(guò)投票表決形成最終的預(yù)測(cè)類(lèi)別,具體投票的時(shí)候,得票最多的類(lèi)別為隨機(jī)森林的最終結(jié)果: (4) 其中,H(x)表示最終的輸出結(jié)果,hi(x)表示單個(gè)決策樹(shù),I表示示性函數(shù),Y表示輸出變量. 2.3.1 算法輸入 1)使用兩個(gè)分類(lèi)算法作為監(jiān)督算法,分別是SVM(支持向量機(jī))和RF(隨機(jī)森林),用于協(xié)同訓(xùn)練; 2.3.2 算法步驟 協(xié)同訓(xùn)練得到增強(qiáng)樣本集的算法過(guò)程如下(流程如圖2所示): 圖2 樣本增強(qiáng)算法流程 Fig.2 Sample enhancement algorithm flow ①樣本在兩個(gè)分類(lèi)器中的預(yù)測(cè)標(biāo)簽一致: (5) ②樣本si在兩個(gè)分類(lèi)器中的確定度滿足: (6) 其中,Cersik代表樣本si的基于分類(lèi)器k的確定度,其值等于分類(lèi)器預(yù)測(cè)某個(gè)樣本屬于各類(lèi)別后驗(yàn)概率中的最大值與次大值之差,表示某個(gè)樣本屬于這一類(lèi)別的可能性,值越大,表明分類(lèi)器對(duì)該樣本的預(yù)測(cè)越準(zhǔn)確;當(dāng)采用確定度和后驗(yàn)概率分別從候選無(wú)標(biāo)簽樣本中選擇高置信度樣本時(shí),確定度作為置信度判別標(biāo)準(zhǔn),可以剔除分類(lèi)器類(lèi)別交界處低置信度的樣本,篩選出可信度高的樣本;ρ為設(shè)定的確定度閾值,需要人為調(diào)整. (7) (8) 5)剔除候選樣本集中的增強(qiáng)樣本: (9) (10) (11) 7)最后的增強(qiáng)樣本集: (12) 其中,T為最后的迭代次數(shù),D為最終半監(jiān)督方法的增強(qiáng)樣本集. 本算法采用了SVM和RF算法協(xié)同訓(xùn)練,采用了預(yù)測(cè)標(biāo)簽一致性和高確定度作為樣本正確性的判別標(biāo)準(zhǔn),加入了確定度最小值約束篩選出更加多樣性的增強(qiáng)樣本. 為了證明算法的有效性,采用Mnist數(shù)據(jù)集[23]和Landsat土壤數(shù)據(jù)集作為訓(xùn)練測(cè)試的樣本集.Mnist手寫(xiě)數(shù)字示例如圖3所示,總共有70 000個(gè)樣本,每一個(gè)樣本是28×28像素大小的圖像,數(shù)值(整數(shù))范圍在0~255之間,標(biāo)簽為0~9,各個(gè)數(shù)字比例如表1所示,數(shù)據(jù)下載網(wǎng)址:http://yann.lecun.com/exdb/mnist/.Landsat. 表1 Mnist數(shù)據(jù)集說(shuō)明Tab.1 Description of Mnist data set 圖3 Mnist字符庫(kù)部分樣本Fig.3 Some samples of Mnist character library 土壤數(shù)據(jù)集共有6 435個(gè)標(biāo)記樣本,每個(gè)樣本有一個(gè)土壤標(biāo)簽和與之對(duì)應(yīng)的36個(gè)屬性.數(shù)據(jù)集中采用3×3鄰域中9個(gè)像素的多光譜值作為屬性值,每個(gè)鄰域中的中心像素的類(lèi)別標(biāo)記為場(chǎng)景的類(lèi)別.數(shù)據(jù)集共含有6個(gè)類(lèi)別,各類(lèi)別比例及含義如表2所示,數(shù)據(jù)下載及詳細(xì)介紹的網(wǎng)址:http://archive.ics.uci.edu/ml/datasets.php. 表2 Landsat土壤數(shù)據(jù)集說(shuō)明Tab.2 Description of Landsat soil data set 本實(shí)驗(yàn)中,Mnist數(shù)據(jù)集和Landsat土壤數(shù)據(jù)集的每一類(lèi)別訓(xùn)練樣本分別為60個(gè)和200個(gè),測(cè)試樣本分別為1 000個(gè)和200個(gè),其余樣本剔除標(biāo)簽作為候選樣本集.為了保證本算法的科學(xué)性[24],使訓(xùn)練樣本和測(cè)試樣本的概率分布一致,訓(xùn)練樣本和測(cè)試樣本均采用隨機(jī)選擇的方法得到. 對(duì)于半監(jiān)督樣本增強(qiáng)效果的評(píng)價(jià),主要是考量增強(qiáng)樣本集是否使得分類(lèi)器泛化性能提高,因此,一般采用監(jiān)督分類(lèi)對(duì)測(cè)試樣本集預(yù)測(cè)結(jié)果,并進(jìn)行精度評(píng)價(jià).監(jiān)督學(xué)習(xí)采用兩個(gè)分類(lèi)器(SVM和RF)投票得到最后的預(yù)測(cè)標(biāo)簽,具體投票規(guī)則如下: (13) 該投票思路是分類(lèi)器預(yù)測(cè)樣本得到確定度大的預(yù)測(cè)標(biāo)簽即為最終的投票預(yù)測(cè)標(biāo)簽. 本文基于準(zhǔn)確率(accuracy)評(píng)價(jià)訓(xùn)練樣本對(duì)分類(lèi)器泛化性能的影響,精度越大,表明構(gòu)建分類(lèi)器模型泛化性能越好.對(duì)于給定的測(cè)試集,準(zhǔn)確率等于分類(lèi)器正確預(yù)測(cè)樣本數(shù)與測(cè)試集總樣本數(shù)之比: (14) 其中,TPi是指被分類(lèi)器正確分類(lèi)的測(cè)試類(lèi)別i的樣本數(shù)目,n是總類(lèi)別數(shù),P是測(cè)試樣本總數(shù). 3.3.1 半監(jiān)督學(xué)習(xí)結(jié)果 根據(jù)提出的算法,本實(shí)驗(yàn)設(shè)置如下參數(shù):確定度變化閾值ε=0.01,確定度最大閾值ρmax=0.7,最小閾值ρmin=0.3.候選樣本集的平均確定度隨著迭代次數(shù)變化結(jié)果如圖4所示.圖4(a)和(b)分別表示了Mnist數(shù)據(jù)集和Landsat土壤數(shù)據(jù)集的確定度變化情況,可以看到隨著迭代次數(shù)的增加,兩個(gè)數(shù)據(jù)集的平均確定度在逐漸增加,且初始迭代時(shí)的增量較大(最大值分別為0.037和0.047),后續(xù)迭代過(guò)程中逐漸趨于穩(wěn)定,當(dāng)確定度增量(分別為0.005和0.006 3)小于預(yù)設(shè)值0.01,停止迭代.確定度隨著迭代次數(shù)由快到慢的逐漸增加,表明隨著分類(lèi)器不斷的學(xué)習(xí),由增強(qiáng)樣本構(gòu)建的分類(lèi)器模型對(duì)未標(biāo)記樣本預(yù)測(cè)置信度逐漸增加.為了驗(yàn)證半監(jiān)督學(xué)習(xí)對(duì)分類(lèi)器泛化性能的提升,用每一次迭代得到的增強(qiáng)樣本構(gòu)建分類(lèi)器,預(yù)測(cè)測(cè)試集標(biāo)簽并計(jì)算精度,得到圖5所示結(jié)果.從圖5中可以看出,隨著迭代次數(shù)的增加,分類(lèi)器預(yù)測(cè)準(zhǔn)確率在兩個(gè)數(shù)據(jù)集上均呈現(xiàn)逐漸增加趨勢(shì),而且開(kāi)始時(shí)增加速度較快,反映了分類(lèi)器的泛化能力隨著半監(jiān)督學(xué)習(xí)過(guò)程逐漸提升. 圖4 候選集樣本平均確定度變化((a)數(shù)據(jù)集,(b)數(shù)據(jù)集)Fig.4 Changes in the average certainty of the candidate set samples ((a)Mnist data set,(b)Landsat data set) 圖6顯示了兩個(gè)數(shù)據(jù)集中增強(qiáng)樣本數(shù)目的變化,經(jīng)過(guò)初次迭代后,Mnist數(shù)據(jù)集樣本總數(shù)由600增長(zhǎng)到12 398,而Landsat土壤數(shù)據(jù)集樣本總數(shù)由1 200增長(zhǎng)到1 703,隨著迭代次數(shù)增加,增長(zhǎng)速度逐漸變慢.由圖5和圖6的對(duì)比分析可以發(fā)現(xiàn),增強(qiáng)樣本數(shù)目和模型準(zhǔn)確率變化趨勢(shì)一致,主要是由于增強(qiáng)樣本開(kāi)始時(shí)的快速增長(zhǎng),導(dǎo)致樣本多樣性增加,進(jìn)一步使得構(gòu)建分類(lèi)性能提升,后面增強(qiáng)樣本的數(shù)量趨于穩(wěn)定,其所構(gòu)建模型的準(zhǔn)確率也平穩(wěn)變化,趨于穩(wěn)定.為了更直觀地驗(yàn)證半監(jiān)督學(xué)習(xí)的效果,圖7對(duì)比了兩個(gè)數(shù)據(jù)集中原始訓(xùn)練樣本和增強(qiáng)樣本構(gòu)建分類(lèi)器分別預(yù)測(cè)測(cè)試集樣本的準(zhǔn)確率,發(fā)現(xiàn)全部類(lèi)別的準(zhǔn)確率都得到提升.兩個(gè)數(shù)據(jù)集的總體準(zhǔn)確率分別提升5.97%和7.02%,Mnist數(shù)據(jù)集中數(shù)字5這類(lèi)準(zhǔn)確率提升最高(提升11.9%,從79.3%到91.2%),Landsat土壤數(shù)據(jù)集中土壤3這一類(lèi)準(zhǔn)確率提升最明顯(提升15.8%,從73.5%到89.3%),說(shuō)明本文提出的協(xié)同半監(jiān)督方法可以有效利用未標(biāo)記樣本,在多個(gè)數(shù)據(jù)集上實(shí)現(xiàn)分類(lèi)器泛化能力的提升. 圖5 增強(qiáng)樣本構(gòu)建模型的精度變化((a)數(shù)據(jù)集,(b)數(shù)據(jù)集)Fig.5 Accuracy changes of the model built by enhanced samples ((a)Mnist data set,(b)Landsat data set) 圖6 增強(qiáng)樣本總數(shù)變化((a)數(shù)據(jù)集,(b)數(shù)據(jù)集)Fig.6 Changes in the total number of enhanced samples ((a)Mnist data set,(b)Landsat data set) 注:OA為所有類(lèi)別總的準(zhǔn)確率.圖7 半監(jiān)督學(xué)習(xí)對(duì)分類(lèi)器預(yù)測(cè)精度提升((a)數(shù)據(jù)集,(b)數(shù)據(jù)集)Fig.7 Semi-supervised learning to improve the prediction accuracy of the classifier ((a)Mnist data set,(b)Landsat data set) 3.3.2 最大確定度和分類(lèi)類(lèi)別數(shù)目對(duì)準(zhǔn)確率的影響 為了探究最大概率和分類(lèi)類(lèi)別數(shù)對(duì)本方法的影響,做了如下研究:1)以0.1的間隔調(diào)整最大確定度值,探究確定度對(duì)最終分類(lèi)器準(zhǔn)確率變化的影響;2)將Mnist數(shù)據(jù)集分類(lèi)類(lèi)別減少為5類(lèi)(原始類(lèi)別的一半),探究對(duì)最終分類(lèi)器準(zhǔn)確率變化的影響. 表3顯示了兩個(gè)數(shù)據(jù)集中隨著最大確定度ρmax的變化,由增強(qiáng)樣本構(gòu)建分類(lèi)器的準(zhǔn)確率和增強(qiáng)樣本數(shù)變化.由圖可知當(dāng)ρmax分別為0.5和0.6時(shí),兩個(gè)數(shù)據(jù)集的分類(lèi)器準(zhǔn)確率均有最大值,ρmax為0.9時(shí),分類(lèi)器準(zhǔn)確率最小,增強(qiáng)樣本數(shù)最少.最大確定度閾值越大,表明篩選條件越嚴(yán)格,增強(qiáng)樣本數(shù)也就越少,這樣對(duì)未標(biāo)記樣本的利用就少,因此對(duì)最終分類(lèi)器的準(zhǔn)確率提升有限;但是隨著最大確定度閾值的降低,更多的樣本會(huì)被納入到增強(qiáng)樣本中,同時(shí)也有一些錯(cuò)誤樣本篩選進(jìn)來(lái),導(dǎo)致分類(lèi)器的準(zhǔn)確率降低.因此,選擇合適的篩選準(zhǔn)則對(duì)分類(lèi)器泛化性能提升有一定的影響. 表3 最大確定度對(duì)分類(lèi)準(zhǔn)確率的影響Tab.3 The influence of maximum certainty on classification accuracy 圖8顯示了基于Mnist手寫(xiě)數(shù)據(jù)集中5個(gè)類(lèi)別的半監(jiān)督學(xué)習(xí)結(jié)果,利用增強(qiáng)前后的樣本分別構(gòu)建SVM和RF分類(lèi)器,然后采用確定度投票得到預(yù)測(cè)結(jié)果計(jì)算精度.圖8顯示所有的類(lèi)別準(zhǔn)確率都得到提升,同樣數(shù)字5這一類(lèi)變化最大,準(zhǔn)確率提升了13.6%,總體的準(zhǔn)確率提升6%,與10個(gè)類(lèi)別的效果相差不大.由于類(lèi)別較少,分類(lèi)任務(wù)簡(jiǎn)單化,故原始樣本和增強(qiáng)樣本得到準(zhǔn)確率都比10個(gè)類(lèi)別的高.通過(guò)以上分析,可以得出分類(lèi)任務(wù)中類(lèi)別數(shù)目的變化對(duì)分類(lèi)器泛化能力提升的影響較小. 圖8 分類(lèi)器預(yù)測(cè)準(zhǔn)確率變化Fig.8 The change of classifier's prediction accuracy 3.3.3 對(duì)比實(shí)驗(yàn)分析 為了驗(yàn)證本研究提出算法的有效性,本研究將提出的算法與常用的監(jiān)督算法和半監(jiān)督協(xié)同學(xué)習(xí)算法進(jìn)行對(duì)比實(shí)驗(yàn).監(jiān)督算法采用K最鄰近分類(lèi)(K nearest neighbor,KNN),半監(jiān)督學(xué)習(xí)算法采用Co-training和Co-forest作為對(duì)比算法.K最鄰近分類(lèi)算法是較為成熟的監(jiān)督學(xué)習(xí)算法[25],其基本運(yùn)算思想是首先確定分類(lèi)的最終類(lèi)別數(shù)目,并確定特征空間,然后以待分類(lèi)對(duì)象和訓(xùn)練集樣本之間的距離作為判別標(biāo)準(zhǔn),確定該待分類(lèi)對(duì)象的k個(gè)最近“鄰居”,最后通過(guò)各個(gè)鄰居的類(lèi)別判斷待分類(lèi)對(duì)象的類(lèi)別. 半監(jiān)督學(xué)習(xí)中,Co-training和Co-forest是比較常見(jiàn)的半監(jiān)督協(xié)同學(xué)習(xí)算法.Co-training的基本思想[26]是利用兩個(gè)分類(lèi)算法根據(jù)數(shù)據(jù)集的不同視圖分別構(gòu)建有分歧的分類(lèi)器,實(shí)驗(yàn)中采用SVM和RF作為基分類(lèi)器,然后從未標(biāo)記樣本中選擇一定數(shù)目置信度高的樣本增加到對(duì)方分類(lèi)器的訓(xùn)練樣本中,不斷迭代更新分類(lèi)器,直到分類(lèi)器不再變化.Co-Forest采用了集成學(xué)習(xí)的方式[27],以隨機(jī)樹(shù)作為基分類(lèi)器的集成分類(lèi)器,可以使未標(biāo)記數(shù)據(jù)的置信度以更簡(jiǎn)單有效的方式計(jì)算.對(duì)于單個(gè)基分類(lèi)器hi(i∈{1,2,…,N}),它的協(xié)同分類(lèi)器集合是Hi(除hi之外的所有子分類(lèi)器).在迭代協(xié)同學(xué)習(xí)過(guò)程中,Hi可以將高置信度的未標(biāo)記樣本不斷加入到基分類(lèi)器hi訓(xùn)練樣本中,從而提高基分類(lèi)器hi的整體性能. 圖9顯示了不同分類(lèi)方法在兩個(gè)數(shù)據(jù)集上的精度表現(xiàn),KNN算法沒(méi)有進(jìn)行樣本增強(qiáng),僅利用了原始樣本進(jìn)行了分類(lèi);而Co-training、Co-forest和本研究提出的算法均對(duì)原始樣本進(jìn)行了增強(qiáng),圖中所示的準(zhǔn)確度是基于增強(qiáng)樣本的構(gòu)建分類(lèi)器得到的.如圖9所示,不同方法在兩個(gè)數(shù)據(jù)集中具有相似的表現(xiàn),其中KNN僅利用了原始樣本集,因此,構(gòu)建的分類(lèi)器的泛化性較差,精度為各個(gè)方法中最低;而三種半監(jiān)督方法由于利用了候選集中的未標(biāo)記樣本信息,經(jīng)過(guò)樣本增強(qiáng)后,分類(lèi)精度都有較大的提升.本研究提出的算法具有最高的精度表現(xiàn),在Landsat土壤數(shù)據(jù)集和Mnist手寫(xiě)數(shù)據(jù)集上較Co-training分別提升4.97%和3.24%,較Co-forest分別提升3.64%和2.81%,進(jìn)一步說(shuō)明本研究提出算法的優(yōu)越性.通過(guò)分析兩個(gè)數(shù)據(jù)集在不同方法的表現(xiàn),可以發(fā)現(xiàn)各方法在Mnist數(shù)據(jù)集的精度高于Landsat土壤數(shù)據(jù)集,主要的原因是Landsat數(shù)據(jù)集類(lèi)別均為土壤,區(qū)分難度較大,導(dǎo)致各分類(lèi)算法的精度相對(duì)較低. 圖9 不同方法的分類(lèi)方法精度對(duì)比Fig.9 Comparison of accuracy of classification methods of different methods 對(duì)圖像數(shù)據(jù)的分類(lèi)算法研究對(duì)經(jīng)濟(jì)社會(huì)和科學(xué)研究都具有重要意義,本文研究了一種半監(jiān)督學(xué)習(xí)的樣本增強(qiáng)分類(lèi)算法.利用兩個(gè)分類(lèi)器協(xié)同訓(xùn)練,以手寫(xiě)數(shù)字和Landsat土壤數(shù)據(jù)作為測(cè)試數(shù)據(jù)集,通過(guò)多分類(lèi)器預(yù)測(cè)標(biāo)簽一致性和確定度約束兩個(gè)篩選規(guī)則,從未標(biāo)記樣本集中篩選出最有代表性的樣本構(gòu)成增強(qiáng)樣本集,以準(zhǔn)確率為評(píng)價(jià)標(biāo)準(zhǔn),驗(yàn)證本算法對(duì)分類(lèi)器泛化性能的影響.通過(guò)實(shí)驗(yàn),可以得到如下結(jié)論. 1)本文利用多分類(lèi)器協(xié)同訓(xùn)練,對(duì)未標(biāo)記樣本預(yù)測(cè)標(biāo)簽和類(lèi)別確定度進(jìn)行約束處理,可以保證篩選出樣本的可靠性和多樣性,并實(shí)現(xiàn)了對(duì)分類(lèi)器泛化能力的提升. 2)對(duì)未標(biāo)記樣本確定度取不同閾值,會(huì)影響增強(qiáng)樣本的正確性,進(jìn)而影響構(gòu)建分類(lèi)器的準(zhǔn)確率. 3)分類(lèi)任務(wù)中類(lèi)別的數(shù)目變化對(duì)半監(jiān)督學(xué)習(xí)效果影響很小. 4)通過(guò)與KNN、Co-training和Co-forest算法的對(duì)比實(shí)驗(yàn),可以發(fā)現(xiàn)本研究提出的算法獲取的增強(qiáng)樣本在分類(lèi)精度上有較明顯的優(yōu)勢(shì). 在后期的工作中,可以進(jìn)一步探究在少樣本的情況下,利用半監(jiān)督算法得到的增強(qiáng)樣本在深度學(xué)習(xí)算法中的應(yīng)用,因?yàn)樯疃葘W(xué)習(xí)需要大量的訓(xùn)練樣本,同時(shí)也有一定的容錯(cuò)能力,故可以探究利用半監(jiān)督學(xué)習(xí)和深度學(xué)習(xí)結(jié)合對(duì)分類(lèi)準(zhǔn)確率的提升效果.2.3 樣本增強(qiáng)算法流程
3 實(shí)驗(yàn)及結(jié)果分析
3.1 數(shù)據(jù)集
3.2 算法評(píng)價(jià)指標(biāo)
3.3 結(jié)果及分析
4 結(jié)論