汪嬋 權(quán)悅 姚潔 張帝 李振國(guó) 李新恒
摘 要:提出一種面向不平衡數(shù)據(jù)的主動(dòng)學(xué)習(xí)算法Balance adjustment Active Learning(簡(jiǎn)稱Ba-AL).每次迭代結(jié)束檢查訓(xùn)練集樣本平衡度,對(duì)不平衡訓(xùn)練集進(jìn)行聚類并剔除冗余樣本,保持訓(xùn)練集的平衡,從而提高分類效果.UCI數(shù)據(jù)集及真實(shí)的遙感影像數(shù)據(jù)集仿真結(jié)果表明,該方法可以獲得較好的分類效果,達(dá)到目標(biāo)正確率所需的最少訓(xùn)練樣本數(shù)更少,算法效率更高,數(shù)據(jù)利用指標(biāo)更優(yōu)越.
關(guān)鍵詞:主動(dòng)學(xué)習(xí)算法;平衡度;分類精度;數(shù)據(jù)利用
[中圖分類號(hào)]TP7 ? [文獻(xiàn)標(biāo)志碼]A
分類是從數(shù)據(jù)中獲取有價(jià)值信息的重要手段,傳統(tǒng)分類器若要獲得較好的分類效果需要性能良好的訓(xùn)練樣本集,這類訓(xùn)練樣本集中的數(shù)據(jù)通常需要借助于人工從海量的數(shù)據(jù)中甄別出最有價(jià)值的樣本.但是在很多的應(yīng)用場(chǎng)合,如遙感影像分類、詐騙檢測(cè)等,數(shù)據(jù)量很大,使得人們從這些海量數(shù)據(jù)中找到有價(jià)值的樣本變得很困難,增加了樣本標(biāo)記的成本.Lewis和Gale于1994年提出主動(dòng)學(xué)習(xí)方法,為提高監(jiān)督學(xué)習(xí)的學(xué)習(xí)效果和減少訓(xùn)練樣本個(gè)數(shù)開辟了一條新的路徑.[1]相對(duì)于傳統(tǒng)的學(xué)習(xí)方法,在同樣的分類精度要求下,主動(dòng)學(xué)習(xí)需要的訓(xùn)練樣本數(shù)更少,有效的減少了人工標(biāo)注成本.張良利用主動(dòng)學(xué)習(xí)算法對(duì)高光譜遙感影像分類問(wèn)題進(jìn)行了研究,獲得了很好的分類效果.胡小娟將主動(dòng)學(xué)習(xí)算法應(yīng)用于垃圾郵件分類,學(xué)習(xí)模型可以取得較高的分類精度.Tong[2]將SVM和主動(dòng)學(xué)習(xí)算法結(jié)合在一起,使得主動(dòng)學(xué)習(xí)的性能得到進(jìn)一步提升.
目前的主動(dòng)學(xué)習(xí)算法都是基于訓(xùn)練樣本集中樣本數(shù)量平衡的假設(shè),當(dāng)訓(xùn)練集中不同類別的數(shù)據(jù)存在較為嚴(yán)重的失衡時(shí),數(shù)據(jù)少的類別很容易被錯(cuò)分,即便是基于SVM的主動(dòng)學(xué)習(xí)算法也很難獲得好的分類效果.不平衡數(shù)據(jù)分類問(wèn)題在實(shí)際應(yīng)用中很常見,如海面石油油污檢測(cè)、信用卡非法交易檢測(cè)、醫(yī)學(xué)數(shù)據(jù)分類等.為此,本文提出一種面向不平衡數(shù)據(jù)的主動(dòng)學(xué)習(xí)算法Balance adjustment Active Learning(簡(jiǎn)稱Ba-AL),每次迭代后都會(huì)檢測(cè)樣本集的平衡度并對(duì)訓(xùn)練樣本集進(jìn)行調(diào)整,維持訓(xùn)練樣本集的基本平衡,保證學(xué)習(xí)算法的分類效果.
1 主動(dòng)學(xué)習(xí)算法
主動(dòng)學(xué)習(xí)包含學(xué)習(xí)和樣本選擇兩個(gè)部分,學(xué)習(xí)部分負(fù)責(zé)利用已標(biāo)記數(shù)據(jù)集數(shù)據(jù)訓(xùn)練分類器,樣本選擇部分負(fù)責(zé)利用樣本選擇策略,從未標(biāo)記數(shù)據(jù)集中選擇候選樣本交由專家進(jìn)行標(biāo)記,然后加入已標(biāo)記數(shù)據(jù)集中.這兩個(gè)部分相互配合交替工作,直到整個(gè)迭代學(xué)習(xí)過(guò)程結(jié)束.
樣本選擇策略的設(shè)計(jì)是主動(dòng)學(xué)習(xí)的關(guān)鍵.在各類樣本選擇策略中,基于不確定度縮減的選擇策略由于度量性好,成為被廣泛研究和應(yīng)用的對(duì)象.它是依據(jù)分類器的分類結(jié)果對(duì)每個(gè)未標(biāo)記樣本進(jìn)行度量打分,根據(jù)分值從大到小對(duì)樣本進(jìn)行排序,樣本的分值越大表示該樣本包含的有價(jià)值信息越多,對(duì)尋找最優(yōu)分類面越有幫助.[3]筆者提出的Ba-AL主動(dòng)學(xué)習(xí)算法就是基于不確定度縮減方法進(jìn)行的研究.
2 不平衡數(shù)據(jù)分類問(wèn)題
不平衡數(shù)據(jù)指的是訓(xùn)練樣本集中不同類別的訓(xùn)練樣本數(shù)量差距較大,類間分布不均勻,某些類的樣本數(shù)量遠(yuǎn)遠(yuǎn)少于其他類.主動(dòng)學(xué)習(xí)在每一輪迭代結(jié)束后,都會(huì)選擇一部分有價(jià)值的樣本交由專家標(biāo)注后加入訓(xùn)練樣本集,若選擇的樣本集中在某些類別,造成個(gè)別類別已標(biāo)記樣本稀缺,這樣的迭代過(guò)程就會(huì)存在訓(xùn)練樣本集數(shù)據(jù)不平衡的問(wèn)題.為了解決這一問(wèn)題,提出調(diào)整訓(xùn)練樣本集平衡度的策略.
3 訓(xùn)練樣本集平衡度調(diào)整
每一次迭代主動(dòng)學(xué)習(xí)選擇出的樣本都有可能帶來(lái)訓(xùn)練集數(shù)據(jù)不平衡問(wèn)題,造成分類超平面遠(yuǎn)離某些類別樣本的中心,卻過(guò)于靠近其他類樣本中心.為避免主動(dòng)學(xué)習(xí)方法在選擇含信息量最大樣本的同時(shí)帶來(lái)訓(xùn)練樣本集不平衡的問(wèn)題,在每次樣本選擇結(jié)束后度量當(dāng)前訓(xùn)練樣本集的平衡度b,其定義為:
4.2 算法步驟
S是總樣本集,其中訓(xùn)練樣本集L=(x1,y1),…,(xl,yl),樣本均已標(biāo)記,{y1,…,yl}為對(duì)應(yīng)的標(biāo)簽.U=xl+1,…,xN為標(biāo)簽未知的測(cè)試樣本集,l和u=n-l分別為樣本集L和U中的樣本個(gè)數(shù).S=L∪U,X={x1,…,xl,xl+1,…,xN}均為υ維向量,Y=y1,…,ym為樣本標(biāo)簽的集合.主動(dòng)學(xué)習(xí)的目的就是從未標(biāo)記樣本中選出最有利于訓(xùn)練分類器的樣本加入訓(xùn)練樣本集,從而訓(xùn)練出分類器f以準(zhǔn)確地預(yù)測(cè)未知樣本xi的標(biāo)簽yi.每次迭代結(jié)束后選出對(duì)提高分類器性能最有價(jià)值的樣本加入樣本集M中,W為錯(cuò)誤分類的樣本集合.算法步驟:
Step1,初始化.對(duì)測(cè)試樣本集U中所有樣本做聚類,類別數(shù)為k,類別中心樣本為c1,…,ck;將c1,…,ck交由專家標(biāo)記,若c1,…,ck包含所有類別,則令L=c1,…,ck∪L,否則對(duì)U進(jìn)行k+1類.重復(fù)這一過(guò)程,直到類中心包含所有類別樣本.令U=U-C;
Step2,基于樣本集L訓(xùn)練SVM分類器,判斷U中樣本的類別;
Step3,對(duì)每個(gè)xi(xi∈U),按式(2)計(jì)算w(xi).對(duì)U中樣本按w(xi)的值進(jìn)行降序排列,排序越靠前的樣本價(jià)值越高,取前m個(gè)樣本加入集合M,并將M中的樣本交由專家進(jìn)行標(biāo)記;
Step4,比較M中樣本的標(biāo)記結(jié)果與Step2中對(duì)應(yīng)樣本的標(biāo)簽,將分類結(jié)果不同的樣本放入數(shù)據(jù)集W;
Step5,按公式(1)計(jì)算當(dāng)前W集對(duì)應(yīng)的b,若b<ε,則對(duì)W的平衡度進(jìn)行調(diào)整,調(diào)整L中的樣本分布;
Step6,令L=L∪W,L=U-W;
Step7,判定此時(shí)是否達(dá)到停止條件,滿足則停止迭代;否則,返回Step2進(jìn)行下一次迭代.
5 仿真結(jié)果與分析
為了驗(yàn)證所提算法性能,基于UCI標(biāo)準(zhǔn)數(shù)據(jù)集及真實(shí)的遙感影像數(shù)據(jù)集進(jìn)行仿真分析.數(shù)據(jù)集基本情況見表2,遙感影像數(shù)據(jù)集來(lái)自文獻(xiàn)[4].
5.1 分類結(jié)果評(píng)估指標(biāo)
數(shù)據(jù)利用是指主動(dòng)學(xué)習(xí)算法達(dá)到目標(biāo)正確率所需的最少訓(xùn)練樣本數(shù).該指標(biāo)數(shù)值越小,說(shuō)明學(xué)習(xí)算法利用數(shù)據(jù)的效率越高.
Kappa系數(shù)是使用者精度和生產(chǎn)者精度兩個(gè)參數(shù)的綜合,用其判斷分類結(jié)果的可靠程度,Kappa系數(shù)的值越大則說(shuō)明分類結(jié)果越可靠.[5]Kappa系數(shù)計(jì)算公式為:
Kappa=N∑mi=1Pli-∑mi=1Ppi×PliN2-∑mi=1Ppi×Pli.(3)
其中,N為樣本總數(shù),Ppi為第i類所在列總數(shù),Pli為第i類所在行列總數(shù).Kappa系數(shù)與分類精度的質(zhì)量對(duì)應(yīng)關(guān)系見表1.[6]
5.2 UCI數(shù)據(jù)集
仿真所采用的軟件為MATLAB7.0,仿真中的基分類器采用SVM.分類器SVM的參數(shù)均為十折交叉驗(yàn)證所得,基于libsvm工具箱實(shí)現(xiàn).訓(xùn)練樣本集的樣本數(shù)量取樣本總數(shù)的20%至70%,其余樣本構(gòu)成測(cè)試樣本集.在5個(gè)數(shù)據(jù)集上分別基于R-AL(Random ?Active Learning),T-AL(Tong Active Learning),Ba- AL(Balance adjustment Active Learning) 3種主動(dòng)學(xué)習(xí)算法進(jìn)行仿真.
5個(gè)UCI數(shù)據(jù)集上仿真所得分類精度如表3所示.每組分類精度均為多次仿真的統(tǒng)計(jì)平均值.
由表3可以看出,在5個(gè)標(biāo)準(zhǔn)UCI數(shù)據(jù)集上,Ba-AL的分類精度均高于其他兩種主動(dòng)學(xué)習(xí)算法,可見對(duì)訓(xùn)練樣本集進(jìn)行平衡度調(diào)整后,訓(xùn)練出的分類器分類超平面更為合理.R-AL在waveform數(shù)據(jù)集上的分類精度略優(yōu)于T-AL,這是由于隨機(jī)采樣帶來(lái)的對(duì)算法結(jié)果的隨機(jī)性造成的.
主動(dòng)學(xué)習(xí)算法的核心是樣本選擇策略,除分類精度外,通常采用數(shù)據(jù)利用指標(biāo)來(lái)評(píng)估算法性能的好壞.三種主動(dòng)學(xué)習(xí)算法的數(shù)據(jù)利用指標(biāo)如表4所示.各數(shù)據(jù)集的目標(biāo)正確率分別為81%,75%,79%,82%,91%.
從表4可以看出,在相同的分類正確率要求下,Ba-AL方法在5個(gè)UCI數(shù)據(jù)集上使用的訓(xùn)練樣本數(shù)最少,說(shuō)明其具有比傳統(tǒng)SVM主動(dòng)學(xué)習(xí)算法更好的數(shù)據(jù)利用性能.
5.3 遙感影像數(shù)據(jù)集
訓(xùn)練樣本集和測(cè)試樣本集均采用ENVI4.7軟件將感興趣區(qū)域和測(cè)試區(qū)域轉(zhuǎn)換成ASCⅡ數(shù)據(jù),訓(xùn)練集具有較好的代表性.仿真過(guò)程中,基分類器采用SVM,選用高斯核函數(shù),分類器參數(shù)為十折交叉驗(yàn)證所得,基于libsvm工具箱實(shí)現(xiàn),分別采用R-AL(Random ?Active Learning),T-AL(Tong Active Learning),Ba-AL(Balance adjustment Active Learning)3種主動(dòng)學(xué)習(xí)算法進(jìn)行仿真.每組仿真所得分類精度均為20次仿真結(jié)果的平均值,每次仿真時(shí),訓(xùn)練樣本集的樣本數(shù)量在樣本總數(shù)的1/5到4/5之間取值,剩余樣本作為測(cè)試樣本集.仿真過(guò)程中,主動(dòng)學(xué)習(xí)迭代次數(shù)取100次.
3種主動(dòng)學(xué)習(xí)算法的分類精度和數(shù)據(jù)利用性能指標(biāo)如表5所示.其中,仿真數(shù)據(jù)利用性能時(shí)的目標(biāo)正確率為80%.
由表5可以看出,Ba-AL算法的平均分類精度均高于其他兩種算法,數(shù)據(jù)利用指標(biāo)較前兩種算法更好.
3種主動(dòng)學(xué)習(xí)方法的混淆矩陣見表6-8,三種主動(dòng)學(xué)習(xí)算法的Kappa系數(shù)都較高,對(duì)照表1中的Kappa系數(shù)分段,說(shuō)明仿真結(jié)果是可靠的.
圖2給出了遙感影像分類效果圖,與圖1(b)中原始的影像分類圖對(duì)比,可以看出分類難點(diǎn)主要在沙地及草地等地物的混合處.R-AL算法可以大體看出各類地物的情況,但是對(duì)草地、裸地等地物分類錯(cuò)誤率很高.T-AL算法整體分類效果比T-AL要好,但對(duì)于砂礫、草地和陰影區(qū)域分類效果較差,對(duì)各地物混雜處分類也不準(zhǔn)確.采用預(yù)聚類的方法對(duì)訓(xùn)練樣本集進(jìn)行選擇的Ba-AL法對(duì)陰影部分的分類效果均優(yōu)于前兩種算法.
6 結(jié)語(yǔ)
為解決主動(dòng)學(xué)習(xí)算法中存在的各類別數(shù)據(jù)量不平衡問(wèn)題,提出對(duì)每次迭代后的訓(xùn)練樣本集進(jìn)行平衡度評(píng)估,對(duì)存在數(shù)據(jù)量不平衡的訓(xùn)練樣本集進(jìn)行調(diào)整,通過(guò)刪除冗余信息的方式使訓(xùn)練樣本集始終保持平衡.UCI數(shù)據(jù)集及真實(shí)的遙感影像分類數(shù)據(jù)集的仿真結(jié)果表明,Ba-AL算法比隨機(jī)取樣主動(dòng)學(xué)習(xí)及Tong所提主動(dòng)學(xué)習(xí)算法具有更好的分類效果.
參考文獻(xiàn)
[1]Lewis D D,Gale W A.A sequential algorithm for training text classifiers[J].Proceedings of the 17th ACM International Conference on Research and Development in Information Retrival,1994:3-12.
[2]Tong S,Koller D.Support vector machine active learning with applications to text classification[J].Journal of Machine Learning Research,2002,2:45-66.
[3]李延超,肖甫,陳志,等.自適應(yīng)主動(dòng)半監(jiān)督學(xué)習(xí)方法 [J].軟件學(xué)報(bào),2020,31(12):3808-3822.
[4]蘇紅軍,顧夢(mèng)宇.高光譜遙感影像優(yōu)化判別局部對(duì)齊特征提取[J].遙感學(xué)報(bào),2020,25(05):1055-1070.
[5]Tayebi MH,Tangestani MH,Roosta H.Mapping salt diapirs and salt diapir-affected areas using MLP neural network model and ASTER data[J].International Journal of Digital Earth,2013,6(2):143-157.
[6]盧麗琛, 洪亮. 面向?qū)ο蟮母叻直媛蔬b感影像建筑物變化檢測(cè)[J].牡丹江師范學(xué)院學(xué)報(bào);自然科學(xué)版,2021(01):50-54.
[7]曹倩倩, 黃袁升.遙感影像分類方法精度研究[J].牡丹江師范學(xué)院學(xué)報(bào):自然科學(xué)版,2017(01):37-38.
編輯:琳莉