龔彥鷺 呂佳
摘 要:針對(duì)協(xié)同訓(xùn)練算法對(duì)模糊度高的樣本容易標(biāo)記錯(cuò)誤導(dǎo)致分類器精度降低和協(xié)同訓(xùn)練在迭代時(shí)選擇加入的無(wú)標(biāo)記樣本隱含有用信息不夠的問(wèn)題,提出了一種結(jié)合主動(dòng)學(xué)習(xí)和密度峰值聚類的協(xié)同訓(xùn)練算法。在每次迭代之前,先選擇模糊度高的無(wú)標(biāo)記樣本主動(dòng)標(biāo)記后加入有標(biāo)記樣本集,然后利用密度峰值聚類對(duì)無(wú)標(biāo)記樣本聚類得到每個(gè)無(wú)標(biāo)記樣本的密度和相對(duì)距離。迭代時(shí)選擇具有較高密度和相對(duì)距離較遠(yuǎn)的無(wú)標(biāo)記樣本交由樸素貝葉斯(NB)分類,反復(fù)上述過(guò)程直到滿足終止條件。利用主動(dòng)學(xué)習(xí)標(biāo)記模糊度高的樣本能夠改善分類器誤標(biāo)記識(shí)別問(wèn)題,利用密度峰值聚類能夠選擇出較好表現(xiàn)數(shù)據(jù)空間結(jié)構(gòu)的樣本。在UCI的8個(gè)數(shù)據(jù)集和Kaggle的pima數(shù)據(jù)集上的實(shí)驗(yàn)表明,與SSLNBCA算法相比,所提算法的準(zhǔn)確率最高提升6.7個(gè)百分點(diǎn),平均提升1.46個(gè)百分點(diǎn)。
關(guān)鍵詞:協(xié)同訓(xùn)練;主動(dòng)學(xué)習(xí);密度峰值;樸素貝葉斯;視圖
中圖分類號(hào):?TP181
文獻(xiàn)標(biāo)志碼:A
Co-training algorithm with combination of active learning and density peak clustering
GONG Yanlu1,2,LYU Jia1,2*
1.College of Computer and Information Sciences, Chongqing Normal University, Chongqing 401331, China;
2.Chongqing Center of Engineering Technology Research on Digital Agriculture Service, Chongqing Normal University, Chongqing 401331, China
Abstract:?High ambiguity samples are easy to be mislabeled by the co-training algorithm, which would decrease the classifier accuracy, and the useful information hidden in unlabeled data which were added in each iteration is not enough. To solve these problems, a co-training algorithm combined with active learning and density peak clustering was proposed. Before each iteration, the unlabeled samples with high ambiguity were selected and added to the labeled sample set after active labeling, then density peak clustering was used to cluster the unlabeled samples to obtain the density and relative distance of each unlabeled sample. During iteration, the unlabeled samples with higher density and further relative distance were selected to be trained by Naive Bayes (NB) classification algorithm. The processes were iteratively done until the termination condition was satisfied. Mislabeled data recognition problem could be improved by labeling samples with high ambiguity based on active learning algorithm, and the samples reflecting data space structure well could be selected by density peak clustering algorithm. Experimental results on 8 datasets of UCI and the pima dataset of Kaggle show that compared with SSLNBCA (Semi-Supervised Learning combining NB Co-training with Active learning) algorithm, the accuracy of the proposed algorithm is up to 6.67 percentage points, with an average improvement of 1.46 percentage points.
Key words:?co-training; active learning; density peak; Naive Bayes (NB); view
0 引言
半監(jiān)督學(xué)習(xí)(Semi-Supervised Learning, SSL)[1-2]包括自訓(xùn)練、協(xié)同訓(xùn)練、生成式模型、基于圖的半監(jiān)督學(xué)習(xí)等,旨在利用少量的有標(biāo)記樣本和大量的無(wú)標(biāo)記樣本來(lái)訓(xùn)練分類器。其中,協(xié)同訓(xùn)練在多個(gè)視圖上訓(xùn)練出多個(gè)分類器,通過(guò)分類器之間的協(xié)同作用得到無(wú)標(biāo)記樣本的類標(biāo)號(hào)。經(jīng)典的協(xié)同訓(xùn)練方法在兩個(gè)充分冗余且獨(dú)立的視圖上進(jìn)行,然而現(xiàn)實(shí)生活中的數(shù)據(jù)很少能夠滿足充分冗余且獨(dú)立的條件,因此提出了其他假設(shè)的協(xié)同訓(xùn)練方法來(lái)放松條件。文獻(xiàn)[3]中的研究表明,當(dāng)數(shù)據(jù)集充分大時(shí),在隨機(jī)劃分的特征集上進(jìn)行協(xié)同訓(xùn)練會(huì)具有很好的效果,但該算法不具有穩(wěn)定性。Du等[4]提出了啟發(fā)式分割方法,將一個(gè)視圖分割為兩個(gè)視圖,但這種方法在有標(biāo)記樣本數(shù)量很少時(shí)表現(xiàn)很差。tri-training[5]是一種新的具有協(xié)同訓(xùn)練模式的算法,這種算法既不需要用足夠冗余的視圖表現(xiàn)數(shù)據(jù)空間,也沒(méi)有對(duì)監(jiān)督學(xué)習(xí)算法提出任何約束,因此具有較強(qiáng)的適用性,但是在協(xié)同訓(xùn)練的過(guò)程中,分類器易誤標(biāo)記模糊度高的樣本導(dǎo)致錯(cuò)誤累積,而如何從無(wú)標(biāo)記樣本中選擇可靠的樣本加入訓(xùn)練集,也是學(xué)者研究的熱點(diǎn)問(wèn)題。
主動(dòng)學(xué)習(xí)通過(guò)選擇最有用的無(wú)標(biāo)記樣本交由專家標(biāo)記來(lái)提高分類器的性能[6]。Sener等[7]將主動(dòng)學(xué)習(xí)的問(wèn)題定義為核心集的選擇,并將這種方法運(yùn)用到卷積神經(jīng)網(wǎng)絡(luò)中;Piroonsup等[8]通過(guò)聚類來(lái)實(shí)現(xiàn)主動(dòng)學(xué)習(xí),利用改進(jìn)后的k-means聚類算法得到無(wú)標(biāo)記種群的質(zhì)心,再選擇離質(zhì)心近的樣本進(jìn)行主動(dòng)標(biāo)記;Wang等[9]研究表明,分類器輸出的具有較高模糊度的樣本意味著更大的錯(cuò)誤分類風(fēng)險(xiǎn),處理高模糊度的樣本是促進(jìn)分類器性能的有效方法。
在協(xié)同訓(xùn)練方法中,無(wú)標(biāo)記樣本的有效選取也是提高分類器性能的重要步驟。Zhang等[10]根據(jù)高置信度和最近鄰兩個(gè)準(zhǔn)則選擇最可靠的實(shí)例,以此來(lái)增強(qiáng)分類器的性能;但該算法在非小樣本數(shù)據(jù)集上性能表現(xiàn)不佳。考慮到無(wú)標(biāo)記樣本隱含的空間結(jié)構(gòu)信息,Gan等[11]用半監(jiān)督模糊C均值聚類選取隱含有用信息量高的無(wú)標(biāo)記樣本來(lái)輔助訓(xùn)練分類器;但歐氏距離對(duì)于反映屬性之間的相關(guān)性效果很差,而且很難確定合適的參數(shù)。龔彥鷺等[12]考慮到無(wú)標(biāo)記樣本隱含的空間結(jié)構(gòu)信息和協(xié)同標(biāo)記的一致性,提出了結(jié)合半監(jiān)督聚類(Semi-supervised Metric-based fUzzy Clustering, SMUC)和加權(quán)KNN(K-Nearest Neighbor)的協(xié)同訓(xùn)練方法,該方法能夠有效地選擇無(wú)標(biāo)記樣本,但計(jì)算成本較高。Rodriguez等[13]提出了密度峰值聚類,這種方法將聚類中心定義為密度高且相對(duì)距離較大的點(diǎn),實(shí)驗(yàn)表明其具有不受數(shù)據(jù)集形狀影響的良好性能,基于此特性,密度峰值聚類在數(shù)據(jù)空間表現(xiàn)上得到了廣泛的應(yīng)用。Wu等[14]利用密度峰值聚類發(fā)現(xiàn)數(shù)據(jù)空間結(jié)構(gòu),提出了一種自訓(xùn)練半監(jiān)督分類框架,將數(shù)據(jù)空間的結(jié)構(gòu)融入自訓(xùn)練迭代過(guò)程中,以此幫助訓(xùn)練更好的分類器。羅云松等[15]將密度峰值聚類與模糊聚類結(jié)合起來(lái),用密度峰值優(yōu)化模糊聚類,并將改進(jìn)后的方法用在自訓(xùn)練中,提高了自訓(xùn)練方法的泛化性。
基于以上考慮,本文提出了結(jié)合主動(dòng)學(xué)習(xí)和密度峰值聚類的協(xié)同訓(xùn)練方法,實(shí)驗(yàn)結(jié)果表明,該方法相比改進(jìn)前的方法具有更好的性能。
1 本文算法
傳統(tǒng)的協(xié)同訓(xùn)練算法在選擇無(wú)標(biāo)記樣本時(shí)未考慮到高模糊度樣本對(duì)分類器的影響,在迭代的過(guò)程中會(huì)造成分類器的錯(cuò)誤累積問(wèn)題。針對(duì)這種具有較高誤判風(fēng)險(xiǎn)的高模糊度樣本,如果能夠正確處理,不僅可以避免分類器的錯(cuò)誤累積而且能夠利用高模糊度樣本的信息,從而提高分類器的性能。故采用主動(dòng)學(xué)習(xí)的方法去標(biāo)記高模糊度的樣本使分類器的性能得到提升。此外,考慮到無(wú)標(biāo)記樣本中隱含的空間結(jié)構(gòu)信息以及密度峰值聚類在任意數(shù)據(jù)集上良好的性能表現(xiàn),采用密度峰值聚類計(jì)算每一個(gè)無(wú)標(biāo)記樣本的密度和相對(duì)距離,以此來(lái)作為無(wú)標(biāo)記樣本的選擇依據(jù)。因挑選的無(wú)標(biāo)記樣本是具有代表性的密度較高且相對(duì)距離較遠(yuǎn)的樣本,故分類器在訓(xùn)練的過(guò)程中能夠利用這些有用信息來(lái)提高性能。
1.1 主動(dòng)學(xué)習(xí)
主動(dòng)學(xué)習(xí)的思想是通過(guò)選擇一些有價(jià)值的樣本給專家主動(dòng)標(biāo)記從而獲得性能更好的分類器,降低領(lǐng)域?qū)<业墓ぷ髁?。如何高效地選擇有價(jià)值的樣本是主動(dòng)學(xué)習(xí)領(lǐng)域一直在探討的問(wèn)題。本文將模糊度高的樣本定義為有價(jià)值的樣本,而對(duì)于模糊度的計(jì)算,先采用樸素貝葉斯(Naive Bayes, NB)對(duì)無(wú)標(biāo)記樣本進(jìn)行分類得到屬于每個(gè)類的概率,再用同一樣本的不同類別概率的方差來(lái)表示模糊度。同一樣本屬于不同類別概率的方差越小,表示該樣本的不確定性越大,模糊度越高,越有價(jià)值。本文主動(dòng)學(xué)習(xí)算法的流程如圖1所示,其中,參數(shù)ε是控制主動(dòng)學(xué)習(xí)標(biāo)記的無(wú)標(biāo)記樣本個(gè)數(shù)。
1.2 密度峰值聚類
密度峰值聚類基于兩個(gè)簡(jiǎn)單、直觀的假設(shè):1)類簇中心點(diǎn)的密度大于周圍鄰居點(diǎn)的密度;2)類簇中心點(diǎn)與更高密度點(diǎn)之間的距離相對(duì)較大。根據(jù)這兩個(gè)假設(shè),密度峰值聚類首先發(fā)現(xiàn)密度峰,將其標(biāo)為聚類中心,然后將其他的點(diǎn)分類到相應(yīng)的簇中,因此,該方法能自動(dòng)發(fā)現(xiàn)數(shù)據(jù)集的聚類中心,實(shí)現(xiàn)任意形狀數(shù)據(jù)集的高效聚類。
在密度峰值聚類里,對(duì)于每一個(gè)樣本點(diǎn),都需要計(jì)算局部密度ρ和相對(duì)距離δ。
局部密度ρ的計(jì)算公式如下:
ρi=∑ j≠i χ(dij-dc) (1)
其中dc是截?cái)嗑嚯x。
dij=‖xi-xj‖2 (2)
χ(x)= 1,? x<00, 其他?? (3)
為了避免dc的影響,密度峰值聚類采用如下方式計(jì)算ρ:
ρi=∑ j≠i exp(-(dij/dc)2) (4)
相對(duì)距離δ的計(jì)算公式如下:
δi=min j:ρj>ρi (dij) (5)
對(duì)于具有局部密度最大的數(shù)據(jù)點(diǎn),相對(duì)距離δ的計(jì)算公式如下:
δi=max j (dij) (6)
利用得到的局部密度ρ和相對(duì)距離δ,畫出ρ和δ的決策圖,然后手動(dòng)選擇密度高且相對(duì)距離大的點(diǎn)作為聚類中心,并將其他的樣本點(diǎn)歸入局部密度大于自身且距離最近的樣本點(diǎn)所在的類簇中,完成對(duì)剩余樣本的分配。圖2是密度峰值聚類的一個(gè)例子,該例子表現(xiàn)了選擇聚類中心的過(guò)程,其中,圖2(a)表示二維空間中的28個(gè)樣本點(diǎn),圖2(b)是利用密度峰值聚類得到的決策圖。
1.3 本文算法流程
考慮到分類器對(duì)高模糊度樣本有較高的誤判風(fēng)險(xiǎn),本文先計(jì)算每個(gè)樣本屬于不同類別概率的方差,再選擇方差小的樣本作為高模糊度樣本,并將這些樣本交給專家主動(dòng)標(biāo)記后加入有標(biāo)記樣本集。為了利用無(wú)標(biāo)記樣本中的隱含信息,對(duì)無(wú)標(biāo)記樣本進(jìn)行密度峰值聚類得到每個(gè)樣本的密度和相對(duì)距離,而后迭代地選取密度較高且相對(duì)距離較遠(yuǎn)的無(wú)標(biāo)記樣本給分類器標(biāo)記。具體算法流程如下所示。
輸入:有標(biāo)記樣本集L,無(wú)標(biāo)記樣本集U,模糊度參數(shù)ε,每次從U中挑選樣本的個(gè)數(shù)c,dc。
輸出:最終訓(xùn)練好的分類器h1、h2。
步驟1? 在L上訓(xùn)練得到樸素貝葉斯分類器h。
步驟2? 用h對(duì)U分類得到每個(gè)類的隸屬度u。
步驟3? 計(jì)算U中每個(gè)樣本隸屬度的方差得到var。
步驟4? 選擇滿足var<ε的無(wú)標(biāo)記樣本U′。
步驟5? 將U′交給專家標(biāo)識(shí),得到類別號(hào)l′。
步驟6? L=L+(U′+l′),U=U-U′。
步驟7? 對(duì)U進(jìn)行密度峰值聚類,得到每個(gè)樣本的密度ρ和相對(duì)距離δ。
步驟8? 按照ρ+δ從大到小的順序?qū)排序。
步驟9? 選擇U中前c個(gè)樣本構(gòu)造樣本集R。
步驟10? 如果U中樣本數(shù)不足c個(gè),則U=R。
步驟11? 在采用屬性集合互補(bǔ)方式產(chǎn)生的兩個(gè)不同視圖上,利用L分別訓(xùn)練出兩個(gè)分類器h1和h2,用訓(xùn)練得到的分類器對(duì)R分類。
步驟12? 若h1和h2對(duì)R中的樣本分類一致,則將該樣本加入到L中;否則,用加權(quán)K最近鄰對(duì)該樣本分類得到類標(biāo)號(hào),然后再將其加入到L。
步驟13? U=U-R,若U集不為空,返回步驟9。
2 實(shí)驗(yàn)結(jié)果與分析
為了說(shuō)明本文算法的有效性,選擇NB協(xié)同訓(xùn)練(NB Co-Training, NBCT)算法、結(jié)合SMUC的NB協(xié)同訓(xùn)練(NB Co-Training combined SMUC, NBCTSMUC)算法、結(jié)合主動(dòng)學(xué)習(xí)的NB協(xié)同訓(xùn)練(NB Co-Training combined Active Learning,NBCTAL)算法和基于文獻(xiàn)[10]的NB協(xié)同訓(xùn)練(Semi-Supervised Learning combining Co-training with Active learning, SSLNBCA)算法與本文算法進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于UCI中的8個(gè)數(shù)據(jù)集和Kaggle數(shù)據(jù)集中的pima數(shù)據(jù)集,數(shù)據(jù)集描述如表1所示。
為了保證實(shí)驗(yàn)準(zhǔn)確性,實(shí)驗(yàn)采用十折交叉驗(yàn)證,將數(shù)據(jù)集隨機(jī)劃分為10折,其中訓(xùn)練集由其中的9折組成,測(cè)試集由剩下的1折組成。實(shí)驗(yàn)參數(shù)設(shè)置如下:dc=2,c為主動(dòng)學(xué)習(xí)后無(wú)標(biāo)記樣本數(shù)的10%。實(shí)驗(yàn)中,在訓(xùn)練集中隨機(jī)選取10%的樣本作為初始有標(biāo)記樣本,其余樣本去除類標(biāo)記作為無(wú)標(biāo)記樣本。
2.1 實(shí)驗(yàn)一
為了分析參數(shù)ε的變化對(duì)本文提出算法的影響,實(shí)驗(yàn)一在有標(biāo)記樣本占比為15%時(shí),得到了在9個(gè)數(shù)據(jù)集上當(dāng)ε=0,0.01,0.03,0.05,0.07,0.09時(shí)本文算法的準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如圖3所示。為表示方便,圖3中數(shù)據(jù)集名稱用縮寫表示。
從圖3可以看出,當(dāng)ε=0.01時(shí),本文算法在9個(gè)數(shù)據(jù)集上的準(zhǔn)確率比ε=0時(shí)高。隨著參數(shù)ε的增加,雖然在多數(shù)情況下準(zhǔn)確率比ε=0時(shí)高,但是對(duì)比ε=0.01,準(zhǔn)確率并沒(méi)有表現(xiàn)出明顯穩(wěn)定上升。在分類器的性能表現(xiàn)方面,ε=0.01和ε=0.09時(shí)要更優(yōu),考慮到利用主動(dòng)學(xué)習(xí)標(biāo)記無(wú)標(biāo)記樣本的成本,選擇ε=0.01。
2.2 實(shí)驗(yàn)二
為了說(shuō)明本文算法在時(shí)間成本上低于NBCTSMUC,實(shí)驗(yàn)二在數(shù)據(jù)集wine計(jì)算了當(dāng)十折交叉驗(yàn)證運(yùn)行次數(shù)為1、2、3、4、5時(shí),本文算法與NBCTSMUC需要的時(shí)間,實(shí)驗(yàn)結(jié)果如圖4所示。
圖4表明,本文算法在時(shí)間消耗方面要遠(yuǎn)低于文獻(xiàn)[12]中提出的利用SMUC選擇無(wú)標(biāo)記樣本的方法,因此對(duì)比SMUC,密度峰值聚類明顯具有更低的計(jì)算成本。
2.3 實(shí)驗(yàn)三
為了說(shuō)明本文算法的有效性,表2給出了5種算法在9個(gè)數(shù)據(jù)集上兩個(gè)視圖平均分類正確率的實(shí)驗(yàn)結(jié)果。
如表2所示,當(dāng)有標(biāo)記樣本比例為10%時(shí),除了數(shù)據(jù)集ionosphere和banknote authentication,本文算法在其他7個(gè)數(shù)據(jù)集上性能均優(yōu)于對(duì)比算法。在數(shù)據(jù)集Ecoli、Iris、seeds上的準(zhǔn)確率分別提升了3.8個(gè)百分點(diǎn)、5.3個(gè)百分點(diǎn)、4.29個(gè)百分點(diǎn)。這是因?yàn)樗惴ㄔ诘斑x擇模糊度高的樣本主動(dòng)標(biāo)記,避免了樣本錯(cuò)誤的類標(biāo)簽造成的分類器錯(cuò)誤累積問(wèn)題,對(duì)于在迭代過(guò)程中加入的無(wú)標(biāo)記樣本,本文算法在此之前按照密度和相對(duì)距離對(duì)這些樣本進(jìn)行了排序,保證了每次給分類
器分類的樣本都比下一次的更具代表性;而在數(shù)據(jù)集
ionosphere和banknote authentication上,本文算法的性能表現(xiàn)得比對(duì)比算法弱,這可能是因?yàn)榘疵芏确逯颠x擇無(wú)標(biāo)記樣本進(jìn)行標(biāo)記這種方式并不適合該樣本集,而NBCTAL的準(zhǔn)確率高于NBCT,這表明利用主動(dòng)學(xué)習(xí)擴(kuò)充訓(xùn)練集的方式是可行性。在數(shù)據(jù)集wine上,NBCTAL的準(zhǔn)確率略低于NBCT,這可能是因?yàn)閣ine數(shù)據(jù)集本身并不具有模糊度高的較難分的樣本,故利用主動(dòng)學(xué)習(xí)去標(biāo)記模糊度高的樣本可能并不適用此數(shù)據(jù)集。
2.4 實(shí)驗(yàn)四
為了說(shuō)明5種算法在9個(gè)數(shù)據(jù)集上的分類準(zhǔn)確率與有標(biāo) 記樣本比率的關(guān)系,圖5給出了當(dāng)初始有標(biāo)記樣本比例分別為10%、20%、30%、40%、50%時(shí)5種算法在9個(gè)數(shù)據(jù)集上的分類準(zhǔn)確率。
從圖5可以看出,在數(shù)據(jù)集pima、Ecoli、Breast Cancer Wisconsin (Original)、Iris、wine上,本文算法的性能均高于對(duì)比算法。在數(shù)據(jù)集abalone和數(shù)據(jù)集banknote authentication,隨著有標(biāo)記比例的增加,本文算法的性能弱于對(duì)比算法,這可能是因?yàn)楫?dāng)有標(biāo)記比例增加后,未標(biāo)記樣本中的模糊數(shù)據(jù)變少,利用主動(dòng)學(xué)習(xí)標(biāo)記模糊數(shù)據(jù)方法的效果變差。在數(shù)據(jù)集ionosphere上,雖然當(dāng)有標(biāo)記比例為10%和20%時(shí),本文算法在性能上表現(xiàn)得比對(duì)比算法差;但隨著有標(biāo)記樣本數(shù)的增加,當(dāng)有標(biāo)記比例為30%、40%和50%時(shí),本文算法分類性能要高于對(duì)比算法。這可能是因?yàn)樵跀?shù)據(jù)集ionosphere上,過(guò)少的初始有標(biāo)記樣本導(dǎo)致分類器學(xué)習(xí)的效果不好。
2.5 時(shí)間復(fù)雜度分析
表3給出了5種算法的時(shí)間復(fù)雜度,其中n為數(shù)據(jù)集樣本個(gè)數(shù),m為NBCTSMUC迭代過(guò)程中每次選擇無(wú)標(biāo)記樣本的個(gè)數(shù)。從表3可以看出,除NBCTSMUC外,其他算法的時(shí)間復(fù)雜度皆為O(n2)。
本文算法的時(shí)間復(fù)雜度由主動(dòng)學(xué)習(xí)、密度峰值聚類和樸素貝葉斯協(xié)同訓(xùn)練三個(gè)部分組成,各部分的時(shí)間復(fù)雜度都為O(n2),故本文算法總的時(shí)間復(fù)雜度為O(n2);NBCT迭代計(jì)算每一個(gè)樣本的概率,時(shí)間復(fù)雜度為O(n2);NBCTAL的時(shí)間復(fù)雜度由主動(dòng)學(xué)習(xí)和樸素貝葉斯協(xié)同訓(xùn)練兩部分組成,其時(shí)間復(fù)雜度分別為O(n)和O(n2),所以NBCTAL總的時(shí)間復(fù)雜度為O(n2);SSLNBCA的時(shí)間復(fù)雜度為O(n2),由樣本選取、主動(dòng)標(biāo)記和樸素貝葉斯協(xié)同訓(xùn)練三部分組成;NBCTSMUC在n/m次迭代中計(jì)算每個(gè)樣本的每個(gè)類別的馬氏距離,時(shí)間復(fù)雜度為O(n5/m)。
3 結(jié)語(yǔ)
針對(duì)協(xié)同訓(xùn)練方法對(duì)模糊度高的樣本容易誤標(biāo)記和在迭代過(guò)程中加入的無(wú)標(biāo)記樣本所含有用信息量不高的問(wèn)題,本文提出了一種結(jié)合主動(dòng)學(xué)習(xí)和密度峰值聚類的協(xié)同訓(xùn)練方法。該方法在每次迭代之前,先選擇出模糊度高的無(wú)標(biāo)記樣本主動(dòng)標(biāo)記后加入有標(biāo)記樣本集,然后用密度峰值聚類對(duì)訓(xùn)練集進(jìn)行聚類,迭代地選取密度較高且相對(duì)距離較遠(yuǎn)的無(wú)標(biāo)記樣本給NB分類,最后在UCI數(shù)據(jù)集上驗(yàn)證了算法的有效性。在后續(xù)的工作中,將討論最優(yōu)參數(shù)以及如何判別噪聲點(diǎn)和如何減少噪聲點(diǎn)對(duì)算法的影響。
參考文獻(xiàn)
[1]?GOUTTE C, CANCEDDA N, DYMETMAN M, et al. Semi-supervised learning for machine translation[J]. Journal of the Royal Statistical Society, 2017, 172(2): 530-530.
[2]?ZHU S, SUN X, JIN D. Multi-view semi-supervised learning for image classification [J]. Neurocomputing, 2016, 208(10): 136-142.
[3]?XU C, TAO D, XU C. Large-margin multi-view information bottleneck[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(8): 1559-1572.
[4]?DU J, LING C X, ZHOU Z H. When does cotraining work in real data?[J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(5): 788-799.
[5]?QIAN T, LIU B, CHEN L, et al. Tri-training for authorship attribution with limited training data: a comprehensive study[J]. Neurocomputing, 2016, 171(1): 798-806.
[6]?DEKEL O, GENTILE C, SRIDHARAN K. Selective sampling and active learning from single and multiple teachers[J]. Journal of Machine Learning Research, 2016, 13(1): 2655-2697.
[7]?SENER O, SAVARESE S. Active learning for convolutional neural networks: a core-set approach[J]. arXiv E-print, 2017: arXiv:1708.00489.
[8]?PIROONSUP N, SINRHUPINVO S. Analysis of training data using clustering to improve semi-supervised self-training[J]. Knowledge-Based Systems, 2018, 143(2): 65-80.
[9]?WANG X Z, ASHFAG R A R, FU A M. Fuzziness based sample categorization for classifier performance improvement[J]. Journal of Intelligent and Fuzzy Systems, 2015, 29(3): 1185-1196.
[10]?ZHANG Y, WEN J, WANG X, et al. Semi-supervised learning combining co-training with active learning[J]. Expert Systems with Applications, 2014, 41(5): 2372-2378.
[11]?GAN H, SANG N, HUANG R, et al. Using clustering analysis to improve semi-supervised classification[J]. Neurocomputing, 2013, 25(3): 290-298.
[12]?龔彥鷺,呂佳.結(jié)合半監(jiān)督聚類和加權(quán)KNN的協(xié)同訓(xùn)練方法[J/OL].計(jì)算機(jī)工程與應(yīng)用,2019:1-9[2018-12-28]. http://kns.cnki.net/kcms/detail/11.2127.TP.20181218.1748.032.html. (GONG Y L, LYU J. Co-training method combined semi-supervised clustering and weighted K nearest neighbor[J/OL]. Computer Engineering and Applications,2019: 1-9[2018-12-28]. http://kns.cnki.net/kcms/detail/11.2127.TP.20181218.1748.032.html.)
[13]?RODRIGUEZ A, LAIO A. Clustering by fast search and find of density peaks[J]. Science, 2014, 344(6191): 1492-1496.
[14]?WU D, SHANG M S, LUO X, et al. Self-training semi-supervised classification based on density peaks of data[J]. Neurocomputing, 2018, 275(1): 180-191.
[15]?羅云松,呂佳.結(jié)合密度峰值優(yōu)化模糊聚類的自訓(xùn)練方法[J].重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,36(2):74-80. (LUO Y S, LYU J. Self-training algorithm combined with density peak optimization fuzzy clustering[J]. Journal of Chongqing Normal University (Natural Science), 2019, 36(2): 74-80.)