国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

最小差異采樣的主動學(xué)習(xí)圖像分類方法

2014-10-29 08:26:26吳健盛勝利趙朋朋崔志明
通信學(xué)報 2014年1期
關(guān)鍵詞:類別分類器委員會

吳健,盛勝利,趙朋朋,崔志明

(1. 蘇州大學(xué) 智能信息處理及應(yīng)用研究所,江蘇 蘇州 215006;2. 美國阿肯色中央大學(xué) 計算機科學(xué)系,阿肯色州 康威 72035-0001)

1 引言

圖像分類是計算機視覺和模式識別領(lǐng)域中的一個重要問題,其主要內(nèi)容是采用分類算法建立分類器模型,然后利用模型進行待分類圖像的分類[1,2]。目前圖像分類技術(shù)正在國民經(jīng)濟中發(fā)揮著越來越大的作用。比如,借助圖像分類技術(shù)可以高效地從大量細胞圖片中準(zhǔn)確識別出病變細胞,并確定其對應(yīng)癌癥類別,提高醫(yī)務(wù)人員的工作效率與治療水平[3];遙感圖像信息含量大、物體種類多,遙感圖像分類也一直是遙感圖像研究的核心問題[4]。不同的分類器模型性能不盡相同,訓(xùn)練分類器是分類研究的關(guān)鍵部分。分類器訓(xùn)練是在訓(xùn)練樣本集上進行優(yōu)化的過程,是一個機器學(xué)習(xí)過程。在傳統(tǒng)的監(jiān)督學(xué)習(xí)中,分類器通過對大量有標(biāo)注的訓(xùn)練樣本進行學(xué)習(xí),從而建立模型用于預(yù)測未見樣本的類別。隨著數(shù)據(jù)收集和存儲技術(shù)的飛速發(fā)展,收集大量未標(biāo)注的樣本已變得相當(dāng)容易,而獲取大量有標(biāo)注的樣本則相對較為困難,因為獲得這些標(biāo)注可能需要耗費大量的人力物力。因此,在有標(biāo)注樣本較少時,如何利用大量的未標(biāo)注樣本來改善學(xué)習(xí)性能成為當(dāng)前機器學(xué)習(xí)研究中最受關(guān)注的問題之一。

主動學(xué)習(xí)是一種新的利用未標(biāo)注樣本的學(xué)習(xí)技術(shù),主動學(xué)習(xí)的核心思想是通過啟發(fā)式學(xué)習(xí)策略,從樣本數(shù)據(jù)集中挑選少部分的高信息含量的樣本子集訓(xùn)練得到性能優(yōu)良的分類器模型[5]。在學(xué)習(xí)過程中,學(xué)習(xí)引擎將優(yōu)選的未標(biāo)注樣本交由人工專家進行標(biāo)注。主動學(xué)習(xí)在很多現(xiàn)代的機器學(xué)習(xí)問題中有很廣泛的應(yīng)用需求,比如,大量未標(biāo)注樣本易于獲得,但是標(biāo)注困難,耗時、代價較大。Lewis等人[6]提出了基于池的主動學(xué)習(xí)采樣策略,算法維護一個固定分布的由大量未標(biāo)注樣本組成的樣本池,采樣策略計算所有未標(biāo)注樣本的信息含量進行比較,選擇信息含量高的未標(biāo)注樣本交由人工專家標(biāo)注。Lewis等人指出,不確定性采樣能夠大幅度地減小訓(xùn)練數(shù)據(jù)的規(guī)模,可以有效地應(yīng)用于小樣本的訓(xùn)練環(huán)境?;诔氐牟蓸硬呗猿蔀楫?dāng)前研究最為深入、應(yīng)用最為廣泛的采樣策略,在文本分類[7,8]、圖像分類[9,10]、圖像檢索[11]、視頻檢索[12]等領(lǐng)域都有較好的應(yīng)用。

主動學(xué)習(xí)中的樣本采樣策略主要可以分成 2類:不確定性采樣(uncertainty sampling)和委員會投票選擇(QBC, query-by-committee)[13]。

基于不確定性的采樣策略是適用性最廣的一類采樣策略,最基本的做法是使用分類器直接估計未標(biāo)注樣本屬于各類別的后驗概率值,選擇后驗概率最接近于0.5的樣本。例如,Lewis等人[14]采用了不確定性采樣的主要思想將其應(yīng)用于決策樹模型,采用一個分類器模型計算所有未標(biāo)注樣本的不確定性,選擇分類器最不確定的樣本作為返回的待標(biāo)注樣本。樣本采樣策略的第2類方法是QBC算法。QBC的方法首先由Seung等人[15]提出,該方法通過構(gòu)建委員會,選擇委員會成員模型投票不一致性最高的樣本作為待標(biāo)注樣本交由人工專家標(biāo)注。自從 Seung等人構(gòu)建第1個由2個隨機假設(shè)模型組成的委員會后,QBC算法在各種分類模型的實際應(yīng)用中收到了較好的效果[16]。

委員會投票選擇是一種基于版本空間縮減的主動學(xué)習(xí)采樣策略,其核心是構(gòu)建高效的具有較強泛化能力的委員會。針對委員會成員模型投票不一致性的度量問題,提出了一種基于最小差異采樣的主動學(xué)習(xí)圖像分類方法。利用委員會成員模型投票概率較高的 2個類別的概率值的差異來度量委員會的投票不一致性,選擇概率差異最小的樣本交由人工專家標(biāo)注。在本文實驗部分,將提出的新方法與EQB算法及nEQB算法在多個數(shù)據(jù)集上進行實驗對比,并對組成決策委員會的成員模型的數(shù)目設(shè)置問題進行分析和討論,結(jié)果表明本文方法在標(biāo)注樣本數(shù)量相同的情況下能夠有效提高分類準(zhǔn)確率。

2 委員會投票

針對未標(biāo)注樣本集,與之一致的所有統(tǒng)計學(xué)習(xí)模型被稱為它的解釋空間。解釋空間越大,則能夠選擇的模型就越多。當(dāng)解釋空間只有一個點時,統(tǒng)計學(xué)習(xí)模型就被唯一確定。因此,一種基于理論驅(qū)動的查詢選擇框架總是優(yōu)先選擇那些能夠顯著縮減其解釋空間的樣本進行人工標(biāo)注。QBC算法基于這種思想被提出,它是一種通過版本空間縮減實現(xiàn)主動樣本采樣的被廣泛使用的著名算法。通過給定不同的假設(shè)條件,QBC構(gòu)建出不同的委員會成員模型來度量未標(biāo)注樣本集中每一個樣本的信息含量。最具信息含量的樣本是委員會成員模型投票最不一致的那些樣本,這種策略可以高效地提升分類器模型的分類性能,本質(zhì)上與不確定性采樣策略相似。

版本空間縮減采樣策略的主導(dǎo)思想是選擇能最大程度縮減版本空間的樣本進行標(biāo)注,Seung等人基于該思想構(gòu)建了第1個由2個隨機假設(shè)模型構(gòu)成的委員會。QBC算法的工作原理如圖1所示。

QBC算法的具體步驟是:首先,基于初始訓(xùn)練樣本集根據(jù)給定的假設(shè)條件,構(gòu)建出由n個成員模型組成的委員會;然后由組成委員會的各個成員模型對未標(biāo)注樣本集中的每一個樣本進行投票,選出委員會成員模型投票最不一致的樣本交由人工專家進行標(biāo)注;最后將所選樣本更新到標(biāo)注樣本集進行分類器更新。如此重復(fù)直至滿足停止條件。

這種采樣策略的目的是構(gòu)建一個高效的具有很強泛化能力的委員會,通過對基于 QBC思想提出的各種現(xiàn)有方法進行歸類分析,該采樣策略主要包括2個研究內(nèi)容:一是如何構(gòu)建一個高效的委員會,比如Abe等人[17]采用boosting和bagging 2種集成學(xué)習(xí)方法構(gòu)建委員會,分別提出了 boosting-QBC和bagging-QBC的委員會構(gòu)建策略。另一個是如何度量委員會成員模型對于未標(biāo)注樣本集的投票不一致性,比如Tuia等人提出的EQB[18](entropy query-by-bagging)方法以及在此基礎(chǔ)上改進得到的nEQB[19](normalized entropy query-by- bagging)方法。本文擬對樣本投票不一致性的度量進行深入研究,下面對EQB和nEQB進行簡要介紹。

Tuia等人提出了原始的EQB算法,采用bagging構(gòu)建委員會。首先基于自展法定義n個訓(xùn)練集,然后使用訓(xùn)練集訓(xùn)練SVM分類器預(yù)測候選樣本的標(biāo)簽,最后得到針對每一個候選樣本的n個可能標(biāo)簽。在文獻[18]中,基于n個分類器預(yù)測結(jié)果計算投票熵的采樣策略被應(yīng)用到多分類問題中。一種新的用于度量委員會成員模型投票不一致性的采樣策略被提出,如式(1)所示。

其中, Hbag(xi)是熵的實證測度,定義為

然而,EQB中投票熵的值存在著被未標(biāo)注樣本xi所屬預(yù)測類別的個數(shù)Ni所影響的問題。考慮到這一現(xiàn)實,Copa等人提出了無偏置的樣本不確定性度量函數(shù),以考慮采樣樣本的多樣性。EQB方法的一種改進算法 nEQB算法被提出,這種方法對 EQB方法進行歸一化處理,基于歸一化最大熵的啟發(fā)式采樣策略描述如下

nEQB算法保持了EQB算法的優(yōu)點,同時強化了被采樣樣本的多樣性。所有決策邊界上的樣本的不確定性較高,這些樣本被優(yōu)先考慮。

3 本文方法

3.1 問題分析

QBC算法的研究重點是如何有效地構(gòu)建委員會,以及如何度量成員模型對未標(biāo)注樣本的投票不一致程度。根據(jù)文獻[19]的分析,EQB算法中投票熵的計算會隨著未標(biāo)注樣本所屬類別個數(shù)的變化而變化,當(dāng)所屬類別數(shù)目增加時,未標(biāo)注樣本投票熵值的上限也將增加。比如,某樣本被預(yù)測為2個類別時的最大熵值要比被預(yù)測為多個類別時的最大熵值小,這種情況則會優(yōu)選那些被預(yù)測為多個類別的樣本,導(dǎo)致樣本的不平衡采樣。nEQB算法針對該問題進行了歸一化處理,在計算樣本投票熵值的同時考慮樣本所屬類別數(shù)目的變化,將求得的 EQB值除以 Ni值以消除樣本所屬類別數(shù)對投票熵值的消極影響,使樣本采樣保持無偏置。

根據(jù)以上分析,可以看到 nEQB算法對 EQB算法存在的偏置采樣問題進行了校正,但該問題并沒有得到有效的解決,以下對該問題進行深入分析。在此假定已構(gòu)建一個具有100個成員模型的委員會,未標(biāo)注樣本集樣本的類別總共為10類,圖2是對熵度量方法缺陷的分析,圖2(a)為樣本a采用EQB算法和nEQB算法計算得到的熵值,從圖中可以看出樣本 a所屬類別數(shù)目為 7。圖 2(b)為樣本 b采用EQB算法和nEQB算法計算得到的熵值,從圖中可以看出樣本b所屬類別數(shù)目為8。通過對比可以發(fā)現(xiàn) EQB確實存在偏置采樣的問題,即樣本所屬類別數(shù)目較高時樣本熵值偏大,由于樣本b的熵值較高,則認為其信息含量較高。

根據(jù)EQB算法的采樣策略,樣本b由于熵值較高,將會被優(yōu)先選中。而綜觀委員會的100個成員模型針對樣本a和樣本b預(yù)測類別的概率分布,樣本a從屬于第2類和第6類的概率非常接近,而樣本b從屬于第6類的概率明顯較大,可以看出,樣本a比樣本b具有更大的不確定性,從最大程度優(yōu)化分類器性能的角度而言,樣本a能夠更大程度地提升分類器的泛化性能。但是,EQB算法的投票結(jié)果與此相反,會優(yōu)選樣本b。

nEQB算法在EQB算法的基礎(chǔ)上考慮了無偏置樣本采樣問題,除以樣本所屬類別數(shù)目的對數(shù),降低樣本所屬類別數(shù)目對投票熵值的不利影響。經(jīng)過歸一化處理后,樣本a和樣本b的熵值分別被校正為0.284 5和0.315 7,但校正后的結(jié)果并不理想,可以看出樣本b的熵值依然高于樣本a的熵值,根據(jù)信息熵的定義,樣本b的信息含量高于樣本a,采樣結(jié)果仍是樣本b。

圖2 熵度量的缺陷分析

綜上所述,雖然基于熵的方法度量委員會成員模型對樣本的投票不確定性常常好于隨機采樣,且易于擴展應(yīng)用到多分類問題中,但它存在著一定的缺陷。采用熵方法的問題之一是它的值會受到不重要類別的嚴(yán)重影響,如圖2所示,委員會對樣本a的預(yù)測類別主要集中在第2類和第6類,對樣本b的預(yù)測類別主要集中在第6類,而在計算熵的時候則考慮了所有的預(yù)測類別,這導(dǎo)致了概率較小的預(yù)測類別對投票熵計算的影響。而從分類角度來講,分類器對圖2(a)的情形更為不確定,因為它分配了2個相近的概率值給2個預(yù)測類別。對于圖2(b),分類器對于樣本b的分類結(jié)果具有較高的自信,但那些不重要的預(yù)測類別導(dǎo)致了較高的熵值,這個問題在分類任務(wù)的類別更高時會更加突出。因此,筆者更為關(guān)心的是投票概率相近類別對樣本不確定性度量準(zhǔn)則的影響。

3.2 最小差異采樣

與基于投票熵度量委員會成員模型投票不一致性不同的是,本文基于投票概率較低的類別是樣本真正類別的可能性較低的假設(shè),擬采用一種更為貪婪的方法來考慮委員會投票不一致性度量問題。本文將委員會投票概率較高的2個類別概率值的差異作為成員模型投票不一致性的度量,以此為依據(jù)選擇高信息含量樣本。本文首先給出投票概率差異的定義。

定義1 投票概率差異

由于這是2個預(yù)測類別投票概率差異的比較,差異越小的樣本其投票不一致性越高,亦即樣本不確定性越高,筆者稱之為最小差異采樣(MDS,minimal difference sampling)。從分類角度來看,該度量方法是委員會成員模型投票不一致性估計的一種更為直接的方法,以圖2中的樣本a和樣本b為例,樣本a從屬于類別2和類別6的投票概率差異較大,樣本b從屬于類別1和類別6的投票概率差異較大,從最小差異的定義來說,樣本a將會被優(yōu)先選擇。

本文采用一種基于最小差異采樣的準(zhǔn)則,其只考慮樣本分類可能性最大的2個類別,忽略其他對該樣本的分類結(jié)果影響較小的類別。從另外一個角度解釋,該準(zhǔn)則可看作是對樣本分類不確定性估計的一種貪婪近似。通過最小化最高類別和次高類別的概率差值,即最大化樣本的分類不確定性,可得MDS度量準(zhǔn)則如式(5)所示。

投票熵是一種樣本分類不確定性的估計,而MDS度量是一種貪婪估計。從改變分類器分類邊界的角度來看,MDS度量可以被認為是一種選擇高信息含量樣本的高效估計方法?;贛DS度量準(zhǔn)則,衡量所有未標(biāo)注樣本相對于當(dāng)前分類器的不確定性,從中選出最不確定的樣本集合。

3.3 算法描述

由以上分析可知,MDS方法利用委員會投票概率較高的2個類別的概率值的差異來度量成員模型的投票不一致性,從而有效地選擇最不確定的樣本。通過從未標(biāo)注樣本集中選出最具信息含量的樣本,交由人工專家標(biāo)注,并更新至標(biāo)注樣本集,從而更新分類器模型,如此迭代,直至完成分類器的學(xué)習(xí)。

本文方法的完整描述如圖3所示。

圖3 MDS主動學(xué)習(xí)圖像分類方法

在圖3算法中,首先需要基于標(biāo)注樣本集L進行bagging(bootstrap aggregation)采樣[20]定義n個訓(xùn)練集,bagging算法過程是從樣例分布中進行多次獨立同分布采樣,使用所選樣本訓(xùn)練候選假設(shè),其能夠減少假設(shè)偏置的影響。然后,基于 bagging重采樣技術(shù)得到的結(jié)果構(gòu)建一個具有n個成員模型的決策委員會 {C1, C2,… ,Cn},針對每個未標(biāo)注樣本,可用式(4)計算得到其投票不一致性度量的結(jié)果。

本文方法通過委員會投票的方式進行樣本采樣,其與不確定采樣的區(qū)別在于:不確定性采樣是直接通過當(dāng)前分類器模型直接估計未標(biāo)注樣本的后驗概率分布,然后根據(jù)一定的啟發(fā)式策略優(yōu)選不確定性最高的樣本進行標(biāo)注;而委員會投票算法是通過委員會成員模型對未標(biāo)注樣本進行投票,根據(jù)成員模型投票的結(jié)果選擇投票最不一致的樣本交由人工專家進行標(biāo)注,實質(zhì)上是通過委員會成員模型的投票不一致性間接地反映樣本的不確定性。因此,本質(zhì)上委員會投票算法仍是繼承了不確定性采樣的思想。

4 實驗結(jié)果與分析

本文在3個圖像分類數(shù)據(jù)集上驗證本文提出的MDS主動學(xué)習(xí)圖像分類方法的有效性,其中,一個是人工數(shù)據(jù)集,另外2個來自UCI數(shù)據(jù)集[21],UCI數(shù)據(jù)集是常用測試數(shù)據(jù)集。在文獻[18]中,EQB的實驗效果整體優(yōu)于 MS(margin sampling)、MS-cSV。MS和MS-cSV的區(qū)別之處為成批選擇候選樣本時,后者會考慮樣本之間的多樣性。在文獻[19]中,nEQB算法整體效果要優(yōu)于 BT(breaking ties)和EQB。因此,實驗中將提出的方法與 EQB算法和nEQB算法在同等條件下進行比較,具體體現(xiàn)在相同數(shù)量標(biāo)注樣本下的分類準(zhǔn)確率、成員模型數(shù)目對分類準(zhǔn)確率的影響等方面。實驗中使用Torch庫[22]實現(xiàn)多類SVM分類器,采用一對多的方式來處理多類分類問題,用于輸出各個未標(biāo)注樣本從屬于每個可能類別的概率。

4.1 人工數(shù)據(jù)集

為驗證本文方法的有效性,首先在人工數(shù)據(jù)集上進行實驗。此人工數(shù)據(jù)集共36類,類別為A~Z和0~9,使用36種不同字體構(gòu)造訓(xùn)練圖像樣本集,28種不同字體構(gòu)造測試圖像樣本集,則訓(xùn)練圖像集數(shù)目為1 296,測試圖像集數(shù)目為1 008。使用圖像像素值的統(tǒng)計信息,根據(jù)一固定子區(qū)域內(nèi)像素百分比信息提取每張圖像的二值特征,每張圖像對應(yīng)一個35維的特征向量。

設(shè)置初始樣本個數(shù)為 50個,委員會成員數(shù)目為10,每次迭代加入到標(biāo)注樣本集的樣本數(shù)為5,圖4顯示了通過3種方法采樣訓(xùn)練分類器模型得到的分類結(jié)果。通過對分類準(zhǔn)確率變化曲線進行觀察,在迭代初期,采用各種樣本選擇方法的分類性能相差不大,這是由于在迭代初期,訓(xùn)練樣本的數(shù)量較少,訓(xùn)練得到的分類器不是很準(zhǔn)確,在這種情況下,各種樣本選擇方法都近似于隨機選擇。EQB算法在訓(xùn)練樣本數(shù)為 95時,由于所選樣本的信息含量較低,EQB算法的分類準(zhǔn)確率出現(xiàn)了一段較大幅度的下降,而nEQB算法保持了分類準(zhǔn)確率的穩(wěn)定。之后3種方法隨著標(biāo)注樣本的不斷加入,分類準(zhǔn)確率逐步提高。

圖4 人工數(shù)據(jù)集上分類準(zhǔn)確率

從實驗結(jié)果來看,由于nEQB算法在計算樣本的投票熵時考慮了EQB算法存在的采樣偏置問題,對樣本的投票熵進行歸一化處理,在分類準(zhǔn)確率上的表現(xiàn)也說明了這一點,實驗結(jié)果相比 EQB算法占優(yōu)。經(jīng)過剛開始的交匯期之后,當(dāng)標(biāo)注樣本數(shù)達到80之后,MDS方法開始顯現(xiàn)優(yōu)勢,逐漸與EQB和nEQB算法拉開差距,當(dāng)標(biāo)注樣本達到240時,分類準(zhǔn)確率達到80%以上,此時EQB和nEQB算法的分類準(zhǔn)確率分別在70%和75%左右。本文MDS算法基于委員會投票最小差異采樣,考慮樣本分類可能性最大的2個類別,采用貪婪估計法優(yōu)選高信息含量的樣本進行標(biāo)注,實驗結(jié)果表明這種啟發(fā)式準(zhǔn)則能夠很好地度量未標(biāo)注樣本的投票不一致性,選擇的樣本更有利于改善分類器的分類性能和提升分類器模型的泛化能力。

4.2 UCI數(shù)據(jù)集

在4.1節(jié)實驗中使用的是人工數(shù)據(jù)集,本節(jié)將3種算法在標(biāo)準(zhǔn)數(shù)據(jù)集上進行實驗以驗證算法的有效性。UCI數(shù)據(jù)集是常用的標(biāo)準(zhǔn)測試數(shù)據(jù)集,選擇了 UCI數(shù)據(jù)集中的美國郵政手寫體數(shù)字圖像集(USPS)和英文字母數(shù)據(jù)集(letters)2個數(shù)據(jù)集,類別分別為10類和26類。

1) 手寫體數(shù)字圖像集(USPS)

該數(shù)據(jù)集中樣本類別分布為 0~9,每個樣本有256維特征,訓(xùn)練集大小為5 000,測試集大小為4 298。設(shè)置初始樣本個數(shù)為36,委員會成員數(shù)目為10,每次迭代加入到標(biāo)注樣本集的樣本數(shù)為5,圖5顯示了通過3種方法采樣訓(xùn)練分類器模型得到的分類結(jié)果。

圖5 USPS數(shù)據(jù)集分類準(zhǔn)確率

圖5顯示了3種方法在USPS圖像集上分類準(zhǔn)確率隨標(biāo)注樣本數(shù)增加的變化曲線,該數(shù)據(jù)集總共類別數(shù)為 10,類別數(shù)相對偏少,3種方法訓(xùn)練的分類器模型都能取得較好的分類精度。當(dāng)分類器迭代更新結(jié)束時,3種算法都能收斂于比較高的分類精度。將EQB和nEQB 2種方法進行比較,nEQB算法起初略占優(yōu)勢,但隨著迭代的進行,2種算法開始交織在一起,分類精度大體相當(dāng)。與此同時,本文方法在此數(shù)據(jù)集上一直優(yōu)于EQB和nEQB算法:迭代初期,3種方法效果差不多,隨著標(biāo)注樣本數(shù)的增加,本文方法的作用逐漸體現(xiàn)出來,明顯優(yōu)于其他2種方法。當(dāng)標(biāo)注樣本數(shù)目相同時,本文方法的分類準(zhǔn)確率較高,說明在相同人工標(biāo)注負擔(dān)的前提下,本文方法更能提高分類精度。從縱軸方向來看,在獲得相同準(zhǔn)確率的前提下,本文方法要求的標(biāo)注樣本數(shù)較其他2種方法更少,減輕了人工標(biāo)注的負擔(dān)。

2) 英文字母數(shù)據(jù)集(letters)

該數(shù)據(jù)集樣本類別分布為 A~Z,每個樣本有 16維特征,訓(xùn)練集大小為10 000,測試集大小為10 000。設(shè)置初始樣本個數(shù)為 65,委員會成員數(shù)目為 10,每次迭代加入到標(biāo)準(zhǔn)樣本集的樣本數(shù)為5,圖6顯示了通過3種方法采樣訓(xùn)練分類器模型得到的分類結(jié)果。通過分析letters圖像數(shù)據(jù)集實驗結(jié)果可以看出,在曲線的前半段,nEQB算法的表現(xiàn)明顯弱于EQB算法,但在曲線的后半段,nEQB算法分類精度的提升速度開始高于 EQB算法,迭代結(jié)束時分類精度高于EQB算法近2個百分點。

圖6 letters數(shù)據(jù)集分類準(zhǔn)確率

Letters數(shù)據(jù)集類別共有26類,類別相對較多,所以3種方法在迭代結(jié)束時分類準(zhǔn)確率整體不高。但從圖6中可以看出,本文方法的分類精度從開始到結(jié)束都能有較好的表現(xiàn),一直優(yōu)于EQB和nEQB算法,體現(xiàn)出一定的算法優(yōu)勢。雖然只考慮很少一部分未標(biāo)注樣本,但本文方法所基于的最小差異采樣啟發(fā)式準(zhǔn)則依然能夠選出最具信息含量的樣本,相對于其他2種方法,顯著提高了分類準(zhǔn)確率。本文方法基于MDS度量準(zhǔn)則,衡量所有未標(biāo)注樣本相對于當(dāng)前分類器的不確定性,從中選出最不確定的樣本集合,是一種選擇高信息含量樣本的高效估計方法。

4.3 委員會成員數(shù)目討論

以上通過3個圖像分類數(shù)據(jù)集驗證了本文提出的MDS主動學(xué)習(xí)圖像分類方法的有效性。構(gòu)建委員會時成員模型數(shù)目的設(shè)定是一個值得討論的問題,本節(jié)對成員模型的數(shù)目設(shè)定進行討論。上述 3個數(shù)據(jù)集的實驗結(jié)果一方面驗證了本文方法的有效性,另一方面也說明了EQB和nEQB算法的效果差異。nEQB算法針對EQB的采樣偏置問題進行了糾正,對未標(biāo)注樣本的投票熵進行了歸一化處理,從上述實驗可以看出,nEQB算法要優(yōu)于EQB算法,這說明其對EQB的改進是有效的。由于nEQB算法要優(yōu)于 EQB算法,在本節(jié)討論中,僅討論本文方法和nEQB方法在成員模型設(shè)置不同時其分類準(zhǔn)確率隨標(biāo)注樣本增長的變化曲線,成員模型數(shù)目分別設(shè)置為5、10、15和20,通過比較在不同參數(shù)設(shè)置下2種算法的性能表現(xiàn)分析討論成員模型數(shù)目的設(shè)置問題。圖7(a)和圖7(b)分別顯示了nEQB算法和本文方法在不同成員模型數(shù)目設(shè)置情形下的分類準(zhǔn)確率隨標(biāo)注樣本變化的情況。

圖7 委員會成員模型數(shù)目實驗分析

圖7(a)顯示了nEQB算法在成員模型數(shù)目為5、10、15和20時的分類精度變化情況,隨著成員模型數(shù)目的增加,在相同標(biāo)注樣本數(shù)量的前提下,其對應(yīng)的分類精度都會有所提升。當(dāng)成員模型數(shù)目為5時,迭代結(jié)束時的分類準(zhǔn)確率為67.46%,當(dāng)成員模型數(shù)目為10、15和20時,分類準(zhǔn)確率有較大的提高,迭代結(jié)束時的分類準(zhǔn)確率均在75%左右。圖7(b)顯示了本文方法在成員模型數(shù)目為 5、10、15和 20時的分類精度變化情況,隨著成員模型數(shù)目的增加,在相同標(biāo)注樣本數(shù)量的前提下,其對應(yīng)的分類精度亦有所提升。當(dāng)成員模型數(shù)目為5時,迭代結(jié)束時的分類準(zhǔn)確率為78.67%,當(dāng)成員模型數(shù)目為10、15和20時,分類準(zhǔn)確率有一定的提高,迭代結(jié)束時的分類準(zhǔn)確率均在80%以上。綜合圖7(a)和圖 7(b)來看,nEQB算法受成員模型數(shù)目的影響較大,而本文方法在成員模型數(shù)目為 10時就能較好地收斂,且收斂于比較高的分類精度。成員模型的數(shù)目越大,分類準(zhǔn)確度相對會越好,但需權(quán)衡成員模型數(shù)目的設(shè)置所帶來的時間開銷。

5 結(jié)束語

本文針對委員會投票不一致性度量問題提出了一種基于最小差異采樣的主動學(xué)習(xí)圖像分類方法,方法首先基于標(biāo)注樣本集進行bagging采樣,

然后基于 bagging采樣的結(jié)果構(gòu)建決策委員會對未標(biāo)注樣本集中每個樣本的不確定性進行度量。實驗結(jié)果表明本文方法能有效提高分類精度。委員會投票選擇算法通過成員模型投票的不一致性間接反映樣本的不確定性,充分利用已標(biāo)注樣本集來對未標(biāo)注樣本進行估計。后續(xù)研究將進一步考慮未標(biāo)注樣本集的分布信息,保證選擇的樣本可以有效地降低預(yù)期誤差,提高分類器模型的泛化能力。

[1] 鐘樺, 楊曉鳴, 焦李成. 基于多分辨共生矩陣的紋理圖像分類[J].計算機研究與發(fā)展, 2011, 48(11):1991-1999.ZHONG H, YANG X M, JIAO L C. Texture classification based on multiresolution co-occurrence matrix[J]. Journal of Computer Research and Development, 2011, 48(11):1991-1999.

[2] CIRESAN D, MEIER U, SCHMIDHUBER J. Multi-column deep neural networks for image classification[A]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition[C]. Rhode Island, USA, 2012.3642-3649.

[3] XU Y, ZHU J Y, CHANG E, et al. Multiple clustered instance learning for histopathology cancer image classification, segmentation and clustering[A]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2012)[C]. Rhode Island, USA, 2012.964-

[4] 9V7O1.LPI M, TUIA D, KANEVSKI M. Memory-based cluster sampling for remote sensing image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2012, 50(8):3096-3106.

[5] SETTLES B. Active Learning Literature Survey[R]. Madison:University of Wisconsin, 2010.

[6] LEWIS D D, CATLETT J. Heterogenous uncertainty sampling for supervised learning[A]. Proceedings of International Conference on Machine Learning (ICML 1994)[C]. New Brunswick, NJ, USA,1994.148-156.

[7] OLSSON F. A Literature Survey of Active Machine Learning in the Context of Natural Language Processing[R]. Swedish Institute of Computer Science, 2009.

[8] FU Y, ZHU X, LI B. A survey on instance selection for active learning[J]. Knowledge and Information Systems, 2013, 35(2):

[9] 2JO49S-H28I 3A. J, PORIKLI F, PAPANIKOLOPOULOS N P. Scalable active learning for multi-class image classification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11):2259-2273.

[10] LI X, GUO Y. Adaptive active learning for image classi fi cation[A].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2013)[C]. Portland, Oregon, USA, 2013.859-866.

[11] HOI S C H, JIN R, LYU M R. Batch mode active learning with applications to text categorization and image retrieval[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9):

[12] 1W2A33N-G12 4M8,. HUA X S. Active learning in multimedia annotation and retrieval: a survey[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(2):1899412-1899414.

[13] 梁爽, 孫正興. 面向草圖檢索的小樣本增量有偏學(xué)習(xí)算法[J]. 軟件學(xué)報, 2009, 20(5): 1301-1312.LIANG S, SUN Z X. Small sample incremental biased learning algorithm for sketch retrieval[J]. Journal of Software, 2009,

[14] 2L0E(W5):I1S3 0D1- 1D3,1 2G.ALE W A. A sequential algorithm for training text classifiers[A]. Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C]. Dublin, Ireland, 1994.3-12.

[15] SEUNG H S, OPPER M, SOMPOLINSKY H. Query by committee[A]. Proceedings of the Fifth Annual Workshop on Computational Learning Theory[C]. Pittsburgh, PA, USA,

[16] 1吳99偉2.寧28,7 -劉29揚4., 郭茂祖等. 基于采樣策略的主動學(xué)習(xí)算法研究進展[J]. 計算機研究與發(fā)展, 2012, 49(6): 1162-1173.WU W N, LIU Y, GUO M Z, et al. Advances in active learning algorithms based on sampling strategy[J]. Journal of Computer Research and Development, 2012, 49(6): 1162-1173.

[17] ABE N, MAMITSUKA H. Query learning strategies using boosting and bagging[A]. Proceedings of the Fifteenth International Conference(ICML'98)[C]. Madison, Wisconsin, USA, 1998.1-9.

[18] TUIA D, RATLE F, PACIFICI F, et al. Active learning methods for remote sensing image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2009, 47(7): 2218-2232.

[19] COPA L, TUIA D, VOLPI M, et al. Unbiased query-by-bagging active learning for VHR image classification[A]. Proceedings of SPIE Remote Sensing[C]. Toulouse, France, 2010.783001-783008.

[20] BREIMAN L. Bagging predictors[J]. Machine learning, 1996, 24(2):123-140.

[21] ASUNCION A, NEWMAN D J. UCI machine learning repository.[EB/OL]. http://www.ics.uci.edu/mlearn/ MLRepository.html, 2007.

[22] COLLOBERT R, BENGIO S, MARIETHOZ J. Torch: A Modular Machine Learning Software Library[R]. Technical Report, 2002.

猜你喜歡
類別分類器委員會
跟蹤導(dǎo)練(五)(2)
編輯委員會
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見肉類別
象山县| 盘锦市| 潮安县| 五华县| 盖州市| 周至县| 黄石市| 平顺县| 桃江县| 镶黄旗| 井研县| 运城市| 英德市| 敦煌市| 九龙县| 元氏县| 乐陵市| 札达县| 出国| 博乐市| 凤山市| 志丹县| 织金县| 蕉岭县| 宁都县| 高阳县| 江孜县| 墨竹工卡县| 工布江达县| 眉山市| 鲁山县| 敖汉旗| 北碚区| 庄浪县| 海盐县| 夹江县| 喀什市| 柏乡县| 方山县| 新巴尔虎右旗| 华安县|