■文/岳占峰 湯 豐
基于圖像嵌入空間集成學(xué)習(xí)的圖像分類(lèi)
■文/岳占峰湯豐
針對(duì)物體分類(lèi)任務(wù)中同類(lèi)物體的類(lèi)內(nèi)多樣性,提出了子類(lèi)的概念。通過(guò)構(gòu)造圖像嵌入空間,學(xué)習(xí)每一幅圖像中有判別力的局部特征組合,隱式地揭示了不同子類(lèi)的特性。在AdaBoost框架下,最具代表性的子類(lèi)特性被組合形成物體分類(lèi)器。進(jìn)一步地引入了基于Gist特征的場(chǎng)景分類(lèi)器,用來(lái)考慮物體在圖像中的上下文信息。兩種分類(lèi)器通過(guò)邊緣最大化準(zhǔn)則進(jìn)行融合。在標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)證明了本文提出的算法有效性。
圖像分類(lèi);圖像嵌入空間
物體分類(lèi)(Object Categorization)是近年來(lái)計(jì)算機(jī)視覺(jué)和多媒體領(lǐng)域的一個(gè)研究熱點(diǎn),其研究對(duì)于圖像管理、圖像檢索和圖像內(nèi)容理解都有著重要的意義。問(wèn)題主要的困難在于,由于存在視角變化、尺度變化和遮擋等因素的影響,同類(lèi)的物體間存在較大的類(lèi)內(nèi)變化。
基于局部特征聚類(lèi)形成的視覺(jué)詞典(Visual Vocabulary):Zhang[1]提出用視覺(jué)單詞的出現(xiàn)頻率直方圖來(lái)表示圖像,圖像之間相似度用2χ核或者EMD(Earth Mover’s Distance)核度量,然后使用SVM作為分類(lèi)器。Grauman[2]引入多分辨率思想,提出了基于層級(jí)聚類(lèi)的金字塔匹配核(Pyramid Match Kernel,PMK),允許兩幅圖像的視覺(jué)單詞的出現(xiàn)次數(shù)直方圖在不同分辨率下進(jìn)行多次匹配,并賦予不同的權(quán)重。在PMK的基礎(chǔ)上,Lazebnik[3]提出空間金字塔匹配(Spatial Pyramid Match,SPM)在匹配特征點(diǎn)時(shí)考慮局部特征在圖像上的絕對(duì)位置信息。Ling[5]則改進(jìn)了Savarese[4]提出的視覺(jué)單詞相關(guān)圖(Correlogram),考慮局部特征在圖像空間中分布的相對(duì)位置關(guān)系。
基于視覺(jué)單詞的好處是降低數(shù)據(jù)存儲(chǔ)量,便于局部特征的索引。但由于在聚類(lèi)過(guò)程中引入的量化誤差會(huì)在某種程度上降低特征的判別力,一部分研究者直接基于原始特征訓(xùn)練模型。Liu[6]使用混合高斯模型(Gaussian Mixture Model,GMM)對(duì)每幅圖像中的局部特征建模,兩幅圖像之間的相似度就是兩個(gè)GMM分布的相似度。Zhang[7]尋找一幅圖像中的點(diǎn)到另外一幅圖像中最相似的點(diǎn)構(gòu)成的點(diǎn)對(duì),并用所有點(diǎn)對(duì)的平均距離度量?jī)煞鶊D像的相似度。而Lyu[8]在計(jì)算特征點(diǎn)之間相似度時(shí)進(jìn)一步考慮了這兩個(gè)點(diǎn)在圖像空間上鄰域的信息。
以上的方法中存在著兩個(gè)共同的問(wèn)題:1)認(rèn)為每一個(gè)特征點(diǎn)的作用是一樣的,沒(méi)有考慮不同特征點(diǎn)具有不同的判別力;2)在設(shè)計(jì)分類(lèi)器的過(guò)程中沒(méi)有充分考慮類(lèi)內(nèi)的多樣性。
本文認(rèn)為一個(gè)物體類(lèi)可以看成由多個(gè)子類(lèi)構(gòu)成。針對(duì)這種情況,從特征構(gòu)造出發(fā),提出了圖像嵌入空間,用來(lái)學(xué)習(xí)得到一幅圖像中有判別力的局部特征的組合模式,這種組合模式可以認(rèn)為隱式的對(duì)應(yīng)某一個(gè)子類(lèi)。在AdaBoost框架下,代表不同子類(lèi)的有判別力的組合模式被挑選出來(lái)構(gòu)成最終的物體分類(lèi)器,可以有效提升圖像分類(lèi)的精度。
基于局部特征,物體類(lèi)類(lèi)內(nèi)的多樣性表現(xiàn)為:對(duì)同一個(gè)物體類(lèi)中的圖像很難找到一組公共的有判別力的局部特征。這種多樣性的產(chǎn)生既源于物體類(lèi)自身的特性,也與圖像的拍攝視角、尺度等外部因素有關(guān)。為了應(yīng)對(duì)這種多樣性,本文引入了子類(lèi)的概念對(duì)物體類(lèi)進(jìn)行細(xì)分,并認(rèn)為每一個(gè)子類(lèi)中的圖像都共有一組有判別力的局部特征。
在具體的算法實(shí)現(xiàn)中,我們沒(méi)有顯示的把圖像集劃分成不同的子類(lèi)。事實(shí)上,從另外一個(gè)角度考慮,因?yàn)槊恳环鶊D像都屬于某一個(gè)子類(lèi),所以一幅圖像中有判別力的特征組合模式也反映了其所在子類(lèi)的特點(diǎn)?;谶@樣的思想,本節(jié)首先提出了圖像嵌入空間的表示方法,然后學(xué)習(xí)每幅圖像有判別力的特征組合,最后,AdaBoost用來(lái)挑選有代表性的特征組合模式(子類(lèi))通過(guò)集成學(xué)習(xí)構(gòu)成強(qiáng)分類(lèi)器。
1.1圖像嵌入空間
定義圖像集合為I,對(duì)每一幅圖像提取局部特征,不考慮特征點(diǎn)的空間位置信息,圖像i被表示為一個(gè)特征點(diǎn)集合x(chóng)i:xi={fi,j|j=1,2,…,ni}
其中fi,j是圖像i中的第j個(gè)局部特征,ni為特征點(diǎn)的個(gè)數(shù)。
以圖像~i中的每一個(gè)局部特征為基,構(gòu)造一個(gè)n~i維的圖像嵌入空間R~i,文獻(xiàn)[9]中提出的最可能因素(Most-Likely-Cause)估計(jì)子被用來(lái)定義圖像i到嵌入空間R~i的映射關(guān)系,如下式:
1.2線性加權(quán)支持向量機(jī)
如圖1所示,通過(guò)正負(fù)樣本在嵌入空間中的分布可以學(xué)習(xí)一幅圖像中有判別力的局部特征組合模式,這種學(xué)習(xí)在本文中是通過(guò)線性加權(quán)支持向量機(jī)來(lái)實(shí)現(xiàn)的。相比其他學(xué)習(xí)方法,線性支持向量機(jī)訓(xùn)練速度較快,且對(duì)噪聲有較好的魯棒性。假定共有N個(gè)訓(xùn)練樣本,包括N+個(gè)正樣本和N-個(gè)負(fù)樣本。因?yàn)橹魂P(guān)心正樣本中有判別力的特征模式,所以僅僅對(duì)正樣本構(gòu)造嵌入空間并學(xué)習(xí),其形式化如(2):
其中w~i表示是在基于圖像~i的嵌入空間中學(xué)習(xí)的分類(lèi)面,λi為樣本i的權(quán)重,權(quán)重越大的樣本被錯(cuò)分后的懲罰越大,樣本的權(quán)重將通過(guò)AdaBoost算法中動(dòng)態(tài)調(diào)整。
1.3基于嵌入空間的分類(lèi)器
因?yàn)槊恳粋€(gè)嵌入空間中的分類(lèi)器可以認(rèn)為對(duì)應(yīng)著某一個(gè)子類(lèi),在AdaBoost的框架下,這些分類(lèi)器被作為弱分類(lèi)器組合成最終的物體分類(lèi)器?;诿總€(gè)嵌入空間~i的若分類(lèi)器h~i為:
AdaBoost每一輪從N+個(gè)嵌入空間中選擇一個(gè)判別力最強(qiáng)的弱分類(lèi)器,一共選擇T個(gè)組成物體分類(lèi)器:
其中αt為弱分類(lèi)器權(quán)重, k(t)為第t輪被選中的嵌入空間,k(t)∈{1,2,…,N+}。
整個(gè)算法流程如算法1所示,在第1步中,AdaBoost中樣本的權(quán)重被用于訓(xùn)練加權(quán)SVM,這樣可以使弱分類(lèi)器關(guān)注被錯(cuò)分的樣本,整合新的子類(lèi)特性,并加快算法的收斂速度。
算法1 Adaboost算法
輸入:圖像集在嵌入空間的投影Ri~i,如式(1)初始化:正負(fù)訓(xùn)練樣本的權(quán)重分別為: λ1i=1/2N+,1/2N-
For t=1,2,…,T
1:在每一個(gè)嵌入空間根據(jù)當(dāng)前的樣本權(quán)重訓(xùn)練一個(gè)線性加權(quán)支持向量機(jī),最優(yōu)化(2)。
2:根據(jù)加權(quán)分類(lèi)錯(cuò)誤率εt最小的準(zhǔn)則,選擇一個(gè)判別力最強(qiáng)的嵌入空間和其對(duì)應(yīng)的弱分類(lèi)器,如公式(3)。
3:由分類(lèi)誤差確定弱分類(lèi)器的權(quán)重:
4:更新樣本權(quán)重并歸一化:
End
輸出:最終的物體分類(lèi)器,如公式(4)。
實(shí)驗(yàn)所用數(shù)據(jù)庫(kù)是Pascal VOC 2007[12],其中共有9963幅圖像,包含20類(lèi)物體,分別是:飛機(jī)、自行車(chē)、鳥(niǎo)、船、瓶子、公共汽車(chē)、小汽車(chē)、貓、椅子、牛、餐桌、狗、馬、摩托車(chē)、人、盆栽、羊、沙發(fā)、火車(chē)和顯示屏。依照數(shù)據(jù)庫(kù)提供的劃分,1/4的數(shù)據(jù)作為訓(xùn)練集,1/4的數(shù)據(jù)作為驗(yàn)證集,其余1/2數(shù)據(jù)為測(cè)試集。在訓(xùn)練分類(lèi)器時(shí)采用了一對(duì)多(one-vs-all)的策略,測(cè)試結(jié)果用平均精度(Average Precision)來(lái)評(píng)價(jià),它的直觀解釋是精度-召回率曲線和坐標(biāo)軸所圍的面積。 實(shí)驗(yàn)結(jié)果
本文實(shí)現(xiàn)中使用Koen[13]提供的程序提取Harris-Laplace感興趣點(diǎn),并用SIFT描述。在每一幅圖像中隨機(jī)選擇大約300個(gè)特征點(diǎn)構(gòu)造圖像嵌入空間。算法Opelt[10]和Gist[11]實(shí)現(xiàn)用于實(shí)驗(yàn)比較。
從表1中可以看出,本文的算法分類(lèi)準(zhǔn)確率提高了16.3%,顯示了學(xué)習(xí)圖像中有判別力的特征組合比學(xué)習(xí)單個(gè)有判別力的特征點(diǎn)更加重要,證明了算法的有效性。
表1 實(shí)驗(yàn)結(jié)果
為了學(xué)習(xí)同一個(gè)物體類(lèi)的不同圖像中有判別力的局部特征組合模式,提出了圖像嵌入空間的表示方法。這些組合模式反映了不同子類(lèi)的特點(diǎn),而通過(guò)AdaBoost可以隱式地組合有代表性的子類(lèi),形成最終的物體分類(lèi)器。實(shí)驗(yàn)結(jié)果表明物體分類(lèi)精度得到顯著提高。
(作者單位:北京版銀科技有限責(zé)任公司)
TP3
A
1671-0134(2016)09-035-02
10.19483/j.cnki.11-4653/n.2016.09.010
本文由國(guó)家科技支撐計(jì)劃支持,課題名稱“數(shù)字版權(quán)資源管理系統(tǒng)研發(fā)與應(yīng)用”,課題編號(hào)2014BAH19F01