譚 瑤,饒文碧,2*
(1.武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢430070; 2.交通物聯(lián)網(wǎng)技術(shù)湖北省重點(diǎn)實(shí)驗(yàn)室(武漢理工大學(xué)),武漢430070)(*通信作者電子郵箱wbrao@whut.edu.cn)
由于對(duì)用戶視頻的人工標(biāo)注常常會(huì)出現(xiàn)標(biāo)注缺失、不全以及標(biāo)注過于主觀的問題,這就導(dǎo)致了傳統(tǒng)的基于文本的視頻檢索和分類越來越不適應(yīng)當(dāng)前用戶視頻集[1-2]。而基于視頻內(nèi)容的標(biāo)注能夠更加高效、智能地對(duì)用戶視頻進(jìn)行檢索和分類,因此它一直作為計(jì)算機(jī)視覺領(lǐng)域重要的研究課題[3]。目前基于視頻內(nèi)容的標(biāo)注需要人工收集和標(biāo)注大量的訓(xùn)練樣本才能夠取得較好的泛化能力和魯棒性,然而收集和標(biāo)注訓(xùn)練樣本又是一項(xiàng)非常費(fèi)時(shí)費(fèi)力的工作,因此本文利用遷移學(xué)習(xí)的思想,從日趨成熟的互聯(lián)網(wǎng)圖像搜索引擎中獲取大量的領(lǐng)域知識(shí),進(jìn)而將這些知識(shí)遷移到視頻領(lǐng)域,用以完成視頻標(biāo)注任務(wù)。
近年來,遷移學(xué)習(xí)在多媒體內(nèi)容分析領(lǐng)域引起了學(xué)者的廣泛重視[4-7]。Redko 等[8]利用非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)技術(shù)來最小化領(lǐng)域間投影的距離,進(jìn)而提出了一種完全無(wú)監(jiān)督的領(lǐng)域適應(yīng)方法。Fernando等[9]通過學(xué)習(xí)一個(gè)映射矩陣來對(duì)齊源域和目標(biāo)域的子空間,在對(duì)齊后的共同空間中訓(xùn)練模型完成知識(shí)遷移。然而他們提出的領(lǐng)域適應(yīng)方法都是假設(shè)源域和目標(biāo)域的樣本能夠被表示成相同維度和同種類型的特征,這與本文描述的領(lǐng)域間異構(gòu)不一致。Wang等[10]利用典型相關(guān)性分析[11-13]去獲得異構(gòu)特征的公共特征子空間,解決了特征空間異構(gòu)的問題。張博等[14]提出了一種跨領(lǐng)域的典型相關(guān)性分析(Canonical Correlation Analysis,CCA)的遷移學(xué)習(xí)方法,該方法保持了領(lǐng)域特有特征和共享特征之間的相關(guān)性,通過選擇合適的基向量組合來訓(xùn)練分類器,使降維后的相關(guān)特征在領(lǐng)域間具有相似的判別性,但是CCA是一個(gè)監(jiān)督學(xué)習(xí)的過程,這也使得這種方法不是完全無(wú)監(jiān)督的。楊柳等[15]提出了一種異構(gòu)直推式遷移學(xué)習(xí)(Heterogeneous Transductive Transfer Learning,HTTL)的算法,該算法采用無(wú)監(jiān)督匹配源領(lǐng)域和目標(biāo)領(lǐng)域特征空間的方法來學(xué)習(xí)映射函數(shù),學(xué)習(xí)到的映射函數(shù)能夠?qū)⒃搭I(lǐng)域數(shù)據(jù)在目標(biāo)域中重新表示,該算法是一個(gè)普適性的解決方法,但是針對(duì)本文描述的特定遷移問題,并不一定能夠取得良好的表現(xiàn)。目前有關(guān)使用互聯(lián)網(wǎng)圖像來進(jìn)行視頻標(biāo)注的研究比較少。Duan等[3]提出了一種利用互聯(lián)網(wǎng)圖像來對(duì)用戶視頻進(jìn)行事件識(shí)別的方法,該方法將圖像特征和視頻特征分開處理,并沒有考慮這些異構(gòu)特征之間的內(nèi)在聯(lián)系。王晗等[16]聯(lián)合學(xué)習(xí)了圖像特征和視頻特征,提出了一種跨領(lǐng)域的結(jié)構(gòu)化模型(Cross Domain Structural Model,CDSM),但是這個(gè)模型缺乏對(duì)源領(lǐng)域和目標(biāo)領(lǐng)域同構(gòu)后的特征空間的比較。
本文利用視頻與其關(guān)鍵幀的對(duì)應(yīng)關(guān)系,借助CCA來建立圖像和視頻兩個(gè)異構(gòu)域之間的同構(gòu)鏈接,之后在這兩個(gè)同構(gòu)空間中進(jìn)行子空間對(duì)齊得到最終的公共子空間。借助這個(gè)公共子空間,從圖像域?qū)W習(xí)的分類器就能夠直接分類視頻域數(shù)據(jù)。具體的學(xué)習(xí)框架如圖1所示。
圖1 異構(gòu)復(fù)合遷移學(xué)習(xí)框架Fig.1 Heterogeneous compound transfer learning framework
本文研究的目標(biāo)是提出一種異構(gòu)直推式遷移學(xué)習(xí)方法,用于解決將互聯(lián)網(wǎng)圖像的知識(shí)遷移到用戶視頻領(lǐng)域并完成標(biāo)注任務(wù)的問題。異構(gòu)直推式遷移學(xué)習(xí)是在源域中有標(biāo)注數(shù)據(jù),而在目標(biāo)域中沒有標(biāo)注數(shù)據(jù)的知識(shí)遷移問題[17]。
假設(shè)有一個(gè)帶標(biāo)注的圖像域和一個(gè)無(wú)標(biāo)注的視頻域,圖像域和視頻域的特征空間不相同,但是它們預(yù)測(cè)的類別空間是相同的。定義圖像域(源域)為Ds=(χs,P(xs));視頻域(目標(biāo)域) 為Dt=(χt,P(xt))。xs和xt分別表示源域和目標(biāo)域的樣本數(shù)據(jù),P(xs)和P(xt)分別表示源域數(shù)據(jù)的特征空間χs和目標(biāo)域數(shù)據(jù)的特征空間χt的分布。另外,本文定義Y是源域和目標(biāo)域共同的類別空間。其中,x={,n是源域樣本ss的數(shù)目,這里∈ Rds,ds表示源域圖像特征的維度;xt={,nt是目標(biāo)域樣本的數(shù)目,這里∈ Rdt,dt表示目標(biāo)域視頻特征的維度;Y={,這里∈R,c代表源域和目標(biāo)域的類別個(gè)數(shù)。
由于當(dāng)前大量的領(lǐng)域適應(yīng)方法是基于這一假設(shè):源域和目標(biāo)域的樣本數(shù)據(jù)能夠表示成同種類型、同一維度的特征。也就是說,這些方法適用于同構(gòu)化空間內(nèi)的知識(shí)遷移。然而,本文研究是一個(gè)異構(gòu)空間下的遷移問題,無(wú)法直接利用當(dāng)前較為成熟的領(lǐng)域適應(yīng)方法。受到文獻(xiàn)[10]的啟發(fā),本文采用典型相關(guān)性分析來學(xué)習(xí)兩個(gè)映射矩陣ωs∈Rdc×ds和ωt∈Rdc×dt,其中dc是同構(gòu)空間的維度,任意源域和目標(biāo)域的樣本數(shù)據(jù)都能夠分別通過這兩個(gè)映射矩陣投影到相應(yīng)的同構(gòu)空間上,之后就能夠在同構(gòu)空間上解決具體的領(lǐng)域適應(yīng)問題。
本文使用典型相關(guān)性分析(CCA)方法來學(xué)習(xí)兩個(gè)映射矩陣。CCA廣泛應(yīng)用于非自然語(yǔ)言的知識(shí)遷移中,傳統(tǒng)的CCA方法通常是有監(jiān)督的,但是本文中視頻域的數(shù)據(jù)都是無(wú)標(biāo)注的,因此不能直接使用CCA來將源域和目標(biāo)域進(jìn)行同構(gòu)化。然而,結(jié)合本文所研究的具體問題,可以利用視頻和其關(guān)鍵幀的對(duì)應(yīng)關(guān)系,為CCA提供一種監(jiān)督信息。為了得到更具普適性的解決方案,也可以利用一定數(shù)量的帶標(biāo)注目標(biāo)域和源域數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系來實(shí)現(xiàn)同構(gòu)化。給定n個(gè)樣本對(duì){(,),(,),…,(,)},其中∈Rds和∈ Rdt分別表示源域圖像(或目標(biāo)域視頻關(guān)鍵幀)和視頻樣本數(shù)據(jù),記Xs=[x,…]∈ Rds×n,Xt= [,,…,]∈ Rdt×n。CCA的目標(biāo)是學(xué)習(xí)兩組基向量ws∈Rds和wt∈Rdt,使得線性組合u=Xs和v=Xt之間的相關(guān)系數(shù)最大,即:
其中:Css=∈ Rds×ds和 Ctt=∈ Rdt×dt分別表示 Xs和Xt的自相關(guān)矩陣;Cst=Xs∈ Rds×dt表示 Xs和 Xt的協(xié)方差矩陣,并且有Cst=。
使用Lagrange乘子法,構(gòu)造Lagrange函數(shù):
結(jié)合式(3)~(5)可將原問題等價(jià)轉(zhuǎn)化為以下特征值問題:
取dc=min(rank(Xs),rank(Xt)),映射矩陣的前dc個(gè)特征值對(duì)應(yīng)了dc個(gè)基向量,即所求解的ωs和ωt。
經(jīng)過第2章的同構(gòu)化操作,可以得到同構(gòu)空間下的源域和目標(biāo)域數(shù)據(jù):
目前解決這類同構(gòu)空間下知識(shí)遷移的方法有很多,本文結(jié)合當(dāng)前子空間對(duì)齊的思想,提出了一種基于最小代價(jià)的子空間對(duì)齊模型。在這個(gè)模型中,本文提出了一個(gè)代價(jià)函數(shù),用來表示源域和目標(biāo)域特征空間向共同子空間投影的代價(jià),通過最小化代價(jià)函數(shù),可以得到子空間對(duì)齊的矩陣。最終,可以將源域特征翻譯到目標(biāo)域特征空間中,也就完成了從源域到目標(biāo)域知識(shí)遷移的過程。
為了盡量避免過擬合問題,并且加速模型的收斂,本文對(duì)源域和目標(biāo)域的數(shù)據(jù)進(jìn)行特征降維。常用的降維方法有主成分分析(Principal Component Analysis,PCA)和非負(fù)矩陣分解(NMF)。Yang等[18]在標(biāo)準(zhǔn)的NMF基礎(chǔ)上提出了正交投影的非負(fù)矩陣分解(Orthogonal Projective NMF,OPNMF)。Redko等[8]在 MNIST數(shù)據(jù)集上應(yīng)用 PCA、標(biāo)準(zhǔn) NMF和OPNMF得到分解后矩陣的稀疏值分別是:0.2994、0.4912和0.5400。由此可以看到,正交約束確實(shí)能夠提高稀疏性,而稀疏性的提高對(duì)于數(shù)據(jù)去噪有著重要意義,所以本文選用OPNMF來完成特征降維。OPNMF定義如下:
其中:X∈Rm×n是輸入矩陣;U∈Rm×d是分解得到的基向量矩陣;d是最終降到的目標(biāo)維數(shù)。
Xs和Xt經(jīng)過OPNMF特征降維后分別得到兩個(gè)基向量矩陣 Us∈ Rdc×d和 Ut∈ Rdc×d。
考慮到源域和目標(biāo)域投影到公共子空間的代價(jià),提出一種最小化代價(jià)函數(shù):
其中:U*是Us和Ut共享子空間的基向量矩陣;Hs和Ht分別是Us和Ut分解得到的矩陣。
由Frobenius范數(shù)的正交不變性,可以重寫式(8)如下:
根據(jù)式(9)可以得出最優(yōu)化的結(jié)果是:
至此,可以得出子空間對(duì)齊的轉(zhuǎn)換矩陣M=Hs,使得Ut=UsM。通過轉(zhuǎn)化矩陣M,源域的特征能夠被翻譯到目標(biāo)域的特征空間中。
使用Lagrange乘子法,構(gòu)造Lagrange函數(shù):
其中,Λ1和Λ2是引入的拉格朗日乘子,這是兩個(gè)對(duì)角矩陣。
為了解決上述問題,引入3個(gè)輔助函數(shù)G(U*,U*')、G(Hs,Hs') 和 G(Ht,Ht'),它們滿足:
定義如下:
通過構(gòu)造:
使得能夠迭代地應(yīng)用式(15)~(17)來得到一個(gè)閉合解。
首先求解U*的迭代更新公式:
構(gòu)造輔助函數(shù):
其中式(21)放大到式(22)是利用引理1得來。引理1[18]對(duì)任意矩陣 A ∈,W ∈和 W'∈,有:
式(24)即為U*的迭代更新公式。繼續(xù)求解Hs的迭代更新公式:
構(gòu)造輔助函數(shù):
使用KKT(Karush-Kuhn-Tucker)條件有:
可得:Λ1=(UsHs-U*)TU*。由式(9)最優(yōu)化結(jié)果U*=UsHs,有Λ1=0,因此Hs最終的迭代更新公式為:
由于對(duì)稱性,易得Ht的迭代更新公式為:
至此,最小化代價(jià)函數(shù)得以求解,相應(yīng)地,轉(zhuǎn)換矩陣M也得以求解。
由于圖像域和視頻域的異構(gòu)性,本文提出了一種基于異構(gòu)復(fù)合遷移學(xué)習(xí) (Heterogeneous Compound Transfer Learning,HCTL)的視頻標(biāo)注方法,該方法利用CCA將原本異構(gòu)的特征空間同構(gòu)化,之后構(gòu)造源域和目標(biāo)域向共同空間投影的最小代價(jià)函數(shù),以此習(xí)得子空間對(duì)齊的轉(zhuǎn)換矩陣,最終將源域的特征翻譯到目標(biāo)域的特征空間中,完成問題中的知識(shí)遷移。具體的算法步驟如下。
算法1 異構(gòu)復(fù)合遷移學(xué)習(xí)(HCTL)算法。
輸入 源域數(shù)據(jù)集Xs,源域數(shù)據(jù)集Xt,源域標(biāo)簽集Ls,迭代次數(shù)niter;
輸出 預(yù)測(cè)目標(biāo)域標(biāo)簽集Lt。
1) 由CCA習(xí)得兩個(gè)映射矩陣ωs和ωt
2) Xs← ωsXs
3) Xt← ωtXt
4) Us←OPNMF(Xs)
5) Ut←OPNMF(Xt)
6) for i←1 to niterdo
7) Ss=XsUsHs
8) Tt=XtUt
9) Lt=Classifier(Ss,Tt,Ls)
通過最小化代價(jià)函數(shù)可以得到子空間對(duì)齊的轉(zhuǎn)換矩陣M,結(jié)合3.4模型算法的第7)步,有:
因?yàn)閁t是正交分解而來,滿足UTtUt=I,可以重寫式(31)為:
定義A=UsM,再結(jié)合3.4節(jié)模型算法的第8)步,可得:
由此可以看出A=UsM就是將源域特征翻譯到目標(biāo)域特征空間中的轉(zhuǎn)換矩陣。
受Fernando等[9]工作的啟發(fā),可以通過證明A存在一個(gè)上界來說明提出的對(duì)齊轉(zhuǎn)換矩陣M具備穩(wěn)定性和防過擬合性。
引理2[8]對(duì)任意向量x,有‖x‖≤B。是Cn正交分解后的前d個(gè)特征向量,是與前d+1個(gè)特征值(λ1>λ2>… >λd>λd+1>0)相關(guān)的的期望值,Hn和H分別是和非負(fù)矩陣分解得來的。對(duì)任意,至少有1-δ概率有:
根據(jù)引理2,可以推導(dǎo)出定理1,定理1表述如下。
定理1 Usn(Utn)是樣本大小ns(nt)的源域(目標(biāo)域)的正交映射算子,而Us(Ut)是與前d+1個(gè)特征值λs1>λs2>… >>(>>… >>)相關(guān)的Usn(Utn)的期望值,Hs(Ht)和Hsn(Htn)分別是Us(Ut)和Usn(Utn)非負(fù)矩陣分解得來的。至少有1-δ概率有:
其中,Mn=Hsn。
證明:
通過定理1可以發(fā)現(xiàn)A存在一個(gè)上界。
本文采用兩個(gè)真實(shí)世界的用戶視頻數(shù)據(jù)集來檢驗(yàn)和評(píng)價(jià)HCTL方法。
Kodak數(shù)據(jù)庫(kù):該數(shù)據(jù)庫(kù)包含了真實(shí)用戶上傳的195個(gè)視頻,并且這些視頻帶有正確的標(biāo)簽。該視頻數(shù)據(jù)庫(kù)按照事件類別可分為 6 大類:birthday、parade、picnic、show、sports、wedding。
CCV數(shù)據(jù)庫(kù)[19]:該數(shù)據(jù)庫(kù)是由哥倫比亞大學(xué)收集的用戶視頻數(shù)據(jù)集,其中包含了4659個(gè)訓(xùn)練視頻和4658個(gè)測(cè)試視頻,并且所有視頻都被正確標(biāo)注為20個(gè)大類。由于本文研究的是有關(guān)視頻事件的標(biāo)注,因此排除掉CCV數(shù)據(jù)庫(kù)中的非事件視頻(如 beach、bird、cat、dog 和 playground),并且為了方便處理,本文將一些子類進(jìn)行了合并。最終形成了以下11個(gè)事件類別:basketball(bask)、baseball(base)、biking(biki)、birthday(birt)、graduation(grad)、parade(para)、performance(perf)、soccer(socc)、sports(spor)、swimming(swim)、wedding(wedd)。
對(duì)于圖像數(shù)據(jù),本文通過互聯(lián)網(wǎng)圖像搜索引擎來獲取。具體來說,就是將前面提到的兩個(gè)視頻數(shù)據(jù)庫(kù)中的事件名作為關(guān)鍵字在互聯(lián)網(wǎng)圖像搜索引擎中進(jìn)行檢索。對(duì)于每一類事件,本文選擇前300張圖片作為初始源域數(shù)據(jù)集。
針對(duì)每一張?jiān)从驁D像,本文提取其128維尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征來作為圖像特征。而對(duì)于每一個(gè)視頻,結(jié)合2.1節(jié)空間同構(gòu)的需求,則提取兩種特征:視頻特征和關(guān)鍵幀(圖像)特征。對(duì)于Kodak和CCV數(shù)據(jù)庫(kù)中的視頻數(shù)據(jù),本文分別提取96維的梯度方向直方圖(Histogram of Oriented Gradient,HOG)特征和144維的時(shí)空興趣點(diǎn)(Space-Time Interest Point,STIP)特征作為其視頻運(yùn)動(dòng)特征。另外,從每個(gè)視頻中隨機(jī)選取7個(gè)關(guān)鍵幀并提取其SIFT特征來作為關(guān)鍵幀(圖像)特征。
在本文實(shí)驗(yàn)中,采用詞袋模型來表示圖像和視頻特征。具體來說,先提取所有圖片的SIFT特征并且利用k-means方法將這些特征進(jìn)行聚類,得到2000個(gè)聚類中心,之后通過統(tǒng)計(jì)每一張圖片中SIFT特征在這2000個(gè)聚類中心出現(xiàn)的詞頻來將圖片特征量化為一個(gè)2000維的詞頻特征。同樣地,對(duì)于Kodak和CCV數(shù)據(jù)庫(kù)中的視頻特征也采用上述方法分別得到2000維和5000維的視頻特征。
針對(duì)某一個(gè)事件,實(shí)驗(yàn)選擇前面收集的300張圖片作為正樣本,然后隨機(jī)從其他事件中選擇300張圖片作為負(fù)樣本。而對(duì)于視頻樣本,從Kodak數(shù)據(jù)庫(kù)選擇全部195個(gè)視頻作為訓(xùn)練樣本,并且從CCV數(shù)據(jù)庫(kù)選擇篩選后的訓(xùn)練視頻來作為訓(xùn)練樣本。
為了驗(yàn)證本文提出的HCTL方法,本實(shí)驗(yàn)將設(shè)置兩種與標(biāo)準(zhǔn)的支持向量機(jī)(Standard Support Vector Machine,S_SVM)方法、領(lǐng)域適應(yīng)支持向量機(jī)(Domain Adaptation SVM,DASVM)方法[20]、HTTL 方法、CDSM 方法、領(lǐng)域選擇機(jī)(Domain Selection Machine,DSM)方法[3]、異構(gòu)源域下的多領(lǐng)域適應(yīng)(Multi-domain Adaptation with Heterogeneous Sources,MDA-HS)方法[21]和判別性相關(guān)分析(Discriminative Correlation Analysis,DCA)方法[22]之間的對(duì)比實(shí)驗(yàn)。第一種是在目標(biāo)域(視頻域)數(shù)據(jù)完全無(wú)標(biāo)注的假設(shè)情況下進(jìn)行的,用以說明HCTL方法在無(wú)監(jiān)督學(xué)習(xí)下的表現(xiàn);第二種是用少量的帶標(biāo)注目標(biāo)域(視頻域)數(shù)據(jù)來輔助訓(xùn)練目標(biāo)分類器,用以說明3.2節(jié)的子空間對(duì)齊遷移學(xué)習(xí)模型在少量的帶標(biāo)注數(shù)據(jù)的訓(xùn)練下的表現(xiàn),這里的帶標(biāo)注數(shù)據(jù)是從目標(biāo)域中隨機(jī)選取的,根據(jù)Kodak和CCV數(shù)據(jù)集大小的不同,選取的數(shù)量分別為{5,10,20}和{20,50,100},并且為了防止選擇的偶然性,在本實(shí)驗(yàn)中會(huì)獨(dú)立重復(fù)3次,然后以這3次的均值作為最后的實(shí)驗(yàn)結(jié)果。S_SVM方法和DASVM方法是對(duì)分類和領(lǐng)域適應(yīng)下分類的基礎(chǔ)方法,通過實(shí)驗(yàn)對(duì)比能夠得出HCTL方法的有效性。HCTL方法是綜合了HTTL方法和CDSM方法在解決此類問題中存在的缺陷而提出的,因此在此設(shè)置對(duì)比實(shí)驗(yàn)來證明HCTL方法在此類問題上具有更好的表現(xiàn)。DSM和MDA-HS方法是當(dāng)前使用互聯(lián)網(wǎng)圖像完成視頻標(biāo)注經(jīng)典的解決方法,而DCA是近年來表現(xiàn)最好的異構(gòu)領(lǐng)域適應(yīng)方法,通過對(duì)比實(shí)驗(yàn)?zāi)軌蛘f明HCTL方法的效果。
本實(shí)驗(yàn)使用平均準(zhǔn)確率(Average Precision,AP)來作為評(píng)價(jià)的標(biāo)準(zhǔn),并且將mAP(mean AP)作為所有事件的平均AP值。
在目標(biāo)域無(wú)標(biāo)注數(shù)據(jù)的假設(shè)前提下,將HCTL方法與4.2節(jié)提到的7種方法在Kodak和CCV數(shù)據(jù)庫(kù)上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖2所示,并且在表1中列出了在這兩個(gè)數(shù)據(jù)庫(kù)上的mAP結(jié)果。
通過分析圖2可以得出,沒有任何一種方法能夠在所有的事件上都取得最好的效果,導(dǎo)致出現(xiàn)這一現(xiàn)象的原因可能是不相關(guān)源域的圖片影響了較好分類器的學(xué)習(xí)過程。從表1可以看出,所有方法在CCV數(shù)據(jù)庫(kù)上取得的標(biāo)注準(zhǔn)確率均顯著低于Kodak數(shù)據(jù)庫(kù),這可能是因?yàn)镃CV數(shù)據(jù)庫(kù)中包含的事件類別更多并且也更為復(fù)雜,但是本文提出的HCTL方法在這兩個(gè)數(shù)據(jù)庫(kù)上均取得了最好的mAP結(jié)果,這也表明了HCTL方法的穩(wěn)定性。
圖2 不同方法在不同數(shù)據(jù)庫(kù)上每個(gè)事件的AP結(jié)果Fig.2 Per-event AP of different methods on different datasets
表1 不同方法在Kodak和CCV數(shù)據(jù)集上的mAP結(jié)果 %Tab.1 mAP results of different methods on Kodak and CCV %
在Kodak數(shù)據(jù)庫(kù)上,本文提出的HCTL方法在標(biāo)注效果mAP上比 S_SVM、DASVM、HTTL、CDSM、DSM、MDA-HS和DCA 方法相對(duì)提高了 58.03%、23.06%、45.04%、6.70%、15.52%、13.07%和 6.74%;而在 CCV 數(shù)據(jù)庫(kù)上,分別相對(duì)提高了 133.71%、37.28%、14.34%、24.88%、16.40%、20.73%和12.48%,這也驗(yàn)證了HCTL方法的有效性。
在第二種對(duì)比實(shí)驗(yàn)的設(shè)置下,本文將HCTL方法與4.2節(jié)提到的7種方法在Kodak和CCV數(shù)據(jù)庫(kù)上進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果分別如表2和表3所示。
從表2和表3可以得出,隨著帶標(biāo)注目標(biāo)域數(shù)據(jù)數(shù)量的增大,標(biāo)注的mAP結(jié)果有了顯著的提升,這也驗(yàn)證了HCTL方法的有效性。另外,綜合表1~3可以看出,加入少量的帶標(biāo)注的數(shù)據(jù)可以使得遷移模型在分類準(zhǔn)確率上有較大的提升,出現(xiàn)這一結(jié)果的原因可能是3.2節(jié)的子空間對(duì)齊遷移學(xué)習(xí)模型只能利用領(lǐng)域間相似的知識(shí)來完成分類標(biāo)注任務(wù),但是加入少量的帶標(biāo)注數(shù)據(jù)后,遷移模型能夠利用這部分目標(biāo)領(lǐng)域的知識(shí)將源領(lǐng)域大量相似的知識(shí)更加準(zhǔn)確地遷移過來。
最后,本文實(shí)驗(yàn)設(shè)置了從視頻中提取不同數(shù)量關(guān)鍵幀的對(duì)比實(shí)驗(yàn),用以說明幀數(shù)對(duì)標(biāo)注效果mAP的影響,實(shí)驗(yàn)結(jié)果如圖3所示。
從圖3可以看出,當(dāng)幀數(shù)提高到7幀時(shí),mAP顯著提升,但是繼續(xù)增加幀數(shù),mAP只有很小的提升。因此,本文實(shí)驗(yàn)設(shè)置從視頻中提取的關(guān)鍵幀數(shù)為7。
表2 在Kodak數(shù)據(jù)庫(kù)上,不同方法使用不同數(shù)量標(biāo)注數(shù)據(jù)的mAP結(jié)果 %Tab.2 mAP results of different methods using different number of labeled data on Kodak %
表3 在CCV數(shù)據(jù)庫(kù)上,不同方法使用不同數(shù)量標(biāo)注數(shù)據(jù)的mAP結(jié)果 %Tab.3 mAP results of different methods using different number of labeled data on CCV %
本文提出了一種異構(gòu)復(fù)合遷移學(xué)習(xí)(HCTL)方法用以解決將知識(shí)從互聯(lián)網(wǎng)圖像遷移到用戶視頻,最終在視頻領(lǐng)域完成基于內(nèi)容的標(biāo)注。實(shí)驗(yàn)結(jié)果表明,HCTL方法采用的先同構(gòu)再對(duì)齊的復(fù)合遷移思想是有效的。在同構(gòu)化過程中,CCA需要監(jiān)督信息,本文方法借助視頻和其關(guān)鍵幀的天然對(duì)應(yīng)關(guān)系可以提供這種信息,并且針對(duì)更一般化的問題,本文方法也可以使用一定數(shù)量帶標(biāo)注的目標(biāo)域和源域數(shù)據(jù)來完成,但是后者不是一個(gè)完全無(wú)監(jiān)督的過程。另外,本文方法沒有考慮多源域情況下的知識(shí)遷移問題,為了習(xí)得更好的目標(biāo)分類器,下一步可以研究多源域下的視頻內(nèi)容標(biāo)注問題。