于 偉,邱彩華
(廣東科技學(xué)院 計(jì)算機(jī)學(xué)院,廣東 東莞 523083)
在當(dāng)前信息高度發(fā)達(dá)的大數(shù)據(jù)時(shí)代,針對(duì)包含豐富信息的樣本,如何在浩瀚的數(shù)據(jù)庫(kù)中準(zhǔn)確而快速地檢索到用戶所需的數(shù)據(jù),成了多媒體信息檢索領(lǐng)域的研究熱點(diǎn)問(wèn)題.其中,基于同質(zhì)域(homogenous domain)的檢索方法已經(jīng)取得了很大進(jìn)展[1],最典型的便是基于內(nèi)容的圖像檢索方法,經(jīng)過(guò)數(shù)十年的發(fā)展,它已經(jīng)被廣泛應(yīng)用于搜索引擎、電子商務(wù)等人們生活的各個(gè)方面[2].然而由于智能手機(jī)、電腦等數(shù)據(jù)采集設(shè)備的普及,人們對(duì)于異質(zhì)域(heterogeneous domain)間進(jìn)行檢索的需求大大增加.如人們希望可以從超市播放的音樂(lè)中檢索出對(duì)應(yīng)的歌詞或唱作者,這便是一種異質(zhì)域的檢索,其中源域?yàn)橐纛l域,而目標(biāo)域?yàn)槲谋居蚧驁D像域.
現(xiàn)有的異質(zhì)域檢索方法主要分為兩類:第一類為使用單獨(dú)同質(zhì)域中的特征對(duì)數(shù)據(jù)進(jìn)行描述,以相似度進(jìn)行度量;第二類為在保存語(yǔ)義的情況下,將異質(zhì)域的特征映射到一個(gè)公共空間,根據(jù)歐氏距離來(lái)對(duì)異質(zhì)域的樣本進(jìn)行檢索.
然而,此問(wèn)題并不像看上去的那樣簡(jiǎn)單,主要是因?yàn)楫愘|(zhì)域的不同類間的相似度是多樣化的.如圖1所示,蘋(píng)果和梨的素描圖幾乎是相同的,然而,它們的實(shí)際外觀卻有很大差異.類似地,飛機(jī)和鳥(niǎo)類在圖像域可能有類似的表征,因?yàn)樗鼈兌加谐岚蚝陀兴{(lán)天作為背景.然而,它們?cè)谖谋居蚧蛞纛l域可能完全不同.給定兩個(gè)類別,它們?cè)诿總€(gè)域中被提取的特征可能非常接近或者差異很大,這取決于采用的模態(tài).因此學(xué)習(xí)不同特征的公共空間映射的同時(shí)要準(zhǔn)確反映其語(yǔ)義相似性,通常是很難實(shí)現(xiàn)的.
圖1 蘋(píng)果和梨的實(shí)際外觀與其素描圖
針對(duì)上述提到的異質(zhì)域檢索問(wèn)題,不同文獻(xiàn)給出了不同的解決方法.典型相關(guān)分析(canonical correlation analysis, 簡(jiǎn)稱CCA)[3]及其變體[4]是進(jìn)行異質(zhì)域檢索最流行的方法,它可以學(xué)習(xí)公共空間的投影,使得兩個(gè)域之間的相關(guān)性達(dá)到最大化.文獻(xiàn)[5]提出一種基于最近鄰模型的隱式公共特征空間映射的相似性度量方法,將屬于同一類別的兩個(gè)異質(zhì)域樣本的概率最大化.近年來(lái),許多文獻(xiàn)基于深度學(xué)習(xí)方法研究復(fù)雜的非線性映射,以構(gòu)建公共空間.DCCA[6](deep canonical correlation analysis )基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, 簡(jiǎn)稱CNN)學(xué)習(xí)非線性投影,以最大化地實(shí)現(xiàn)CCA的目標(biāo).CCL[7](cross-modal correlation learning)通過(guò)分層網(wǎng)絡(luò)的多粒度融合方法進(jìn)行異質(zhì)域相關(guān)性學(xué)習(xí),將一個(gè)原始樣本剪切成多個(gè)小塊,以同時(shí)利用粗粒度和細(xì)粒度的信息.MCSM[8](Monte Carlo statistical methods)采用遞歸注意力網(wǎng)絡(luò)進(jìn)行異質(zhì)域檢索,其中的每個(gè)域都有獨(dú)立的語(yǔ)義空間.MHTN[9](modal-adversarial hybrid transfer network)構(gòu)建了從單模態(tài)源域到多模態(tài)目標(biāo)域的知識(shí)傳遞網(wǎng)絡(luò),利用對(duì)抗學(xué)習(xí)使特征模態(tài)在公共空間中變得難以區(qū)分.DCKT[10](deep cross-media knowledge transfer)將知識(shí)從作為源域的XMediaNet數(shù)據(jù)集傳輸?shù)阶鳛槟繕?biāo)域的Pascal Sentence數(shù)據(jù)集,傳遞同質(zhì)域內(nèi)部語(yǔ)義和異質(zhì)域間的相關(guān)知識(shí).DSH[11](deep supervised hashing)是一種用于大規(guī)模素描圖檢索任務(wù)的深度哈希網(wǎng)絡(luò),其通過(guò)訓(xùn)練二進(jìn)制代碼來(lái)減少檢索時(shí)間和內(nèi)存占用.
論文引入一種新的特征學(xué)習(xí)策略,通過(guò)調(diào)整softmax分類器的決策軸使其兩兩正交,使異質(zhì)域的特征空間具有歸一化的結(jié)構(gòu).一旦異質(zhì)域的特征分布具有相似的結(jié)構(gòu),將其映射到公共空間的操作便成了簡(jiǎn)單的線性變換.此外,論文還通過(guò)數(shù)學(xué)理論推導(dǎo)出了直觀的特征空間映射方法.最后,在3個(gè)由不同數(shù)據(jù)模態(tài)組成的異質(zhì)域檢索數(shù)據(jù)集上對(duì)所提出的方法進(jìn)行評(píng)估,結(jié)果證明了該方法的有效性.
異質(zhì)域檢索是一個(gè)在查詢時(shí)可以檢索到相關(guān)數(shù)據(jù)的問(wèn)題,并且其相應(yīng)的搜索結(jié)果可能屬于其他不同的域.首先定義論文中使用的符號(hào),將N個(gè)異構(gòu)域表示為{X1,X2,…,XN},每個(gè)域Xk由一組樣本容量為nk的數(shù)據(jù)構(gòu)成
(1)
圖2 異質(zhì)域的特征空間轉(zhuǎn)換
因?yàn)槊總€(gè)異構(gòu)域的特征提取模型都是單獨(dú)進(jìn)行學(xué)習(xí)的,簡(jiǎn)便起見(jiàn),在描述特征提取器時(shí),省略域索引k,分別將xi和yi表示為當(dāng)前域中的第i個(gè)樣本及其對(duì)應(yīng)的標(biāo)簽.此外,還省略了softmax層的偏置項(xiàng).就圖像檢索而言,大多數(shù)文獻(xiàn)基于分類任務(wù)來(lái)訓(xùn)練特征提取器,因此通常的目標(biāo)是最小化以下softmax損失函數(shù)
(2)
Softmax的標(biāo)準(zhǔn)形式適于分類任務(wù).然而,當(dāng)利用學(xué)習(xí)到的特征進(jìn)行跨域檢索時(shí),它可能會(huì)帶來(lái)不理想的情況.如圖3所示,根據(jù)A2和A3的softmax軸,分別對(duì)類2(三角形)和類3(矩形)的樣本進(jìn)行正確分類.然而,類2與類3的樣本是相鄰的,即使已經(jīng)被正確分類了,不同類的樣本仍可能在特征空間中被混淆.當(dāng)不同類其某些域極其相似時(shí),此問(wèn)題會(huì)被放大,如圖1中的蘋(píng)果和梨,它們的素描圖極度類似,在同質(zhì)域中進(jìn)行檢索可能不是一個(gè)嚴(yán)重的問(wèn)題,然而,若類2和類3的樣本學(xué)習(xí)到的特征空間在異質(zhì)域(如圖像域或文本域等)中,此時(shí)單純進(jìn)行異質(zhì)域檢索會(huì)影響檢索精度,即在每個(gè)不同的域提取到的特征相對(duì)于類標(biāo)簽可以有截然不同的分布.因此,異質(zhì)域特征分布的多樣性大大增加了學(xué)習(xí)Tk→a的難度,因?yàn)樵撧D(zhuǎn)換必須區(qū)分上述提到的“模糊”區(qū)域內(nèi)的特征,并將它們適當(dāng)?shù)囟ㄎ辉诠部臻g中.
為了克服所提到的異質(zhì)域之間不一致的類間相似性,論文提出了所有域都可以共享特征空間的公共結(jié)構(gòu).若所有的特征空間都具有相似的分布,則將不同域特征轉(zhuǎn)換為目標(biāo)域的學(xué)習(xí)會(huì)變得非常簡(jiǎn)便.為此,將softmax軸規(guī)范化為相互正交的,如圖4所示.即將以下正則化納入標(biāo)準(zhǔn)的softmax函數(shù)中
WTW=ID×D.
(3)
通過(guò)在整個(gè)訓(xùn)練步驟中固定softmax權(quán)重矩陣W∈D×C來(lái)實(shí)現(xiàn)softmax軸的兩兩相互正交.特別地,從隨機(jī)生成的D×D正交矩陣中選擇C列向量,并將其分配給W.
圖3 標(biāo)準(zhǔn)softmax軸
圖4 兩兩正交softmax軸
(4)
(5)
根據(jù)softmax決策邊界之間的間隔對(duì)特征分散進(jìn)行正則化(如圖5所示,其決策邊界由超參數(shù)m控制).對(duì)于論文中的所有實(shí)驗(yàn),一致使用超參數(shù)m=0.35和s=30,s是一個(gè)縮放參數(shù),它可以放大損失,從而更快地收斂訓(xùn)練過(guò)程.
圖5 歸一化分散度
通過(guò)求解下列方程,可以很容易地找到矩陣Rk→a
Rk→aWk=Wa,
(6)
其中:Wk和Wa分別是兩個(gè)特征提取器Ek和Ea的softmax權(quán)重矩陣.公式(6)有一個(gè)閉式解,即
Rk→a=Wa·Wk﹢=Wa(WkTWk)-1WkT=WaWkT(WkWkT=I),
(7)
其中:Wk﹢是矩陣Wk的偽逆.
算法1特征學(xué)習(xí)與變換
正交softmax:
fork=1,2,…,N
隨機(jī)生成D×D正交矩陣M.
從M中選擇C列并將其分配給Wk.
用Wk固定softmax層的權(quán)重.
whileEk(·)不收斂
if歸一化了分散水平then
根據(jù)公式(5)來(lái)計(jì)算損失L.
else
根據(jù)公式(2)計(jì)算損失L.
用損失L和公式(3)更新Ek(·).
學(xué)習(xí)特征轉(zhuǎn)換:
選擇參考域Xa.
fork=1,2,…,N
ifXk不是參考域
根據(jù)公式(8)計(jì)算Rk→a.
論文使用XMediaNet,Pascal Sentence,TU-Berlin Extension 3種不同的異質(zhì)域數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).
XMediaNet[13]是一個(gè)大規(guī)模的異質(zhì)域數(shù)據(jù)集,包含200個(gè)類別的40 000幅圖像、40 000個(gè)文本、10 000個(gè)視頻、10 000個(gè)音頻和2 000個(gè)3維模型.與該數(shù)據(jù)集的原始實(shí)驗(yàn)設(shè)置保持一致,分別在圖像域和文本域上進(jìn)行了測(cè)試.每40 000個(gè)樣本中32 000個(gè)用于訓(xùn)練,4 000個(gè)用于驗(yàn)證,其余4 000個(gè)用于測(cè)試.
Pascal Sentence[14]包含20類的1 000幅圖像(每幅圖像有5個(gè)不同的文本注釋),其中800個(gè)用于訓(xùn)練,100個(gè)用于驗(yàn)證,100個(gè)用于測(cè)試.
TU-Berlin Extension[15]是TUBerlin數(shù)據(jù)集[16]的擴(kuò)展版本,它包括20 000幅素描圖和204 070幅250個(gè)類別的圖像.為了與其他方法進(jìn)行對(duì)比,隨機(jī)選擇2 500幅素描圖進(jìn)行查詢.利用文獻(xiàn)[8]中使用的評(píng)價(jià)協(xié)議進(jìn)行異質(zhì)域檢索的評(píng)估,使用平均精度(mean average precision,簡(jiǎn)稱mAP)來(lái)評(píng)價(jià)檢索性能.
論文使用文獻(xiàn)[17]中的CNN模型作為特征提取器,使用從VGG(visual geometry group)網(wǎng)絡(luò)[18]提取的第7個(gè)4 096維的全連接層作為圖像特征,使用從Word CNN[8]提取的300維特征作為文本特征.論文使用TensorFlow[19]并在GTX 1080 GPU和i7700K CPU上進(jìn)行訓(xùn)練.此外,將所有模態(tài)的特征空間維數(shù)設(shè)置為512.
下面研究超參數(shù)m、正交softmax和控制變量的消融實(shí)驗(yàn)對(duì)檢索性能的影響.首先研究了超參數(shù)m的影響,它控制了類內(nèi)特征的分散程度,通常較小的m允許更高水平的分散度.表1中給出了不同超參數(shù)m在Pascal Sentence數(shù)據(jù)集上的性能.當(dāng)m=0.3時(shí)性能達(dá)到最優(yōu),而論文方法在m的所有測(cè)試值中皆得到了比MCSM更好的性能.
表1 超參數(shù)m對(duì)效果的影響
然后研究論文提出的正交softmax對(duì)檢索性能的影響.給定一對(duì)分別具有NA,NB個(gè)樣本的類A和B,可通過(guò)公式(8)計(jì)算兩個(gè)類樣本之間的平均角度
(8)
其中:ai和bj分別是類A,B的第i,j個(gè)樣本特征,一般而言,角度越小意味著兩個(gè)類越相似.
表2給出了在不同數(shù)據(jù)集中每?jī)蓚€(gè)類的樣本之間的平均角度.正如引言所提到的,不同類之間的相似性在異質(zhì)域中可能是完全不同的.例如:“輪胎”和“甜甜圈”在素描域上幾乎是相同的,但在實(shí)際的圖片域中可能會(huì)有巨大的視覺(jué)差異;“水”和“衛(wèi)生間”在視覺(jué)域中完全不同,但在文本域中卻高度相關(guān).如表2所示,論文方法大大減小了異質(zhì)域間的角度差.
表2 正交softmax對(duì)異質(zhì)域檢索效果的影響 (°)
為了分析論文方法中正交softmax(orthometric softmax,簡(jiǎn)稱OS)和分散度歸一化(dispersion level regularization,簡(jiǎn)稱DLR)的影響,在 Pascal Sentence數(shù)據(jù)集上進(jìn)行控制變量的消融實(shí)驗(yàn),結(jié)果見(jiàn)表3.由于類間相似性不一致而導(dǎo)致的異質(zhì)域差距很大,因此不帶有OS 和 DLR的模型顯示了最差的性能;其次,通過(guò)應(yīng)用OS,提高模型性能,即使不正則化分散度,此方法也優(yōu)于MCSM方法;最后,論文方法結(jié)合基于AM-softmax的DLR方法,將模型性能從0.623提高到0.637,這也是消融實(shí)驗(yàn)中表現(xiàn)最好的方法.因?yàn)镈LR的確歸一化了異質(zhì)域的分散度,它有助于減少兩個(gè)定向檢索任務(wù)(即圖像域到文本域和文本域到圖像域)之間的性能差距.然而,相較于DLR,論文提出的OS在性能方面做出了更加顯著的改進(jìn).
表3 正交softmax對(duì)異質(zhì)域檢索效果的影響
表4給出了在XMediaNet數(shù)據(jù)集上兩個(gè)模態(tài)異質(zhì)域檢索的實(shí)驗(yàn)結(jié)果.與MCSM相比,論文方法超出了大約0.030的mAP.
表4 不同方法在XMediaNet數(shù)據(jù)集上進(jìn)行異質(zhì)域檢索性能的對(duì)比
表5給出了在Pascal Sentence數(shù)據(jù)集上的mAP結(jié)果.與XMediaNet測(cè)試的結(jié)果相似,論文方法顯示出比次優(yōu)的MCSM方法提升了約0.039.此外,該方法在不利用外部數(shù)據(jù)的情況下優(yōu)于DCKT和MHTN,而DCKT和MHTN利用來(lái)自如ImageNet這樣的大規(guī)模源域的知識(shí)遷移.
表5 不同方法在Pascal Sentence數(shù)據(jù)集上進(jìn)行異質(zhì)域檢索性能的對(duì)比
論文針對(duì)異質(zhì)域檢索問(wèn)題給出了解決方案.首先強(qiáng)調(diào)了如何在保留語(yǔ)義相似性的同時(shí),將不同域的特征表示映射到公共空間.通過(guò)調(diào)整softmax分類器的決策軸為兩兩正交,引入了一種新的特征學(xué)習(xí)方法.在3個(gè)由不同數(shù)據(jù)模態(tài)組成的異質(zhì)域檢索數(shù)據(jù)集上進(jìn)行了廣泛的評(píng)估,實(shí)驗(yàn)結(jié)果證明了論文方法的有效性.