劉卓錕,劉華平,黃文美,王博文,孫富春
(1. 河北工業(yè)大學(xué) 省部共建電工裝備可靠性與智能化國(guó)家重點(diǎn)實(shí)驗(yàn)室,天津 300130; 2. 清華大學(xué) 智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100084)
面對(duì)多媒體信息數(shù)據(jù)量的激增和模態(tài)復(fù)雜多樣化的挑戰(zhàn),跨模態(tài)檢索因其可以處理不同模態(tài)的數(shù)據(jù)成為國(guó)內(nèi)外學(xué)者研究的重要課題??缒B(tài)檢索應(yīng)用得比較成熟的領(lǐng)域主要為計(jì)算機(jī)視覺、模式識(shí)別、文本圖像檢索等[1-4],其研究的重點(diǎn)依然放在圖像和文本兩種模態(tài)之間。但是圖像反映的顏色、紋理等信息和文本對(duì)物體的描述有時(shí)不能帶給我們足夠的信息量,比如在網(wǎng)購(gòu)過程中,消費(fèi)者僅通過瀏覽購(gòu)買商品的文字和圖片信息,有時(shí)不能在大腦完整地構(gòu)建商品的特征信息,因而會(huì)購(gòu)買到與需求不符的商品;在深海和太空探索領(lǐng)域,由于視頻和圖像受環(huán)境因素影響較大,僅憑攝像機(jī)反饋回來的視頻和圖像不足以讓人們確定未知物體的材質(zhì)信息;在日常生活中,當(dāng)我們購(gòu)買家具或西瓜時(shí),僅通過視覺信息并不能準(zhǔn)確判斷家具所用木材質(zhì)量的好壞或西瓜是否熟透,常常通過敲擊其表面產(chǎn)生的聲音來輔助判定。
引入聲音模態(tài)在某些方面可以解決文本和圖像信息量不足的問題。目前關(guān)于聲音的檢索技術(shù)大多涉及的是與語音和音樂相關(guān)的檢索技術(shù),其中聲音特征采用梅爾頻率倒譜系數(shù)(Melfrequency cepstral coefficients,MFCC)。梅爾頻率倒譜系數(shù)模仿人耳的感知特性[5],該方法具有很好的識(shí)別性和可靠性,是應(yīng)用最廣泛的聲音特征之一。另一方面,圖像特征采取卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取。卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)使得圖像識(shí)別領(lǐng)域發(fā)展迅速,國(guó)外已有研究將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于跨模態(tài)檢索的圖像特征提取[6]。
不同于相同模態(tài)之間的檢索,在跨模態(tài)檢索中,檢索結(jié)果和查詢的模態(tài)是不同的。如何在不同模態(tài)之間建立相關(guān)性成為跨模態(tài)檢索的關(guān)鍵。目前,應(yīng)用在跨模態(tài)檢索中的方法有典型相關(guān)分析法[7-9]、偏最小二乘法[10]、耦合字典學(xué)習(xí)法[11]等。對(duì)比其他方法,典型相關(guān)分析(canonical correlation analysis,CCA )因其簡(jiǎn)單高效的特點(diǎn)在跨模態(tài)檢索領(lǐng)域應(yīng)用十分廣泛,文獻(xiàn)[7]提出多標(biāo)簽典型相關(guān)分析,可以處理多標(biāo)簽信息量大的數(shù)據(jù)集的情況。文獻(xiàn)[8]提出多視圖典型相關(guān)分析方法,利用不同視圖的互補(bǔ)和相關(guān)信息可以處理多視圖數(shù)據(jù)。文獻(xiàn)[9]提出核典型相關(guān)分析,解決了非線性情況下不同模態(tài)間相關(guān)性的問題。
然而,傳統(tǒng)的典型相關(guān)分析在應(yīng)用時(shí)要求兩組變量間符合一一配對(duì)關(guān)系。當(dāng)兩組變量間出現(xiàn)多個(gè)對(duì)應(yīng)關(guān)系或配對(duì)形式為組配對(duì)時(shí),上述方法將不再適用。針對(duì)上述情況,本文引入聚類典型相關(guān)分析方法。首先使用梅爾頻率倒譜系數(shù)聲音特征和卷積神經(jīng)網(wǎng)絡(luò)提取的圖像特征,然后利用聚類典型相關(guān)分析將兩種特征映射到子空間并用歐氏距離進(jìn)行檢索,最后在慕尼黑工業(yè)大學(xué)觸覺紋理數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明所述方法適用于材質(zhì)檢索,具體流程如圖1所示。
本文的聲音特征使用梅爾頻率倒譜系數(shù)特征,圖像特征使用卷積神經(jīng)網(wǎng)絡(luò)提取得到。
梅爾頻率倒譜系數(shù)是語音處理中最常用的特征之一。文獻(xiàn)[12]對(duì)敲擊物體產(chǎn)生的聲音提取梅爾頻率倒譜系數(shù)特征,并應(yīng)用于聲音的分類。本文求得梅爾頻率倒譜系數(shù)的一階和二階差分特征系數(shù),結(jié)合標(biāo)準(zhǔn)梅爾頻率倒譜系數(shù)[13],最終得到39維梅爾頻率倒譜系數(shù)特征。圖2(a) 、(b)所示為訓(xùn)練集中敲擊竹木和紅色羊毛氈的聲音時(shí)域信號(hào),圖2(c)、 (d)所示為經(jīng)過上述過程得到的聲音特征。
圖 2 竹木和紅色羊毛氈聲音信號(hào)和聲音特征Fig. 2 Sound signals and features of bamboo and red fleece
典型相關(guān)分析作為一種靈活有效、可擴(kuò)展能力強(qiáng)的數(shù)據(jù)分析方法,在跨模態(tài)檢索領(lǐng)域占據(jù)著重要地位。典型相關(guān)分析不僅可以最大化兩組變量在投影空間的相關(guān)性,還能對(duì)復(fù)雜特征進(jìn)行降維處理。本文使用這種方法對(duì)聲音特征和圖像特征進(jìn)行相關(guān)性分析處理。
使用典型相關(guān)分析對(duì)聲音特征矩陣X=[x1x2· ··xn] 和 圖 像 特 征 矩 陣Y=[y1y2···yn] 進(jìn) 行 處 理。將X和Y表示為各自特征的線性組合,U=ωxTX和 V = ωyTY,通過研究U和V的關(guān)系來代替X和Y的關(guān)系,U和V的相關(guān)系數(shù) ρ 表達(dá)式為
式 中: ωx和 ωy為 兩 組 變量 對(duì)應(yīng) 的 投影 向量; ΣXX和ΣYY分 別表示特征集X和Y的協(xié)方差矩陣; ΣXY表示X和Y的互協(xié)方差矩陣:
近年來,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛地應(yīng)用于圖像的識(shí)別檢測(cè)領(lǐng)域。本文選用的網(wǎng)絡(luò)為預(yù)先訓(xùn)練好的AlexNet網(wǎng)絡(luò)[6],包含5個(gè)卷積層和3個(gè)完全連接層。將圖片分辨率調(diào)整為256×256輸入到文獻(xiàn)[6]所述模型之中,最終得到4 096維圖像特征。 圖3(a)、 (b)所示為訓(xùn)練集中敲擊竹木和紅色羊毛氈的圖片,圖3(c)、 (d)所示為經(jīng)過上述過程得到的圖像特征。通過構(gòu)造拉格朗日等式,在約束條件下,找到合適的投影向量 ωx和 ωy, 使U和V的相關(guān)性達(dá)到最大化:
式中:L為構(gòu)造的拉格朗日函數(shù);λ和 θ 為引入的系數(shù)變量。
將 求 解 轉(zhuǎn) 化 為 常 規(guī) 的 特 征 值 問 題, ωx和 ωy可以通過其對(duì)應(yīng)最大特征值的特征向量找到:
當(dāng)樣本變量不再是一一對(duì)應(yīng)關(guān)系時(shí),雅虎和微軟研究院的Rasiwasia等[14]改進(jìn)典型相關(guān)分析,提出均值典型相關(guān)分析 (mean canonical correlation analysis,MCCA )和聚類典型相關(guān)分析(cluster canonical correlation analysis,CCCA ),相應(yīng)的子空間對(duì)應(yīng)關(guān)系如圖4所示,不同的形狀代表不同的種類,相同形狀代表同一種類中的不同物體。
圖 4 3種方法的子空間對(duì)應(yīng)關(guān)系Fig. 4 The subspace correspondences of the three methods
對(duì)于本文使用的聲音數(shù)據(jù)集X=[X1X2···XC]和圖像數(shù)據(jù)集Y=[Y1Y2···YC],其中C表示數(shù)據(jù)集的總類別數(shù), Xc和 Yc是 屬于類別c對(duì)應(yīng)的數(shù)據(jù)X、Y的子集。
式中: |Xc|和 |Yc|分 別為相應(yīng)第c類數(shù)據(jù)個(gè)數(shù)。
3.2.1 均值典型相關(guān)分析
均值典型相關(guān)分析較為簡(jiǎn)單,首先求得每個(gè)子集的平均值,然后求得投影向量來建立子集均值之間的相關(guān)關(guān)系,最后尋找相關(guān)系數(shù)最大時(shí)的投影向量,即
3.2.2 聚類典型相關(guān)分析
聚類典型相關(guān)分析不再建立子集間均值的關(guān)系,而是建立子集中每一個(gè)數(shù)據(jù)點(diǎn)和對(duì)應(yīng)子集所有數(shù)據(jù)點(diǎn)的關(guān)系,此時(shí)相關(guān)系數(shù)表達(dá)式為
圖 5 數(shù)據(jù)集中包含的所有材料Fig. 5 Materials included in the data set
式中:T為建立對(duì)應(yīng)關(guān)系的總對(duì)數(shù),
本實(shí)驗(yàn)所用的數(shù)據(jù)集為慕尼黑工業(yè)大學(xué)建立的觸覺紋理數(shù)據(jù)集[15]。數(shù)據(jù)集中包含108種不同的物體,按照材質(zhì)和表面特征分為固體網(wǎng)狀物、石頭、玻璃陶瓷、木材、橡膠、纖維、泡沫、塑料紙片、紡織面料等九大類,具體每類物體的圖像如圖5所示,圖5中數(shù)字表示該類材質(zhì)第一個(gè)物體的起始位置。訓(xùn)練集包括聲音集和圖片集,聲音集中每個(gè)聲音樣本由一個(gè)人敲擊待測(cè)物體表面1次所得,其長(zhǎng)度為0.2 s。將108種待測(cè)物體每種重復(fù)敲擊10次,共得到1 080個(gè)聲音樣本。圖片集每張圖片分辨率為320×480,在不打開閃光燈情況下,同樣由一個(gè)人重復(fù)拍攝待測(cè)物體10次所得,共得到1 080張圖片樣本。測(cè)試集數(shù)據(jù)數(shù)量和樣本大小與訓(xùn)練集相同,不同之處在于采集數(shù)據(jù)的過程有所差別,測(cè)試集中聲音和圖片樣本不是由同一個(gè)人重復(fù)10次完成,而是由10個(gè)不同的人每人采集1次所得。整個(gè)數(shù)據(jù)集的特點(diǎn)是采集數(shù)據(jù)的過程均為人工完成,沒有施加約束條件,例如敲擊物體表面時(shí),沒有限制施加力的大小。
根據(jù)第2章得到的39維聲音特征和4 096維圖像特征,應(yīng)用于第3節(jié)所述典型相關(guān)分析方法,找到訓(xùn)練集中聲音特征和圖像特征典型相關(guān)分析子空間,然后將測(cè)試集中的聲音特征和圖像特征映射到典型相關(guān)分析的子空間,即可使用子空間的聲音特征去檢索圖像特征,通過計(jì)算歐氏距離度量樣本特征的相似性。
實(shí)驗(yàn)最終在測(cè)試集上執(zhí)行從聲音到圖像的跨模態(tài)信息檢索。常用的信息檢索的評(píng)價(jià)指標(biāo)有查準(zhǔn)率P、查全率R和平均準(zhǔn)確率 (mean average precision,MAP)等。PR曲線比較直觀地顯示出檢索效果的好壞,MAP則考慮到檢索結(jié)果的排名情況。PR曲線與坐標(biāo)軸圍成的面積越大,MAP值越高,則檢索效果越好。本文使用MAP和PR曲線對(duì)RCCA (同種物體聲音圖像隨機(jī)匹配)、MCCA和CCCA 3種方法的實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。圖6所示為3種不同方法的MAP值的大小隨子空間維度的變化,從圖6可以得到,子空間維度為5時(shí),3種方法效果最好,且CCCA的MAP值明顯優(yōu)于其他2種方法。
圖 6 不同方法的MAP值隨子空間維度的變化Fig. 6 Var iation of the MAP of different methods with subspace dimensions
圖7所示為子空間維度為5時(shí),3種方法的PR曲線,從中可以看出,CCCA的PR曲線與坐標(biāo)軸圍成的面積最大,檢索效果最好。由于所使用的數(shù)據(jù)集中的數(shù)據(jù)不符合傳統(tǒng)意義上的一一配對(duì)關(guān)系,RCCA 和MCCA的檢索效果不如CCCA。
圖 8 3種材料的低維映射圖Fig. 8 Low-dimensional mapping of three materials
圖 7 PR曲線Fig. 7 PR curve
圖8所示為數(shù)據(jù)集中纖維、泡沫和塑料3種材料圖像和聲音數(shù)據(jù)的低維映射,其中藍(lán)色代表纖維,黃色代表泡沫,紅色代表塑料。從圖8中可以看出,CCCA對(duì)這3類材料的區(qū)分度要強(qiáng)于RCCA的效果。
表1為3種方法下不同材質(zhì)類別的MAP大小,圖9為對(duì)應(yīng)的柱形圖。整體結(jié)果顯示,本文引入的CCCA在硬質(zhì)材質(zhì)(固體網(wǎng)狀物、石頭、玻璃陶瓷等)的檢索效果比軟質(zhì)材料(橡膠、纖維、泡沫等)好,這主要由于本文所使用的聲音數(shù)據(jù)是由敲擊物體表面所得,而實(shí)驗(yàn)過程中待測(cè)物體放置在實(shí)驗(yàn)臺(tái)上,采集數(shù)據(jù)時(shí)容易受到實(shí)驗(yàn)臺(tái)影響。特別是,CCCA在石頭這類材料測(cè)試中的表現(xiàn)尤為出色, MAP值達(dá)到0.32,比RCCA和MCCA高50%。
表 1 不同材質(zhì)類別的MAPTable 1 MAP of different categories of material
圖10(a)所示為測(cè)試集一個(gè)竹木圖片,圖10(b)為敲擊這種竹木的聲音樣本,使用CCCA進(jìn)行檢索,檢索得到圖10(c)所示的10張圖片,從左到右依次為落葉松木、紡織網(wǎng)、石瓦片、鋁板、櫻桃樹木、壓縮木板、落葉松木、山毛櫸木、壓縮木材、銀橡木。從實(shí)驗(yàn)結(jié)果可以看出,與測(cè)試集竹木樣本最相似的10個(gè)結(jié)果有7個(gè)和測(cè)試樣本屬于同一類別,檢索正確率達(dá)到70%,可見CCCA在木材類材質(zhì)識(shí)別效果較好。
圖 9 不同材質(zhì)類別的MAPFig. 9 MAP of different categories of material
圖 10 使用竹木聲音樣本的檢索結(jié)果Fig. 10 Retrieval result of bamboo sound sample
本文跨越不同模態(tài)之間的限制,結(jié)合聲音圖像特征與典型相關(guān)分析方法,將跨模態(tài)檢索方法應(yīng)用于材質(zhì)檢索領(lǐng)域,在慕尼黑工業(yè)大學(xué)觸覺紋理數(shù)據(jù)集上取得較好效果。雖然通過實(shí)驗(yàn)驗(yàn)證該方法目前的效果存在一定的局限性,但隨著不同模態(tài)信息的不斷加入和特征提取的方法不斷改進(jìn),未來該方法的應(yīng)用前景必定更加廣闊。