国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合語義特征和分布特征的跨媒體關(guān)聯(lián)分析方法研究

2021-06-14 02:12:50劉忠寶趙文娟
情報學報 2021年5期
關(guān)鍵詞:跨媒體特征向量關(guān)聯(lián)

劉忠寶,趙文娟

(1.北京語言大學語言智能研究院,北京 100083;2.泉州信息工程學院云計算與物聯(lián)網(wǎng)技術(shù)福建省高等學校重點實驗室,泉州 362000)

1 引 言

隨著大數(shù)據(jù)時代的到來,互聯(lián)網(wǎng)上涌現(xiàn)了海量的文本、圖像、視頻、音頻等多種媒體數(shù)據(jù)。這些數(shù)據(jù)來源廣泛、結(jié)構(gòu)各異,從而導致“語義鴻溝”問題的出現(xiàn),嚴重地影響和制約了多種媒體數(shù)據(jù)語義一致性的學習和表示。事實上,人類通過語言、聽覺、視覺等多感官認識世界,如何借鑒人類認識世界的方式實現(xiàn)多種媒體數(shù)據(jù)的語義理解,是進行跨媒體一致性表示的關(guān)鍵。解決該問題的常見做法是建立一個統(tǒng)一的語義空間,將各種媒體數(shù)據(jù)映射到該空間得到一致性表示,通過比較各種媒體數(shù)據(jù)之間位置、距離來確定數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。

目前,現(xiàn)有文獻采用的方法中大多數(shù)是針對文本和圖像兩種媒體數(shù)據(jù)展開的研究。盡管可以通過“兩兩組合”的方式將面向兩種媒體數(shù)據(jù)的跨媒體關(guān)聯(lián)分析研究擴展到多種媒體數(shù)據(jù),但這種做法忽略了各種媒體數(shù)據(jù)之間的共存性和互補性,導致利用現(xiàn)有方法獲得的語義信息不夠完備,這直接影響了跨媒體關(guān)聯(lián)分析的效率[1]。此外,現(xiàn)有方法往往是通過最大化成對各種媒體數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系建立優(yōu)化問題,并未考慮各種媒體數(shù)據(jù)的上下文信息,這些媒體數(shù)據(jù)的統(tǒng)一表征缺乏豐富語義信息的支持[2]。因此,本文融入多種媒體數(shù)據(jù)的語義特征和分布特征,來對跨媒體關(guān)聯(lián)分析方法進行深入研究,以期在一定程度上提高多種媒體數(shù)據(jù)的語義表征能力,并有效地提高跨媒體關(guān)聯(lián)分析的效率。

2 研究進展

現(xiàn)有跨媒體關(guān)聯(lián)分析方法的基本思路是通過降低各種媒體數(shù)據(jù)之間的異構(gòu)性差異,進而度量數(shù)據(jù)之間的語義相似性。具體做法是為各種媒體數(shù)據(jù)找到一個統(tǒng)一的語義空間,并將這些數(shù)據(jù)映射到該空間,通過測量統(tǒng)一語義空間下這些數(shù)據(jù)之間的語義距離,來判斷數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。目前,跨媒體關(guān)聯(lián)分析方法可以分為兩類:一類是基于統(tǒng)計學習的方法,另一類是基于深度學習的方法。

基于統(tǒng)計學習的方法是指利用統(tǒng)計學習方法來建立映射矩陣,將各種媒體數(shù)據(jù)映射到統(tǒng)一語義空間。典型相關(guān)分析(canonical correlation analysis,CCA)最早被應用于跨媒體關(guān)聯(lián)分析,該方法建立優(yōu)化問題的基本思路是最大化兩類媒體數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。一些后續(xù)研究基于CCA展開,典型代表有:Rasiwasia等[3]利用CCA對文本和圖像進行聯(lián)合學習,得到一個統(tǒng)一的語義空間,并基于此分析兩類媒體數(shù)據(jù)之間的相關(guān)性。Ballan等[4]利用核典型相關(guān)分析(kernel canonical correlation analysis,KCCA)建立交叉視圖檢索方法來分析文本和圖像之間的相關(guān)性。Gong等[5]在CCA得到的統(tǒng)一語義空間中增加了高層語義特征,提出三視角典型相關(guān)分析(three view canonical correlation analysis,TVC‐CA),用于提高相關(guān)性分析效率。除CCA之外,Chen等[6]利用偏最小二乘法(partial least squares,PLS)將視覺特征轉(zhuǎn)化為文本特征,在統(tǒng)一語義空間中比較各種媒體數(shù)據(jù)之間的相關(guān)性。

基于深度學習的方法和深度學習模型強大的學習能力,研究者利用深度網(wǎng)絡來統(tǒng)一表征多種媒體數(shù)據(jù)的語義特征。Andrew等[7]融合CCA和深度學習的優(yōu)勢,提出深度典型相關(guān)分析(deep canonical correlation analysis,DCCA),該方法能夠為成對的不同媒體數(shù)據(jù)分別構(gòu)建深度網(wǎng)絡,通過比較兩者輸出的相似性來建立優(yōu)化問題。Feng等[8]為不同媒體數(shù)據(jù)構(gòu)建相應的自編碼器,通過分析自編碼器輸出的深層語義特征,獲得不同媒體數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。Wei等[9]為了深入挖掘不同媒體數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,通過引入卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)模型來對圖像數(shù)據(jù)進行建模,進而提出深度語義匹配(deep semantic match,Deep-SM)方法。Peng等[10]在深度網(wǎng)絡模型的基礎上提出跨媒體多層深度網(wǎng)絡(cross-media multiple deep network,CMDN)模型,該模型融合各種媒體數(shù)據(jù)內(nèi)部及數(shù)據(jù)之間的關(guān)聯(lián)信息來構(gòu)建面向各種媒體數(shù)據(jù)的深度網(wǎng)絡,利用層次化的學習方法對各種媒體數(shù)據(jù)進行聯(lián)合學習,進而在統(tǒng)一語義空間中表征各種媒體數(shù)據(jù)。此外,Peng等[11]還提出了跨媒體關(guān)聯(lián)學習(cross-modal correlation learning,CCL)方法,該方法引入多任務學習思想來學習各種媒體數(shù)據(jù)的高層語義特征。Huang等[12]將遷移學習模型引入到跨媒體關(guān)聯(lián)分析中,提出跨媒體混合遷移網(wǎng)絡(cross-modal hybrid transfer network,CHTN)模型,該模型包含兩類子網(wǎng)絡:一類是跨媒體共享遷移子網(wǎng)絡,用于在源域和目標域之間傳輸各種媒體數(shù)據(jù)共享的知識;另一類是層級關(guān)聯(lián)子網(wǎng)絡,用于分析各種媒體數(shù)據(jù)之間的語義相關(guān)性。該模型在一定程度上實現(xiàn)了從單一媒體源域到跨媒體目標域的知識遷移。

近年來,圖書情報領域的學者在跨媒體關(guān)聯(lián)分析方面也取得了一些進展。李廣麗等[13]綜合圖像和音頻標注文本的相關(guān)性,以及媒體數(shù)據(jù)低層特征的相關(guān)性,建立了跨媒體一致性表示。明均仁等[14]利用關(guān)鍵挖掘技術(shù)得到多種媒體數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,并基于此生成跨媒體本體庫,以期在統(tǒng)一語義空間中表征多種媒體數(shù)據(jù)的語義特征。張興旺等[15]指出,跨媒體關(guān)聯(lián)分析聚焦于語義特征提取、語義內(nèi)容發(fā)現(xiàn)、語義關(guān)聯(lián)推理以及多模態(tài)信息融合等方面,并對這些方面的研究進展進行梳理。劉忠寶等[16]認為,跨媒體關(guān)聯(lián)分析要支持數(shù)據(jù)類型上的跨越、同構(gòu)多媒體數(shù)據(jù)在語義上的跨越,以及異構(gòu)多媒體數(shù)據(jù)在語義上的跨越。李愛明[17]引入語義關(guān)聯(lián)挖掘技術(shù),通過挖掘多種媒體數(shù)據(jù)之間存在的關(guān)聯(lián)關(guān)系,得到多種媒體數(shù)據(jù)之間存在的語義關(guān)系。彭欣[18]基于本體的多層次結(jié)構(gòu)特性,建立面向多種媒體數(shù)據(jù)的語義關(guān)聯(lián)樹,利用深度學習模型逐層挖掘各種媒體數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。徐彤陽等[19]借助跨媒體本體庫,利用語義挖掘技術(shù)得到多種媒體數(shù)據(jù)的語義特征,通過建立跨媒體語義關(guān)聯(lián)圖對跨媒體數(shù)據(jù)的語義特征進行關(guān)聯(lián)分析。黃微等[20]認為,跨媒體關(guān)聯(lián)分析應以深度學習模型為主、其他機器學習算法為輔,綜合利用統(tǒng)計學、情報學、心理學等學科的理論和方法,對多種媒體數(shù)據(jù)進行語義分析,將非線性、高維度的圖像、視頻、音頻數(shù)據(jù)轉(zhuǎn)化為文本數(shù)據(jù)進行處理,實現(xiàn)語義密度由低到高的轉(zhuǎn)化。熊回香等[21]提出基于跨媒體數(shù)據(jù)的語義相關(guān)分析模型,該模型利用多種媒體數(shù)據(jù)的語義標簽信息,在提取同類媒體數(shù)據(jù)的基礎上,挖掘各種媒體數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。鑒于多模態(tài)深度置信網(wǎng)絡擅長發(fā)現(xiàn)異構(gòu)特征之間的非線性相關(guān)性,李廣麗等[22]引入該模型挖掘異構(gòu)媒體之間的跨模態(tài)相關(guān)性。

由上述研究的進展可以看出,現(xiàn)有研究的方法大多數(shù)是利用傳統(tǒng)研究框架建立映射關(guān)系,這種做法難以充分挖掘多種媒體數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系;同時,這些方法僅考慮各種媒體數(shù)據(jù)內(nèi)部的語義信息,往往忽略了各種媒體數(shù)據(jù)之間多樣的、復雜的關(guān)聯(lián)關(guān)系。為了解決上述問題,本文利用多種媒體數(shù)據(jù)的上下文信息,融入各種媒體數(shù)據(jù)的語義特征和分布特征,對跨媒體關(guān)聯(lián)分析方法進行研究,以期進一步提高跨媒體關(guān)聯(lián)分析效率。

3 研究方法

本文的研究框架如圖1所示。首先,對圖像、文本、視頻、音頻等多種媒體數(shù)據(jù)進行向量化表示,并輸入模型;其次,利用雙向長短期記憶網(wǎng)絡(bidirectional long short-term memory,BiLSTM)[23]挖掘輸入數(shù)據(jù)的上下文信息,得到各種媒體數(shù)據(jù)的特征向量;最后,融合特征向量的語義特征和分布特征進行跨媒體關(guān)聯(lián)分析,得到跨媒體的一致性表示。

3.1 輸入數(shù)據(jù)向量化表示

對于圖像數(shù)據(jù),將其尺寸裁剪為224×224×3,并 輸 入 到ResNet(residual network) 模 型[24],ResNet模型的層數(shù)可以是18、34、50、101、152等,在綜合考慮模型的特征表示能力和計算能力的基礎上,選用ResNet50模型。模型訓練的學習率為1e-4,批大小為32,迭代次數(shù)為8000次。該模型輸出的圖像特征為512維;對于文本數(shù)據(jù),利用結(jié)巴分詞工具對文本數(shù)據(jù)進行分詞處理,并引入word2vec(word to vector)模型得到文本數(shù)據(jù)的詞向量表示,詞向量為50維。將詞向量輸入DCNN(dynamic convolutional neural network)模型[25],得到的文本數(shù)據(jù)特征為256維,其中,DCNN模型的卷積核尺寸為7和5,最大池化數(shù)為4,批大小為50,迭代次數(shù)為10次;對于音頻數(shù)據(jù),選用幀長為256個采樣點,幀移為128個采樣點,將音頻數(shù)據(jù)切割成片段,加窗過程采用漢明窗。將音頻數(shù)據(jù)輸入1-D CNN(1-dimensional convolutional neural network)模型[26],該模型的結(jié)構(gòu)包括1層卷積層、1層采樣層和1層全連接層,其中,卷積層的卷積核的數(shù)量為10,采樣層采用最大值采樣,輸出層采用softmax分類器。模型訓練的學習率為1e-3,批大小為16,迭代次數(shù)為100次。每一幀提取128維MFCC(mel frequency cepstral coefficients,MEL頻率倒頻系數(shù))特征;對于視頻數(shù)據(jù),在提取每個視頻幀的基礎上,利用ResNet模型[24]提取視頻特征。類似于圖像數(shù)據(jù),視頻數(shù)據(jù)處理選用ResNet50模型,其參數(shù)設置同圖像數(shù)據(jù)。

圖1 研究框架

3.2 BiLSTM

為了充分利用多種媒體數(shù)據(jù)的上下文信息,本文在引入BiLSTM[23]的基礎上,設計了多路BiLSTM模型,將每一種媒體數(shù)據(jù)輸入模型,以獲得其特征向量。BiLSTM是一種改進的循環(huán)神經(jīng)網(wǎng)絡(recur‐rent neural network,RNN)模型,其工作原理與RNN基本相同,兩者的區(qū)別在于BiLSTM引入了門結(jié)構(gòu),該結(jié)構(gòu)能對從輸入層傳來的輸入向量進行更深層次的特征提取。該模型包含輸入門、遺忘門、輸出門等門結(jié)構(gòu)。輸入門和遺忘門分別控制隱藏層神經(jīng)元需要更新和遺忘的信息,輸出門則決定隱藏層神經(jīng)元輸出的信息。在t時刻,該模型的工作原理可由以下五個公式表示:

其中,x t為t時刻的輸入向量;it、ft、ot分別表示當前時刻的輸入門、遺忘門和輸出門;W i、W f、W o和b i、b f、b o分別表示輸入門、遺忘門和輸出門對應的權(quán)重矩陣和偏置向量;ct表示當前時刻的記憶單元;sigmoid和tanh表示激活函數(shù);h t為當前時刻的輸出向量。

3.3 跨媒體關(guān)聯(lián)分析

在得到各種媒體數(shù)據(jù)的特征向量之后,如何能將其投影到統(tǒng)一的語義空間是跨媒體關(guān)聯(lián)分析的關(guān)鍵。各種媒體數(shù)據(jù)的特征向量在統(tǒng)一語義空間中的一致性表示,主要體現(xiàn)在語義特征和分布特征兩個方面。語義特征是指各種媒體數(shù)據(jù)所指代語義內(nèi)容的特征提取與向量化表示;分布特征是指各種媒體數(shù)據(jù)在統(tǒng)一語義空間中的位置關(guān)系及其分布態(tài)勢。本文在融合上述兩類特征的基礎上,提出跨媒體關(guān)聯(lián)分析方法。該方法利用各種媒體數(shù)據(jù)的類別信息來增強模型的語義學習能力,通過引入不同媒體數(shù)據(jù)在統(tǒng)一語義空間的相對位置關(guān)系來提高模型的分布特征刻畫能力。

首先,考慮特征向量的語義特征。特征向量在統(tǒng)一語義空間的語義特征體現(xiàn)了各種媒體數(shù)據(jù)之間的語義關(guān)系。語義特征由語義特征矩陣L S表示。本文利用word2vec模型對類別信息進行向量化表示和特征提取,得到類別語義向量。在統(tǒng)一語義空間中,通過比較各種媒體數(shù)據(jù)的特征向量與類別語義向量之間的相似性來建立面向語義特征的優(yōu)化問題。在該優(yōu)化問題中,確保各種媒體數(shù)據(jù)的特征向量與其對應的類別語義向量之間的距離盡可能地近,而與該特征向量不同的類別語義向量盡可能地遠?;谏鲜龇治?,可以得到如下優(yōu)化問題。

其中,sim(x,y)是用于比較x和y的相似度函數(shù);h i為各種媒體數(shù)據(jù)的特征向量,i∈{1,2,3,4};f i為類別語義向量;sim(h i,f i)表示各種媒體數(shù)據(jù)的特征向量與其對應的類別語義向量之間的相似度;sim(h i,f j)(j≠i)表示特征向量與其不同類別語義向量之間的相似度。通過最大化公式(6)能夠確保各種媒體數(shù)據(jù)的語義一致性。

其次,考慮特征向量的分布特征。特征向量在統(tǒng)一語義空間中的分布特征體現(xiàn)了各種媒體數(shù)據(jù)之間的位置關(guān)系。分布特征由分布特征矩陣L D表示。在統(tǒng)一語義空間中,衡量各種媒體數(shù)據(jù)之間相似性的指標是數(shù)據(jù)之間的距離,即同類媒體數(shù)據(jù)之間的距離盡可能近,不同類媒體數(shù)據(jù)之間的距離盡可能遠。基于上述分析,建立如下優(yōu)化問題。

其中,i、j表示任意兩種媒體數(shù)據(jù);E(h i)表示第i種媒體數(shù)據(jù)特征向量的中心;LSC表示每種媒體數(shù)據(jù)的特征向量與其類中心之間的距離;LDC表示不同媒體數(shù)據(jù)特征向量中心之間的距離。通過最大化公式(9)可以提高同類媒體數(shù)據(jù)之間關(guān)聯(lián)的緊密度,以及異類媒體數(shù)據(jù)之間關(guān)聯(lián)的松散度。

綜合各種媒體數(shù)據(jù)的語義特征和分布特征,可得到融合語義特征和分布特征的跨媒體關(guān)聯(lián)分析方法:

其中,α為平衡因子,用于平衡語義特征和分布特征在跨媒體關(guān)聯(lián)分析中的重要性。通過最大化公式(10)能夠準確刻畫各種媒體數(shù)據(jù)在統(tǒng)一語義空間中的語義特征和分布特征,以增強跨媒體一致性表示的語義分析能力。

4 實驗結(jié)果與分析

4.1 跨媒體數(shù)據(jù)集

目前,常用于多媒體和跨媒體研究的數(shù)據(jù)集主要有Wikipedia Dataset、NUS-WIDE Dataset、Pascal VOC 2007 Dataset、Clickture Dataset、PKU XMedia等。其中,Wikipedia Dataset用于跨媒體研究,但該數(shù)據(jù)集僅包含圖像和文本兩種數(shù)據(jù);NUS-WIDE Dataset、Pascal VOC 2007 dataset包含圖像及其類別信息,且類別信息可視為文本數(shù)據(jù);Clickture Data‐set規(guī)模較大,但該數(shù)據(jù)集沒有提供任何類別信息;PKU XMedia可用于跨媒體研究,該數(shù)據(jù)集包含5種媒體數(shù)據(jù),其提供的20個語義類別(如鳥、小提琴、狗、火車等)區(qū)分度大,無法利用該數(shù)據(jù)集驗證本文所提方法在相似語義場景下的有效性。

基于上述分析,目前常用的數(shù)據(jù)集無法滿足本文跨媒體關(guān)聯(lián)分析需求。因此,本文構(gòu)建了新的跨媒體數(shù)據(jù)集。與已有數(shù)據(jù)集相比,新構(gòu)建的跨媒體數(shù)據(jù)集包括圖像、文本、音頻和視頻四種媒體數(shù)據(jù)及其類別信息,該數(shù)據(jù)集提供的虎、貓、狗、獅和狼五個語義類別具有一定的語義相似性。該數(shù)據(jù)集的具體情況是:以哺乳動物中具有較大相似性的虎、貓、狗、獅和狼五種動物為研究對象,從Wikipedia下載動物描述文本300篇,從Flickr下載動物圖像300張,從YouTube下載動物視頻300個,從音效素材網(wǎng)站下載與動物相關(guān)的音頻300段,利用文本抽取技術(shù)從Wikipedia抽取與上述五種動物相關(guān)的類別信息。為了保證數(shù)據(jù)的平衡性,本文規(guī)定各種動物的文本、圖片、視頻、音頻規(guī)模均為60。將上述下載的各種媒體數(shù)據(jù)作為跨媒體數(shù)據(jù)集。

4.2 評價指標與比較方法

各種媒體數(shù)據(jù)之間的相似性,可由統(tǒng)一語義空間中各類媒體數(shù)據(jù)特征向量之間的距離來表征,本文引入余弦函數(shù)來計算各種媒體數(shù)據(jù)之間的語義距離。本文將平均準確率(average precision,AP)作為實驗結(jié)果評價指標,該指標能夠反映出跨媒體關(guān)聯(lián)分析方法的平均性能。通過比較本文的方法與現(xiàn)有方法(如CCA[1]、KCCA[3]、Deep-SM[9])的實驗結(jié)果來驗證本文的方法的有效性。其中,CCA是最早應用于跨媒體關(guān)聯(lián)分析的經(jīng)典方法;KCCA將CCA的適用范圍由線性空間擴展到非線性空間,其具有更好地適用性和魯棒性,這兩種方法均可直接應用于跨媒體關(guān)聯(lián)分析;Deep-SM是一種深度學習方法,該方法利用卷積神經(jīng)網(wǎng)絡提取深層語義特征,并進行跨媒體關(guān)聯(lián)分析。上述三種方法具有一定的代表性,前兩種是基于機器學習的方法,而Deep-SM是基于深度學習的方法。

4.3 對比實驗結(jié)果

本文用到的參數(shù)主要是公式(10)中的平衡因子α,采用網(wǎng)格搜索策略得到該參數(shù)的最優(yōu)值。平衡因子α在網(wǎng)格{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9}中選取。任意選取部分多媒體數(shù)據(jù)集,如選取五種動物的文本、圖片、視頻和音頻規(guī)模均為30,運行本文方法,得到平衡因子α的最優(yōu)值為0.4。KCCA中的核函數(shù)選用高斯核函數(shù)。

在多媒體數(shù)據(jù)集上,分別運行CCA、KCCA、Deep-SM和本文方法,得到如表1所示的實驗結(jié)果。

表1 各種媒體數(shù)據(jù)的比較實驗結(jié)果

由表1可以看出,CCA在文本數(shù)據(jù)集上的表現(xiàn)最優(yōu),但是在圖像、視頻、音頻等多媒體數(shù)據(jù)集上表現(xiàn)較差,特別是在視頻和音頻數(shù)據(jù)集上的準確率均低于0.4,該模型不適合處理具有非線性結(jié)構(gòu)的多媒體數(shù)據(jù)。KCCA是CCA的改進版本,核函數(shù)的引入使其能夠處理具有非線性結(jié)構(gòu)的多媒體數(shù)據(jù)。從實驗結(jié)果來看,KCCA在各種媒體數(shù)據(jù)集上的準確率均得到一定程度的提升。Deep-SM是基于CNN深度學習模型提出的,與基于機器學習的方法相比,其具有更強的特征學習能力。該模型在文本、圖像、視頻和音頻等多媒體數(shù)據(jù)集上的準確率分別比KCCA提高了0.17、0.09、0.06、0.12。本文方法借鑒了深度學習模型在特征學習方面的優(yōu)勢,與CNN相比,BiLSTM能夠提取各種媒體數(shù)據(jù)的上下文信息,融入語義特征和分布特征使之具有更優(yōu)的準確率,特別是在圖像、視頻和音頻等多媒體數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于CCA、KCCA、Deep-SM??缑襟w數(shù)據(jù)集上的實驗結(jié)果表明,本文方法的準確率分別比CCA高0.34、0.35、0.27、0.31,比KCCA高0.22、0.17、0.18、0.25,比Deep-SM高0.05、0.08、0.12、0.13。從模型的平均性能看,本文方法的平均準確率最高,達到0.73,之后依次是Deep-SM、KCCA、CCA。從各種媒體數(shù)據(jù)集上的平均性能看,文本數(shù)據(jù)集上的平均準確率最高,其次是圖像數(shù)據(jù)集,音頻數(shù)據(jù)集最低。

由表2可以看出,CCA對于“貓”“狼”具有較高的準確率,該模型對“虎”和“獅”的關(guān)聯(lián)分析效果較差,這與這兩種動物具有較大的相似性有一定關(guān)系。上述結(jié)論對于KCCA同樣成立,但適用于處理非線性多媒體數(shù)據(jù)的KCCA具有更高的準確率。Deep-SM較之CCA、KCCA對于各種動物的關(guān)聯(lián)分析準確率均有不同程度的提升,特別是對“狗”“狼”的關(guān)聯(lián)分析效果更優(yōu),接近或達到0.7,這與其引入CNN深度學習模型,能夠提取各種媒體數(shù)據(jù)的深層次語義特征密切相關(guān)。與上述三種方法相比,本文方法對于五類動物的關(guān)聯(lián)分析準確率均最高,分別比CCA高0.3、0.25、0.32、0.28、0.28,比KCCA高0.22、0.18、0.23、0.21、0.17,比Deep-SM高0.11、0.19、0.07、0.04、0.03。從模型的平均性能看,本文方法平均準確率最高,達到0.71,其次是Deep-SM,CCA最低。從各種動物關(guān)聯(lián)分析的平均性能看,“狗”和“狼”具有較高的平均準確率,均達到或超過0.6,其他幾種動物的平均準確率也達到0.5以上。

表2 研究對象的對比實驗結(jié)果

針對本文方法,通過構(gòu)造研究對象的混淆矩陣來統(tǒng)計分析本文方法的錯分結(jié)果。表3給出研究對象的混淆矩陣,表中的行表示每一種動物被劃分為各類的數(shù)量,列表示各種動物被劃分為該類的數(shù)量。

表3 研究對象的混淆矩陣

由表3的行可以看出,錯分情形主要包括兩方面:一方面,“虎”主要被錯分為“獅”和“貓”,“貓”主要被錯分為“虎”和“獅”,“獅”主要被錯分為“虎”和“貓”;另一方面,“狗”主要被錯分為“狼”,“狼”亦誤識為“狗”。出現(xiàn)上述情形的主要原因是“虎”“獅”“貓”以及“狗”“狼”不論是相關(guān)的描述文本,還是圖像、視頻、音頻等多媒體數(shù)據(jù),從語義上存在較大相似性。從本文方法的工作原理看,出現(xiàn)錯分的原因體現(xiàn)在兩方面:一方面,是BiLSTM模型提取上述兩類動物語義特征的能力還有待于進一步加強;另一方面,由于這兩類動物存在較大的語義相似性,本文方法得到的各種動物的語義特征區(qū)分度不明顯,這導致統(tǒng)一語義空間中各種動物特征向量的分布特征與實際情形存在較大偏差。

5 結(jié) 語

本文對融合語義特征和分布特征的跨媒體關(guān)聯(lián)分析方法進行研究。首先,對文本、圖像、視頻和音頻等多種媒體數(shù)據(jù)進行向量化表示,并輸入模型;其次,利用雙向長短期記憶網(wǎng)絡提取各種媒體數(shù)據(jù)的上下文信息,并得到各種媒體數(shù)據(jù)的特征向量;最后,融合語義特征和分布特征,建立跨媒體關(guān)聯(lián)分析的優(yōu)化問題,各種媒體數(shù)據(jù)的類別信息有助于關(guān)聯(lián)分析過程中發(fā)現(xiàn)各種媒體數(shù)據(jù)的語義特征,“同類近、異類遠”的原則有利于表征統(tǒng)一語義空間中各種媒體數(shù)據(jù)的分布特征。自建數(shù)據(jù)集上的比較實驗結(jié)果表明,本文方法較之CCA、KC‐CA、Deep-SM等現(xiàn)有方法具有更高的準確率。將無標記數(shù)據(jù)引入到現(xiàn)有研究框架,對融合標記數(shù)據(jù)和無標記數(shù)據(jù)的半監(jiān)督關(guān)聯(lián)分析方法進行研究。此外,能否將已有的知識庫引入到現(xiàn)有研究框架,以提高跨媒體關(guān)聯(lián)分析能力,亦值得研究者的關(guān)注。

猜你喜歡
跨媒體特征向量關(guān)聯(lián)
“跨媒體表征學習及認知推理”專欄征文通知
計算機應用(2023年6期)2023-07-03 14:12:38
“跨媒體表征學習及認知推理”專欄征文通知
計算機應用(2023年5期)2023-05-24 03:18:12
二年制職教本科線性代數(shù)課程的幾何化教學設計——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
“一帶一路”遞進,關(guān)聯(lián)民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
一類特殊矩陣特征向量的求法
奇趣搭配
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
中華建設(2017年1期)2017-06-07 02:56:14
智趣
讀者(2017年5期)2017-02-15 18:04:18
跨媒體出版物的平臺互動研究
出版與印刷(2015年3期)2015-12-19 13:15:13
阿尔山市| 龙泉市| 贵南县| 台北市| 南澳县| 文安县| 洪江市| 昭苏县| 兴国县| 巩义市| 台江县| 寿阳县| 鸡东县| 天峨县| 湖南省| 蒲城县| 鄂温| 文安县| 土默特右旗| 内黄县| 桐乡市| 上虞市| 兴和县| 梁河县| 鄂托克旗| 工布江达县| 灵宝市| 望都县| 银川市| 台州市| 丘北县| 二连浩特市| 永寿县| 敦化市| 嘉黎县| 佛教| 修武县| 龙山县| 芦山县| 潢川县| 桦南县|