蔡國(guó)永 賀歆灝 儲(chǔ)陽(yáng)陽(yáng)
摘 要:目前多數(shù)圖像視覺(jué)情感分析方法主要從圖像整體構(gòu)建視覺(jué)情感特征表示,然而圖像中包含對(duì)象的局部區(qū)域往往更能突顯情感色彩。針對(duì)視覺(jué)圖像情感分析中忽略局部區(qū)域情感表示的問(wèn)題,提出一種嵌入圖像整體特征與局部對(duì)象特征的視覺(jué)情感分析方法。該方法結(jié)合整體圖像和局部區(qū)域以挖掘圖像中的情感表示,首先利用對(duì)象探測(cè)模型定位圖像中包含對(duì)象的局部區(qū)域,然后通過(guò)深度神經(jīng)網(wǎng)絡(luò)抽取局部區(qū)域的情感特征,最后用圖像整體抽取的深層特征和局部區(qū)域特征來(lái)共同訓(xùn)練圖像情感分類器并預(yù)測(cè)圖像的情感極性。實(shí)驗(yàn)結(jié)果表明,所提方法在真實(shí)數(shù)據(jù)集TwitterⅠ和TwitterⅡ上的情感分類準(zhǔn)確率分別達(dá)到了75.81%和78.90%,高于僅從圖像整體特征和僅從局部區(qū)域特征分析情感的方法。
關(guān)鍵詞:社交媒體;情感分析;圖像局部對(duì)象檢測(cè);深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):?TP181
文獻(xiàn)標(biāo)志碼:A
Visual sentiment analysis by combining global and local regions of image
CAI Guoyong, HE Xinhao*, CHU Yangyang
Guangxi Key Laboratory of Trusted Software (Guilin University of Electronic Technology), Guilin Guangxi 541004, China
Abstract:?Most existing visual sentiment analysis methods mainly construct visual sentiment feature representation based on the whole image. However, the local regions with objects in the image are able to highlight the sentiment better. Concerning the problem of ignorance of local regions sentiment representation in visual sentiment analysis, a visual sentiment analysis method by combining global and local regions of image was proposed. Image sentiment representation was mined by combining a whole image with local regions of the image. Firstly, an object detection model was used to locate the local regions with objects in the image. Secondly, the sentiment features of the local regions with objects were extracted by deep neural network. Finally, the deep features extracted from the whole image and the local region features were utilized to jointly train the image sentiment classifier and predict the sentiment polarity of the image. Experimental results show that the classification accuracy of the proposed method reaches 75.81% and 78.90% respectively on the real datasets TwitterⅠand TwitterⅡ, which is higher than the accuracy of sentiment analysis methods based on features extracted from the whole image or features extracted from the local regions of image.
Key words:?social media; sentiment analysis; image local object detection; deep learning; neural network
0 引言
當(dāng)前,越來(lái)越多社交媒體用戶喜歡用視覺(jué)圖像來(lái)表達(dá)情感或觀點(diǎn),相較于文本,視覺(jué)圖像更易于直觀表達(dá)個(gè)人情感,由此,對(duì)圖像的視覺(jué)情感分析引起了人們的廣泛關(guān)注和研究[1-2]。視覺(jué)情感分析是一項(xiàng)研究人類對(duì)視覺(jué)刺激(如圖像和視頻)做出的情感反應(yīng)的任務(wù)[3],其關(guān)鍵挑戰(zhàn)問(wèn)題是情感空間與視覺(jué)特征空間之間存在的巨大鴻溝問(wèn)題。
早期的視覺(jué)情感分類主要采用特征工程的方法來(lái)構(gòu)造圖像情感特征,如采用顏色、紋理和形狀等特征[4-6]。深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)因其能夠進(jìn)行魯棒且準(zhǔn)確的特征學(xué)習(xí),近年來(lái)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大成功[7-9]。特別是卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)能夠自動(dòng)地從大規(guī)模圖像數(shù)據(jù)中學(xué)習(xí)穩(wěn)健的特征且展示了優(yōu)異的性能,在圖像分類以及目標(biāo)檢測(cè)等圖像相關(guān)任務(wù)上得到了廣泛應(yīng)用,因此基于CNN的方法也被提出用于預(yù)測(cè)圖像情感[10]。盡管基于深度神經(jīng)網(wǎng)絡(luò)相關(guān)的模型已經(jīng)取得了不錯(cuò)的效果,但是現(xiàn)有方法基本是從圖像整體提取特征來(lái)預(yù)測(cè)視覺(jué)情感,對(duì)圖像中局部情感突出的區(qū)域并沒(méi)有區(qū)別對(duì)待,因此情感分類效果還有提升空間。
針對(duì)現(xiàn)有研究中通常只利用整張圖像學(xué)習(xí)情感表示而忽略了圖中情感突出的局部區(qū)域的問(wèn)題,本文提出了一種新穎的嵌入包含對(duì)象的局部區(qū)域特征到圖像整體特征的視覺(jué)情感分析方法。該方法首先利用目標(biāo)檢測(cè)模型探測(cè)對(duì)象局部區(qū)域,然后利用深度神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)從局部區(qū)域抽取局部區(qū)域視覺(jué)特征并嵌入圖像整體情感特征來(lái)訓(xùn)練情感分類器。
1 相關(guān)工作
視覺(jué)情感分析方法的特征工程主要基于特征選擇或特征抽取方法。如呂鵬霄[11]基于尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)引入具有表征感情色彩的顏色特征,分別提取RGB三個(gè)顏色通道的SIFT特征,串聯(lián)在一起形成384維的顏色尺度不變特征變換(Color SIFT, C-SIFT)特征來(lái)預(yù)測(cè)圖像的情感。
Yanulevskaya等[12]通過(guò)提取圖像的紋理特征,然后使用支持向量機(jī)將情感圖像進(jìn)行分類從而預(yù)測(cè)圖像情感。文獻(xiàn)[13]中構(gòu)建了一個(gè)由1200個(gè)形容詞名詞對(duì)(Adjective Noun Pair, ANP)組成的大型視覺(jué)情感本體庫(kù),同時(shí)在該本體庫(kù)的基礎(chǔ)上分別提出了情感銀行(Sentiment bank, Sentibank)和視覺(jué)情感本題庫(kù)(Visual Sentiment Ontology, VSO)的情感探測(cè)器來(lái)提取輸入圖像的中層表示,并把這些中層表示視為圖像特征來(lái)學(xué)習(xí)情感分類器。
文獻(xiàn)[2]中采用了與文獻(xiàn)[13]相似的策略,區(qū)別在于使用102個(gè)預(yù)定義場(chǎng)景屬性取代了ANP作為中層表示。
近年來(lái),隨著社交網(wǎng)絡(luò)上的視覺(jué)內(nèi)容不斷增加,傳統(tǒng)方法難以應(yīng)對(duì)大規(guī)模數(shù)據(jù)的伸縮性和泛化性問(wèn)題[14],研究者開(kāi)始采用深度模型自動(dòng)地從大規(guī)模圖像數(shù)據(jù)中學(xué)習(xí)情感表示,且效果良好。如文獻(xiàn)[14]中研究了視覺(jué)情感概念的分類,并在文獻(xiàn)[13]中給出的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練得到了SentiBank的升級(jí)版本DeepSentiBank。
You等[15]定義了一個(gè)CNN架構(gòu)用于視覺(jué)情感分析,而且為解決在大規(guī)模且有噪聲的數(shù)據(jù)集上進(jìn)行訓(xùn)練的問(wèn)題,他們采用逐步訓(xùn)練的策略對(duì)網(wǎng)絡(luò)架構(gòu)進(jìn)行微調(diào),即漸進(jìn)卷積神經(jīng)網(wǎng)絡(luò)(Progressive CNN, PCNN)。
Campos等[16-17]利用遷移學(xué)習(xí)和來(lái)自于預(yù)訓(xùn)練的權(quán)重與偏置,通過(guò)用Flickr數(shù)據(jù)集微調(diào)分類網(wǎng)絡(luò),然后再用于圖像情感分類。
盡管上述方法都取得了一定的效果,但是基本都是考慮從圖像整體抽取特征,很少有人關(guān)注到圖像局部區(qū)域情感信息表達(dá)的差異性。文獻(xiàn)[18]中利用深度學(xué)習(xí)框架自動(dòng)發(fā)現(xiàn)包含物體并攜帶大量情感的局部區(qū)域用于視覺(jué)情感分析,Li等[19]則提出了一種兼顧局部和局部 整體的上下文情境感知分類模型。不同于已有研究,本文的關(guān)注點(diǎn)是:1)獲得定位精確的攜帶情感對(duì)象的局部區(qū)域;2)在深度網(wǎng)絡(luò)結(jié)構(gòu)中,利用特征嵌入的方法同時(shí)考慮整體圖像與局部區(qū)域。即將圖像整體特征和局部區(qū)域特征嵌入到一個(gè)統(tǒng)一的優(yōu)化目標(biāo)中,使整合后的特征具有更好的判別性。
2 方法描述
為了從圖像中誘發(fā)情感的顯著對(duì)象局部區(qū)域和整體圖像中學(xué)習(xí)具有判別性的情感表示,本文方法的整體框架如圖1所示,包括以下四個(gè)部分:1)圖像整體特征提取;2)目標(biāo)檢測(cè)模型預(yù)訓(xùn)練;3)圖像中包含對(duì)象的局部區(qū)域特征提取;4)整體與局部區(qū)域特征整合及視覺(jué)情感分類。
其中,利用Simonyan等[20]提出的VGGNet-16提取來(lái)自整張圖像的全局特征表示(如圖1(a))。
目標(biāo)檢測(cè)模型Faster R-CNN[21]作為時(shí)下流行且性能出色的目標(biāo)檢測(cè)框架,利用全卷積網(wǎng)絡(luò)將對(duì)象定位和對(duì)象分類兩個(gè)任務(wù)整合到一個(gè)端到端的深層網(wǎng)絡(luò)架構(gòu)中,通過(guò)共享網(wǎng)絡(luò)模型參數(shù)以增強(qiáng)特征映射的魯棒性同時(shí)減少定位對(duì)象所花費(fèi)的時(shí)間,能極大地提高目標(biāo)檢測(cè)效果。 這里上下文的邏輯在哪
為了提取局部區(qū)域特征,本文首先利用目標(biāo)檢測(cè)數(shù)據(jù)集預(yù)訓(xùn)練目標(biāo)檢測(cè)模型,獲得模型參數(shù)(如圖1(c));隨后利用情感圖像數(shù)據(jù)集再次訓(xùn)練目標(biāo)檢測(cè)模型,從而獲得更好的、能檢測(cè)出圖像中攜帶情感的物理對(duì)象區(qū)域,并學(xué)習(xí)包含對(duì)象的局部區(qū)域情感表示(如圖1(b));最后結(jié)合圖像整體特征與局部區(qū)域特征,并用于訓(xùn)練情感分類器(如圖1(d))。
2.1 圖像局部區(qū)域特征提取
局部區(qū)域特征通常包含圖像中對(duì)象的細(xì)粒度信息,本文關(guān)注檢測(cè)社交網(wǎng)絡(luò)圖像中出現(xiàn)頻率高且能突顯情感的多個(gè)對(duì)象,并對(duì)這些包含對(duì)象的局部區(qū)域提取深層特征。假定一張圖像中探測(cè)到的某一個(gè)局部區(qū)域表示為特征向量 L fi,則檢測(cè)到的所有局部區(qū)域可表示為特征向量集{ L f1, L f2,…, L fm},m為檢測(cè)到的局部區(qū)域個(gè)數(shù)。局部特征提取基于目標(biāo)檢測(cè)模型進(jìn)行,即首先將圖像輸入該模型后生成一個(gè)多通道的特征映射,利用一個(gè)滑動(dòng)窗口遍歷已生成的特征映射獲得一系列候選框;然后通過(guò)對(duì)比各個(gè)候選框與目標(biāo)檢測(cè)圖像真實(shí)標(biāo)簽的交疊率來(lái)判定候選框內(nèi)是否存在檢測(cè)對(duì)象,從而獲得本文所需的局部區(qū)域;最后再利用深層神經(jīng)網(wǎng)絡(luò)提取該局部區(qū)域情感特征。本文利用遷移學(xué)習(xí)的策略來(lái)克服目標(biāo)檢測(cè)數(shù)據(jù)集與圖像情感數(shù)據(jù)集之間的差異。首先利用Faster R-CNN模型在目標(biāo)檢測(cè)數(shù)據(jù)集PASCAL VOC 2007上進(jìn)行預(yù)訓(xùn)練,然后將已經(jīng)學(xué)習(xí)好的模型參數(shù)遷移到情感分析的目標(biāo)區(qū)域檢測(cè)中。下面首先介紹如何利用Faster R-CNN生成目標(biāo)區(qū)域候選框。
2.1.1 候選框生成
候選框生成網(wǎng)絡(luò)的輸入是任意大小的圖像,輸出是一組矩形候選框。假設(shè)輸入圖像尺寸為M×N,圖像經(jīng)過(guò)一系列卷積層變換之后得到卷積特征映射 F ∈ R w×h×n,其中:w和h為卷積特征映射的寬度和高度,n表示卷積特征映射的通道個(gè)數(shù)。設(shè)卷積特征映射 F 大小為(M/16)×(N/16),即輸入圖像與輸出特征映射的寬和高均縮放到1/16。為生成候選框,F(xiàn)aster R-CNN在卷積特征映射上利用了一個(gè)兩層的CNN,第一層包含c個(gè)大小為a×a的濾波器 g ∈ R a×c,濾波器 g 在輸入的卷積特征映射上進(jìn)行滑動(dòng),生成一個(gè)較低維的特征 F ′∈ R w′×h′×l,計(jì)算式如式(1):
F ′=δ( g ?F +b)?? (1)
其中:是卷積操作;b∈ R 是一個(gè)偏置項(xiàng), R 為實(shí)數(shù)集;δ(·)是一個(gè)非線性激活函數(shù)。對(duì)于 F ′上的每一個(gè)位置考慮k種可能的候選框尺寸以更好地檢測(cè)出不同大小的對(duì)象,假設(shè) F ′的寬度和高度分別為w′、h′,即 F ′的尺寸為w′×h′,則可得到w′h′k個(gè)候選框。隨后該特征 F ′被送入兩個(gè)并列的全連接層:一個(gè)用于分類,即判定候選框中是否存在對(duì)象;另一個(gè)用于回歸,即預(yù)測(cè)候選框的中心點(diǎn)坐標(biāo)以及尺寸,如圖1(c)中最右側(cè)的兩個(gè)分支所示。因此,對(duì)于k個(gè)候選框,分類層輸出2k個(gè)評(píng)估候選框是否存在對(duì)象的概率得分,即對(duì)應(yīng)二分類問(wèn)題:候選框存在對(duì)象或不存在;回歸層輸出4k個(gè)候選框?qū)?yīng)坐標(biāo)值,即輸出為候選框中心點(diǎn)二維坐標(biāo)以及候選框的寬度和高度。分類層與回歸層損失函數(shù)的加權(quán)表達(dá)式如下:
L({pi},{ti})=? 1 Ncls ∑ k i=1 Lcls(pi,p*i)+λ 1 Nreg ∑ k i=1 p*iLreg(ti,t*i)??(2)
其中:pi表示第i個(gè)候選框的預(yù)測(cè)結(jié)果。p*i表示第i個(gè)候選框的真實(shí)標(biāo)簽:p*i=1則為正樣本,即候選框內(nèi)存在對(duì)象;反之p*i=0則為負(fù)樣本,即候選框?yàn)楸尘?。Ncls表示一個(gè)Minibatch產(chǎn)生的所有候選框數(shù)量,因?yàn)榕袛嗪蜻x框內(nèi)是否存在對(duì)象屬于二分類問(wèn)題,所以Lcls采用常用于二分類問(wèn)題的對(duì)數(shù)損失函數(shù)Log Loss,計(jì)算公式如式(3)。
Lreg采用衡量預(yù)測(cè)值與真實(shí)標(biāo)簽偏差程度的常見(jiàn)的損失函數(shù)Smooth L1 Loss,計(jì)算公式如式(4),其中ti表示候選框的大小尺寸,t*i則是ti對(duì)應(yīng)的真實(shí)標(biāo)簽,Smooth L1 Loss計(jì)算公式如式(5)。λ為超參數(shù)。
參數(shù)所處級(jí)別不一致,導(dǎo)致公式 解釋的位置怎么放都有點(diǎn)問(wèn)題;4、5這兩個(gè)公式 在這里到底表達(dá)什么?
l(θ)=p*ilnpi+(1-p*i)ln(1-pi)??(3)
Lreg(ti,ti)=∑smoothL1(ti-ti)??(4)
smoothL1(x)= 0.5x2,???? ?| x | <1 | x | -0.5, 其他? (5)
2.1.2 候選框特征提取
假設(shè)L={r1,r2,…,rn}為生成的包含對(duì)象的候選框集合,將矩形框集合L投影到卷積特征映射 F ∈ R w×h×n上再進(jìn)行局部區(qū)域特征提取,從而避免對(duì)矩形框進(jìn)行裁剪或縮放導(dǎo)致的圖像信息缺失,同時(shí)可以減少大量卷積運(yùn)算花費(fèi)的時(shí)間[22]。候選框集合中的任意一個(gè)元素ri={( x i,yi)}ni=1作為情感圖像中生成的候選框樣本,如圖2(a)中的矩形框ri所示。其中 x i通常表示為四維向量,分別表示候選框的中心點(diǎn)坐標(biāo)和寬高;yi∈{0,1}表示候選框內(nèi)對(duì)象對(duì)應(yīng)的情感標(biāo)簽。對(duì)于每一個(gè)候選框樣本,為獲取矩形框內(nèi)多個(gè)層次的語(yǔ)義信息,對(duì)候選框進(jìn)行m種不同粒度的劃分,如圖2(b)中所示。隨后對(duì)劃分的每一子塊bj進(jìn)行最大池化操作得到一系列具有區(qū)分性的特征映射{ f 1,? f 2,…,? f d},d表示劃分后的子塊個(gè)數(shù),計(jì)算式如式(6):
f i=Gmax(bj)?? (6)
其中:bj表示劃分后的某一子塊;? f i表示子塊bj對(duì)應(yīng)的特征映射;Gmax(·)表示最大池化操作。最后將所有子塊的特征映射相加從而得到固定維度的局部區(qū)域特征向量,具體表示如式(7):
L fi=∑ d i=1? f i?? (7)
本文考慮對(duì)候選框同時(shí)設(shè)置3種劃分尺寸,分別為{3×3,2×2,1×1},最大池化過(guò)程中的步長(zhǎng)和窗口由輸入的矩形框決定。
2.2 整體圖像特征提取
整體圖像特征是與圖像的情感表示相關(guān)的重要因素,通常包含圖像整體外觀信息和圖中對(duì)象周圍的上下文信息。本文采用如圖3所示的VGGNet-16框架提取整體圖像特征。VGGNet-16由5個(gè)卷積塊和3個(gè)全連接層組成,作為牛津大學(xué)和DeepMind公司共同研發(fā)的深層神經(jīng)網(wǎng)絡(luò),它比普通的卷積神經(jīng)網(wǎng)絡(luò)擁有更深層的網(wǎng)絡(luò)結(jié)構(gòu)和統(tǒng)一的網(wǎng)絡(luò)配置,使得它在減少參數(shù)的同時(shí)能進(jìn)行更多的非線性變換,從而具備更加出色的特征提取能力。
具體地,從VGGNet-16的最后一個(gè)全連接層fc7提取圖像整體特征,得到一個(gè)4096維的特征向量,記為 G f,如圖3所示。
2.3 圖像整體與局部區(qū)域嵌入的情感分類
深度圖像整體特征和包含對(duì)象的局部區(qū)域特征通過(guò)對(duì)應(yīng)的網(wǎng)絡(luò)架構(gòu)提取到的特征表示分別為 G f和{ L f1, L f2,…, L fm},選擇檢測(cè)到的前m個(gè)對(duì)象來(lái)表示重要的局部區(qū)域信息,因此每張圖像最終可被表示為一組情感信息更加豐富的特征向量 U ={ G f, L f1, L f2,…, L fm}。為了將圖像整體特征與局部區(qū)域特征相結(jié)合,本文采用特征拼接的方法對(duì)兩種特征進(jìn)行融合,具體表示如式(8):
φ( U )= G f⊕ L f1⊕ L f2⊕…⊕ L fm
(8)
其中⊕表示整體特征和局部特征的拼接。
對(duì)于視覺(jué)情感分類而言,情感標(biāo)簽在訓(xùn)練過(guò)程中的作用不容忽視。本文選擇一種較為簡(jiǎn)單的處理方法,即對(duì)相應(yīng)圖像中檢測(cè)到的局部對(duì)象區(qū)域均賦予與原圖一致的情感極性。在獲得拼接好的聯(lián)合特征向量φ( U )之后,將其送到全連接層,并通過(guò)softmax分類到輸出類別中。為衡量模型損失,本文使用交叉熵定義損失函數(shù),softmax層解釋聯(lián)合特征向量φ( U )到輸出的類別中且分配一個(gè)相對(duì)應(yīng)的概率分?jǐn)?shù)qi,若輸出的情感類別的數(shù)量為s,則:
qi=exp(φ( U )i) / ∑ s i=1 exp(φ( U )i)?(9)
l=-∑ s i=1 hi ln(qi)?(10)
其中:l是網(wǎng)絡(luò)的交叉熵?fù)p失;hi為圖像的真實(shí)情感標(biāo)簽。
3 實(shí)驗(yàn)結(jié)果及分析
本章主要評(píng)估本文所提出的方法,并對(duì)比其他通過(guò)整體圖像特征進(jìn)行情感分類的方法,以驗(yàn)證本文方法對(duì)于視覺(jué)情感分析的有效性。
3.1 數(shù)據(jù)集
在2個(gè)公共數(shù)據(jù)集TwitterⅠ、TwitterⅡ上對(duì)本文方法進(jìn)行評(píng)估。TwitterⅠ是從社交軟件Twitter中收集的881張包含兩類情感極性(積極和消極)的圖像及其對(duì)應(yīng)的基于群智策略的人工標(biāo)注的情感標(biāo)簽;TwitterⅡ由文獻(xiàn)[15]提供,包含1269張同樣來(lái)自于Twitter中的圖像,由5名亞馬遜勞務(wù)眾包平臺(tái)(Amazon Mechanical Turk, AMT)
為對(duì)應(yīng)的圖像標(biāo)注兩類情感極性標(biāo)簽。這兩個(gè)數(shù)據(jù)集均采用隨機(jī)劃分的方式將80%的樣本作為訓(xùn)練集,剩下的20%作為測(cè)試集。
3.2 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)開(kāi)發(fā)環(huán)境為L(zhǎng)inux-Ubuntu14.04, Python 2.7, Tensorflow 1.3.0,開(kāi)發(fā)工具為PyCharm。TwitterⅠ和TwitterⅡ數(shù)據(jù)集均在Tesla P100-PCIE GPU工作站上完成。提取圖像整體特征采用的網(wǎng)絡(luò)架構(gòu)為CNN框架VGGNet-16,與Faster R-CNN模型生成卷積特征映射的網(wǎng)絡(luò)架構(gòu)一致,這是為后續(xù)進(jìn)行特征向量拼接做準(zhǔn)備。輸入圖像尺寸為224×224,選擇MomentumOptimizer優(yōu)化器對(duì)模型進(jìn)行優(yōu)化, Momentum表示動(dòng)能優(yōu)化,非變量,是代碼中的概念名稱 Momentum設(shè)為0.9,學(xué)習(xí)率設(shè)為0.001。模型采用Dropout策略,Dropout值設(shè)為0.5。選用交叉熵作為模型損失函數(shù),并利用L2范式防止過(guò)擬合,訓(xùn)練迭代次數(shù)共100個(gè)epochs。提取局部區(qū)域特征則利用Faster R-CNN模型,采用大規(guī)模檢測(cè)數(shù)據(jù)集PASCAL VOC 2007進(jìn)行預(yù)訓(xùn)練并初始化模型權(quán)重,接著利用ImageLab標(biāo)注工具對(duì)情感圖像數(shù)據(jù)集中的人、車等5類對(duì)象進(jìn)行目標(biāo)檢測(cè)標(biāo)簽標(biāo)注,此時(shí)數(shù)據(jù)集既包含情感標(biāo)簽也包含目標(biāo)檢測(cè)標(biāo)簽(包含對(duì)象的矩形框的中心點(diǎn)坐標(biāo)和寬高)。利用該數(shù)據(jù)集對(duì)已訓(xùn)練好的Faster R-CNN模型進(jìn)行微調(diào),從而獲得包含對(duì)象的局部區(qū)域。Faster R-CNN的初步特征提取網(wǎng)絡(luò)同樣選擇VGGNet-16,調(diào)整其候選框區(qū)域池化層,池化核采用3×3,2×2,1×1,以適應(yīng)本文數(shù)據(jù)集。
3.3 對(duì)比方法
為驗(yàn)證本文方法的有效性,將本文方法與特征工程方法和基于CNN框架提取圖像整體特征的方法進(jìn)行對(duì)比,包括
SentiBank模型、DeepSentiBank模型以及ImageNet數(shù)據(jù)集微調(diào)的AlexNet和VGGNet-16模型。對(duì)比方法均在本文的兩個(gè)情感圖像數(shù)據(jù)集TwitterⅠ、TwitterⅡ上進(jìn)行測(cè)試評(píng)估,輸入圖像尺寸均為224×224。此外,本文考慮忽略整體圖像的情況,僅采用局部對(duì)象區(qū)域特征提取網(wǎng)絡(luò)進(jìn)行情感二分類實(shí)驗(yàn)。具體說(shuō)明如下:
SentiBank:通過(guò)組建形容詞名詞短語(yǔ)對(duì)(ANP)提取圖像中的視覺(jué)概念中層表示,該表示被視為圖像特征來(lái)學(xué)習(xí)情感預(yù)測(cè)分類器[12]。
DeepSentiBank:利用深度卷積神經(jīng)網(wǎng)絡(luò)在大型數(shù)據(jù)集上訓(xùn)練的視覺(jué)情感概念分類器,即SentiBank的改良版[14]。
ImageNet-AlexNet:利用遷移學(xué)習(xí)的思想,將AlexNet在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練并在情感數(shù)據(jù)集上進(jìn)行微調(diào),用于視覺(jué)情感分析[23]。
ImageNet-VGGNet-16:與ImageNet-AlexNet模型思路相同,區(qū)別在于網(wǎng)絡(luò)換成了更深層的VGGNet-16[20]。
Local regions-Net:忽略圖像整體特征提取,利用Faster R-CNN直接捕捉圖像中的局部對(duì)象區(qū)域,然后通過(guò)全連接網(wǎng)絡(luò)學(xué)習(xí)局部對(duì)象區(qū)域的情感表示,將該表示作為圖像情感特征訓(xùn)練情感分類器。
3.4 結(jié)果分析
表1是本文方法與對(duì)比方法在兩個(gè)真實(shí)數(shù)據(jù)集TwitterⅠ、TwitterⅡ上得到的分類準(zhǔn)確率。由表1可知:本文方法在數(shù)據(jù)集TwitterⅠ和TwitterⅡ上的分類準(zhǔn)確率分別達(dá)到了7581%和78.90%,而對(duì)比方法SentiBank模型在數(shù)據(jù)集TwitterⅠ和TwitterⅡ上的準(zhǔn)確率僅為66.63%和65.93%;同時(shí),本文方法在數(shù)據(jù)集TwitterⅠ、TwitterⅡ上的分類效果相比DeepSentibank模型分別提高了4.56個(gè)百分點(diǎn)和8.67個(gè)百分點(diǎn)。這表明本文方法在視覺(jué)情感分析中能夠?qū)W習(xí)更具區(qū)分性的表示。
如圖4所示,本文方法對(duì)來(lái)自TwitterⅡ數(shù)據(jù)集中的驗(yàn)證樣例進(jìn)行情感極性預(yù)測(cè),通過(guò)檢測(cè)圖中突顯情感的物理對(duì)象來(lái)加強(qiáng)視覺(jué)情感分類的效果。圖4(a)通過(guò)檢測(cè)微笑的人臉,提取該區(qū)域特征然后結(jié)合圖像整體特征和局部對(duì)象區(qū)域特征以加強(qiáng)情感表示,最后預(yù)測(cè)圖像情感極性為積極,與圖像原始標(biāo)簽一致,即正確樣例;圖4(b)檢測(cè)出圖中舉手示意的人,但忽略了圖中背景中燃燒的火焰,最后預(yù)測(cè)圖像情感為積極,即錯(cuò)誤樣例。
此外,本文還對(duì)比了微調(diào)之后的深度神經(jīng)網(wǎng)絡(luò)AlexNet和VGGNet-16架構(gòu),在相同的參數(shù)設(shè)置下,微調(diào)后的VGGNet-16在數(shù)據(jù)集TwitterⅠ、TwitterⅡ上準(zhǔn)確率均提高了約10個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果驗(yàn)證了結(jié)合局部對(duì)象區(qū)域表示的有效性。
同樣還對(duì)比了僅考慮局部區(qū)域提取網(wǎng)絡(luò),仍采用相同的參數(shù)設(shè)置,它們?cè)跀?shù)據(jù)集TwitterⅠ、TwitterⅡ上的情感分類準(zhǔn)確率同樣低于本文方法,且同樣低于特征工程方法和基于CNN框架提取圖像整體特征的方法。
本文方法還與基于CNN框架提取圖像整體特征的方法進(jìn)行了算法效率比較,如表1最后一列所示,該列表示本文方法與對(duì)比方法在TwitterⅠ數(shù)據(jù)集上進(jìn)行迭代訓(xùn)練時(shí)的收斂速度??梢钥吹?,本文方法在進(jìn)行80次迭代后即達(dá)到收斂,且準(zhǔn)確率達(dá)到75.81%,而ImageNet-AlexNet模型和ImageNet-VGGNet-16模型分別需要進(jìn)行150次和100次的迭代訓(xùn)練才能達(dá)到收斂,且分類準(zhǔn)確率要低于本文方法。這表明本文方法能夠更快速地學(xué)習(xí)具有判別性的情感表示,同時(shí)能獲得更好的分類效果。
最后,我們對(duì)利用情感圖像訓(xùn)練目標(biāo)檢測(cè)模型的遷移參數(shù)策略進(jìn)行了收斂實(shí)驗(yàn)分析,選擇目標(biāo)檢測(cè)數(shù)據(jù)集PASCAL VOC 2007迭代70000次訓(xùn)練后的Faster R-CNN模型參數(shù)作為模型初始化參數(shù),然后利用情感圖像再次訓(xùn)練Faster R-CNN,訓(xùn)練得到的平均準(zhǔn)確率為62.8%,而Faster R-CNN模型在PASCAL VOC 2007測(cè)試集上的平均準(zhǔn)確率為68.5%??紤]到目標(biāo)檢測(cè)圖像比情感圖像要多4倍左右,且目標(biāo)檢測(cè)真實(shí)標(biāo)簽更加精確,因此6個(gè)百分點(diǎn)左右的差距是可以接受的,同時(shí)也說(shuō)明利用參數(shù)遷移策略是行之有效的。
4 結(jié)語(yǔ)
視覺(jué)情感分析正在獲得越來(lái)越多的關(guān)注,考慮到圖像的情感不僅僅來(lái)自于圖像整體,圖像中包含對(duì)象的局部區(qū)域同樣能誘發(fā)情感,本文提出了一個(gè)新穎的圖像整體與局部區(qū)域嵌入的方法以加強(qiáng)圖像情感表示并用于視覺(jué)情感分析。該方法首先利用Faster R-CNN模型檢測(cè)圖像中的對(duì)象,通過(guò)深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像局部區(qū)域的情感表示,并將其與圖像整體特征進(jìn)行融合,從而獲得更具有判別性的情感表示。在兩個(gè)真實(shí)數(shù)據(jù)集TwitterⅠ和TwitterⅡ上評(píng)估驗(yàn)證了本文方法的有效性,且實(shí)驗(yàn)結(jié)果表明本文提出的圖像整體與局部區(qū)域嵌入的視覺(jué)情感分析方法要優(yōu)于僅從圖像整體和僅從局部區(qū)域?qū)W習(xí)情感表示的方法。
然而在本文研究中僅考慮利用圖像中包含對(duì)象的局部區(qū)域情感來(lái)加強(qiáng)視覺(jué)情感分析,并沒(méi)有考慮捕捉圖像中能誘發(fā)情感的其他區(qū)域。因此在未來(lái)的工作中將考慮通過(guò)弱監(jiān)督學(xué)習(xí)等方法更精確地發(fā)現(xiàn)視覺(jué)圖像中的情感區(qū)域,設(shè)計(jì)更合理的特征提取網(wǎng)絡(luò)以進(jìn)一步提高視覺(jué)情感分析的效果。
參考文獻(xiàn) (References)
[1]? JIN X, GALLAGHER A, CAO L, et al. The wisdom of social multimedia: using flickr for prediction and forecast [C]// Proceedings of the 18th ACM International Conference on Multimedia. New York:ACM, 2010: 1235-1244.
[2]? YUAN J, MCDONOUGH S, YOU Q, et al. Sentribute: image sentiment analysis from a mid-level perspective [C]// Proceedings of the 2nd International Workshop on Issues of Sentiment Discovery and Opinion Mining. New York: ACM, 2013: Article No.10.
[3]? YANG J, SHE D, LAI Y, et al. Weakly supervised coupled networks for visual sentiment analysis [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2018: 7584-7592.
[4]? WANG X, JIA J, HU P, et al. Understanding the emotional impact of images [C]// Proceedings of the 20th ACM International Conference on Multimedia. New York: ACM, 2012: 1369-1370.
[5]? CHENG Y, CHEN S. Image classification using color, texture and regions [J]. Image & Vision Computing, 2003, 21(9): 759-776.
[6]IQBAL Q, AGGARWAL J K. Retrieval by classification of images containing large manmade objects using perceptual grouping [J]. Pattern Recognition, 2002, 35(7): 1463-1479.
[7] ?KARPATHY A, TODERICI G, SHETTY S, et al. Large-scale ?video classification with convolutional neural networks [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 1725-1732.
[8]? CHEN M, ZHANG L, ALLEBACH J P. Learning deep features for image emotion classification [C]// Proceedings of the 2015 IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2015:4491-4495.
[9]? SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC:IEEE Computer Society, 2015: 1-9.
[10] YOU Q, LUOO J, JIN H, et al. Building a large scale dataset for image emotion recognition: the fine print and the benchmark [J]. arXiv E-print, 2018: arXiv:1605.02677.
Proceedings of the 13th AAAI Conference on Artificial Intelligence. Barcelona: AAAI Press, 2016: 308-314.沒(méi)查到這個(gè)信息
[11] 呂鵬霄.圖像情感分類研究[D].秦皇島:燕山大學(xué),2014:1-15. (LYU P X. Research on image emotion categorization [D]. Qinhuangdao: Yanshan University, 2014:1-15.)
[12]? YANULEVSKAYA V, van GEMERT J C, ROTH K, et al. Emotional valence categorization using holistic image features [C]// Proceedings of the 2008 15th IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2008: 101-104.
[13]? BORTH D, JI R, CHEN T, et al. Large-scale visual sentiment ontology and detectors using adjective noun pairs [C]// Proceedings of the 21st ACM International Conference on Multimedia. New York:ACM, 2013: 223-232.
[14]? CHEN T, BORTH D, DARRELL T, et al. DeepSentiBank: visual sentiment concept classification with deep convolutional neural networks [J]. arXiv E-print, 2014: arXiv:1410.8586.
[EB/OL]. [2018-10-18]. https://arxiv.org/pdf/1410.8586.pdf.
[15]? YOU Q, LUO J, JIN H, et al. Robust image sentiment analysis using progressively trained and domain transferred deep networks [C]// Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2015: 381-388.
[16]? ?CAMPOS V, SALVADOR A, GIRO-I-NIETO X, et al. Diving? deep into sentiment: understanding fine-tuned CNNs for visual sentiment prediction [C]// Proceedings of the 1st International Workshop on Affect and Sentiment in Multimedia. New York: ACM, 2015: 57-62.
[17]? CAMPOS V, JOU B, GIRó-I-NIETO X. From pixels to sentiment: fine-tuning CNNs for visual sentiment prediction [J]. Image & Vision Computing, 2017, 65: 15-22.
[18] SUN M, YANG J, WANG K, et al. Discovering affective regions in deep convolutional neural networks for visual sentiment prediction [C]// Proceedings of the 2016 IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE, 2016:1-6.
[19] LI B, XIONG W, HU W, et al. Context-aware affective images classification based on bilayer sparse representation [C]// Proceedings of the 2012 ACM International Conference on Multimedia. New York: ACM, 2012: 721-724.
[20] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv E-print, 2018: arXiv:1409.1556.?[EB/OL]. [2018-11-15]. https://arxiv.org/abs/1409.1556.
[21]? REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [C]// Proceedings of the 2015 International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 91-99.
[22]? HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(9):1904-1916.
[23]? KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. North Miami Beach, FL: Curran Associates Inc., 2012: 1097-1105.