張建軍 趙小明 何亞東 文虹茜 卿粼波
摘 要 ???:視覺情感分析旨在分析人們對視覺刺激的情感反映,近年來受到了共享平臺和網(wǎng)絡(luò)社交等多媒體視覺數(shù)據(jù)相關(guān)領(lǐng)域的關(guān)注.傳統(tǒng)的圖片情感分析側(cè)重于單標(biāo)簽的情感分類,忽略了圖片表達(dá)的情感的復(fù)雜性和圖像潛在的情緒分布信息,不能體現(xiàn)出圖片所表達(dá)的不同情緒之間的相關(guān)性.針對以上問題,首先采用ViT和ResNet網(wǎng)絡(luò)進(jìn)行全局和局部融合的多尺度情感特征提取,通過主導(dǎo)情緒分類和標(biāo)簽分布學(xué)習(xí)進(jìn)行圖片情感識別,充分表征圖片的復(fù)雜情感.在公開的Flickr_LDL數(shù)據(jù)集和Twitter_LDL數(shù)據(jù)集上取得了顯著的效果,證明了提出方法的有效性.
關(guān)鍵詞 :視覺情感分析; 深度學(xué)習(xí); 標(biāo)簽分布學(xué)習(xí); 圖片情感
中圖分類號 :TP391.4 文獻(xiàn)標(biāo)識碼 :A DOI : ?10.19907/j.0490-6756.2023.043002
Image emotion distribution learning based on multi-scale feature fusion
ZHANG Jian-Jun ?1, ZHAO Xiao-Ming ?1, HE Ya-Dong ?1, WEN Hong-Qian ?2, QING Lin-Bo ?2
(1. CHN ENERGY Dadu River Dagangshan Power Generation Co., Ltd, Yaan 625409, China;
2.College of Electronics and Information Engineering, Sichuan University, Chengdu 610065, China)
Visual emotion analysis aims to analyze the emotional response of human beings to visual stimuli, which has attracted multimedia visual data related fields such as sharing platforms and social networking in recent years. Traditional image emotion analysis focuses on the classification of single label emotions, ignoring the complexity of emotions expressed in pictures and the potential emotional distribution information of images, and failing to reflect the correlation between different emotions expressed in pictures. To solve the above problems, ViT and Resnet networks are used to extract multi-scale emotional features with global and local fusion, and the label distribution learning method is used for image emotion prediction. Significant results are achieved on the public available Flickr_LDL dataset and Twitter_LDL dataset, which demostrate the effectiveness of the proposed method.
Visual emotion analysis; Deep learning; Label distribution learning; Image emotion
1 引 言
理解圖像輪廓和色彩中隱含的情感表達(dá)一直以來受到藝術(shù)與心理學(xué)領(lǐng)域的關(guān)注,隨著互聯(lián)網(wǎng)的發(fā)展,視覺情感分析成為計算機(jī)視覺領(lǐng)域的一個重要課題 ?[1,2],應(yīng)用在美學(xué)分析、智能廣告和社交媒體輿情檢測等 ?[3-6]眾多領(lǐng)域.為了分析圖片表達(dá)的情感,需要對圖片進(jìn)行情緒標(biāo)注,通過手工設(shè)計或深度學(xué)習(xí)的方法提取圖片的特征,完成情緒的識別與歸類,并在此基礎(chǔ)上做進(jìn)一步的分析.目前大部分的方法忽略了圖片隱含的情緒分布信息,如何有效提取圖片的情感特征也是一個亟待解決的問題.
視覺特征的提取是圖片情緒識別的重要內(nèi)容 ?[1].傳統(tǒng)的視覺情緒識別使用底層特征和中高層特征 ?[7-8].底層視覺特征包括顏色、構(gòu)圖、形狀和紋理等多維度的信息,需要針對不同類型的圖片設(shè)計不同的特征.Machajdik等 ?[9]通過手工提取關(guān)于藝術(shù)和心理學(xué)相關(guān)理論的視覺特征組合.Lu等 ?[10]研究了圖像的紋理特征對情緒的影響.Zhao等 ?[11]根據(jù)藝術(shù)原則設(shè)計了更健壯的視覺特征組.這些手工制作的視覺特征在一些小的數(shù)據(jù)集上被證明是有效的 ?[1].底層視覺特征與人類感知的高層情感語義之間存在一定差異,因此一些研究者開始嘗試構(gòu)建中層語義特征或更高維的特征.Borth等 ?[12]利用中層語義信息作為情感的中間表征,統(tǒng)計詞袋的方法 ?[13]也被應(yīng)用于圖像語義分類.隨著深度學(xué)習(xí)的發(fā)展 ?[14-18]和多媒體數(shù)據(jù)的日漸豐富,使用數(shù)據(jù)驅(qū)動學(xué)習(xí)的深度表征在圖片情感分析中取得了顯著的效果 ?[19,20].You等 ?[21]設(shè)計了一種魯棒的漸進(jìn)CNN架構(gòu)模型——PCNN,用于視覺情感分析.Rao等 ?[22]提出一種多層次的深度網(wǎng)絡(luò)(MldeNet),用于統(tǒng)一圖像的低級和高級信息.Tripathi等 ?[23]提出FTEC-net,用于解決三個高度相關(guān)的情緒分析任務(wù):情緒識別、情緒回歸和情緒導(dǎo)向.
雖然已經(jīng)有很多方法在學(xué)習(xí)挖掘圖片的情感特征,但是大部分方法忽略了情感的復(fù)雜性,只預(yù)測主導(dǎo)情緒.然而實際的網(wǎng)絡(luò)圖片種類多樣,圖片中包含的元素豐富,僅使用單一情緒解釋圖片的情感表達(dá)比較困難.目前常用的標(biāo)簽分配方式有單標(biāo)簽學(xué)習(xí)和多標(biāo)簽學(xué)習(xí) ?[1].多標(biāo)簽學(xué)習(xí)雖然在一定程度上解決了標(biāo)簽?zāi):膯栴},但也存在局限性,無法體現(xiàn)不同標(biāo)簽的相對重要性.而標(biāo)簽分布學(xué)習(xí)(Label Distribution Learning, ?LDL)是一種更細(xì)致的標(biāo)簽分配方式,更適合具有模糊性的圖片情感分析 ?[24-26].標(biāo)簽分布學(xué)習(xí)描述了不同標(biāo)簽對同一實例的重要程度,是單標(biāo)簽學(xué)習(xí)和多標(biāo)簽學(xué)習(xí)的通用模式.標(biāo)簽分布學(xué)習(xí)具有更靈活的輸出空間,也更具挑戰(zhàn),過于最小化預(yù)測和真實值間的散度可能會混淆主導(dǎo)標(biāo)簽.
傳統(tǒng)的標(biāo)簽分布學(xué)習(xí)方法包括問題轉(zhuǎn)換、算法自適應(yīng)和專用算法三種策略 ?[27,28].近年來,基于CNN的標(biāo)簽分布學(xué)習(xí)方法也不斷被提出 ?[1,2,29-32]并應(yīng)用于圖片情感分析領(lǐng)域.Gao等 ?[33]使用深度標(biāo)簽分布學(xué)習(xí)(DLDL),在特征提取和分類中利用標(biāo)簽歧義防止網(wǎng)絡(luò)過擬合,在小數(shù)據(jù)集上取得了良好的性能.Peng等 ?[30]提出卷積神經(jīng)網(wǎng)絡(luò)回歸(CNNR)處理圖片情感標(biāo)簽分布問題,該方法對每個情感類別都有歐氏損失,將回歸結(jié)果歸一化為所有情緒的概率,但是該方法對每一類情緒構(gòu)建損失,網(wǎng)絡(luò)參數(shù)復(fù)雜.CSR ?[2]、SSDL ?[31]和E-GCN ?[29]利用情感理論先驗知識,使用情感極性、情感強(qiáng)度和情感間的相關(guān)性等信息進(jìn)行情緒分布學(xué)習(xí),但是沒有充分考慮圖片本身不同尺度特征的關(guān)聯(lián).
本文針對單一情緒無法充分表征圖片情感的問題,采用標(biāo)簽分布學(xué)習(xí)進(jìn)行圖片情感分析,更好地實現(xiàn)了圖片實例到情感空間的映射;針對圖片中情感特征的提取,使用ViT和ResNet網(wǎng)絡(luò)進(jìn)行多尺度特征提取并進(jìn)行特征層融合;最終實現(xiàn)標(biāo)簽分布預(yù)測和主導(dǎo)情緒分類兩個任務(wù).與之前的研究相比,本文的方法在大型公開數(shù)據(jù)集Flickr_LDL和Twitter_LDL上取得了很好的效果.
2 圖片情感分布學(xué)習(xí)
目前圖片情感分析研究一般是基于圖片整體的視覺特征 ?[34],并且忽略了情感分析問題的主觀性.針對這些問題,本文提出如圖1所示的基于ViT的多尺度融合圖片情感分析模型.對于全局尺度,使用基于視覺的Transformer通道提取圖片中的情感特征和關(guān)系特征,學(xué)習(xí)由于卷積操作的限制而遺漏的部分全局性特征向量.同時,表征的深度對于視覺識別任務(wù)至關(guān)重要 ?[35],因此,對于局部尺度,使用基于殘差結(jié)構(gòu)的ResNet卷積架構(gòu)進(jìn)行深層信息的提取.最后使用Transformer編碼器網(wǎng)絡(luò)融合推理不同尺度特征間的相互聯(lián)系并同時進(jìn)行主導(dǎo)標(biāo)簽分類任務(wù)和標(biāo)簽分布預(yù)測任務(wù),得到最終的結(jié)果.
2.1 特征提取
2.1.1 全局特征 ?圖片的全局特征能表征圖像的整體屬性,包含了完整的情感特征,但是各部分之間全局性的聯(lián)系容易被人們忽略,卷積操作中感受野的局部相關(guān)性也使部分大尺度特征被遺漏.為了提取有效的全局情感特征,本方法引入在ImageNet ?[36]上預(yù)訓(xùn)練ViT網(wǎng)絡(luò) ?[37]作為特征提取的骨干網(wǎng)絡(luò).基于Transformer架構(gòu)的ViT 是基于多頭自注意力機(jī)制的一種神經(jīng)網(wǎng)絡(luò),利用自注意力機(jī)制可以有效提取全局性特征,ViT網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.
具體來說,使用四通道ViT對圖片進(jìn)行特征提取再整合,獲得全局特征信息.ViT首先進(jìn)行分塊和平展,并使用可訓(xùn)練的線性投影將其映射輸出,成為固定大小的補(bǔ)丁嵌入.為了補(bǔ)充分割圖塊時丟失的位置信息,在每一個圖塊補(bǔ)丁前加上位置嵌入,如圖2所示.其中,位置中的0是額外增加的可學(xué)習(xí)嵌入[*].最終的嵌入向量序列作為Transformer編碼器的輸入,基于自注意力機(jī)制提取相關(guān)特征.輸出的向量序列與輸入序列長度相同,其中位置0得到了所有圖塊之間的相關(guān)性.最終整合的大尺度情感特征有效表征了圖片各部分之間的關(guān)聯(lián)信息和全局信息.
2.1.2 局部特征 ?多數(shù)圖片中局部的重要性不同 ?[38],因此在提取圖片情感特征時有必要考慮到局部信息.圖片情感分析研究中提取的特征一般包含低層視覺內(nèi)容、中層語義和深度特征.傳統(tǒng)手工特征包括顏色、紋理和形狀輪廓等,但是隨著數(shù)據(jù)量增大和數(shù)據(jù)內(nèi)容豐富度增加,深度特征更能表征抽象的局部情感特征,也更加具有魯棒性.因此本文采用基于殘差結(jié)構(gòu)的ResNet卷積架構(gòu)進(jìn)行深層情感特征的提取,圖3所示是ResNet中基本殘差單元的結(jié)構(gòu)示意圖.表征的深度對于視覺識別任務(wù)是至關(guān)重要的 ?[35],而ResNet網(wǎng)絡(luò)結(jié)構(gòu)可以通過堆疊基本殘差單元來加深網(wǎng)絡(luò)的深度,在增加表征深度時避免因網(wǎng)絡(luò)過深產(chǎn)生梯度爆炸等問題.
2.1.3 特征融合 ?為了融合提取的不同尺度的特征,使用具有推理多個輸入內(nèi)在關(guān)系能力的Transformer編碼器網(wǎng)絡(luò),綜合挖掘圖片的情感信息.Transformer編碼器的輸入為特征提取模塊中提取的五個特征向量以及一個額外添加的可學(xué)習(xí)嵌入塊,學(xué)習(xí)最終的主導(dǎo)情緒分類和標(biāo)簽分布預(yù)測信息.
2.2 分布學(xué)習(xí)
現(xiàn)有的大多數(shù)圖片情感分析工作往往使用單標(biāo)簽預(yù)測主導(dǎo)情緒的類別,簡化了情緒的復(fù)雜度.多標(biāo)簽中一個實例具有多個標(biāo)簽,但是標(biāo)簽沒有權(quán)重,標(biāo)簽之間的相對重要性無法體現(xiàn).而標(biāo)簽分布學(xué)習(xí)對實例的描述包括各個標(biāo)簽的程度,表示該標(biāo)簽相對于示例的重要程度.
圖4為三種標(biāo)簽分配方式示例,圖片及標(biāo)注來自Flickr_LDL ?[32]數(shù)據(jù)集.由于情感的主觀性和復(fù)雜性,不同的人對同一張圖片的情感有不同的判斷,同一個人對同一張圖片也可能有多種情感產(chǎn)生,包括主導(dǎo)情緒和其他情緒.例如對圖4左邊的風(fēng)景,多數(shù)人會感到敬畏,也有人會產(chǎn)生愉快、激動等情緒.而單標(biāo)簽和多標(biāo)簽都不能充分表現(xiàn)圖片情感的特征與聯(lián)系.因此,使用標(biāo)簽分布學(xué)習(xí)更能描述情感的模糊性與情感間的聯(lián)系.Kullback-Leibler (KL) ?[39]loss是用于分布學(xué)習(xí)的損失函數(shù),能衡量由于預(yù)測分布與標(biāo)記分布不一致而導(dǎo)致的信息損失,見式(1).
L=- 1 N ∑ ?N ?i=1 ∑ ?C ?j=1 ?y ??ij ln ??y ︿ ???ij ?(1)
其中, y 表示從數(shù)據(jù)集標(biāo)記的情緒分布; ?y ︿ ?表示預(yù)測的情緒分布; N 表示特定數(shù)據(jù)集中圖片的數(shù)量; C 表示所涉及的情感類別.
3 實驗結(jié)果與分析
3.1 數(shù)據(jù)集
本文在兩個大型公共圖片情感分布數(shù)據(jù)集上評估了提出的方法:Flickr_LDL和Twitter_LDL ?[32].FlickrLDL和TwitterLDL是兩個主要用于情緒分布學(xué)習(xí)的數(shù)據(jù)集,它們的標(biāo)簽屬于典型的八種情緒分類:anger、 amusement、awe、contentment、disgust、excitement、fear和sadness.Flickr_LDL包含11 150張圖片,Twitter_LDL包含 10 045張圖片,多名參與者根據(jù)8種情緒對這些圖像進(jìn)行了標(biāo)記,標(biāo)記通常將歸一化為概率值作為情感分布的真實值標(biāo)簽.
3.2 實施細(xì)節(jié)
在實驗中,深度骨干網(wǎng)絡(luò)使用Resnet-101 ?[35]架構(gòu),在大規(guī)模視覺識別數(shù)據(jù)集ImageNet ?[36]上進(jìn)行預(yù)訓(xùn)練,取消最后一層輸出分類的全連接層.局部特征骨干網(wǎng)絡(luò)使用ViT ?[37]預(yù)訓(xùn)練的網(wǎng)絡(luò)架構(gòu),更改輸出特征為1024維,與深度特征融合后輸入全連接層.Flickr_LDL和Twitter_LDL被隨機(jī)分割為訓(xùn)練集(80%)和測試集(20%).對于訓(xùn)練/測試集,將圖像統(tǒng)一調(diào)整為500×500后隨機(jī)裁剪到224×224,并以0.5的概率進(jìn)行水平翻轉(zhuǎn).網(wǎng)絡(luò)以端到端方式訓(xùn)練,使用KL loss和交叉熵進(jìn)行學(xué)習(xí).初始學(xué)習(xí)率為0.001,每10個回合除以10,總回合數(shù)為50,網(wǎng)絡(luò)整體參數(shù)量約為500 M.網(wǎng)絡(luò)框架使用PyTorch實現(xiàn),實驗環(huán)境為Ubuntu 18.04,NVIDIA GTX 3090Ti GPU.
3.3 與其他方法對比
為了驗證所提出模型的有效性,將其與之前的研究方法進(jìn)行了比較,主要分為以下四種類型.
(1) 問題轉(zhuǎn)換(Problem Transformation, PT).PT-Bayes和PT-SVM基于傳統(tǒng)的分類方法SVM和Naive Bayes,將標(biāo)簽分布學(xué)習(xí)問題轉(zhuǎn)化為加權(quán)的單標(biāo)簽學(xué)習(xí)問題 ?[27].
(2) 算法自適應(yīng)(Algorithm Adaptation, AA).將傳統(tǒng)的機(jī)器學(xué)習(xí)算法kNN和BP神經(jīng)網(wǎng)絡(luò)擴(kuò)展到處理標(biāo)簽分布學(xué)習(xí),分別用AA-knn和AA-BP表示 ?[27].
(3) 專用算法(Specialized Algorithm, SA).根據(jù)標(biāo)簽分布學(xué)習(xí)的特性設(shè)計的算法,包括SA-IIS ?[28]、SA-BFGS ?[27]和SA-CPNN ?[28].SA-IIS采用了一種類似于改進(jìn)迭代縮放的策略,假設(shè)每種情緒的概率為最大熵模型.基于IIS的SA-BFGS采用了一種有效的擬牛頓方法改進(jìn)優(yōu)化.SA-CPNN是條件概率神經(jīng)網(wǎng)絡(luò).
(4) 基于CNN的方法(CNN-based).CNNR ?[30]使用歐幾里德?lián)p失進(jìn)行學(xué)習(xí).DLDL ?[33]使用KL散度作為損失函數(shù).ACPNN ?[32]基于條件概率神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),將圖像標(biāo)簽編碼成二進(jìn)制表示來代替CPNN中使用的無符號整數(shù),并加入噪聲和增強(qiáng)情感分布進(jìn)行訓(xùn)練.JCDL ?[1]通過優(yōu)化KL loss和softmax loss聯(lián)合學(xué)習(xí)視覺情感的分布和分類.SSDL ?[31]采用結(jié)構(gòu)化稀疏標(biāo)注框架,考慮了情感的極性和強(qiáng)度特征.E-GCN ?[29]用圖卷積網(wǎng)絡(luò)捕獲情緒之間的相關(guān)性進(jìn)行情緒分布學(xué)習(xí).CSR ?[2]使用先驗知識,構(gòu)建環(huán)形情感向量表征并用于損失學(xué)習(xí).
根據(jù)文獻(xiàn)[27]的建議,實驗中使用了6種分布學(xué)習(xí)測量方法對結(jié)果進(jìn)行評價.其中,距離度量包括Chebyshev距離(↓)、Clark距離(↓)、Canberra度量(↓)和KL散度(↓).相似性度量包括Cosine系數(shù)(↑)和Intersection相似性(↑).向下的箭頭表示越低越好,向上的箭頭表示越高越好.此外,Clark距離和Canberra度量的最大值由情緒類別數(shù)決定,為進(jìn)行標(biāo)準(zhǔn)化比較,與之前的工作采用一樣的操作:將Clark距離除以情緒類別數(shù)的平方根,將Canberra度量除以情緒類別數(shù).此外,進(jìn)一步引入top-1準(zhǔn)確度作為評價指標(biāo),對主導(dǎo)情緒的預(yù)測情況進(jìn)行比較.
實驗結(jié)果如表1和表2所示,表中括號內(nèi)為指標(biāo)排名,最好結(jié)果加下劃線.從表中可以看出,在兩個公開的圖片情感分布數(shù)據(jù)集上,不同類型的方法有明顯不同的實現(xiàn)效果.基于問題轉(zhuǎn)換的方法(PT)將復(fù)雜的標(biāo)簽分布任務(wù)轉(zhuǎn)化為簡單的單標(biāo)簽任務(wù),然而對于分布間相關(guān)性的學(xué)習(xí)可能不敏感,因此六個指標(biāo)的平均排名(Average Rank)和主導(dǎo)標(biāo)簽分類準(zhǔn)確度排名都基本處于最后.基于算法自適應(yīng)的方法(AA)在已有的機(jī)器學(xué)習(xí)算法上進(jìn)行拓展,其中kNN算法特別適合多分類問題,特別是對類域的交叉或重疊較多的待分樣本集,因此在Clark距離和Canberra度量兩個指標(biāo)上取得了極好的結(jié)果.專用算法(SA)是為特定的標(biāo)簽分布問題設(shè)計,充分考慮了標(biāo)簽分布問題的特性,取得了不錯的結(jié)果.與傳統(tǒng)方法相比,基于CNN的方法(CNN-based)獲得了顯著的性能提升,證明了其在特征提取方面的優(yōu)勢.而本文提出的方法綜合考慮了局部深層特征和全局特征與其之間的相關(guān)性,在兩個廣泛使用的數(shù)據(jù)集上都獲得了更好的分類和分布結(jié)果,證明了所提方法的優(yōu)越性.
數(shù)據(jù)集預(yù)測實例如圖5所示,分別展示了實驗結(jié)果中預(yù)測效果的正反例.可以看出,圖5a中對于主導(dǎo)情緒Contentment和整體情緒分布的預(yù)測都比較準(zhǔn)確;而圖5b中對于主導(dǎo)情緒Fear和情緒分布的預(yù)測都有所偏差,情緒分布中近似出現(xiàn)了兩個峰值.說明圖片中多種元素的風(fēng)格一致性會對分布結(jié)果產(chǎn)生一定影響,圖5b中的黑貓和花朵兩類元素對比較為強(qiáng)烈,影響了識別結(jié)果.同時也說明了對于同一張圖片,其表現(xiàn)的情緒較為復(fù)雜,如何準(zhǔn)確檢測圖片情緒需要進(jìn)一步研究.
3.4 消融實驗
為了驗證所提出 模型中各個模塊的有效性,本文設(shè)計了消融實驗.實驗包括三個部分,第一部分使用在ImageNet上預(yù)訓(xùn)練Resnet-101網(wǎng)絡(luò)和單標(biāo)簽分類常用的交叉熵進(jìn)行學(xué)習(xí);第二部分增加ViT通道提取特征;第三部分增加KL損失學(xué)習(xí)分布特征.
實驗結(jié)果如表3所示,消融實驗在Flickr_LDL和Twitter_LDL兩個數(shù)據(jù)集上都表現(xiàn)出了相似的效果.具體而言,僅使用ResNet網(wǎng)絡(luò)進(jìn)行特征提取和學(xué)習(xí)時結(jié)果很差,標(biāo)簽分布預(yù)測的六個指標(biāo)和主導(dǎo)情緒分類的準(zhǔn)確率指標(biāo)都沒有達(dá)到很好的結(jié)果.在融入ViT模塊進(jìn)行特征提取后,主導(dǎo)情緒分類的準(zhǔn)確率有了明顯的提升,但是分布學(xué)習(xí)指標(biāo)結(jié)果變差.表明ViT能提取更多的抽象情感特征,彌補(bǔ)局部特征的不足,實現(xiàn)更高的主導(dǎo)情緒分類準(zhǔn)確率,但是沒有考慮其他非主導(dǎo)情緒之間的相關(guān)性,對于標(biāo)簽分布學(xué)習(xí)還存在局限性.在加入KL損失函數(shù)模塊后,主導(dǎo)情緒分類準(zhǔn)確率和分布學(xué)習(xí)指標(biāo)都有提升,所有指標(biāo)達(dá)到了最佳結(jié)果.表明了KL損失模塊對于標(biāo)簽分布預(yù)測的有效性,并且提高分布學(xué)習(xí)的預(yù)測效果的同時也提高了主導(dǎo)情緒分類的準(zhǔn)確率.最終提出的模型取得了最好的分布預(yù)測結(jié)果和分類結(jié)果,證明了模型的有效性和模型各部分的必要性.
4 結(jié) 論
針對圖片情感分析研究中單一情緒無法表征具有模糊性的圖片情緒的分布問題和對圖片的視覺情感特征提取不夠充分的問題,本文使用ViT和Resnet網(wǎng)絡(luò)進(jìn)行多尺度情感特征提取并進(jìn)行特征層融合推理,實現(xiàn)標(biāo)簽分布預(yù)測和主導(dǎo)情緒分類兩個任務(wù).消融實驗和對比實驗的結(jié)果表明,ViT能提取更多的全局抽象情感特征,彌補(bǔ)局部深層特征的不足;KL損失模塊在優(yōu)化標(biāo)簽分布預(yù)測結(jié)果的同時沒有抑制主導(dǎo)情緒分類的識別效果,進(jìn)一步提升了主導(dǎo)情緒分類的準(zhǔn)確率;最終模型在廣泛使用的Flickr_LDL和Twitter_LDL數(shù)據(jù)集上對于標(biāo)簽分布預(yù)測和主導(dǎo)情緒分類兩個任務(wù)都取得了良好結(jié)果,證明了所提出模型的有效性.我們會繼續(xù)研究情緒特征的更多表示方法,進(jìn)一步優(yōu)化圖片情感特征提取方法.
參考文獻(xiàn):
[1] ??Yang J, She D, Sun M. Joint image emotion classification and distribution learning via deep convolutional neural network [C]// Proceedings ?of the 26th International Joint Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2017: 3266.
[2] ?Yang J Y, Li J, Li L D, ?et al. ?A circular-structured representation for visual emotion distribution learning [C]// Proceedings ?of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2021: 4235.
[3] ?Chen Q, Zhang W, Zhou N, ?et al . Adaptive fractional dilated convolution network for image aesthetics assessment [C]//Proceedings ?of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: 14114.
[4] ?Hosu V, Goldlucke B, Saupe D. Effective aesthetics prediction with multi-level spatially pooled features [C]// Proceedings ?of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 9375.
[5] ?Sidorov O. Changing the image memorability: from basic photo editing to GANs [C] // Proceedings ?of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE Press, 2019.
[6] ?Li Z, Fan Y, Jiang B, ?et al . A survey on sentiment analysis and opinion mining for social multimedia[J]. Multimed Tools Appl, 2019, 78: 6939.
[7] ?王仁武, 孟現(xiàn)茹. 圖片情感分析研究綜述[J]. 圖書情報知識, 2020, 195: 121.
[8] ?杜茂康, 李曉光, 劉崠. ?融合遺傳算法的特定領(lǐng)域情感詞庫構(gòu)建 [J].重慶郵電大學(xué)學(xué)報: 自然科學(xué)版, 2022, 34: 576.
[9] ?Machajdik J, Hanbuby A. Affective image classification using features inspired by psychology and art theory [C]// Proceedings ?of the 18th ACM International Conference on Multimedia. New York: ACM Press, 2010: 83.
[10] ?Lu X, Suryanarayan P, Adams Jr R B, ?et al . On shape and the computability of emotions [C]// Proc of the 20th ACM International Conference on Multimedia. New York: ACM Press, 2012: 229.
[11] Zhao S, Gao Y, Jiang X, ?et al . Exploring principles-of-art features for image emotion recognition [C]// Proceedings ?of the 22 th ACM International Conference on Multimedia. New York: ACM Press, 2014: 47.
[12] Borth D, Ji R, Chen T, et al . Large-scale visual sentiment ontology and detectors using adjective noun pairs [C]// Proceedings ?of the 21 th ACM International Conference on Multimedia. New York: ACM Press, 2013: 223.
[13] Lu Z, Wang L, Wen J R. Image classification by visual bag-of-words refinement and reduction[J].Neurocomputing, 2016, 173: 373.
[14] 文虹茜, 卿粼波, 晉儒龍, 等. 基于表情及姿態(tài)融合的情緒識別[J]. 四川大學(xué)學(xué)報:自然科學(xué)版, 2021, 58: 043002.
[15] 王化明, ?劉茂興, ?熊峻峰, ?等. 基于深度學(xué)習(xí)的牙刷姿態(tài)識別方法[J]. 江蘇大學(xué)學(xué)報: 自然科學(xué)版, 2021, 42: 298.
[16] 李婷婷, 胡玉龍, 魏楓林. ?基于GAN改進(jìn)的人臉表情識別算法及應(yīng)用[J]. 吉林大學(xué)學(xué)報: 理學(xué)版, 2020, 58: 605.
[17] 楊宇, 崔陶. 基于深度學(xué)習(xí)和水平集的彩色圖像分割方法[J]. 四川大學(xué)學(xué)報:自然科學(xué)版, 2021, 58: 041004.
[15] 晉儒龍, 卿粼波, 文虹茜. 基于注意力機(jī)制多尺度網(wǎng)絡(luò)的自然場景情緒識別[J]. 四川大學(xué)學(xué)報:自然科學(xué)版, 2022, 59: 012003.
[19] Chen M, Zhang L, Allebach J P. Learning deep features for image emotion classification [C]// Proceedings of IEEE International Conference on Image Processing. Piscataway: IEEE Press, 2015: ?4491.
[20] Zhao S, Zhao X, Ding G, ?et al . Emotiongan: unsupervised domain adaptation for learning discrete probability distributions of image emotions [C]// Proceedings of the 26th ACM International Conference on Multimedia. New York: ACM Press, 2018: 1319.
[21] You Q, Luo J, Jin H, ?et al . Robust image sentiment analysis using progressively trained and domain transferred deep networks [C]// Proceedings of the 29th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2015: 381.
[22] Rao T, Li X, Xu M. Learning multi-level deep representations for image emotion classification[J].Neural Process Lett, 2020, 51: 2043.
[23] Tripathi S, Acharya S, Sharma R D, ?et al . Using deep and convolutional neural networks for accurate emotion classification on DEAP dataset [C]// Proceedings of the 31th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2017: 4746.
[24] Chen S, Wang J, Chen Y, ?et al . Label distribution learning on auxiliary label space graphs for facial expression recognition [C]// Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: ?13984.
[25] Zhang Z, Lai C, Liu H, ?et al . Infrared facial expression recognition via Gaussian-based label distribution learning in the dark illumination environment for human emotion detection [J]. Neurocomputing, 2020, 409: 341.
[26] Zhao Z, Liu Q, Zhou F. Robust lightweight facial expression recognition network with label distribution training [C]//Proceedings of the 35th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2021: 3510.
[27] Geng X. Label distribution learning[J]. IEEE T Knowl Data En, 2016, 28: 1734.
[28] Geng X, Yin C, Zhou Z H. Facial age estimation by learning from label distributions[J]. IEEE T Pattern Anal, 2013, 35: 2401.
[29] He T, Jin X. Image emotion distribution learning with graph convolutional networks [C]//Proceedings of the 2019 on International Conference on Multimedia Retrieval. New York: ACM Press, 2019: 382.
[30] Peng K C, Chen T, Sadovnik A, ?et al . A mixed bag of emotions: model, predict, and transfer emotion distributions [C]// Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2015: 860.
[31] Xiong H, Liu H, Zhong B, ?et al . Structured and sparse annotations for image emotion distribution learning [C]// Proceedings of the 33th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 363.
[32] Yang J, Sun M, Sun X. Learning visual sentiment distributions via augmented conditional probability neural network [C]// Proceedings of the 31th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2017: 224.
[33] Gao B B, Xing C, XIE C W, ?et al . Deep label distribution learning with label ambiguity [J]. IEEE T Image Process, 2017, 26: 2825.
[34] 孟祥瑞, 楊文忠, 王婷. 基于圖文融合的情感分析研究綜述[J]. 計算機(jī)應(yīng)用, 2021, 41: 307.
[35] He K, Zhang X, Ren S, ?et al . Deep residual learning for image recognition [C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770.
[36] Deng J, Dong W, Socher R, ?et al . Imagenet: A large-scale hierarchical image database [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2009: 248.
[37] Dosovitskiy A, Beyer L, Kolesnikov A, ?et al . An image is worth 16x16 words: ?transformers for image recognition at scale[EB/OL].[2022-07-01].https:∥ arxiv.org/pdf/2010.11929v1.pdf.
[38] Sun M, Yang J, Wang K, ?et al . Discovering affective regions in deep convolutional neural networks for visual sentiment prediction [C]// Proceedings of IEEE International Conference on Multimedia and Expo. Piscataway: IEEE Press, 2016: 1.
[39] Kullback S, Leibler R A. On information and sufficiency [J]. Ann Math Stat, 1951, 22: 79.