陳 墨,郭 雷
CHEN Mo,GUO Lei
西北工業(yè)大學(xué) 自動化學(xué)院,西安 710072
School ofAutomation,Northwestern Polytechincal University,Xi’an 710072,China
情感計算被定義為“與情感有關(guān)、能夠激起或者影響情感活動的相關(guān)計算”最早由Picard于1995年提出[1]。情感計算被認(rèn)為是一種橫跨計算機科學(xué)、心理學(xué)和認(rèn)知科學(xué)的跨專業(yè)學(xué)科[2-3]。多媒體刺激的情感標(biāo)簽標(biāo)注是情感計算的一個重要領(lǐng)域[3]。在該領(lǐng)域,研究者們的工作主要可以分為兩類。其中一類,研究者們通過直接分析刺激的音視頻內(nèi)容確定對應(yīng)刺激的情感標(biāo)簽,這類研究可被稱為外顯式情感標(biāo)注。研究者通過分析該刺激所引起的被試的響應(yīng)確定多媒體刺激喚起的情感類型屬于另一類方法,這類研究也可被稱為內(nèi)隱式情感標(biāo)簽標(biāo)注,使用的生理信號包括腦電圖、外周生理信號、面部表情等[4]。
本文作者Chen等[5]提出了一個新的進(jìn)行情感標(biāo)簽標(biāo)注的架構(gòu)。在這個架構(gòu)中,作者引進(jìn)了大腦編解碼的概念以解決內(nèi)隱式情感計算中生理信號采集成本高時間長、可用數(shù)量少的問題,其中該工作使用的大腦編碼思想也被其他文獻(xiàn)采用[6-7]?;谖墨I(xiàn)[5]提出的框架,多媒體刺激缺失的生理響應(yīng)特征可以由此補全,并進(jìn)一步充分利用視頻刺激和大腦響應(yīng)兩方面的信息從而提高多媒體情感標(biāo)簽標(biāo)注的準(zhǔn)確性。
但該大腦編解碼框架[5]主要關(guān)注點是通過大腦編碼補全缺失模態(tài)提升情感標(biāo)簽標(biāo)注的總體性能,對其中各因素對最終性能的影響并未進(jìn)行分析。而在外顯式情感標(biāo)注和內(nèi)隱式情感標(biāo)注中,研究者們都分析了音頻信號在喚起被試情感的過程中所起的作用。在外顯式情感標(biāo)簽標(biāo)注文獻(xiàn)[8]中,作者強調(diào)了音頻特征的重要性,認(rèn)為與視頻信號相比,音頻信號與刺激的情感類型的相關(guān)性較高的。此外有部分情感標(biāo)簽標(biāo)注工作著重于單獨分析音頻信號的作用[9-10]。但以上兩個工作僅使用音頻信號作為刺激,并沒有與視頻信號對照分析。因此討論音頻信號在該框架下對多媒體情感標(biāo)簽標(biāo)注的重要性就成為一個有意義的研究主題。
為分析音頻信號對文獻(xiàn)[5]中提出的多媒體刺激情感標(biāo)簽標(biāo)注框架性能的影響,本文提出在該框架下固定框架內(nèi)其他可變因素,如大腦特征模板、進(jìn)行大腦編碼的回歸器、模態(tài)融合和分類器等,分別僅使用視頻特征進(jìn)行情感標(biāo)注和聯(lián)合使用音視頻特征進(jìn)行同樣任務(wù),并通過對比以上兩者之間準(zhǔn)確率的差異分析音頻信號在該框架下對情感標(biāo)簽標(biāo)注的重要性。
本文其余部分組織如下:首先在第2章研究方法中本文描述了文中工作的框架和細(xì)節(jié)。在第3章實驗設(shè)計與實驗結(jié)果中本文描述了實驗的具體步驟,包括使用的基準(zhǔn)數(shù)據(jù)庫和腦電信號預(yù)處理等,并按照2.6節(jié)情感標(biāo)簽辨識中的描述的情感標(biāo)簽辨識標(biāo)注方法對多媒體刺激進(jìn)行標(biāo)注給出其準(zhǔn)確率結(jié)果。最后本文在第4章結(jié)束語中討論了音頻信號對文獻(xiàn)[5]提出框架下的情感標(biāo)簽標(biāo)注性能的影響和未來該方向的可能擴(kuò)展工作。
本文稱直接從多媒體刺激上提取的視頻特征和音頻特征為底層特征,稱從被試腦電信號提取的特征為高級特征。本文使用文獻(xiàn)[5]提出的架構(gòu),針對具有被試響應(yīng)的多媒體刺激首先提取其底層特征和高級特征,之后使用這兩種特征訓(xùn)練大腦編碼模型;針對沒有被試響應(yīng)的多媒體視頻,則首先提取其底層特征并使用底層特征,再結(jié)合訓(xùn)練獲得的大腦編碼模型預(yù)測與該視頻對應(yīng)的高層特征。在完成測試視頻的高層特征預(yù)測步驟之后,將所有視頻的底層特征與高層特征進(jìn)行特征融合獲得融合特征,最后使用融合特征進(jìn)行多媒體刺激的情感標(biāo)簽標(biāo)注。
本文底層特征包括所述一種音頻特征與三種視頻特征。本節(jié)中所述底層特征在后續(xù)章節(jié)中生成兩類六組用于大腦編碼模型訓(xùn)練、腦電響應(yīng)補全和特征融合生成融合特征。
2.2.1 音頻特征提取
為提取多媒體刺激的音頻特征,本文通過音視頻分離工具從多媒體刺激中分離出音頻信號。對分離后的原始音頻信號首先進(jìn)行降采樣操作,其采樣率由44 100 Hz降至22 050 Hz,降采樣后雙聲道信號轉(zhuǎn)換為單聲道信號。
本文按照已有文獻(xiàn)[5,11]中相關(guān)內(nèi)容,提取了單聲道音頻信號的平均能量和5 500 Hz以下的諧波分量。本文還提取了Mel-frequency類特征。Mel-frequency方法由Mermelstein[12]于1976年提出,并被應(yīng)用于語音分析等文獻(xiàn)[5,13]。為提取特征,本文使用MIRToolbox工具箱[14]提取音頻信號的Mel-frequency特征,其中包括MFC coefficients、derivative of MFC coefficients、autocorrelation of MFC coefficients、spectral flux、delta spectrum magnitude、band energy ratio、spectral centroid、pitch、zero cross rate、zero cross rate standard deviation和silence ratio等。
2.2.2 視頻特征提取
本文共提取三類視頻特征,分別使用DEAP[11]、ImageNet[15]和SentiBank[16]工作中所描述方法進(jìn)行提取。
DEAP特征是Keolstra等。在2012年發(fā)表工作[11]使用的一系列視頻特征的集合,由一組基于關(guān)鍵幀的特征和基于連續(xù)幀的特征構(gòu)成。為提取該類視頻特征,本文首先將視頻轉(zhuǎn)換為MPEG-1編碼,之后提取視頻的所有I-Frame以便進(jìn)一步提取視頻特征。
本文在每個視頻的I-Frame上提取了key lighting、colorvariance、median luminance、histogram ofhue and histogram of values等特征,之后計算所有I-frame幀特征的均值,其結(jié)果作為該視頻的對應(yīng)特征值使用。
本文在每個視頻上提取了grayness、fast motion、visual excitement、shot change rate 和 stand variation of shot durations等基于視頻內(nèi)容的特征。
本文使用的ImageNet特征是基于Baveye等于2015年提出的一個基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的視頻情感標(biāo)注方法[15]使用的基于幀內(nèi)容的特征。本文采用視頻關(guān)鍵幀集合對視頻整體進(jìn)行描述的思路,使用預(yù)先訓(xùn)練完畢的ImageNet模型提取每個關(guān)鍵幀的ImageNet特征,最后計算所有關(guān)鍵幀的ImageNet特征的均值被作為該視頻的ImageNet視頻特征。
與視頻ImageNet特征提取類似,對SentiBank的視頻特征提取也基于對應(yīng)視頻的關(guān)鍵幀進(jìn)行。本文首先提取了每個視頻的關(guān)鍵幀,利用其預(yù)先訓(xùn)練完畢的DeepSentiBank模型對每個關(guān)鍵幀提取SentiBank特征,所有關(guān)鍵幀的SentiBank特征的均值被視為該視頻的SentiBank特征。
本文使用功率譜密度(Power Spectral Density,PSD)特征來表征被試在觀看多媒體刺激時的大腦做出對應(yīng)響應(yīng)的EEG信號。
信號f()
t功率譜密度可以按照如下公式計算:
腦電PSD特征可依據(jù)信號來源分為兩類。本文在單通道EEG信號上計算了 θ(4~8 Hz),慢 α(8~10 Hz),快 α(10~12 Hz),β(12~30 Hz)和 γ(30~47 Hz)共5個波段上的PSD特征。在對稱電極的EEG差值信號上,本文計算了 θ(4~8 Hz),α(8~12 Hz),β(12~30 Hz)和γ(30~47 Hz)共4個波段上的PSD特征。
為便于使用計算機進(jìn)行計算,在實際計算中本文采用Welch方法[17]計算兩類腦電信號的PSD特征。
由于并非所有的腦電PSD特征都具有辨識多媒體刺激的情感標(biāo)簽的能力,本文在完成腦電信號 PSD特征提取后使用Fisher Linear Discriminant對腦電特征進(jìn)行選擇。其計算公式如下:其中μ1i和μ2i分別代表屬于兩類樣本的第i維特征的均值,和代表其對應(yīng)的方差。給定閾值θ后,在特征選擇結(jié)果中僅保留滿足Ji≥θ的對應(yīng)特征。
大腦編碼原理可由下式進(jìn)行一般性描述[5]:
其中Y和X分別為高層特征和底層特征,在本文中為腦電PSD特征和音視頻特征,本文假設(shè)σ為白噪聲。
本文采用支持向量回歸器[18]作為大腦編碼工具,使用同時具有底層特征與腦電特征的樣本進(jìn)行訓(xùn)練以獲取從底層特征影射至腦電特征的大腦編碼模型 f。在取得大腦編碼模型 f后,以沒有對應(yīng)腦電信號的多媒體視頻刺激的底層特征為輸入,通過大腦編碼模型取得這些視頻可能喚起的腦電PSD特征。
本文采用Guo等提出的多視角模態(tài)特征融合方法[19]。該方法具有能夠自動選擇模態(tài)權(quán)重的優(yōu)點。原始文獻(xiàn)[19]中的參數(shù)n代表聚類數(shù)量,本文中用n確定融合特征的維數(shù),與文獻(xiàn)[5]相同。
本文采用機器學(xué)習(xí)方法中的支持向量機(Support Vector Machine,SVM)對多媒體視頻刺激的情感標(biāo)簽進(jìn)行辨識,其具體實現(xiàn)為libSVM[20]。
本文采用DEAP數(shù)據(jù)庫[11]作為測試基準(zhǔn)。該數(shù)據(jù)庫擁有120段視頻,每段視頻長度為60 s。其中的40段視頻具有對應(yīng)的生理響應(yīng)信號,作者一共采集了32個被試的生理響應(yīng)信號。這40段視頻被作為訓(xùn)練集,用于訓(xùn)練大腦編碼模型和情感標(biāo)簽標(biāo)注分類器。其余的80段視頻用于性能測試。
本文按照2.2節(jié)底層特征提取中所述方法對所有的多媒體視頻刺激提取其音頻特征和視頻特征。
DEAP數(shù)據(jù)庫中腦電信號的原始采樣頻率為512 Hz,在預(yù)處理中首先將腦電信號降采樣至128 Hz,之后移除偽跡以進(jìn)行后續(xù)操作。
在完成腦電信號特征提取步驟后,本文按照文獻(xiàn)[5]中的方案對每個被試進(jìn)行留一法情感標(biāo)簽標(biāo)注測試。以分類準(zhǔn)確率為指標(biāo),最高標(biāo)注準(zhǔn)確率對應(yīng)的被試及其特征選擇閾值所給出的腦電特征被用作大腦編碼模型訓(xùn)練的腦電特征模板。
為分析音頻信號對最終結(jié)果的影響,實驗中共使用兩組共六類底層特征,其中一組只使用視頻特征如DEAP、ImageNet和SentiBank,使用此類特征的準(zhǔn)確率被用作比較基準(zhǔn);另一組使用聯(lián)合底層特征如DEAP+音頻、ImageNet+音頻和SentiBank+音頻,其結(jié)果與基準(zhǔn)進(jìn)行比較計算由于加入音頻特征引起的性能改變。
根據(jù)第2章研究方法所述,本文首先使用訓(xùn)練集的一種底層特征和對應(yīng)的腦電特征模板訓(xùn)練大腦編碼模型,之后在此基礎(chǔ)上使用測試集上的同種底層特征和訓(xùn)練好的大腦編碼模型預(yù)測測試集視頻對應(yīng)的腦電PSD特征。在特征融合步驟中,訓(xùn)練集和測試集的底層特征與腦電PSD特征進(jìn)行多模態(tài)融合獲取融合特征。在情感標(biāo)簽辨識步驟中,本文首先將融合特征進(jìn)行分離重新分為訓(xùn)練集和測試集,之后使用SVM對測試集的情感標(biāo)簽進(jìn)行辨識并測量辨識性能。其結(jié)果在3.2節(jié)實驗結(jié)果中予以闡述。
實驗結(jié)果如表1和表2所示。兩表中視頻特征指底層特征僅使用對應(yīng)列所指的視頻特征類型,聯(lián)合特征指底層特征使用對應(yīng)列所指視頻特征類型+音頻特征。表中以粗體顯示較高的結(jié)果。
表1 Valence水平標(biāo)注結(jié)果
表2 Arousal水平標(biāo)注結(jié)果
從表格所示結(jié)果可以看出,對所有三種視頻特征,在增加音頻特征后按照文獻(xiàn)[5]進(jìn)行的情感標(biāo)簽標(biāo)注的準(zhǔn)確性均有不同程度的提高。音頻特征對valence水平情感標(biāo)簽標(biāo)注的貢獻(xiàn)分別為0.05(DEAP)、0.025(Image Net)和 0.025(SentiBank),對 arousal情感水平標(biāo)簽標(biāo)注準(zhǔn)確率提升的貢獻(xiàn)分別為0.1(DEAP)、0.05(ImageNet)和0.025(SentiBank)。
通過以上比對可以推論,在框架[5]下,增加音頻特征可以提高該框架對情感標(biāo)簽標(biāo)注的性能。
本文對基于大腦編解碼框架下[5]音頻信號對情感標(biāo)簽標(biāo)注性能的影響進(jìn)行了分析。通過比對同類視頻特征在是否聯(lián)合使用音頻特征情況下最終分類準(zhǔn)確率,本文推論在控制框架內(nèi)其他因素的條件下,增加音頻特征可以提高該框架的標(biāo)注性能,且未出現(xiàn)因特征維數(shù)增加導(dǎo)致性能下降的情況。未來可將本工作的應(yīng)用范圍由DEAP數(shù)據(jù)庫擴(kuò)展至其他情感計算數(shù)據(jù)庫,實現(xiàn)跨數(shù)據(jù)庫的訓(xùn)練-標(biāo)注應(yīng)用。
參考文獻(xiàn):
[1]Picard R W.Affective computing,Technical Report 321[R].Cambridge,MA,USA:M I T Media Laboratory Perceptual Computing Section,1995.
[2]Tao J,Tan T.Affective computing:A review[M]//Affective Computing and Intelligent Interaction.Berlin Heidelberg:Springer,2005:981-995.
[3]Chen M,Han J,Guo L,et al.Identifying valence and arousal levels via connectivity between EEG channels[C]//International Conference on Affective Computing and Intelligent Interaction,Xi’an,Shaanxi,China,2015:63-69.
[4]Karyotis C,Doctor F,Iqbal R,et al.A fuzzy modelling approach of emotion for affective computing systems[C]//The First International Conference on Internet of Things and Big Data,Special Session,Recent Advancement in Internet of Things,Big Data and Security(RAIBS),2016.
[5]Chen M,Cheng G,Guo L.Identifying affective levels on music video via completing the missing modality[J].Multimedia Tools&Applications,2017(3):1-16.
[6]Yin Z,Zhao M,Wang Y,et al.Recognition of emotions using multimodal physiological signals and an ensemble deep learning model[J].Comput Methods Programs Biomed,2017,140:93-110.
[7]Han J,Zhang D,Wen S,et al.Two-stage learning to predict human eye fixations via SDAEs[J].IEEE Transactions on Cybernetics,2016,46:487-498.
[8]Wang H L,Cheong L F.Affective understanding in film[J].IEEE Transactions on Circuits and Systems for Video Technology,2006,16:689-704.
[9]Argstatter H.Perception of basic emotions in music:Culture-specific or multicultural?[J].Psychology of Music,2015,44:674-690.
[10]Naji M,F(xiàn)iroozabadi M,Azadfallah P.Emotion classification during music listening from forehead biosignals[J].Signal Image&Video Processing,2015,9(6):1365-1375.
[11]Koelstra S,Muhl C,Soleymani M,et al.DEAP:A database for emotion analysis using physiological signals[J].IEEE Transactions on Affective Computing,2012,3:18-31.
[12]Mermelstein P.Distance measures for speech recognition,psychological and instrumental[J].Pattern Recognition and Artificial Intelligence,1976,116:374-388.
[13]Ganchev T,F(xiàn)akotakis N,Kokkinakis G.Comparative evaluation of various MFCC implementations on the speaker verification task[C]//Proceedings of the SPECOM,2015:191-194.
[14]Lartillot O,Toiviainen P,Eerola T.A matlab toolbox for music information retrieval[C]//Preisach C,Burkhardt H,Schmidt-Thieme L,et al.Proceedings of the 31st Annual Conference of the Data Analysis,Machine Learning and Applications,Gesellschaft für Klassifikation eV,Albert-Ludwigs-Universit?t Freiburg,March 7-9,2007.Berlin Heidelberg:Springer,2008:261-268.
[15]Baveye Y,DellandréA E,Chamaret C,et al.Deep learning vs.kernel methods:Performance for emotion prediction in videos[C]//2015 International Conference on Affective Computing and Intelligent Interaction(ACII),Xi’an Shaanxi,China,2015:77-83.
[16]Chen T,Borth D,Darrell T,et al.DeepSentiBank:Visual sentiment concept classification with deep convolutional neural networks[J/OL].Computer Science,2014(2014-10-30)[2017-12-28].http://adsabs.harvard.edu/abs/2014arX-iv1410.8586C.
[17]Welch P D.The use of fast Fourier transform for the estimation of power spectra:A method based on time averaging over short,modified periodograms[J].IEEE Transactions on Audio and Electroacoustics,1967,15:70-73.
[18]Smola A,Vapnik V.Support vector regression machines[J].Advances in Neural Information Processing Systems,1997,9:155-161.
[19]Guo D,Zhang J,Liu X,et al.Multiple kernel learning based multi-view spectral clustering[C]//International Conference on Pattern Recognition,2014:3774-3779.
[20]Chang C C,Lin C J.LIBSVM:A library for support vector machines[J].ACM Trans Intell Syst Technol,2011,2:1-27.