江 筱 邵珠宏,3* 尚媛園,2 丁 輝,2
1(首都師范大學(xué)信息工程學(xué)院 北京 100048)2(北京成像技術(shù)高精尖創(chuàng)新中心 北京 100048)3(電子系統(tǒng)可靠性技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室 北京 100048)
抑郁癥是世界范圍內(nèi)最常見(jiàn)的精神疾病之一,其主要特點(diǎn)是情緒低落持續(xù)時(shí)間長(zhǎng),嚴(yán)重影響個(gè)人的日常生活和工作。據(jù)報(bào)道,重度抑郁癥(MDD)是導(dǎo)致殘疾的主要原因[1]。根據(jù)世界衛(wèi)生組織(WHO)的一項(xiàng)調(diào)查,抑郁癥是全球第四大致殘?jiān)颍⒃?020年成為頭號(hào)致殘?jiān)騕2]。
目前,對(duì)抑郁癥的篩查和診斷主要是根據(jù)患者在臨床訪談中的自我報(bào)告。在臨床訪談中,由一名經(jīng)過(guò)專門培訓(xùn)且經(jīng)驗(yàn)豐富的精神衛(wèi)生專業(yè)人員利用《精神障礙診斷與統(tǒng)計(jì)手冊(cè)》(DSM-IV)中規(guī)定的標(biāo)準(zhǔn)[3],來(lái)評(píng)估患者是否患有抑郁癥以及嚴(yán)重程度。除此之外,臨床實(shí)踐中的貝克抑郁量表(Beck Depression Inventory,BDI)[4]等自我報(bào)告量表也可作為診斷依據(jù)。貝克抑郁癥量表中包含21個(gè)問(wèn)題,每一個(gè)答案的分值為0~3,總分?jǐn)?shù)范圍為0~63。根據(jù)BDI-II[4],總分小于13分為“無(wú)”抑郁,14~19分為“輕度”抑郁,20~28分為“中度”抑郁,總分大于29分為“重度”抑郁。
研究表明,在人類的非語(yǔ)言行為中,人臉面部區(qū)域表情包含了大部分信息[5],利用人臉面部信息進(jìn)行臨床心理健康分析的研究引起了廣泛關(guān)注[7]。隨著情感感知和深度學(xué)習(xí)等技術(shù)的進(jìn)步[6],用計(jì)算機(jī)輔助抑郁癥自動(dòng)識(shí)別將有利于客觀的診斷。
音頻/視覺(jué)情感挑戰(zhàn)(AVEC2013)[8]和AVEC2014[9]的抑郁癥識(shí)別競(jìng)賽關(guān)注的是對(duì)抑郁癥自動(dòng)預(yù)測(cè)方法的研究,預(yù)測(cè)患者貝克抑郁癥量表II(BDI-II)分值。
在AVEC2013抑郁癥識(shí)別中,首先對(duì)人臉圖像做檢測(cè)與對(duì)齊的預(yù)處理,然后提取局部相位量化(LPQ)特征,最后采用支持向量回歸(SVR)來(lái)預(yù)測(cè)抑郁得分。Cummins等[10]在他們的抑郁癥識(shí)別系統(tǒng)中,對(duì)時(shí)間興趣點(diǎn)(SITPs)和梯度直方圖金字塔(PHOG)做了對(duì)比,實(shí)驗(yàn)表明,梯度直方圖金字塔方法取得了較好的效果。Meng等[11]利用基于動(dòng)態(tài)特征圖(MMH)來(lái)描述視頻的運(yùn)動(dòng)信息,然后提取邊緣方向直方圖(EOH)和局部二值模式(LBP)特征,最后利用最小二乘法(PLS)進(jìn)行回歸分析。Wen等[12]首先研究了從面部區(qū)域子空間中提取的三個(gè)正交平面的動(dòng)態(tài)描述子TOP-LPQ特征,利用sparse編碼計(jì)算行為模式字典,最后應(yīng)用判別映射和決策融合來(lái)提高診斷精度。
在AVEC2014抑郁癥識(shí)別中,首先提取局部動(dòng)態(tài)外觀描述符(LGBP-TOP),然后采用支持向量回歸預(yù)測(cè)得分。Kaya等[13]通過(guò)典型相關(guān)分析(CCA)和Moore-Penrose廣義逆(MPGI)引入了一個(gè)區(qū)域線性回歸集合。為了提高抑郁預(yù)測(cè)性能,Zhu等[14]提出了一種雙流框架,分別命名為外觀DCNN和動(dòng)態(tài)DCNN。Kang等[15]引入了一種基于視頻數(shù)據(jù)的深度轉(zhuǎn)換學(xué)習(xí)(DTL)方法用于抑郁癥的識(shí)別,該方法可以捕獲抑郁癥數(shù)據(jù)的非線性映射。Pampouchidou 等[16]通過(guò)使用來(lái)自Gabor抑制濾波數(shù)據(jù)的運(yùn)動(dòng)歷史圖像(MHI)的變體來(lái)代替原始圖像,研究了抑郁癥的分類評(píng)估。但以上方法只關(guān)注人臉全局信息,沒(méi)有考慮到局部特征對(duì)抑郁癥識(shí)別精度的影響。本文結(jié)合了全局特征和局部特征以及深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)抑郁癥自動(dòng)識(shí)別,實(shí)現(xiàn)了全局信息和局部信息的融合互補(bǔ)。實(shí)驗(yàn)結(jié)果表明,該方法具有較好的綜合性能,大大提高了人臉圖像預(yù)測(cè)抑郁癥BDI-II分值的精確度。同時(shí),本文采用了級(jí)聯(lián)深度神經(jīng)網(wǎng)絡(luò)提取圖像特征,加強(qiáng)了面部重點(diǎn)區(qū)域?qū)σ钟舭Y識(shí)別的影響,表達(dá)能力與針對(duì)性更強(qiáng),對(duì)抑郁癥的識(shí)別效果比一般的CNN神經(jīng)網(wǎng)絡(luò)算法[14-15]效果好。
為了充分利用圖像的全局信息和人臉區(qū)域的局部信息,使兩種信息達(dá)到互補(bǔ)的效果,本文提取全局特征、眼部局部特征和嘴部局部特征后分別輸入gloablDNN、localDNN1和localDNN2,經(jīng)過(guò)深度變換后在融合層拼接,最后輸入到DNN網(wǎng)絡(luò)預(yù)測(cè)抑郁癥評(píng)分。算法流程圖如圖1所示。
圖1 抑郁癥識(shí)別算法流程圖
在全局部分中,全局特征由FaceNet[17]提取。FaceNet是一個(gè)已經(jīng)在包含453 453幅人臉圖像的數(shù)據(jù)庫(kù)上預(yù)訓(xùn)練好的提取人臉特征的網(wǎng)絡(luò)。把從FaceNet中提取出的全局特征輸入globalDNN以獲得一個(gè)更緊致的特征表達(dá)。
DNN結(jié)構(gòu)如圖2所示。
圖2 DNN的結(jié)構(gòu)
假設(shè)DNN共有N層,第一層的輸出表示為:
y(1)=f(W(1)x+b(1))
(1)
式中:W(1)是權(quán)重矩陣,b(1)是偏移矩陣,f是非線性激活函數(shù),輸入y(1)同時(shí)是第二層的輸入。在DNN模型中的第m層的輸出表示為:
y(m)=f(W(m)y(m-1)+b(m))
(2)
在局部特征部分,本文結(jié)合了局部二值編碼和異或非對(duì)稱區(qū)域局部梯度編碼,對(duì)人臉圖像中的眼睛和嘴巴區(qū)域提取手工特征,分別將特征輸入局部網(wǎng)絡(luò)進(jìn)行處理?;诓噬珗D像的四元數(shù)處理和分析方法得到了廣泛的研究,其目標(biāo)是將彩色圖像的各個(gè)通道作為整體進(jìn)行編碼,如四元數(shù)貝塞爾傅里葉矩[18]、四元數(shù)局部排序二值模式[19]、核四元數(shù)主成分分析[20]、四元數(shù)中值濾波轉(zhuǎn)換矢量[21]。
fe(x,y)代表圖像塊的眼睛區(qū)域,可以表示為四元數(shù)矩陣:
fq(x,y)=ife,R(x,y)+jfe,G(x,y)+kfe,B(x,y)
(3)
式中:fe,R(x,y) 、fe,G(x,y) 、fe,B(x,y) 分別是彩色圖像fe(x,y)的紅、綠、藍(lán)三個(gè)通道。 為了獲得相位 L1,首先將式(3)進(jìn)行Clifford變換,即用fq(x,y)乘以純單位四元數(shù)p, 即可得到完全四元數(shù)矩陣:
(4)
(5)
式中:{α1α2α3}表示權(quán)重向量。LBP算子在一個(gè)3×3的圖像塊中計(jì)算,圖像塊Sm的中心點(diǎn)的值計(jì)算為:
(6)
(7)
根據(jù)運(yùn)算法則,經(jīng)過(guò)clifford變換不改變幅值,因此,可以用任意一個(gè)clifford變換的結(jié)果來(lái)計(jì)算幅值。異或非對(duì)稱區(qū)域局部梯度編碼考慮到中心像素值與鄰近像素之間的強(qiáng)度關(guān)系對(duì)局部區(qū)域的紋理特征進(jìn)行編碼。
選擇圖像塊大小為(2m+1)×(2n+1),把圖像塊分成如圖3所示的9個(gè)子塊,Rt表示子塊的中心像素值,編碼方式為:
P0:h(R1-R3),P1:h(R8-R4)
P2:h(R7-R5),P3:h(R1-R7)
P4:h(R2-R6),P5:h(R3-R5)
P6:h(R1-R5),P7:h(R3-R7)
(8)
圖3 AR-LGC的子塊
當(dāng)作用于中心像素點(diǎn)的鄰域窗口大小不一樣時(shí),可以得到兩個(gè)不同的二值序列PA和PB,則異或非對(duì)稱區(qū)域局部梯度編碼為:
(9)
圖4顯示了從眼睛區(qū)域提取特征的流程,對(duì)嘴巴區(qū)域提取特征的操作類似,這種編碼方法基于中心像素和周圍鄰域之間的灰度關(guān)系,結(jié)合了來(lái)自水平、垂直和對(duì)角方向的不同尺度的信息。
圖4 眼睛區(qū)域局部特征提取流程圖
將全局特征、眼部局部特征和嘴部局部特征分別輸入globalDNN、localDNN1和localDNN2,在融合層將輸出拼接在一起?;旌咸卣飨蛄縴mix表示為:
(10)
(11)
為了驗(yàn)證所提出方法的有效性,本文在AVEC 2013和AVEC2014抑郁癥競(jìng)賽數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
AVEC2013和AVEC2014抑郁癥數(shù)據(jù)集都是語(yǔ)音-視覺(jué)抑郁語(yǔ)言庫(kù)(AVid-Corpus)的子集,用于探究抑郁癥的嚴(yán)重程度。AVEC2013包含在自然條件下采集的82個(gè)人的150個(gè)視頻。這些視頻記錄了被試者完成給定任務(wù)的人機(jī)交互過(guò)程。視頻的長(zhǎng)度在20~50分鐘不等,平均是25分鐘。受試者的年齡從18~63歲不等。這些視頻隨機(jī)分為測(cè)試集、和訓(xùn)練集,比例為1∶1[14],且每個(gè)集合中抑郁分值樣本分布均衡。訓(xùn)練集用來(lái)訓(xùn)練深度模型,測(cè)試集用來(lái)測(cè)試模型識(shí)別抑郁癥的效果。抑郁癥的嚴(yán)重程度可根據(jù)貝克量表進(jìn)行評(píng)估。AVEC2013數(shù)據(jù)庫(kù)中的一些被試者如圖5(a)所示,他們?cè)阡浿茣r(shí)可以自由移動(dòng),包括說(shuō)話、移動(dòng)頭部和變換表情等。AVEC2014包含來(lái)自AViD-Corpus12個(gè)任務(wù)中的其中兩個(gè),分別被稱之為Freedom和Northwind。
(a) AVEC2013
本文采用了第一個(gè)任務(wù)中的視頻。同樣地,訓(xùn)練集用來(lái)訓(xùn)練深度模型,測(cè)試集用來(lái)測(cè)試模型識(shí)別抑郁癥的效果。AVEC2014數(shù)據(jù)庫(kù)中的一些被試者樣本如圖5(b)所示。
為了減少視頻中視頻幀冗余量,本文依據(jù)經(jīng)驗(yàn)值每十幀取一幀,在每個(gè)數(shù)據(jù)集上個(gè)提取了15 000幀圖像。并用Dlib進(jìn)行關(guān)鍵點(diǎn)檢測(cè)和人臉五官定位,將檢測(cè)后的圖像裁剪為256×256大小,用于實(shí)驗(yàn)。對(duì)于全局DNN的輸入,本文選取的是Facenet的映射層輸出特征向量xG,其維度是128維。globalDNN有四個(gè)全連接層,每層設(shè)置為128、56、16、1個(gè)輸出。對(duì)于局部特征的提取,參考四元數(shù)為q1= 0.992i+0.085 7j+0.090 7k、q2=0.091 2i+0.990 8j+0.099 9k、q3=0.085 2i+0.085 5j+0.992 7k。權(quán)重分別為{0.4,0.5,0.6}。在異或非對(duì)稱區(qū)域局部梯度編碼的提取過(guò)程中,其中一個(gè)鄰域大小被固定為3×3,另外一個(gè)鄰域從{5×5, 7×7, 9×9, 11×11}中取值。從眼睛區(qū)域提取特征為xL1,維度為2 048維,從嘴巴區(qū)域提取出的特征為xL2,1 024維。將localDNN1設(shè)置為5層,并且每一層的輸出分別為2 048、1 024、512、128、1。localDNN2設(shè)置為四層,每一層的神經(jīng)元個(gè)數(shù)為1 024、512、128、1。在訓(xùn)練過(guò)程中,使用的優(yōu)化器是Adam,學(xué)習(xí)率決定了找到網(wǎng)絡(luò)最優(yōu)參數(shù)的速度快慢,如果學(xué)習(xí)率太大,很可能會(huì)跳過(guò)網(wǎng)絡(luò)的最優(yōu)參數(shù),反之如果學(xué)習(xí)率過(guò)小,可能導(dǎo)致算法長(zhǎng)時(shí)間無(wú)法收斂。實(shí)驗(yàn)比較了不同的學(xué)習(xí)率對(duì)損失函數(shù)和對(duì)抑郁癥預(yù)測(cè)的影響,結(jié)果表明,當(dāng)初始學(xué)習(xí)率學(xué)習(xí)率被設(shè)置為10e-2,時(shí),RMSE和MAE的值最小,檢測(cè)性能最好。迭代次數(shù)為30 000,Batch size從{30,40,50}中取值。對(duì)于每一個(gè)測(cè)試視頻,對(duì)視頻中提取的每個(gè)幀的預(yù)測(cè)值取平均來(lái)計(jì)算預(yù)測(cè)的抑郁癥評(píng)分。選擇兩個(gè)客觀標(biāo)準(zhǔn),均值絕對(duì)誤差(MAE)和根均方誤差(RMSE)來(lái)測(cè)量總體性能,計(jì)算如下:
(12)
(13)
首先進(jìn)行實(shí)驗(yàn)以選擇最佳的鄰域和訓(xùn)練批次大小,圖6和圖7是MAE和RMSE隨著鄰域和訓(xùn)練批次大小的變化而變化的曲線圖。可觀察到兩個(gè)指標(biāo)在垂直方向上變化顯著,這表明鄰域大小對(duì)抑郁評(píng)分的影響更大。對(duì)于兩個(gè)數(shù)據(jù)庫(kù),異或非對(duì)稱區(qū)域局部梯度編碼的最佳鄰域大小設(shè)置為5×5。
圖7 不同鄰域大小和Batch size在AVEC2014的抑郁癥識(shí)別結(jié)
接下來(lái)的實(shí)驗(yàn)評(píng)估使用全局和局部特征進(jìn)行抑郁癥識(shí)別的性能,表1列出了在兩個(gè)數(shù)據(jù)庫(kù)上的MAE和RMSE值。
表1 使用全局和局部特征的抑郁癥識(shí)別結(jié)果
由表1可以看出,使用全局特征或局部特征的MAE和RMSE值大于使用多特征的MAE和RMSE值。這主要是因?yàn)榫植繀^(qū)域尤其是眼部傳達(dá)了更為突出的信息,這也與臨床醫(yī)生的經(jīng)驗(yàn)是一致的。
為了證明所提出方法中使用的局部特征的優(yōu)勢(shì),表2給出了使用不同局部特征的抑郁癥識(shí)別結(jié)果。
表2 使用不同的局部特征的抑郁癥識(shí)別結(jié)果
由表2可以看出,四元數(shù)局部二值編碼優(yōu)于傳統(tǒng)的局部二值編碼,這是由于充分利用了顏色信息。將四元數(shù)局部二值編碼與異或非對(duì)稱區(qū)域局部梯度編碼結(jié)合作為混合特征,即同時(shí)考慮相位和幅度信息,可以獲得更好的性能。除此之外,本文結(jié)合了全局特征和局部特征以及深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)抑郁癥自動(dòng)識(shí)別,進(jìn)而實(shí)現(xiàn)了全局信息和局部信息的融合互補(bǔ)。與其他現(xiàn)有方法的性能做對(duì)比,具體結(jié)果如表3和表4所示??梢钥闯?,本文所提出的級(jí)聯(lián)DNN方法在抑郁癥識(shí)別任務(wù)中具有最小的MAE和RMSE值。
表3 與在AVEC2013的其他識(shí)別方法的比較
表4 與在AVEC2014的其他識(shí)別方法的比較
為了促進(jìn)在臨床診斷中抑郁癥的自動(dòng)識(shí)別和監(jiān)測(cè),本文研究了一種基于級(jí)聯(lián)深層神經(jīng)網(wǎng)絡(luò)和多特征的抑郁癥識(shí)別方法。多特征包括全局特征和局部特征,全局特征使用FaceNet提取之后送入DNN網(wǎng)絡(luò),QLBP-XOR-AR-LGC特征從眼睛和嘴巴區(qū)域提取之后分別送入localDNN1和localDNN2。最后將三個(gè)DNN輸出的特征向量在融合層拼接,送入最后一個(gè)DNN網(wǎng)絡(luò)以預(yù)測(cè)抑郁評(píng)分。全局特征和局部特征通過(guò)級(jí)聯(lián)深層神經(jīng)網(wǎng)絡(luò)有效實(shí)現(xiàn)了互補(bǔ)從而獲得了良好的性能。本文在AEVC2013和AVEC2014兩個(gè)常用數(shù)據(jù)庫(kù)上進(jìn)行的實(shí)驗(yàn)驗(yàn)證了該方法的可行性和有效性。今后,我們將結(jié)合多模態(tài)融合的要求,進(jìn)一步提高抑郁癥識(shí)別性能。