基于級(jí)聯(lián)深度神經(jīng)網(wǎng)絡(luò)的抑郁癥識(shí)別

2019-10-18 11:13邵珠宏尚媛園

計(jì)算機(jī)應(yīng)用與軟件 2019年10期

江筱邵珠宏，3* 尚媛園，2 丁輝，2

1(首都師范大學(xué)信息工程學(xué)院北京 100048)2(北京成像技術(shù)高精尖創(chuàng)新中心北京 100048)3(電子系統(tǒng)可靠性技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室北京 100048)

0 引言

抑郁癥是世界范圍內(nèi)最常見(jiàn)的精神疾病之一，其主要特點(diǎn)是情緒低落持續(xù)時(shí)間長(zhǎng)，嚴(yán)重影響個(gè)人的日常生活和工作。據(jù)報(bào)道，重度抑郁癥(MDD)是導(dǎo)致殘疾的主要原因[1]。根據(jù)世界衛(wèi)生組織(WHO)的一項(xiàng)調(diào)查，抑郁癥是全球第四大致殘?jiān)颍⒃?020年成為頭號(hào)致殘?jiān)騕2]。

目前，對(duì)抑郁癥的篩查和診斷主要是根據(jù)患者在臨床訪談中的自我報(bào)告。在臨床訪談中，由一名經(jīng)過(guò)專門培訓(xùn)且經(jīng)驗(yàn)豐富的精神衛(wèi)生專業(yè)人員利用《精神障礙診斷與統(tǒng)計(jì)手冊(cè)》(DSM-IV)中規(guī)定的標(biāo)準(zhǔn)[3]，來(lái)評(píng)估患者是否患有抑郁癥以及嚴(yán)重程度。除此之外，臨床實(shí)踐中的貝克抑郁量表(Beck Depression Inventory，BDI)[4]等自我報(bào)告量表也可作為診斷依據(jù)。貝克抑郁癥量表中包含21個(gè)問(wèn)題，每一個(gè)答案的分值為0～3，總分?jǐn)?shù)范圍為0～63。根據(jù)BDI-II[4]，總分小于13分為“無(wú)”抑郁，14～19分為“輕度”抑郁，20～28分為“中度”抑郁，總分大于29分為“重度”抑郁。

研究表明，在人類的非語(yǔ)言行為中，人臉面部區(qū)域表情包含了大部分信息[5]，利用人臉面部信息進(jìn)行臨床心理健康分析的研究引起了廣泛關(guān)注[7]。隨著情感感知和深度學(xué)習(xí)等技術(shù)的進(jìn)步[6]，用計(jì)算機(jī)輔助抑郁癥自動(dòng)識(shí)別將有利于客觀的診斷。

音頻/視覺(jué)情感挑戰(zhàn)(AVEC2013)[8]和AVEC2014[9]的抑郁癥識(shí)別競(jìng)賽關(guān)注的是對(duì)抑郁癥自動(dòng)預(yù)測(cè)方法的研究，預(yù)測(cè)患者貝克抑郁癥量表II(BDI-II)分值。

在AVEC2013抑郁癥識(shí)別中，首先對(duì)人臉圖像做檢測(cè)與對(duì)齊的預(yù)處理，然后提取局部相位量化(LPQ)特征，最后采用支持向量回歸(SVR)來(lái)預(yù)測(cè)抑郁得分。Cummins等[10]在他們的抑郁癥識(shí)別系統(tǒng)中，對(duì)時(shí)間興趣點(diǎn)(SITPs)和梯度直方圖金字塔(PHOG)做了對(duì)比，實(shí)驗(yàn)表明，梯度直方圖金字塔方法取得了較好的效果。Meng等[11]利用基于動(dòng)態(tài)特征圖(MMH)來(lái)描述視頻的運(yùn)動(dòng)信息，然后提取邊緣方向直方圖(EOH)和局部二值模式(LBP)特征，最后利用最小二乘法(PLS)進(jìn)行回歸分析。Wen等[12]首先研究了從面部區(qū)域子空間中提取的三個(gè)正交平面的動(dòng)態(tài)描述子TOP-LPQ特征，利用sparse編碼計(jì)算行為模式字典，最后應(yīng)用判別映射和決策融合來(lái)提高診斷精度。

在AVEC2014抑郁癥識(shí)別中，首先提取局部動(dòng)態(tài)外觀描述符(LGBP-TOP)，然后采用支持向量回歸預(yù)測(cè)得分。Kaya等[13]通過(guò)典型相關(guān)分析(CCA)和Moore-Penrose廣義逆(MPGI)引入了一個(gè)區(qū)域線性回歸集合。為了提高抑郁預(yù)測(cè)性能，Zhu等[14]提出了一種雙流框架，分別命名為外觀DCNN和動(dòng)態(tài)DCNN。Kang等[15]引入了一種基于視頻數(shù)據(jù)的深度轉(zhuǎn)換學(xué)習(xí)(DTL)方法用于抑郁癥的識(shí)別，該方法可以捕獲抑郁癥數(shù)據(jù)的非線性映射。Pampouchidou 等[16]通過(guò)使用來(lái)自Gabor抑制濾波數(shù)據(jù)的運(yùn)動(dòng)歷史圖像(MHI)的變體來(lái)代替原始圖像，研究了抑郁癥的分類評(píng)估。但以上方法只關(guān)注人臉全局信息，沒(méi)有考慮到局部特征對(duì)抑郁癥識(shí)別精度的影響。本文結(jié)合了全局特征和局部特征以及深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)抑郁癥自動(dòng)識(shí)別，實(shí)現(xiàn)了全局信息和局部信息的融合互補(bǔ)。實(shí)驗(yàn)結(jié)果表明，該方法具有較好的綜合性能，大大提高了人臉圖像預(yù)測(cè)抑郁癥BDI-II分值的精確度。同時(shí)，本文采用了級(jí)聯(lián)深度神經(jīng)網(wǎng)絡(luò)提取圖像特征，加強(qiáng)了面部重點(diǎn)區(qū)域?qū)σ钟舭Y識(shí)別的影響，表達(dá)能力與針對(duì)性更強(qiáng)，對(duì)抑郁癥的識(shí)別效果比一般的CNN神經(jīng)網(wǎng)絡(luò)算法[14-15]效果好。

1 抑郁癥識(shí)別算法

為了充分利用圖像的全局信息和人臉區(qū)域的局部信息，使兩種信息達(dá)到互補(bǔ)的效果，本文提取全局特征、眼部局部特征和嘴部局部特征后分別輸入gloablDNN、localDNN1和localDNN2，經(jīng)過(guò)深度變換后在融合層拼接，最后輸入到DNN網(wǎng)絡(luò)預(yù)測(cè)抑郁癥評(píng)分。算法流程圖如圖1所示。

圖1 抑郁癥識(shí)別算法流程圖

1.1 全局部分

在全局部分中，全局特征由FaceNet[17]提取。FaceNet是一個(gè)已經(jīng)在包含453 453幅人臉圖像的數(shù)據(jù)庫(kù)上預(yù)訓(xùn)練好的提取人臉特征的網(wǎng)絡(luò)。把從FaceNet中提取出的全局特征輸入globalDNN以獲得一個(gè)更緊致的特征表達(dá)。

DNN結(jié)構(gòu)如圖2所示。

圖2 DNN的結(jié)構(gòu)

假設(shè)DNN共有N層，第一層的輸出表示為：

y(1)=f(W(1)x+b(1))

(1)

式中：W(1)是權(quán)重矩陣，b(1)是偏移矩陣，f是非線性激活函數(shù)，輸入y(1)同時(shí)是第二層的輸入。在DNN模型中的第m層的輸出表示為：

y(m)=f(W(m)y(m-1)+b(m))

(2)

1.2 局部部分

在局部特征部分，本文結(jié)合了局部二值編碼和異或非對(duì)稱區(qū)域局部梯度編碼，對(duì)人臉圖像中的眼睛和嘴巴區(qū)域提取手工特征，分別將特征輸入局部網(wǎng)絡(luò)進(jìn)行處理?；诓噬珗D像的四元數(shù)處理和分析方法得到了廣泛的研究，其目標(biāo)是將彩色圖像的各個(gè)通道作為整體進(jìn)行編碼，如四元數(shù)貝塞爾傅里葉矩[18]、四元數(shù)局部排序二值模式[19]、核四元數(shù)主成分分析[20]、四元數(shù)中值濾波轉(zhuǎn)換矢量[21]。

fe(x,y)代表圖像塊的眼睛區(qū)域，可以表示為四元數(shù)矩陣：

fq(x,y)=ife,R(x,y)+jfe,G(x,y)+kfe,B(x,y)

(3)

式中：fe,R(x,y) 、fe,G(x,y) 、fe,B(x,y) 分別是彩色圖像fe(x,y)的紅、綠、藍(lán)三個(gè)通道。為了獲得相位 L1，首先將式(3)進(jìn)行Clifford變換，即用fq(x,y)乘以純單位四元數(shù)p，即可得到完全四元數(shù)矩陣：

(4)

(5)

式中：{α1α2α3}表示權(quán)重向量。LBP算子在一個(gè)3×3的圖像塊中計(jì)算，圖像塊Sm的中心點(diǎn)的值計(jì)算為：

(6)

(7)

根據(jù)運(yùn)算法則，經(jīng)過(guò)clifford變換不改變幅值，因此，可以用任意一個(gè)clifford變換的結(jié)果來(lái)計(jì)算幅值。異或非對(duì)稱區(qū)域局部梯度編碼考慮到中心像素值與鄰近像素之間的強(qiáng)度關(guān)系對(duì)局部區(qū)域的紋理特征進(jìn)行編碼。

選擇圖像塊大小為(2m+1)×(2n+1)，把圖像塊分成如圖3所示的9個(gè)子塊，Rt表示子塊的中心像素值，編碼方式為:

P0:h(R1-R3),P1:h(R8-R4)

P2:h(R7-R5),P3:h(R1-R7)

P4:h(R2-R6),P5:h(R3-R5)

P6:h(R1-R5),P7:h(R3-R7)

(8)

圖3 AR-LGC的子塊

當(dāng)作用于中心像素點(diǎn)的鄰域窗口大小不一樣時(shí)，可以得到兩個(gè)不同的二值序列PA和PB，則異或非對(duì)稱區(qū)域局部梯度編碼為：

(9)

圖4顯示了從眼睛區(qū)域提取特征的流程，對(duì)嘴巴區(qū)域提取特征的操作類似，這種編碼方法基于中心像素和周圍鄰域之間的灰度關(guān)系，結(jié)合了來(lái)自水平、垂直和對(duì)角方向的不同尺度的信息。

圖4 眼睛區(qū)域局部特征提取流程圖

1.3 網(wǎng)絡(luò)級(jí)聯(lián)

將全局特征、眼部局部特征和嘴部局部特征分別輸入globalDNN、localDNN1和localDNN2，在融合層將輸出拼接在一起?；旌咸卣飨蛄縴mix表示為:

(10)

(11)

2 實(shí) 驗(yàn)

為了驗(yàn)證所提出方法的有效性，本文在AVEC 2013和AVEC2014抑郁癥競(jìng)賽數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

2.1 抑郁癥數(shù)據(jù)集

AVEC2013和AVEC2014抑郁癥數(shù)據(jù)集都是語(yǔ)音-視覺(jué)抑郁語(yǔ)言庫(kù)(AVid-Corpus)的子集，用于探究抑郁癥的嚴(yán)重程度。AVEC2013包含在自然條件下采集的82個(gè)人的150個(gè)視頻。這些視頻記錄了被試者完成給定任務(wù)的人機(jī)交互過(guò)程。視頻的長(zhǎng)度在20～50分鐘不等，平均是25分鐘。受試者的年齡從18～63歲不等。這些視頻隨機(jī)分為測(cè)試集、和訓(xùn)練集，比例為1∶1[14]，且每個(gè)集合中抑郁分值樣本分布均衡。訓(xùn)練集用來(lái)訓(xùn)練深度模型，測(cè)試集用來(lái)測(cè)試模型識(shí)別抑郁癥的效果。抑郁癥的嚴(yán)重程度可根據(jù)貝克量表進(jìn)行評(píng)估。AVEC2013數(shù)據(jù)庫(kù)中的一些被試者如圖5(a)所示，他們?cè)阡浿茣r(shí)可以自由移動(dòng)，包括說(shuō)話、移動(dòng)頭部和變換表情等。AVEC2014包含來(lái)自AViD-Corpus12個(gè)任務(wù)中的其中兩個(gè)，分別被稱之為Freedom和Northwind。

(a) AVEC2013

本文采用了第一個(gè)任務(wù)中的視頻。同樣地，訓(xùn)練集用來(lái)訓(xùn)練深度模型，測(cè)試集用來(lái)測(cè)試模型識(shí)別抑郁癥的效果。AVEC2014數(shù)據(jù)庫(kù)中的一些被試者樣本如圖5(b)所示。

2.2 實(shí)驗(yàn)設(shè)置

為了減少視頻中視頻幀冗余量，本文依據(jù)經(jīng)驗(yàn)值每十幀取一幀，在每個(gè)數(shù)據(jù)集上個(gè)提取了15 000幀圖像。并用Dlib進(jìn)行關(guān)鍵點(diǎn)檢測(cè)和人臉五官定位，將檢測(cè)后的圖像裁剪為256×256大小，用于實(shí)驗(yàn)。對(duì)于全局DNN的輸入，本文選取的是Facenet的映射層輸出特征向量xG，其維度是128維。globalDNN有四個(gè)全連接層，每層設(shè)置為128、56、16、1個(gè)輸出。對(duì)于局部特征的提取，參考四元數(shù)為q1= 0.992i+0.085 7j+0.090 7k、q2=0.091 2i+0.990 8j+0.099 9k、q3=0.085 2i+0.085 5j+0.992 7k。權(quán)重分別為{0.4，0.5，0.6}。在異或非對(duì)稱區(qū)域局部梯度編碼的提取過(guò)程中，其中一個(gè)鄰域大小被固定為3×3，另外一個(gè)鄰域從{5×5， 7×7， 9×9， 11×11}中取值。從眼睛區(qū)域提取特征為xL1，維度為2 048維，從嘴巴區(qū)域提取出的特征為xL2，1 024維。將localDNN1設(shè)置為5層，并且每一層的輸出分別為2 048、1 024、512、128、1。localDNN2設(shè)置為四層，每一層的神經(jīng)元個(gè)數(shù)為1 024、512、128、1。在訓(xùn)練過(guò)程中，使用的優(yōu)化器是Adam，學(xué)習(xí)率決定了找到網(wǎng)絡(luò)最優(yōu)參數(shù)的速度快慢，如果學(xué)習(xí)率太大，很可能會(huì)跳過(guò)網(wǎng)絡(luò)的最優(yōu)參數(shù)，反之如果學(xué)習(xí)率過(guò)小，可能導(dǎo)致算法長(zhǎng)時(shí)間無(wú)法收斂。實(shí)驗(yàn)比較了不同的學(xué)習(xí)率對(duì)損失函數(shù)和對(duì)抑郁癥預(yù)測(cè)的影響，結(jié)果表明，當(dāng)初始學(xué)習(xí)率學(xué)習(xí)率被設(shè)置為10e-2，時(shí)，RMSE和MAE的值最小，檢測(cè)性能最好。迭代次數(shù)為30 000，Batch size從{30，40，50}中取值。對(duì)于每一個(gè)測(cè)試視頻，對(duì)視頻中提取的每個(gè)幀的預(yù)測(cè)值取平均來(lái)計(jì)算預(yù)測(cè)的抑郁癥評(píng)分。選擇兩個(gè)客觀標(biāo)準(zhǔn)，均值絕對(duì)誤差(MAE)和根均方誤差(RMSE)來(lái)測(cè)量總體性能，計(jì)算如下：

(12)

(13)

2.3 結(jié)果與分析

首先進(jìn)行實(shí)驗(yàn)以選擇最佳的鄰域和訓(xùn)練批次大小，圖6和圖7是MAE和RMSE隨著鄰域和訓(xùn)練批次大小的變化而變化的曲線圖。可觀察到兩個(gè)指標(biāo)在垂直方向上變化顯著，這表明鄰域大小對(duì)抑郁評(píng)分的影響更大。對(duì)于兩個(gè)數(shù)據(jù)庫(kù)，異或非對(duì)稱區(qū)域局部梯度編碼的最佳鄰域大小設(shè)置為5×5。

圖7 不同鄰域大小和Batch size在AVEC2014的抑郁癥識(shí)別結(jié)

接下來(lái)的實(shí)驗(yàn)評(píng)估使用全局和局部特征進(jìn)行抑郁癥識(shí)別的性能，表1列出了在兩個(gè)數(shù)據(jù)庫(kù)上的MAE和RMSE值。

表1 使用全局和局部特征的抑郁癥識(shí)別結(jié)果

由表1可以看出，使用全局特征或局部特征的MAE和RMSE值大于使用多特征的MAE和RMSE值。這主要是因?yàn)榫植繀^(qū)域尤其是眼部傳達(dá)了更為突出的信息，這也與臨床醫(yī)生的經(jīng)驗(yàn)是一致的。

為了證明所提出方法中使用的局部特征的優(yōu)勢(shì)，表2給出了使用不同局部特征的抑郁癥識(shí)別結(jié)果。

表2 使用不同的局部特征的抑郁癥識(shí)別結(jié)果

由表2可以看出，四元數(shù)局部二值編碼優(yōu)于傳統(tǒng)的局部二值編碼，這是由于充分利用了顏色信息。將四元數(shù)局部二值編碼與異或非對(duì)稱區(qū)域局部梯度編碼結(jié)合作為混合特征，即同時(shí)考慮相位和幅度信息，可以獲得更好的性能。除此之外，本文結(jié)合了全局特征和局部特征以及深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)抑郁癥自動(dòng)識(shí)別，進(jìn)而實(shí)現(xiàn)了全局信息和局部信息的融合互補(bǔ)。與其他現(xiàn)有方法的性能做對(duì)比，具體結(jié)果如表3和表4所示?？梢钥闯?，本文所提出的級(jí)聯(lián)DNN方法在抑郁癥識(shí)別任務(wù)中具有最小的MAE和RMSE值。

表3 與在AVEC2013的其他識(shí)別方法的比較

表4 與在AVEC2014的其他識(shí)別方法的比較

3 結(jié) 語(yǔ)

為了促進(jìn)在臨床診斷中抑郁癥的自動(dòng)識(shí)別和監(jiān)測(cè)，本文研究了一種基于級(jí)聯(lián)深層神經(jīng)網(wǎng)絡(luò)和多特征的抑郁癥識(shí)別方法。多特征包括全局特征和局部特征，全局特征使用FaceNet提取之后送入DNN網(wǎng)絡(luò)，QLBP-XOR-AR-LGC特征從眼睛和嘴巴區(qū)域提取之后分別送入localDNN1和localDNN2。最后將三個(gè)DNN輸出的特征向量在融合層拼接，送入最后一個(gè)DNN網(wǎng)絡(luò)以預(yù)測(cè)抑郁評(píng)分。全局特征和局部特征通過(guò)級(jí)聯(lián)深層神經(jīng)網(wǎng)絡(luò)有效實(shí)現(xiàn)了互補(bǔ)從而獲得了良好的性能。本文在AEVC2013和AVEC2014兩個(gè)常用數(shù)據(jù)庫(kù)上進(jìn)行的實(shí)驗(yàn)驗(yàn)證了該方法的可行性和有效性。今后，我們將結(jié)合多模態(tài)融合的要求，進(jìn)一步提高抑郁癥識(shí)別性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡