張夢(mèng)娜 王君巖 龍 洋 張浩峰 胡 勇
1(南京理工大學(xué)醫(yī)院預(yù)防保健科,南京 210094)
2(新南威爾士大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,悉尼 2052)
3(杜倫大學(xué)計(jì)算機(jī)科學(xué)系,杜倫DH1 3LE)
4(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210094)
抑郁癥是一種嚴(yán)重的情緒障礙,會(huì)影響患者的身心健康[1-2]。它通常包括長(zhǎng)時(shí)間的強(qiáng)烈悲傷感,以及無助、絕望和毫無價(jià)值的感覺。抑郁癥不僅會(huì)導(dǎo)致對(duì)活動(dòng)、疲勞和睡眠問題失去興趣,還會(huì)影響患者的感覺和思維方式。根據(jù)世界衛(wèi)生組織的數(shù)據(jù),各個(gè)年齡階段的總計(jì)超過3 億人都患有抑郁癥,這是年輕人自殺的主要原因[3-4]。在英國(guó),據(jù)報(bào)道1/4 的人患有抑郁癥[5]。因此,抑郁癥被認(rèn)為是全球范圍內(nèi)主要的精神健康疾病。在臨床診斷中,心理醫(yī)生通過面對(duì)面的訪談,并將他們的評(píng)估結(jié)果與《精神疾病診斷和統(tǒng)計(jì)手冊(cè)》 (Diagnostic and Statistical Manual of Mental Disorders,DSM)中概述的9 種抑郁癥狀相對(duì)照,以診斷患有抑郁癥的患者[6]。如今,這種方式已被臨床醫(yī)生、研究人員和相關(guān)機(jī)構(gòu)廣泛使用。DSM 的最新版本是第5 版,于2015年5月18日發(fā)布;它定義了9 種抑郁癥狀,并描述了日常生活中有助于診斷的獨(dú)特行為。根據(jù)這些癥狀和情況,臨床醫(yī)生進(jìn)行評(píng)估并診斷出抑郁癥。通常,癥狀可概括為情緒低落和快感不足。在嚴(yán)重的情況下,患者可能會(huì)出現(xiàn)妄想,但較少出現(xiàn)精神病(如幻覺)等癥狀[7-8]。在典型情況下,癥狀包括記憶力差、易怒甚至有自殺念頭。通常,根據(jù)患者的情況和癥狀,由受過訓(xùn)練的臨床醫(yī)生對(duì)患者進(jìn)行診斷評(píng)估。但是,由于感到羞恥或不了解抑郁癥,抑郁癥患者通常不愿與心理學(xué)家會(huì)面來尋求幫助。因此,有必要尋找一種非直接接觸式的自動(dòng)化檢測(cè)方法。
當(dāng)前自動(dòng)化抑郁癥的檢測(cè)方法主要是使用語音或者視頻特征來實(shí)現(xiàn)。Gratch 等[9]構(gòu)建了一個(gè)苦惱分析訪談?wù)Z料庫(Distress Analysis Interview Corpus,DAIC),包含臨床訪談,旨在幫助診斷焦慮、抑郁和創(chuàng)傷后應(yīng)激障礙等心理困擾的狀況。該訪談?dòng)扇祟?、人類控制的個(gè)體和自主的個(gè)體進(jìn)行,參與者包括抑郁個(gè)體和非抑郁個(gè)體。收集的數(shù)據(jù)包括錄音和錄像以及廣泛的問卷調(diào)查,語料庫的一部分被轉(zhuǎn)錄和注釋為各種語言和非語言特征。該語料庫已被用來支持自動(dòng)面試代理的創(chuàng)建,并用于心理困擾的自動(dòng)識(shí)別。由于語音成為與抑郁癥患者的最主要交流方法,因此Srimadhur 等[10]利用了基于光譜程序的卷積神經(jīng)網(wǎng)絡(luò),對(duì)語音信號(hào)進(jìn)行處理,并獲得了60%左右的準(zhǔn)確率。考慮到樣本不平衡問題,Ma 等[11]提出了一種深層模型,即DeepAudioNet,用于編碼聲道中與抑郁癥相關(guān)的特征,將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和長(zhǎng)短時(shí)記憶(long-short term memory,LSTM)相結(jié)合,以提供更全面的音頻表示。此外,由于監(jiān)督的樣本較少,Zhao 等[12]提出了一種新的交叉任務(wù)方法,將注意力機(jī)制從語音識(shí)別轉(zhuǎn)移到抑郁癥嚴(yán)重程度的測(cè)量,這種轉(zhuǎn)移被應(yīng)用在一個(gè)反映語音自然層次結(jié)構(gòu)的兩級(jí)層次網(wǎng)絡(luò)中。Vázquez-Romero 等[13]在預(yù)處理階段,將語音文件表示為一系列對(duì)數(shù)譜圖,并隨機(jī)采樣以平衡正、負(fù)采樣,然后再采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理。Negi 等[14]利用一個(gè)人聲音的韻律特征(音高、音調(diào)、節(jié)奏),建立了一個(gè)檢測(cè)他是否患有抑郁癥的模型。然而,視頻也可以部分地反映出患者的一些狀況,因此Melo 等[15]利用基于視頻的方法實(shí)現(xiàn)抑郁癥的檢測(cè);該方法根據(jù)被試的面部表情,提出了一種通過分布學(xué)習(xí)來精確預(yù)測(cè)抑郁水平的深度學(xué)習(xí)結(jié)構(gòu);該結(jié)構(gòu)能夠利用數(shù)據(jù)分布,探索面部圖像和抑郁水平之間的順序關(guān)系,并且對(duì)噪聲和不確定的標(biāo)記具有魯棒性??紤]到不同模態(tài)會(huì)含有更多的有用信息,Yang 等[16-17]使用語音、視頻和文本混合的方法,認(rèn)為基于文本的內(nèi)容特征對(duì)于分析抑郁癥相關(guān)的文本指標(biāo)也很重要;此外,為了提高抑郁癥自動(dòng)評(píng)估系統(tǒng)的性能,還需要強(qiáng)大的模型,能夠模擬嵌入音頻、視頻和文本描述符中的抑郁癥特征,因此提出了新的文本和視頻特征,并從音頻、視頻和文本的描述符中混合了用于抑郁估計(jì)和分類的深度和淺層模型。另外,Qureshi 等[18]也利用聲學(xué),文本和視覺模式,提出了一個(gè)新的基于多任務(wù)學(xué)習(xí)注意的深度神經(jīng)網(wǎng)絡(luò)模型,它有助于多種模式的融合。特別地,使用這個(gè)網(wǎng)絡(luò)來回歸和分類抑郁癥的水平。然而,這些方法都需要面對(duì)面地采集受訪者的音頻、視頻以及文本信息,但面對(duì)面的采集通常會(huì)被患者所排斥,且標(biāo)注的準(zhǔn)確性也會(huì)受到影響。
在現(xiàn)代社會(huì)中,社交媒體的使用已在人們的日常生活中變得越來越不可或缺。人們?cè)絹碓蕉嗟卦赥witter、Facebook 以及微博等社交媒體上分享自己的感受和情感。如今,社交媒體不僅可以反映個(gè)人的日常生活,還可以反映他們的心理活動(dòng)和健康狀況,包括抑郁癥患者在內(nèi)的越來越多的人傾向于在微博等社交媒體平臺(tái)上分享自己的感受和情感。因此,研究人員已開始分析社交媒體上抑郁用戶的在線行為。例如,Park 等[19]提供的證據(jù)證明,社交媒體可以提供有意義的數(shù)據(jù),用以捕捉用戶的沮喪情緒。在后續(xù)的工作中,他們與抑郁和非抑郁的用戶進(jìn)行了面對(duì)面的采訪,發(fā)現(xiàn)非抑郁的用戶將Twitter 視為信息消費(fèi)和共享的工具,而抑郁的用戶將Twitter 視為情感互動(dòng)和社會(huì)意識(shí)的工具。先前的研究表明,可以通過社交媒體發(fā)現(xiàn)抑郁癥。因此,Choudhury 等[20]確定社交媒體具有檢測(cè)和診斷抑郁癥的潛力。Shen 等[21]收集了基于Twitter 數(shù)據(jù)的大規(guī)模數(shù)據(jù)集,并分析了抑郁和不抑郁的Twitter用戶之間的在線行為有何不同。這樣的研究帶來了分析社交媒體作為檢測(cè)抑郁用戶的手段的可能性。但是,現(xiàn)有的工作仍存在一些局限性:一是很少有工作分析社交媒體上的時(shí)間序列信息。大多數(shù)研究關(guān)注用戶的社交網(wǎng)絡(luò)信息,而每個(gè)用戶在不同社交媒體平臺(tái)上的活動(dòng)各不相同,無法通過檢查一天的活動(dòng)來檢測(cè)抑郁,所以應(yīng)該有一個(gè)研究來更仔細(xì)地調(diào)查過去的信息。因此,可以肯定的是,時(shí)間序列信息對(duì)于抑郁癥的檢測(cè)很重要。二是很少有使用社交媒體(如Twitter)的抑郁癥檢測(cè)應(yīng)用程序使用機(jī)器學(xué)習(xí),同樣很少有應(yīng)用研究抑郁癥的新出現(xiàn)癥狀。因此,有必要開發(fā)一種使用機(jī)器學(xué)習(xí)來分析抑郁癥狀的方法。
正是基于這樣的基礎(chǔ),使采用機(jī)器學(xué)習(xí)方法、通過社交媒體數(shù)據(jù)發(fā)現(xiàn)抑郁癥成為可能。最近,機(jī)器學(xué)習(xí)已通過社交媒體用于抑郁癥的檢測(cè)工作中。但是,鑒于數(shù)據(jù)樣本的不平衡,并且大多數(shù)情況下來自非抑郁者,因此開展此類工作存在一些挑戰(zhàn)。此外,尚未有分析此問題中時(shí)序信息的工作。考慮到抑郁癥狀不會(huì)立即出現(xiàn),早期的文本信息有助于判斷抑郁癥的傾向,這使得時(shí)序信息更加重要。針對(duì)這一問題,本研究提出一種非監(jiān)督LSTM 多示例學(xué)習(xí)模型,通過提取一種新的文本數(shù)據(jù)特征,可以嵌入來自推文的時(shí)間序列信息。具體來說,使用無監(jiān)督的LSTM 提取函數(shù),可以提取包括來自先前推文消息的特征。此外,本研究還利用多示例學(xué)習(xí)進(jìn)行分類,進(jìn)而檢測(cè)抑郁與否;以通過時(shí)間序列特征為樣本,通過訓(xùn)練分類器,實(shí)現(xiàn)每一條推文的分類;采用閾值方法,最終實(shí)現(xiàn)用戶是否存在抑郁癥的檢測(cè)。本研究所提出的方法根據(jù)時(shí)間序列信息,更好地利用了調(diào)查對(duì)象的病態(tài)發(fā)展信息,提升了檢測(cè)的準(zhǔn)確率。
為了通過Twitter 進(jìn)行抑郁癥檢測(cè),采用兩個(gè)標(biāo)簽齊全的抑郁癥和非抑郁癥Twitter 用戶數(shù)據(jù)集MDDL,這些數(shù)據(jù)集已在線發(fā)布[21]。在此基礎(chǔ)上,采用基于啟發(fā)式規(guī)則的方法,從Twitter 成熟的API 構(gòu)建兩個(gè)標(biāo)記良好的抑郁和非抑郁數(shù)據(jù)集,具體的情況如表1所示。數(shù)據(jù)集的統(tǒng)計(jì)量可以總結(jié)如下:
表1 所用數(shù)據(jù)集簡(jiǎn)介Tab.1 Summary of the employed dataset
1)抑郁數(shù)據(jù)集?;?009—2016年之間的推文收集了抑郁癥數(shù)據(jù)集,從中篩選出100 個(gè)調(diào)查對(duì)象,選擇發(fā)布了的3 973 條推文數(shù)據(jù)。如果調(diào)查對(duì)象的推文中包含嚴(yán)格的模式,則將其標(biāo)記為“抑郁”,例如“我被診斷為抑郁癥”。
2)非抑郁數(shù)據(jù)集。收集者于2016年12月收集了一個(gè)非抑郁數(shù)據(jù)集,同樣從中篩選出100 個(gè)調(diào)查對(duì)象,選擇發(fā)布了的3 973 條推文數(shù)據(jù)。如果調(diào)查對(duì)象從未發(fā)布過任何帶有字符串“抑郁”的推文,他或她將被選入非抑郁數(shù)據(jù)集。
考慮到要驗(yàn)證方法的可行性,將數(shù)據(jù)集劃分為兩個(gè)部分,一部分用于訓(xùn)練,另一部分用于測(cè)試,訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的比率為8 ∶2。在訓(xùn)練與測(cè)試過程中,將隨機(jī)分配樣本,并按照多次計(jì)算的平均結(jié)果來記錄最終數(shù)據(jù)。
本研究提出一個(gè)多示例學(xué)習(xí)的模型,利用提取的時(shí)間序列特征來檢測(cè)用戶是否患有抑郁癥?;诂F(xiàn)有研究的局限性,并根據(jù)Twitter 數(shù)據(jù)集,提出了一種無監(jiān)督的 LSTM 多示例學(xué)習(xí)模型(unsupervised LSTM multi-instance learning,ULML),其總體思路是:
1)使用無監(jiān)督的LSTM,從每個(gè)推文中提取時(shí)間序列特征,該LSTM 可以存儲(chǔ)每個(gè)用戶的推文信息,可以更好地反映來自潛在抑郁癥用戶的抑郁信息。
2)為了利用時(shí)間序列特征的效率,并解決數(shù)據(jù)集不平衡的問題,通過分析該特征來訓(xùn)練多示例學(xué)習(xí)模型。鑒于多示例學(xué)習(xí)所特有的屬性,本研究提出的機(jī)器學(xué)習(xí)模型在抑郁癥檢測(cè)方面將會(huì)表現(xiàn)得很好。
首先,給出要研究問題的定義:設(shè)有N=Nd +Nu條標(biāo)注的推文數(shù)據(jù),包括Pd個(gè)抑郁癥患者的Nd條推文數(shù)據(jù)TD = {td1,td2,…,tdNd} 和標(biāo)簽數(shù)據(jù)YD ={yd1,yd2,…,ydNd} ,以及Pu個(gè)非抑郁癥患者的Nu條推文數(shù)據(jù)TU = {tu1,tu2,…,tuNu} 和標(biāo)簽數(shù)據(jù)YU={yu1,yu2,…,yuNu} ,其中T=TD ∪TU={t1,t2,…,tN},Y=YD ∪YU={y1,y2,…,yN} 。期望采用非監(jiān)督方法對(duì)TD 和TU 分別抽取時(shí)間序列特征SD = {sd1,sd2,…,sdNd} 和SU = {su1,su2,…,suNu},其中S=SD ∪SU ={s1,s2,…,sN} ,并通過這些數(shù)據(jù)訓(xùn)練二值分類器F,用于未來對(duì)其他相關(guān)人員進(jìn)行抑郁癥的分類檢測(cè)。
該方法的總體框架如圖1所示。首先,基于給定用戶的時(shí)間軸推文T,將其標(biāo)記化為可用的推文編碼X,然后使用無監(jiān)督的LSTM,將每個(gè)推文編碼為時(shí)間序列特征S;然后,使用訓(xùn)練好的二進(jìn)制分類器,對(duì)每個(gè)時(shí)間序列特征進(jìn)行分類,其中分類器由數(shù)據(jù)集中標(biāo)記良好的抑郁或非抑郁的推文訓(xùn)練;最后,利用多示例學(xué)習(xí)來檢測(cè)給定用戶是否患有抑郁癥。
圖1 方法的總體框架Fig.1 Framework of the proposed method
1.2.1 特征提取
為了訓(xùn)練出多示例學(xué)習(xí)模型,使用時(shí)間序列特征作為輸入,該特征基于每個(gè)用戶的時(shí)間軸推文。眾所周知,時(shí)間序列數(shù)據(jù)是指按時(shí)間順序索引的數(shù)據(jù)點(diǎn)序列,因此可用無監(jiān)督的LSTM 作為從每個(gè)推文中提取時(shí)間序列特征的方法。在這種情況下,為了表示用戶時(shí)間軸推文中的時(shí)間序列信息,利用無監(jiān)督的LSTM(也稱為L(zhǎng)STM 自動(dòng)編碼器),從每個(gè)推文中提取了一組向量si。其中,自動(dòng)編碼器是一種重建式的神經(jīng)網(wǎng)絡(luò),以無人監(jiān)督的方式,從用戶那里學(xué)習(xí)每條推文的矢量化表示。
LSTM 自動(dòng)編碼器至少需要兩個(gè)LSTM 層。以兩個(gè)LSTM 層模型為例,第一層可以視為編碼器,第二層可以視為解碼器。首先,模型通過第一LSTM層輸入矢量化的推文,以輸出形狀良好的向量;然后,將此向量作為輸入,以便通過第2 個(gè)LSTM 層,使輸出具有與輸入向量化推文相同的形狀;最后,將對(duì)模型進(jìn)行優(yōu)化,以使輸入和輸出盡可能相似。因此,LSTM 自動(dòng)編碼器將來自輸入層的標(biāo)記化推文xi壓縮為格式良好的代碼si,然后將代碼解壓縮為向量x^i的形式。如圖1中的特征提取部分所示,LSTM 自動(dòng)編碼器的步驟如下:
1)推文標(biāo)記化。由于詞干推文是一種字符串,因此自動(dòng)編碼器的第一步是在輸入之前對(duì)推文進(jìn)行標(biāo)記化。最初選擇10 000 個(gè)流行的英語單詞,然后通過所選流行單詞的序列號(hào)對(duì)詞干推文中的每個(gè)單詞進(jìn)行標(biāo)記。為了使每個(gè)推文具有相同的尺寸,使用單詞嵌入方法。此方法首先計(jì)算推文的最大詞語數(shù)m,然后在tweet 向量前面嵌入0,以使每個(gè)推文具有相同的維數(shù)。通過這樣的方式,可以將推文T= {t1,t2,…,tN} 標(biāo)記為X= {x1,x2,…,xN}。
2)LSTM 自編碼器。根據(jù)圖1中的特征提取部分,編碼器部分包含輸入推文、LSTM 編碼層和推文表示。輸入層順序輸入標(biāo)記化的文本序列xi,進(jìn)入到LSTM 層中進(jìn)行處理并編碼為序列編碼si,然后這些序列編碼再通過LSTM 層進(jìn)行解碼為x^i。其中,LSTM 自動(dòng)編碼器層旨在生成與輸入標(biāo)記化推文具有相同形狀的矩陣。因此,可以將輸入和輸出之間的差定義為損失函數(shù),有
為了使輸入與輸出相似,該自動(dòng)編碼器力求使損失函數(shù)最小化。其中,LSTM 自動(dòng)編碼器采用了Adam 優(yōu)化器[22]。這是一種優(yōu)化算法,代替了經(jīng)典的隨機(jī)梯度下降過程,根據(jù)訓(xùn)練數(shù)據(jù)迭代來更新網(wǎng)絡(luò)權(quán)重。因此,此方法從所有標(biāo)記化推文中迭代相同數(shù)量但隨機(jī)的項(xiàng),以訓(xùn)練LSTM 自動(dòng)編碼器的模型,以便優(yōu)化自動(dòng)編碼器算法,最小化損失函數(shù)。
1.2.2 多示例學(xué)習(xí)
考慮給定的數(shù)據(jù)集,其中非抑郁的樣本數(shù)量大于抑郁的樣本數(shù)量。此外,根據(jù)標(biāo)簽的規(guī)定,用戶的推文包含嚴(yán)格的模式,例如“我被診斷為抑郁癥”,才會(huì)被標(biāo)記為抑郁。因此,多示例學(xué)習(xí)是一種合適的機(jī)器學(xué)習(xí)方法。另外,抑郁癥檢測(cè)問題是典型的二分類問題,分類模型用于估計(jì)二進(jìn)制預(yù)測(cè)變量的概率。在這項(xiàng)工作中,抑郁癥檢測(cè)模型用來估算用戶抑郁癥的可能性。在機(jī)器學(xué)習(xí)領(lǐng)域,邏輯回歸和支持向量機(jī)是二進(jìn)制分類領(lǐng)域的基本方法。因此,采用了這兩種方法來訓(xùn)練分類器。
1)邏輯回歸(logistic regression,LR)。根據(jù)這一概念,邏輯回歸分類器f(si)可以定義如下:
式中,W、b為待學(xué)習(xí)的參數(shù)。
同時(shí),為了測(cè)量二元分類器的邏輯回歸模型的學(xué)習(xí)損失,這里采用交叉熵?fù)p失函數(shù),可以表示如下:
式中,yi為si所對(duì)應(yīng)的真實(shí)標(biāo)簽。
為了訓(xùn)練分類器,采用了基本的優(yōu)化器算法,即梯度下降法,該方法也稱為最速下降法,以尋找損失函數(shù)的最小值。在進(jìn)行最終的實(shí)驗(yàn)之前,本研究進(jìn)行了一系列學(xué)習(xí)率不同的邏輯回歸實(shí)驗(yàn)。根據(jù)這些實(shí)驗(yàn),本研究選擇了學(xué)習(xí)率為0.06 的分類器,該分類器具有最佳的性能。
2)支持向量機(jī)(support vector machine,SVM)。本研究還訓(xùn)練了兩個(gè)具有不同內(nèi)核功能的SVM 模型。根據(jù)Representer 定理[23],SVM 中的參數(shù)可以寫成訓(xùn)練數(shù)據(jù)的線性組合,那么最終的分類器可以表示如下:
式中,φ(sj)Tφ(si)為核函數(shù),也可以表示成K(si,sj)。
根據(jù)經(jīng)驗(yàn),采用了線性核(L-SVM)和RBF 核(R-SVM)。其中,線性核的核函數(shù)可以表示為此外,RBF 核的核函數(shù)可表示為
本研究選擇了LIBSVM 軟件包[24]作為實(shí)驗(yàn)軟件。數(shù)據(jù)樣本是標(biāo)記化的抑郁推文和標(biāo)記化的非抑郁推文。根據(jù)經(jīng)驗(yàn),這些實(shí)驗(yàn)將時(shí)間序列特征維設(shè)置為128。根據(jù)損失和迭代圖,這些實(shí)驗(yàn)選擇了無監(jiān)督的LSTM 模型,該模型迭代9 000 次,以提取時(shí)間序列特征。對(duì)于L-SVM,采用默認(rèn)參數(shù)的模型,其中C=1.0;對(duì)于R-SVM,選擇了軟件默認(rèn)參數(shù)的模型,其中C =1.0,γ =10。
3)多示例學(xué)習(xí)。在訓(xùn)練了檢測(cè)抑郁推文的模型之后,下一步就是預(yù)測(cè)Twitter 用戶是否患有抑郁。針對(duì)數(shù)據(jù)集不平衡的問題,采用多示例學(xué)習(xí)作為檢測(cè)模型來檢測(cè)Twitter 用戶。特別地,鑒于不平衡的數(shù)據(jù)集,本研究改進(jìn)了該算法。該算法可分為兩部分,每一部分的詳細(xì)的結(jié)構(gòu)如下:
(1)={s1,s2,…,sj,…,sn}為用戶ui的時(shí)間序列特征,其中單個(gè)n為用戶的推文數(shù);采用選定的二進(jìn)制分類器f(sj)來檢測(cè)每個(gè)推文的時(shí)間序列,輸出結(jié)果表示為={y1,y2,…,yj,…,yn},其中yj∈{0,1}。
(2)由于檢測(cè)分類的準(zhǔn)確性無法達(dá)到100%,因此將算法添加一個(gè)權(quán)重參數(shù)ω,如果該用戶預(yù)測(cè)的推文被判定為抑郁的比重大于所有時(shí)間軸推文的權(quán)重ω,則可以將其診斷為抑郁。因此,該算法的第二步(即最終結(jié)果)可以定義如下:
式中,l為推文中被分類為抑郁的推文數(shù)量。
為了驗(yàn)證所提出的機(jī)器學(xué)習(xí)方法對(duì)利用文本信息進(jìn)行抑郁癥分類的有效性,從以下幾個(gè)方面進(jìn)行研究。
1)為了證明所提出方法的先進(jìn)性,對(duì)比4 種傳統(tǒng)的機(jī)器學(xué)習(xí)方法,包括樸素貝葉斯(naive bayes,NB)、隨機(jī)決策森林(random decision forest,RDF)、多重社交網(wǎng)絡(luò)學(xué)習(xí)(multiple social network learning,MSNL),以及多模式抑郁詞典學(xué)習(xí)(multimodal depression dictionary learning,MDDL)。
2)為了證明所提出的方法中的各個(gè)模塊性能以及不同的參數(shù)設(shè)置對(duì)最終性能的影響,對(duì)訓(xùn)練中所采用不同的分類器、不同的時(shí)間序列特征、不同的特征維度進(jìn)行研究。
3)采用4 種評(píng)測(cè)準(zhǔn)則來研究所提出方法的有效性,包括準(zhǔn)確率、召回率、精度、F1 分?jǐn)?shù)等。
1.3.1 對(duì)比方法
為了驗(yàn)證所提出的機(jī)器學(xué)習(xí)方法的性能,比較了4 個(gè)傳統(tǒng)的基本方法,分別是樸素貝葉斯、隨機(jī)決策森林、多元社交網(wǎng)絡(luò)學(xué)習(xí)和多模式抑郁字典學(xué)習(xí)。
1)樸素貝葉斯。在機(jī)器學(xué)習(xí)中,樸素貝葉斯是一種基于貝葉斯定理的簡(jiǎn)單概率分類器算法。它的思想基礎(chǔ)是對(duì)給定的項(xiàng)目進(jìn)行分類,解決條件下每個(gè)類別的概率,在給定的項(xiàng)目中考慮最大值[25],其基本定義如下:
在機(jī)器學(xué)習(xí)中,樸素貝葉斯有3 種類型,分別是高斯樸素貝葉斯、多項(xiàng)式樸素貝葉斯和伯努利樸素貝葉斯。由于伯努利樸素貝葉斯特別適合于短文本的分類[26],因此選擇此事件模型進(jìn)行比較。
2)隨機(jī)決策森林。在機(jī)器學(xué)習(xí)中,隨機(jī)決策森林是包含多個(gè)決策樹的分類器,其輸出類別由各個(gè)樹狀結(jié)構(gòu)的輸出類別的模式編號(hào)(分類)或均值預(yù)測(cè)(回歸)確定。這種算法最早是由Tin 等在1995年提出的[27],然后被廣泛用于分類、回歸和其他任務(wù)。為了防止過度擬合,本項(xiàng)目根據(jù)經(jīng)驗(yàn),將最大深度的參數(shù)設(shè)置為2,將隨機(jī)狀態(tài)的參數(shù)設(shè)置為1。
3)多重社交網(wǎng)絡(luò)學(xué)習(xí)。Song 等[28]提出了一種名為MSNL 的新型模型,它可以對(duì)源置信度和源一致性進(jìn)行建模,特別是可使用線性系統(tǒng)的逆函數(shù)來獲得封閉形式的解決方案。此外,他們提出了一種社交網(wǎng)絡(luò)中數(shù)據(jù)丟失的方法。學(xué)習(xí)模型定義如下:
式中,權(quán)重向量αs表示代表來自第s個(gè)社交網(wǎng)絡(luò)的訓(xùn)練好的模型權(quán)重,則損失函數(shù)定義如下:
式中:β為正則化參數(shù),在模型函數(shù)和損失函數(shù)中eTα= 1;此外,根據(jù)經(jīng)驗(yàn)和參數(shù)調(diào)整,將正則化參數(shù)λ設(shè)置為0.01,β設(shè)置為10-5,μ設(shè)置為0.1,以獲得該模型的良好性能。
4)多模式抑郁詞典學(xué)習(xí)。Shen 等[21]提出了一種抑郁用戶分類器,通過多模型字典學(xué)習(xí)來學(xué)習(xí)稀疏表示。它使用了6 種不同的特征,然后利用字典學(xué)習(xí)來學(xué)習(xí)一組潛在字典D= [d1,d2,…,dD] 和一個(gè)潛在稀疏表示A= [a1,a2,…,an] ,有
式中,λ為平衡參數(shù)。
然后,根據(jù)得到的稀疏表示,訓(xùn)練了一個(gè)邏輯回歸分類器,該分類器使用潛在的稀疏回歸來檢測(cè)用戶是否患有抑郁癥,有
式中,ρ為平衡參數(shù),W為訓(xùn)練中需要學(xué)習(xí)的回歸參數(shù)矩陣,f(yi,W,ai)為訓(xùn)練中的分類器損失函數(shù),表示為
由于某些數(shù)據(jù)無法在社交網(wǎng)絡(luò)功能中進(jìn)行標(biāo)準(zhǔn)化,因此在此模型中刪除了6 種數(shù)據(jù)類型。它們是狀態(tài)計(jì)數(shù)、關(guān)注者計(jì)數(shù)、朋友計(jì)數(shù)、列出計(jì)數(shù)、收藏夾計(jì)數(shù)和轉(zhuǎn)發(fā)計(jì)數(shù)。根據(jù)原始的論文設(shè)定,將字典維設(shè)置為135,將正則化參數(shù)α設(shè)置為3×10-5,將ρ設(shè)置為1×10-6。
此外,為了驗(yàn)證所提出方法的有效性,在此實(shí)驗(yàn)中,選擇了Pytorch 作為深度學(xué)習(xí)軟件平臺(tái),并采用一臺(tái)NVIDIA GTX1080Ti 作為硬件平臺(tái)。根據(jù)經(jīng)驗(yàn)將時(shí)間序列特征維設(shè)置為128,并根據(jù)損失和迭代圖選擇了無監(jiān)督的LSTM 模型,該模型迭代9 000次,以提取時(shí)間序列特征。
1.3.2 對(duì)比特征
基于所提出的多示例學(xué)習(xí)算法的概念,從推文中提取的任何特征都可以用作所提出算法的輸入。根據(jù)提取的特征,從每個(gè)推文中提取主題特征,并且?guī)缀蹩梢钥隙ǎ钟敉莆牡闹黝}和非抑郁推文的主題可能會(huì)有所不同。因此,做了一組實(shí)驗(yàn),利用主題特征來訓(xùn)練多示例模型。
1)主題特征(latent Dirichlet allocation,LDA)。該實(shí)驗(yàn)采用了25 維LDA 特征,可以將其定義為來自每個(gè)Twitter 用戶的每條推文中前25 個(gè)主題的概率。
2)時(shí)間序列特征(time series,TS)。根據(jù)先前的實(shí)驗(yàn),該實(shí)驗(yàn)選擇了128 維無監(jiān)督LSTM 特征來表示時(shí)間序列特征。
1.3.3 評(píng)測(cè)準(zhǔn)則
在二元分類領(lǐng)域,數(shù)據(jù)的統(tǒng)計(jì)主要采取4 種方法:TP (true positive),表示實(shí)際值是抑郁的,而預(yù)測(cè)值也是抑郁的;TN (true negative),表示實(shí)際值是非抑郁的,而預(yù)測(cè)值也是非抑郁的; FP (false positives),表示實(shí)際值為非抑郁,而且預(yù)測(cè)值為抑郁的;FN (false negative);表示實(shí)際值為抑郁的,而預(yù)測(cè)值為非抑郁的。
借助于以上4 個(gè)統(tǒng)計(jì)數(shù)據(jù),通過比較準(zhǔn)確率、召回率、精度和F1 得分,評(píng)價(jià)比較方法和比較特征的識(shí)別性能。
1)準(zhǔn)確性:這是正確預(yù)測(cè)的值與總值的比率。幾乎可以肯定,準(zhǔn)確性是最直觀的性能指標(biāo),有
2)召回率:也稱為靈敏度,是正確預(yù)測(cè)的正值與實(shí)際值中所有值的比率,有
3)精度:也稱為正預(yù)測(cè)值,是正確預(yù)測(cè)的正值與總預(yù)測(cè)的正值之比,有
4)F1-分?jǐn)?shù):這是精度和召回率的加權(quán)平均值。通常,它表示精度和召回率的和諧平均值,有
首先,本研究進(jìn)行了一系列實(shí)驗(yàn),以驗(yàn)證提出的多示例學(xué)習(xí)模型的性能。為了訓(xùn)練這些方法,在開始此實(shí)驗(yàn)之前,已將提取的特征格式化為相同的維度。這些方法需要使用的特征是社交網(wǎng)絡(luò)特征、情感特征、主題特征和領(lǐng)域特征,每個(gè)特征都可以視為模態(tài)。由于方法自身的特殊性,僅采用時(shí)間序列特征作為輸入數(shù)據(jù)來預(yù)測(cè)抑郁癥。根據(jù)先前的實(shí)驗(yàn),該實(shí)驗(yàn)選擇了尺寸為128 的無監(jiān)督LSTM 特征。
表2顯示了4 個(gè)基本方法與所提出的方法(ULML)之間的性能比較??梢钥闯?,MSNL 的準(zhǔn)確性和精度最高,而ULML 的召回率和F1 得分最高。這表明,由于ULML 的召回率較高,因此在檢測(cè)到用戶有抑郁癥時(shí),提出的多示例學(xué)習(xí)具有較好的性能。這也意味著,如果有關(guān)于用戶的更多信息,則機(jī)器學(xué)習(xí)模型可能具有更高的準(zhǔn)確性。另外,MDL模型的性能不好,因?yàn)闊o法提取配置文件特征和視覺特征,因此這兩種方式可能對(duì)該模型產(chǎn)生更大的影響。此外,當(dāng)NB 和RDF 具有更多模態(tài)時(shí),性能會(huì)更好。
表2 不同方法的性能Tab.2 Performance on different methods
首先,進(jìn)行了一組實(shí)驗(yàn),以檢驗(yàn)在提出的多示例學(xué)習(xí)模型中非監(jiān)督LSTM 功能的情況。由于MSNL 和MDL 必須利用多種模式,因此本實(shí)驗(yàn)僅使用樸素貝葉斯和隨機(jī)森林作為比較基準(zhǔn)。與以前的實(shí)驗(yàn)一樣,該實(shí)驗(yàn)評(píng)估的時(shí)間序列特征的維度為128。如表3所示,所提出的具有時(shí)間序列特征的多示例學(xué)習(xí)模型,明顯優(yōu)于具有時(shí)間序列特征的樸素貝葉斯和隨機(jī)森林。這意味著時(shí)間序列可能更適合于所提出的多示例學(xué)習(xí)模型,并且也證明選擇多示例學(xué)習(xí)是因?yàn)槠錂C(jī)器學(xué)習(xí)模型正確。
表3 每個(gè)模型上時(shí)間序列特征的性能Tab.3 Performance of time series features on each model
表4所示為這3 個(gè)分類器之間的性能比較??梢钥闯觯蟹诸惼骶哂辛己玫男阅?,其中帶有RBF 內(nèi)核的SVM 的分類器在所有4 個(gè)指標(biāo)上均優(yōu)于其他分類器。這些實(shí)驗(yàn)證明,無監(jiān)督的LSTM 功能可用于檢測(cè)抑郁癥的推文并表現(xiàn)良好。由于RBF 內(nèi)核SVM 具有最佳性能,因此時(shí)間序列特征可能是線性不可分的特征,這也意味著當(dāng)尺寸不是太大并且樣本為中等大小時(shí),RBF 核方法比線性核方法更好。
表4 不同分類器下的性能Tab.4 Performance with different classifiers
根據(jù)方法論中提到的RBF 核函數(shù),為了更好地反映無監(jiān)督的LSTM 功能,針對(duì)參數(shù)γ與C的不同組合進(jìn)行了一組實(shí)驗(yàn),以找到最合適的分類器組合。其中,C為懲罰系數(shù),γ表示映射到新要素空間后的數(shù)據(jù)分布。此外,這些實(shí)驗(yàn)根據(jù)經(jīng)驗(yàn),將時(shí)間序列特征維設(shè)置為128,并使用了無監(jiān)督的LSTM 模型,該模型反復(fù)進(jìn)行9 000 次,提取時(shí)間序列特征。
表5所示為分類器在不同參數(shù)組合之間的性能比較。可以看出,當(dāng)參數(shù)γ=10 且參數(shù)C=10 時(shí),相關(guān)的RBF 核分類器是最合適的分類器。根據(jù)該表,可發(fā)現(xiàn)性能的趨勢(shì)隨著C值的變化,在開始時(shí)是上升的,然后緩慢下降。這證明,如果C值越高則越容易擬合,如果C值越小則越容易擬合不足,因此,當(dāng)C值太大或太小時(shí),泛化能力都變差。
表5 不同參數(shù)下的模型性能Tab.5 Performance with different parameters
在以前的實(shí)驗(yàn)中,由于經(jīng)驗(yàn),采用了128 維無監(jiān)督LSTM 功能。為了驗(yàn)證無監(jiān)督的LSTM 功能可以用于多示例學(xué)習(xí),進(jìn)行了一系列不同維度的無監(jiān)督LSTM 功能的實(shí)驗(yàn)。當(dāng)提取256 維特征時(shí),會(huì)發(fā)現(xiàn)損失值無法降低,這可能是因?yàn)槌叽缣蠖鵁o法收斂。因此,這些實(shí)驗(yàn)的設(shè)置尺寸d= {16,32,64,128}。根據(jù)維度列表,針對(duì)每個(gè)維度進(jìn)行一組實(shí)驗(yàn),如圖2所示,其中多示例權(quán)重ω∈[0.05,0.24]。
圖2 不同維度下的準(zhǔn)確率隨權(quán)重變化Fig.2 The relationship between accuracy and weight under different dimensions
表6所示為在這些維度中多示例學(xué)習(xí)的性能??梢钥吹?,尺寸128 可獲得最佳性能,并且隨著尺寸的增加,性能會(huì)變得更好。然而,隨著尺寸的增加,損失變得難以減少,這能證明更高的維度可以存儲(chǔ)更多有關(guān)時(shí)間序列的消息。因此,對(duì)于建議的多示例學(xué)習(xí)算法,維度128 可被視為最合適的維度。
表6 不同維度的性能表現(xiàn)Tab.6 Performance with different feature dimensions
表7所示為所提出的具有不同特征的多示例學(xué)習(xí)模型的性能??梢钥闯?,與主題特征(LDA)相比,時(shí)間序列特征(TS)獲得了最佳性能。這表明與主題特征信息相比,時(shí)間序列信息能更好地反映Twitter 用戶的抑郁傾向,也意味著所提出的機(jī)器學(xué)習(xí)模型可用于檢測(cè)Twitter 用戶的抑郁情緒。
表7 不同特征下的性能Tab.7 Performance with different features
在傳統(tǒng)的臨床診斷中,心理醫(yī)生需要通過與來訪者進(jìn)行面對(duì)面的訪談來診斷其是否患有抑郁癥以及病情的程度。然而,這種方法會(huì)有很多潛在的問題。鑒于有抑郁傾向的患者更愿意向社交媒體傾述自己的心情及狀態(tài),所以借助計(jì)算機(jī)輔助方法,并利用社交媒體中的文本信息,提出了基于時(shí)間序列特征以及多示例學(xué)習(xí)的早期抑郁癥檢測(cè)方法。把被診斷人的社交媒體的文本信息進(jìn)行LSTM編碼,產(chǎn)生時(shí)間序列特征,然后用多示例學(xué)習(xí)的方法對(duì)其進(jìn)行二分類,從而判斷被診斷人是否具有早期抑郁癥傾向。
Islam 等[29]在Facebook 上搜集了一些社交媒體數(shù)據(jù),構(gòu)建了21 列的情感信息數(shù)據(jù),包括7 145條數(shù)據(jù),其中58%被標(biāo)注為抑郁,而42%被標(biāo)注為非抑郁;采用傳統(tǒng)的手工特征提取的方式,提取社交媒體特征,最后采用決策樹、K-近鄰和SVM 來實(shí)現(xiàn)抑郁癥的分類。Cacheda 等[30]利用文本、語義以及寫作相似度來定義特征,并采用隨機(jī)森林的方法實(shí)現(xiàn)抑郁癥的分類。這兩種方法均屬于傳統(tǒng)的手工特征方法,從本研究的結(jié)果中可以發(fā)現(xiàn),采用傳統(tǒng)的特征均不如基于深度學(xué)習(xí)的序列特征的效果好,說明序列化的深度特征可以更多地保存患者的多個(gè)時(shí)間信息,能夠進(jìn)一步提升分類效果。
然而,深度學(xué)習(xí)的優(yōu)異表現(xiàn)主要是通過大量的有標(biāo)注數(shù)據(jù)集的訓(xùn)練而獲得的[31],目前專注于用文本信息進(jìn)行抑郁癥識(shí)別的數(shù)據(jù)集較少,Shen 等[21]采用的這個(gè)數(shù)據(jù)集相對(duì)來說是一個(gè)適用于模型訓(xùn)練的數(shù)據(jù)集。然而,這個(gè)數(shù)據(jù)集包含了太多的冗余信息,使其不能直接用于模型訓(xùn)練,因此從中整理了100 個(gè)抑郁患者和100 個(gè)非抑郁患者合計(jì)7 946條推文數(shù)據(jù)。從結(jié)果上來看,雖然取得了75%的準(zhǔn)確率,但還是遠(yuǎn)遠(yuǎn)不夠的,其原因之一就是訓(xùn)練數(shù)據(jù)集不夠大,能夠?qū)W習(xí)到的知識(shí)是有限的。本研究的主要目的是通過實(shí)驗(yàn)驗(yàn)證LSTM 特征,以及多示例學(xué)習(xí)的有效性,證明其可以用于早期抑郁癥的診斷,比傳統(tǒng)的算法模型要好,后期可以通過擴(kuò)大數(shù)據(jù)集進(jìn)行模型效果的提升。Gui 等[32]同樣也通過強(qiáng)化學(xué)習(xí)的方法,驗(yàn)證了LSTM 序列特征的優(yōu)越性。
此外,根據(jù)特征比較實(shí)驗(yàn),對(duì)于提出的多示例學(xué)習(xí)模型,128 維無監(jiān)督LSTM 是最合適的時(shí)間序列特征,說明特征的維度越高,可以保存的有效信息就越多。研究結(jié)果還表明,基于RBF 內(nèi)核的SVM分類器是該算法最合適的二進(jìn)制分類器,這意味著時(shí)間序列特征是線性不可分的特征。而且,與從每個(gè)推文中提取的其他特征相比,時(shí)間序列特征可以更好地反映抑郁信息,因此證明用其可以通過社交媒體中的文本信息進(jìn)行診斷抑郁癥檢測(cè)。
根據(jù)不同的模型比較實(shí)驗(yàn)的結(jié)果來看,ULML在召回指標(biāo)中表現(xiàn)最佳。可以看出,對(duì)于檢測(cè)抑郁用戶,所提出模型的性能優(yōu)于比較的基準(zhǔn)模型。但是,該模型的準(zhǔn)確性和精確度不如其他多模態(tài)模型好。這是由于這些多模態(tài)模型利用了來自用戶的更多信息,而所提出的模型僅采用了時(shí)間序列特征。然而,在實(shí)踐中召回率較高,即發(fā)現(xiàn)抑郁癥的陽性病例是有非常價(jià)值的[21]。
此外,對(duì)推文數(shù)據(jù)的編碼訓(xùn)練采用高維標(biāo)簽碼并作為輸入,其實(shí)這樣的標(biāo)簽之間是沒有關(guān)聯(lián)意義的,這也是影響性能的一個(gè)關(guān)鍵因素。Word2Vec(word to vector)是一個(gè)基于維基百科的詞向量模型[33],可以把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,計(jì)算出向量空間上的相似度,以表示文本語義上的相似度。因此,為了將同一條推文數(shù)據(jù)之間的單詞有意義化,未來可以采用Word2Vec先對(duì)詞語向量化,并采用雙重LSTM 進(jìn)行編碼學(xué)習(xí)[34],使特征中包含更多的原始語義信息,以進(jìn)一步提升模型的性能。
針對(duì)傳統(tǒng)的面對(duì)面交談來檢測(cè)抑郁癥存在的問題,本研究利用患者在社交媒體上所發(fā)布的文本信息來檢測(cè)早期的抑郁傾向。提出利用時(shí)間序列特征和多示例學(xué)習(xí)檢測(cè)模型,使用無監(jiān)督LSTM 提取時(shí)間序列特征,使用訓(xùn)練分類器實(shí)現(xiàn)二值分類,使用多示例學(xué)習(xí)模型解決不平衡樣本問題,并在一個(gè)通用標(biāo)注數(shù)據(jù)集上進(jìn)行了測(cè)試,以驗(yàn)證所提出方法的有效性和先進(jìn)性。鑒于當(dāng)前方法中所用的數(shù)據(jù)集較小,使訓(xùn)練得到的模型不夠完美,所以下一步將整理更多的數(shù)據(jù)以供訓(xùn)練。此外,考慮到當(dāng)前文本數(shù)據(jù)的表示采用標(biāo)簽碼的形式,單詞之間缺乏聯(lián)系,下一步將引入Word2Vec 來實(shí)現(xiàn)文本信息的編碼,增強(qiáng)單詞之間的關(guān)聯(lián)性,以提升模型的整體性能。