国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感詞典的情感分析在抑郁中的研究進(jìn)展*(綜述)

2024-02-14 07:26:26王瑤菡曾利紅秦春香
中國健康心理學(xué)雜志 2024年1期
關(guān)鍵詞:詞典分類器情緒

王瑤菡 曾利紅 王 穎 唐 琴 秦春香△

①中南大學(xué)湘雅護(hù)理學(xué)院(湖南) 410013 E-mail:yaohanwang@csu.edu.cn ②中南大學(xué)湘雅三醫(yī)院 △通信作者 E-mail:Chunxiangqin@csu.edu.cn

抑郁障礙是全球最常見的精神障礙之一[1],目前,全球抑郁患者高達(dá)3.5億,我國超過2600萬[2],抑郁障礙不僅對患者的生活質(zhì)量產(chǎn)生嚴(yán)重影響,還會(huì)對醫(yī)療服務(wù)及社會(huì)經(jīng)濟(jì)造成沉重負(fù)擔(dān)[3]。抑郁的早期識(shí)別與篩查是診斷和管理的基石,目前篩查方式主要是基于心理量表測評[4],但存在效率低下、識(shí)別結(jié)果滯后且主觀性強(qiáng)的缺點(diǎn)[5-6],無法實(shí)現(xiàn)客觀且實(shí)時(shí)的大規(guī)模監(jiān)測。因此實(shí)現(xiàn)抑郁障礙的高效、客觀、實(shí)時(shí)、大規(guī)模監(jiān)測,已經(jīng)成為了當(dāng)前臨床醫(yī)務(wù)工作者和心理衛(wèi)生科研人員亟待解決的重要議題。而大數(shù)據(jù)時(shí)代的到來以及人工智能技術(shù)的發(fā)展,為解決這一問題提供了契機(jī)。研究表明用戶逐漸傾向于在網(wǎng)絡(luò)中分享日常生活,表達(dá)觀點(diǎn)和情緒[7],這些內(nèi)容能實(shí)時(shí)、真實(shí)反映用戶當(dāng)下的情緒狀態(tài),且隱私性更強(qiáng),同時(shí)有效減少部分患者就醫(yī)病恥感[8]。隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和智能手機(jī)的普及應(yīng)用,社交媒體中反映用戶興趣、觀點(diǎn)及心理動(dòng)態(tài)等方面的數(shù)據(jù)海量擴(kuò)增,因此,社交媒體逐漸成為挖掘用戶心理動(dòng)態(tài)的重要資源[9],其在社交媒體中會(huì)有意或無意的暴露情緒,通過獲取用戶在社交媒體中發(fā)布的文本構(gòu)建情感詞典,進(jìn)行情感分析,能夠判斷用戶是否有抑郁傾向[10-11],該方法具有規(guī)模廣、準(zhǔn)確率高、客觀性強(qiáng)、資源消耗少的優(yōu)勢。本文圍繞基于情感詞典的情感分析方法以及其在抑郁領(lǐng)域的應(yīng)用進(jìn)行綜述,旨在為早期預(yù)測與篩查抑郁個(gè)體提供參考,以便盡早實(shí)施干預(yù)促進(jìn)患者康復(fù)。

1 概 述

1.1 情感分析

情感分析(Sentiment Analysis),又稱意見挖掘,是通過提取文本信息,對其情感傾向進(jìn)行分析,以獲得人們的觀點(diǎn)、看法、態(tài)度等[12]。情感分析被廣泛應(yīng)用于各類領(lǐng)域的情緒識(shí)別,在早期的工作中,通過網(wǎng)絡(luò)文本信息進(jìn)行情感分析的研究主要應(yīng)用于輿情分析、推薦系統(tǒng)、用戶畫像等領(lǐng)域[13],如利用社交平臺(tái)網(wǎng)民發(fā)帖來分析群眾意見及輿情趨勢[14],利用電子商務(wù)平臺(tái)用戶評論來評估用戶對產(chǎn)品的滿意程度[15]。

1.2 情感詞典

情感詞典(Sentiment Lexicon)是已標(biāo)注情感傾向的名詞、副詞、動(dòng)詞等詞語的集合[16]。詞語是體現(xiàn)文本情感的基本單位[17],在一定語境中表現(xiàn)出正負(fù)情感極性,如 “好”的情感傾向是正向的,而“糟糕”則是負(fù)向的。通過提取這類情感詞語,標(biāo)注情感傾向,整理形成情感詞典。

1.3 情感詞典在情感分析中的作用

基于情感詞典的方法是進(jìn)行情感分析的方式之一,將待分析文本中的詞匯與情感詞典中的詞匯進(jìn)行匹配,累積各詞語的分值計(jì)算出文本的情感得分,或根據(jù)文本中不同情感詞的比例評估出文本的情感傾向。社交媒體中的發(fā)帖及評論大多較短、具有非正式的語言風(fēng)格,針對此類文本,基于情感詞典的方法具有粒度精細(xì)、操作簡便、可解釋性高、結(jié)果穩(wěn)定等優(yōu)勢[17-18]。因此,本文將重點(diǎn)聚焦于基于情感詞典的情感分析。

2 基于情感詞典的情感分析方法

2.1 構(gòu)建情感詞典

構(gòu)建情感詞典是情感分析的核心[19],情感分析的正確率主要取決于情感詞典的準(zhǔn)確率和覆蓋率[20]。情感詞典的構(gòu)建包括獲取原始數(shù)據(jù)、文本預(yù)處理和形成詞典。原始數(shù)據(jù)主要來源于社交媒體和網(wǎng)絡(luò)論壇的發(fā)文,其獲取途徑主要通過開放的應(yīng)用程序編程接口和網(wǎng)絡(luò)爬蟲兩種方式。原始數(shù)據(jù)書寫隨意且包括很多噪聲因此需要預(yù)處理,通過數(shù)據(jù)清理、分詞、停用詞刪除、詞性標(biāo)注等,使其轉(zhuǎn)換成能被計(jì)算機(jī)識(shí)別的結(jié)構(gòu)化數(shù)據(jù)[21]。預(yù)處理后,人工標(biāo)注出情感極性或強(qiáng)度集成情感詞典。在此基礎(chǔ)上,通過種子詞延伸[22]、詞語共現(xiàn)[23]等方法挖掘更多情感詞,或引入機(jī)器學(xué)習(xí)算法[24]、神經(jīng)網(wǎng)絡(luò)[25]等來擴(kuò)展詞典,以達(dá)到減少人工成本、增大詞典覆蓋面的目的。

目前研究構(gòu)建的情感詞典可以分為通用性情感詞典和領(lǐng)域依賴性情感詞典[20]。對于通用情感詞典的構(gòu)建,國外先于國內(nèi),使用較多的有SentiWordNet[26]、OpinionFinder詞典、GI(General Inquirer)詞典[20],中文詞典主要有臺(tái)灣大學(xué)的NTUSD[27]、知網(wǎng)的HowNet、大連理工大學(xué)的情感詞匯本體庫[28]。這類詞典通用性廣,但對垂直領(lǐng)域中的專有情感詞含量較少,如常能反映抑郁的詞“失眠”,但情感傾向?qū)儆谥行?沒有列入HowNet詞典[29]。而領(lǐng)域情感詞典則相反,是指在特定領(lǐng)域常用到的詞匯集合,通用性弱,但對垂直領(lǐng)域中的專有情感詞含量較多。隨著各領(lǐng)域數(shù)據(jù)極速增長和應(yīng)用要求增加,領(lǐng)域依賴情感詞典也逐漸獲得關(guān)注,搭建了產(chǎn)品、電影、旅游、抑郁等領(lǐng)域詞典,如含有抑郁情感網(wǎng)絡(luò)流行詞語和表情符號的抑郁詞典[30],結(jié)合通用詞典與表情符號的多模態(tài)詞典[31]。

2.2 建立分析模型

情感詞典構(gòu)建后,建立用于計(jì)算情感得分或分類情感傾向的模型,常見的可分3類:基于正負(fù)詞數(shù)量的非監(jiān)督模型、基于文本情感得分的非監(jiān)督模型和基于情感詞典提取特征的監(jiān)督模型[16]。首先,待分析文本為整個(gè)模型的輸入,文本與情感詞典逐一匹配?;谡?fù)詞數(shù)量的非監(jiān)督模型的構(gòu)建是利用Python語言設(shè)定統(tǒng)計(jì)函數(shù),直接統(tǒng)計(jì)文本中正負(fù)情感詞數(shù)量[16,32],或根據(jù)語義相似度、同義詞關(guān)系對未收錄的詞語計(jì)算極性后運(yùn)行統(tǒng)計(jì)函數(shù)?;谖谋厩楦械梅值姆潜O(jiān)督模型構(gòu)建的主要任務(wù)是用程序語言設(shè)定運(yùn)算規(guī)則。當(dāng)文本出現(xiàn)情感詞典中的詞語時(shí),讀取該詞權(quán)值,再排查當(dāng)前窗口范圍內(nèi)是否有否定詞和程度副詞,編寫運(yùn)算規(guī)則進(jìn)行權(quán)重處理:否定詞使權(quán)值反號,程度副詞使權(quán)值加倍[33],直至遍歷全文,對全部情感詞加權(quán)運(yùn)算,其總分值作為模型輸出,以上模型具有簡單實(shí)用、易于分析理解的優(yōu)勢,但其情感分類精度相對較低[21]。為提高情感分析準(zhǔn)確性,研究者構(gòu)建基于情感詞典特征的監(jiān)督模型,這一模型的主要思想是根據(jù)情感詞典提取文本特征,基于這些特征通過機(jī)器學(xué)習(xí)算法構(gòu)造分類器,即把用戶的情感分析任務(wù)轉(zhuǎn)化成用戶文本的分類任務(wù),其分類結(jié)果作為模型的輸出。這類模型的構(gòu)建分訓(xùn)練與測試兩步。將已經(jīng)人工標(biāo)注傾向的文本分成訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),用詞頻-逆文檔頻率(TF-IDF)、卡方(CHI)[30]、互信息(MI)[32]、信息增益(IG)[34]等方法提取訓(xùn)練數(shù)據(jù)的語言特征,包括詞匯、句法或語義等[35],用于調(diào)整分類器的參數(shù)[34],再用分類器對測試數(shù)據(jù)模擬分類以檢驗(yàn)分類器效能。模型的性能評估常使用的指標(biāo)包括準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)以及綜合考慮精確率與召回率的調(diào)和平均數(shù)F1值[36]。

2.3 得出情感傾向

用獲得的最佳模型進(jìn)行情感分析,基本流程如下:步驟一:獲取文本,從社交媒體爬取未知文本保存到本地?cái)?shù)據(jù)庫,作為模型的輸入;步驟二:預(yù)處理,添加開源停用詞表清理掉“#”所帶話題、超鏈接信息、亂碼字符等冗余數(shù)據(jù),利用中科院分詞系統(tǒng)ICTCLAS,THULAC或Jieba分詞庫[37]進(jìn)行分詞;步驟三:特征提取,根據(jù)已設(shè)定的算法提取文本特征,包括正負(fù)詞語數(shù)量、情感詞、程度副詞和否定詞特征、句法語義特征等;步驟四:得出情感類型,基于正負(fù)詞數(shù)量非監(jiān)督模型中,文本正負(fù)情感詞數(shù)量分別表示為#PW和#NW,若#PW>#NW,則文本為正向,反之為負(fù)向[16]。基于文本情感得分非監(jiān)督模型中,根據(jù)運(yùn)算的整個(gè)文本的情感得分Od,若Od>0,則文本視為正向,反之為負(fù)向[33]?;谇楦性~典特征模型可直接根據(jù)分類結(jié)果得到情感傾向,如支持向量機(jī)的學(xué)習(xí)目標(biāo)分為正負(fù)類,則輸出結(jié)果對應(yīng)情感傾向的正面和負(fù)面[38]。

3 基于情感詞典的情感分析在抑郁中的應(yīng)用

3.1 識(shí)別抑郁情緒

通過獲取用戶發(fā)布的帖子,構(gòu)建情感詞典及模型來分析文本情感,能夠識(shí)別用戶的抑郁傾向。Yusof等[39]將ANEW、MPQA和SentiWordNet 3種通用詞典分別嵌入多項(xiàng)式樸素貝葉斯分類器,對LiveJournal平臺(tái)收集的117,516個(gè)帖子的特征向量進(jìn)行二分類,實(shí)驗(yàn)發(fā)現(xiàn)基于3種詞典構(gòu)建的監(jiān)督分類器均有效分類出從抑郁論壇收集的帖子,其中SentiWordNet分類準(zhǔn)確率最高,達(dá)84.4%。方振宇等[29]在通用情感詞典基礎(chǔ)上構(gòu)建基于抑郁軀體癥狀、抑郁行為特征及抗抑郁藥物名稱的詞典,爬取443位鑒定為心理障礙的用戶和477位正常用戶的微博,利用支持向量機(jī)算法構(gòu)建模型,統(tǒng)計(jì)詞典內(nèi)的詞在微博中出現(xiàn)的次數(shù),將詞頻作為用戶的語言特征進(jìn)行二分類,若結(jié)果為消極則表示用戶可能存在抑郁傾向,將算法的分類結(jié)果與用戶的診斷進(jìn)行比對,評估模型性能,結(jié)果顯示基于擴(kuò)展詞典方法的準(zhǔn)確率(88.6%)、召回率(77.8%)、F1值(82.7%)均高于其他特征分類方法,正確分類出抑郁用戶微博,有利于識(shí)別潛在的抑郁用戶,進(jìn)而聯(lián)系該用戶進(jìn)行專業(yè)醫(yī)學(xué)檢測,盡早接受干預(yù)。

3.2 判斷抑郁程度

情感詞典中詞語的情感傾向程度可能不同,使用情感詞的不同傾向程度判斷整條文本的情感強(qiáng)度,幫助醫(yī)護(hù)人員判斷用戶的抑郁嚴(yán)重程度,便于實(shí)施管理或診療時(shí)選擇不同方案。Fatima等[40]基于包含情緒標(biāo)簽的帖子效價(jià)的高低來判斷用戶抑郁程度的輕重,研究使用ANEW詞典中詞語的不同效價(jià),將文本的情緒標(biāo)簽與抑郁程度對應(yīng)(1.0~3.5對應(yīng)重度抑郁,3.6~5.5對應(yīng)中度抑郁,5.6~9.0對應(yīng)輕度抑郁),使用隱馬爾可夫模型和隨機(jī)森林分類器實(shí)現(xiàn)利用詞語的不同效價(jià)值識(shí)別帖子抑郁程度,精確率為92.3%。尹暢等[22]爬取輕、中、重度抑郁用戶的評論,運(yùn)用雙向最大匹配和詞頻-極性強(qiáng)度值方法發(fā)掘情感詞以構(gòu)建詞典,以極性強(qiáng)度0、1、3、5,分別代表存在抑郁、輕度、中度、重度抑郁四等,通過累加和統(tǒng)計(jì),按最終計(jì)算的極性強(qiáng)度初步判斷用戶抑郁程度,結(jié)合用戶實(shí)際情況驗(yàn)證方法性能,準(zhǔn)確率為78.65%,F1值為81.55%,實(shí)現(xiàn)幫助醫(yī)護(hù)人員初步辨別抑郁患者病重程度,跟蹤抑郁患者情況?;谇楦性~典的情感分析雖然能有效分析判斷抑郁程度,但由于中度抑郁描述與輕、重度有所重疊,導(dǎo)致模型錯(cuò)誤地將部分中度抑郁帖子分類為輕度或重度[40],成為準(zhǔn)確區(qū)分不同抑郁程度的障礙之一,抑郁程度的強(qiáng)鑒別仍有待于進(jìn)一步開發(fā)。

3.3 動(dòng)態(tài)分析情緒波動(dòng)

利用用戶一段時(shí)間內(nèi)發(fā)布的文本分析抑郁情緒變化,加強(qiáng)對抑郁患者情緒波動(dòng)的動(dòng)態(tài)監(jiān)測。施志偉等[30]通過獲取微博文本構(gòu)建抑郁詞典,用支持向量機(jī)構(gòu)造函數(shù)形成抑郁情感傾向分類器,計(jì)算分類結(jié)果中抑郁文本數(shù)量與總文本數(shù)量的比值DI,以各月DI值的變化趨勢反映個(gè)體在某段時(shí)間內(nèi)的抑郁傾向的波動(dòng)趨勢,避免單條微博不能刻畫用戶一段時(shí)間內(nèi)的整體抑郁傾向及變化情況,為醫(yī)護(hù)人員分析抑郁患者提供輔助手段。Kalyani等[41]將基于詞典和基于機(jī)器學(xué)習(xí)的方法結(jié)合建立情緒波動(dòng)分析器,通過無監(jiān)督機(jī)器學(xué)習(xí)來自動(dòng)檢測情緒極性,生成用戶情緒偏差和相似性的報(bào)告,形成動(dòng)態(tài)分析方法,確定用戶情緒波動(dòng),可用于預(yù)防因抑郁而導(dǎo)致的自殺企圖。Kang等[42]開發(fā)多模態(tài)情感分析方法,構(gòu)建了含有Visual Sentiment Ontology和SentiStrength的文本詞典、含有負(fù)面和正面表情符號的表情詞典以及圖像分類器,通過匯總每日或每條文本各模態(tài)隱藏的情緒,連續(xù)監(jiān)控用戶的情緒趨勢,準(zhǔn)確率提高4.4%至28.0%。Wu等[31]提出的自動(dòng)生成網(wǎng)絡(luò)用戶情緒波動(dòng)系統(tǒng)更加完善,該系統(tǒng)進(jìn)一步擴(kuò)展詞典,包含NTUSD、HowNet、TCCE 3種文本詞典和兩種表情詞典,生成負(fù)面情緒曲線,當(dāng)曲線突然上升時(shí)觸發(fā)事件檢測,根據(jù)帖子內(nèi)容、新聞、天氣數(shù)據(jù)來分析情緒變化可能的原因,不僅為抑郁患者提供自我檢查工具,也為醫(yī)護(hù)人員評估抑郁情緒波動(dòng)和發(fā)生原因提供參考。

4 展 望

4.1 多數(shù)據(jù)擴(kuò)展情感詞典的構(gòu)建

情感分析效果依賴于情感詞典的準(zhǔn)確度,目前限制情感詞典構(gòu)建的主要因素包含兩方面,一是獲取的原始數(shù)據(jù)量不足,有限的爬取量和不斷迭代的網(wǎng)絡(luò)新詞導(dǎo)致獲取的情感詞不全、詞典覆蓋面小,二是文本預(yù)處理的效果不佳,網(wǎng)絡(luò)文本內(nèi)容豐富,為數(shù)據(jù)清洗及訓(xùn)練高質(zhì)量詞典帶來難度。未來需持續(xù)跟蹤用戶評論,編組更高效的爬蟲程序以增大爬取用戶數(shù)量[21],調(diào)整文本預(yù)處理的策略,及時(shí)更新并合理延伸詞典,建立更完備、更精準(zhǔn)的情感詞典。

4.2 多模態(tài)優(yōu)化情感分析的方法

社交媒體的信息包羅萬象,利用表情符號等多模態(tài)數(shù)據(jù)、結(jié)合用戶行為或語言特征、引入其他機(jī)器算法均為情感分析方法打開新思路。未來可深入對圖像、音頻、視頻等數(shù)據(jù)的研究[43],甚至可采集周邊信息如粉絲圈、轉(zhuǎn)發(fā)量、在線時(shí)間等,結(jié)合更多有利于分析抑郁傾向的多模態(tài)信息,同時(shí)考慮當(dāng)多模態(tài)呈現(xiàn)的情感傾向不同時(shí),如何衡量權(quán)重以提升分析的準(zhǔn)確率。

4.3 多學(xué)科指導(dǎo)情感分析的應(yīng)用

基于情感詞典對抑郁個(gè)體情感分析的方法跨越數(shù)據(jù)挖掘、計(jì)算機(jī)技術(shù)、心理學(xué)等多個(gè)領(lǐng)域,醫(yī)療衛(wèi)生人員在分析個(gè)體抑郁情緒、盡早實(shí)施干預(yù)中起到重要作用,然而目前情感分析的研究多由計(jì)算機(jī)工程領(lǐng)域人員完成,醫(yī)療衛(wèi)生等領(lǐng)域未充分發(fā)揮作用,未來應(yīng)發(fā)揮多學(xué)科交叉融合的優(yōu)勢,一方面計(jì)算機(jī)領(lǐng)域研究者需進(jìn)一步利用新興技術(shù),調(diào)整程序代碼以推尋更穩(wěn)定可靠的模型配置;另一方面,醫(yī)療、心理等領(lǐng)域人員可以充分利用專業(yè)知識(shí),結(jié)合科技成果,有效解決心理障礙高發(fā)生低篩查的問題。在醫(yī)療衛(wèi)生與人工智能相結(jié)合的研究熱潮及“健康中國2030”規(guī)劃不斷推進(jìn)的背景下,共同推動(dòng)基于情感詞典的情感分析在抑郁領(lǐng)域的應(yīng)用,促進(jìn)心理健康狀態(tài)智能監(jiān)測服務(wù)的全民覆蓋。

5 小 結(jié)

早期篩查并實(shí)施有效干預(yù)對抑郁患者的健康管理和降低醫(yī)療成本具有重要作用[44],基于情感詞典的情感分析方法通過利用社交媒體文本構(gòu)建詞典分析用戶情感傾向,在識(shí)別與動(dòng)態(tài)監(jiān)測抑郁個(gè)體中展現(xiàn)出巨大潛力,但目前針對抑郁的開源情感詞典不足,應(yīng)用于醫(yī)療、心理領(lǐng)域的研究有限。因此,未來可將該方法與心理等領(lǐng)域相結(jié)合,以幫助臨床人員早期識(shí)別篩查抑郁用戶或檢測抑郁情緒波動(dòng),應(yīng)用智能化方式改善公眾心理健康。

猜你喜歡
詞典分類器情緒
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
小情緒
小情緒
小情緒
評《現(xiàn)代漢語詞典》(第6版)
詞典例證翻譯標(biāo)準(zhǔn)探索
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
情緒認(rèn)同
北碚区| 三原县| 中宁县| 温泉县| 湖北省| 米泉市| 龙南县| 错那县| 农安县| 宜城市| 泸水县| 平阳县| 桂东县| 澄城县| 基隆市| 临猗县| 通许县| 万载县| 常州市| 锡林浩特市| 龙川县| 原阳县| 怀远县| 南宫市| 富平县| 吉首市| 武川县| 黄陵县| 通海县| 河东区| 荆州市| 新竹市| 新昌县| 清镇市| 赣榆县| 鱼台县| 堆龙德庆县| 茌平县| 界首市| 河津市| 额济纳旗|