基于改進(jìn)LDA-CNN-BiLSTM模型的社交媒體情感分析研究

2022-04-14 03:26楊秀璋劉建義任天舒宋籍文姜婧怡陳登建周既松

現(xiàn)代計(jì)算機(jī) 2022年2期

楊秀璋，劉建義，任天舒，宋籍文，武帥,3，姜婧怡，陳登建，周既松，李娜

（1.貴州財(cái)經(jīng)大學(xué)信息學(xué)院，貴陽(yáng) 550025；2.貴州高速公路集團(tuán)有限公司，貴陽(yáng) 550027；3.漣水縣財(cái)政局，淮安 223400；4.中國(guó)船舶工業(yè)系統(tǒng)工程研究院，北京 100094）

0 引言

隨著Web2.0和社交媒體的迅速發(fā)展，互聯(lián)網(wǎng)產(chǎn)生了海量的評(píng)論信息，它們包含了用戶(hù)對(duì)輿情事件、人物觀點(diǎn)和風(fēng)景事物等所產(chǎn)生的價(jià)值傾向和情感色彩信息，表達(dá)了大眾對(duì)萬(wàn)事萬(wàn)物的情感色彩和立場(chǎng)態(tài)度，包括喜悅、憤怒、哀傷、贊同、批評(píng)等。如何自動(dòng)化快速地從非結(jié)構(gòu)化評(píng)論中挖掘出用戶(hù)的情感傾向，動(dòng)態(tài)監(jiān)測(cè)輿情事件的情感態(tài)勢(shì)變得至關(guān)重要，情感分析（sentiment analysis）技術(shù)應(yīng)運(yùn)而生。情感分析又稱(chēng)為意見(jiàn)挖掘、傾向性分析，旨在對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理和推理及預(yù)測(cè)的過(guò)程，重點(diǎn)關(guān)注文本中的不同情感色彩的特征，比如積極或消極。文本情感分析被廣泛應(yīng)用于輿情分析、內(nèi)容推薦、文本挖掘等領(lǐng)域，已經(jīng)成為了近年的研究熱點(diǎn)。

社交媒體的發(fā)展，便捷了用戶(hù)信息的往來(lái)，用戶(hù)對(duì)事件抒發(fā)個(gè)人真實(shí)感受和親身體驗(yàn)，對(duì)于政府、企業(yè)來(lái)說(shuō)都是重要的信息。然而社交媒體由于用戶(hù)量龐大，產(chǎn)生的意見(jiàn)信息層次不齊，大多信息簡(jiǎn)短而緊湊，夾雜大量個(gè)人感受和評(píng)論，存在較為嚴(yán)重的文本噪聲，一定程度增加了文本挖掘研究的難度。傳統(tǒng)情感分析方法僅從文本信息特進(jìn)行征提取實(shí)現(xiàn)情感分類(lèi)，并未有效考慮上下文間的語(yǔ)義關(guān)聯(lián)，不能較好反應(yīng)社交媒體真實(shí)的情感，結(jié)果存在一定的片面性。

1 相關(guān)研究

1.1 社交媒體情感分析

依托社交媒體的存在，用戶(hù)對(duì)輿情事件、人物觀點(diǎn)和風(fēng)景事物等產(chǎn)生了大量意見(jiàn)，為理解、深層次挖掘用戶(hù)信息行為提供了可能。其核心研究為分析用戶(hù)在社交媒體平臺(tái)上表達(dá)的情感，即情感分析（sentiment analysis）。情感分析主要包括：傾向性分類(lèi)、情緒分析、情感時(shí)序分析、主觀檢測(cè)、意見(jiàn)摘要、意見(jiàn)檢索、意見(jiàn)持有者提取、諷刺和反語(yǔ)檢測(cè)、跨領(lǐng)域情感分析以及多模態(tài)情感分析。最為常見(jiàn)的情感分析為情感分類(lèi)和情緒分析。

情感分類(lèi)基于假定一個(gè)實(shí)體或?qū)嶓w的方面和屬性能夠簡(jiǎn)單劃分在兩個(gè)相反情感極性的一個(gè)，分為積極、消極和中立。情緒分析是在情感分析的基礎(chǔ)上結(jié)合心理學(xué)的情緒狀態(tài)量表（profile of mood states）進(jìn)行六維度劃分。

1.2 基于機(jī)器學(xué)習(xí)的情感分析

基于機(jī)器學(xué)習(xí)的情感分析方法可分為兩類(lèi)：監(jiān)督學(xué)習(xí)技術(shù)和非監(jiān)督學(xué)習(xí)技術(shù)，都依賴(lài)于特征集?；诒O(jiān)督機(jī)器學(xué)習(xí)方法以支持向量機(jī)（SVM）、樸素貝葉斯、決策樹(shù)算法等，需要充足的語(yǔ)料庫(kù)作支撐。基于非監(jiān)督學(xué)習(xí)方法以無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)為主，一定程度能夠解決缺乏完整標(biāo)注的語(yǔ)料庫(kù)帶來(lái)的分析局限性。

針對(duì)機(jī)器學(xué)習(xí)算法的局限性，學(xué)者在算法基礎(chǔ)上進(jìn)行一定程度優(yōu)化，提升其識(shí)別效果。馬捷等人在現(xiàn)有情感極性值的基礎(chǔ)上，融入方差加權(quán)信息熵，計(jì)算不同話(huà)題解讀傾向所映射出的信息嬌虎毒，一定程度量化了熱點(diǎn)話(huà)題的信息價(jià)值。車(chē)思琪等在傳統(tǒng)機(jī)器學(xué)習(xí)算法基礎(chǔ)上融入情感詞典，提升識(shí)別效果。王珠美等在傳統(tǒng)LDA模型基礎(chǔ)上結(jié)合直覺(jué)模糊TOPSIS方法對(duì)農(nóng)產(chǎn)品在線(xiàn)評(píng)論進(jìn)行綜合評(píng)價(jià)值計(jì)算，有效發(fā)現(xiàn)綜合評(píng)價(jià)值與積極情感值之間的正相關(guān)性。

由于社交媒體的語(yǔ)料內(nèi)容存在大量個(gè)人情感，語(yǔ)料信息噪聲大，機(jī)器學(xué)習(xí)方法進(jìn)行情感特征提取時(shí)，無(wú)法進(jìn)行準(zhǔn)確預(yù)測(cè)。

1.3 基于深度學(xué)習(xí)的情感分析

相比于機(jī)器學(xué)習(xí)方法，深度學(xué)習(xí)模型不再依賴(lài)于特征提取，而是進(jìn)行自主學(xué)習(xí)。隨著深度學(xué)習(xí)的研究深度加深，基于深度學(xué)習(xí)的情感分析方法的準(zhǔn)確率逐步超過(guò)傳統(tǒng)方法。雖然深度學(xué)習(xí)模型進(jìn)行情感分析能夠有效解決語(yǔ)料標(biāo)注問(wèn)題，且準(zhǔn)確率較高，但模型訓(xùn)練花費(fèi)時(shí)間較大，無(wú)法解釋最終語(yǔ)義。

針對(duì)深度學(xué)習(xí)模型現(xiàn)階段的局限性，學(xué)者在框架模型上進(jìn)行一定程度改進(jìn)。楊秀璋等人在傳統(tǒng)TextCNN模型基礎(chǔ)之上融入Attention機(jī)制組合，有效完成微博輿情事件的情感分類(lèi)。夏輝麗等人針對(duì)推文情感分類(lèi)復(fù)雜且準(zhǔn)確率低的問(wèn)題，提出一種利用自注意力雙向分層語(yǔ)義模型進(jìn)行網(wǎng)絡(luò)文檔情感分析，提高了深度學(xué)習(xí)模型的求解速度和準(zhǔn)確度。張衛(wèi)等人針對(duì)古詩(shī)文本采用“冷啟動(dòng)”自動(dòng)標(biāo)引進(jìn)行語(yǔ)料學(xué)習(xí)，并運(yùn)用深度學(xué)習(xí)模型BERT-BiLSTM-CRF進(jìn)行長(zhǎng)篇幅詩(shī)文情感分析，有效提升準(zhǔn)確率，拓寬了對(duì)非遺文本的語(yǔ)義解析。

由于社交媒體的信息文本簡(jiǎn)短而緊湊，前后文語(yǔ)義關(guān)聯(lián)度大，深度學(xué)習(xí)方法在進(jìn)行語(yǔ)料學(xué)習(xí)后，應(yīng)考慮前后文本語(yǔ)義關(guān)聯(lián)性，再進(jìn)行情感分析。

針對(duì)社交媒體情感分析忽略情感特征的長(zhǎng)距離語(yǔ)義關(guān)系，無(wú)法精準(zhǔn)捕獲文本信息中帶有情感色彩的特征詞，需要進(jìn)行大量人工標(biāo)注提升實(shí)驗(yàn)結(jié)果的問(wèn)題。本文提出一種改進(jìn)LDACNN-BiLSTM的深度學(xué)習(xí)模型，有效感知輿情事件的情感態(tài)勢(shì)，一定程度上實(shí)現(xiàn)對(duì)微博輿情事件的情感分析，具有一定的研究意義。

2 本文工作

為更好地對(duì)社交媒體輿情事件的評(píng)論實(shí)現(xiàn)情感分析，本文提出一種改進(jìn)LDA-CNNBiLSTM模型，通過(guò)融合LDA模型和情感詞典實(shí)現(xiàn)特征提取，再構(gòu)建CNN-BiLSTM模型完成情感分類(lèi)，預(yù)測(cè)輿情事件的情感態(tài)勢(shì)。

2.1 模型總體框架

本文提出一種改進(jìn)LDA和CNN-BiLSTM的情感分類(lèi)模型，其總體框架如圖1所示。具體實(shí)現(xiàn)過(guò)程如下：

圖1 改進(jìn)LDA-CNN-BiLSTM模型框架

（1）通過(guò)Python和Xpath技術(shù)自定義網(wǎng)絡(luò)爬蟲(chóng)，采集微博社交媒體輿情事件的評(píng)論信息，包括“喜悅”“憤怒”和“哀傷”三種類(lèi)別的情感，并存儲(chǔ)至本地CSV文件中。

（2）對(duì)評(píng)論文本進(jìn)行數(shù)據(jù)預(yù)處理，包括Jieba中文分詞、停用詞過(guò)濾、特殊字符刪除、重復(fù)評(píng)論刪除、評(píng)論標(biāo)注等。

（3）構(gòu)建融合LDA模型、情感詞典和人工標(biāo)注的模型并用于情感特征詞提取，使用Word2Vec將經(jīng)過(guò)特征提取后的情感文本轉(zhuǎn)換為詞向量，并用作后續(xù)深度學(xué)習(xí)模型的輸入層。

（4）構(gòu)建CNN-BiLSTM模型，利用卷積神經(jīng)網(wǎng)絡(luò)提取文本的關(guān)鍵特征，長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)捕獲長(zhǎng)距離語(yǔ)義特征，最終經(jīng)過(guò)Softmax分類(lèi)器計(jì)算社交媒體輿情事件評(píng)論的情感傾向，完成情感分類(lèi)任務(wù)。輸出結(jié)果分別對(duì)應(yīng)“喜悅”“憤怒”和“哀傷”三種情感。

2.2 特征提取

本文提出一種融合LDA模型和情感詞典的特征提取方法。其具體的實(shí)現(xiàn)過(guò)程如下：

（1）通過(guò)LDA模型提取不同評(píng)論文本的情感特征詞。LDA模型是2003年由Blei等提出的主題模型，常用于文本分類(lèi)和文本挖掘任務(wù)，它可以將文檔集的主題以概率分布的形式給出，從而抽取出不同主題的分布情況，更好地完成融合主題的分類(lèi)或聚類(lèi)任務(wù)。本文將微博社交媒體不同輿情事件的評(píng)論劃分為三類(lèi)主題，分別對(duì)應(yīng)“喜悅”“憤怒”和“哀傷”三個(gè)類(lèi)別，并利用LDA模型提取對(duì)應(yīng)的主題特征詞。

（2）利用大連理工大學(xué)情感詞匯本體庫(kù)進(jìn)行特征提取，將其劃分為7個(gè)大類(lèi)和21個(gè)小類(lèi)，即“樂(lè)”“好”“怒”“懼”“哀”“惡”“驚”。同時(shí)，結(jié)合情感特征詞的詞頻統(tǒng)計(jì)和人工標(biāo)注構(gòu)建針對(duì)微博社交媒體的情感詞庫(kù)。

（3）由該情感詞庫(kù)完成特征提取任務(wù)。該操作能抽取出不同評(píng)論帶有情感色彩的高質(zhì)量特征詞，為后續(xù)深度學(xué)習(xí)模型實(shí)現(xiàn)情感分類(lèi)任務(wù)提供支撐。

2.3 CNN模型

卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network,CNN）主要由卷積層和池化層組成，本文構(gòu)建三層卷積神經(jīng)網(wǎng)絡(luò)提取輿情事件評(píng)論文本的關(guān)鍵特征。其中，卷積層將接收n×d的情感特征詞矩陣，卷積過(guò)程如公式（1）所示。

式中，f表示激活函數(shù)，通常采用ReLu（rectified linear units）函數(shù)加快訓(xùn)練收斂速度；hi表示微博社交媒體評(píng)論詞向量卷積處理后的特征；w表示大小為d的卷積核；V表示輸入層的詞向量；b表示偏置項(xiàng)。通過(guò)該卷積操作能有效生成局部特征集合，如公式（2）所示。

池化層可以壓縮文本特征向量和模型參數(shù)的大小，并且最大化保留情感特征特性，其計(jì)算公式如（3）所示。

本文通過(guò)構(gòu)建卷積核分別為2、3、4的過(guò)濾器來(lái)提取微博評(píng)論文本的關(guān)鍵特征，接著將其輸出向量輸入至BiLSTM模型。

2.4 Bi LSTM模型

雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（Bi-directional long short-term memory，BiLSTM）模型是循環(huán)神經(jīng)網(wǎng)絡(luò)的變體，它從前后兩個(gè)方向提取特征，從而捕獲長(zhǎng)距離依賴(lài)關(guān)系及上下文語(yǔ)義特征，本文用來(lái)提取輿情事件評(píng)論的情感特征。

BiLSTM模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示，通過(guò)狀態(tài)的傳遞來(lái)增強(qiáng)主體信息，從而有效捕獲如“喜歡”與“哈哈”、“難受”與“祈禱”等情感特征詞，其計(jì)算公式如（4）—（6）所示。

圖2 BiLSTM模型網(wǎng)絡(luò)結(jié)構(gòu)

3 實(shí)驗(yàn)分析

本文實(shí)驗(yàn)在Windows環(huán)境下完成，利用Python和Xpath技術(shù)采集微博社交媒體評(píng)論數(shù)據(jù)集，并按照“喜悅”“憤怒”和“哀傷”三種情感進(jìn)行標(biāo)注。接著通過(guò)TensorFlow和Keras構(gòu)建深度學(xué)習(xí)模型，其GPU為GTX 1080Ti，處理器為Inter（R）Core i7-8700K，編程環(huán)境為Anaconda，編程語(yǔ)言為Python 3.6。

3.1 實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)指標(biāo)

本文實(shí)驗(yàn)數(shù)據(jù)是通過(guò)Python和Xpath技術(shù)構(gòu)建網(wǎng)絡(luò)爬蟲(chóng)采集微博各輿情事件的評(píng)論數(shù)據(jù)，經(jīng)過(guò)數(shù)據(jù)清洗和預(yù)處理后形成20萬(wàn)條帶有情感色彩的數(shù)據(jù)集，數(shù)據(jù)集包括“喜悅”“憤怒”和“哀傷”三種情感，并隨機(jī)劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集，其數(shù)據(jù)分布情況如表1所示。

表1 社交媒體評(píng)論數(shù)據(jù)集

針對(duì)微博社交媒體評(píng)論的情感分析，本文采用精確率（Precision）、召回率（Recall）、F值（F-score）和準(zhǔn)確率（Accuracy）進(jìn)行實(shí)驗(yàn)評(píng)價(jià)，其計(jì)算過(guò)程如公式（7）—（10）所示。

其中，精確率用于評(píng)估情感分類(lèi)被正確預(yù)測(cè)為指定類(lèi)別占所預(yù)測(cè)類(lèi)別評(píng)論數(shù)量的百分比，召回率用于評(píng)估情感分類(lèi)被正確預(yù)測(cè)占該類(lèi)別情感評(píng)論數(shù)量的百分比，F(xiàn)值綜合了精確率和召回率，是兩者的加權(quán)調(diào)和平均值，常與準(zhǔn)確率用于評(píng)估模型的質(zhì)量。

3.2 基于LDA模型和情感詞典的特征提取實(shí)驗(yàn)

本文利用LDA模型和情感詞典對(duì)微博社交媒體的輿情事件評(píng)論進(jìn)行特征提取，其LDA主題模型的n_topic設(shè)置為3，分別對(duì)應(yīng)“喜悅”“憤怒”和“哀傷”三類(lèi)情感，情感詞典選擇大連理工大學(xué)情感詞匯本體庫(kù)。通過(guò)該操作能有效過(guò)濾不必要的噪聲特征詞干擾，同時(shí)經(jīng)過(guò)處理后特征詞將更具有情感色彩，為后續(xù)CNNBiLSTM模型的情感分類(lèi)提供良好的支撐。具體過(guò)程如下：

（1）通過(guò)中文分詞和數(shù)據(jù)清洗（含停用詞過(guò)濾和特殊字符清洗）提取只保留具有語(yǔ)義價(jià)值信息的特征詞。

（2）利用LDA模型提取“喜悅”“憤怒”和“哀傷”三類(lèi)主題的情感特征詞，并結(jié)合大連理工大學(xué)情感詞匯本體庫(kù)和人工標(biāo)注將不同評(píng)論的情感特征詞進(jìn)行權(quán)重加成。

（3）經(jīng)過(guò)上述步驟生成對(duì)應(yīng)的微博社交媒體情感詞庫(kù)，其中“喜悅”情感特征詞的詞云分布如圖3所示，“憤怒”情感特征詞的詞云分布如圖4所示，“哀傷”情感特征詞的詞云分布如圖5所示。

圖3 經(jīng)特征提取的“喜悅”類(lèi)別情感特征詞

圖4 經(jīng)特征提取的“憤怒”類(lèi)別情感特征詞

圖5 經(jīng)特征提取的“哀傷”類(lèi)別情感特征詞

（4）經(jīng)過(guò)情感特征提取，將其輸入CNNBiLSTM模型，并完成最終的情感分類(lèi)實(shí)驗(yàn)。

本文通過(guò)構(gòu)建改進(jìn)的LDA-CNN-BiLSTM模型，完成社交媒體情感分析任務(wù)。其中，圖3顯示了“喜悅”類(lèi)別的關(guān)鍵情感特征詞，包括“哈哈”“喜歡”“可愛(ài)”“快樂(lè)”“開(kāi)心”“完美”等。

圖4顯示了“憤怒”類(lèi)別的關(guān)鍵情感特征詞，包括“沒(méi)有”“問(wèn)題”“死亡”“真實(shí)”“可憐”“嚴(yán)重”“憤怒”等，同時(shí)包括網(wǎng)絡(luò)術(shù)語(yǔ)，比如“TMD”“呵呵”“受不了”等，這些特征詞有效體現(xiàn)了大眾對(duì)輿情事件的憤怒情緒，并且經(jīng)過(guò)基于LDA模型和情感詞典的特征提取能有效增強(qiáng)情感分類(lèi)的結(jié)果。

圖5顯示了“哀傷”類(lèi)別的關(guān)鍵情感特征詞，包括“可憐”“祈禱”“遇難”“默哀”“祝?！薄翱上А钡取?/p>

3.3 社交媒體情感分析實(shí)驗(yàn)分析

經(jīng)過(guò)基于LDA模型和情感詞典的特征提取后，本文構(gòu)建CNN-BiLSTM模型并實(shí)現(xiàn)社交媒體情感分析實(shí)驗(yàn)。該模型的超參數(shù)如表2所示，并且增加Dropout層防止出現(xiàn)過(guò)擬合現(xiàn)象。為避免某次異常實(shí)驗(yàn)結(jié)果的影響，整個(gè)實(shí)驗(yàn)結(jié)果為十次實(shí)驗(yàn)結(jié)果的平均值。

表2 模型超參數(shù)設(shè)置

本文提出一種改進(jìn)LDA-CNN-BiLSTM的方法，并進(jìn)行了詳細(xì)的對(duì)比實(shí)驗(yàn)，其實(shí)驗(yàn)結(jié)果如表3所示，分別與經(jīng)典的機(jī)器學(xué)習(xí)模型（包括邏輯回歸、SVM、隨機(jī)森林、KNN、樸素貝葉斯、AdaBoost）和深度學(xué)習(xí)模型（包括LSTM、BiLSTM、GRU、BiGRU、CNN、TextCNN）進(jìn)行對(duì)比。

由表3可知，本文方法的精確率為0.8946，召回率為0.8841，F(xiàn)1值為0.8893，準(zhǔn)確率為0.8778，整個(gè)實(shí)驗(yàn)結(jié)果均優(yōu)于現(xiàn)有的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型。通過(guò)對(duì)比本文方法與其他方法的F值（F-score）變化趨勢(shì)，可以發(fā)現(xiàn)本文方法比邏輯回歸、SVM、隨機(jī)森林、KNN、樸素貝葉斯、AdaBoost分別提高0.1878、0.1939、0.1902、0.2671、0.1419和0.2194，比LSTM、BiLSTM、GRU、BiGRU、CNN、TextCNN分別提高0.0795、0.0489、0.0858、0.0572、0.0491和0.0394。通過(guò)對(duì)比本文方法與其他方法的準(zhǔn)確率（Accuracy）變化趨勢(shì)，可以看到本文的方法比邏輯回歸、SVM、隨機(jī)森林、KNN、樸素貝葉斯、AdaBoost分別提高0.1747、0.1789、0.1937、0.2597、0.1477和0.2092，比LSTM、BiLSTM、GRU、Bi-GRU、CNN、TextCNN分別提高0.0769、0.0382、0.0855、0.0564、0.0530和0.0459。

表3 各模型情感分類(lèi)實(shí)驗(yàn)結(jié)果對(duì)比

同時(shí)，本文對(duì)三種情感進(jìn)行了對(duì)比分析，得出如表4所示的實(shí)驗(yàn)結(jié)果。

表4 三大類(lèi)別情感分析實(shí)驗(yàn)結(jié)果

由表4可知，“喜悅”情感的精確率、召回率和F值最高，分別為0.9102、0.9023和0.9062，接著是“哀傷”情感和“憤怒”情感。這一方面是因?yàn)椤跋矏偂鳖?lèi)型的樣本數(shù)量較多，另一方面是“憤怒”和“哀傷”情感特征詞存在部分融合的現(xiàn)象，但該實(shí)驗(yàn)結(jié)果仍然有效證明了本文方法的有效性，能高質(zhì)量對(duì)社交媒體的評(píng)論信息進(jìn)行情感趨勢(shì)分析，自動(dòng)化區(qū)分出“喜悅”“憤怒”和“哀傷”不同類(lèi)型的情感。

最后，本文分別對(duì)比了不同方法是否使用LDA模型和情感詞典融合的F1值，其機(jī)器學(xué)習(xí)實(shí)驗(yàn)結(jié)果如圖6所示，深度學(xué)習(xí)實(shí)驗(yàn)結(jié)果如圖7所示。

圖6 機(jī)器學(xué)習(xí)使用LDA和情感詞典前后的F1值對(duì)比

圖7 深度學(xué)習(xí)使用LDA和情感詞典前后的F1值對(duì)比

由圖6和圖7可知，融合改進(jìn)LDA模型和情感詞典后的方法在社交媒體評(píng)論情感分析實(shí)驗(yàn)中的效果更好，六種機(jī)器學(xué)習(xí)模型的F值平均提升3.66%，七種深度學(xué)習(xí)模型的F值平均提升1.84%。通過(guò)該部分實(shí)驗(yàn)充分說(shuō)明情感特征詞的有效提取能在一定程度上提升分類(lèi)模型的效果，并能夠充分實(shí)現(xiàn)對(duì)微博等社交媒體輿情事件的評(píng)論進(jìn)行情感分析，較好地感知大眾情緒，預(yù)測(cè)情感趨勢(shì)。

4 結(jié)語(yǔ)

本文針對(duì)社交媒體情感分析忽略情感特征的長(zhǎng)距離語(yǔ)義關(guān)系，無(wú)法精確捕獲帶有情感色彩的特征詞，過(guò)度依賴(lài)人工標(biāo)注等問(wèn)題，本文提出一種改進(jìn)LDA-CNN-BiLSTM模型，旨在實(shí)現(xiàn)對(duì)微博輿情事件的情感分析研究。實(shí)驗(yàn)通過(guò)對(duì)微博輿情事件評(píng)論文本進(jìn)行數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理，獲取“喜悅”“憤怒”和“哀傷”三種類(lèi)別情感文本。其次，構(gòu)建融合LDA模型、情感詞典和人工標(biāo)注的算法并用于情感特征詞提取，使用Word2Vec將經(jīng)過(guò)特征提取后的情感文本轉(zhuǎn)換為詞向量。最后，構(gòu)建CNN-BiLSTM模型，利用卷積神經(jīng)網(wǎng)絡(luò)提取文本的關(guān)鍵特征，長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)捕獲長(zhǎng)距離語(yǔ)義特征，從而完成情感分類(lèi)任務(wù)。

實(shí)驗(yàn)結(jié)果表明，本文方法的精確率、召回率、F1值和準(zhǔn)確率分別為0.8946、0.8841、0.8893和0.8778，整體實(shí)驗(yàn)結(jié)果均優(yōu)于現(xiàn)有的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型，并且融合LDA模型和情感詞典的實(shí)驗(yàn)結(jié)果均有明顯提升，其F1值比實(shí)驗(yàn)中的六種機(jī)器學(xué)習(xí)模型平均提升3.66%，比七種深度學(xué)習(xí)模型平均提升1.84%。綜上，本文方法能夠應(yīng)用于社交媒體的情感分析任務(wù)，并有效感知輿情事件的情感態(tài)勢(shì)，具有一定的研究?jī)r(jià)值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡