国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)LDA-CNN-BiLSTM模型的社交媒體情感分析研究

2022-04-14 03:26楊秀璋劉建義任天舒宋籍文姜婧怡陳登建周既松
現(xiàn)代計(jì)算機(jī) 2022年2期
關(guān)鍵詞:特征提取輿情社交

楊秀璋,劉建義,任天舒,宋籍文,武 帥,3,姜婧怡,陳登建,周既松,李 娜

(1.貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴陽(yáng) 550025;2.貴州高速公路集團(tuán)有限公司,貴陽(yáng) 550027;3.漣水縣財(cái)政局,淮安 223400;4.中國(guó)船舶工業(yè)系統(tǒng)工程研究院,北京 100094)

0 引言

隨著Web2.0和社交媒體的迅速發(fā)展,互聯(lián)網(wǎng)產(chǎn)生了海量的評(píng)論信息,它們包含了用戶(hù)對(duì)輿情事件、人物觀點(diǎn)和風(fēng)景事物等所產(chǎn)生的價(jià)值傾向和情感色彩信息,表達(dá)了大眾對(duì)萬(wàn)事萬(wàn)物的情感色彩和立場(chǎng)態(tài)度,包括喜悅、憤怒、哀傷、贊同、批評(píng)等。如何自動(dòng)化快速地從非結(jié)構(gòu)化評(píng)論中挖掘出用戶(hù)的情感傾向,動(dòng)態(tài)監(jiān)測(cè)輿情事件的情感態(tài)勢(shì)變得至關(guān)重要,情感分析(sentiment analysis)技術(shù)應(yīng)運(yùn)而生。情感分析又稱(chēng)為意見(jiàn)挖掘、傾向性分析,旨在對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理和推理及預(yù)測(cè)的過(guò)程,重點(diǎn)關(guān)注文本中的不同情感色彩的特征,比如積極或消極。文本情感分析被廣泛應(yīng)用于輿情分析、內(nèi)容推薦、文本挖掘等領(lǐng)域,已經(jīng)成為了近年的研究熱點(diǎn)。

社交媒體的發(fā)展,便捷了用戶(hù)信息的往來(lái),用戶(hù)對(duì)事件抒發(fā)個(gè)人真實(shí)感受和親身體驗(yàn),對(duì)于政府、企業(yè)來(lái)說(shuō)都是重要的信息。然而社交媒體由于用戶(hù)量龐大,產(chǎn)生的意見(jiàn)信息層次不齊,大多信息簡(jiǎn)短而緊湊,夾雜大量個(gè)人感受和評(píng)論,存在較為嚴(yán)重的文本噪聲,一定程度增加了文本挖掘研究的難度。傳統(tǒng)情感分析方法僅從文本信息特進(jìn)行征提取實(shí)現(xiàn)情感分類(lèi),并未有效考慮上下文間的語(yǔ)義關(guān)聯(lián),不能較好反應(yīng)社交媒體真實(shí)的情感,結(jié)果存在一定的片面性。

1 相關(guān)研究

1.1 社交媒體情感分析

依托社交媒體的存在,用戶(hù)對(duì)輿情事件、人物觀點(diǎn)和風(fēng)景事物等產(chǎn)生了大量意見(jiàn),為理解、深層次挖掘用戶(hù)信息行為提供了可能。其核心研究為分析用戶(hù)在社交媒體平臺(tái)上表達(dá)的情感,即情感分析(sentiment analysis)。情感分析主要包括:傾向性分類(lèi)、情緒分析、情感時(shí)序分析、主觀檢測(cè)、意見(jiàn)摘要、意見(jiàn)檢索、意見(jiàn)持有者提取、諷刺和反語(yǔ)檢測(cè)、跨領(lǐng)域情感分析以及多模態(tài)情感分析。最為常見(jiàn)的情感分析為情感分類(lèi)和情緒分析。

情感分類(lèi)基于假定一個(gè)實(shí)體或?qū)嶓w的方面和屬性能夠簡(jiǎn)單劃分在兩個(gè)相反情感極性的一個(gè),分為積極、消極和中立。情緒分析是在情感分析的基礎(chǔ)上結(jié)合心理學(xué)的情緒狀態(tài)量表(profile of mood states)進(jìn)行六維度劃分。

1.2 基于機(jī)器學(xué)習(xí)的情感分析

基于機(jī)器學(xué)習(xí)的情感分析方法可分為兩類(lèi):監(jiān)督學(xué)習(xí)技術(shù)和非監(jiān)督學(xué)習(xí)技術(shù),都依賴(lài)于特征集?;诒O(jiān)督機(jī)器學(xué)習(xí)方法以支持向量機(jī)(SVM)、樸素貝葉斯、決策樹(shù)算法等,需要充足的語(yǔ)料庫(kù)作支撐。基于非監(jiān)督學(xué)習(xí)方法以無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)為主,一定程度能夠解決缺乏完整標(biāo)注的語(yǔ)料庫(kù)帶來(lái)的分析局限性。

針對(duì)機(jī)器學(xué)習(xí)算法的局限性,學(xué)者在算法基礎(chǔ)上進(jìn)行一定程度優(yōu)化,提升其識(shí)別效果。馬捷等人在現(xiàn)有情感極性值的基礎(chǔ)上,融入方差加權(quán)信息熵,計(jì)算不同話(huà)題解讀傾向所映射出的信息嬌虎毒,一定程度量化了熱點(diǎn)話(huà)題的信息價(jià)值。車(chē)思琪等在傳統(tǒng)機(jī)器學(xué)習(xí)算法基礎(chǔ)上融入情感詞典,提升識(shí)別效果。王珠美等在傳統(tǒng)LDA模型基礎(chǔ)上結(jié)合直覺(jué)模糊TOPSIS方法對(duì)農(nóng)產(chǎn)品在線(xiàn)評(píng)論進(jìn)行綜合評(píng)價(jià)值計(jì)算,有效發(fā)現(xiàn)綜合評(píng)價(jià)值與積極情感值之間的正相關(guān)性。

由于社交媒體的語(yǔ)料內(nèi)容存在大量個(gè)人情感,語(yǔ)料信息噪聲大,機(jī)器學(xué)習(xí)方法進(jìn)行情感特征提取時(shí),無(wú)法進(jìn)行準(zhǔn)確預(yù)測(cè)。

1.3 基于深度學(xué)習(xí)的情感分析

相比于機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)模型不再依賴(lài)于特征提取,而是進(jìn)行自主學(xué)習(xí)。隨著深度學(xué)習(xí)的研究深度加深,基于深度學(xué)習(xí)的情感分析方法的準(zhǔn)確率逐步超過(guò)傳統(tǒng)方法。雖然深度學(xué)習(xí)模型進(jìn)行情感分析能夠有效解決語(yǔ)料標(biāo)注問(wèn)題,且準(zhǔn)確率較高,但模型訓(xùn)練花費(fèi)時(shí)間較大,無(wú)法解釋最終語(yǔ)義。

針對(duì)深度學(xué)習(xí)模型現(xiàn)階段的局限性,學(xué)者在框架模型上進(jìn)行一定程度改進(jìn)。楊秀璋等人在傳統(tǒng)TextCNN模型基礎(chǔ)之上融入Attention機(jī)制組合,有效完成微博輿情事件的情感分類(lèi)。夏輝麗等人針對(duì)推文情感分類(lèi)復(fù)雜且準(zhǔn)確率低的問(wèn)題,提出一種利用自注意力雙向分層語(yǔ)義模型進(jìn)行網(wǎng)絡(luò)文檔情感分析,提高了深度學(xué)習(xí)模型的求解速度和準(zhǔn)確度。張衛(wèi)等人針對(duì)古詩(shī)文本采用“冷啟動(dòng)”自動(dòng)標(biāo)引進(jìn)行語(yǔ)料學(xué)習(xí),并運(yùn)用深度學(xué)習(xí)模型BERT-BiLSTM-CRF進(jìn)行長(zhǎng)篇幅詩(shī)文情感分析,有效提升準(zhǔn)確率,拓寬了對(duì)非遺文本的語(yǔ)義解析。

由于社交媒體的信息文本簡(jiǎn)短而緊湊,前后文語(yǔ)義關(guān)聯(lián)度大,深度學(xué)習(xí)方法在進(jìn)行語(yǔ)料學(xué)習(xí)后,應(yīng)考慮前后文本語(yǔ)義關(guān)聯(lián)性,再進(jìn)行情感分析。

針對(duì)社交媒體情感分析忽略情感特征的長(zhǎng)距離語(yǔ)義關(guān)系,無(wú)法精準(zhǔn)捕獲文本信息中帶有情感色彩的特征詞,需要進(jìn)行大量人工標(biāo)注提升實(shí)驗(yàn)結(jié)果的問(wèn)題。本文提出一種改進(jìn)LDACNN-BiLSTM的深度學(xué)習(xí)模型,有效感知輿情事件的情感態(tài)勢(shì),一定程度上實(shí)現(xiàn)對(duì)微博輿情事件的情感分析,具有一定的研究意義。

2 本文工作

為更好地對(duì)社交媒體輿情事件的評(píng)論實(shí)現(xiàn)情感分析,本文提出一種改進(jìn)LDA-CNNBiLSTM模型,通過(guò)融合LDA模型和情感詞典實(shí)現(xiàn)特征提取,再構(gòu)建CNN-BiLSTM模型完成情感分類(lèi),預(yù)測(cè)輿情事件的情感態(tài)勢(shì)。

2.1 模型總體框架

本文提出一種改進(jìn)LDA和CNN-BiLSTM的情感分類(lèi)模型,其總體框架如圖1所示。具體實(shí)現(xiàn)過(guò)程如下:

圖1 改進(jìn)LDA-CNN-BiLSTM模型框架

(1)通過(guò)Python和Xpath技術(shù)自定義網(wǎng)絡(luò)爬蟲(chóng),采集微博社交媒體輿情事件的評(píng)論信息,包括“喜悅”“憤怒”和“哀傷”三種類(lèi)別的情感,并存儲(chǔ)至本地CSV文件中。

(2)對(duì)評(píng)論文本進(jìn)行數(shù)據(jù)預(yù)處理,包括Jieba中文分詞、停用詞過(guò)濾、特殊字符刪除、重復(fù)評(píng)論刪除、評(píng)論標(biāo)注等。

(3)構(gòu)建融合LDA模型、情感詞典和人工標(biāo)注的模型并用于情感特征詞提取,使用Word2Vec將經(jīng)過(guò)特征提取后的情感文本轉(zhuǎn)換為詞向量,并用作后續(xù)深度學(xué)習(xí)模型的輸入層。

(4)構(gòu)建CNN-BiLSTM模型,利用卷積神經(jīng)網(wǎng)絡(luò)提取文本的關(guān)鍵特征,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)捕獲長(zhǎng)距離語(yǔ)義特征,最終經(jīng)過(guò)Softmax分類(lèi)器計(jì)算社交媒體輿情事件評(píng)論的情感傾向,完成情感分類(lèi)任務(wù)。輸出結(jié)果分別對(duì)應(yīng)“喜悅”“憤怒”和“哀傷”三種情感。

2.2 特征提取

本文提出一種融合LDA模型和情感詞典的特征提取方法。其具體的實(shí)現(xiàn)過(guò)程如下:

(1)通過(guò)LDA模型提取不同評(píng)論文本的情感特征詞。LDA模型是2003年由Blei等提出的主題模型,常用于文本分類(lèi)和文本挖掘任務(wù),它可以將文檔集的主題以概率分布的形式給出,從而抽取出不同主題的分布情況,更好地完成融合主題的分類(lèi)或聚類(lèi)任務(wù)。本文將微博社交媒體不同輿情事件的評(píng)論劃分為三類(lèi)主題,分別對(duì)應(yīng)“喜悅”“憤怒”和“哀傷”三個(gè)類(lèi)別,并利用LDA模型提取對(duì)應(yīng)的主題特征詞。

(2)利用大連理工大學(xué)情感詞匯本體庫(kù)進(jìn)行特征提取,將其劃分為7個(gè)大類(lèi)和21個(gè)小類(lèi),即“樂(lè)”“好”“怒”“懼”“哀”“惡”“驚”。同時(shí),結(jié)合情感特征詞的詞頻統(tǒng)計(jì)和人工標(biāo)注構(gòu)建針對(duì)微博社交媒體的情感詞庫(kù)。

(3)由該情感詞庫(kù)完成特征提取任務(wù)。該操作能抽取出不同評(píng)論帶有情感色彩的高質(zhì)量特征詞,為后續(xù)深度學(xué)習(xí)模型實(shí)現(xiàn)情感分類(lèi)任務(wù)提供支撐。

2.3 CNN模型

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)主要由卷積層和池化層組成,本文構(gòu)建三層卷積神經(jīng)網(wǎng)絡(luò)提取輿情事件評(píng)論文本的關(guān)鍵特征。其中,卷積層將接收n×d的情感特征詞矩陣,卷積過(guò)程如公式(1)所示。

式中,f表示激活函數(shù),通常采用ReLu(rectified linear units)函數(shù)加快訓(xùn)練收斂速度;hi表示微博社交媒體評(píng)論詞向量卷積處理后的特征;w表示大小為d的卷積核;V表示輸入層的詞向量;b表示偏置項(xiàng)。通過(guò)該卷積操作能有效生成局部特征集合,如公式(2)所示。

池化層可以壓縮文本特征向量和模型參數(shù)的大小,并且最大化保留情感特征特性,其計(jì)算公式如(3)所示。

本文通過(guò)構(gòu)建卷積核分別為2、3、4的過(guò)濾器來(lái)提取微博評(píng)論文本的關(guān)鍵特征,接著將其輸出向量輸入至BiLSTM模型。

2.4 Bi LSTM模型

雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-directional long short-term memory,BiLSTM)模型是循環(huán)神經(jīng)網(wǎng)絡(luò)的變體,它從前后兩個(gè)方向提取特征,從而捕獲長(zhǎng)距離依賴(lài)關(guān)系及上下文語(yǔ)義特征,本文用來(lái)提取輿情事件評(píng)論的情感特征。

BiLSTM模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,通過(guò)狀態(tài)的傳遞來(lái)增強(qiáng)主體信息,從而有效捕獲如“喜歡”與“哈哈”、“難受”與“祈禱”等情感特征詞,其計(jì)算公式如(4)—(6)所示。

圖2 BiLSTM模型網(wǎng)絡(luò)結(jié)構(gòu)

3 實(shí)驗(yàn)分析

本文實(shí)驗(yàn)在Windows環(huán)境下完成,利用Python和Xpath技術(shù)采集微博社交媒體評(píng)論數(shù)據(jù)集,并按照“喜悅”“憤怒”和“哀傷”三種情感進(jìn)行標(biāo)注。接著通過(guò)TensorFlow和Keras構(gòu)建深度學(xué)習(xí)模型,其GPU為GTX 1080Ti,處理器為Inter(R)Core i7-8700K,編程環(huán)境為Anaconda,編程語(yǔ)言為Python 3.6。

3.1 實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)指標(biāo)

本文實(shí)驗(yàn)數(shù)據(jù)是通過(guò)Python和Xpath技術(shù)構(gòu)建網(wǎng)絡(luò)爬蟲(chóng)采集微博各輿情事件的評(píng)論數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗和預(yù)處理后形成20萬(wàn)條帶有情感色彩的數(shù)據(jù)集,數(shù)據(jù)集包括“喜悅”“憤怒”和“哀傷”三種情感,并隨機(jī)劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,其數(shù)據(jù)分布情況如表1所示。

表1 社交媒體評(píng)論數(shù)據(jù)集

針對(duì)微博社交媒體評(píng)論的情感分析,本文采用精確率(Precision)、召回率(Recall)、F值(F-score)和準(zhǔn)確率(Accuracy)進(jìn)行實(shí)驗(yàn)評(píng)價(jià),其計(jì)算過(guò)程如公式(7)—(10)所示。

其中,精確率用于評(píng)估情感分類(lèi)被正確預(yù)測(cè)為指定類(lèi)別占所預(yù)測(cè)類(lèi)別評(píng)論數(shù)量的百分比,召回率用于評(píng)估情感分類(lèi)被正確預(yù)測(cè)占該類(lèi)別情感評(píng)論數(shù)量的百分比,F(xiàn)值綜合了精確率和召回率,是兩者的加權(quán)調(diào)和平均值,常與準(zhǔn)確率用于評(píng)估模型的質(zhì)量。

3.2 基于LDA模型和情感詞典的特征提取實(shí)驗(yàn)

本文利用LDA模型和情感詞典對(duì)微博社交媒體的輿情事件評(píng)論進(jìn)行特征提取,其LDA主題模型的n_topic設(shè)置為3,分別對(duì)應(yīng)“喜悅”“憤怒”和“哀傷”三類(lèi)情感,情感詞典選擇大連理工大學(xué)情感詞匯本體庫(kù)。通過(guò)該操作能有效過(guò)濾不必要的噪聲特征詞干擾,同時(shí)經(jīng)過(guò)處理后特征詞將更具有情感色彩,為后續(xù)CNNBiLSTM模型的情感分類(lèi)提供良好的支撐。具體過(guò)程如下:

(1)通過(guò)中文分詞和數(shù)據(jù)清洗(含停用詞過(guò)濾和特殊字符清洗)提取只保留具有語(yǔ)義價(jià)值信息的特征詞。

(2)利用LDA模型提取“喜悅”“憤怒”和“哀傷”三類(lèi)主題的情感特征詞,并結(jié)合大連理工大學(xué)情感詞匯本體庫(kù)和人工標(biāo)注將不同評(píng)論的情感特征詞進(jìn)行權(quán)重加成。

(3)經(jīng)過(guò)上述步驟生成對(duì)應(yīng)的微博社交媒體情感詞庫(kù),其中“喜悅”情感特征詞的詞云分布如圖3所示,“憤怒”情感特征詞的詞云分布如圖4所示,“哀傷”情感特征詞的詞云分布如圖5所示。

圖3 經(jīng)特征提取的“喜悅”類(lèi)別情感特征詞

圖4 經(jīng)特征提取的“憤怒”類(lèi)別情感特征詞

圖5 經(jīng)特征提取的“哀傷”類(lèi)別情感特征詞

(4)經(jīng)過(guò)情感特征提取,將其輸入CNNBiLSTM模型,并完成最終的情感分類(lèi)實(shí)驗(yàn)。

本文通過(guò)構(gòu)建改進(jìn)的LDA-CNN-BiLSTM模型,完成社交媒體情感分析任務(wù)。其中,圖3顯示了“喜悅”類(lèi)別的關(guān)鍵情感特征詞,包括“哈哈”“喜歡”“可愛(ài)”“快樂(lè)”“開(kāi)心”“完美”等。

圖4顯示了“憤怒”類(lèi)別的關(guān)鍵情感特征詞,包括“沒(méi)有”“問(wèn)題”“死亡”“真實(shí)”“可憐”“嚴(yán)重”“憤怒”等,同時(shí)包括網(wǎng)絡(luò)術(shù)語(yǔ),比如“TMD”“呵呵”“受不了”等,這些特征詞有效體現(xiàn)了大眾對(duì)輿情事件的憤怒情緒,并且經(jīng)過(guò)基于LDA模型和情感詞典的特征提取能有效增強(qiáng)情感分類(lèi)的結(jié)果。

圖5顯示了“哀傷”類(lèi)別的關(guān)鍵情感特征詞,包括“可憐”“祈禱”“遇難”“默哀”“祝?!薄翱上А钡取?/p>

3.3 社交媒體情感分析實(shí)驗(yàn)分析

經(jīng)過(guò)基于LDA模型和情感詞典的特征提取后,本文構(gòu)建CNN-BiLSTM模型并實(shí)現(xiàn)社交媒體情感分析實(shí)驗(yàn)。該模型的超參數(shù)如表2所示,并且增加Dropout層防止出現(xiàn)過(guò)擬合現(xiàn)象。為避免某次異常實(shí)驗(yàn)結(jié)果的影響,整個(gè)實(shí)驗(yàn)結(jié)果為十次實(shí)驗(yàn)結(jié)果的平均值。

表2 模型超參數(shù)設(shè)置

本文提出一種改進(jìn)LDA-CNN-BiLSTM的方法,并進(jìn)行了詳細(xì)的對(duì)比實(shí)驗(yàn),其實(shí)驗(yàn)結(jié)果如表3所示,分別與經(jīng)典的機(jī)器學(xué)習(xí)模型(包括邏輯回歸、SVM、隨機(jī)森林、KNN、樸素貝葉斯、AdaBoost)和深度學(xué)習(xí)模型(包括LSTM、BiLSTM、GRU、BiGRU、CNN、TextCNN)進(jìn)行對(duì)比。

由表3可知,本文方法的精確率為0.8946,召回率為0.8841,F(xiàn)1值為0.8893,準(zhǔn)確率為0.8778,整個(gè)實(shí)驗(yàn)結(jié)果均優(yōu)于現(xiàn)有的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型。通過(guò)對(duì)比本文方法與其他方法的F值(F-score)變化趨勢(shì),可以發(fā)現(xiàn)本文方法比邏輯回歸、SVM、隨機(jī)森林、KNN、樸素貝葉 斯、AdaBoost分 別 提 高0.1878、0.1939、0.1902、0.2671、0.1419和0.2194,比LSTM、BiLSTM、GRU、BiGRU、CNN、TextCNN分 別 提 高0.0795、0.0489、0.0858、0.0572、0.0491和0.0394。通過(guò)對(duì)比本文方法與其他方法的準(zhǔn)確率(Accuracy)變化趨勢(shì),可以看到本文的方法比邏輯回歸、SVM、隨機(jī)森林、KNN、樸素貝葉斯、AdaBoost分 別 提 高0.1747、0.1789、0.1937、0.2597、0.1477和0.2092,比LSTM、BiLSTM、GRU、Bi-GRU、CNN、TextCNN分別提高0.0769、0.0382、0.0855、0.0564、0.0530和0.0459。

表3 各模型情感分類(lèi)實(shí)驗(yàn)結(jié)果對(duì)比

同時(shí),本文對(duì)三種情感進(jìn)行了對(duì)比分析,得出如表4所示的實(shí)驗(yàn)結(jié)果。

表4 三大類(lèi)別情感分析實(shí)驗(yàn)結(jié)果

由表4可知,“喜悅”情感的精確率、召回率和F值最高,分別為0.9102、0.9023和0.9062,接著是“哀傷”情感和“憤怒”情感。這一方面是因?yàn)椤跋矏偂鳖?lèi)型的樣本數(shù)量較多,另一方面是“憤怒”和“哀傷”情感特征詞存在部分融合的現(xiàn)象,但該實(shí)驗(yàn)結(jié)果仍然有效證明了本文方法的有效性,能高質(zhì)量對(duì)社交媒體的評(píng)論信息進(jìn)行情感趨勢(shì)分析,自動(dòng)化區(qū)分出“喜悅”“憤怒”和“哀傷”不同類(lèi)型的情感。

最后,本文分別對(duì)比了不同方法是否使用LDA模型和情感詞典融合的F1值,其機(jī)器學(xué)習(xí)實(shí)驗(yàn)結(jié)果如圖6所示,深度學(xué)習(xí)實(shí)驗(yàn)結(jié)果如圖7所示。

圖6 機(jī)器學(xué)習(xí)使用LDA和情感詞典前后的F1值對(duì)比

圖7 深度學(xué)習(xí)使用LDA和情感詞典前后的F1值對(duì)比

由圖6和圖7可知,融合改進(jìn)LDA模型和情感詞典后的方法在社交媒體評(píng)論情感分析實(shí)驗(yàn)中的效果更好,六種機(jī)器學(xué)習(xí)模型的F值平均提升3.66%,七種深度學(xué)習(xí)模型的F值平均提升1.84%。通過(guò)該部分實(shí)驗(yàn)充分說(shuō)明情感特征詞的有效提取能在一定程度上提升分類(lèi)模型的效果,并能夠充分實(shí)現(xiàn)對(duì)微博等社交媒體輿情事件的評(píng)論進(jìn)行情感分析,較好地感知大眾情緒,預(yù)測(cè)情感趨勢(shì)。

4 結(jié)語(yǔ)

本文針對(duì)社交媒體情感分析忽略情感特征的長(zhǎng)距離語(yǔ)義關(guān)系,無(wú)法精確捕獲帶有情感色彩的特征詞,過(guò)度依賴(lài)人工標(biāo)注等問(wèn)題,本文提出一種改進(jìn)LDA-CNN-BiLSTM模型,旨在實(shí)現(xiàn)對(duì)微博輿情事件的情感分析研究。實(shí)驗(yàn)通過(guò)對(duì)微博輿情事件評(píng)論文本進(jìn)行數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理,獲取“喜悅”“憤怒”和“哀傷”三種類(lèi)別情感文本。其次,構(gòu)建融合LDA模型、情感詞典和人工標(biāo)注的算法并用于情感特征詞提取,使用Word2Vec將經(jīng)過(guò)特征提取后的情感文本轉(zhuǎn)換為詞向量。最后,構(gòu)建CNN-BiLSTM模型,利用卷積神經(jīng)網(wǎng)絡(luò)提取文本的關(guān)鍵特征,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)捕獲長(zhǎng)距離語(yǔ)義特征,從而完成情感分類(lèi)任務(wù)。

實(shí)驗(yàn)結(jié)果表明,本文方法的精確率、召回率、F1值和準(zhǔn)確率分別為0.8946、0.8841、0.8893和0.8778,整體實(shí)驗(yàn)結(jié)果均優(yōu)于現(xiàn)有的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,并且融合LDA模型和情感詞典的實(shí)驗(yàn)結(jié)果均有明顯提升,其F1值比實(shí)驗(yàn)中的六種機(jī)器學(xué)習(xí)模型平均提升3.66%,比七種深度學(xué)習(xí)模型平均提升1.84%。綜上,本文方法能夠應(yīng)用于社交媒體的情感分析任務(wù),并有效感知輿情事件的情感態(tài)勢(shì),具有一定的研究?jī)r(jià)值。

猜你喜歡
特征提取輿情社交
同步定位與建圖特征提取和匹配算法研究
社交牛人癥該怎么治
社交媒體中的影響者
社交距離
基于MED—MOMEDA的風(fēng)電齒輪箱復(fù)合故障特征提取研究
比起社交媒體,我更在意逝去的時(shí)光
基于曲率局部二值模式的深度圖像手勢(shì)特征提取
消費(fèi)輿情
月度最熱輿情事件榜11月
月度最熱輿情事件榜9月
宁河县| 镇江市| 安图县| 宁明县| 鹤庆县| 民权县| 永泰县| 宁夏| 雷州市| 尚志市| 巍山| 高州市| 泽州县| 龙里县| 乐亭县| 奉化市| 兰考县| 海兴县| 莱芜市| 广东省| 德阳市| 柯坪县| 北票市| 中牟县| 玛曲县| 江源县| 兴和县| 张北县| 阿荣旗| 尚义县| 怀来县| 左云县| 敦煌市| 北流市| 雷波县| 四会市| 象山县| 巍山| 苍南县| 安顺市| 福清市|