国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的COVID-19疫情期間網(wǎng)民情緒分析

2020-11-30 09:02:22劉洪浩
軟件 2020年9期
關(guān)鍵詞:情感分析深度學(xué)習(xí)

摘? 要: 微博文本情緒分析技術(shù)在輿情監(jiān)控等領(lǐng)域具有廣泛應(yīng)用?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)模型和情感詞典進(jìn)行情感分析的結(jié)果往往不夠理想,如何提升性能成為該領(lǐng)域的一個(gè)主要挑戰(zhàn)。本文中我們使用了基于深度學(xué)習(xí)的BERT以完成語言理解任務(wù)并與傳統(tǒng)做法性能相比較,結(jié)果中BERT模型取得了更好的性能。之后我們利用該模型進(jìn)行三分類以分析COVID-19疫情期間的微博評(píng)論,總體上正面與中立情緒占主導(dǎo)。此外,我們也針對(duì)詞頻和詞云進(jìn)行相關(guān)分析,以期實(shí)現(xiàn)全方面了解此次疫情期間社會(huì)情感狀態(tài)的目的。

關(guān)鍵詞: 深度學(xué)習(xí),詞嵌入,BERT模型,情感分析,微博爬蟲,文本處理

中圖分類號(hào): TP183? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.09.048

本文著錄格式:劉洪浩. 基于深度學(xué)習(xí)的COVID-19疫情期間網(wǎng)民情緒分析[J]. 軟件,2020,41(09):185188

【Abstract】: Sentiment analysis of microblog text is widely used in public opinion monitoring and other fields. The results of sentiment analysis based on traditional machine learning models and sentiment dictionaries are often not ideal. How to improve performance has become a major challenge in this field. In this thesis, we use BERT based on deep learning to complete the language understanding task. Compared with traditional methods, BERT model has achieved better performance. We use the model to analyze microblog comments during the COVID-19 epidemic by conducting a three-category classification and find that positive and neutral emotions are dominant. We also conduct further analysis on word frequency and word cloud to gain more insights into the emotional states during the epidemic.

【Key words】: Deep learning; Word embedding; BERT; Sentiment analysis; Microblog crawler; Text processing

0? 引言

文本是用于情感分析的典型數(shù)據(jù)集。由于情感文本數(shù)據(jù)的迅速增長和極高應(yīng)用價(jià)值,使得自動(dòng)識(shí)別和分析人們?cè)谖谋局斜磉_(dá)的情感成為一種必要。社交網(wǎng)絡(luò)文本情感分析被廣泛應(yīng)用于在金融[1]、市場[2]、社? 會(huì)[3]、娛樂[4]等諸多領(lǐng)域之中,關(guān)于文本情感識(shí)別算法相關(guān)的理論研究[5-7]也越發(fā)豐富。越來越多基于社交網(wǎng)絡(luò)的情感分析實(shí)踐和研究的出現(xiàn)表明其實(shí)用性與科學(xué)性。微博短文本已成為國內(nèi)數(shù)據(jù)的情感表達(dá)和輿論走向的代表,它為研究社會(huì)發(fā)展和人類行為特征提供更多可能性。

新冠肺炎疫情備受社會(huì)各界關(guān)注。2020年1月1日至2月20日,疫情相關(guān)微博話題數(shù)超過200個(gè)。此次疫情為高熱度的重大社會(huì)熱點(diǎn)事件,對(duì)疫情期間的情感識(shí)別和可視化分析能客觀反映出疫情輿情的發(fā)展動(dòng)向,有助于有關(guān)機(jī)構(gòu)制定合理科學(xué)的決策,具有較高研究價(jià)值。

文本分類的精度取決于提取語義特征的方法和分類器的種類。本文關(guān)注基于深度學(xué)習(xí)的中文文本詞嵌入方法與傳統(tǒng)做法的比較和疫情期間情感分析。我們研究了基于深度學(xué)習(xí)中詞向量技術(shù)的情感識(shí)別方法,利用BERT模型和Embedding層預(yù)訓(xùn)練方法,分別進(jìn)行研究,實(shí)驗(yàn)對(duì)比中BERT預(yù)訓(xùn)練模型取得更加準(zhǔn)確的結(jié)果。我們將利用BERT模型的分類結(jié)果對(duì)此次疫情全面分析,并給出疫情期間微博文本的詞云表示,以提高情感分析的準(zhǔn)確度,達(dá)到全面了解此次疫情期間社會(huì)輿情的目標(biāo)。

1? 相關(guān)工作

本節(jié)簡要介紹微博數(shù)據(jù)情感分析的相關(guān)研究,以及獲得詞嵌入的方法。

1.1? 微博數(shù)據(jù)情感分析

現(xiàn)有文獻(xiàn)中已有較為豐富的針對(duì)微博文本的情感分析策略。王培名等人[8]設(shè)計(jì)了自適應(yīng)的并發(fā)采集算法優(yōu)化模擬登錄和代理池的構(gòu)造訪客Cookie功能,高效獲取微博數(shù)據(jù),為微博數(shù)據(jù)采集策略提供了多樣性。劉楠[9]針對(duì)微博短文本形式的情感分析,歸納新的細(xì)粒度情感分析流程,提出TF和TF-IDF歸一化權(quán)重計(jì)算方法,與傳統(tǒng)提取特征的方法相比,能夠更準(zhǔn)確判斷出多種類情感的權(quán)重,實(shí)現(xiàn)了該方法有效性的評(píng)估。

1.2? 詞嵌入

詞嵌入是一種詞的數(shù)字向量化表示,相似含義的詞可用類似的向量表達(dá)。詞嵌入的研究關(guān)鍵在于獲得密集低維的分布式特征向量表示詞的不同特征,每一個(gè)詞與分布式向量相關(guān)聯(lián),每個(gè)詞與向量空間中的點(diǎn)相關(guān)聯(lián),促進(jìn)與神經(jīng)網(wǎng)絡(luò)詞的更好擬合和學(xué)習(xí)更新[10]。

2013年Google公司的Mikolov等人[11]開發(fā)出了基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量新的模型體系結(jié)構(gòu)Word2Vec,Word2Vec核心思想是通過詞的上下文窗口得到詞的向量化表示得到分布式的詞嵌入,其本質(zhì)是降維操作,將One-Hot編碼形式的詞向量轉(zhuǎn)化為Word2Vec形式,Word2vec包括CBOW與Skip-Gram兩種模型。Pennington等人[12]在2014年提出了繼Word2Vec以后又一具有較大影響力的詞向量訓(xùn)練方法Glove。Glove是一種無監(jiān)督的詞嵌入模型,采用共現(xiàn)矩陣并對(duì)其降維,將局部信息和整體信息結(jié)合,解決了Word2Vec的只考慮詞與局部窗口信息和忽略了語料庫的統(tǒng)計(jì)信息的問題。

隨著詞嵌入模型不斷深入研究,詞嵌入模型更新速度越來越快,從傳統(tǒng)機(jī)器學(xué)習(xí)詞袋模型[13]等,發(fā)展到如今基于深度學(xué)習(xí)的預(yù)訓(xùn)練方法諸如Word2Vec[14]、Glove[15]、 BERT[16]的詞嵌入算法,如今的詞嵌入方法通過神經(jīng)網(wǎng)絡(luò)模型利用更長的上下文來解決自然語言問題[17]。

2? 研究方法

2.1? 數(shù)據(jù)獲取

我們采用已標(biāo)注的10萬余條微博文本語料庫。在數(shù)據(jù)收集階段,我們使用微博API[18]收集微博文本數(shù)據(jù),具體包含create_at(微博發(fā)布時(shí)間),id(發(fā)布用戶id),text(微博文本)屬性信息。我們一共收集到2020年1月1日至2月20日疫情期間的1萬余條微博文本作為待分析的文本。圖1展示了研究方法的總體流程。

2.2? 預(yù)處理

我們?cè)嫉臄?shù)據(jù)集需要經(jīng)過預(yù)處理,過濾掉一些不符合要求的文本以便更契合情感分析任務(wù)。我們將對(duì)微博數(shù)據(jù)集中的中英文表情和符號(hào)表情進(jìn)行過濾,然后利用jieba庫進(jìn)行分詞,利用停用詞表進(jìn)行深度清洗,篩選出停用詞,其中包括數(shù)字,中英文標(biāo)點(diǎn)符號(hào),語氣詞,無實(shí)意詞等。圖2顯示預(yù)處理的步驟。

2.3? 模型

我們將使用訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)擬合詞嵌入層方法。深度神經(jīng)網(wǎng)絡(luò)工具Keras,是一個(gè)深度學(xué)習(xí)框架,Keras的Embedding層和Word2Vec、Glove本質(zhì)上是一樣的,將詞嵌入在淺層神經(jīng)網(wǎng)絡(luò)中用密集向量表示同時(shí)在更小維度中集合信息,但其特點(diǎn)是可以和神經(jīng)網(wǎng)絡(luò)一起訓(xùn)練形成一個(gè)端到端的結(jié)構(gòu),以便高效擬合相應(yīng)模型任務(wù)。Keras的Embedding層輸入數(shù)據(jù)要求為整數(shù)編碼,我們利用該庫中的分詞器Tokenizer API生成序列化向量作為嵌入層的輸入,Embedding層被定義為神經(jīng)網(wǎng)絡(luò)的第一個(gè)隱藏層。該層使用方式靈活,我們利用該隱藏層作為深度學(xué)習(xí)模型的一部分共同進(jìn)行模型學(xué)習(xí)和訓(xùn)練,以將整數(shù)映射到Embedding層向量空間中的獲得帶有權(quán)重的密集向量。

同時(shí)我們還將使用最新的BERT預(yù)訓(xùn)練模型進(jìn)行研究,BERT模型由Devlin等人[19]在2018年提出,BERT模型被評(píng)為目前自然語言處理效果最佳的深度預(yù)訓(xùn)練模型。BERT預(yù)訓(xùn)練模型較之于以往預(yù)訓(xùn)練模型最大優(yōu)勢在于BERT運(yùn)用了雙向轉(zhuǎn)換器如圖3所示。BERT的高效能同時(shí)體現(xiàn)在其特殊的預(yù)訓(xùn)練方法,包含有Masked Language Model和Next Sentence Prediction。BERT模型的輸入由詞向量,段向量,位置向量三部分組成,如圖4所示。在詞向量里面有兩個(gè)特殊標(biāo)志CLS,SEP。CLS作為第一個(gè)向量來得到句子向量,SEP用來區(qū)分句子。為了訓(xùn)練深度雙向表示模型,需要BERT中的Masked Language Model和Next Sentence Prediction。

我們將利用Embedding層和BERT進(jìn)行文本預(yù)訓(xùn)練進(jìn)行情感分類效果比較。神經(jīng)網(wǎng)絡(luò)模型將用到深度學(xué)習(xí)框架Keras提供了網(wǎng)絡(luò)層線性堆疊的Sequential順序模型來搭載Relu全連接層和Softmax激活函數(shù)層。

2.4? 可視化分析

我們針對(duì)處理后的微博文本數(shù)據(jù)借助第三方wordcloud庫和matplotlib庫對(duì)數(shù)據(jù)進(jìn)行可視化分析。通過統(tǒng)計(jì)出高頻詞匯、評(píng)論量和平均情感數(shù)值的時(shí)間變化,我們從數(shù)字角度定量考察疫情期間輿情發(fā)展的情況,以便更加直觀了解此次疫情對(duì)民眾的影響。

3? 實(shí)驗(yàn)和結(jié)果

在這一節(jié)中,我們將詳細(xì)介紹我們?cè)诒敬螌?shí)驗(yàn)中利用上述方法完成的具體實(shí)驗(yàn)工作和結(jié)果。我們將訓(xùn)練集和測試集經(jīng)過預(yù)處理后,如圖2所示。產(chǎn)生了符合情感分析要求的10萬條語料集。

3.1? 情感分析結(jié)果

我們分別利用Embedding層和BERT模型獲得詞嵌入,再擬合神經(jīng)網(wǎng)絡(luò)構(gòu)建情感識(shí)別模型,我們將前述的10萬條語料集劃分為訓(xùn)練集,驗(yàn)證集,測試集進(jìn)行訓(xùn)練,訓(xùn)練輪次均為5次。在測試集上進(jìn)行評(píng)估,結(jié)果對(duì)比如表1、2所示。

3.2? 2019n-Cov疫情數(shù)據(jù)可視化結(jié)果

3.2.1? 情感分類微博數(shù)據(jù)分布

情感分析結(jié)果為典型的三分類,1代表積極,0代表中性,–1代表消極。我們首先從宏觀角度獲得了評(píng)論在三種情感中所占數(shù)量,如圖5所示??傮w分析可得,積極情緒文本比消極情緒文本在數(shù)量上較多,表明此次疫情期間網(wǎng)民整體呈現(xiàn)積極心態(tài);中性情緒所占數(shù)量最大也代表了多數(shù)網(wǎng)民對(duì)此次疫情的不信謠不傳謠態(tài)度,這也證明了相關(guān)機(jī)構(gòu)實(shí)施的大眾居家隔離等防疫措施有效性。

3.2.2? 微博情感時(shí)間趨勢

我們從動(dòng)態(tài)角度深入研究網(wǎng)民情緒變化,如圖6所示。消極情緒在1月20日左右呈現(xiàn)迅速增長趨勢,這可能是由于在1月20日鐘南山院士肯定新冠肺炎存在人傳人現(xiàn)象,加大網(wǎng)民的重視和恐懼程度。從2月8日至10日消極文本數(shù)量達(dá)到峰值顯示出李文亮醫(yī)生的逝世可能加重了負(fù)面情緒。但國家緊急實(shí)施居家隔離和調(diào)配全國力量支援湖北等多項(xiàng)措施,這使得2月10日以后積極情緒占比增大,網(wǎng)民情緒逐漸好轉(zhuǎn)。

3.2.3? 平均情感數(shù)值時(shí)間變換

我們對(duì)預(yù)測結(jié)果進(jìn)行情感數(shù)值平均化,得到平均情緒值隨時(shí)間的變化趨勢,如圖7所示。網(wǎng)民情緒在1月20號(hào)左右進(jìn)入低沉期,驗(yàn)證了圖6數(shù)據(jù)所示結(jié)論,之后情緒波動(dòng)起伏,并在2月9日左右進(jìn)入網(wǎng)民情緒低谷。之后每日新冠疫情感染人數(shù)逐漸下降,網(wǎng)民情緒逐漸好轉(zhuǎn)。從整體情緒幅度觀察,情緒波動(dòng)較大,這說明了疫情期間不同地區(qū)的感染人數(shù)和死亡人數(shù)對(duì)網(wǎng)民的情緒造成不同程度的影響;在2月10日以后情緒逐漸雖有起伏整體仍保持積極心態(tài),平均情緒數(shù)值逐漸有上升趨勢。

3.2.4? 詞頻統(tǒng)計(jì)

關(guān)注網(wǎng)民疫情期間的熱點(diǎn)話題也是全面了解網(wǎng)民情緒和態(tài)度的重要途徑之一。我們利用測試集根據(jù)詞頻得到高低排序,得到前800詞語的詞云。如圖8所示。由詞云詞頻統(tǒng)計(jì)可知此次網(wǎng)民熱點(diǎn)討論為“疫情”、“武漢”、“肺炎”、“冠狀病毒”,“新型”等,這也表明在COVID-19期間,網(wǎng)友對(duì)此次新冠肺炎的重視和關(guān)注,同時(shí)也代表了冠狀病毒為此次新型肺炎的起源并對(duì)社會(huì)造成嚴(yán)重影響,也導(dǎo)致“口罩”、“醫(yī)院”等資源的缺乏和討論。此外我們可以從“武漢”、“加油”、“醫(yī)院”這些高頻率詞匯中體會(huì)到網(wǎng)民對(duì)武漢的關(guān)心,以及對(duì)所有為新冠肺炎抗?fàn)幍尼t(yī)護(hù)天使的感謝。

4? 結(jié)論

本文基于深度學(xué)習(xí)模型BERT比較了其在詞嵌入訓(xùn)練的優(yōu)越性,并獲得的較準(zhǔn)確的情感分析結(jié)果,研究意義總結(jié)為如下三個(gè)方面:(1)比較了BERT模型和Embedding層的情感分類效果,解決了預(yù)訓(xùn)練模型中單向信息流問題,并大大減少神經(jīng)網(wǎng)絡(luò)的復(fù)雜度; (2)利用疫情之前的微博數(shù)據(jù)作為BERT模型訓(xùn)練集對(duì)COVID-19期間測試集進(jìn)行情感分類;(3)數(shù)據(jù)化地呈現(xiàn)出此次疫情網(wǎng)民的情緒變化和走向,結(jié)果表明網(wǎng)民在COVID-19疫情期間整體情緒積極。由于詞向量結(jié)合神經(jīng)網(wǎng)絡(luò)的端到端學(xué)習(xí)模型具有多樣性,后續(xù)可比較Word2Vec,Glove等熱門模型,以獲得更高準(zhǔn)確度的詞嵌入模型,同時(shí)利用Keras庫構(gòu)建其他形式的神經(jīng)網(wǎng)絡(luò)以加強(qiáng)性能。

參考文獻(xiàn)

[1]蔣鈺慧. 投資者情緒對(duì)我國股票市場收益率的影響研究[D]. 上海外國語大學(xué), 2019.

[2]張愛華, 陳超雨. 基于文本分析的中國5G產(chǎn)業(yè)發(fā)展研? ?究——市場主體視角[J]. 北京郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2019, 21(06): 90-102.

[3]劉雯, 高峰, 洪凌子. 基于情感分析的災(zāi)害網(wǎng)絡(luò)輿情研? 究——以雅安地震為例[J]. 圖書情報(bào)工作, 2013, 57(20): 104-110.

[4]柳池煜. 票房預(yù)測中的社交網(wǎng)絡(luò)評(píng)論情感挖掘技術(shù)研究[D]. 南京郵電大學(xué), 2019.

[5]梁軍. 基于深度學(xué)習(xí)的文本特征表示及分類應(yīng)用[D]. 鄭州大學(xué), 2016.

[6]陳文. 中文短文本跨領(lǐng)域情感分類算法研究[D]. 重慶大學(xué), 2016.

[7]彭浩, 朱望鵬, 趙丹丹, 等. 面向多源社交網(wǎng)絡(luò)輿情的情感分析算法研究[J]. 信息技術(shù), 2019(02): 43-48.

[8]王培名, 陳興蜀, 王海舟, 王文賢. 多策略融合的微博數(shù)據(jù)獲取技術(shù)研究[J]. 山東大學(xué)學(xué)報(bào)(理學(xué)版), 2019, 54(05): 28-36+43.

[9]劉楠. 面向微博短文本的情感分析研究[D]. 武漢大學(xué), 2013.

[10]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.

[11]MIKOLOV T, CHEN Kai, COR RADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science, 2013, 2(12): 27-35.

[12]Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]. Proceedings of the 2014 conference on empirical methods in natural language processing(EMNLP). 2014: 1532-1543.

[13]黃春梅, 王松磊. 基于詞袋模型和TF-IDF的短文本分類研究[J]. 軟件工程, 2020, 23(03): 1-3.

[14]彭曉彬. 基于word2vec的文本情感分析方法研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用, 2016(07): 58-59.

[15]陳珍銳, 丁治明. 基于Glove模型的詞向量改進(jìn)方法[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2019, 28(01): 194-199.

[16]胡春濤, 秦錦康, 陳靜梅, 等. 基于BERT模型的輿情分類應(yīng)用研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用, 2019(11): 41-44.

[17]劉勝杰, 許亮. 基于詞嵌入技術(shù)的文本表示研究現(xiàn)狀綜述[J]. 現(xiàn)代計(jì)算機(jī), 2020(01): 40-43.

[18]王鐵剛. 社交媒體數(shù)據(jù)的獲取分析[J]. 軟件, 2015, 36(02): 86-91.

[19]Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv: 1810. 04805, 2018.

猜你喜歡
情感分析深度學(xué)習(xí)
基于語義的互聯(lián)網(wǎng)醫(yī)院評(píng)論文本情感分析及應(yīng)用
基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
在線評(píng)論情感屬性的動(dòng)態(tài)變化
預(yù)測(2016年5期)2016-12-26 17:16:57
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
曲阜市| 青河县| 新郑市| 阿坝县| 舒城县| 准格尔旗| 比如县| 滨海县| 蓝田县| 柳林县| 汝州市| 温宿县| 澜沧| 安新县| 宁海县| 思南县| 昌都县| 阿图什市| 资溪县| 南昌市| 健康| 若尔盖县| 卫辉市| 承德市| 九龙坡区| 咸宁市| 静安区| 百色市| 辽阳县| 南充市| 丰县| 宜都市| 长阳| 昆山市| 常宁市| 全州县| 瑞丽市| 墨脱县| 永福县| 建阳市| 建瓯市|