国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LSTM+Word2vec的微博評(píng)論情感分析

2024-01-01 00:00:00王劍輝閆芳序
關(guān)鍵詞:社交平臺(tái)情感分析微博

摘要:微博作為當(dāng)今熱門的社交平臺(tái),其中蘊(yùn)含著許多具有強(qiáng)烈主觀性的用戶評(píng)論文本。為挖掘微博評(píng)論文本中潛在的信息,針對(duì)傳統(tǒng)的情感分析模型中存在的語義缺失以及過度依賴人工標(biāo)注等問題,提出一種基于LSTM+Word2vec的深度學(xué)習(xí)情感分析模型。采用Word2vec中的連續(xù)詞袋模型(continuous bag of words,CBOW),利用語境的上下文結(jié)構(gòu)及語義關(guān)系將每個(gè)詞語映射為向量空間,增強(qiáng)詞向量之間的稠密度;采用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)對(duì)文本上下文序列的線性抓取,最后輸出分類預(yù)測(cè)的結(jié)果。實(shí)驗(yàn)結(jié)果的準(zhǔn)確率可達(dá)95.9%,通過對(duì)照實(shí)驗(yàn)得到情感詞典、RNN、SVM三種模型的準(zhǔn)確率分別為52.3%、92.7%、85.7%,對(duì)比發(fā)現(xiàn)基于LSTM+Word2vec的深度學(xué)習(xí)情感分析模型的準(zhǔn)確率更高,具有一定的魯棒性和泛化性,對(duì)用戶個(gè)性化推送和網(wǎng)絡(luò)輿情監(jiān)控具有重要意義。

關(guān)鍵詞:情感分析; Word2vec; 長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò); 社交平臺(tái); 微博

中圖分類號(hào):TP391.9文獻(xiàn)標(biāo)志碼:A

doi:10.3969/j.issn.16735862.2024.02.007

CUI Song LYU Yan CHEN Lanfeng WANG Jianhui, YAN Fangxu

(1. College of Physical Science and Technology, Shenyang Normal University, Shenyang 110034, China)

(College of Mathematics and Systems Science, Shenyang Normal University, Shenyang 110034, China)

Abstract:Weibo is a popular social platform, contains many subjective user comments. In order to explore the potential information in the comment text of weibo, a deep learning sentiment analysis model based on LSTM+Word2vec is proposed to solve the problems of semantic loss and excessive dependence on manual annotation in the traditional sentiment analysis model. The CBOW(continuous bag of words) model in Word2vec is used to map words into vector space by using the context structure and semantic relationship of context, so as to enhance the density between word vectors. LSTM is used to realize the linear capture of the text context sequence, and finally yield the result of classification prediction. As a control experiment, the accuracy of the three models of sentiment dictionary, RNN and SVM is 52.3%, 92.7% and 85.7% respectively. It is found that the accuracy of the deep learning sentiment analysis model based on LSTM+Word2vec is higher, which has certain robustness and generalization. It is of great significance for user personalized push and network public opinion monitoring.

Key words:sentiment analysis; Word2vec; long shortterm memory(LSTM); social platform; Weibo

互聯(lián)網(wǎng)的飛速發(fā)展使得眾多社交平臺(tái)躋身熱門應(yīng)用行列,社交媒體的興起促使用戶在網(wǎng)絡(luò)平臺(tái)上針對(duì)其興趣領(lǐng)域自發(fā)、實(shí)時(shí)、自由地發(fā)表評(píng)論,其中最具代表性的當(dāng)屬新浪微博。用戶評(píng)論往往具有強(qiáng)烈的主觀性,其中蘊(yùn)含著豐富的感情色彩。對(duì)此進(jìn)行研究分析,利于挖掘文本中隱含的用戶需求,在監(jiān)控輿情、品牌認(rèn)知、定向推送、商品評(píng)論等領(lǐng)域發(fā)揮著重要作用。情感分析技術(shù)作為自然語言處理的一種應(yīng)用,能夠迅速抓取、整合互聯(lián)網(wǎng)上海量的非結(jié)構(gòu)化評(píng)論數(shù)據(jù),挖掘帶有情感傾向的主觀性文本,實(shí)現(xiàn)分析、處理、歸納和推理的過程[12]。

實(shí)現(xiàn)情感分析技術(shù)的重難點(diǎn)為文本向量的表示和預(yù)測(cè)模型的選取。傳統(tǒng)的情感分析模型對(duì)人工處理的語料和先驗(yàn)知識(shí)背景依賴程度較深,且采用稀疏矩陣進(jìn)行文本向量表征,導(dǎo)致向量的維度過高,不利于計(jì)算機(jī)的讀取和存儲(chǔ)。Word2vec模型將文本內(nèi)容處理轉(zhuǎn)化為計(jì)算機(jī)可讀取的稠密矩陣。LSTM(long shorttenm memory)模型具有一定的記憶功能,針對(duì)句法層面進(jìn)行順序及位置的調(diào)整進(jìn)而捕捉深層的語義信息[3]。基于此,本文提出一種基于LSTM+Word2vec的微博評(píng)論文本情感分析模型,

將微博評(píng)論文本轉(zhuǎn)化成向量數(shù)據(jù),作為L(zhǎng)STM模型的輸入,經(jīng)過長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型對(duì)語義信息的學(xué)習(xí)過程和捕捉處理,最后輸出預(yù)測(cè)結(jié)果。實(shí)驗(yàn)證明,該模型具有較強(qiáng)的泛用性和魯棒性。

1相關(guān)研究

1.1情感分析技術(shù)

情感分析技術(shù)是自然語言處理中的一項(xiàng)重要研究?jī)?nèi)容,其目的在于從文本中挖掘出更多的主觀信息,從而判斷出作者的情緒。情感分析技術(shù)在多個(gè)領(lǐng)域都有著廣泛的應(yīng)用性,如商業(yè)領(lǐng)域的商品評(píng)論,文化領(lǐng)域的書評(píng)、影評(píng),社會(huì)領(lǐng)域的輿情監(jiān)督,信息領(lǐng)域的趨態(tài)預(yù)測(cè)以及企業(yè)中職員的情緒管理等。主要的分析方法有3種:基于情感字典的分析方法、基于機(jī)器學(xué)習(xí)的分析方法和基于深度學(xué)習(xí)的分析方法。

1.1.1基于情感字典的分析方法

該方法通過計(jì)算詞語的褒貶性進(jìn)行加權(quán)求和進(jìn)而確定整個(gè)段落或者整篇文章的情感傾向。目前主要采用人工標(biāo)注、知識(shí)庫和語料庫3種方式來構(gòu)造情感詞典。Hu等[4]將詞集編入情感字典,通過對(duì)評(píng)價(jià)結(jié)果的極性進(jìn)行判別,該判別方法的準(zhǔn)確率達(dá)84.2%。Ding等[5]把情緒詞匯和話題詞匯之間的距離作為衡量標(biāo)準(zhǔn),其對(duì)亞馬遜網(wǎng)站數(shù)據(jù)的預(yù)測(cè)精度達(dá)到了92.0%。

1.1.2基于機(jī)器學(xué)習(xí)的分析方法

該方法主要適用于有監(jiān)督學(xué)習(xí),主要分為3個(gè)步驟:預(yù)處理、文本表示(特征選擇、特征簡(jiǎn)約、特征權(quán)重設(shè)置)與分類器訓(xùn)練。其中一般按照特征值是否出現(xiàn)用數(shù)值0或1表示,或者按詞頻信息取TF、TFIDF值等進(jìn)行特征權(quán)重設(shè)置。Pang等[6]首次提出了一種基于機(jī)器學(xué)習(xí)的情緒分類算法,將 SVM和 Unigrams特征相結(jié)合,識(shí)別率達(dá)到82.9%。Ye等[7]采用二類Bigram,并結(jié)合樸素貝葉斯可達(dá)到95.67% 的精確度。

1.1.3基于深度學(xué)習(xí)的分析方法

基于深度學(xué)習(xí)的方法有seq2seq模型、transformer、Bert預(yù)訓(xùn)練加微調(diào)模型、GPT模型以及本文所應(yīng)用的LSTM模型等。自2006年以來,神經(jīng)網(wǎng)絡(luò)模型在文本處理方面取得了重大的進(jìn)展。近年來,中文情感分析的應(yīng)用主要集中在對(duì)短文本的處理中,如:趙明等[8]基于Word2vec 和 LSTM 對(duì)食譜文本進(jìn)行分類預(yù)測(cè);張英[9]建立LSTM模型針對(duì)微博做情感分析。

1.2Word2vec模型

Word2vec 是自然語言處理任務(wù)的一個(gè)重要模型,是由谷歌公司于2013年提出的一款基于深度學(xué)習(xí)的詞向量技術(shù)。它主要利用某一語境的上下文結(jié)構(gòu)及語義關(guān)系,實(shí)現(xiàn)詞語語義和語法的系統(tǒng)抓取,并且能夠投入到大型的語料庫進(jìn)行集中化的無監(jiān)督學(xué)習(xí)[10]。通過學(xué)習(xí)訓(xùn)練,模型將高維詞映射為低維詞,統(tǒng)一為向量化表示,并計(jì)算余弦距離進(jìn)而度量詞向量之間的相似程度。如圖1所示,該模型主要分為2種架構(gòu)實(shí)現(xiàn):跳字模型(skipgram)和連續(xù)詞袋模型(continuous bag of words,CBOW)。Skipgram模型利用最大化分類方法,在給定的范圍內(nèi)預(yù)測(cè)中心詞的前后詞。另外,句子中較遠(yuǎn)處的詞與中心詞之間關(guān)聯(lián)度較低,因此在訓(xùn)練中分配給這些詞語的權(quán)重較低。而CBOW模型則是將中心詞對(duì)應(yīng)的上下文詞語按順序排列,將所選窗口內(nèi)的上下文詞語投射到同一位置,并對(duì)其向量求平均值,輸出的結(jié)果即為中心詞的詞向量[11]。由于CBOW模型的訓(xùn)練速度更快,本文采用該模型進(jìn)行訓(xùn)練。

1.3LSTM

長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long shortterm memory network,LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的典型延伸,成功地改進(jìn)了梯度消失和爆炸等問題[12]。LSTM與RNN主要有2點(diǎn)不同:1)對(duì)內(nèi)部狀態(tài)的重定義。新的內(nèi)部狀態(tài)ct∈RD可實(shí)現(xiàn)線性的信息循環(huán)傳遞,同時(shí)將信息非線性地輸出至隱含層的外部狀態(tài)ht∈RD,即在每個(gè)時(shí)刻t,內(nèi)部狀態(tài)ct都保存了當(dāng)前的信息。2)增添新的門控機(jī)制進(jìn)而掌控信息的傳遞路徑。門的取值范圍為[0,1],其中0為關(guān)閉狀態(tài),信息無法通過;(0,1)區(qū)間代表信息以一定的比例通過;1為開放狀態(tài),信息可以全部通過。LSTM通過引入3個(gè)門實(shí)現(xiàn)對(duì)信息的動(dòng)態(tài)調(diào)整,其工作原理如下:

2實(shí)驗(yàn)驗(yàn)證與分析

在Python的TensorFlow環(huán)境中,搭建運(yùn)行LSTM+Word2vec情感分析模型。首先對(duì)評(píng)論文本進(jìn)行預(yù)處理,主要包括讀取、分詞、去停用詞等步驟,再利用Word2vec模型向量化表示文本,作為輸入?yún)?shù)至LSTM模型中進(jìn)行訓(xùn)練與評(píng)估。

2.1數(shù)據(jù)來源

本文數(shù)據(jù)源自github公開社區(qū),共計(jì)119989條評(píng)論記錄,其中包含正向評(píng)論59993條,負(fù)向評(píng)論59996條,如表2所示。由于評(píng)論文本中含有中文、英文、俚語、數(shù)字符號(hào)、特殊表情以及空缺值、冗余值等,因此需要對(duì)文本數(shù)據(jù)進(jìn)行一定的處理。

2.2數(shù)據(jù)預(yù)處理

2.2.1分詞

分詞的目的是將一段話或一句話劃分成彼此獨(dú)立的詞語的集合。對(duì)于中文語境,jieba分詞工具適配度較高,因此本文采用jieba庫的精確模式對(duì)文本數(shù)據(jù)進(jìn)行分詞,實(shí)現(xiàn)代碼如下:

2.2.2去停用詞

2.3詞向量化

2.4基于LSTM的分類模型

2.4.1劃分?jǐn)?shù)據(jù)集

微博評(píng)論語料已由文本數(shù)據(jù)轉(zhuǎn)化為詞向量,接下來將數(shù)據(jù)劃分為測(cè)試集和訓(xùn)練集。由于微博的文本數(shù)據(jù)較為特殊,本文應(yīng)用sequence.pad_sequences()方法實(shí)現(xiàn)句子長(zhǎng)度的統(tǒng)一,然后調(diào)用sklearn庫中的train_test_split()函數(shù)實(shí)現(xiàn)80%訓(xùn)練集和20%測(cè)試集的劃分。

2.4.2模型結(jié)構(gòu)

LSTM模型的堆疊順序一般為:輸入層(Embedding層)、隱含層(全連接層和LSTM層)、輸出層(全連接層和輸出層)。輸出層確定輸入神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)形態(tài),數(shù)據(jù)特征被隱含層提取并進(jìn)行特殊處理,根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出規(guī)則進(jìn)行一維向量化變換,最后實(shí)現(xiàn)全連接并輸出預(yù)測(cè)結(jié)果。參數(shù)的具體設(shè)置見表3、表4、表5。

2.4.3模型編譯與訓(xùn)練

2.4.4模型評(píng)估

本文基于多種不同模型,進(jìn)行文本分析的對(duì)比實(shí)驗(yàn)測(cè)試,分別為支持向量機(jī)(SVM)、RNN、情感詞典,具體結(jié)果見表6。通過對(duì)準(zhǔn)確率、召回率與F1值3個(gè)指標(biāo)的比較,可發(fā)現(xiàn)本文模型所得結(jié)果的準(zhǔn)確率最高,且召回率和F1值均較為理想。因此可得出結(jié)論,基于LSTM+Word2vec的情感分析模型自適性較強(qiáng),性能提升較大。

3結(jié)論

互聯(lián)網(wǎng)在線評(píng)論的數(shù)量逐日攀升,這些評(píng)論文本中往往隱含著大部分網(wǎng)民主觀思想,因而挖掘其中的潛在價(jià)值具有重要意義。在一定層面上,可以促進(jìn)消費(fèi)推動(dòng)經(jīng)濟(jì)的增長(zhǎng),監(jiān)控輿論風(fēng)向,構(gòu)建和諧、安全的網(wǎng)絡(luò)環(huán)境。

本文以github社區(qū)中的評(píng)論語料集作為文本分析數(shù)據(jù),在進(jìn)行分詞、去停用詞等預(yù)處理步驟之后,應(yīng)用Word2vec模型對(duì)詞語進(jìn)行向量化表示,作為輸入層應(yīng)用到LSTM模型中,完成編譯、訓(xùn)練、評(píng)估的過程。并與SVM、RNN、情感詞典形成對(duì)照實(shí)驗(yàn),通過對(duì)比得到LSTM+Word2vec模型的準(zhǔn)確率為0.959,召回率為0.947,F(xiàn)1值為0.951,三項(xiàng)指標(biāo)均較為突出,具有良好的應(yīng)用性,且泛化能力較強(qiáng)。

參考文獻(xiàn):

[1]陳龍,管子玉,何金紅,等.情感分類研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2017,54(6):11501170.

[2]楊立公,朱儉,湯世平.文本情感分析綜述[J].計(jì)算機(jī)應(yīng)用,2013,33(6):15741578.

[3]柴源.基于LSTM和Word2vec的圖書評(píng)論文本情感分析研究[J].信息技術(shù),2022(7):5964.

[4]HU M Q,LIU B.Mining and summarizing customer reviews[C]//Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:Association for Computing Machinery,2004:168177.

[5]DING X W,LIU B,YU P S.A holistic lexiconbased approach to opinion mining[C]//Proceedings of the 2008 International Conference on Web Search and Data Mining.New York:Association for Computing Machinery,2008:231240.

[6]PANG B,LEE L,VAITHYANATHAN S.Thumbs up? Sentiment classification using machine learning techniques[C]// Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing.Philadelphia:Association for Computational Linguistics,2002:7986.

[7]YE Q,ZHANG Z Q,LAW R,et al.Sentiment classification of online reviews to travel destinations by supervised machine learning approaches[J].Expert Syst Appl,2009,36(3):65276535.

[8]趙明,杜會(huì)芳,董翠翠,等.基于Word2vec和LSTM的飲食健康文本分類研究[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2017,48(10):202208.

[9]張英.基于深度神經(jīng)網(wǎng)絡(luò)的微博短文本情感分析研究[D].鄭州:中原工學(xué)院,2017.

[10]王仁武,宋家怡,陳川寶.基于Word2vec的情感分析在品牌認(rèn)知中的應(yīng)用研究[J].圖書情報(bào)工作,2017,61(22):612.

[11]ADEWUMI T,LIWICKI F,LIWICKI M.Word2vec:Optimal hyperparameters and their impact on natural language processing downstream tasks[J].Open Comput Sci,2022,12(1):134141.

[12]王劍輝,蔣杏麗.基于LSTM模型對(duì)印度新冠肺炎疫情的預(yù)測(cè)[J].沈陽師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,40(6):554557.

[13]鄧三鴻,傅余洋子,王昊.基于LSTM模型的中文圖書多標(biāo)簽分類研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017(7):5260.

[14]曾蒸,李莉,陳晶.用于情感分類的雙向深度LSTM[J].計(jì)算機(jī)科學(xué),2018,45(8):213217.

[15]YU Y,SI X S,HU C H,et al.A review of recurrent neural networks:LSTM cells and network architectures[J].Neural Comput,2019,31(7):12351270.

【責(zé)任編輯:孫可】

猜你喜歡
社交平臺(tái)情感分析微博
青少年數(shù)字素養(yǎng)的社會(huì)與文化內(nèi)涵及其教育啟示
社交平臺(tái)下電子商務(wù)盈利模式創(chuàng)新研究
基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
網(wǎng)絡(luò)視頻直播熱潮下傳統(tǒng)電視媒體的突圍
出版廣角(2016年21期)2017-01-07 21:30:05
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
在線評(píng)論情感屬性的動(dòng)態(tài)變化
事實(shí)與流言的博弈
人間(2016年26期)2016-11-03 18:19:04
淺談社交平臺(tái)跨界電子商務(wù)
文本觀點(diǎn)挖掘和情感分析的研究
打造三個(gè)平臺(tái) 構(gòu)建“樞紐型媒體”
昭觉县| 加查县| 闽清县| 济阳县| 石狮市| 桦南县| 迁西县| 泸定县| 武强县| 淮北市| 聂荣县| 南涧| 徐汇区| 安福县| 临桂县| 墨脱县| 特克斯县| 牡丹江市| 南丰县| 胶州市| 苏尼特左旗| 桂林市| 贵港市| 晴隆县| 奉化市| 辽阳县| 苏尼特左旗| 育儿| 甘泉县| 汝城县| 朔州市| 安塞县| 石家庄市| 石棉县| 视频| 敦化市| 美姑县| 镇康县| 六盘水市| 炉霍县| 嘉鱼县|