基于深度學(xué)習(xí)的情感分類技術(shù)在高校輿情分析中的應(yīng)用研究

2021-11-09 06:49黃萍朱惠娟陳琳琳

軟件工程 2021年11期

黃萍　朱惠娟　陳琳琳

摘? 要：傳統(tǒng)機器學(xué)習(xí)的自然語言處理系統(tǒng)特別依賴人工手動標(biāo)記的特征，極其耗時且容易出現(xiàn)維度爆炸等難以解決的問題。本文采用基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的深度學(xué)習(xí)技術(shù)來解決這一問題。通過收集校園熱點話題進行預(yù)處理以及運用Word2vec模型生成詞向量后，運用卷積神經(jīng)網(wǎng)絡(luò)提取其中的特征并進行情感傾向分類。通過實驗數(shù)據(jù)的比較，基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的情感傾向分類獲得了89.76%的準(zhǔn)確率，較傳統(tǒng)的支持向量機（SVM）提高了7.3%，獲得更好的分類性能。本文的研究對高校治理能力和治理體系現(xiàn)代化建設(shè)具有積極作用。

關(guān)鍵詞：自然語言處理;卷積神經(jīng)網(wǎng)絡(luò);情感傾向分析;輿情分析

中圖分類號：TP39? ? ?文獻標(biāo)識碼：A

Application of Emotion Classification Technology based on Deep

Learning in University Public Opinion Analysis

HUANG Ping， ZHU Huijuan， CHEN Linlin

（Zijin College， Nanjing University of Science and Technology， Nanjing 210000， China）

huangping984@njust.edu.cn; elainezhj@qq.com; chenlinlin606@njust.edu.cn

Abstract： Traditional natural language processing systems for machine learning rely heavily on manually marked features， which are extremely time-consuming and prone to difficult problems like dimensional explosions. This paper proposes to use CNN-based （Convolutional Neural Network） deep learning technology to solve this problem. After hot topics on campus are collected for preprocessing and generating word vectors using word2vec model， CNN is used to extract features and classify emotional tendencies. Through experimental comparison， the emotion tendency classification based on CNN has an accuracy of 89.76%， which is 7.3% higher than that of traditional Support Vector Machine （SVM） and has better classification performance. This research plays a positive role in the modernization of university governance ability and governance system.

Keywords： natural language processing; convolutional neural network; emotion tendency analysis; public opinion

analysis

1? ?引言（Introduction）

隨著信息技術(shù)的迅速發(fā)展和自媒體的普及，網(wǎng)絡(luò)對大學(xué)生的思維方式、思想觀念、人際交往和學(xué)習(xí)生活產(chǎn)生了深刻影響，各個高校校園文化的展示不再局限于校園內(nèi)部，各種虛擬網(wǎng)絡(luò)平臺也成為校園文化交流和展示的平臺。借助自媒體平臺，學(xué)生們可以隨時隨地在社交網(wǎng)絡(luò)上發(fā)表自己的觀點和見解，而且這些觀點和見解往往是帶有明顯的情感傾向的，在一定程度上，這些正面或負(fù)面的高校網(wǎng)絡(luò)輿情也客觀地反映出校園文化的健康程度。如何在海量的數(shù)據(jù)中捕獲到用戶的情感傾向信息，挖掘出帶有情緒和喜惡的主觀信息，是情感傾向分類要做的主要工作。情感傾向分類可以對文本所表達的帶有主觀情感色彩的信息進行處理、挖掘，并分析其中包含的積極或消極信息，通過判斷信息的情緒極性進行輿情態(tài)勢感知和預(yù)警，有助于對極端情緒的檢測與控制?？傊?，在現(xiàn)代高校管理中，充分挖掘師生對熱點輿情事件的情感傾向，分析其所表達價值取向或者事件產(chǎn)生的深層次原因，對開展校園網(wǎng)絡(luò)輿情研究和進行有針對性的學(xué)生思想引導(dǎo)工作是至關(guān)重要的，對推動網(wǎng)絡(luò)空間的科學(xué)治理也起到促進作用。

2 基于深度學(xué)習(xí)的高校網(wǎng)絡(luò)輿情分析系統(tǒng)（University network public opinion analysis system based on deep learning）

情感分類算法研究是網(wǎng)絡(luò)輿情分析的一個重要研究領(lǐng)域，對于輿情分析有著重要的意義。近年來，國內(nèi)高校網(wǎng)絡(luò)輿情突發(fā)事件頻繁發(fā)生，比如2020 年的“山西作弊大學(xué)生墜亡”“疫情期間高校施行‘相對封閉式管理”等。這些事件所爆發(fā)出的網(wǎng)絡(luò)輿論給相關(guān)高校造成了極大的困擾。因此，在網(wǎng)絡(luò)空間科學(xué)治理工程的背景下，分析和研究高校網(wǎng)絡(luò)輿情發(fā)展和傳播規(guī)律，探索如何在高校師生中開展有效的網(wǎng)絡(luò)輿情管理和引導(dǎo)已成為需要深入研究思考的問題。作為高校，面對現(xiàn)下日益復(fù)雜以及多元化的網(wǎng)絡(luò)環(huán)境，要做好網(wǎng)絡(luò)輿情的預(yù)警工作，運用計算機輔助技術(shù)實時收集網(wǎng)絡(luò)輿情數(shù)據(jù)，對其中的熱點話題數(shù)據(jù)進行分析研判，精確地發(fā)現(xiàn)引發(fā)輿情危機的節(jié)點，在短時間內(nèi)制定有針對性的處置策略，不給輿情危機發(fā)酵的時間和空間[1]。因此，若能對網(wǎng)絡(luò)熱點話題或事件進行搜索和分析，并總結(jié)出其中正面信息和負(fù)面信息的比例，進而對一些學(xué)生關(guān)注度高的問題及時進行解決以及疏導(dǎo)，這對于完善高校治理無疑是非常有用的。

在國內(nèi)，基于深度學(xué)習(xí)的文本情感分類研究起步較晚，但發(fā)展迅猛，目前已經(jīng)有很多研究成果涌現(xiàn)出來。劉龍飛等人[2]使用CNN方法對微博文本的情感進行研究，其中原始特征由字向量與詞向量同時構(gòu)成，在COAE2014上取得不錯的效果。劉智鵬等人[3]構(gòu)造與設(shè)計了CNN與RNN模型，并進行了有效的融合，利用各自對短文本的處理優(yōu)勢進行商品的評價分類，獲得了較好的文本情感識別性能。周錦峰等人[4]通過堆疊多個卷積層，提取不同窗口的局部語義特征以及基于全局最大池化層構(gòu)建分類模塊，獲得了較快的文本情感分類速度。蔡慶平等人[5]設(shè)計了基于Word2vec和CNN的產(chǎn)品評論細(xì)粒度情感分析模型，有效地發(fā)現(xiàn)用戶對產(chǎn)品特征的關(guān)注度和滿意度。

本文運用基于深度學(xué)習(xí)的情感分析技術(shù)手段，分析和研判網(wǎng)絡(luò)中高校熱點話題評論中所蘊含的情感傾向信息，并進行網(wǎng)絡(luò)輿情監(jiān)測。網(wǎng)絡(luò)輿情分析分為輿情信息采集、文本數(shù)據(jù)預(yù)處理、詞向量化、輿情數(shù)據(jù)學(xué)習(xí)及分析、輿情預(yù)警（結(jié)果可視化）五個步驟。首先利用網(wǎng)絡(luò)爬蟲技術(shù)完成數(shù)據(jù)的收集;接著對數(shù)據(jù)進行中文分詞、去停用詞操作，保留語句中的關(guān)鍵信息;再運用詞向量工具將詞轉(zhuǎn)換成詞向量，以便可以被卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)，通過網(wǎng)絡(luò)的學(xué)習(xí)，提取其中的特征，最終可被用于情感極向的分類，如圖1所示?？梢暬K則用于顯示分類結(jié)果，負(fù)面評論達到一定比例時，需要對相關(guān)問題進行疏導(dǎo)。

2.1? ?數(shù)據(jù)采集模塊

為了能夠快速地獲取最新的網(wǎng)絡(luò)輿情數(shù)據(jù)，本文利用分布式網(wǎng)絡(luò)爬蟲對指定網(wǎng)站進行數(shù)據(jù)爬取，簡單清洗之后，作為系統(tǒng)實驗數(shù)據(jù)來源。首先將數(shù)據(jù)收集任務(wù)分解成多個子任務(wù)，分配給多個爬蟲線程來共同完成;接著通過向網(wǎng)站的服務(wù)器發(fā)送請求，獲取網(wǎng)頁源代碼并進行數(shù)據(jù)清洗、去重去噪，將一些標(biāo)簽、CSS代碼內(nèi)容、空格字符、腳本標(biāo)簽等內(nèi)容處理掉，使冗余的網(wǎng)頁數(shù)據(jù)變得結(jié)構(gòu)清晰[6];最終將這些信息存儲為純文本數(shù)據(jù)，為接下來的數(shù)據(jù)處理和分析提供基礎(chǔ)。

2.2? ?數(shù)據(jù)預(yù)處理

通過網(wǎng)絡(luò)爬蟲獲取的純文本數(shù)據(jù)需要轉(zhuǎn)化為適合于表示和分類的干凈的詞序列。由于中文句子中的詞語之間沒有明確的分隔符且存在一定的噪音信息，因此在預(yù)處理階段要對句子進行分詞、去除停用詞等操作。

（1）分詞。中文分詞是文本處理的一個基礎(chǔ)步驟，由于中文句子不像英文句子那樣詞與詞之間有明顯的分隔符，因此需要利用中文分詞技術(shù)將詞語切分開。成熟的中文分詞算法能夠達到更好的自然語言處理效果，幫助計算機理解復(fù)雜的中文句子。本文采用基于詞典分詞的jieba分詞器，它運用有向無環(huán)圖的查找算法，通過動態(tài)規(guī)劃，從后至前使得詞的切割組合聯(lián)合概率最大。對于不在詞典里的詞再使用HMM算法來進行二次分詞，采用分詞中的序列標(biāo)注方法，使用模型識別詞每個位置的狀態(tài)值[7]。

（2）去停用詞。通過分詞可以把句子分出很多詞語，但是其中有些詞未包含實際含義，如“的”“了”“著”等，還有一些英文字符、數(shù)字、標(biāo)點符號等。這些詞普遍存在，又未包含具體含義，同時記錄它們需要較大的空間。本文根據(jù)網(wǎng)上現(xiàn)有資源，對“哈工大停用詞詞庫”“百度停用詞表”等多種停用詞表合并整理后，生成了一個共有1，598 個停用詞的停用詞表。在分詞過程中，判斷得到的每個中文詞是否是停用詞，如果是停用詞則直接刪除，以便降低特征的維度，提高關(guān)鍵詞密度。

2.3? ?文本的分布式表示

預(yù)處理后的文本是一種計算機無法直接處理的非結(jié)構(gòu)化數(shù)據(jù)，需要轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)——向量。本文采用Word2vec詞向量工具將文本轉(zhuǎn)換成詞向量，以便于網(wǎng)絡(luò)學(xué)習(xí)。Word2vec是MIKOLOV等人[8]提出來的一種文本分布式表示方法，由此詞嵌入的思想開始應(yīng)用到自然處理的領(lǐng)域。它是一款將詞表征為實數(shù)值向量的高效工具，背后的模型是CBOW或者Skip-gram，使用了Hierarchical Softmax或者Negative Sampling的優(yōu)化方法[9]。Word2vec能夠?qū)⒚總€詞映射成一個K維的實數(shù)向量，精確地度量詞與詞之間的關(guān)系，挖掘詞與詞之間的聯(lián)系。

本次實驗采用CBOW模型進行詞向量表示，通過輸入特征詞的上下文相關(guān)詞對應(yīng)的詞向量來預(yù)測輸出特征詞的詞向量。用CBOW模型訓(xùn)練詞向量，首先需要根據(jù)語料建立一張詞匯表，并給表中的每個詞語生成隨機的詞向量;然后將特定詞的上下文詞向量輸入CBOW，再由隱含層進行累加，到第三層中的哈夫曼樹，沿著特定的路徑到達葉子節(jié)點，從而完成對特定詞語的預(yù)測，訓(xùn)練結(jié)束后就可以從詞匯表中得到每一個詞語所對應(yīng)的詞向量。

2.4? ?深度學(xué)習(xí)情感分類模型

本文采用卷積神經(jīng)網(wǎng)絡(luò)模型來解決中文情感傾向分析問題，將由Word2vec轉(zhuǎn)化后的詞向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入;然后通過卷積層進行特征提取，再用最大池化法降低每條評論特征向量的維度;最后在全連接層由ReLU函數(shù)做出分類輸出，將評論信息分成積極和消極兩種。卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，由輸入層（Input Layer）、卷積層（Convolution Layer）、池化層（Pooling Layer）、全連接層（Fully Connected Layer）和輸出層（Output Layer）組成，其中卷積層和池化層是實現(xiàn)特征提取功能的核心模塊，結(jié)構(gòu)如圖2所示。

卷積層：在第一層卷積層中對輸入的詞向量矩陣進行卷積運算后，可以得到對應(yīng)的特征圖。卷積運算使原信號特征增強的同時，還可以降低噪音，提取輸入樣本中的不同特征。同時，一個卷積層中可以有多個不同的卷積核，每一個卷積核都對應(yīng)一個特征圖，如圖3所示。

池化層：經(jīng)過卷積運算后的特征矩陣尺寸往往比較大，運用池化（Pooling）操作可以減小卷積層產(chǎn)生的詞向量矩陣的維度，使得參數(shù)的數(shù)量和計算量下降。本實驗采用最大池化法來降維，將卷積運算后的特征矩陣劃分為若干個矩形區(qū)域，輸出每個子區(qū)域最大值，減小數(shù)據(jù)的空間大小，如圖4所示。通過降低特征矩陣的維度，使得特征表示對輸入詞向量的位置變化具有更好的穩(wěn)健性，還在一定程度上預(yù)防過擬合。

全連接層：它是整個卷積神經(jīng)網(wǎng)絡(luò)中的“分類器”。全連接層起到將學(xué)到的“分布式特征表示”映射到樣本標(biāo)記空間的作用，灰色的神經(jīng)元表示這個特征被找到了（激活了），得到的激活值即卷積神經(jīng)網(wǎng)絡(luò)提取到的特征，如圖5所示。

3? ?實驗與結(jié)果分析（Experiment and result analysis）

3.1? ?實驗數(shù)據(jù)來源

高校網(wǎng)絡(luò)輿情是建立在大眾網(wǎng)絡(luò)輿情基礎(chǔ)之上的，其主要內(nèi)容基本都是反映高校學(xué)習(xí)生活中的師生關(guān)系或者學(xué)習(xí)生活的一些典型事件。本文實驗所用到的數(shù)據(jù)均為使用爬蟲軟件，以“封閉式校園管理”“考研擴招”“直播授課”“曠課”“退學(xué)”“學(xué)術(shù)不端”“就業(yè)”等關(guān)鍵字在微博網(wǎng)站中爬取到的2020 年1—12 月的15，000 條相關(guān)評論文本數(shù)據(jù)，其中90%的數(shù)據(jù)作為訓(xùn)練集（train），10%的數(shù)據(jù)作為評估集（val）。

3.2? ?實驗結(jié)果分析

本文基于Keras構(gòu)建了用于進行文本的情感傾向分析的CNN網(wǎng)絡(luò)。網(wǎng)絡(luò)參數(shù)設(shè)置如表1所示。

使用CNN模型處理數(shù)據(jù)過程中，迭代10 次之后基本可以達到較好的效果，其收斂情況如圖6所示。通過模型在train/val

集上的準(zhǔn)確率（acc）、損失函數(shù)（loss）的計算，從而更新模型參數(shù)，減小優(yōu)化誤差（Optimization Error），即在損失函數(shù)與優(yōu)化算法的共同作用下，減小模型的經(jīng)驗風(fēng)險，同時對模型的效果進行度量。一般來說loss越小，表示網(wǎng)絡(luò)優(yōu)化程度越高，acc就會越高。

本文運用Word2vec+SVM和Word2vec+CNN這兩種分類方法對爬取到的高校相關(guān)輿情信息進行積極和消極類別的情感傾向分類。兩種算法均采取100 維詞向量，對它們的準(zhǔn)確率（Accuracy）、精確率（Precision）、召回率（Recall）、F1值（F1 Score）進行比較分析，找出比較優(yōu)異的分類方法，如表2所示。

通過使用同樣的輿情數(shù)據(jù)進行實驗，Word2vec+CNN模型與Word2vec+SVM模型相比，SVM在挖掘詞向量中隱藏的分類特征過程中，會損失詞與詞之間的語義信息;而CNN卻可以提取不同維度的特征，進而更好地挖掘出輿情語料詞向量中隱藏的特征信息。因此，Word2vec+CNN模型在準(zhǔn)確率、召回率和F1值上都比Word2vec+SVM方法具有更加良好的分類效果。

4? ?結(jié)論（Conclusion）

本文描述了基于Word2vec+CNN的情感傾向分類模型在校園輿情分析與監(jiān)測方面的應(yīng)用研究。在收集了2020 年校園熱點輿情數(shù)據(jù)，并進行良好的數(shù)據(jù)預(yù)處理的基礎(chǔ)上，運用Word2vec工具將網(wǎng)絡(luò)輿情文本數(shù)據(jù)轉(zhuǎn)化為詞向量，再分別使用CNN模型和SVM模型對詞向量進行情感傾向分類?？傮w來說，在本次分類任務(wù)中CNN模型獲得了比SVM模型更好的性能表現(xiàn)。

另外，在分類過程中還發(fā)現(xiàn)，文本特征的數(shù)量、數(shù)據(jù)標(biāo)注精確度對實驗的精度和時間也有一定的影響。然而，網(wǎng)絡(luò)輿情數(shù)據(jù)由于數(shù)據(jù)量大、雜亂無章且無標(biāo)簽，存在依賴人工標(biāo)注的成本高，效率低的問題。因此在未來工作中，應(yīng)在特征選擇上增加研究投入，同時結(jié)合無監(jiān)督數(shù)據(jù)的特征學(xué)習(xí)和半監(jiān)督學(xué)習(xí)自動標(biāo)注方法進行情感分類研究，以期能夠顯著提升分類研究的最終結(jié)果精度，精確挖掘網(wǎng)絡(luò)中的學(xué)生情緒動向，完善高校治理，對治理能力和治理體系現(xiàn)代化建設(shè)起到積極作用。

參考文獻（References）

[1] 孔曉虹.新媒體環(huán)境下高校應(yīng)對網(wǎng)絡(luò)輿情的探索[J].中國高等教育，2020（Z1）：67-68.

[2] 劉龍飛，楊亮，張紹武，等.基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J].中文信息學(xué)報，2015，29（6）：159-165.

[3] 劉智鵬，何中市，何偉東，等.基于深度學(xué)習(xí)的商品評價情感分析與研究[J].計算機與數(shù)字工程，2018，46（5）：921-927.

[4] 周錦峰，葉施仁，王暉.基于深度卷積神經(jīng)網(wǎng)絡(luò)模型的文本情感分類[J].計算機工程，2019，45（3）：300-308.

[5] 蔡慶平，馬海群.基于Word2Vec和CNN的產(chǎn)品評論細(xì)粒度情感分析模型[J].圖書情報工作，2020，64（6）：49-58.

[6] 朱琪.基于網(wǎng)絡(luò)爬蟲的輿情分析預(yù)警系統(tǒng)設(shè)計[J].電子設(shè)計工程，2020，28（22）：56-60.

[7] 祝永志，荊靜.基于Python語言的中文分詞技術(shù)的研究[J].通信技術(shù)，2019，52（7）：1612-1619.

[8] MIKOLOV T， SUTSKEVER I， KAI C， et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems， 2013（26）：3111-3119.

[9] 梁翼園.基于改進的Word2vec的評論情感傾向性分析[D].長沙：湖南大學(xué)，2019.

作者簡介：

黃? ?萍（1982-），女，碩士，講師.研究領(lǐng)域：人工智能，圖像處理，自然語言分析，計算機教育.

朱惠娟（1985-），女，碩士，副教授.研究領(lǐng)域：圖像處理，人工智能，虛擬現(xiàn)實.

陳琳琳（1981-），女，碩士，副教授.研究領(lǐng)域：人工智能，圖像處理，計算機教育.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學(xué)習(xí)的情感分類技術(shù)在高校輿情分析中的應(yīng)用研究