譚坤彥,楊孔雨
(北京信息科技大學(xué) 信息管理學(xué)院,北京 100192)
隨著人工智能技術(shù)的迅速發(fā)展和各類社交平臺的出現(xiàn),互聯(lián)網(wǎng)用戶可以隨時隨地在網(wǎng)絡(luò)平臺上傳播信息。大量的信息往往蘊(yùn)含著用戶的情感傾向,獲取這些信息中的情感傾向或觀點(diǎn)就是情感分析。對于決策制定者來說,可以理解民意,掌握輿論,判斷其走向。早期的情感分析主要基于情感詞典和傳統(tǒng)機(jī)器學(xué)習(xí),隨著機(jī)器學(xué)習(xí)技術(shù)的飛速進(jìn)步,深度學(xué)習(xí)方法已經(jīng)成為情感分析的主流。在Mikolov等人(2013)首先提出了Word2Vec 工具中的模型后,文本可以表示為詞向量矩陣,為引入各種神經(jīng)網(wǎng)絡(luò)模型打下了基礎(chǔ)?;谏窠?jīng)網(wǎng)絡(luò)的輿情情感分析研究具有重要的意義與價值,本文利用知識圖譜軟件CiteSpace,運(yùn)用文獻(xiàn)計(jì)量法,通過將結(jié)果可視化的方式,從發(fā)文量趨勢、作者、機(jī)構(gòu)、關(guān)鍵詞的多元角度進(jìn)行研究,分析國內(nèi)外結(jié)合神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行輿情情感分析的文獻(xiàn)發(fā)展動態(tài)、研究熱點(diǎn)、演變過程、前沿研究方向等,期寄能夠給相關(guān)領(lǐng)域的研究者帶來一定幫助。
CiteSpace 是基于Java 開發(fā)的一款信息可視化軟件,由美國Drexel University 計(jì)算機(jī)與情報學(xué)教授陳超美研發(fā),基于共引(co-citation)分析理論和尋徑(PathFinder)網(wǎng)絡(luò)算法等,對特定領(lǐng)域文獻(xiàn)計(jì)量,以探尋出學(xué)科領(lǐng)域演化的關(guān)鍵路徑及其知識轉(zhuǎn)折點(diǎn),并在相關(guān)領(lǐng)域中,查究到具有開創(chuàng)性、標(biāo)志性、關(guān)鍵性和相互關(guān)聯(lián)的文獻(xiàn),同時研究該領(lǐng)域的演變。
本文以CiteSpace 軟件為主,Excel 等工具為輔,國內(nèi)中文文獻(xiàn)來源于中國知網(wǎng)(CNKI),經(jīng)過人工進(jìn)行剔除和篩選后,得到2011~2021 年的877 篇樣本相關(guān)文獻(xiàn)。國外英文文獻(xiàn)來源于Web of Science(WOS)的核心合集數(shù)據(jù)庫,人工剔除圖書閱讀筆記、廣告等不相關(guān)內(nèi)容后,導(dǎo)入CiteSpace 進(jìn)行文獻(xiàn)去重,最終得到423 篇樣本相關(guān)英文文獻(xiàn)。
年度發(fā)文量變化趨勢圖能夠反映研究領(lǐng)域的總體情況,在時間維度上反映每年的不同發(fā)文量和活躍度。根據(jù)檢索獲得的中英文相關(guān)文獻(xiàn)繪制發(fā)文量趨勢圖,各年份不同變化如圖1 所示。國內(nèi)輿情情感分析結(jié)合神經(jīng)網(wǎng)絡(luò)技術(shù)開始于2011 年,此后發(fā)文量逐漸增加,于2020 年達(dá)到最高峰,2011~2015 年誕生階段結(jié)束、進(jìn)入發(fā)展階段,2017~2020 年發(fā)文量迅速增長,雖然2021 年發(fā)表中文文獻(xiàn)161 篇,數(shù)值有所回落,但仍持續(xù)受到關(guān)注。結(jié)合研究背景來看,情感分析的概念由Nasukawa 等人在2003 年最先提出,同年Bengio 等人提出了神經(jīng)網(wǎng)絡(luò)語言模型,國外相關(guān)文獻(xiàn)最早發(fā)表于2006 年,初期發(fā)展趨勢和國內(nèi)基本一致,2018 年結(jié)束快速上升期、進(jìn)入平緩發(fā)展階段,同樣也于2021 年發(fā)表Web of Science 核心合集81 篇,較上年發(fā)文量最高峰有所回落,相關(guān)理論研究也將更加完善。
圖1 發(fā)文量隨年份變化趨勢圖Fig.1 Variation trend of documents volume with years
通過作者合作共現(xiàn)圖譜可以分析該領(lǐng)域各個作者的重要性、中心性和合作關(guān)系。對CNKI 中文文獻(xiàn)作者進(jìn)行分析處理后,得到國內(nèi)作者共現(xiàn)圖譜如圖2所示。圖2 中,作者節(jié)點(diǎn)數(shù)為214,連線數(shù)為30,密度為0.001 3,連線代表有合作關(guān)系,線條粗細(xì)代表合作關(guān)系的密切程度。由此可見,各個作者之間的聯(lián)系和合作關(guān)系極為分散,多處于個人獨(dú)立研究狀態(tài),未能形成明顯的合作網(wǎng)絡(luò)圖譜,發(fā)文量最多的作者為張英、黃道英、范濤、王昊,發(fā)表文獻(xiàn)數(shù)均為3 篇。
圖2 國內(nèi)作者共現(xiàn)圖譜(節(jié)選)Fig.2 Co-occurrence graph of domestic authors(excerpt)
對WOS 核心合集進(jìn)行可視化共現(xiàn)圖譜分析,時間為2006~2021 年,作者節(jié)點(diǎn)數(shù)為247,連線數(shù)為162,密度為0.005 3,部分作者形成了小規(guī)模的合作網(wǎng)絡(luò),其中發(fā)文量最多的作者是Erik Cambria(10篇),匯聚成以其為核心的網(wǎng)狀合作圖譜。國外作者共現(xiàn)圖譜如圖3 所示。由圖3 可見,國外作者的節(jié)點(diǎn)和連線數(shù)都比國內(nèi)多,可知國外發(fā)文作者間的聯(lián)系與團(tuán)隊(duì)合作比國內(nèi)更加密切,說明國內(nèi)應(yīng)該加強(qiáng)作者間的共同合作關(guān)系。
圖3 國外作者共現(xiàn)圖譜(節(jié)選)Fig.3 Co-occurrence graph of foreign authors(excerpt)
為分析該研究領(lǐng)域中的研究力量分布,對CNKI中文文獻(xiàn)機(jī)構(gòu)進(jìn)行處理分析,得到國內(nèi)合作機(jī)構(gòu)共現(xiàn)圖譜如圖4 所示。網(wǎng)絡(luò)裁剪方法同作者分析,發(fā)文量前三的機(jī)構(gòu)分別為國家統(tǒng)計(jì)局8 篇、南京理工大學(xué)7 篇、南京大學(xué)信息管理學(xué)院6 篇,機(jī)構(gòu)與機(jī)構(gòu)間聯(lián)系較為分散,尚未建立明顯合作體系。
圖4 國內(nèi)機(jī)構(gòu)分布共現(xiàn)圖譜Fig.4 Co-occurrence graph of domestic institutions
對國外發(fā)文機(jī)構(gòu)可視化分析發(fā)現(xiàn),發(fā)文量前五的機(jī)構(gòu)分別是新加坡南洋理工大學(xué)(Nanyang Technological University)13 篇、中國科學(xué)院(Chinese Acad Sci)10 篇、北京航空航天大學(xué)(Beihang University)5 篇、哈爾濱工業(yè)大學(xué)(Harbin Institute of Technology)5 篇、清華大學(xué)(Tsinghua University)5篇,國外合作機(jī)構(gòu)共現(xiàn)圖譜如圖5 所示。
圖5 國外機(jī)構(gòu)分布共現(xiàn)圖譜Fig.5 Co-occurrence graph of foreign institutions
從國內(nèi)外研究機(jī)構(gòu)分析發(fā)現(xiàn),發(fā)文量最多的都是各地高校及學(xué)院、科研機(jī)構(gòu),對神經(jīng)網(wǎng)絡(luò)和網(wǎng)絡(luò)輿情情感分析做出了主要貢獻(xiàn),但是相互之間的合作仍然亟待加強(qiáng)。
關(guān)鍵詞是一篇文獻(xiàn)的核心和主題,CiteSpace 在使用關(guān)鍵詞共現(xiàn)分析的基礎(chǔ)上,使用對數(shù)似然比(Log-Likelihood Ratio,LLR)算法進(jìn)行聚類,中文文獻(xiàn)共生成14 個聚類,分別對每個類的主題進(jìn)行歸納總結(jié),前8 類見表1;英文文獻(xiàn)共生成9 個聚類,總結(jié)主題,選取7 類見表2。國內(nèi)外共同研究熱點(diǎn)有數(shù)據(jù)挖掘、深度學(xué)習(xí)、文本分類、情緒分析等,國外主要關(guān)注情緒傾向分析及預(yù)測,國內(nèi)更關(guān)注于輿情文本分析。同時,聚類不僅可以集中于驗(yàn)證研究熱點(diǎn),還能夠指出其在各種領(lǐng)域上的具體應(yīng)用,如表2 中聚類0 是電影預(yù)測領(lǐng)域的應(yīng)用,聚類6 是電動汽車評論領(lǐng)域的應(yīng)用,在研究計(jì)算機(jī)相關(guān)應(yīng)用熱點(diǎn)的時候,也要重視聚類關(guān)鍵詞在非計(jì)算機(jī)類領(lǐng)域的應(yīng)用。
表1 中文文獻(xiàn)聚類表Tab.1 Chinese literatures clustering table
表2 英文文獻(xiàn)聚類表Tab.2 English literatures clustering table
表1 中聚類#3 深度學(xué)習(xí)、#4 長短期記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)、#5 機(jī)器學(xué)習(xí)主要圍繞情感分析的技術(shù)展開。
早期的情感分析主要基于情感詞典(#6 號聚類),其關(guān)鍵是情感權(quán)重及情感計(jì)算規(guī)則。情感詞典最早由Whissell 于1998 年提出,王科等人(2016)將情感詞典自動構(gòu)建方法歸納為三大類:基于知識庫的方法、基于語料庫的方法和基于知識庫和語料庫相結(jié)合的方法。目前最常用的3 個中文開源情感詞典有HowNet、臺灣大學(xué)的NTUSD 和大連理工大學(xué)的詞匯本體庫,在此基礎(chǔ)上,陽愛民等人(2013)選用若干個情感種子詞,通過改進(jìn)的PMI(Pointwise Mutual Information)算法計(jì)算情感詞的情感權(quán)值,從而構(gòu)建出一種分類性能更加穩(wěn)定的情感詞典。陳國蘭(2016)通過與具體社交網(wǎng)絡(luò)(#7號聚類)結(jié)合,針對微博(#2 號聚類)文本的特點(diǎn),構(gòu)建了一個包括微博網(wǎng)絡(luò)新詞和表情符號的情感詞典,與傳統(tǒng)方法相比,判斷正、負(fù)面情感的準(zhǔn)確率更高。
隨著人工智能技術(shù)的發(fā)展,情感分析逐漸與機(jī)器學(xué)習(xí)(#5 號聚類)相結(jié)合。傳統(tǒng)機(jī)器學(xué)習(xí)大多是有監(jiān)督學(xué)習(xí),分類器主要有樸素貝葉斯(Naive Bayes,NB)和支持向量機(jī)(Support Vector Machine,SVM)等。
基于情感詞典和有監(jiān)督學(xué)習(xí)的情感分析人力資源消耗過多,效率低下。為了提高文本分類的準(zhǔn)確率,深度學(xué)習(xí)(#3 號聚類)通過構(gòu)建神經(jīng)網(wǎng)絡(luò)模型對文本進(jìn)行特征抽取和自動學(xué)習(xí)優(yōu)化模型輸出。#4 號聚類中包括“卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)”關(guān)鍵詞,利用卷積層,CNN可以學(xué)習(xí)局部特征。梁斌等人(2017)提出一種情感分類方法,通過結(jié)合3 種注意力機(jī)制來構(gòu)造多注意力卷積神經(jīng)網(wǎng)絡(luò)模型,準(zhǔn)確表示每一個詞在句子中的重要性。#3 號聚類中包括關(guān)鍵詞“循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networ,RNN)”,#4 號聚類還包含“LSTM”關(guān)鍵詞,LSTM 是一種特殊的RNN。梁軍等人(2015)提出了一種利用文本上下文信息、結(jié)構(gòu)化信息和情感語義信息的模型,來解決情感極性轉(zhuǎn)移問題。
國外的聚類還圍繞具體應(yīng)用領(lǐng)域展開研究,主要是#0 號聚類電影銷售和#6 號聚類電動汽車,#0號聚類主要包括關(guān)鍵詞預(yù)測、情感分析、口碑??诒怯捎薪?jīng)驗(yàn)的消費(fèi)者創(chuàng)造的有用且可信的信息,也就是用戶生成內(nèi)容(User-Generated Content,UGC)?;ヂ?lián)網(wǎng)技術(shù)的發(fā)展使人們能夠在網(wǎng)絡(luò)平臺上與他人分享、交換意見,通過在線渠道實(shí)時傳播評論信息等。電子口碑的早期研究傾向于只使用數(shù)量和評分,而不分析內(nèi)容的語法,不足以解釋在線交流的動態(tài)。在電子口碑中,情感應(yīng)該作為一個重要參數(shù),Liu(2006)分析了從雅虎電影的留言板上收集的40 部電影的評論,結(jié)果表明電影上映前的電子口碑對票房收入有顯著影響。Duan 等人研究電影銷售與在線評論和收視率之間關(guān)系,結(jié)果顯示2 個領(lǐng)域之間存在影響,但高的評價不能確保高的銷售額。Rui 等人(2013)分析電影的電子口碑,表明消費(fèi)者觀看電影的意愿受電子口碑影響很大。
#6 號聚類電動汽車包含關(guān)鍵詞social media(社交媒體)、review mining(評論挖掘)和deep learning(深度學(xué)習(xí))。公眾對電動汽車的看法和使用電動汽車的普遍意愿對推廣電動汽車起到了重要作用,XU 等人(2018)研究并確定了影響電動汽車接受和拒絕的因素。消費(fèi)者對電動汽車技術(shù)特征的態(tài)度和對電動汽車效用的看法是影響是否選用電動汽車重要因素。消費(fèi)者情緒和感受也會影響電動汽車的選擇,了解消費(fèi)者的情緒有助于改進(jìn)客戶關(guān)系管理(CRM),Jena(2020)通過情感分析,對電動汽車的情感進(jìn)行分類。幫助用戶獲得對各種產(chǎn)品功能的高層次的看法概述,并大幅縮短用戶閱讀和提取有關(guān)產(chǎn)品、服務(wù)意見的文本長度。
#8 號聚類多模態(tài)情緒分析包含的關(guān)鍵詞有:支持向量機(jī)、極限學(xué)習(xí)機(jī)、特征。情感分析中文本、聲音和視覺模式的融合最近引起了越來越多的關(guān)注,多模態(tài)情感分析通過分析在線視頻中的口語情態(tài)、聽覺情態(tài)和視覺情態(tài)三種模式,擴(kuò)展了傳統(tǒng)的文本情感分析。Chaturvedi 等人(2017)提出了一種基于貝葉斯網(wǎng)絡(luò)的ELM(Extreme Learning Machine),克服了傳統(tǒng)ELM 不能推廣到非線性數(shù)據(jù)集的缺點(diǎn)。
通過對該領(lǐng)域研究熱點(diǎn)的分析,得到關(guān)鍵詞聚類圖譜,節(jié)點(diǎn)與節(jié)點(diǎn)之間的連線顏色越淺代表出現(xiàn)得越晚。國內(nèi)關(guān)鍵詞聚類圖譜如圖6 所示。圖6 中共有347 個節(jié)點(diǎn),622 條連線,密度為0.010 4,值為0.631 5,值為0.874 4,國內(nèi)關(guān)鍵詞聚類圖譜如圖7 所示。圖7 中共有173 個節(jié)點(diǎn),454 條連線,密度為0.030 5,值為0.886 6,值為0.757 2。模塊值(Modularity)用于評價聚類的有效性,平均輪廓值(Mean Silhouette)用于衡量聚類的同質(zhì)性。當(dāng)0.3 且0.5 時認(rèn)為該聚類模塊性顯著、合理。
圖6 國內(nèi)關(guān)鍵詞聚類圖譜Fig.6 Domestic keywords clustering map
圖7 國外關(guān)鍵詞聚類圖譜Fig.7 Foreign keywords clustering map
中文文獻(xiàn)關(guān)鍵詞聚類后按詞頻排序前13 位見表3,高頻關(guān)鍵詞代表了該領(lǐng)域研究的相關(guān)熱點(diǎn),關(guān)鍵詞出現(xiàn)的頻率越高,說明領(lǐng)域越熱;關(guān)鍵詞與其他關(guān)鍵詞之間的聯(lián)系越多,說明中心度越大。中文關(guān)鍵詞聚類詞頻表見表3,通過分析可以看出,國內(nèi)詞頻出現(xiàn)較高的關(guān)鍵詞為“情感分析”、“深度學(xué)習(xí)”、“情感分類”、“詞向量”、“神經(jīng)網(wǎng)絡(luò)”和“機(jī)器學(xué)習(xí)”。
表3 中文關(guān)鍵詞詞頻表Tab.3 Chinese keywords frequency table
英文高頻關(guān)鍵詞,見表4,國外詞頻出現(xiàn)較高的關(guān)鍵詞為“classification(分類)”、“sentiment analysis(情感分析)”、“LSTM(長短期記憶網(wǎng)絡(luò))”、“neural network(神經(jīng)網(wǎng)絡(luò))”、“CNN(卷積神經(jīng)網(wǎng)絡(luò))”和“model(模型)”。國內(nèi)的研究熱點(diǎn)和國外也存在差異,國內(nèi)更重視輿情中文文本的自然語言處理和中文文本分類方面,國外更重視神經(jīng)網(wǎng)絡(luò)模型的研究和具體領(lǐng)域的應(yīng)用。
表4 英文關(guān)鍵詞詞頻表Tab.4 English keywords frequency table
在CiteSpace 中對數(shù)據(jù)樣本進(jìn)行分析處理后,得到國內(nèi)外時間線圖譜如圖8 和圖9 所示,展現(xiàn)聚類關(guān)鍵詞之間的關(guān)系,以及熱點(diǎn)關(guān)鍵詞隨著時間變化的研究歷程和前沿趨勢。每個點(diǎn)對應(yīng)的是關(guān)鍵詞首次出現(xiàn)的年份,圓圈越大表示詞頻越大,連線表示2個關(guān)鍵詞在同一篇文章中出現(xiàn)。連線數(shù)量多且密集,說明研究集中程度較好。
通過對圖8 分析可得,國內(nèi)基于神經(jīng)網(wǎng)絡(luò)的輿情情感分析研究熱點(diǎn)從2011 年出現(xiàn),2011~2012 年處于起始狀態(tài),研究熱點(diǎn)為“語義理解文本傾向”、“觀點(diǎn)挖掘”和“情感分類”。2013 年對情感分類進(jìn)行進(jìn)一步探討,在情感分析的基礎(chǔ)上,逐漸傳承。2014 年開始結(jié)合機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò),研究熱點(diǎn)為“詞向量”、“情感詞典”、“文本分類”、“深度學(xué)習(xí)”等。隨著深度學(xué)習(xí)的研究不斷發(fā)展完善,2015~2018 年,LSTM、門控循環(huán)單元(Gated Recurrent Unit,GRU)、CNN 等神經(jīng)網(wǎng)絡(luò)模型逐漸成為了熱點(diǎn)研究對象,社交網(wǎng)絡(luò)媒體逐漸成為研究輿情分析的平臺。隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,2019 年又出現(xiàn)了以“BERT”(Bidirectional Encoder Representation from Transformers)、“詞嵌入”、“膠囊網(wǎng)絡(luò)”為首的研究熱點(diǎn)。
圖8 國內(nèi)關(guān)鍵詞時間線圖譜Fig.8 Domestic keywords timeline map
國外雖然節(jié)點(diǎn)數(shù)量少于國內(nèi),但連線比國內(nèi)更加密集,聯(lián)系更加密切,如圖9 所示。研究熱點(diǎn)從2010 年“RFM”(Recency,F(xiàn)requency,Monetary)模型起步,2011 年的“神經(jīng)網(wǎng)絡(luò)”開始發(fā)展,2014~2015 年的研究熱點(diǎn)為“模型”、“算法”、“詞典”、“分類”。2016 年后在“情感分析”的基礎(chǔ)上,出現(xiàn)了更加細(xì)化的多元分類,如“特征”、“LSTM”、“CNN”、“框架”?!癇ERT”熱點(diǎn)稍晚于國內(nèi)一年。
圖9 國外關(guān)鍵詞時間線圖譜Fig.9 Foreign keywords timeline map
通過CiteSpace 的Burstness(突現(xiàn))功能進(jìn)行突現(xiàn)詞分析,突現(xiàn)詞代表了不同時期開始的研究熱點(diǎn),得到領(lǐng)域關(guān)鍵詞的起始爆發(fā)時間、結(jié)束時間和強(qiáng)度等,選擇前13 個關(guān)鍵詞展示如圖10、圖11 所示。圖10、圖11 中,Year 代表原文發(fā)表年份,Begin 代表Burst 的開始年份,End 代表結(jié)束年份,Strength 代表突現(xiàn)強(qiáng)度,用來表示該領(lǐng)域在某些年份的文獻(xiàn)中突現(xiàn)詞的劇烈程度。由圖10 可見,在國內(nèi),“機(jī)器學(xué)習(xí)”、“文本挖掘”和“中文微博”突現(xiàn)詞出現(xiàn)在2016年,“深度學(xué)習(xí)”、“LSTM”、“記憶網(wǎng)絡(luò)”、“細(xì)粒度”、“詞嵌入”出現(xiàn)在2017~2019 年,“深度學(xué)習(xí)”和“LSTM”在這3 年中的強(qiáng)度值最大,機(jī)器學(xué)習(xí)的持續(xù)發(fā)展為輿情情感分析奠定了基礎(chǔ),情感分析進(jìn)一步與神經(jīng)網(wǎng)絡(luò)技術(shù)結(jié)合。隨著深度學(xué)習(xí)研究的日趨深入與發(fā)展,2020~2021 年出現(xiàn)的關(guān)鍵詞“特征融合”、“BERT”、“輿情分析”、“銷量預(yù)測”,可見研究人員已經(jīng)將深度學(xué)習(xí)運(yùn)用于輿情情感分析中,并且使用神經(jīng)網(wǎng)絡(luò)模型對銷量進(jìn)行預(yù)測。國內(nèi)外既有聯(lián)系,又有區(qū)別。由圖11 可知,在國外,早期突現(xiàn)詞主要由2013 開始突現(xiàn)的“支持向量機(jī)”、2016 開始突現(xiàn)的“卷積神經(jīng)網(wǎng)絡(luò)”和“情感分析”組成,隨著人工智能的發(fā)展,在2018 年又出現(xiàn)了“主觀性”、“社交媒體”和2019 年出現(xiàn)的“網(wǎng)絡(luò)”、“模型集成”等新突現(xiàn)詞,其中突現(xiàn)強(qiáng)度最高的是卷積神經(jīng)網(wǎng)絡(luò)。
圖10 國內(nèi)突現(xiàn)強(qiáng)度前13 的突現(xiàn)詞Fig.10 Domestic top 13 keywords with the Strongest Citation Bursts
圖11 國外突現(xiàn)強(qiáng)度前13 的突現(xiàn)詞Fig.11 Foreign top 13 keywords with the Strongest Citation Bursts
對突現(xiàn)詞進(jìn)行研究分析,總結(jié)現(xiàn)階段國內(nèi)結(jié)合神經(jīng)網(wǎng)絡(luò)的輿情情感分析技術(shù)研究的前沿方向主要有:
(1)實(shí)現(xiàn)預(yù)訓(xùn)練模型的突破,如BERT、ALBERT(A Lite BERT)、XLNET、ELMo(Embeddings from Language Models)等模型。目前在輿情情感分析領(lǐng)域有許多經(jīng)典的深度學(xué)習(xí)模型,Devlin 等人提出的BERT 模型,能夠根據(jù)指定目標(biāo),捕捉到文本中相對應(yīng)的情感信息,更加具有靈活性。BERT 模型可以動態(tài)獲取各種語境下的詞語表達(dá)向量,通過上下文信息充分解決詞語多義性問題。由圖6 看出BERT 的強(qiáng)度值位于所有年份中第二名,處于發(fā)展?fàn)顟B(tài)中。史振杰等人(2020)提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的BERT-CNN 模型,該網(wǎng)絡(luò)模型在用BERT 表示詞向量語義信息的基礎(chǔ)上,使用CNN 提取文本特征,實(shí)現(xiàn)了對文本信息語義的深層理解。由于BERT 模型參數(shù)量較大、復(fù)雜度高等問題,Lan等人(2019)對BERT 模型進(jìn)行改進(jìn),提出了ALBERT 模型。房京珂(2021)將ALBERT 模型與2 種雙向遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合,全面提取模型中的語義信息,使其更加適合輿情情感分析。梁淑蓉(2021)提出一種融合情感詞典的XLNet 預(yù)訓(xùn)練模型和一種基于LSTM+Attention 網(wǎng)絡(luò)層的XLNet預(yù)訓(xùn)練模型,前一種模型可以根據(jù)不同的上下文語言環(huán)境計(jì)算詞向量,精準(zhǔn)提高了情感傾向,解決情感詞典構(gòu)建數(shù)量和收錄新詞工作量的問題,后一種模型在一定程度上解決了中文文本的語義問題。李錚等人(2021)提出一種基于ELMo 和雙向自注意力網(wǎng)絡(luò)(Bidirectional Self-Attention Network,Bi-SAN)的中文文本情感分析模型,利用ELMo 模型抽取詞向量,更好地表示了中文文本的一詞多義性,提高了情感分類的準(zhǔn)確性。未來,還能夠通過增加計(jì)算機(jī)基礎(chǔ)硬件算力,更廣泛地使用其他模型,后續(xù)對最新模型的研究將會逐漸成為熱點(diǎn)。
(2)特征融合表示方法的探索。多特征融合向量可以從短文本中充分學(xué)習(xí)詞性特征信息和位置特征信息。韓普(2021)等人將詞性特征向量和位置特征向量進(jìn)行融合,一方面可以充分地學(xué)習(xí)特征間的語義關(guān)系,另一方面也可以有效地利用詞性信息和位置信息,提升情感分析模型的效果。郭可心等人(2021)從多個不同角度挖掘圖文之間的情感共現(xiàn),增強(qiáng)了神經(jīng)網(wǎng)絡(luò)模型捕捉情感語義的能力。祁瑞華等人(2020)融合BERT 詞向量和跨領(lǐng)域詞向量生成跨領(lǐng)域統(tǒng)一特征空間,提高了情感分類的準(zhǔn)確率。目前,在圖文融合方面還存在許多問題,如數(shù)據(jù)集規(guī)模較小、情感數(shù)據(jù)集的建立困難、不同模型特征獲取不一致、媒體數(shù)據(jù)類型單調(diào)、模型實(shí)驗(yàn)效果一般、準(zhǔn)確率低、未考慮更多信息。在今后的研究中,進(jìn)行情感分析的同時融入圖文關(guān)系分析,是一個重要的研究方向。
(3)詞嵌入層的設(shè)計(jì)。詞嵌入已經(jīng)成為各任務(wù)模型在預(yù)處理階段的事實(shí)標(biāo)準(zhǔn)。目前,詞嵌入方法是利用較長的上下文,通過神經(jīng)網(wǎng)絡(luò)模型來解決自然語言問題。韓旭麗等人(2019)提出了一種詞嵌入輔助機(jī)制的注意力神經(jīng)網(wǎng)絡(luò)模型,該模型在原本詞嵌入層的基礎(chǔ)上加入輔助層,用來提取詞向量的特征表示,降低了模型訓(xùn)練的復(fù)雜性和訓(xùn)練時間。趙亞歐等人(2020)提出一種基于語言模型的詞嵌入的情感分析模型,將獲取的詞語向量作為網(wǎng)絡(luò)輸入,融合了詞語本身的語義特征及其所在的上下文語義,可以很好地表示一詞多義性。目前,基于大規(guī)模語料的預(yù)訓(xùn)練模型是最熱門的研究方向,新型詞嵌入越來越通用,語義功能越來越強(qiáng)大。
本文通過CiteSpace、Excel 等軟件,以中國知網(wǎng)和WoS 核心合集文獻(xiàn)為研究對象,采用文獻(xiàn)計(jì)量和可視化知識圖譜的方法,對神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情情感分析進(jìn)行了研究。通過發(fā)文量趨勢分析、作者共現(xiàn)分析、研究機(jī)構(gòu)共現(xiàn)分析、關(guān)鍵詞聚類分析、關(guān)鍵詞時間線圖譜分析和關(guān)鍵詞突現(xiàn)分析,研究了該領(lǐng)域的熱點(diǎn)主題和前沿趨勢。得出如下結(jié)論:
(1)從基于神經(jīng)網(wǎng)絡(luò)的輿情情感分析領(lǐng)域的發(fā)文量年度趨勢來看,國內(nèi)發(fā)表第一篇相關(guān)文獻(xiàn)的起始時間比國外晚,雖然增長速度快,但卻存在著一些問題,比如作者及機(jī)構(gòu)間相互合作較少、學(xué)術(shù)交流不足,以及研究主題較集中,缺少領(lǐng)軍人物等問題,國內(nèi)研究成果主要由世界各地的大學(xué)和科研機(jī)構(gòu)推廣,應(yīng)該加強(qiáng)作者或機(jī)構(gòu)間的合作與溝通,共同發(fā)展。
(2)通過研究熱點(diǎn)和研究前沿對比分析,國內(nèi)外共同研究熱點(diǎn)主題為“情感分類”、“LSTM”、“深度學(xué)習(xí)”、“神經(jīng)網(wǎng)絡(luò)”等,但國內(nèi)外側(cè)重點(diǎn)存在著差異,國內(nèi)文獻(xiàn)更重視文本的語義表達(dá)和文本情感分類方面,國外則更重視情感分析模型的應(yīng)用及預(yù)測,更加具有實(shí)用性。
(3)國內(nèi)研究前沿趨勢主要為網(wǎng)絡(luò)輿情情感分析的特征融合表示方法、預(yù)訓(xùn)練模型的探索和詞嵌入層的設(shè)計(jì)。
本文分析對比了國內(nèi)外神經(jīng)網(wǎng)絡(luò)和輿情情感分析研究的演變脈絡(luò),對進(jìn)一步研究國內(nèi)外概況,預(yù)測未來發(fā)展趨勢具有現(xiàn)實(shí)意義。由于CiteSpace 軟件的限制,并未收集所有英文期刊等文獻(xiàn),也未獲取重要會議記錄等數(shù)據(jù),本文內(nèi)容不能完整描述該領(lǐng)域的研究現(xiàn)狀。CiteSpace 軟件中具有更多功能可以分析WoS 核心合集中的文獻(xiàn),本文也并未全部運(yùn)用,在后續(xù)的工作中擬做更進(jìn)一步的研究完善。