国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義情感分析的網(wǎng)絡熱點爬蟲輿情分析系統(tǒng)

2020-10-09 11:01田煜
軟件 2020年8期

摘 ?要: 網(wǎng)絡熱點作為在互聯(lián)網(wǎng)上短期爆發(fā)、形成一定公眾關注和討論的社會事件,公眾情感分析是進行測度輿情話題的有效手段。本文以某網(wǎng)絡熱點事件為例,使用Scrapy框架收集微博評論數(shù)據(jù)并保存至本地,利用jieba中文分詞工具分別以TF-IDF和TextRank兩種算法對文本數(shù)據(jù)進行處理并且對實驗結果進行比較,利用SnowNLP類庫進行情感分析,借助NLPIR分詞系統(tǒng)進行依存句法分析與可視化,最后利用Wordcloud庫生成詞云以快速直觀的獲取主要信息,展現(xiàn)了熱點話題事件中公眾對于輿論的態(tài)度。本文為有效控制和應對網(wǎng)絡熱點事件、從不同維度處理分析事件和增強網(wǎng)絡熱點事件輿情管控等工作提供技術支撐。

關鍵詞: 網(wǎng)絡數(shù)據(jù)獲取;輿情分析;語義情感;網(wǎng)絡熱點

中圖分類號: TP391.1 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.08.026

本文著錄格式:田煜. 基于語義情感分析的網(wǎng)絡熱點爬蟲輿情分析系統(tǒng)[J]. 軟件,2020,41(08):89-93

【Abstract】: Network hot spots as a short-term burst on the Internet, become a public concern and discussion of the media. Public sentiment analysis is an effective method to measure public option topics. This paper takes an example to crawl weibo comments and save the data to the local collection thorough Pythons Scrapy crawler framework. Jieba Chinese word segmentation tools was used to process the text data with two algorithm, TF-IDF and TextRank, and the experimental results were compared. Then SnowNLP classlib was used for sentiment analysis, and NLPIR word segmentation system carried out dependency syntax analysis and visualization. Finally, wordcloud library was used to generate word clouds to get the main information quickly and directly, which shows the public's attitude towards public opinion in hot topic events. This paper provides technical support for effectively controlling and responding to network hot events, dealing with and analyzing events from different dimensions, and strengthening public opinion control of network hot events.

【Key words】: Network data acquisition; Public opinion analysis; Semantic emotion; Network hot spots

0 ?引言

中國互聯(lián)網(wǎng)絡信息中心(CNNIC)在2019年8月發(fā)布了第44次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》,報告顯示,截止2019年6月,我國網(wǎng)民規(guī)模達8.54億,較2018年底提升1.6%,其中手機網(wǎng)民所占的比例為99.1%,達8.47億。微博是一種基于用戶關系信息分享、傳播以及獲取的通過關注機制分享簡短實時信息的廣播式的社交網(wǎng)絡平臺。據(jù)微博發(fā)布的2019年第四季度及未經(jīng)審計的財務報告顯示,微博月活躍用戶達到5.16億。微博以其自身信息傳播的快捷性和信息量的海量性、互動的及時性和共享性等原因,日益成為網(wǎng)絡輿論發(fā)生群體極化現(xiàn)象的重要平臺[1]。大數(shù)據(jù)時代的來臨使得以微博為代表的自媒體取代傳統(tǒng)媒體成為輿論的重要產生地[2]。網(wǎng)民通過發(fā)表言論所體現(xiàn)出的態(tài)度,呈現(xiàn)出一定的情感傾向,網(wǎng)民的情感表達和動員能力成為推動輿情發(fā)展演變的重要力量[3]。

依靠移動互聯(lián)網(wǎng)組織起來的粉絲圈,不僅在演藝界存在影響,更是影響著整個社會文化環(huán)境,此種現(xiàn)象逐漸成為引發(fā)爭議的焦點。在明星的影響力方面,微博是輿情導向的主戰(zhàn)場。明星的言論會給粉絲以及其他普通網(wǎng)民群體的不同方面的影響,但粉絲群體行為極端化傾向明顯,容易給網(wǎng)絡環(huán)境造成消極影響。所以做好網(wǎng)絡熱點輿情分析至關重要。

本文主要分為數(shù)據(jù)采集與預處理、文本分類、情感分析與可視化、以某網(wǎng)絡熱點事件為例的輿情分析四個部分:第一節(jié)介紹了數(shù)據(jù)采集與預處理,利用基于Python的Scrapy框架實現(xiàn)網(wǎng)絡爬蟲爬取微博評論數(shù)據(jù)并保存至本地;第二節(jié)介紹了文本分類,采用TF-IDF方法和TextRank方法并且進行了結果的比較;第三節(jié)介紹了情感分析與可視化,利用SnowNLP庫和NLPIR工具分別進行情感分析和依存句法分析,利用基于Python語言的Wordcloud庫生成詞云;第四節(jié)將上述方法用在以某網(wǎng)絡熱點事件為例的網(wǎng)絡熱點輿情分析系統(tǒng)中。對于熱點事件的輿情預測預警、研判以及監(jiān)管的系統(tǒng)自動化實現(xiàn)具有一定的參考價值,實現(xiàn)對微博輿情監(jiān)管分析,為有效應對網(wǎng)絡熱點事件,從不同維度不同尺度分析處理事件,給網(wǎng)絡熱點輿情管控等工作提供技術支撐。本文所設計的輿情分析系統(tǒng)框架圖如圖1所示。

1 ?數(shù)據(jù)采集與預處理

1.1 ?數(shù)據(jù)采集

數(shù)據(jù)采集的主要工作是從網(wǎng)絡數(shù)據(jù)系統(tǒng)中采集數(shù)據(jù)。采集數(shù)據(jù)則主要是通過讀取器實現(xiàn)。讀取器通過封裝實現(xiàn)與互聯(lián)網(wǎng)數(shù)據(jù)系統(tǒng)簡捷便宜的連接,然后負責讀取外部數(shù)據(jù)源并將外部數(shù)據(jù)轉化成通用格式的數(shù)據(jù)[4]。

對新浪微博網(wǎng)站爬取的過程可以考慮兩種方式:采用微博開放平臺API接口獲取數(shù)據(jù)或者使用編寫的爬蟲進行數(shù)據(jù)的爬取。由于微博開放平臺API對于數(shù)據(jù)有訪問次數(shù)的限制,所以制定合適的爬取策略十分重要。本文采用Scrapy開源框架進行數(shù)據(jù)獲取。

Scrapy框架是一個基于Twsited的異步處理框架,是通過Python實現(xiàn)的爬蟲框架,架構清晰,模塊之間的耦合程度相對較低,而且可擴展性也比較強,能夠給靈活完成各種需求[5]。Scrapy的組成框架如圖2所示。

爬蟲Spider的工作流程:首先解析第一個URL,獲取它的請求,在其返回時檢索回調函數(shù);之后再回調函數(shù)中,對解析網(wǎng)頁進行響應,返回項目對象和請求對象的迭代,請求中還將包含一個回調信息,由Scrapy下載;然后對其進行回調處理,在回調函數(shù)中,對網(wǎng)站內容進行解析,使用Xpath選擇器生成解析后的數(shù)據(jù)項;最后,從爬蟲返回的信息通常都進入到項目管道中[6]。

在對于微博網(wǎng)站爬取過程中,會出現(xiàn)驗證身份的信息。常用的方法主要有:提交表單、帶著Cookie進行請求,通過直接獲得Ajax動態(tài)加載的數(shù)據(jù)接口進行數(shù)據(jù)提取,以及遠程文檔保存等[7]。本文所需數(shù)據(jù)量為一個月內,相較于超大數(shù)據(jù)挖掘,對于用戶登錄的需求并不明顯,所以采用的是帶Cookie的請求。

1.2 ?數(shù)據(jù)預處理

數(shù)據(jù)的預處理主要是對原始數(shù)據(jù)的清洗、抽取元數(shù)據(jù),對于網(wǎng)絡的文本信息預處理主要是文本的分詞、去停用詞(主要是一些標點、單字和一些沒有具體意義的詞,如:的、了等重復出現(xiàn)的詞)、文本特征向量提取、詞頻統(tǒng)計、文本的模型化表示等操作[8]。不同的預處理方法會導致不同的分類性能[9]。數(shù)據(jù)預處理的主要目的在于:識別以及去除嚴重影響分析的言論以及對于輿情發(fā)展無用的言論,確保數(shù)據(jù)分析的效率和準確性。由于某些主流媒體導向性言論可能會對評論造成一定影響,對輿論本身正面和負面的明顯態(tài)度對立嚴重,且時間間隔短導致的評論爬取數(shù)量少,為避免出現(xiàn)較大的判斷誤差另外,還需要取出無意義的詞語比如語氣助詞,這樣可以在避免出現(xiàn)較大誤差的同時減少一部分運算量。

在網(wǎng)絡熱點事件分析中,數(shù)據(jù)預處理最主要的步驟是數(shù)據(jù)清洗。首先查找缺失值,在獲取到第一份原始數(shù)據(jù)時,需要檢查數(shù)據(jù)的完整性。對數(shù)據(jù)缺失值的查找和計算相應的比例利用Python實現(xiàn)。對于缺失值的處理有兩種方式:直接將缺失值所在的行或者列刪除;用其他數(shù)據(jù)的平均值,眾數(shù),或者上下值來填充這個數(shù)據(jù)表格中的缺失值??梢岳没赑ython語言的Pandas工具進行數(shù)據(jù)清洗。Pandas是Python的一個數(shù)據(jù)分析包,提供強大的類庫,通過清洗數(shù)據(jù)最后得到清晰明了的數(shù)據(jù)。Pandas有三種數(shù)據(jù)結構形式,分別是Series、DataFrame和索引對象,其中DataFrame是最常見的Pandas對象,它是一種表格型數(shù)據(jù)結構,類似于Excel,每一個值都有一個行索引和一個列索引,不同列的數(shù)據(jù)類型可以不一樣。將爬取的網(wǎng)絡熱點事件評論數(shù)據(jù)Excel或者csv表格導入并轉換為DataFrame對象,進行相關的操作,比如處理缺失數(shù)據(jù)、刪除不完整行等。

2 ?文本分類

在文本分類階段采用TF-IDF算法。TF-IDF是Term Frequency- inverse Document Frequency的縮寫,它作為一種簡單有效的詞加權方法,在信息檢索和數(shù)據(jù)挖掘領域得到了廣泛的應用。若一個詞條頻繁出現(xiàn)于一個類的文檔內,那么表示此詞條可很好體現(xiàn)這個類的文本屬性,對于此類詞條,應賦予其較高權重,同時可將其當作此類文本的特征詞,用來和其他類文檔作鑒別[10]。

其中,d為阻尼系數(shù),取值范圍為0到1,代表從圖中某一特定點指向其他任意點的概率,一般取值為0.85。使用TextRank算法計算圖中各點的得分時,需要給圖中的點指定任意的初值,并遞歸計算直到收斂,即圖中任意一點的誤差率小于給定的極限值時就可以達到收斂,一般該極限值取0.0001。

TF-IDF方法與TextRank方法各有優(yōu)劣,體現(xiàn)在兩個方面:從依賴語料方面,TF-IDF的IDF值依賴于語料環(huán)境,這給他帶來了統(tǒng)計上的優(yōu)勢,即它能夠預先知道一個詞的重要程度,這是它優(yōu)于TextRank的地方,而TextRank算法認為每個詞的重要程度是一樣的。從詞語的互相關聯(lián)性,TF-IDF是純粹用詞頻的思想來計算一個詞的得分最終提取關鍵詞,而TextRank用到了詞之間的關聯(lián)性。分析網(wǎng)絡熱點事件需要將這兩種算法結合起來,詞頻是重要的一方面,同時詞之間的關聯(lián)性也是需要考慮的方面。

3 ?情感分析與可視化

文本情感分析(也稱意見挖掘)是指用自然語言處理、文本挖掘以及計算機語言學等方法來識別和提取原素材中的主觀信息。文本情感分析是自然語言處理領域的一個重要的研究課題,也是網(wǎng)絡監(jiān)控領域的一個重要課題[12]。

從自然語言處理技術的角度來看,情感分析的任務是從評論的文本中提取出評論的實體,以及評論者對該實體所表達的情感傾向,情感分析在數(shù)據(jù)挖掘、web挖掘、文本挖掘和信息檢索方面有廣泛額研究。本文將對提取出的數(shù)據(jù)做出一分為二的極性分析:即“正向情感”和“反向情感”。

由于當前自然語言處理庫基本都是針對英文的,而中文沒有空格分割特征詞,Python做中文文本挖掘較難,后續(xù)開發(fā)了一些針對中文處理的庫,例如SnowNLP、jieba、BosonNLP等。SnowNLP是一個常用的Python文本分析庫,是受到TextBlob啟發(fā)而發(fā)明的。SnowNLP的基本模型是貝葉斯模型(Bayes),貝葉斯模型的訓練過程實質上是在統(tǒng)計每一個特征出現(xiàn)的頻次。

4 ?以某網(wǎng)絡熱點事件為例的輿情分析

4.1 ?數(shù)據(jù)采集流程

微博網(wǎng)站分為移動端和網(wǎng)頁版,主要爬取移動版,域名為https://m.weibo.cn/。考慮到遇到crontab定時爬取時,帶有一個cookie需要不定期更換,本文在采集時,先用requests庫請求請求登錄地址得到response對象后,調用cookie()方法得到的cookie請求url鏈接。

4.2 ?文本分類

jieba分詞工具是基于python的第三方中文分詞組件,用于自然語言處理,支持三種分詞模式:精確模式、全模式、搜索引擎模式。jieba庫中已經(jīng)對TF-IDF進行了實現(xiàn),并預先統(tǒng)計出了漢語中每個詞的逆文檔頻率。其分詞算法總體是:使用基于前綴詞典的詞圖掃描,生成所有可能生成詞所構成的有向無環(huán)圖,再采用動態(tài)規(guī)劃查找最大概率路徑,找到基于詞頻的最大切分組合;對于未登錄詞,采用基于漢字成詞能力的HMM模型(使用Viterbi算法)來預測分詞[13]。

用jieba庫進行詞頻統(tǒng)計,如圖3所示。

再分別用analyse.extract_tage(text)和analyse.tex-trank(text)方法提取出兩組不同的關鍵詞。本文列出兩種方法提取前20個關鍵詞的結果和結合結果,如下表所示。

TF-IDF注重詞頻,詞頻和IDF的乘積越大越關鍵,TextRank注重詞語之間的關聯(lián),和別的詞關聯(lián)性越大的詞越重要。TextRank算法雖然考慮到了詞之間的關系,但是仍然傾向于將頻繁詞作為關鍵詞,由于涉及到構建詞圖及迭代計算,所以提取速度較慢。在網(wǎng)絡輿情分析的場景下,更加注重結果的時效性和運算的效率。因此,在網(wǎng)絡熱點輿情分析上,TF-IDF算法更切合輿論范圍。

4.3 ?情感分析與數(shù)據(jù)可視化

可視化圖表是輿情分析的最重要的手段,能夠將數(shù)據(jù)信息直觀的展示出來,對數(shù)據(jù)的深度挖掘和信息直觀感受起到至關重要的作用,將雜亂無章的數(shù)據(jù)進行可視化展示,能夠更直觀的反映數(shù)據(jù)間的關系,更好地了解數(shù)據(jù)間的比例關系及變化趨勢,對研究對象做出合理的推斷和預測[14]。

本文的情感分析利用基于Python語言的Snow-NLP類庫進行情感傾向分析,借助NLPIR大數(shù)據(jù)搜索與挖掘共享平臺進行依存句法分析,將分析結果以可視化圖的方式展現(xiàn)。NLPIR漢語分詞系統(tǒng)是由中科院張華平團隊開發(fā),支持多種編碼、多種操作系統(tǒng)、多種開發(fā)語言的平臺,其主要功能包括中英文分詞、關鍵詞提取、新詞識別與自適應分詞、情感分析等[15]。

4.3.1 ?情感分析

相關資料顯示SnowNLP類庫在購物類的評論的準確率較高,所以在進行情感分析前替換其自帶語料庫為網(wǎng)絡熱點所在領域的相關語料庫。在網(wǎng)絡熱點輿論事件情感分析中,需要將數(shù)據(jù)訓練情感分析的模型。準備正負樣本,并分別保存,利用SnowNLP訓練新的模型,保存新模型。在其核心代碼中,classify函數(shù)和train函數(shù)是兩個核心的函數(shù)。其中,train函數(shù)用于訓練一個情感分類器,classify函數(shù)用于預測。這兩個函數(shù)同時使用到了handle函數(shù),handle函數(shù)的主要工作為:對輸入文本分詞和去掉停用詞。在SnowNLP類庫中,詞性標注主要通過s.tags,計算情感分數(shù)為s.sentiments,s.summary()方法表示輸出一個關鍵句子。為了更加直觀的顯示情感分析結果,將數(shù)據(jù)輸入NLPIR平臺生成可視化圖如下圖所示。

NLPIR平臺進行情感分析的主要技術有兩點:情感詞的自動識別與權重自動計算,利用共現(xiàn)關系,采用Bootstrapping的策略,反復迭代,生成新的情感詞及權重;情感判別的深度神經(jīng)網(wǎng)絡:基于深度神經(jīng)網(wǎng)絡對情感詞進行擴展計算,綜合為最終的結果。從情感分析圖中可以得知,公眾的負面情緒占主要部分。

4.3.2 ?依存句法分析

NLPIR提出使用Yamada算法的結構化轉移依存句法分析模型,在Yamada算法的基礎上,加入全局的訓練以及預測,優(yōu)化了特征集合。在該模型的精度(85.5%)接近于目前轉移依存句法最好結果(86.0%),并且在所有精度85%以上的依存句法模型中,達到了最快的分析速度?;谠~表的文本挖掘方法有較明顯的缺點,只基于詞表,相當于只應用詞本身的意思,而不考慮詞的多義性和其在句子中有上下文時的特定含義。這樣就會使得結果混入較多噪聲,準確率較低[16]。通過NLPIR對輸入文件的分析,其依存句法可視圖如圖5所示。

參考Stanford Corenlp工具的詞性分析表,在圖5中出現(xiàn)的縮寫符號和釋義見表2。

4.3.3 ?詞云圖

“詞云”顧名思義就是將網(wǎng)絡文本中詞頻最高的詞語通過突出的形式表現(xiàn)出來,是互聯(lián)網(wǎng)媒體時代出現(xiàn)的新型展示方式[15]。“詞云”就是對網(wǎng)絡文本中出現(xiàn)頻率較高的“關鍵詞”予以視覺上的突出,形成“關鍵詞云層”或“關鍵詞渲染”,從而過濾掉大量的文本信息,使讀者快速領略文本的主旨[17]。目前互聯(lián)網(wǎng)上已經(jīng)有很多在線詞云工具,例如國外的WordArt、Wordle、WordItOut、Tagxedo、Tagul等。

本文利用Python中的wordcloud庫生生詞云。利用wordcloud制作詞云時,一般經(jīng)過三個步驟:一是使用wordcloud.WordCloud函數(shù)設置詞云對象的有關屬性(或者參數(shù));二是利用wordcloud.generate(text)函數(shù)或wordcloud.generate_from_frequencies (frequen-cies[,…])函數(shù)生成詞云,前者是根據(jù)文本生成詞云,后者是根據(jù)詞頻生成詞云;三是利用word?cloud. to_file(file_name)函數(shù)將詞云輸出到文件進行保存[18]。

5 ?總結與展望

網(wǎng)絡平臺擔負傳播和弘揚社會主義核心價值觀的使命,引導追星群體樹立正確的榜樣觀和追星觀。目前數(shù)據(jù)挖掘和數(shù)據(jù)分析的技術越來越成熟,本文以某網(wǎng)絡熱點事件為例進行基于語義情感分析的網(wǎng)絡熱點輿情分析。首先使用Scrapy框架收集微博評論數(shù)據(jù),在設計過程中增加了關鍵詞匹配,令爬蟲更加精確地搜索相關內容并爬取至本地,利用jieba分詞功能分別以TF-IDF和TextRank兩種算法對數(shù)據(jù)進行處理并且進行比較,并且將兩種方法結合起來生成20個關鍵詞,情感分析方面利用SnowNLP進行情感分析,借助NLPIR工具進行依存句法分析,最后利用基于Word-cloud庫生成詞云以快速直觀的獲取主要信息。通過本文的網(wǎng)絡熱點輿情分析,完善網(wǎng)絡監(jiān)督和舉報機制,明確上網(wǎng)規(guī)范,各大社交網(wǎng)站平臺落實好監(jiān)督審核機制,調動廣大網(wǎng)民積極抵制不良行為,構建和諧社會。本文設計的網(wǎng)絡熱點輿情分析方法具有一定的參考價值,在今后的研究及實踐中,有助于為相關機構從數(shù)據(jù)中挖掘出更多有用的信息。

本文所設計的網(wǎng)絡熱點輿情分析系統(tǒng)涉及多方面的理論、方法和技術,本系統(tǒng)還有許多新的問題需要解決,需要在實際應用中不斷積累和完善。在以下幾個方面需要做進一步的研究和開發(fā):擴大時間范圍數(shù)據(jù)并劃分為輿情發(fā)展的各個階段,觀察網(wǎng)絡熱點事件的階段性變化和大眾情感變化,實現(xiàn)更精確的提取關鍵詞和情感分析的方法;考慮數(shù)據(jù)文本中的中性詞語的不同情感傾向,使網(wǎng)絡熱點輿情分析的結果更完整和準確。

參考文獻

[1] 唐笑. 網(wǎng)絡輿論中群體極化現(xiàn)象的擴散及規(guī)制[D]. 山東師范大學, 2019.

[2] 張聰聰, 李思彤, 湯藝, 殷復蓮. 基于數(shù)據(jù)挖掘的國際涉華輿情分析關鍵技術研究[J]. 軟件, 2018, 39(12): 172-176.

[3] 郭子鈺. 微博輿情的情感分析與社會動員[D]. 云南師范大學, 2019.

[4] 陳硒. 面向大數(shù)據(jù)處理的劃分聚類新方法[J]. 數(shù)碼世界, 2017(1): 107.

[5] 吳霖. 分布式微信公眾平臺爬蟲系統(tǒng)的研究與應用[D]. 南華大學, 2015.

[6] 王海玲, 周志彬. 基于Scrapy框架的爬蟲設計[J/OL]. 軟件導刊: 1-5[2020-04-15]. http://kns.cnki.net/kcms/detail/42. 1671.TP.20200102.1625.034.html.

[7] 劉宇, 鄭成煥. 基于Scrapy的深層網(wǎng)絡爬蟲研究[J]. 軟件, 2017, 38(07): 111-114.

[8] 王書夢, 吳曉松. 大數(shù)據(jù)環(huán)境下基于MapReduce的網(wǎng)絡輿情熱點發(fā)現(xiàn)[J]. 軟件, 2015, 36(07): 108-113.

[9] Changming Zhu, Daqi Gao. Influence of Data Prepro?ces-sing[J]. Journal of Computing Science and Engineering, 2016, 10(2).

[10] Lynnette Purda, David Skillicorn. Accounting Variables, De?ce?ption, and a Bag of Words: Assessing the Tools of Fraud De?tection[J]. Contemporary Accounting Research, 2015, 32(3).

[11] 李志強, 潘蘇含, 戴娟, 胡佳佳. 一種改進的TextRank關鍵詞提取算法[J/OL]. 計算機技術與發(fā)展, 2020(03): 1-5 [2020- 03-29]. http://kns.cnki.net/kcms/detail/61.1450.TP.20191205. 1104.002.html.

[12] FengXu, XuefenZhang, 2, et al. Investigation on the Chinese Text Sentiment Analysis Based on Convolutional Neural Networks in Deep Learning. 2019, 58(3): 697-709.

[13] 嚴明, 鄭昌興. Python環(huán)境下的文本分詞與詞云制作[J]. 現(xiàn)代計算機(專業(yè)版), 2018(34): 86-89.

[14] 徐會軍, 盧靖煌. 基于大數(shù)據(jù)視角的微博輿情演化分析[J]. 電子技術與軟件工程, 2019(23): 183-185.

[15] 齊小英. 基于NLPIR的人工智能新聞事件的語義智能分析[J]. 信息與電腦(理論版), 2019, 31(20): 104-107.

[16] 任彬, 車萬翔, 劉挺. 基于依存句法分析的社會媒體文本挖掘方法——以飲食習慣特色分析為例[J]. 中文信息學報, 2014, 28(06): 208-215.

[17] 盛成成, 朱勇, 劉濤. 基于微博社交平臺的輿情分析[J]. 智能計算機與應用, 2019, 9(01): 57-59+64.

[18] 嚴明, 鄭昌興. Python環(huán)境下的文本分詞與詞云制作[J]. 現(xiàn)代計算機(專業(yè)版), 2018(34): 86-89.