駱明 王含含 盛博 廖安靈
摘要:隨著互聯網時代的到來,新媒體產業(yè)發(fā)展迅速,移動互聯網成為網絡輿情傳播的主要媒介。而網絡通信的日漸發(fā)達也給網絡社會安全帶來了很大的隱患。該文擬通過對在線社交網絡中的輿情傳播問題進行研究,并對傳播數據的進行特征分析,揭示輿情傳播的內在規(guī)律。該文首先利用Python網絡爬蟲技術對新浪微博“#溫州11歲男孩失聯5天# 家人重金50萬求線索”這一事件的轉發(fā)數據和評論數據進行了爬取。然后,針對評論數據進行預處理,并利用情感得分算法算出每條評論的情感得分,繪制出情感得分隨時間變化的情感極性圖,從理論上論證了輿情被證實前后,用戶評論的情感極性逐漸由積極變?yōu)橄麡O。最后,針對轉發(fā)數據繪制了轉發(fā)時間的頻率分布直方圖,進一步論證了輿情傳播的兩大特點——高效性和時效性。
關鍵詞:網絡輿情;網絡爬蟲技術;文本挖掘;情感分析
中圖分類號:TP393? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)28-0010-03
1 網絡輿情概述
1.1 輿情
輿情是社會個體民眾基于某個社會熱點問題,在特定的社會范圍內,對社會所持有的針對熱點事件的發(fā)生和發(fā)展所產生的對某個特定群體具有重要意義的觀點和看法,也是個體民眾對社會中某個熱點問題的態(tài)度。
1.2 移動互聯網下的網絡輿情
近年來,新媒體時代的到來改變了網絡輿情信息傳播的主流方式,主要體現在移動互聯網在信息傳播方面占據更重要的地位。當前輿論傳播模式主要有兩種,傳統傳播媒體(如電視、報紙等)和新興傳播媒體(如互聯網和手機)。傳統的輿情傳播模式是 20 世紀的主流傳播模式,隨著 web2.0 的到來,人們從公眾變成網民,在移動互聯網平臺上瀏覽輿情信息、發(fā)表評論,使輿情得到了比傳統傳播媒體更快速的發(fā)展,成為輿情信息傳播的主要力量。
2 數據的獲取與處理
2.1 數據源的選擇
本文以移動互聯網環(huán)境下新浪微博中的熱點話題“兒童拐賣”為例,進行了樣本數據的采集及其信息傳播特點研究。
2.2 采用的技術手段
2.2.1 網絡爬蟲技術
網絡爬蟲就是模擬用戶對網頁進行訪問,接受請求響應,然后根據需求設計相應的提取規(guī)則,自動地抓取互聯網信息的程序。
在設計爬蟲算法時,首先需要對網頁的內容進行分析,分析出所需要提取信息的加載方式,然后針對不同的加載方式設計不同的爬蟲算法。
針對靜態(tài)加載方式,只需要對網頁的源碼進行分析,找到所需信息的存儲位置,設計相應的XPath提取規(guī)則,利用Selenium模塊進行提取即可。
2.2.2? 特征詞詞頻分析技術
目前做詞頻分析的方法有多種,主要思想都是先將非結構化的文本內容進行分詞處理,然后構建詞袋模型,進行詞頻統計分析。本文首先通過Python中的jieba分詞對文本評論進行分詞處理,隨后調用CountVectorizer函數將文本評論向量化,并根據特征詞構建詞袋模型,統計特征詞詞頻進行詞云圖分析。
2.2.3 文本情感分析技術
文本情感分析的根本是識別文檔中重要的文本特征,如詞性和詞頻率、情緒詞、詞語強度以及否定詞等。本文采用基于樸素貝葉斯模型的SnowNLP情感得分算法對文本評論進行情感分析。
2.3 數據說明
在此本文利用Python網絡爬蟲技術對新浪微博“#溫州11歲男孩失聯5天# 家人重金50萬求線索”的評論數據和轉發(fā)數據進行了爬取,選取的爬取字段如表1和表2所示。
3 評論數據的分析
3.1 評論數據的預處理
3.1.1 原始數據處理
由于評論數據中存在大量的空白評論、表情評論以及重復評論等雜數據,為了有利于后文對文本數據的處理,本文首先對評論數據進行了清洗,去除空白評論、表情評論等雜數據,得到了9316條有效評論數據。
然后統計出每個分詞出現的頻數即為該詞的詞頻。針對特征詞詞頻的分析,本文采用比較直觀的詞云圖分析法(詞頻越高,該詞在詞云圖中的字體越大)進行研究。
本文以時間作為分析維度,對證實為輿論前后的數據分別進行特征詞詞頻分析,并將結果保存為Excel文件格式。然后,利用Python中的wordcloud模塊繪制詞云圖如圖2和圖3所示。
從詞云圖來看,證實為輿論前,“希望”“孩子”“平安”等詞出現的頻率較高,表明人們對孩子安全的關注,希望孩子平安無事。而證實為輿論后,詞云圖中出現了“造謠”“傳謠”“家里人”等詞,表明了人們對利用這種事件來制造輿論的做法的普遍不滿。
3.2 情感分析
主觀性的評論文本包含著一些情感色彩,情感是一種態(tài)度、思想,是一種感覺引發(fā)的判斷。
情感分析也被稱為意見挖掘,用來研究人們對某些實體的情緒。情感分析相比于傳統的市場研究方法,例如調查或民意調查,具有在成本和時間上的優(yōu)勢,它是通過非侵入性的方法來提取用戶的意見和情緒的。本文基于樸素貝葉斯模型,運用SnowNLP進行評論的情感分析。
3.2.1 基于文本的樸素貝葉斯算法
樸素貝葉斯算法適用于獨立的特征屬性之間,它的基本思想是通過特征屬性對樣本進行分類,包括待分類項、分類器、類別這三要素,其中分類器的質量和分類器的構造方法、樣本特性和樣本數量有關。
基于文本的樸素貝葉斯算法描述過程為:
3.2.2 數據集的構造
在所有數據中隨機抽取出出了1000條數據進行人工標注,一共得到了710條積極情感和248條消極情感評論,其余42條評論無法確定其情感傾向。(如表4所示)
3.2.3 模型的訓練
得到標注的數據后,將其中766條作為訓練集,192條作為測試集,帶入模型進行訓練,并利用測試集測試模型進度為83.33%。
情感得分示例如圖4和圖5所示,評論“假的。虛假報警。央視新聞剛講”,很明顯這是一個消極評論,利用模型計算其情感得分為0.046852330033,與實際相符。評論“希望孩子平平安安,趕快回家”為積極評論,利用模型計算其情感得分為0.919668529778,同樣與實際情況吻合。
3.2.4 輿情情感極性分析
利用模型計算得到每條評論的情感得分,并與時間繪制成情感極性變化圖(如圖6),圖中虛線部分表示該條輿論被證實的時刻。
4 轉發(fā)數據的分析
轉發(fā)行為,是微博用戶之間進行信息傳播一種方法。本文通過研究用戶發(fā)生轉發(fā)行為的時間來研究移動互聯網下的輿情傳播的特點。
從圖中可以看出,在該條輿論發(fā)布時,較短時間內發(fā)生了大量的轉發(fā)體現出了輿情傳播的高效性;并且一經被證實后轉發(fā)數量驟減,體現出了輿情傳播的時效性。
5 總結與展望
5.1 總結
本文利用Python網絡爬蟲技術進行數據的獲取,得到了兩種數據,一種是微博的轉發(fā)數據,另一種是微博的評論數據。并分別利用這兩種數據對移動互聯網下的網絡輿情傳播的特點進行了研究。
①評論數據
從文本挖掘、情感分析方面出發(fā),構建情感得分算法,計算出每條評論的情感得分,研究情感極性隨時間的變化。研究發(fā)現在輿情被證實前后用戶評論的情感極性逐漸由積極變?yōu)橄麡O。
②轉發(fā)數據
繪制轉發(fā)時間的頻率分布直方圖。研究證實了,移動互聯網下的網絡輿情傳播的特點:高效性、時效性。
5.2 展望
①本文采用的是基于樸素貝葉斯模型的情感得分算法,得到的模型精度只有83.33%。后續(xù)研究可以考慮采用一些其他的深度學習模型來提高模型的預測精度,例如:卷積神經網絡。
②本文雖然獲取了兩種數據,但是主要利用的確是評論數據,后續(xù)研究將利用轉發(fā)數據構建微博信息傳播網絡,深入的分析移動互聯網下的網絡輿情傳播特點。
參考文獻:
[1] 王永友,黃揚琦.網絡輿情異質種群對大學生價值觀形成的影響及消解機制[J].重慶郵電大學學報(社會科學版),2018,30(06):80-87.
[2] 邢云菲. 移動環(huán)境下網絡輿情信息傳播特征及路徑研究[D].吉林大學,2016.
[3] 崔樹娟,賓晟,孫更新,等.基于大數據分析的多關系社交網絡輿情傳播模型研究[J].中南民族大學學報(自然科學版),2018,37(02):114-120.
[4] 張碩.基于復雜網絡的輿情信息傳播機制研究[D].首都經濟貿易大學,2018.
[5] 付璐.新浪微博傳播機制研究[J].科教導刊(中旬刊),2018(05):138-139.
[6] 張嵐嵐.新浪微博的網絡輿情分析研究[D].華東師范大學,2011.
[7] 劉敏,王向前,李慧宗,等.基于文本挖掘的網絡商品評論情感分析[J].遼寧工業(yè)大學學報(自然科學版),2018,38(05):330-335.
[8] 封麗.面向微博短文本的情感分析和特征抽取[J].農業(yè)圖書情報學刊,2018,30(09):56-60.
[9] 劉貴香,蔡永明,劉璐,英玉超.社交網絡信息傳播機制研究——以新浪微博為例[J].經貿實踐,2018(06):69-70.
[10] 孫海燕.網絡輿情傳播模型研究[D].山東大學,2014.
[11] 邢長征,李珊.文本情感分析的深度學習方法[J].計算機應用與軟件,2018,35(08):102-106.
[12] 王晰巍,張柳,李師萌,等.新媒體環(huán)境下社會公益網絡輿情傳播研究——以新浪微博“畫出生命線”話題為例[J].數據分析與知識發(fā)現,2017,1(06):93-101.
[13] 吳信東,李毅,李磊.在線社交網絡影響力分析[J].計算機學報,2014,37(04):735-752.
[14] 孔杏,林慶.主觀性文本情感分類研究綜述[J].信息技術,2018,42(08):126-130+134.
【通聯編輯:代影】