陳興蜀, 常天祐, 王海舟, 趙志龍, 張 杰
(1. 四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院, 成都 610207; 2. 四川大學(xué)網(wǎng)絡(luò)空間安全研究院, 成都 610065;3. 四川大學(xué)吳玉章學(xué)院, 成都 610207; 4. 四川大學(xué)計(jì)算機(jī)學(xué)院, 成都 610207)
2019年12月31日,武漢市衛(wèi)健委發(fā)布通報(bào)稱(chēng),該市近期部分醫(yī)療機(jī)構(gòu)發(fā)現(xiàn)接診的多例肺炎病例與華南海鮮市場(chǎng)有關(guān)聯(lián).這一通報(bào)引發(fā)了較為廣泛的社會(huì)關(guān)注,輿論的關(guān)注點(diǎn)主要集中于“華南海鮮市場(chǎng)”、“肺炎”、“傳染”等詞.2020年1月22日,國(guó)務(wù)院新聞辦公室舉行新聞發(fā)布會(huì),1月23日,湖北省人民政府新聞辦公室舉行新聞發(fā)布會(huì),介紹新型冠狀病毒感染的肺炎防控工作的有關(guān)情況,輿情不斷升溫,出現(xiàn)多次輿情高峰.在2020年1月1日至2020年2月29日期間,“專(zhuān)家稱(chēng)武漢不明原因的病毒性肺炎可防可控”、“鐘南山指出新型冠狀病毒具有傳染性,已經(jīng)出現(xiàn)人傳人現(xiàn)象”、“各地醫(yī)護(hù)人員馳援武漢”、“首個(gè)潛在治療新冠肺炎藥物獲批上市”等成為新浪微博熱議話(huà)題.關(guān)于新冠肺炎疫情,網(wǎng)民不僅討論熱度高,而且持續(xù)時(shí)間長(zhǎng).無(wú)論是核心話(huà)題,還是時(shí)空二維的動(dòng)態(tài)分析方法,對(duì)“新冠肺炎疫情”輿情的研究,都具有一定的理論意義.就現(xiàn)實(shí)層面而言,可視化地表達(dá)“新冠肺炎疫情”輿情的時(shí)空演化過(guò)程,不僅可以客觀(guān)地展示民眾對(duì)此次疫情在態(tài)度上的變化性,而且還可以形象地反映不同地區(qū)民眾對(duì)此次疫情在情緒上的差異性,有助于各級(jí)黨政機(jī)關(guān)及時(shí)而準(zhǔn)確地掌握輿情動(dòng)態(tài)、回應(yīng)民眾關(guān)切,從而提高應(yīng)對(duì)能力.此外,根據(jù)客觀(guān)疫情與民眾輿情的數(shù)理相關(guān)性,推理出未來(lái)疫情發(fā)展的時(shí)段走勢(shì)與區(qū)域特征,可以為黨政機(jī)關(guān)、企事業(yè)單位科學(xué)預(yù)判疫情趨勢(shì)提供參考,從而根據(jù)不同時(shí)段情況,制定相應(yīng)的疫情防控措施;針對(duì)不同區(qū)域情況,完善差異化防控策略.因此,對(duì)“新冠肺炎疫情”輿情進(jìn)行時(shí)空演化分析具有重要的應(yīng)用價(jià)值.
如今,國(guó)內(nèi)外學(xué)者對(duì)于輿情的研究大多是基于文本數(shù)據(jù),而忽視了文本背后的時(shí)間信息與地理位置信息,很少將兩者相結(jié)合來(lái)對(duì)輿情進(jìn)行研究.丁杰等人[1]將網(wǎng)絡(luò)新聞及論壇、BBS上的帖子依關(guān)鍵詞搜索,并依“事件”分類(lèi),讓管理者通過(guò)“閱讀時(shí)間”了解正在發(fā)生或者已經(jīng)發(fā)生的事件,并且自動(dòng)持續(xù)追蹤事件發(fā)展的功能,以協(xié)助管理者快速且完整地了解事件全貌,并且采用網(wǎng)頁(yè)清理技術(shù)來(lái)減少數(shù)據(jù)量.洪小娟等人[2]構(gòu)建在.NET平臺(tái)下基于Entity Framework模型的網(wǎng)絡(luò)輿情檢測(cè)系統(tǒng)的C/S和B/S框架體系,系統(tǒng)應(yīng)用馬爾科夫鏈實(shí)現(xiàn)計(jì)算未來(lái)發(fā)展估計(jì).李然等人[3]介紹了文本情緒分析在不同場(chǎng)景下應(yīng)用,整理歸納了文本情緒分析的主流方法,并對(duì)其進(jìn)行了細(xì)致的介紹和分析對(duì)比.陳興蜀等人[4]基于發(fā)現(xiàn)的熱點(diǎn)話(huà)題,提出了基于在線(xiàn)LDA(OLDA)話(huà)題模型的論壇熱點(diǎn)話(huà)題演化跟蹤模型(HTOLDA),從而更加有效地對(duì)論壇中的熱點(diǎn)話(huà)題進(jìn)行演化跟蹤.
情感分析作為輿情研究中極為重要的一部分,近些年不斷改善,與之相關(guān)的應(yīng)用研究也在蓬勃發(fā)展.明弋洋等人[5]針對(duì)基于關(guān)鍵詞字符匹配和粗粒度情感分析方法的傳統(tǒng)不良信息檢測(cè)方法準(zhǔn)確率低的問(wèn)題,提出一種基于短語(yǔ)級(jí)情感分析的不良信息檢測(cè)方法.胡思才等人[6]根據(jù)經(jīng)典的特征選擇方法在中文情感評(píng)論文本中應(yīng)用的缺陷和不足,提出了一種改進(jìn)的中文情感特征選擇方法.Isa Maks等人[7]為情感分析與觀(guān)點(diǎn)挖掘提出了詞典模型,該模型包括與觀(guān)點(diǎn)挖掘和情感分析相關(guān)的語(yǔ)義類(lèi)別的分類(lèi),并提供了用于識(shí)別態(tài)度持有者和態(tài)度的極性以及描述文本中涉及的不同行為者的情感的方法.Nazan ?ztürk等人[8]針對(duì)敘利亞難民危機(jī)問(wèn)題,運(yùn)用情感分析和文本挖掘,對(duì)Twitter上公眾談?wù)搩?nèi)容進(jìn)行分析,發(fā)現(xiàn)英語(yǔ)報(bào)道和土耳其語(yǔ)報(bào)道情緒的差異性.凌海彬等人[9]提出一種多特征融合的圖文微博情感分析方法,將對(duì)情感具有很好指示作用的內(nèi)容特征和用戶(hù)特征與微博句子進(jìn)行融合,設(shè)計(jì)特征層和決策層融合的方法,將文本和圖片情感分類(lèi)模型進(jìn)行融合.
本文的貢獻(xiàn)在于,將jieba分詞模型、SnowNLP情感分析模型、K-Means文本聚類(lèi)算法、地理可視化技術(shù)引入到新冠肺炎疫情的輿情研究中,充分挖掘了文本的時(shí)間與空間特點(diǎn),不僅分析了情感變化的時(shí)間曲線(xiàn),而且將用戶(hù)位置納入研究,發(fā)掘了檢索文本中的地理信息,并將情感分析與用戶(hù)地理信息結(jié)合,獲得不同地區(qū)人們對(duì)于新冠肺炎疫情的情感值.最后,綜合時(shí)空分布特點(diǎn),演繹出了對(duì)于未來(lái)疫情發(fā)展的科學(xué)預(yù)測(cè),為未來(lái)的災(zāi)害應(yīng)對(duì)提供較完備的思路與方法.
本文圍繞“新冠肺炎疫情”話(huà)題對(duì)微博數(shù)據(jù)進(jìn)行抓取,將數(shù)據(jù)進(jìn)行文本清洗后存入數(shù)據(jù)庫(kù).再通過(guò)K-Means文本聚類(lèi)算法進(jìn)行話(huà)題分類(lèi),之后借助SnowNLP對(duì)提取到的話(huà)題進(jìn)行情感趨勢(shì)分析和地理統(tǒng)計(jì)分析,最后,通過(guò)地理分布數(shù)據(jù)與新聞報(bào)道相結(jié)合判斷出疫情較為嚴(yán)重的地區(qū).論文方法流程圖如圖1所示.
圖1 論文方法流程圖Fig.1 Flow chart of paper method
2.2.1 數(shù)據(jù)獲取 微博已經(jīng)成為人們生活中重要的信息來(lái)源,而新浪微博作為全球最大中文社交網(wǎng)絡(luò)平臺(tái),它的活躍用戶(hù)已超過(guò)4億,而且數(shù)據(jù)開(kāi)放程度較高,思想觀(guān)點(diǎn)表達(dá)較為豐富,故此次研究利用新浪微博平臺(tái),以自然語(yǔ)言處理的方法對(duì)“新冠肺炎疫情”的相關(guān)微博展開(kāi)研究.在獲取數(shù)據(jù)的方法中,使用Python語(yǔ)言開(kāi)發(fā)的Scrapy開(kāi)源框架,引入Redis開(kāi)源框架來(lái)實(shí)現(xiàn)多機(jī)分布式爬蟲(chóng)[10].Scrapy-Redis的分布式策略是Slaver端從Master端獲取任務(wù)(Request和URL)進(jìn)行數(shù)據(jù)抓取,在抓取過(guò)程中將新產(chǎn)生的Request提交給Master端處理,Master端只有一個(gè)Redis數(shù)據(jù)庫(kù),負(fù)責(zé)將未處理的Request去重和任務(wù)分配,將處理后的Request加入待爬隊(duì)列,并且存儲(chǔ)爬取的數(shù)據(jù),如圖2所示.值得一提的是,Scrapy-Redis爬蟲(chóng)框架中的Duplication Filter組件利用Redis中隊(duì)列的不重復(fù)性,巧妙地實(shí)現(xiàn)了帶爬取URL隊(duì)列的不重復(fù).接下來(lái)在模擬微博登錄的過(guò)程中,針對(duì)構(gòu)造訪(fǎng)客Cookie的方案設(shè)計(jì)實(shí)現(xiàn)了高可用代理池模塊,進(jìn)一步提高了數(shù)據(jù)采集效率[11].
圖2 Scrapy-Redis爬蟲(chóng)框架Fig.2 Scrapy-Redis crawler framework
自2019年12月31日武漢衛(wèi)健委第一次發(fā)布“通報(bào)”稱(chēng)發(fā)現(xiàn)27例肺炎病例,至2020年2月3日全國(guó)新冠肺炎確診病例突破兩萬(wàn)人,再到2月29日國(guó)務(wù)院聯(lián)防聯(lián)控機(jī)制新聞發(fā)布會(huì)上國(guó)家衛(wèi)健委新聞發(fā)言人通報(bào)疫情情況稱(chēng):“截至2月28日24時(shí),據(jù)各省(區(qū)、市)和新疆生產(chǎn)建設(shè)兵團(tuán)報(bào)告:現(xiàn)有確診病例37 414例,其中重癥病例7 664例,累計(jì)治愈出院病例39 002例.”在這期間,關(guān)于新冠肺炎的微博討論較為集中.需要說(shuō)明的是,關(guān)于此次肺炎的通報(bào)在名稱(chēng)上存在一個(gè)變動(dòng)過(guò)程,2019年月12月30日~2020年1月10日稱(chēng)不明原因肺炎、不明原因病毒性肺炎,2020年1月11日~2月7日稱(chēng)新型冠狀病毒感染的肺炎,2月8日,國(guó)務(wù)院聯(lián)防聯(lián)控機(jī)制新聞發(fā)布會(huì)通報(bào)了國(guó)家衛(wèi)健委關(guān)于新冠病毒感染的肺炎暫命名為“新型冠狀病毒肺炎”,簡(jiǎn)稱(chēng)“新冠肺炎”的信息,因此,以“肺炎”為關(guān)鍵詞進(jìn)行搜索,可以更全面地抓取到各時(shí)段關(guān)于本次疫情的議題.本文對(duì)2020年1月1日至2020年2月29日之間(共計(jì)60天)以“肺炎”為關(guān)鍵詞的新浪微博進(jìn)行時(shí)段分割,以每日為一小段,共計(jì)60小段,每一小段按熱度高低抓取微博1 000 條,共計(jì)6萬(wàn)條微博博文,組成本文進(jìn)行數(shù)據(jù)研究的基礎(chǔ)單位.每條微博的抓取內(nèi)容包括微博博文、時(shí)間戳、用戶(hù)ID、點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)和評(píng)論數(shù)等.
2.2.2 數(shù)據(jù)存儲(chǔ) 由于從網(wǎng)頁(yè)爬取的數(shù)據(jù)每次都默認(rèn)存儲(chǔ)在Redis的數(shù)據(jù)庫(kù)中,每次啟動(dòng)Redis庫(kù)時(shí),都會(huì)將本機(jī)之前存儲(chǔ)的數(shù)據(jù)加載到內(nèi)存中.如果數(shù)據(jù)量較大,則內(nèi)存消耗會(huì)比較嚴(yán)重.因此研究選擇持久化的數(shù)據(jù)庫(kù)MongoDB來(lái)進(jìn)行數(shù)據(jù)的存儲(chǔ),并利用MongoDB的服務(wù)器進(jìn)行遠(yuǎn)程連接與數(shù)據(jù)共享,實(shí)現(xiàn)了分布式數(shù)據(jù)庫(kù)系統(tǒng)的搭建.需要處理數(shù)據(jù)時(shí),再利用Python中的pymongo第三方庫(kù)與MongoDB的數(shù)據(jù)庫(kù)進(jìn)行對(duì)接,根據(jù)對(duì)數(shù)據(jù)所屬的數(shù)據(jù)庫(kù)和文檔進(jìn)行操作,從而達(dá)到對(duì)微博信息的查重操作,以便進(jìn)行下一步的自然語(yǔ)言處理.
2.3.1 文本聚類(lèi) 在文本分詞方面,文章采用jieba分詞對(duì)采集到的文本進(jìn)行分詞工作,jieba分詞采用了基于Trie樹(shù)結(jié)構(gòu)實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖(DAG),再采用動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合.對(duì)于未登錄詞,采用基于漢字成詞能力的HMM模型,使用Viterbi算法,得到一個(gè)概率最大的BEMS序列,按照B打頭、 E結(jié)尾的方式,對(duì)待分詞的句子重新組合,就得到了分詞結(jié)果.但是由于jieba分詞詞庫(kù)的本身有限性,難以處理一些較難的語(yǔ)句.本研究利用jieba分詞提供的load_userdict()函數(shù)對(duì)jieba的分詞語(yǔ)料庫(kù)進(jìn)行了優(yōu)化,用《四十萬(wàn)漢語(yǔ)詞庫(kù)》、《四十萬(wàn)搜狗大詞庫(kù)》、《網(wǎng)絡(luò)用語(yǔ)詞庫(kù)》等詞庫(kù)對(duì)jieba分詞進(jìn)行了分詞訓(xùn)練,從而增加其分詞的精確性.再通過(guò)TF-IDF 算法構(gòu)造文本向量矩陣,由于文本向量矩陣極為稀疏,因此利用pca降維,構(gòu)造出較為稠密的矩陣.最后通過(guò)K-Means的文本聚類(lèi)算法,得到話(huà)題聚類(lèi)的結(jié)果[12,13].
2.3.2 情感分析 情感分析,是對(duì)帶有情感色彩的主觀(guān)性文本進(jìn)行分析、處理、歸納和推理的過(guò)程.互聯(lián)網(wǎng)(以新浪微博為代表的博客、論壇以及社會(huì)服務(wù)網(wǎng)絡(luò))上產(chǎn)生了大量的用戶(hù)參與的、對(duì)于諸如人物、事件、產(chǎn)品等有價(jià)值的評(píng)論信息,從中提取的用戶(hù)信息屬于一分為二的極性分析,即“贊同”和“否定”.
對(duì)于微博博文的內(nèi)容,研究采用Python的第三方庫(kù)SnowNLP進(jìn)行情感分析,SnowNLP的情感判斷過(guò)程是:首先,讀取已經(jīng)分好類(lèi)的文本neg.txt和pos.txt,再對(duì)所有文本進(jìn)行分詞、去停用詞,從而計(jì)算每個(gè)詞出現(xiàn)的頻數(shù).通過(guò)貝葉斯定理計(jì)算正面負(fù)面先驗(yàn)概率p(pos)和p(neg),對(duì)要進(jìn)行判斷的文本分詞,計(jì)算每個(gè)詞的后驗(yàn)概率p(詞|neg)和p(詞|pos),最后,選擇計(jì)算出的概率較大的類(lèi)別(正或負(fù)).可以看出,這個(gè)算法最重要的就是語(yǔ)料庫(kù)的選擇與分詞.由于SnowNLP自身提供的語(yǔ)料庫(kù)具有滯后性與局限性,研究特地采用微博文本語(yǔ)料庫(kù)對(duì)其進(jìn)行訓(xùn)練,并將其分詞函數(shù)seg()替換成了訓(xùn)練好的jieba分詞函數(shù)cut().利用這種方法,可以對(duì)每一條微博進(jìn)行情感分析,得到每天的平均情感數(shù)值,再對(duì)每天的平均情感數(shù)值進(jìn)行基于時(shí)間的排序,用matplotlib進(jìn)行繪制,從而更加清晰、形象化地反映網(wǎng)民對(duì)于新冠肺炎疫情的態(tài)度變化趨勢(shì).
2.3.3 詞云生成 用wordcloud和matplotlib對(duì)清洗過(guò)的所有時(shí)間段微博文本進(jìn)行高頻詞的統(tǒng)計(jì),并生成詞云和高頻詞排序表,更直觀(guān)地展示疫情發(fā)展不同階段人們最為關(guān)心的話(huà)題的變化,并分析總結(jié)出人們的心態(tài)變化.
2.3.4 地理統(tǒng)計(jì)分析 地理統(tǒng)計(jì)又稱(chēng)空間統(tǒng)計(jì),是對(duì)一定區(qū)域內(nèi)的地理要素的數(shù)量、種類(lèi)等情況進(jìn)行匯總,反映地理要素的空間分布情況[14].對(duì)于點(diǎn)數(shù)據(jù),可以采用頻率統(tǒng)計(jì)或者插值分析方法,從有限的數(shù)據(jù)點(diǎn)上得出任意點(diǎn)的數(shù)值進(jìn)行空間上某個(gè)屬性連續(xù)分布的展示,對(duì)于面數(shù)據(jù)通過(guò)空間相關(guān)性研究,發(fā)掘事物的空間分布格局和背后的產(chǎn)生原因.
研究采用常規(guī)統(tǒng)計(jì)分析的方法,通過(guò)統(tǒng)計(jì)1月1日~2月29日來(lái)自全國(guó)34個(gè)省級(jí)行政區(qū)的網(wǎng)民在微博上發(fā)表評(píng)論的數(shù)量,通過(guò)情感分析計(jì)算出各個(gè)地區(qū)網(wǎng)民的平均情感數(shù)值,再結(jié)合數(shù)據(jù)可視化工具pyecharts,將全國(guó)各省級(jí)行政區(qū)的微博評(píng)論人數(shù)圖與微博評(píng)論情感值圖繪制出來(lái).
在輿情演化的時(shí)空分析研究領(lǐng)域,如今的研究大多停留在自然災(zāi)害和局部區(qū)域分析統(tǒng)計(jì)這兩個(gè)方向.張巖等人[15]抽取了臺(tái)風(fēng)“山竹”相關(guān)微博中蘊(yùn)含的地理位置信息,建立廣東省21個(gè)城市的網(wǎng)絡(luò)社團(tuán)模型,檢驗(yàn)用戶(hù)情緒、城市詞頻、用戶(hù)位置、網(wǎng)絡(luò)節(jié)點(diǎn)活躍度等指標(biāo)探測(cè)受災(zāi)城市的能力.曹彥波[16]基于新浪微博數(shù)據(jù),通過(guò)數(shù)據(jù)清洗、分類(lèi)和挖掘,分析2018年8月13日和14日云南省通??h2次5.0級(jí)地震輿情信息時(shí)空演變規(guī)律.本研究的創(chuàng)新之處在于將時(shí)空分析的研究視角轉(zhuǎn)向了公共衛(wèi)生安全事件領(lǐng)域,并在空間上擴(kuò)大到了對(duì)全國(guó)范圍的輿情進(jìn)行分析,最后結(jié)合全國(guó)各個(gè)省級(jí)行政區(qū)域情感分析數(shù)值,對(duì)疫情嚴(yán)重程度不同的地區(qū)做了疫情與輿情的數(shù)理相關(guān)性研究.
SnowNLP情感分析得到的數(shù)值在0到1之間,當(dāng)結(jié)果大于0.5時(shí),情感較為積極,越接近1,情感越正面;當(dāng)結(jié)果小于0.5時(shí),情感較為消極,越接近0,情感越負(fù)面. 研究對(duì)每天的微博情感分析結(jié)果做了取平均值(圖3)處理,根據(jù)圖3的數(shù)據(jù)顯示,從1月1日~2月29日期間內(nèi),網(wǎng)民對(duì)于“新冠肺炎疫情”的態(tài)度整體上是趨于正面的.在這60天中,有55天的情感分析數(shù)值大于0.5,即趨于正向,只有5天的數(shù)值小于0.5,即趨于負(fù)向.從曲線(xiàn)走勢(shì)來(lái)看,這段時(shí)間網(wǎng)民對(duì)“新冠肺炎疫情”的態(tài)度大致可以分為三個(gè)階段.第一階段是1月1日~1月20日,此段時(shí)間內(nèi)網(wǎng)民情緒波動(dòng)較大,較不穩(wěn)定,處于正負(fù)面情緒交替出現(xiàn)狀態(tài);第二階段是1月20日~2月3日,此段時(shí)間網(wǎng)民情緒由負(fù)面向正面轉(zhuǎn)化,且逐步上升;第三階段是2月3日~2月29日,這段時(shí)間網(wǎng)民的情緒穩(wěn)定在正面的、積極的狀態(tài),波動(dòng)很小.我們運(yùn)用話(huà)題聚類(lèi)的方法,采用了TF-IDF 算法構(gòu)造文本向量矩陣,再利用pca降維,構(gòu)造出較為稠密的矩陣,并采用K-Means聚類(lèi)算法分出話(huà)題文檔.最后,結(jié)合實(shí)際疫情狀況,對(duì)新浪微博用戶(hù)這三個(gè)階段的態(tài)度變化做了分析和推斷.
圖3 每日微博博文SnowNLP情感分析數(shù)值(平均值)Fig.3 Daily tweet SnowNLP sentimental analysis value (average)
疫情發(fā)展的第一階段為1月1日~1月20日之間波動(dòng)較大的緊張焦慮期.根據(jù)文本聚類(lèi),發(fā)現(xiàn)“武漢病毒性肺炎患者,發(fā)病10多天曾以為是感冒”與“華南海鮮批發(fā)市場(chǎng)休市整頓衛(wèi)生,現(xiàn)場(chǎng)張貼官方公告”居于微博熱議話(huà)題前兩位,從圖3可以看出,2020年1月1日的情感分析的結(jié)果呈現(xiàn)最低值,約0.34,說(shuō)明面對(duì)突如其來(lái)的未知疾病風(fēng)險(xiǎn),普通民眾出現(xiàn)了強(qiáng)烈的擔(dān)憂(yōu)、恐懼等負(fù)面情緒反應(yīng).然而, 2020年1月3日,情感數(shù)值攀升至0.52,這一從負(fù)向到正向的急劇變化的原因何在?文本聚類(lèi)顯示,1月3日居于微博熱議榜首的話(huà)題是“武漢市衛(wèi)健委通報(bào)病毒性肺炎情況”,具體內(nèi)容包括“截至2020年1月3日8時(shí),共發(fā)現(xiàn)符合不明原因的病毒性肺炎的診斷患者44例,其中重癥11例”,“初步調(diào)查表明,未發(fā)現(xiàn)明顯的人傳人證據(jù),未發(fā)現(xiàn)醫(yī)務(wù)人員感染”.由于感染肺炎人數(shù)較少,且未確定肺炎的種類(lèi)與肺炎是否具有傳染性,大多數(shù)網(wǎng)民認(rèn)為肺炎不會(huì)人傳人,緊張的心理得到很大的緩解,所以情感數(shù)值急劇上升.1月9日,微博熱議話(huà)題位居前列的是“不明原因肺炎病原體為新型冠狀病毒”,處于對(duì)冠狀病毒可能具有傳染性的擔(dān)憂(yōu),情感數(shù)值出現(xiàn)第二個(gè)低點(diǎn).1月13日,微博熱議的話(huà)題是“專(zhuān)家稱(chēng)武漢不明原因的病毒性肺炎可防可控”,情感數(shù)值達(dá)到峰值,接近0.6,說(shuō)明網(wǎng)民的情緒轉(zhuǎn)向放松.由于新冠肺炎感染人數(shù)大量增加,民眾關(guān)切度隨之提高.1月20日,國(guó)家衛(wèi)健委高級(jí)別專(zhuān)家組組長(zhǎng)鐘南山院士接受白巖松采訪(fǎng)時(shí)指出“它(新型冠狀病毒)具有傳染性,已經(jīng)出現(xiàn)人傳人現(xiàn)象,同時(shí)醫(yī)務(wù)人員也有傳染,要提高警惕”,鐘南山的分析、判斷、提醒與建議引起人們的高度重視,“鐘南山肯定新型冠狀病毒肺炎人傳人”成為當(dāng)日微博熱議話(huà)題,從圖3可以看出,從1月19日~1月20日,情感數(shù)值從正向直接降為負(fù)向.1月20日,情感分析的結(jié)果出現(xiàn)第三個(gè)低點(diǎn),說(shuō)明大多數(shù)網(wǎng)民意識(shí)到問(wèn)題的嚴(yán)重性,情緒出現(xiàn)急劇變化,陷入警惕、擔(dān)憂(yōu)、焦慮狀態(tài).總體看來(lái),1月1日~1月20日情感分析數(shù)值呈現(xiàn)起伏不定的特征,且峰值與谷值都出現(xiàn)在這一時(shí)段,說(shuō)明網(wǎng)民情緒波動(dòng)較大.
疫情發(fā)展的第二階段是1月20日~2月3日之間緩慢爬升的團(tuán)結(jié)振奮期.如圖3所示,經(jīng)歷了20日、21日兩天的負(fù)值,到22日之后,轉(zhuǎn)變?yōu)檎担⒊掷m(xù)上升5天,這是因?yàn)樽?月21日開(kāi)始,微博話(huà)題集中在“各地新增新型肺炎病例”、“抗擊疫情”、“中國(guó)有信心打贏(yíng)新型肺炎疫情攻堅(jiān)戰(zhàn)”等方面,其中24日的熱門(mén)話(huà)題 “各地醫(yī)護(hù)人員馳援湖北”、“各級(jí)政府有序開(kāi)展防控措施”、“抗艾滋藥物對(duì)新型肺炎治療有效”更是給網(wǎng)民帶來(lái)極大的鼓舞.1月31日,網(wǎng)民圍繞“上海藥物所、武漢病毒所聯(lián)合發(fā)現(xiàn):雙黃連可抑制新型冠狀病毒” 、“韓紅愛(ài)心馳援武漢”、“武漢市金銀潭醫(yī)院20名新型冠狀病毒肺炎患者集體出院”展開(kāi)熱議,又將輿情推向一個(gè)小的高潮.如圖3所示,1月31日~2月3日,情感數(shù)值在短暫平穩(wěn)后繼續(xù)攀升,情感數(shù)值接近峰值.這說(shuō)明在第二時(shí)段,關(guān)于新型冠狀病毒感染的肺炎疫情,網(wǎng)民在態(tài)度上是積極向上的,在情緒上由擔(dān)憂(yōu)、焦慮轉(zhuǎn)向團(tuán)結(jié)、振作.
疫情發(fā)展的第三個(gè)階段是2月3日~2月29日波動(dòng)很小的自信平穩(wěn)期.在2月3日的湖北省新聞發(fā)布會(huì)上,有關(guān)專(zhuān)家就疫情的相關(guān)狀況答疑解惑,“無(wú)需擔(dān)憂(yōu)無(wú)癥狀患者”、“無(wú)臨床證據(jù)支持雙黃連可以預(yù)防和治療新冠肺炎”等信息再獲聚焦,而“同舟共濟(jì),共抗疫情!武漢加油!中國(guó)必勝”、“愛(ài)心守望、眾志成城”等口號(hào)成為網(wǎng)民共同的發(fā)聲,各個(gè)地區(qū)的醫(yī)護(hù)人員馳援武漢取得優(yōu)秀的戰(zhàn)績(jī),為網(wǎng)民增加了抗擊肺炎疫情取得勝利的信心.2月13日,新華社發(fā)布快訊,應(yīng)勇任湖北省委書(shū)記,王忠林任武漢市委書(shū)記,網(wǎng)民對(duì)疫情防控新局面的打開(kāi)充滿(mǎn)期待.2月16日,“首個(gè)潛在治療新冠肺炎藥物獲批上市”成為微博熱議話(huà)題,2月29日,“世衛(wèi)組織專(zhuān)家:如果我感染了,希望在中國(guó)治療!”居于微博話(huà)題榜首,這些都體現(xiàn)了網(wǎng)民對(duì)于中國(guó)打贏(yíng)疫情防控阻擊戰(zhàn)持有堅(jiān)定的信心,也為“中國(guó)力量”感到自豪.此外,2月中下旬,微博話(huà)題還多次談?wù)摰饺毡尽⒁晾?、韓國(guó)等其他國(guó)家的新冠肺炎確診病例,這體現(xiàn)了在肺炎疫情面前,中國(guó)網(wǎng)民對(duì)其他疫情國(guó)家的關(guān)心.從圖3可以看出,隨著全國(guó)各省的新增患病人數(shù)逐漸減少,疫情趨于穩(wěn)定,情感數(shù)值表現(xiàn)為連續(xù)27天的正向平穩(wěn)趨勢(shì).2月3日~2月29日這一時(shí)段情感分析數(shù)值穩(wěn)定在0.56以上,說(shuō)明網(wǎng)民對(duì)于“新冠肺炎疫情”的態(tài)度積極而平穩(wěn).
總的來(lái)說(shuō),網(wǎng)民對(duì)于“新冠肺炎疫情”的態(tài)度大致經(jīng)歷了焦慮緊張期、團(tuán)結(jié)振作期與自信穩(wěn)定期三個(gè)階段,總體上呈現(xiàn)積極大于消極,正面大于負(fù)面的情緒狀態(tài).由情感曲線(xiàn)的走勢(shì)可以推測(cè),未來(lái)一段時(shí)間網(wǎng)民將維持積極情緒,關(guān)于新冠肺炎疫情的輿情將會(huì)趨于平穩(wěn)向好態(tài)勢(shì).
為進(jìn)一步了解在“新冠肺炎”疫情期間網(wǎng)民所討論的主要話(huà)題,研究構(gòu)建從1月1日~2月29日期間微博場(chǎng)域中與“新冠肺炎疫情”相關(guān)的詞頻排序,為了更直觀(guān)地展示討論的主題,文章將排名前15的高頻關(guān)鍵詞制作成柱狀圖予以展示.如圖4所示.
如圖4所示,出現(xiàn)頻度最高的是“肺炎”一詞,共出現(xiàn)了65 617次之多;此外還有“新型”、“武漢”、“疫情”、“冠狀病毒”、“不明”、“感染”等詞匯.這些詞匯都直接反映了網(wǎng)民對(duì)于此次疫情狀況的關(guān)注,也體現(xiàn)了網(wǎng)民對(duì)此種新型病毒感染的肺炎的高度關(guān)注,表明引發(fā)此次疫情的罪魁禍?zhǔn)住滦凸跔畈《镜膫魅痉秶畯V,網(wǎng)民對(duì)其關(guān)注度之高.
圖4 微博高頻詞統(tǒng)計(jì)柱狀圖Fig.4 Statistical histogram of high-frequency words on micro-blog
值得注意的是,關(guān)注度第三高的關(guān)鍵詞是“武漢”,一方面,因?yàn)樾鹿诜窝滓咔榈脑缙跀U(kuò)散發(fā)生在武漢,盡管新冠病毒不一定源于武漢華南海鮮市場(chǎng);另一方面,因?yàn)槲錆h是全國(guó)疫情災(zāi)害最嚴(yán)重的地區(qū),大部分感染新冠肺炎的患者都集中在武漢.武漢成為網(wǎng)民關(guān)注的焦點(diǎn),與之相關(guān)的“患者”、“防控”等詞匯高居前列,從側(cè)面體現(xiàn)了網(wǎng)民對(duì)武漢人民的關(guān)心.如何防控病毒,如何治療患者成為網(wǎng)民關(guān)注的熱點(diǎn),同時(shí)也是防疫工作的重中之重.
總體來(lái)說(shuō),網(wǎng)民對(duì)于此次疫情的關(guān)注的話(huà)題是較為積極,高頻詞中并未出現(xiàn)任何消極的詞匯,人們關(guān)注的話(huà)題往往是如何與病毒做斗爭(zhēng),如何抗擊肺炎,拯救患者,支援武漢,這反映了我們國(guó)家“一方有難,八方支援”的團(tuán)結(jié)精神.
在詞云統(tǒng)計(jì)圖中,詞頻是通過(guò)字體的大小進(jìn)行分布的.如圖5,我們可以看出,首先,“肺炎”、“新型”、“疫情”、“冠狀病毒”等字體明顯突出,說(shuō)明關(guān)于此次疫情的話(huà)題是以新型冠狀病毒肺炎為核心的.其次,“抗擊”、“救治”、“患者”、“全國(guó)”、“加油”等詞匯在詞云中也清晰地呈現(xiàn)出來(lái),體現(xiàn)了網(wǎng)民齊心協(xié)力,眾志成城,形成了共同抗擊肺炎的決心以及戰(zhàn)勝新冠肺炎病毒的信心.再次,詞云中出現(xiàn)了“鐘南山”人名,這反映了網(wǎng)民對(duì)鐘南山品德的敬仰以及對(duì)其貢獻(xiàn)的肯定.在此次疫情中,鐘南山是較早奔赴武漢的醫(yī)療專(zhuān)家之一,在抗擊疫情的過(guò)程中起到了重要的作用.此外,詞云中還出現(xiàn)了“日本”國(guó)家名,日本對(duì)我國(guó)抗擊疫情所提供的幫助也體現(xiàn)在了熱議的話(huà)題之中.以上這些反映了關(guān)于新冠肺炎疫情的輿情中,微博網(wǎng)友大力弘揚(yáng)的是正直善良、無(wú)私奉獻(xiàn)、團(tuán)結(jié)互助、睦鄰友好等正能量.
為使“新冠肺炎疫情”的輿情態(tài)勢(shì)更加直觀(guān)可見(jiàn),研究抓取了從1月1日~2月29日期間與“新冠肺炎疫情”話(huà)題相關(guān)的熱門(mén)評(píng)論共1.5萬(wàn)條,評(píng)論包括評(píng)論內(nèi)容、評(píng)論人所在地、評(píng)論時(shí)間等.運(yùn)用地理統(tǒng)計(jì)分析的方法,以某個(gè)地區(qū)用戶(hù)所發(fā)熱門(mén)評(píng)論數(shù)量作為此次疫情話(huà)題在該地區(qū)的討論熱度,并繪制了全國(guó)微博熱門(mén)評(píng)論人數(shù)分布圖(如圖6),“新冠肺炎疫情”的討論涉及全國(guó)各地用戶(hù),所在地為湖北的用戶(hù)討論極為熱烈,占評(píng)論總?cè)藬?shù)的9.33%,這與湖北是全國(guó)新冠肺炎疫情的重災(zāi)區(qū)密切相關(guān).所在地為廣東的用戶(hù)占比為8.84%,北京市為7.87%,江蘇省為7.78%,參與討論人數(shù)占比超過(guò)5%人的行政區(qū)還有浙江、四川、山東、上海,這些大多是本次疫情蔓延比較嚴(yán)重的地區(qū),其中還包括對(duì)新冠肺炎疫情不太嚴(yán)重但防控意識(shí)較強(qiáng)的地區(qū).
圖6 全國(guó)34個(gè)行政區(qū)微博熱門(mén)評(píng)論人數(shù)分布圖
Fig.6 Distribution map of popular comments on micro-blog in 34 Administrative Regions of China
研究又對(duì)每個(gè)行政區(qū)的評(píng)論做了情感分析,以微博用戶(hù)情緒均值作為該地區(qū)的情感指數(shù),其中,湖北省的情感指數(shù)最低,為0.525 6,代表心情很差(如圖7),西藏為0.534 1,代表心情差,江蘇為0.598 8,安徽為0.606 8,代表心情適中.而新疆為0.654 4,甘肅為0.662 3,代表心情很好.需要說(shuō)明的是,由于西藏網(wǎng)民只占總評(píng)論人數(shù)的0.19%,所以其心情較差應(yīng)不具有代表性.結(jié)合截至2月29日的全國(guó)新冠肺炎累計(jì)確診總數(shù)的地圖(如圖8)可以看出,疫情越嚴(yán)重的地方情感指數(shù)越低,即越負(fù)向,而疫情較輕的地方情感指數(shù)越高,即越正向.因此語(yǔ)料庫(kù)中出現(xiàn)率較高且情感指數(shù)較低的區(qū)域,與此次“新冠肺炎疫情”最嚴(yán)重的區(qū)域存在較高的吻合度.
圖7 全國(guó)各行政區(qū)網(wǎng)民情感值分布圖
Fig.7 Distribution map of sentimental value of Internet users in all administrative regions of China
圖8 全國(guó)新冠肺炎累計(jì)確診地圖
Fig.8 Cumulative quantity map of confirmed cases of novel coronavirus pneumonia in China
本研究使用Scrapy-Redis分布式爬蟲(chóng)對(duì)微博熱門(mén)話(huà)題進(jìn)行抓取,利用MongoDB分布式數(shù)據(jù)庫(kù)對(duì)抓取的數(shù)據(jù)信息進(jìn)行存儲(chǔ),使用K-Means算法對(duì)微博數(shù)據(jù)進(jìn)行話(huà)題聚類(lèi),并優(yōu)化SnowNLP對(duì)采集到的文本進(jìn)行情感分析,最后通過(guò)地理統(tǒng)計(jì)分析將各地網(wǎng)民情緒與各地疫情狀況相印證.結(jié)果初步揭示了網(wǎng)民對(duì)新冠肺炎疫情的態(tài)度變化趨勢(shì),總結(jié)了在不同時(shí)間段網(wǎng)民關(guān)注的多個(gè)話(huà)題,同時(shí)結(jié)合疫情中不同地理位置網(wǎng)民的心態(tài)以及評(píng)論人數(shù),分析預(yù)測(cè)接下來(lái)疫情的時(shí)空發(fā)展趨勢(shì),研究發(fā)現(xiàn)的意義主要有以下四個(gè)方面:
(1) 網(wǎng)民對(duì)于“新冠肺炎疫情”的整體態(tài)度是向好的,雖然在前一階段出現(xiàn)了較大波動(dòng),但是在此之后網(wǎng)民態(tài)度逐漸好轉(zhuǎn),并穩(wěn)定在以積極情緒為主導(dǎo)的態(tài)勢(shì),并用文本聚類(lèi)檢測(cè)出網(wǎng)民情感波動(dòng)的原因與肺炎疫情是否可防可控、新型冠狀病毒會(huì)不會(huì)人傳人等話(huà)題密切相關(guān),而人們積極情緒的出現(xiàn)與疫情得到較好控制有關(guān);(2) 通過(guò)高頻詞柱狀圖和詞云,得出在疫情期間網(wǎng)民關(guān)注的話(huà)題大多與如何進(jìn)行新冠肺炎疫情防控與全國(guó)共同抗擊肺炎有關(guān);(3) 通過(guò)地理統(tǒng)計(jì)分析,得出新冠肺炎疫情影響嚴(yán)重的區(qū)域,評(píng)論人數(shù)更多,情感更偏于負(fù)向;(4) 圖3所顯示的情感波動(dòng)幅度與疫情態(tài)勢(shì)基本成正相關(guān)的規(guī)律,即波動(dòng)幅度越小,疫情態(tài)勢(shì)越穩(wěn)定向好,可以預(yù)判全國(guó)疫情發(fā)展走勢(shì)將趨于穩(wěn)定向好,疫情防控工作還要穩(wěn)扎穩(wěn)打.由圖7所顯示的全國(guó)各行政區(qū)網(wǎng)民情感值與疫情嚴(yán)重程度基本成負(fù)相關(guān)的規(guī)律,即情感值越低,疫情越嚴(yán)重,可以推測(cè)湖北省的疫情形勢(shì)在未來(lái)一段時(shí)間仍然會(huì)比較嚴(yán)峻,武漢依然是全國(guó)疫情防控、病患救治等工作展開(kāi)的重點(diǎn)城市.
在疫情趨于平穩(wěn)的階段,可利用實(shí)時(shí)產(chǎn)生的評(píng)論數(shù)據(jù)進(jìn)行分析,通過(guò)對(duì)不同所在地用戶(hù)評(píng)論、微博的文本聚類(lèi)與情感分析,結(jié)合新聞媒體報(bào)道,預(yù)測(cè)和定位到疫情蔓延的受災(zāi)區(qū)域的受災(zāi)情況以及當(dāng)?shù)馗腥救藬?shù)的增減.后續(xù)將進(jìn)行熱點(diǎn)話(huà)題的空間分布與地域性關(guān)聯(lián)進(jìn)行研究[17],同時(shí)根據(jù)挖掘意見(jiàn)領(lǐng)袖在災(zāi)害事件中的話(huà)題傳播作用[18],剖析在網(wǎng)絡(luò)輿情中,謠言的產(chǎn)生與傳播過(guò)程.并試圖構(gòu)建災(zāi)害情況與輿情的回歸曲線(xiàn)方程,從而更好地通過(guò)輿論情報(bào)來(lái)判斷特定地理位置的受災(zāi)情況.