趙淑君, 劉 偉, 江鳳月
(南陽理工學(xué)院 河南 南陽 473000)
近年來,我國社會進(jìn)入社交媒體爆炸式發(fā)展的階段,信息的傳播速度奇快,網(wǎng)絡(luò)輿情信息不僅是一個個熱門話題,更是對政府的感知能力和社會治理能力提出了全新的挑戰(zhàn)[1]。所謂的網(wǎng)絡(luò)輿情是以網(wǎng)絡(luò)為載體,在一定的社會空間內(nèi),通過網(wǎng)絡(luò)對社會事件的發(fā)生、發(fā)展和變化,產(chǎn)生的態(tài)度、信念和價值觀,即廣大網(wǎng)民對熱點事件的情感、態(tài)度、意見、觀點的表達(dá)、傳播與互動,以及造成的后續(xù)影響力的集合[2]。因此,互聯(lián)網(wǎng)成為有關(guān)部門了解網(wǎng)民的思想動態(tài)和輿情信息的重要途徑。近年來,網(wǎng)絡(luò)輿情事件頻發(fā),從表現(xiàn)上看,相關(guān)職能部門對網(wǎng)絡(luò)輿情信息的感知度不夠靈敏,常常錯過網(wǎng)絡(luò)輿情事件處理的最佳時間,或者對網(wǎng)絡(luò)輿情信息的發(fā)展形勢判斷不夠準(zhǔn)確,出現(xiàn)誤判等情況?;谠摤F(xiàn)狀,一款能夠自動獲取網(wǎng)絡(luò)輿情信息并對輿情信息進(jìn)行分析的軟是相關(guān)職能部門迫切需要的。相關(guān)職能部門可以通過該系統(tǒng)在海量數(shù)據(jù)中抓取網(wǎng)民對某事件的評論和情感傾向,來了解并把握群眾的情緒,從而對輿情事件做出更加高效、正確的決策。
當(dāng)下正處于“數(shù)據(jù)大爆炸”的時代,全球數(shù)據(jù)規(guī)模飛速增長,目前全球存儲系統(tǒng)迎來新一輪變革機(jī)遇,正在從“Big Data”(大數(shù)據(jù))發(fā)展到“Fast Data”(快數(shù)據(jù))。至2022年12月,我國網(wǎng)民規(guī)模達(dá)10.67億,比去年同期增長3549萬,互聯(lián)網(wǎng)普及率達(dá)75.6%。網(wǎng)民規(guī)模在不斷擴(kuò)張,數(shù)據(jù)越來越大,數(shù)據(jù)的結(jié)構(gòu)、類型更加豐富和多元。從近年來的一些網(wǎng)絡(luò)輿情熱點現(xiàn)象來看,網(wǎng)絡(luò)輿情在社交新媒體的“加持”下更是具有多元、多樣、快速、情緒化的特性[3]。
對于大數(shù)據(jù)的概念麥肯錫全球研究所給出的定義是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型[4]。“大數(shù)據(jù)”有4V層面,分別是Volume(規(guī)模性)、Velocity(多樣性)、Variety(高速性)、Veracity(價值性)[5]。Volume是體積,“大數(shù)據(jù)”的數(shù)據(jù)量體積龐大,2021年全球?qū)崟r數(shù)據(jù)量規(guī)模為16 ZB,2025年實時數(shù)據(jù)量將達(dá)到51 ZB;Variety是速度,大數(shù)據(jù)正在向快數(shù)據(jù)演變,即數(shù)據(jù)產(chǎn)生的速度快,同時要求“大數(shù)據(jù)”的處理頻度要高、處理速度要快;Variety是類型,“大數(shù)據(jù)”的數(shù)據(jù)類型繁多,包括日志、UGC(包括圖片、音視頻)、LBS信息等;Variety是價值密度,“大數(shù)據(jù)”價值密度低,比如某個用戶的LBS信息需要長時間積累才能有價值。
Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),是一個開源的大數(shù)據(jù)分析軟件,集合了大數(shù)據(jù)不同階段技術(shù)的生態(tài)系統(tǒng)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。網(wǎng)絡(luò)輿情數(shù)據(jù)采集和數(shù)據(jù)處理分析過程中,充分利用集群的威力進(jìn)行高速運算和存儲,選用Hadoop集群可以從單一的服務(wù)器擴(kuò)展到成千上萬的機(jī)器,將集群部署在多臺機(jī)器,每個機(jī)器提供本地計算和存儲,可以在本地進(jìn)行網(wǎng)絡(luò)輿情信息爬取,并且在本地進(jìn)行計算和存儲。Hadoop的核心組件有Yarn、HDFS和MapReduce,其中,Yarn是分布式資源管理系統(tǒng),實現(xiàn)集群資源管理和調(diào)試;HDFS是分布式文件系統(tǒng),主要用來解決大數(shù)據(jù)分布式存儲問題;MapReduce是分布式計算框架,實現(xiàn)大數(shù)據(jù)分布式計算功能。
在Web3.0大環(huán)境中,網(wǎng)絡(luò)信息的傳播呈多樣化,網(wǎng)絡(luò)輿論場從微博、聊天室的單一渠道發(fā)展到小紅書、抖音、嗶哩嗶哩、微信等多種形式,網(wǎng)絡(luò)輿論場的數(shù)量和聚集地劇增,特別是對輿論事件的評述也由傳統(tǒng)的設(shè)置議題和闡述言論演變?yōu)閺椖?、投票等多種新的形式,給網(wǎng)絡(luò)輿情的監(jiān)測、分析和治理工作帶來了更大的難度[6]。利用數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)來研究網(wǎng)絡(luò)輿情,能夠快速獲取有效信息,并對信息進(jìn)行分類和推送,為相關(guān)組織機(jī)構(gòu)的輿情監(jiān)測、輿情分析、輿情危機(jī)公關(guān)決策等提供一定依據(jù)。借助于成熟的大數(shù)據(jù)技術(shù),通過全文搜索、來源搜索、熱搜監(jiān)測等多重功能實現(xiàn)對全網(wǎng)文本、圖片、視頻輿情實時發(fā)現(xiàn),利用文本分析技術(shù)進(jìn)行情感分析、高頻詞分詞、文本分類、事件分類等,對網(wǎng)絡(luò)事件進(jìn)行關(guān)聯(lián)分析、趨勢分析和傾向性分析[7]。本文主要對大數(shù)據(jù)技術(shù)結(jié)合網(wǎng)絡(luò)輿情進(jìn)行分析研究,從而構(gòu)成新型的網(wǎng)絡(luò)輿情分析模型。
本文中網(wǎng)絡(luò)輿情處理的核心技術(shù)主要有5個步驟:
(1)輿情監(jiān)測:利用爬蟲技術(shù)對網(wǎng)絡(luò)上的輿情信息進(jìn)行實時監(jiān)測,通過全文搜索、來源搜索、熱搜監(jiān)測等多重功能實現(xiàn)對全網(wǎng)文本、圖片、視頻輿情實時發(fā)現(xiàn)。
(2)輿情預(yù)處理:利用大數(shù)據(jù)技術(shù)對輿情信息進(jìn)行數(shù)據(jù)去重和數(shù)據(jù)清洗。將不同類型的數(shù)據(jù)存儲在不同的數(shù)據(jù)模型中,如數(shù)據(jù)去重,可以把URL都存儲在Redis中完成URL的去重;內(nèi)容去重,用Elasticsearch將文章標(biāo)題一樣的內(nèi)容進(jìn)行檢索過濾。數(shù)據(jù)清洗可以通過自動提取字段和采用自動分類技術(shù)對軟文、廣告文、敏感文章分類,并且對抓取信源屏蔽。
(3)輿情存儲:利用HDFS技術(shù)將數(shù)據(jù)存儲多份,用儲存空間換取查詢時間。
(4)輿情分析:利用文本分析技術(shù)進(jìn)行情感分析、高頻詞分詞、事件分析、評論分析等。
(5)輿情報告:利用可視化技術(shù)對輿情信息生成分析報告,為輿情管理提供科學(xué)依據(jù)。
網(wǎng)絡(luò)輿情感知系統(tǒng)主要有數(shù)據(jù)采集模塊、數(shù)據(jù)分析處理模塊(數(shù)據(jù)倉庫)和數(shù)據(jù)可視化展示3大功能模塊。系統(tǒng)的數(shù)據(jù)處理流向如圖1所示。
圖1 數(shù)據(jù)流向圖
從爬蟲角度看,基于大數(shù)據(jù)技術(shù)網(wǎng)絡(luò)輿情感知系統(tǒng)的數(shù)據(jù)處理的關(guān)鍵在于能夠及時捕抓到輿情信息。系統(tǒng)數(shù)據(jù)的獲取通過使用分布式框架,建立分布式輿情數(shù)據(jù)采集機(jī)制,可以快速抓取各種類型的數(shù)據(jù)。
(1)網(wǎng)絡(luò)輿情數(shù)據(jù)獲取。系統(tǒng)運用Redis數(shù)據(jù)庫做分布式,一個Master節(jié)點和多個Slave節(jié)點,Master端管理Redis數(shù)據(jù)庫URL隊列和任務(wù)的分發(fā),Slave節(jié)點根據(jù)分配的任務(wù),爬取網(wǎng)頁信息并解析提取網(wǎng)頁數(shù)據(jù),再將解析的數(shù)據(jù)存儲在MongoDb數(shù)據(jù)庫中。分布式爬蟲控制節(jié)點執(zhí)行流程如圖2所示。
圖2 分布式爬蟲控制節(jié)點執(zhí)行流程圖
(2)網(wǎng)絡(luò)輿情數(shù)據(jù)存儲。系統(tǒng)選用Hadoop框架HDFS文件系統(tǒng)以及NoSQL數(shù)據(jù)平臺,將提取到的數(shù)據(jù)存儲到MongoDB數(shù)據(jù)庫中,便于后續(xù)流程對數(shù)據(jù)進(jìn)行分析使用。
(3)網(wǎng)絡(luò)輿情數(shù)據(jù)的分布式計算。Hadoop框架的MapReduce可以實現(xiàn)分布式計算,將待處理的輿情信息自動劃分成多個數(shù)據(jù)塊存儲在不同數(shù)據(jù)節(jié)點上;將每個數(shù)據(jù)塊的數(shù)據(jù)處理作業(yè)劃分成多個Map任務(wù)加以執(zhí)行,再經(jīng)過Reduce任務(wù)處理后將結(jié)果進(jìn)行輸出,MapReduce計算保證了系統(tǒng)執(zhí)行的可靠性和可擴(kuò)展性。
為從海量原始數(shù)據(jù)中獲取到有效數(shù)據(jù),需要對爬取到的原始數(shù)據(jù)做進(jìn)一步的提取和數(shù)據(jù)清洗,得到標(biāo)準(zhǔn)的數(shù)據(jù)格式,然后再對數(shù)據(jù)進(jìn)行文本分析。
(1)數(shù)據(jù)提取
系統(tǒng)采用Redis數(shù)據(jù)庫,可以充分發(fā)揮它的優(yōu)勢,首先對URL進(jìn)行去重,另外,在HTML的原始代碼中,有很多成對的標(biāo)簽,需要找到要爬取的標(biāo)簽,再開始提取有效信息。
(2)數(shù)據(jù)清洗
通常爬取到的數(shù)據(jù)都是非標(biāo)準(zhǔn)的數(shù)據(jù)格式,需要對數(shù)據(jù)進(jìn)行預(yù)處理[8]。從非標(biāo)準(zhǔn)的數(shù)據(jù)格式中提取每個新聞的標(biāo)題、正文、作者、發(fā)布日期以及對應(yīng)的正文頁面URL等,將有效數(shù)據(jù)保存到CSV文件。
(3)文本分析
將數(shù)據(jù)存儲到CSV文件之后,對文本內(nèi)容進(jìn)行分析。先使用jieba分詞器對中文文本分詞,分詞后的數(shù)據(jù)仍是雜亂無章,需要再次進(jìn)行數(shù)據(jù)清洗工作,通過去除停用詞將文中多余的一些副詞、量詞去掉,只保留主體內(nèi)容,然后做詞頻統(tǒng)計,將高頻詞統(tǒng)計出來生成詞云。為了便于計算將文章詞語轉(zhuǎn)化成數(shù)字,然后把文檔生成TF-IDF矩陣,計算文章相似度,再通過K-means聚類,最后得到幾個類的主題詞。
本文的系統(tǒng)架構(gòu)設(shè)計分3個層次,分別是輿情數(shù)據(jù)采集層、輿情數(shù)據(jù)加工層和輿情數(shù)據(jù)分析與挖掘?qū)?系統(tǒng)架構(gòu)設(shè)計如圖3所示。
圖3 系統(tǒng)架構(gòu)圖
(1)輿情數(shù)據(jù)采集層
輿情數(shù)據(jù)采集的質(zhì)量與大數(shù)據(jù)的分析結(jié)果有著至關(guān)重要的關(guān)系,輿情監(jiān)測的準(zhǔn)確性和全面性直接關(guān)系到后期輿情數(shù)據(jù)的分析和輿情事件的處理,是保證網(wǎng)絡(luò)輿情感知系統(tǒng)是否能夠準(zhǔn)確進(jìn)行輿情處理的重要因素[9]。網(wǎng)絡(luò)輿情數(shù)據(jù)的采集,數(shù)據(jù)源主要有新聞媒體(新聞網(wǎng)站、電子報、APP)、網(wǎng)絡(luò)自媒體(搜狐、今日頭條、博客、微信公眾號、微博)、論壇(貼吧、論壇、問答、知乎)、短視頻(抖音、快手等眾多平臺)等。本文采用分布式網(wǎng)絡(luò)爬蟲技術(shù)從上述網(wǎng)站、論壇等平臺來獲取數(shù)據(jù),通過利用關(guān)鍵詞、主題詞,如“高考”“就業(yè)”“民生”“南陽”等進(jìn)行網(wǎng)絡(luò)爬蟲,從而抓取相關(guān)的網(wǎng)絡(luò)輿情數(shù)據(jù)。
(2)輿情數(shù)據(jù)加工層
利用爬蟲技術(shù)采集來的輿情數(shù)據(jù)通常多而雜,會有大量的不完整的、不一致的和含有噪聲的數(shù)據(jù)。輿情數(shù)據(jù)加工主要是對這類數(shù)據(jù)進(jìn)行過濾、去重和清洗。本文采用Redis數(shù)據(jù)庫可以自動進(jìn)行URL去重;采用Elasticsearch內(nèi)部的查詢將文章標(biāo)題一樣的內(nèi)容檢索過濾掉;通過自動提取字段來提取關(guān)鍵數(shù)據(jù),自動分類技術(shù)對軟文、廣告文、敏感文章分類,并且對抓取信源屏蔽實現(xiàn)數(shù)據(jù)的清洗工作,具體運用的技術(shù)有缺失數(shù)據(jù)的人工填充、噪聲數(shù)據(jù)平滑技術(shù)等。然后,將清洗和加工后的數(shù)據(jù)存儲在非關(guān)系數(shù)據(jù)庫中,為便于后期數(shù)據(jù)分析和挖掘在數(shù)據(jù)倉庫中加以存儲。
(3)輿情數(shù)據(jù)分析與挖掘?qū)?/p>
數(shù)據(jù)分析與挖掘是對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行分析,利用數(shù)據(jù)挖掘技術(shù),獲取相關(guān)網(wǎng)絡(luò)輿情數(shù)據(jù)信息,給輿情的危機(jī)預(yù)警和應(yīng)急事件處理提供決策支持[10]。例如,通過中文分詞提取關(guān)鍵詞并對關(guān)鍵詞進(jìn)行分析,來獲取有價值的輿情信息;根據(jù)關(guān)聯(lián)規(guī)則挖掘,獲得相應(yīng)網(wǎng)絡(luò)輿情發(fā)展態(tài)勢;利用聚類分析技術(shù),對文章相似度聚類,挖掘相似的網(wǎng)絡(luò)輿情信息,利用深度學(xué)習(xí)框架進(jìn)行情感分類,獲取積極輿情、中性輿情和消極輿情。為相關(guān)職能機(jī)構(gòu)提供有價值的輿情信息。
系統(tǒng)實驗階段配置3個數(shù)據(jù)節(jié)點,結(jié)合Hadoop使用情況和系統(tǒng)所占用資源比例與其他組件所需內(nèi)存配置與用戶需求。最終選取測試服務(wù)器規(guī)劃如表1所示。
表1 測試服務(wù)器規(guī)劃
基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)感知系統(tǒng)可以根據(jù)用戶的關(guān)注點不同,靈活設(shè)置關(guān)鍵字,從不同的媒介平臺爬取用戶所關(guān)心的新聞信息,并對爬取的數(shù)據(jù)進(jìn)行分析展示。文中的實驗數(shù)據(jù),以南陽市“社會民生”版塊為例,設(shè)置“南陽市”“高考”“民生”等關(guān)鍵字,用分布式爬蟲技術(shù),抓取2023年6月份部分?jǐn)?shù)據(jù)并進(jìn)行存儲。獲取到新聞基礎(chǔ)內(nèi)容,輿情的數(shù)據(jù)結(jié)構(gòu)不同,數(shù)據(jù)格式不同,來源分散。下文分別從不同的角度展示爬取到的輿情內(nèi)容。
(1)輿情數(shù)據(jù)監(jiān)測
利用分布式爬蟲技術(shù)實時監(jiān)測“南陽市”“高考”“民生”等關(guān)鍵詞的網(wǎng)絡(luò)輿論,將監(jiān)測到的數(shù)據(jù)羅列顯示,自動將輿論進(jìn)行聚類以及情感分類。輿情數(shù)據(jù)監(jiān)測如圖4所示。
圖4 輿情數(shù)據(jù)監(jiān)測圖
(2)輿情熱詞云分析
詞云是將詞語按照一定順序和規(guī)律進(jìn)行排列,按照詞語出來的頻度或者字母的順序進(jìn)行排列,再以文字的大小來顯示熱點詞語。圖5是南陽市6月份“社會民生”板塊的關(guān)鍵詞。從圖5中可見,畢業(yè)季南陽市網(wǎng)民的關(guān)注點是大學(xué)生、就業(yè)、人工智能;高考過后,人們的關(guān)注點是志愿填報、招生計劃等內(nèi)容。
圖5 輿情熱詞云圖
(3)輿論情感占比分析
本文采用百度情感分析Senta模型自動識別和提取文本中的傾向、立場、評價、觀點等主觀信息。自動判斷該文本的情感極性類別并給出相應(yīng)的置信度進(jìn)行情感分類,獲取積極輿情、中性輿情和消極輿情。從圖6輿情情感占比分析圖中積極情感占10.43%,中性情感占82.7%,消極情感占6.87%。
圖6 輿論情感占比分析圖
經(jīng)研究測試,利用大數(shù)據(jù)技術(shù)實現(xiàn)網(wǎng)絡(luò)輿情分析系統(tǒng),能夠幫助相關(guān)職能部門更好地掌握人們對于熱點事件的關(guān)注強(qiáng)度,對網(wǎng)絡(luò)輿情有效引導(dǎo)起到重要作用,有利于社會的穩(wěn)定[11]。該系統(tǒng)在數(shù)據(jù)獲取上,抓取數(shù)據(jù)途徑受到一定的限制,對視頻、音頻、圖片等載體的數(shù)據(jù)獲取量不夠,數(shù)據(jù)采集技術(shù)和關(guān)鍵詞設(shè)置不夠全面,數(shù)據(jù)分析模型也需要進(jìn)一步研究完善,這些內(nèi)容也是下一步繼續(xù)研究的方向??傊?通過大數(shù)據(jù)技術(shù),實現(xiàn)對不同數(shù)據(jù)的有效抓取,實現(xiàn)網(wǎng)絡(luò)輿情的感知分析,為網(wǎng)絡(luò)環(huán)境的健康發(fā)展打下良好基礎(chǔ)。