雍 熙 ,華 東 ,魏旭強(qiáng)
(1.水利部信息中心,北京 100053;2.北京數(shù)夢(mèng)工場(chǎng)科技有限公司,北京 100089)
1762年,盧梭在《社會(huì)契約論》當(dāng)中首次把“公眾”和“意見”2 個(gè)詞聯(lián)系起來,借此表達(dá)大眾對(duì)社會(huì)性的公共事務(wù)的看法,即“輿情”[1]。輿情是民眾關(guān)于社會(huì)中各種現(xiàn)象和問題所表達(dá)的信念、態(tài)度、意見、情緒等表現(xiàn)的總和,是現(xiàn)代國(guó)家治理的重要內(nèi)容。2019年1月25日,中共中央政治局在人民日?qǐng)?bào)社就全媒體時(shí)代和媒體融合發(fā)展舉行第 12 次集體學(xué)習(xí),表現(xiàn)出黨對(duì)新聞?shì)浾摴ぷ鞯母叨戎匾暋?/p>
隨著因特網(wǎng)在全球范圍內(nèi)的飛速發(fā)展,根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第 48 次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至 2021年6月,我國(guó)網(wǎng)民規(guī)模為 10.11 億人,其中手機(jī)網(wǎng)民占比達(dá) 99.6%,互聯(lián)網(wǎng)普及率達(dá) 71.6%。目前微信、新聞評(píng)論、BBS 論壇、博客、播客、微博、跟帖及轉(zhuǎn)帖等涌現(xiàn)出的大量信息,其中不少涉及與水利相關(guān)的內(nèi)容。
網(wǎng)絡(luò)媒體已被公認(rèn)為是繼報(bào)紙、廣播、電視之后的“第四媒體”,網(wǎng)絡(luò)成為反映社會(huì)輿情的主要載體之一。實(shí)際上互聯(lián)網(wǎng)已經(jīng)有了類似于當(dāng)代德國(guó)著名哲學(xué)家哈貝馬斯所說的公共空間的性質(zhì),人們可以在其中相對(duì)自由的交談和辯論。然而世界上沒有絕對(duì)的自由,網(wǎng)絡(luò)空間同樣如此,必須要根據(jù)國(guó)家實(shí)際情況,在自由和法治之間找到合理的均衡點(diǎn),網(wǎng)絡(luò)空間同樣需要合理管控。網(wǎng)絡(luò)輿情存在廣泛性、突發(fā)性、主觀性、多元性等特點(diǎn),因此迫切需要一套專業(yè)的工具和技術(shù)進(jìn)行整理、分析。在食品安全、疫情防控、公安政治傳播等領(lǐng)域早已進(jìn)行了輿情大數(shù)據(jù)應(yīng)用的嘗試[2-4]。信息化建設(shè)是開展大數(shù)據(jù)輿情工作的前提條件,通過建立專門的信息系統(tǒng),設(shè)計(jì)合理的人工智能和大數(shù)據(jù)算法,水利業(yè)務(wù)部門可以及時(shí)收集相關(guān)信息服務(wù)于具體業(yè)務(wù)應(yīng)用,水利宣傳部門可以及時(shí)應(yīng)對(duì)公共突發(fā)事件,如留言傳播,對(duì)民眾關(guān)于涉水事件表達(dá)的意見也能及時(shí)進(jìn)行溝通和互動(dòng),從而有效地引導(dǎo)輿情走向積極正面的方向。因此運(yùn)用合理的技術(shù)手段和體系架構(gòu)建設(shè)水利輿情大數(shù)據(jù)監(jiān)測(cè)分析平臺(tái),是支撐水利輿情監(jiān)測(cè)工作積極有序開展的重要基礎(chǔ)。
防汛抗旱、水污染、水資源開發(fā)利用、飲水安全、節(jié)水灌溉等涉水問題往往與人民群眾日常生活息息相關(guān),許多水利工程投資巨大,施工周期漫長(zhǎng),直接影響到當(dāng)?shù)氐淖匀簧鷳B(tài)、經(jīng)濟(jì)發(fā)展、社會(huì)生活的方方面面,因此常常引起社會(huì)各界的高度關(guān)注。2012年北京特大暴雨災(zāi)害和 2018年山東壽光洪災(zāi)都被當(dāng)年的《中國(guó)互聯(lián)網(wǎng)輿情分析報(bào)告》列入當(dāng)年的 20 件熱點(diǎn)輿情事件[5]1,2017年的嘉臨江鉈污染突發(fā)事件也同樣引起社會(huì)各界的高度關(guān)注[6]。
我國(guó)很早就建立了水利輿情制度,歷朝歷代都很重視水利奏報(bào)[7]。新中國(guó)成立后,水利部門同樣對(duì)輿情高度重視:1988年水利部首次設(shè)立新聞發(fā)言人;2014年水利部對(duì)新聞宣傳工作管理辦法予以修訂,首次提出建立健全例行新聞發(fā)布制度,通過新聞發(fā)布會(huì),經(jīng)常對(duì)一些民眾關(guān)心的水利問題進(jìn)行發(fā)布和解答,從而為積極正確的引導(dǎo)輿論熱點(diǎn)問題做出重要貢獻(xiàn)[8]1。
水利輿情除了有一般網(wǎng)絡(luò)輿情的普遍規(guī)律外,也有一些自身特點(diǎn),如水利輿情信息量往往集中在每年6—10月的主汛期,這一時(shí)間段各種媒介中的涉水新聞會(huì)陡然增多[9]1。另一方面,水利行業(yè)由于專業(yè)化程度較高,因此也容易引起一些群眾和媒體的“誤讀”,如 2016年4月的地下水動(dòng)態(tài)月報(bào)在互聯(lián)網(wǎng)發(fā)布后,有媒體發(fā)文《水利部摸底地下水資源:八成不能飲用》,文章一發(fā)立刻引爆網(wǎng)絡(luò)輿論,水利部和中央多家新聞主要媒體出來辟謠,才平息了輿論,究其原因是媒體混淆了淺層地下水和地下水水源的概念造成的[8]2。
隨著水利改革的深入和國(guó)家對(duì)生態(tài)環(huán)境、水安全問題的重視,水利網(wǎng)絡(luò)輿情的監(jiān)測(cè)、分析、判斷及水利新聞宣傳工作越來越受到黨和政府的重視。因此水利部門通過大數(shù)據(jù)手段,及早地發(fā)現(xiàn)涉水網(wǎng)絡(luò)輿情,研判輿情的發(fā)展趨勢(shì),并通過權(quán)威途徑予以澄清,有著重大的現(xiàn)實(shí)意義。構(gòu)建基于大數(shù)據(jù)的水利輿情采集與服務(wù)平臺(tái),水利部門可以全天候監(jiān)測(cè)新聞門戶、論壇、博客、微信、微博、電子報(bào)、SNS(社交網(wǎng)絡(luò)服務(wù))等載體中的輿情信息,及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)熱點(diǎn),全面掌握涉水輿情動(dòng)態(tài)。通過大數(shù)據(jù)平臺(tái),水利部門可以對(duì)涉水的網(wǎng)絡(luò)信息進(jìn)行有效的提取和分析,如分析是否為負(fù)面消息,是否為輿情熱點(diǎn),并揭示輿情的傳播途徑及爆發(fā)趨勢(shì)。運(yùn)用人工智能技術(shù),水利部門可以對(duì)水利輿情進(jìn)行精準(zhǔn)分類和情感分析,還可以以文字和圖表的形式直觀生成各種輿情趨勢(shì)圖表,并自動(dòng)生成輿情簡(jiǎn)報(bào)和專報(bào),從而更好地為業(yè)務(wù)部門服務(wù)。
水利輿情大數(shù)據(jù)監(jiān)測(cè)分析平臺(tái)建設(shè)主要包括基礎(chǔ)設(shè)施建設(shè)、數(shù)據(jù)資源建設(shè)、輿情智能分析、輿情大數(shù)據(jù)可視化建設(shè)四部分內(nèi)容,平臺(tái)架構(gòu)圖如 1 所示。圖中源數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)計(jì)算所對(duì)應(yīng)的內(nèi)容為基礎(chǔ)設(shè)施建設(shè),大數(shù)據(jù)存儲(chǔ)部分所對(duì)應(yīng)的內(nèi)容為數(shù)據(jù)資源建設(shè),輿情智能應(yīng)用則包括輿情智能分析和大數(shù)據(jù)可視化建設(shè)的相關(guān)內(nèi)容。
基礎(chǔ)設(shè)施層是水利輿情大數(shù)據(jù)監(jiān)測(cè)分析平臺(tái)運(yùn)行的基礎(chǔ)環(huán)境,包括服務(wù)器、網(wǎng)絡(luò)、系統(tǒng)軟件、存儲(chǔ)擴(kuò)容磁盤、網(wǎng)絡(luò)安全系統(tǒng)等。由于目前的輿情數(shù)據(jù)采集量巨大,每日都要增加許多新的數(shù)據(jù)內(nèi)容,因此需要采用分布式的可擴(kuò)展的服務(wù)器架構(gòu)存儲(chǔ)海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。同時(shí),水利輿情大數(shù)據(jù)監(jiān)測(cè)分析平臺(tái)需要具有大數(shù)據(jù)實(shí)時(shí)和離線計(jì)算的能力,以及常用的智能分析尤其是自然語言處理方面的算法工具。水利輿情大數(shù)據(jù)監(jiān)測(cè)分析平臺(tái)可采用阿里云、騰訊云、華為云等提供的大數(shù)據(jù)存儲(chǔ)和計(jì)算能力,也可以利用 hadoop 和 spark 等開源架構(gòu)搭建大數(shù)據(jù)分析平臺(tái)。
水利輿情數(shù)據(jù)資源建設(shè)主要包括以下兩部分內(nèi)容:
1)涉水輿情采集。網(wǎng)絡(luò)輿情主要通過微信、新聞、論壇/BBS、微博、博客、即時(shí)通信軟件等渠道形成和傳播,這些通道的承載體主要為動(dòng)態(tài)網(wǎng)頁(yè),它們承載著松散的結(jié)構(gòu)化信息,這使得輿情信息的有效抽取有一定難度。通過設(shè)立河湖長(zhǎng)制、水環(huán)境、水資源、水利工程、水庫(kù)等關(guān)鍵詞,水利輿情采集與服務(wù)平臺(tái)須實(shí)現(xiàn)動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)的抽取與集成,且要達(dá)到較高的處理準(zhǔn)確率及抽取效率。
2)涉水輿情數(shù)據(jù)處理。采集的各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)要先進(jìn)行數(shù)學(xué)處理,如數(shù)據(jù)去重、標(biāo)準(zhǔn)化等。還需要對(duì)涉水的輿情信息進(jìn)行主題分類,例如:可以按照水土保持、農(nóng)村水利、飲用水安全、地下水、地表水等內(nèi)容分類,也可以按照四川、湖南、江西等省份,或者長(zhǎng)江、黃河等流域分類。數(shù)據(jù)處理的主要目的是構(gòu)建輿情數(shù)據(jù)倉(cāng)庫(kù),為進(jìn)一步的智能分析和挖掘提供便利。
水利輿情的智能分析是水利輿情大數(shù)據(jù)應(yīng)用的核心內(nèi)容,主要包括以下內(nèi)容:
圖1 水利輿情大數(shù)據(jù)監(jiān)測(cè)分析平臺(tái)架構(gòu)圖
1)網(wǎng)絡(luò)輿情發(fā)現(xiàn)與追蹤。網(wǎng)民討論的話題繁多,涵蓋社會(huì)方方面面,水利輿情大數(shù)據(jù)平臺(tái)需從海量信息中,按照輿情的內(nèi)容找到和水利有關(guān)的熱點(diǎn)問題、敏感話題,并對(duì)其趨勢(shì)變化進(jìn)行追蹤,如該內(nèi)容是否引起足夠多的網(wǎng)民關(guān)注,轉(zhuǎn)發(fā)率和跟貼量是多少,等等。
2)網(wǎng)絡(luò)輿情情感分析。通過情感分析可以明確網(wǎng)絡(luò)傳播者所蘊(yùn)涵的感情、態(tài)度、觀點(diǎn)、立場(chǎng)、意圖等主觀反映。對(duì)輿情文本進(jìn)行情感分析,實(shí)際上就是試圖利用計(jì)算機(jī)技術(shù)根據(jù)文本的內(nèi)容提煉出文本作者的情感方向。水利輿情大數(shù)據(jù)應(yīng)用須通過判斷網(wǎng)絡(luò)環(huán)境下情感特征詞的特點(diǎn)和類型,進(jìn)行語氣判別和標(biāo)注,從而構(gòu)建一個(gè)面向互聯(lián)網(wǎng)的傾向性語氣詞典,建設(shè)一定規(guī)模的標(biāo)準(zhǔn)數(shù)據(jù)集,為情感分析的深入研究提供支持。
3)輿情監(jiān)測(cè)預(yù)警。網(wǎng)絡(luò)輿情的分析預(yù)警是一個(gè)融匯復(fù)雜網(wǎng)絡(luò)動(dòng)力學(xué)、人工智能、數(shù)據(jù)挖掘、計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)技術(shù)、自然語言處理等多學(xué)科知識(shí)的前沿領(lǐng)域,涉及網(wǎng)絡(luò)輿情信息采集、分析、處理、分類、監(jiān)測(cè)和預(yù)警的全過程。如:通過設(shè)置河長(zhǎng)關(guān)注的輿情監(jiān)測(cè)主題和關(guān)鍵詞“黑臭水體”“水污染”“藍(lán)藻”等詞匯,可定時(shí)采集門戶網(wǎng)站、新聞網(wǎng)站、時(shí)事論壇、博客和微博等發(fā)布的信息,通過文本挖掘、關(guān)聯(lián)分析、情感分析、趨勢(shì)分析等技術(shù)生成輿情分析報(bào)告,依據(jù)分析結(jié)果進(jìn)行輿情預(yù)警,并通過建設(shè)大數(shù)據(jù)網(wǎng)絡(luò)輿情模型,研究和預(yù)測(cè)網(wǎng)絡(luò)輿情的演化趨勢(shì)和擴(kuò)散特征。
可視化是大數(shù)據(jù)應(yīng)用的重要環(huán)節(jié),可視化大屏的建設(shè)可以使得大數(shù)據(jù)分析的前期成果得到更加直觀、有效的呈現(xiàn)。可視化包括以下內(nèi)容和手段:接入數(shù)據(jù)可視化,主要顯示互聯(lián)網(wǎng)數(shù)據(jù)的每日總采集量,以及通過直方圖等手段顯示出數(shù)據(jù)的來源及比例;綜合態(tài)勢(shì)可視化,主要通過顏色曲線圖等方式,顯示事件的熱度和過去的走勢(shì);地域熱點(diǎn)可視化,可以反映和地域、流域相關(guān)的輿情分布情況,對(duì)于水利行業(yè)這種強(qiáng)地理屬性的行業(yè)來說有著特殊的意義。
通過各種類型的數(shù)據(jù)可視化技術(shù),可以方便決策者迅速掌握目前的水利輿情實(shí)際情況和走勢(shì),了解涉水事件的熱度和區(qū)域分布,知曉人民群眾對(duì)涉水事件的情感態(tài)度,明白輿情信息的具體來源,從而有利于決策者做出最終的合理研判。
水利部的輿情監(jiān)測(cè)工作始于 2008年[9]1。通過10 多 a 的努力,水利輿情大數(shù)據(jù)取得了較大的進(jìn)步和成效。水利部信息中心已經(jīng)搭建了專門的水利輿情大數(shù)據(jù)平臺(tái),并且按照關(guān)鍵字實(shí)時(shí)收集各種媒體的涉水信息。水利部宣傳教育中心每月都會(huì)公布水利部官方微信“中國(guó)水利”閱讀量排名前 10 位的文章,并在官網(wǎng)上排名出各媒體中水利正面輿情事件和敏感及負(fù)面輿情熱度各前 10 位的新聞。2014年8月3日發(fā)生的云南魯?shù)榧t石巖堰塞湖事件,2016年4月11日有媒體因?yàn)檎`讀而報(bào)道《水利部摸底地下水資源:八成不能飲用》的事件,都曾立刻引起民眾高度關(guān)注。但因?yàn)橥ㄟ^水利輿情大數(shù)據(jù)挖掘,水利部第一時(shí)間掌握了輿論熱點(diǎn)并立刻做出積極響應(yīng),才正確引導(dǎo)了社會(huì)輿論[8]2。
除了水利部本級(jí)以外,流域和地方水利機(jī)構(gòu)同樣高度重視水利輿情大數(shù)據(jù)建設(shè)。黃河、珠江水利委員會(huì),以及北京、廣東、江西等省市都開通了自己的官方微信,許多省市的水利部門已定期編制輿情月報(bào),其中:2018年山東省水利輿情大數(shù)據(jù)平臺(tái)全面升級(jí)改造后,已經(jīng)和水利部宣傳教育中心緊密合作并上傳各種熱點(diǎn)數(shù)據(jù)[5]1;遼寧省水利廳也搭建了輿情大數(shù)據(jù)平臺(tái),全方位全天候地對(duì)涉水輿情進(jìn)行監(jiān)測(cè)[10];廣東省一直積極完善輿情工作機(jī)制,通過大數(shù)據(jù)技術(shù)把輿情熱點(diǎn)發(fā)現(xiàn)和新聞宣傳工作緊密結(jié)合,通過定期編制日?qǐng)?bào)、月報(bào)、專報(bào),迅速發(fā)現(xiàn)因?yàn)槔字萸嗄赀\(yùn)河決口造成農(nóng)田被淹、飲水安全問題,以及清遠(yuǎn)市陽(yáng)山縣特大暴雨造成的熱點(diǎn)輿論,并組織專家及時(shí)對(duì)事件的真實(shí)情況做出調(diào)查和解答[11];江蘇省水利廳也通過輿情大數(shù)據(jù)系統(tǒng),迅速發(fā)現(xiàn)省內(nèi)多地非法采砂、常州暴雨引起堤壩受損、蘇州毒魚造成水污染等熱點(diǎn)涉水輿情事件[12]。
水利輿情大數(shù)據(jù)應(yīng)用建議如下:
1)加強(qiáng)水利輿情大數(shù)據(jù)平臺(tái)本身的建設(shè)。由于網(wǎng)民數(shù)量的不斷增加,互聯(lián)網(wǎng)上的數(shù)據(jù)量處于爆炸式增長(zhǎng)狀態(tài),使得數(shù)據(jù)采集和存儲(chǔ)的難度也在不斷增加。為了更加快速地從海量數(shù)據(jù)中采集和提取出和水利相關(guān)的輿情信息,并且有效地存儲(chǔ)這些結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),必須不斷地優(yōu)化大數(shù)據(jù)平臺(tái)本身的功能。另外,隨著數(shù)據(jù)量的增加,平臺(tái)本身的安全性和運(yùn)維難度也在增加,所以加強(qiáng)水利輿情大數(shù)據(jù)的應(yīng)用,首先要提高輿情大數(shù)據(jù)平臺(tái)的安全性和穩(wěn)定性,保證平臺(tái)技術(shù)的先進(jìn)性。
2)加強(qiáng)水利行業(yè)特有的輿情大數(shù)據(jù)算法研究。近年來出現(xiàn)了許多和大數(shù)據(jù)相關(guān)的算法,利用動(dòng)力學(xué)模型[13]和人工智能方法[14],針對(duì)互聯(lián)網(wǎng)輿情的方方面面進(jìn)行分析,如對(duì)熱點(diǎn)事件的流行度預(yù)測(cè)[15],對(duì)網(wǎng)絡(luò)輿情的情感分析[16]等。但這些算法,針對(duì)水利行業(yè)特色的相對(duì)較少,未來的水利輿情大數(shù)據(jù)應(yīng)用,應(yīng)該把這些通用算法和水利行業(yè)特征更好地結(jié)合起來,設(shè)計(jì)出更適合水利行業(yè)分析研判的算法。
3)加強(qiáng)和各類媒體數(shù)據(jù)的共享與協(xié)作。目前,除了傳統(tǒng)的媒體和互聯(lián)網(wǎng)上論壇、微博信息外,還有許多“深網(wǎng)”[17],如個(gè)人微信及抖音短視頻。這些“深網(wǎng)”中的信息因?yàn)闋可嬗脩舻膫€(gè)人隱私,往往比傳統(tǒng)的互聯(lián)網(wǎng)輿情更加難以利用。但隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,微信和抖音短視頻的影響力不斷提升,成為了解真實(shí)輿情不可忽略的媒介工具。因此,如何同這些媒體合作,從而挖掘出和水利相關(guān)的內(nèi)容信息,也是未來水利大數(shù)據(jù)應(yīng)用的重要課題。
水利行業(yè)是國(guó)家的基礎(chǔ)性行業(yè),牽涉面廣,和人民群眾的生活關(guān)系密切,有著特殊的重要性和敏感性。近年來,隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)上積累了海量的輿情數(shù)據(jù),利用大數(shù)據(jù)、人工智能等技術(shù)手段對(duì)這些互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行分析挖掘,可以迅速發(fā)現(xiàn)與水利相關(guān)的輿情熱點(diǎn),預(yù)測(cè)出熱點(diǎn)事件的未來走勢(shì),從而為水利宣傳部門準(zhǔn)確掌握輿情動(dòng)態(tài),及時(shí)采取有效行動(dòng)提供合理的依據(jù)。水利輿情大數(shù)據(jù)監(jiān)測(cè)分析平臺(tái)是進(jìn)行水利輿情大數(shù)據(jù)工作的實(shí)際載體,是開展水利輿情工作的先決條件,因此對(duì)水利輿情大數(shù)據(jù)監(jiān)測(cè)分析平臺(tái)技術(shù)路線的研究十分必要。另外,信息技術(shù)發(fā)展迅速,隨著移動(dòng)互聯(lián)網(wǎng)的興起和新的社交媒體如微信、抖音短視頻的出現(xiàn),水利輿情大數(shù)據(jù)監(jiān)測(cè)分析平臺(tái)的架構(gòu)與技術(shù)手段也將面臨新的挑戰(zhàn),只有與時(shí)俱進(jìn)不斷完善水利輿情大數(shù)據(jù)監(jiān)測(cè)分析平臺(tái)的建設(shè)內(nèi)容,才能適應(yīng)時(shí)代的發(fā)展。
實(shí)踐表明,無論是水利部本級(jí)還是流域、地方水利機(jī)構(gòu),水利輿情大數(shù)據(jù)監(jiān)測(cè)分析平臺(tái)對(duì)開展水利輿情工作都起著基礎(chǔ)性的支撐作用。因此,水利輿情大數(shù)據(jù)技術(shù)的創(chuàng)新和完善,以及水利輿情大數(shù)據(jù)監(jiān)測(cè)分析平臺(tái)的建設(shè)與應(yīng)用對(duì)于水利行業(yè)的健康穩(wěn)定發(fā)展有著重大的現(xiàn)實(shí)意義。