竇育民
摘 ? 要:社會不穩(wěn)定因素造成網(wǎng)絡(luò)輿情頻繁發(fā)生。為應(yīng)對網(wǎng)絡(luò)輿情處理不及時發(fā)酵為公共事件,文章提出了以統(tǒng)計模式學(xué)習(xí)方法為基礎(chǔ)構(gòu)建的智能決策系統(tǒng)模型。系統(tǒng)由底向上,詳細介紹了原始數(shù)據(jù)采集、清洗方法,數(shù)據(jù)處理的復(fù)雜過程,利用機器學(xué)習(xí)、大數(shù)據(jù)技術(shù)進行預(yù)測、識別和知識挖掘,根據(jù)社會需求提供相應(yīng)的決策服務(wù)模式。
關(guān)鍵詞:統(tǒng)計學(xué)習(xí);網(wǎng)絡(luò)輿情;智能決策
現(xiàn)代信息網(wǎng)絡(luò)快速發(fā)展,網(wǎng)絡(luò)言論成為人們發(fā)表觀點的首選場所。由于現(xiàn)實社會中具有不穩(wěn)定因素,網(wǎng)絡(luò)空間往往成為社會心理層面的不滿情緒、不滿意見表達的載體。當(dāng)某一導(dǎo)火索事件引發(fā)公眾關(guān)注、參與討論時,很可能會發(fā)酵為公共事件。由于意見領(lǐng)袖的引導(dǎo),加上受眾信息獲取的局限性,容易產(chǎn)生共鳴,社會不滿情緒的共振現(xiàn)象就產(chǎn)生了。因此,有效治理社會不穩(wěn)定因素是一項繁瑣、復(fù)雜且迫切需要解決的工程。
社會不穩(wěn)定因素在萌芽時期微小,常常被忽略,管理部門若對輿情的苗頭判斷不準(zhǔn)確、反應(yīng)不敏感,易造成輿情的危害性惡化升級,帶來不可預(yù)料的后果。應(yīng)把握社會時代脈搏,利用科技創(chuàng)新方法構(gòu)建網(wǎng)絡(luò)大數(shù)據(jù)、網(wǎng)絡(luò)輿情智能輔助決策系統(tǒng),各級政府部門已逐步提上日程。
1 ? ?智能決策系統(tǒng)層次劃分
智能決策系統(tǒng)由底向上可以分為:原始數(shù)據(jù)層、數(shù)據(jù)處理層、知識分析層、智能服務(wù)層。基于統(tǒng)計學(xué)習(xí)的模式識別方法,充分利用海量數(shù)據(jù)完成預(yù)測、分類、識別等任務(wù)。首先,通過多種途徑獲取新聞、評論、微信、微博、視頻等作為原始數(shù)據(jù)。其次,由于原始數(shù)據(jù)格式、模態(tài)不一致,不能直接使用,需要對原始數(shù)據(jù)進行清洗,異構(gòu)數(shù)據(jù)、不同模態(tài)數(shù)據(jù)需要融合處理。因為是基于統(tǒng)計學(xué)習(xí)的方法,一般還要對數(shù)據(jù)標(biāo)定以及劃分正負樣本,建立數(shù)據(jù)編碼字典。再次,在知識分析層可以實現(xiàn)個性化特征分析、數(shù)據(jù)關(guān)聯(lián)分析、潛在信息挖掘及知識語義情感分析任務(wù)。最后,系統(tǒng)提供的服務(wù)模式包括網(wǎng)絡(luò)輿情引導(dǎo)服務(wù)、網(wǎng)絡(luò)輿情預(yù)警服務(wù)、網(wǎng)絡(luò)輿情應(yīng)急方案服務(wù)、事件可視化分析、熱點簡報、專題跟蹤及傾向性分析(見圖1),以下具體介紹各個層次。
1.1 ?原始數(shù)據(jù)層
原始數(shù)據(jù)層的數(shù)據(jù)包括:(1)通過互聯(lián)網(wǎng)獲得的新聞、熱點、輿論、評論。(2)通過移動互聯(lián)網(wǎng)獲得的微信、博客、微博、視頻等多媒體數(shù)據(jù)。獲取原始數(shù)據(jù)的方法是利用網(wǎng)上爬蟲技術(shù)抓取所需數(shù)據(jù)。開源爬蟲工具有Arachnid,crawlzilla,Ex-Crawler,JSpider等,或者用Java,Python工具自己編寫。
原始數(shù)據(jù)是構(gòu)建模型、制作樣本的原始材料,通過對其進行預(yù)處理得到模型學(xué)習(xí)的訓(xùn)練樣本。在自然語言處理領(lǐng)域,原始數(shù)據(jù)是語言學(xué)研究的內(nèi)容,即語料[1-4]。語料是構(gòu)成語料庫的基本單元,現(xiàn)階段通用做法用文本作為語料,用文本中的上下文關(guān)系作為現(xiàn)實世界中語言的上下文關(guān)系。
1.2 ?數(shù)據(jù)處理層
信息化時代,每天產(chǎn)生復(fù)雜、多樣的海量數(shù)據(jù)。對數(shù)據(jù)進行處理是一項重要的工作,原始數(shù)據(jù)在使用之前需進行清洗和標(biāo)準(zhǔn)化。原始數(shù)據(jù)清洗內(nèi)容如下:(1)根據(jù)目標(biāo)任務(wù),在語料找到感興趣的內(nèi)容,其他與任務(wù)無關(guān)的作為噪聲進行清洗、去除,包括對原始文本的標(biāo)題、摘要、正文等提取關(guān)鍵字,去除雜質(zhì)詞語、符號。(2)對爬取的網(wǎng)頁內(nèi)容,去除廣告、標(biāo)簽、HTML,JS等代碼和注釋,以及其他與主題無關(guān)內(nèi)容。
常用的數(shù)據(jù)清洗方法可以分為兩類:(1)人工去重、對齊、刪除和標(biāo)注等。(2)規(guī)則提取內(nèi)容、正則表達式匹配、根據(jù)詞性和命名實體提取、編寫腳本或者代碼批處理等。
1.2.1 ?分詞
文本處理分析時,需要最小單位粒度是詞或者短語,所以需要對文本進行分詞。中文語料文本是句子、文章摘要、段落或者整篇文章組成的一個集合。一般來說,字、詞語之間有一定的聯(lián)系,有上下文語義關(guān)系。
1.2.2 ?詞性標(biāo)注
為了盡量融入更多有用的語言信息,需要給文本中的詞、短語打上類別標(biāo)簽,比如名詞、動詞、形容詞等,稱為詞性標(biāo)注,是一個經(jīng)典的序列標(biāo)注問題。對于有些中文自然語言處理來說,詞性標(biāo)注一般不是非必需的,比如:常見的文本分類就不用關(guān)心詞性問題,但是類似情感分析、知識推理是需要的。常見的詞性標(biāo)注方法有:基于最大熵的詞性標(biāo)注、基于統(tǒng)計最大概率輸出詞性和基于隱馬爾可夫模型(Hidden Markov Model,HMM)的詞性標(biāo)注。
1.2.3 ?提取特征
基于統(tǒng)計學(xué)習(xí)的智能決策模型時,樣本數(shù)據(jù)進行預(yù)處理后,需要把分詞處理后的詞和短語表示成智能算法能夠處理的特征向量。常用特征向量表示方法有詞袋模型(Bag of Word,BOW)和詞向量。
BOW不考慮詞語原本在句子中的順序,直接將每一個詞語或者符號統(tǒng)一放置在一個集合內(nèi),按照詞語出現(xiàn)的次數(shù)進行統(tǒng)計。統(tǒng)計詞頻只是最基本的方式,TF-IDF是詞袋模型的一個經(jīng)典用法。
詞向量是將字、詞語轉(zhuǎn)換成向量。常用的詞語表示有 One-hot,把每個詞表示為一個很長的向量,向量的維度為詞表大小,其中,絕大多數(shù)元素為0,只有一個維度的值為1。另外,Google團隊的Word2Vec,主要包括Skip-Gram模型和連續(xù)詞袋模型(Continuous Bag of Words,CBOW),以及在樣本學(xué)習(xí)中使用負采樣和Hierarchical Softmax方法。Word2Vec詞向量可以較好地表達不同詞之間的相似和類比關(guān)系。同時,還有Doc2Vec,WordRank和FastText等詞向量的表示方式。
特征選擇在文本處理任務(wù)中,特征向量占據(jù)首要地位。構(gòu)造好的特征向量,是要選擇合適的、表達能力強的特征。文本特征一般都是詞語,具有語義信息,找出一個特征子集,仍然可以保留語義信息。通過特征提取找到的特征子空間,將會丟失部分語義信息,特征選擇更多地依賴于經(jīng)驗和專業(yè)知識。為了更好反映客觀現(xiàn)實,通過遷移學(xué)習(xí)方法把詞向量映射到連續(xù)的高維空間,在這個高維空間,意思相近的不同單詞具有相近的向量表征。當(dāng)特征學(xué)習(xí)好時,也就建立了向量的編碼詞典。
1.2.4 ?多源信息融合
多源信息融合主要包含文本、圖像和語音3種模態(tài)。多模態(tài)情緒識別的核心挑戰(zhàn)是如何更好地對模態(tài)內(nèi)部的信息以及模態(tài)之間的交互作用進行建模。模態(tài)內(nèi)部的信息挖掘,主要是將各模態(tài)信息獨立于其他的模態(tài)信息進行單獨處理,以提取模態(tài)內(nèi)部的有用信息。與之對應(yīng)的,是模態(tài)之間具有交互作用的信息,情緒的表達通常是通過語言、視覺和聲學(xué)行為之間的相互作用共同完成的,如何準(zhǔn)確捕捉三者之間的聯(lián)系至關(guān)重要。
1.2.5 ?異構(gòu)數(shù)據(jù)處理
通過不同的方法得到數(shù)據(jù),在進行目標(biāo)任務(wù)的建設(shè)過程中,由于不同系統(tǒng)建設(shè)和實施數(shù)據(jù)處理的階段性、技術(shù)性等因素影響,在發(fā)展過程中積累了大量采用不同存儲方式的原始數(shù)據(jù),包括采用的數(shù)據(jù)存儲格式也大不相同,從簡單的文件數(shù)據(jù)庫到復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)庫,從而形成了異構(gòu)數(shù)據(jù)源。數(shù)據(jù)源異構(gòu)性主要表現(xiàn)在:(1)系統(tǒng)異構(gòu)。(2)模式異構(gòu),即數(shù)據(jù)源在存儲模式上的不同。(3)來源異構(gòu),即企業(yè)內(nèi)部數(shù)據(jù)源和外部數(shù)據(jù)源之間的異構(gòu)[5]。
1.3 ?知識分析層
根據(jù)海量數(shù)據(jù),利用模式學(xué)習(xí)的方法完成相關(guān)目標(biāo)任務(wù),包括:個性化特征信息分析、數(shù)據(jù)特征關(guān)聯(lián)分析、數(shù)據(jù)潛在信息挖掘、知識語義情感分析。
1.3.1 ?個性化特征信息
針對個性化特征,精準(zhǔn)確定用戶興趣取向。人們在海量數(shù)據(jù)網(wǎng)絡(luò)中無法及時找到有效的信息,而模式學(xué)習(xí)方法可以幫助找到個性化信息,推送能夠篩選相對具有有效性和相關(guān)性的信息。個性化特征信息有利于受眾獲取感興趣的信息內(nèi)容,減少受眾必須親自在海量信息中篩選有效信息所花費的時間,提高時效性上、空間上的精準(zhǔn)。注重用戶群體的精準(zhǔn),建立有效的用戶反饋機制。
1.3.2 ?關(guān)聯(lián)分析的方法
關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項之間的關(guān)聯(lián)或相互關(guān)系,根據(jù)一個數(shù)據(jù)項的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項的出現(xiàn)?;陉P(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法包括兩個步驟:首先,從海量原始數(shù)據(jù)中找出所有的高頻項目組合;其次,根據(jù)自定義閾值,從這些高頻項目組合篩選出關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用于互聯(lián)網(wǎng)大數(shù)據(jù)行業(yè)應(yīng)用中,以預(yù)測客戶的需求。
1.3.3 ?知識語義情感分析
通過特征向量的學(xué)習(xí)來識別出模態(tài)情緒。具體而言,將文本信息輸入通過私有的雙向長短期記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)層進行編碼,以學(xué)習(xí)模態(tài)內(nèi)部的變化信息。把整個網(wǎng)絡(luò)中學(xué)習(xí)到的多個模態(tài)的內(nèi)部信息和模態(tài)之間的交互信息進行融合,以獲取最終的情緒信息。模態(tài)情緒識別作為多模態(tài)情感分析的一個基本任務(wù),結(jié)合了語言信息去分析人們所表達的情感,現(xiàn)已成為了一個熱點研究課題。
情感分析的任務(wù)涉及的主題較多,一般是利用自然語言處理技術(shù)識別如評論中正向或者負向的情感等,或者是通過語音分析、寫作分析得到情緒判別結(jié)果。開始的時候可以用LSTM模型與詞向量模型一起,數(shù)一數(shù)句子中正負向情感詞的個數(shù)得到。
以上是基于統(tǒng)計的模式學(xué)習(xí)方法,通過處理原始數(shù)據(jù)得到特征向量后,作為目標(biāo)任務(wù)的訓(xùn)練樣本。根據(jù)具體應(yīng)用需求,選擇合適的學(xué)習(xí)方法訓(xùn)練模型。傳統(tǒng)的有監(jiān)督和無監(jiān)督等模式學(xué)習(xí)方法,如SVM,Na?ve Bayes、決策樹和K-means,KNN等模型。除了傳統(tǒng)的方法,當(dāng)前研究比較熱的深度學(xué)習(xí)模型在自然語言處理方面良好的表現(xiàn),比如卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、LSTM,Seq2Seq,ELMO,BERT等新的模型。
1.4 ?智能服務(wù)層
服務(wù)層是應(yīng)用系統(tǒng)的位于整個系統(tǒng)的最上層,根據(jù)需求可以提供以下幾種服務(wù)。
1.4.1 ?網(wǎng)絡(luò)輿情引導(dǎo)服務(wù)
主流媒體輿情引導(dǎo)力量不足、引導(dǎo)方式單一、社會媒體自身道德素養(yǎng)有限等,使網(wǎng)絡(luò)輿情更加難以控制。因此,政府應(yīng)對癥下藥,盡快增強主流媒體的力量,掌握引導(dǎo)輿情的話語權(quán)和主導(dǎo)權(quán),規(guī)范主流媒體,端正輿情引導(dǎo)態(tài)度,創(chuàng)新輿情引導(dǎo)方式,凝聚輿情引導(dǎo)力量,發(fā)揮社會媒體作用。
1.4.2 ?網(wǎng)絡(luò)輿情預(yù)警服務(wù)
按照評估規(guī)則進行確定輿情發(fā)展?fàn)顟B(tài)警告。按照嚴(yán)重程度,將突發(fā)性事件的網(wǎng)絡(luò)監(jiān)控預(yù)警劃分為4個等級,分別對應(yīng)輿情的危機程度:輕量級(藍色)、中度警級(黃色)、重警級(橙色)和特重警級(紅色)。
1.4.3 ?網(wǎng)絡(luò)輿情應(yīng)急方案服務(wù)
需要構(gòu)建一個相對全面的應(yīng)急預(yù)案庫,根據(jù)可能出現(xiàn)的輿情危機事件制定相應(yīng)的預(yù)控措施;建立靈敏的應(yīng)急輔助應(yīng)對系統(tǒng),根據(jù)預(yù)警等級選取已設(shè)定的相應(yīng)預(yù)案,啟動一定級別的應(yīng)急狀態(tài),科學(xué)地處理可能演變?yōu)檩浨槲C的輿情信息。
1.4.4 ?可視化分析和熱點簡報
數(shù)據(jù)可視化旨在借助于圖形化手段,清晰、有效地表達數(shù)據(jù)特征及其多個維度的內(nèi)在聯(lián)系。通過可視化往往可以直觀地發(fā)現(xiàn)關(guān)鍵的信息與特征,從而實現(xiàn)對于復(fù)雜的數(shù)據(jù)集的深入洞察。熱點簡報可以根據(jù)新聞出處權(quán)威度、評論數(shù)量、發(fā)言時間密集程度等參數(shù),識別出指定時間段內(nèi)的熱門話題。
1.4.5 ?專題跟蹤及傾向性分析
專題跟蹤及傾向性是指對新發(fā)表的文章、帖子等進行處理,分析是否與已有相同主題。針對每一話題、對文章發(fā)表的每一讀者的觀點及其傾向性進行分析,并將其進行統(tǒng)計。
2 ? ?結(jié)語
在社會穩(wěn)定網(wǎng)絡(luò)輿情頻繁發(fā)生的現(xiàn)實背景下,本文詳細介紹了以統(tǒng)計模式學(xué)習(xí)方法構(gòu)建的智能決策系統(tǒng)一般框架。深度學(xué)習(xí)方法還未成熟,仍有大量的工作需要研究,但其展現(xiàn)的強大的學(xué)習(xí)能力和泛化能力表明,隨著研究的深入,深度學(xué)習(xí)將在決策系統(tǒng)的應(yīng)用會不斷完善和增強。
[參考文獻]
[1]吳健超.大數(shù)據(jù)條件下我國政府網(wǎng)絡(luò)輿情監(jiān)控研究[D].大連:大連海事大學(xué),2017.
[2]陳麗.政府網(wǎng)絡(luò)輿情預(yù)警機制研究[D].南京:東南大學(xué),2016.
[3]周洋易.大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情預(yù)警研究[D].武漢:武漢理工大學(xué),2018.
[4]凌洪濤.第01課:中文自然語言處理的完整流程[EB/OL].(2018-06-26)[2019-09-10].https://blog.csdn.net/dongdouzin/article/details/80814037.
[5]佚名.異構(gòu)數(shù)據(jù)庫、異構(gòu)數(shù)據(jù)源、分布式數(shù)據(jù)庫三者的辨析[EB/OL].(2015-01-13)[2019-09-10].https://blog.csdn.net/u011546871/article/details/42672889.