王 飛,姜 鑫
(甘肅政法大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,甘肅 蘭州 730070)
區(qū)塊鏈技術(shù)的應(yīng)用越來(lái)越普及,社會(huì)輿情事件迅速在網(wǎng)絡(luò)上傳播、擴(kuò)展、衍生,甚至引發(fā)網(wǎng)絡(luò)輿情危機(jī)。
由于單一的網(wǎng)民觀點(diǎn)極性或者觀點(diǎn)強(qiáng)度不能充分描述網(wǎng)民觀點(diǎn)對(duì)網(wǎng)絡(luò)輿情的影響,因此從網(wǎng)絡(luò)輿情出發(fā),對(duì)基于區(qū)塊鏈技術(shù)的網(wǎng)絡(luò)輿情中的觀點(diǎn)樹(shù)進(jìn)行挖掘并展開(kāi)研究。
1.1.1 層次劃分的主要方法及其優(yōu)缺點(diǎn)
在層次劃分過(guò)程中,應(yīng)用較多的是自頂向下的方法,這種方法也稱局部法,指的是在類別樹(shù)中每一層都構(gòu)建一個(gè)或多個(gè)分類器,每個(gè)分類器在其所在層工作,從根節(jié)點(diǎn)開(kāi)始,逐層向下進(jìn)行分類,直到到達(dá)葉子節(jié)點(diǎn)[1]。
層次劃分的優(yōu)點(diǎn)在于,它較平坦的分類可以獲得更高的準(zhǔn)確率,并且更能夠準(zhǔn)確地描述出類與類之間的隸屬關(guān)系[2];其比較明顯的缺點(diǎn)在于,一次分類錯(cuò)誤就會(huì)影響后面每一步都出錯(cuò),也就是 “一步錯(cuò),步步錯(cuò)”。
1.1.2 面向網(wǎng)絡(luò)輿情的觀點(diǎn)樹(shù)挖掘方法
網(wǎng)絡(luò)輿情具有很強(qiáng)的時(shí)變性和環(huán)變性[3],為了進(jìn)一步挖掘出網(wǎng)絡(luò)輿情信息,本文提出一種面向網(wǎng)絡(luò)輿情的觀點(diǎn)樹(shù) (opinion tree)挖掘方法,進(jìn)一步向下進(jìn)行分類,實(shí)現(xiàn)觀點(diǎn)屬性的挖掘,從而基于層次劃分思想構(gòu)建觀點(diǎn)樹(shù),并提出一種觀點(diǎn)樹(shù)的網(wǎng)絡(luò)輿情層次信息表示的方法,構(gòu)建網(wǎng)絡(luò)輿情事件的觀點(diǎn)樹(shù)。
此樹(shù)逐層向下展開(kāi),以此將某一網(wǎng)絡(luò)輿情事件的觀點(diǎn)極性、觀點(diǎn)強(qiáng)度、觀點(diǎn)屬性構(gòu)成觀點(diǎn)樹(shù),并最終構(gòu)建面向網(wǎng)絡(luò)輿情的觀點(diǎn)樹(shù)挖掘模型。網(wǎng)絡(luò)輿情危機(jī)關(guān)注者能夠針對(duì)所關(guān)注細(xì)節(jié)內(nèi)容,查看觀點(diǎn)樹(shù)中的任何一個(gè)節(jié)點(diǎn)[4]。
而網(wǎng)絡(luò)輿情挖掘的過(guò)程實(shí)際也是一個(gè)網(wǎng)絡(luò)輿情信息觀點(diǎn)傾向分類的過(guò)程。在這個(gè)分類過(guò)程中,文檔概念類別之間存在著層次關(guān)系,即觀點(diǎn)極性分類下包含觀點(diǎn)強(qiáng)度分類,觀點(diǎn)強(qiáng)度分類下包含著觀點(diǎn)屬性分類[5]。
1.2.1 觀點(diǎn)樹(shù)的構(gòu)建過(guò)程
觀點(diǎn)樹(shù)的構(gòu)建過(guò)程主要有3 種[6],以下分別予以介紹。
1)第一種:整體至上而下。首先,在主題確定的情況下,進(jìn)行第一層粗粒度觀點(diǎn)挖掘 (Opinion Mining,OM),得到關(guān)于主題的3 種觀點(diǎn) (正面、負(fù)面和中立)。其次,對(duì)正面、負(fù)面兩種粗粒度觀點(diǎn)進(jìn)行中粒度OM,得到支持和反對(duì)的觀點(diǎn)強(qiáng)度。最后,對(duì)各個(gè)等級(jí)的觀點(diǎn)強(qiáng)度進(jìn)行細(xì)粒度OM,得到某種強(qiáng)度觀點(diǎn)的觀點(diǎn)屬性。
2)第二種:先確定根節(jié)點(diǎn),再進(jìn)行自下而上的觀點(diǎn)樹(shù)構(gòu)建。首先,基于某一輿情主題下進(jìn)行細(xì)粒度OM;其次,在細(xì)粒度觀點(diǎn)的基礎(chǔ)上再進(jìn)行中粒度OM;最后,在中粒度觀點(diǎn)的基礎(chǔ)上進(jìn)行粗粒度OM,整棵觀點(diǎn)樹(shù)構(gòu)建完畢。
3)第三種:觀點(diǎn)樹(shù)的構(gòu)建過(guò)程和前兩種不同。首先,構(gòu)建觀點(diǎn)樹(shù)的根節(jié)點(diǎn);其次,根據(jù)預(yù)警指標(biāo)的需要,構(gòu)建觀點(diǎn)樹(shù)的第二層枝節(jié)點(diǎn),即進(jìn)行中粒度觀點(diǎn)挖掘;最后,構(gòu)建觀點(diǎn)樹(shù)的第一層枝節(jié)點(diǎn)和葉子節(jié)點(diǎn)。
1.2.2 觀點(diǎn)樹(shù)的構(gòu)建步驟
事實(shí)上,觀點(diǎn)樹(shù)的構(gòu)建是一個(gè)層次劃分觀點(diǎn)樹(shù)挖掘 (Hierarchical Opinion Tree Mining,HOTM)算法。該算法的輸入為待劃分文檔di和層次劃分結(jié)構(gòu)H=<C,≤>,輸出為文檔所屬類別。
采用該算法,觀點(diǎn)樹(shù)的構(gòu)建步驟如下:首先,預(yù)處理,層次特征選擇;其次,根據(jù)各層的劃分器對(duì)文檔進(jìn)行劃分;最后,對(duì)待劃分文檔從最頂層劃分器把文檔依次分到其他多路徑中,并給出文檔的最終類別。
具體觀點(diǎn)樹(shù)的挖掘步驟如下。
1.3.1 粗粒度節(jié)點(diǎn)
粗粒度節(jié)點(diǎn)值的計(jì)算公式為
粗粒度節(jié)點(diǎn)的解算,在于將正向態(tài)度、負(fù)向態(tài)度、中立態(tài)度等觀點(diǎn)極性挖掘出來(lái),以此了解網(wǎng)民觀點(diǎn)中各種態(tài)度的分布情況。
1.3.2 中粒度節(jié)點(diǎn)
中粒度節(jié)點(diǎn)值的計(jì)算公式為
事實(shí)上,對(duì)于一件網(wǎng)絡(luò)輿情事件而言,較極端的高強(qiáng)度網(wǎng)民觀點(diǎn)對(duì)整個(gè)網(wǎng)絡(luò)輿情所起到的推動(dòng)作用更大,更能夠影響其他網(wǎng)民的觀點(diǎn)。因此,可以對(duì)較極端的高強(qiáng)度負(fù)向觀點(diǎn)進(jìn)行放大處理。
1.3.3 細(xì)粒度節(jié)點(diǎn)
Ahneg由Nhneg個(gè)二元組元素<對(duì)象,高強(qiáng)度負(fù)情感詞>構(gòu)成;Amneg由Nmneg個(gè)二元組元素<對(duì)象,中強(qiáng)度負(fù)情感詞>構(gòu)成;Alneg由Nlneg個(gè)二元組元素<對(duì)象,低強(qiáng)度負(fù)情感詞>構(gòu)成。
選擇3 個(gè)網(wǎng)絡(luò)輿情事件 (分別標(biāo)記為事件1、事件2 和事件3)在人民網(wǎng)強(qiáng)國(guó)論壇和微博等一些國(guó)內(nèi)主流網(wǎng)絡(luò)平臺(tái)中的相關(guān)帖子,作為該實(shí)驗(yàn)數(shù)據(jù)來(lái)源。
2.2.1 網(wǎng)絡(luò)輿情觀點(diǎn)樹(shù)挖掘的觀點(diǎn)分析
表1 為網(wǎng)絡(luò)輿情觀點(diǎn)樹(shù)挖掘結(jié)果,顯示了實(shí)驗(yàn)過(guò)程中分別對(duì)事件1、事件2 和事件3 進(jìn)行挖掘之后的粗粒度節(jié)點(diǎn)值和中粒度節(jié)點(diǎn)值。
在3 個(gè)事件中,獲得的負(fù)向觀點(diǎn)持有率分別為76.8%,65.7%,25.3%。
2.2.2 網(wǎng)絡(luò)輿情觀點(diǎn)樹(shù)挖掘的結(jié)果分析
第89 頁(yè)圖1 為事件1 的發(fā)帖總數(shù)折線圖。網(wǎng)絡(luò)輿情觀點(diǎn)樹(shù)給出了事件1 的各種粒度節(jié)點(diǎn),網(wǎng)絡(luò)輿情監(jiān)控者可以根據(jù)各個(gè)節(jié)點(diǎn)值,對(duì)網(wǎng)絡(luò)輿情事件的整體狀況掌握透徹,能夠判斷事件1 的影響,并采取相關(guān)的管理措施。
如在事件1 中,僅僅對(duì)人民網(wǎng)強(qiáng)國(guó)論壇上的帖子進(jìn)行統(tǒng)計(jì),就可以發(fā)現(xiàn)其帖子總數(shù)在一段短時(shí)間內(nèi)呈迅速上升的趨勢(shì)。
在圖1 中,橫坐標(biāo)為日期,縱坐標(biāo)為帖子總數(shù)。抽取人民網(wǎng)強(qiáng)國(guó)論壇中一個(gè)月的帖子進(jìn)行觀察,通過(guò)曲線可以了解到該事件所引發(fā)的帖子總數(shù)并不是特別大,也沒(méi)有達(dá)到經(jīng)驗(yàn)值所設(shè)定的5 000 個(gè)(這一經(jīng)驗(yàn)值可以根據(jù)實(shí)際情況放大或者縮?。@需要對(duì)網(wǎng)民觀點(diǎn)進(jìn)行進(jìn)一步的挖掘。通過(guò)對(duì)負(fù)向觀點(diǎn)持有率、各種強(qiáng)度的負(fù)向觀點(diǎn)持有率以及觀點(diǎn)屬性的分析,從而判斷事件1 的影響程度以及進(jìn)一步走向。
圖1 事件1 的發(fā)帖總數(shù)折線圖
因此,這樣一棵觀點(diǎn)樹(shù)能夠反映出整個(gè)網(wǎng)絡(luò)輿情狀態(tài),較好地表示了網(wǎng)絡(luò)輿情,并且觀點(diǎn)樹(shù)可以實(shí)現(xiàn)網(wǎng)絡(luò)輿情的量化。
面向網(wǎng)絡(luò)輿情的觀點(diǎn)樹(shù)挖掘研究,實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)輿情狀態(tài)的挖掘,為網(wǎng)絡(luò)輿情趨勢(shì)提供量化基礎(chǔ),并提供進(jìn)一步研究的基礎(chǔ)。
在區(qū)塊鏈時(shí)代,海量數(shù)據(jù)為網(wǎng)絡(luò)輿情決策提供了充足的數(shù)據(jù)參考,但是基于區(qū)塊鏈的網(wǎng)絡(luò)輿情決策的價(jià)值并不在于數(shù)據(jù)的容量大小,就數(shù)據(jù)本身而言,它并不能自動(dòng)成為高效的生產(chǎn)要素。只有經(jīng)過(guò)加工、挖掘、分析的數(shù)據(jù),才能充分釋放其價(jià)值。
為了規(guī)避基于區(qū)塊鏈的網(wǎng)絡(luò)輿情決策的技術(shù)風(fēng)險(xiǎn),需要不斷創(chuàng)新基于區(qū)塊鏈的網(wǎng)絡(luò)輿情決策的數(shù)據(jù)采集、挖掘、分析和使用技術(shù),為網(wǎng)絡(luò)輿情決策提供更加可靠的數(shù)據(jù)。為基于區(qū)塊鏈的網(wǎng)絡(luò)輿情決策提供更加成熟、可靠、安全的技術(shù)支撐。