方中純 宋平
摘要:為了改善現(xiàn)有突發(fā)檢測的不足,提出一種融合詞特征和Strom框架的突發(fā)事件在線檢測模型。在基于詞特征的檢測模型的基礎上,使用Strom分布式框架,結合層次聚類算法,在線檢測微博事件中的突發(fā)事件。實驗結果表明進行檢索評估測試時取得了較好結果,很好的實現(xiàn)在線檢測。
關鍵詞:突發(fā)事件;Strom框架;層次聚類;在線檢測
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2020)20-0211-02
Research on Online Detection of Emergency Events under Weibo Data Stream
FANG Zhong-chun1, Song Ping2
(1.Engineering and Training Center.Inner Mongolia University of Science and Technology, Baotou 014010. China; 2. InformationEngineering School, Inner Mongolia University of Science and Technology, Baotou 014010, China)
Abstract : In order to improve the shortcomings of the existing burst detection,an online event detection model comhining word fea-tures and Strom framework is proposed.On the basis of the word feature-based detection model,the Strom distributed framework iscombined with a hierarchical clustering algorithm to detect unexpected events in Weibo events online.The experimental resultsshow that good results are obtained during the retrieval evaluation test.and the online detection is well achieved.
Key words : emergencies; storm framework; hierarchical clustering; online detection
1引言
微博作為分享簡短實時信息的社交網絡平臺,在對突發(fā)事件的報道上要遠快于傳統(tǒng)媒體的正規(guī)報道,消息的傳播也更快速,更能形成熱門話題,但是在高效傳播的同時,也帶來了各種形式的數(shù)據,如何及時準確地檢測出微博中突發(fā)事件,進行必要輿情管控與社會引導,一直以來是研究的熱點。
針對微博突發(fā)事件檢測的研究方法大致分為兩類:(1)基于突發(fā)詞特征的方法,文獻[1]利用多種詞特征提取時間窗內的突發(fā)詞,基于層次聚類產生話題。該方法效率較高,但在突發(fā)檢測的精度上欠佳;(2)基于文本的方法,文獻[2]引用LDA模型,與時間序列結合,彌補LDA模型在進行短文本檢測時的不足,但是時間復雜度較高,數(shù)量的選取也受人為因素的干擾。
基于以上分析,本文利用Strom分布式框架,參考文獻[3]提出的情感過濾對單位時間內的數(shù)據流進行預處理,通過詞特征的突發(fā)檢測模型得到詞集,構建相似矩陣,使用層次聚類算法,生成簇集,得到突發(fā)話題簇,完成在線檢測。
2在線檢測模型的實現(xiàn)
2.1數(shù)據預處理
微博數(shù)據中充斥著大量如傳銷、廣告等垃圾信息。此類信息會影響事件檢測的效率。采用jieba分詞進行切詞,去停用詞和預處理操作。
1)參考文獻[4]中的預處理規(guī)則,去除包含詞匯少于3個的微博。
2)去除微博中的URL鏈接,表情符。
3)詞性過濾,參照詞性表,過濾掉除名詞,動詞以外的詞性。
4)參照SnowNLP情感詞典,進行情感過濾,篩選負面情緒的文本進行突發(fā)詞檢測。
2.2突發(fā)詞檢測
微博文本的突發(fā)事的出現(xiàn)總是伴隨著一些特性,基于突發(fā)詞的特征人手,本文從以下三方面出發(fā),作為衡量突發(fā)詞集標準。
1)詞頻熱度
即在一個時間窗口內詞頻個數(shù),若一個詞匯的出現(xiàn)次數(shù)較多,在一定程度上可以理解為在該時間窗口內出現(xiàn)了該詞相關的突發(fā)事件。
2)詞頻增長率
作為突發(fā)詞檢測中最明顯的特征,借助相鄰兩個時間窗口,計算詞頻增長。同時為了避免事件爆發(fā)期間相鄰時間窗的十擾,影響對該類突發(fā)事件的追蹤,引入歷史時間窗口,計算公式如下:
其中,F(xiàn)i,k表示在當前k時間窗口下詞匯i的增長率,Ni,k表示詞匯i在窗口k中出現(xiàn)的頻率,Ni,k表示在n個時間窗口下詞匯i出現(xiàn)的平均頻率[5]。
3)詞頻權重
對于微短文本且相關報道集中爆發(fā)的特點,傳統(tǒng)TF-IDF方法,會使一些具有代表突發(fā)事件的詞語賦予較低的權值。因此,對TF-IDF方法進行改進,計算公式如下:
其中,α是詞頻權重的初始值,Nmax,k是時間窗口k下最大詞頻數(shù)。
將上述三種特征進行歸一化計算,計算公式如下:
Bi,k=Hi,k+Fi,k+Ci,k
(3)
其中,Bi,k表示詞語i在時間窗口k下的突發(fā)程度,Hi,k表示詞語i在時間窗口k下的詞頻熱度。
2.3相似度矩陣構建
對提取的突發(fā)詞集進行共詞分析。共詞即詞匯對同時出現(xiàn)在同一文本。統(tǒng)計詞匯共現(xiàn)情況,能夠反映關鍵詞之間的關聯(lián)程度,相較通過語義詞典進行相似詞匯對識別,更適用于微博短文本的突發(fā)檢測。對形成的共詞矩陣,采用Jaccard系數(shù),形成相似矩陣,計算公式如下:
其中,Dki為在k時間窗口下,包含詞匯i的相關文本集合。
2.4突發(fā)詞聚類
本文采用凝聚式層次聚類。參考對于一個事件的描述,離不開何地,何事,何人等三要素說明,過濾掉少于3個詞的類簇,剩下的就是本時間窗口的突發(fā)詞簇。
算法步驟如下所示:
1)基于所求得的相似度矩陣,找出距離最小的兩個類簇
2)合并最接近的兩個簇
3)更新鄰近度矩陣,以反映新的簇與原來的簇之間的鄰近性
4)直到簇之間的距離均大于某一值,輸出結果并結束。
2.5基于Strom的分布式框架設計
本文利用Strom框架,對突發(fā)事件檢測模型做分布式擴展,提高檢測模型的效率。其拓撲圖如下所示。
PreSpout:接收數(shù)據源,通過隨機分組方式將數(shù)據源分配給計算節(jié)點Bolt。
CleanBolt:數(shù)據清理工作,具體參照微博數(shù)據預處理模塊。
CalcuBot:突發(fā)詞檢測操作,使用aIIGrouping分組方式將處理后的結果全部分配給TestBolt。
TestBolt:相似度矩陣的計算和層次聚類的操作,最終返回符合條件的簇集,完成對突發(fā)事件的在線檢測。
3實驗與分析
3.1實驗數(shù)據及評價標準
本文借助微博的接口,采集了2020年1月8號和9號約40萬條數(shù)據,其中包含用戶ID,時間,博文內容等。以一小時作為單位時間窗口,選出突發(fā)度排名前100的突發(fā)詞組成該時間段內的突發(fā)詞集。
通過訪問國家突發(fā)事件信息網和中國軍網,對國內外突發(fā)事件進行統(tǒng)計,詳見表1。
評價標準參考信息檢索評估中使用的正確率P,召回率R和F1值。其公式如下所示:
x1表示該框架檢測出來的突發(fā)事件與表1相符的事件數(shù)量,x2表示檢測出表1不存在的突發(fā)事件的數(shù)量,X3表示未檢測出表1的相關事件的數(shù)量。
3.2實驗結果及分析
通過本實驗框架檢測出來的突發(fā)事件與媒體突發(fā)事件報道進行比對,與已有離線檢測方法1:通過詞頻、詞頻增長率和詞突發(fā)度進行檢測,實驗結果如圖2所示。
從結果中看出,本文提出在線檢測框架,在保證召回率的同時,準確率和F1值均得到了提升,同時還檢測出媒體未報到,如:“女子投訴快遞員遭暴打”這些民生類網絡突發(fā)事件。在在線突發(fā)事件檢測上有著良好的效果。
4結語
本文提出了一種融合Strm分布式框架的突發(fā)事件檢測方法,在單位時間窗口內的突發(fā)事件測試中取得了良好的結果。但是本文采用的聚類算法時間復雜度高,檢測結果耗時較大,因此后續(xù)會研究如何降低在線聚類算法的耗時。同時縮小時間窗口,在實時性上做出研究。
參考文獻:
[1]丁晟春,龔思蘭,李紅梅,基于突發(fā)主題詞和凝聚式層次聚類的微博突發(fā)事件檢測研究[J].現(xiàn)代圖書情報技術,2016,32(7-8):12-20.
[2] CUI L,ZHANC X.ZHOU X,et aI.Topicalevent detection onTwitter[C]//Proceedings of the 2016 Australasian DatabaseConference.LNCS9877.Berlin:Springer,2016,257-268.
[3]費紹棟,楊玉珍,劉培玉,等.融合情感過濾的突發(fā)事件檢測方法[J],計算機應用,2015,35(5):1320-1323.
[4]郭趾秀,呂學強,李卓基.基于突發(fā)詞聚類的微博突發(fā)事件檢測方法[J].計算機應用,2014,34(2);486-490.
[5]楊書寧,基于微博的突發(fā)事件網絡輿情監(jiān)測方法研究[D].大連:大連理工大學,2014.
【通聯(lián)編輯:唐一東】
收稿日期:2020-03-25
作者簡介:方中純(1971-),男,四川遂寧人,內蒙古科技大學副教授,博士,主要研究方向為人工智能。