王雪穎 楊文忠 張志豪 李東昊 秦旭
摘 要:為了降低社交媒體中突發(fā)事件帶來的危害,提出一種基于多特征的微博突發(fā)事件檢測算法。該算法融合了文本情感過濾和用戶影響力計算方法。首先,通過噪聲過濾和情感過濾得到飽含負面情感的微博文本;然后,采用提出的用戶影響力計算方法并結合突發(fā)詞提取算法來提取突發(fā)詞特征;最后,引入凝聚式層次聚類算法對突發(fā)詞集進行聚類,從中提取突發(fā)事件。通過實驗檢測,準確率為66.84%,驗證了該方法能有效地對突發(fā)事件進行檢測。
關鍵詞:突發(fā)事件; 用戶影響力; 情感過濾; 突發(fā)詞; 聚類
中圖分類號:TP391.1
文獻標志碼:A
Microblog bursty events detection algorithm based on multifeature
WANG Xueying1, YANG Wenzhong1*, ZHANG Zhihao1, LI Donghao1, QIN Xu2
1.College of Information Science and Engineering,Xinjiang University, Urumqi Xinjiang 830046,China;
2.College of Software,Xinjiang University, Urumqi Xinjiang 830046,China
Abstract:
In order to reduce the harm caused by bursty events in social media, a multifeature based microblog bursty events detection algorithm was proposed. The algorithm combines text emotion filtering and user influence calculation methods. Firstly, the microblog text with negative emotion was obtained through noise filtering and emotion filtering. Then the proposed user influence calculation method was combined with the burst word extraction algorithm to extract the characteristics of burst words. Finally, a cohesive hierarchical clustering algorithm was introduced to cluster bursty word sets, and extract bursty events from them. In the experimental test, the accuracy is 66.84%, which proves that the proposed method can effectively detect bursty events.
Key words:
bursty topic; users influence; sentiment filter; burst word; clustering
0?引言
隨著近年來社交媒體的普及,人們交流和獲取信息的便利性有了大幅度的提升,人們已經步入了一個全新的媒體時代。以微博為代表的社交媒體平臺更是憑借其發(fā)布、分享、傳播信息的便捷性,成為了大多數網民首選社交平臺,據中國互聯網絡信息中心(China Internet Network Information Center, CNNIC)2018年第42次《中國互聯網絡發(fā)展狀況統(tǒng)計報告》顯示,至2018年6月30日,我國網民規(guī)模達8.02億,而微博用戶規(guī)模達到3.37億,網民使用率42.1%,較去年年底增長率為6.8%[1]。
微博作為一個迅速興起并基于用戶實時獲取、共享信息的平臺,其日活躍用戶數已達到了1.65億。與傳統(tǒng)新聞媒體相比,作為一種新型社會媒體,微博特有的短文本性、弱關系性和即時性等特點在信息傳播中發(fā)揮了重要作用[2],網民們能第一時間在平臺上獲得自己感興趣的信息。因此, 微博的輿情傳播速度要遠遠快于傳統(tǒng)媒體,逐漸成為了主要的輿論場所,如果某件受廣大民眾關注的事件對公共安全造成了危害,則會變成突發(fā)事件。為了及時在微博的海量信息中發(fā)現輿情并及時地對微博的言論進行管控和疏導,微博突發(fā)事件檢測對社會穩(wěn)定有著重要意義。
1?相關工作
有關微博輿論檢測的研究,近年來受到了國內外廣大專家學者的廣泛關注。他們在微博事件檢測的效率提升上都做了很多工作,其主要研究大致分為兩類:
一是以微博文本為中心,Cui等[3]為了有效解決短文本中數據稀疏的問題,以LDA(Latent Dirichlet Allocation)為基礎建模,提取文本中潛藏的主題信息。Lee等[4]將LDA與時間序列等特征進行結合,提高了單一的LDA檢測模型的效率,但是LDA模型中涉及話題數量選擇的問題,需要人工的干預,數值不同,對結果也會造成不同的影響。
二是基于突發(fā)特征為中心。在這類文本聚類的文章中, 首先對微博突發(fā)內容的特征進行提取,再對提取后的突發(fā)特征進行聚類,最后通過聚類結果提取突發(fā)事件:張魯民等[5]通過對微博構建情感符號模型,判斷出網民情感在大多數情況下能主導事件的擴散程度,突發(fā)事件的發(fā)生導致信息量的暴漲,網民的情緒也隨之波動,因此對微博原文、評論內容進行情感分析,能夠明顯提高突發(fā)事件檢測的精確度,但僅考慮情緒的變化特征并不夠全面;郭跇秀等[6]通過分析用戶行為特征,認為影響力大的用戶能夠更多地主導事件的擴散程度,通過結合突發(fā)詞特征的抽取提出了一種基于用戶影響力的計算方法來對突發(fā)事件進行檢測,然而一些流量明星的博文也具有較高的影響力,因此并不能有效地排除;仲兆滿等[7]認為突發(fā)事件具有地域突發(fā)特征,提出了一種基于網絡地域的突發(fā)事件檢測方法,然而這個方法會遺漏一些不具有地域突發(fā)特征的博文,如“范冰冰偷逃稅”事件;Du等[8]引入了PageRank的算法來計算用戶影響力權重,并結合了突發(fā)詞特征來發(fā)現突發(fā)事件,該方法增加了用戶對話題的影響力,但忽略了用戶的一些信息,容易受到僵尸用戶的影響。
基于以上分析,本文考慮了將通過用戶特征的多個方面來計算得到每個用戶的影響力權重,并結合情感過濾的方法來抽取突發(fā)詞,然后引用凝聚式層次聚類算法對突發(fā)詞進行聚類得到多個類簇,其中每一個類簇代表一個突發(fā)事件,并從中選取突發(fā)特征最高的博文來描述該事件。本文提出了一種基于用戶影響力和情感過濾的方法模型來實現對突發(fā)事件的檢測。最后通過實驗檢測對比,驗證了該方法的有效性。
2?微博預處理
由于微博中有大量的無用信息,如用戶的廣告、日常生活等信息,這些信息會對突發(fā)事件的檢測造成干擾。根據文獻[9]爬取的話題微博數據顯示,手機產品的微博中,垃圾微博占比高達70%。因此在突發(fā)事件檢測前,需要對微博數據進行合理的預處理,去除噪聲微博,保留有用數據,提高后續(xù)工作的效率和正確率。
2.1?微博噪聲過濾
NLPIR(Natural Language Processing and Information Retrieval)分詞系統(tǒng),是由張華平博士多年科研工作累計的成果,其主要功能包括中文分詞、英文單詞分割、組合注釋、命名實體識別、新詞識別、關鍵詞提取, 支持各種編碼、各種操作系統(tǒng)、多種的開發(fā)語言和平臺。本文采用NLPIR分詞對去噪后的數據進行分詞、過濾停用詞等,后續(xù)采用一定過濾規(guī)則進一步過濾掉無用微博文本。
1)參考文獻[10]過濾規(guī)則,在新聞領域中,有新聞六要素之說,即何時(When)、何地(Where)、何人(Who)、何事(What)、何故(Why)和如何(How),簡稱為5W1H。由于一般微博篇幅字數都比較小,分析認為如果微博要描述一個完整的突發(fā)事件,需要至少包含3個要素,即何人、何地、何事。
2)過濾粉絲數在某一閾值以下的用戶。本文將不會對粉絲數接近于0的用戶進行信息采集,他們其中一部分可能是平臺生產出的僵尸用戶,負責發(fā)大量的廣告或成為水軍,另一部分可能為只獲取微博信息的不活躍用戶,這些用戶所發(fā)布的信息無法造成大面積擴散,因此刪除這類用戶所發(fā)布的微博信息,可以有效降低噪聲干擾。
3)去除文本中URL連接、表情符號、英文等。
2.2?情感過濾
突發(fā)事件,在一定程度上指的是突然發(fā)生的,并且會對社會公共安全造成一定的危害的事件,文獻[11]認為網民的情感是主導突發(fā)事件發(fā)生的催化劑,飽含負面情緒詞較多的事件,成為突發(fā)事件的概率更大。情感傾向性分析主要有基于語義的情感詞典方法和基于機器學習的方法[12],機器學習過濾需要耗費大量人力和時間,因此本文使用BosonNLP情感詞典來得到每篇文檔的情感值,每篇文檔的情感值計算方法如式(1)所示:
Se(n)=∑wi∈positivepositive_word(wi)+∑wj∈negativenegative_word(wj)(1)
其中: Se(n)表示第n個文檔的情感值;positive為情感詞庫中的正面詞;negative表示情感詞庫中的負面詞;positive_word(wi)表示該文檔中包含正面的情感詞數;negative_word(wj)表示該文檔中包含負面的情感詞數。
3?突發(fā)詞提取
文獻[8]中對突發(fā)詞給出了定義:突發(fā)詞是指在某個時間窗內,若某一個實詞被大量使用,且在之前的時間窗內很少被使用,則該實詞被視為一個突發(fā)詞。時間窗指每個獨立的時間段。本文統(tǒng)一以1d為單位。文獻[13]提出的老化理論,認為每個詞都具有一個生命周期,即出生、發(fā)展、消退、死亡。
根據以上定義,本文將微博數據文本以天為單位劃分成一個個單獨的時間窗(可根據需求改變時間窗的大?。┎⑻岢隽嗽~的突發(fā)度計算方法,主要從詞頻、詞頻增長率、詞權重、用戶影響力來得到詞的突發(fā)度。
1)詞頻增長率的計算。
因為明星效應,每天都會有粉絲為明星刷大量微博來制造話題,只從一個詞在單位時間窗內出現的頻率來定義一個詞的突發(fā)度是不夠全面的,因此本文計算一個詞在單位時間窗內的增長率計算公式如式(2)所示:
Fi,k=SFi,k-SFi,k-11+SFi,k-1 (2)
其中:Fi, k表示詞i在窗口k中的詞頻增長率;SFi,k表示詞i在窗口k中出現的頻率。當突發(fā)事件發(fā)生時,網民會創(chuàng)作或轉發(fā)大量關于此事件的博文,因此某突發(fā)詞的出現的頻率也會增高,計算詞的增長率能較好地體現一個詞的突發(fā)度。
2)詞權重的計算。
發(fā)生突發(fā)事件時,相關事件的微博數量會呈現爆發(fā)式增長,這也代表著微博中會大量出現描述同一事件的突發(fā)詞,因此本文需要一種詞語權重計算方式來描述這一現象。TFIDF(Term FrequencyInverse Document Frequency)作為用于信息檢索與數據挖掘的常用加權技術,可以用來評估一個詞在一篇文檔或一個語料庫中的重要程度。傳統(tǒng)TFIDF算法主要運用在某個詞在一篇文檔中出現較多而在其他文檔中出現較少的環(huán)境中,對于微博熱點突發(fā)詞的廣泛分布情況,傳統(tǒng)TFIDF算法表現較差。綜上所述,本文采用文獻[14]中的TFPDF詞權重算法,該算法克服了原有算法對突發(fā)事件檢測帶來的缺陷,公式如式(3)、(4)所示:
Wj=∑c=Dc=1Fjcexp(njc/Nc)(3)
Fjc=Fjc∑Kk=1F2kc(4)
其中:Wj表示詞語j的權重;Fjc表示詞j在微博文檔集c中出現的頻率;njc表示在微博文檔集c中出現詞j的微博數;Nc表示文檔集c中文檔總數;k表示文檔集中所有詞數;D表示文檔集c的總數。
3)用戶影響力。
通常情況下,微博發(fā)送者的影響力會對其微博的擴散帶來可觀的影響,本文引入用戶影響力概念來更加精準地定位突發(fā)事件,影響力的計算包含多個維度:粉絲量、更新速度、評論數、轉發(fā)數等。綜上所述,本文定義了用戶U=(Rep,Com,Fan,Type,Update)。其中:Update為該用戶一個月內微博更新數量,最小取1;Rep、Com為一個月內微博的轉發(fā)數量及評論數量總和;Fan為該用戶的粉絲數量;Type為用戶的類型權重,官方微博取1、大V微博取0.7、普通用戶取0.5。因此,考慮以上多個因素,提出了一種用戶影響力計算方法,如式(5)所示:
Du=(Repu+Comu)×Fanu×TypeuUpdateu(5)
正如前文所述,在一個輿論平臺上,如果一個用戶受到的關注量越大,相應的,該用戶的影響力也會越大,那么他所發(fā)表的言論中,包含突發(fā)詞的博文是突發(fā)事件的可能性也越高。為了能更好地得到一個突發(fā)事件,本文將用戶影響力與突發(fā)詞特征進行結合,提出一個突發(fā)詞的突發(fā)度計算方式,如式(6)所示:
wordj,t=1N∑t-1k=t-N(Wj,t×Fj,t×∑pn∈pj,tlb(Dpn)-Wj,k×Fj,k×∑pb∈pj,klb(Dpb)) (6)
其中:wordj,t代表詞j在時間窗t內的突發(fā)度;Wj,t是詞j在t時間窗內的權重;Dpn是包含詞語 j的一條微博 pn 的發(fā)布者的影響力;pj,t是在時間窗t內包含詞語 j 的所有微博;N是時間窗的總數。
4?突發(fā)事件檢測
4.1?突發(fā)詞相似度
突發(fā)詞相似度計算方法建立基于上下文的詞語共現分析的詞語相似度計算方法。因此,為了計算兩個突發(fā)詞之間的共現性詞語相似度,需要從語料中獲取詞語的上下文統(tǒng)計信息。詞語共現相似度,即在一個規(guī)模龐大的語料庫中,有兩個詞經常共同地出現在同一文檔數據中,那么認為這兩個詞是相互關聯的,而且隨著這兩個詞共同出現的頻率越高,就說明它們之間的關系越緊密。如“重慶公交墜江事件”中,“公交”“墜江”這兩個詞的語義沒有相似度,但是根據本文的共現相似度分析,這兩個詞共同出現在多個博文數據的概率增加了,因此認為這兩個詞之間的關聯關系也比較大。該方法的計算公式如式(7)所示:
Sim(wi,wj)=|{pn|pn∈Pk,wi∈pn,wj∈pn}| |Pk|(7)
其中:k為時間窗,本文以天為單位;wi、wj為兩個突發(fā)詞;Pk是時間窗k內的所有微博集;pn是時間窗k內包含突發(fā)詞wi、wj的微博。
4.2?突發(fā)詞聚類
使用一個正確的聚類算法是事件檢測的關鍵步驟,本文采用凝聚式層次聚類。凝聚式層次聚類是一種自底向上的層次聚類方式,其會將樣本集中的所有數據點都當作為一個聚類,計算每兩個聚類之間的距離并將距離最近的兩個聚類進行合并,重復上述步驟,當聚類結果中數據的合并到達一定的程度,就停止該聚類步驟,步驟終止的條件并不是固定的,可以適當性地調整聚合的閾值從而防止過度合并或確定最佳的聚類效果。
算法步驟如下所示:
輸入?樣本集合D,聚類數目或者某個條件(此為突發(fā)詞集)。
輸出?聚類結果(突發(fā)詞聚類集)。
步驟1?將樣本集中的所有的樣本點(突發(fā)詞)都當作一個獨立的類簇。
步驟2?計算兩兩類簇之間的距離,找到距離最小min_distance的兩個類簇c1和c2。
步驟3?合并類簇c1和c2為一個類簇。
步驟4?若min_distance小于閾值,返回步驟2;否則輸出結果并結束。
該算法的缺點是計算量大、時間復雜度高。聚類結果中不同的類簇包含的突發(fā)詞數也是不一樣的,由于前文提到描述一個事件至少包含三個要素,即何人、何地、何事。因此本文過濾掉少于3個詞的類簇,剩下的每個類簇則代表了一個事件。
5?實驗結果與分析
本文利用新浪微博的API接口采集了2018年10月28日至11月4日約10萬條微博數據,其中每條微博包含的信息有用戶ID、用戶信息、轉發(fā)量、評論數、粉絲數、發(fā)布時間和博文內容。本文首先對采集到的數據進行預處理并以天為單位對數據進行劃分,再根據突發(fā)詞提取算法進行突發(fā)詞識別得到突發(fā)詞集,最后對突發(fā)詞集聚類并根據聚類結果選取權重較高的幾個突發(fā)詞進行顯示并提取相關且熱度最高的一條微博來代表抽取的突發(fā)事件。
5.1?評價指標
本文采用準確率(Precision)、召回率(Recall)與 F值(Fmeasure)作為微博突發(fā)事件檢測方法的性能評測指標,具體計算方法如式(8)~(10)所示:
Precision=B.correctB.output(8)
Recall=B.correctB.number(9)
Fmeasure=2*Precision*RecallPrecision+Recall(10)
其中:B.correct為系統(tǒng)中識別正確的突發(fā)事件個數,B.number為系統(tǒng)中事件總數,B.output為識別到的突發(fā)事件個數。
5.2?突發(fā)詞抽取
在對微博文本進行預處理后,需要對文本中的突發(fā)詞進行提取,前文根據提出的詞的突發(fā)度計算公式得到了詞的突發(fā)度,因此,最終選取突發(fā)度排名前100的突發(fā)詞組成該時間段內的突發(fā)詞集。
在突發(fā)詞聚類中,簇間閾值μ分別取300~800不同的值進行檢測,實驗結果如表1所示。
可見,當μ取值為600時,此檢測結果F值到達峰值,因此本文取μ=600對當前的數據進行突發(fā)事件檢測,根據抽取到的事件簇,本文選取每個突發(fā)簇中熱度最高的一篇博文來描述所代表的事件,微博的熱度主要通過其轉發(fā)和評論來決定,因此可以通過一篇微博的轉發(fā)數和評論數來大致衡量一篇微博的熱度:
微博熱度=α×轉發(fā)數+β×評論數
根據文獻[15]考慮到微博轉發(fā)的影響力大于評論的影響力,因此α、 β分別取0.6和0.4。
最后,本文根據每個事件簇的最高微博熱度來對檢測的事件進行排序,并選擇用熱度最高的博文來代表描述對應事件,如表2所示。
編號時間突發(fā)詞對應事件
12018年10月28日重慶、公交車、碰撞、墜江、交通、相撞10月28日上午,重慶萬州區(qū)長江二橋上發(fā)生一起交通事故,一輛大巴車與一輛轎車相撞后,沖破護欄掉入長江。目前尚不清楚大巴車上乘客數量,傷亡情況不明。
22018年10月28日高鐵、女童、猥褻、父女【疑似#高鐵上父親猥褻女兒#:撩起她的衣服不停撫摸、親吻】有網友稱,G1402次高鐵上,一名男子對一女童做出猥褻動作,并推測應該是父女關系……
32018年10月29日李詠、哈文、主持人、去世、癌癥主持人李詠因癌癥在美國去世,妻子哈文發(fā)文:在美國,經過17個月的抗癌治療,2018年10月25日凌晨5點20分,永失我愛。
42018年10月30日金庸、武俠、去世、香港港媒報道,金庸先生于2018年10月30日下午在香港養(yǎng)和醫(yī)院逝世,享年94歲……
52018年11月3日蘭海、高速、收費站、蘭州、交通、死亡央視消息,蘭海高速蘭州南收費站發(fā)生一起嚴重交通事故,一輛大貨車失控,從收費站沖下連撞31車。目前已經造成11人死亡,31人受傷(11重傷)……
62018年11月1日高鐵、霸座、黑名單、火車、信用【高鐵霸座姐被列入黑名單 將限制乘坐所有火車席別】11月1日,國家公共信用信息中心公布10月份新增219人被限乘火車,其中高鐵“霸座姐”出現在“黑名單”。
5.3?對比實驗
實驗一?與其他實驗不同的是,本文是在基于突發(fā)詞聚類的基礎上,結合了用戶影響力和情感過濾兩方面的特征,為了驗證算法的可行性,將從以下4個方面進行驗證:
1)N_S。該模型僅考慮對突發(fā)詞的聚類來提取突發(fā)事件。
2)S_S。該模型在對突發(fā)詞聚類的同時,僅考慮了通過情感詞集來進行情感過濾的特征。
3)U_S。該模型在對突發(fā)詞聚類的同時,僅考慮了用戶的影響力特征。
4)B_S。該系統(tǒng)為本文提出的模型,根據突發(fā)詞的特征再結合用戶影響力和情感過濾來提取突發(fā)詞集,從而獲取最終結果。
其實驗對比結果如表3所示。
表3描述了各個模型的效果,整體上來看,N_S效果最差,B_S效果最好,但召回率要低于U_S,這是因為在進行情感過濾時模型只保留了負面傾向的數據來進行聚類。但是考量一個突發(fā)事件檢測模型,不僅是覆蓋范圍要廣,其準確率也要高,從Fmeasure中可以看出,B_S的效果是最好的。
實驗二?為了進一步闡述本文方法的有效性,與各種方法對比效果,本文將文獻[15]中根據突發(fā)詞的詞頻、增長率、權重的排名來綜合提取突發(fā)詞集的方法和文獻[16]中提出的TimeUserLDA的事件檢測方法作為本文的baseline1和baseline2來與本文方法進行對比實驗。表4詳細列出檢測出了根據各種方法檢測到的突發(fā)事件前3個事件,表5描述了各個方法的檢測效果對比。
從表4可以看出,baseline1和baseline2的檢測結果中都含有非突發(fā)事件的熱點事件,這些事件在當時雖然也會有較高的影響力,但并不能看作是一個突發(fā)事件。而從表5中可以看出,相比較baseline方法,本文方法在召回率、精確率和F值都有所提高,分析其原因主要有以下兩點:
1)文獻[15]在微博噪聲過濾中只過濾了一部分無意義的博文,而本文方法是在此基礎上,添加了文本情感過濾和用戶影響力,使噪聲對突發(fā)事件識別的影響降低。
2)而文獻[16]中通過LDA模型對數據進行建模,再加入時間序列和用戶信息來對數據進行突發(fā)事件的檢測來提高檢測效率; 而本文方法是通過突發(fā)特征來識別突發(fā)事件,具有一定的針對性,并根據用戶信息和情感過濾進一步提高了檢測效率。因此從檢測效果上來看,本文方法具有一定的可行性。
6?結語
由于微博文本內容的簡短性和實時性,本文對微博文本特征、傳播特性作了分析,提出了基于用戶影響力和情感分析的突發(fā)事件檢測模型。從實驗結果中可知,所提模型能夠對突發(fā)事件有較好的檢測能力;后續(xù)研究的發(fā)展和改進之處是繼續(xù)提高突發(fā)詞集檢測的效率,及更加準確地對突發(fā)事件進行描述。
參考文獻 (References)
[1]? 中國互聯網信息中心. 第42次中國互聯網絡發(fā)展狀況統(tǒng)計報告[R].北京:中國互聯網信息中心,2018. (China Internet Network Information Center. The 42th statistical report of China Internet development[R]. Beijing: China Internet Network Information Center, 2018.)
[2]? 李洋,陳毅恒,劉挺. 微博信息傳播預測研究綜述[J]. 軟件學報, 2016, 27(2):247-263. (LI Y, CHEN Y H, LIU T. Survey on predicting information propagation in microblogs[J]. Journal of Software, 2016, 27(2):247-263.)
[3]? CUI L, ZHANG X, ZHOU X, et al. Topical event detection on Twitter[C]// Proceedings of the 2016 Australasian Database Conference, LNCS 9877. Berlin: Springer, 2016:257-268.
[4]? LEE S, LEE S, KIM K. Bursty event detection from text streams for disaster management[C]// Proceedings of the 21st International Conference Companion on World Wide Web. New York: ACM,2012: 679-682.
[5]? 張魯民,賈焰,周斌,等. 一種基于情感符號的在線突發(fā)事件檢測方法[J]. 計算機學報, 2013, 36(8):1659-1667. (ZHANG L M, JIA Y, ZHOU B, et al. Online bursty events detection based on emoticons[J]. Chinese Journal of Computers, 2013, 36(8): 1659-1667.)
[6]? 郭跇秀,呂學強,李卓基. 基于突發(fā)詞聚類的微博突發(fā)事件檢測方法[J].計算機應用,2014,34(2):486-490. (GUO Y X, LYU X, LI Z J. Bursty topics detection approach on Chinese microblog based on burst words clustering [J]. Journal of Computer Applications, 2014, 34(2): 486-490.)
[7]? 仲兆滿,管燕,李存華,等. 微博網絡地域Topk突發(fā)事件檢測[J]. 計算機學報, 2018, 41(7):1504-1516. (ZHONG Z M, GUAN Y, LI C H, et al. Localized Topkbursty event detection in microblog[J]. Chinese Journal of Computers, 2018, 41(7):1504-1516.)
[8]? DU Y, HE Y, TIAN Y, et al. Microblog bursty topic detection based on user relationship[C]// Proceedings of the 6th IEEE Joint International Information Technology and Artificial Intelligence Conference. Piscataway: IEEE, 2011:260-263.
[9]? 姚子瑜,屠守中,黃民烈,等. 一種半監(jiān)督的中文垃圾微博過濾方法[J].中文信息學報, 2016, 30(5): 176-186. (YAO Z Y, TU S Z, HUANG M L, et al. A semisupervised method for filtering Chinese spam tweets [J]. Journal of Chinese Information Processing, 2016, 30(5):176-186.)
[10]? 王勇,肖詩斌,郭跇秀,等. 中文微博突發(fā)事件檢測研究[J]. 現代圖書情報技術, 2013(2): 57-62. (WANG Y,XIAO S B,GUO Y X,et al. Research on Chinese microblog bursty topics detection[J]. New Technology of Library and Information Service, 2013(2): 57-62.)
[11]? 費紹棟,楊玉珍,劉培玉,等. 融合情感過濾的突發(fā)事件檢測方法[J]. 計算機應用, 2015, 35(5):1320-1323. (FEI S D, YANG Y Z, LIU P Y, et al. Method of bursty events detection based on sentiment filter[J]. Journal of Computer Applications, 2015, 35(5): 1320-1323.)
[12]? 馬力,宮玉龍. 文本情感分析研究綜述[J]. 電子科技, 2014, 27(11):180-184. (MA L, GONG Y L. Research on text sentiment analysis[J]. Electronic Science and Technology, 2014, 27(11):180-184.)
[13]? CHEN C C, CHEN Y T, SUN Y, et al. Life cycle modeling of news events using aging theory[C]// Proceedings of the 2003 European Conference on Machine Learning, LNCS 2837. Berlin: Springer, 2003:47-593.
[14]? BUN K K, ISHIZUKA M. Topic extraction from news archive using TF*PDF algorithm[C]// Proceedings of the 2002 International Conference on Web Information Systems Engineering. Piscataway: IEEE, 2002:73-82.
[15]? 陳國蘭. 基于爆發(fā)詞識別的微博突發(fā)事件監(jiān)測方法研究[J]. 情報雜志, 2014(9):123-128. (CHEN G L. Microblog Emergencies detection approach based on burst words distinguishing[J]. Journal of Intelligence, 2014(9): 123-128.)
[16]? DIAO Q, JIANG J, ZHU F. Finding bursty topics from microblogs[C]// Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2012: 536-544.
This work is partially supported by the National Natural Science Foundation of China (U1603115, U1435215), the Xinjiang Uygur Autonomous Region University Research Project Innovation Team (XJEDU2017T002), the Natural Science Foundation of Xinjiang Autonomous Region (2017D01C042).
WANG Xueying, born in 1995, M. S. candidate. Her research interests include natural language processing.
YANG Wenzhong, born in 1971, Ph. D., associate professor. His research interests include public opinion analysis, information security, machine learning.
ZHANG Zhihao, born in 1995, M. S. candidate. His research interests include early warning of emergencies, information security.
LI Donghao, born in 1994, M. S. candidate. His research interests include natural language processing.
QIN Xu, born in 1994, M. S. candidate. Her research interests include natural language processing, public opinion analysis.