王志宏, 過 弋,2,3
(1. 華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237;2. 大數(shù)據(jù)流通與交易技術(shù)國家工程實(shí)驗(yàn)室 商業(yè)智能與可視化研究中心,上海 200237;3. 石河子大學(xué) 信息科學(xué)與技術(shù)學(xué)院,新疆 石河子 832003)
隨著在線社交網(wǎng)絡(luò)的迅速發(fā)展,以微博為代表的碎片化信息創(chuàng)造了一個原子型的世界,謊話、流言、緋聞等大量不實(shí)信息在其中高速傳播?!靶畔⑽廴尽睂?dǎo)致人們難以從紛繁復(fù)雜的信息中甄別出可靠信息,嚴(yán)重影響了人們正常的生活秩序。微博內(nèi)容主要通過人與人之間的“關(guān)注-被關(guān)注”網(wǎng)絡(luò)進(jìn)行傳播。人與人、人與信息之間的高度互聯(lián)融合,使得人人都可以參與到信息的產(chǎn)生和傳播中,這種病毒式的傳播方式促使一條信息能夠在極短時間內(nèi)傳播到數(shù)百萬的用戶。例如,2011年3月16日突發(fā)的“搶鹽事件”[1],主要是一條關(guān)于“日本核輻射會污染海水導(dǎo)致以后生產(chǎn)的鹽都無法食用,且吃含碘的食用鹽可防核輻射”的謠言信息在社交網(wǎng)絡(luò)上瘋狂傳播。從而,導(dǎo)致在我國大部分城市和農(nóng)村一夜之間出現(xiàn)了“搶鹽潮”。很多商店紛紛打出“鹽已售完”等標(biāo)識,并出現(xiàn)了一鹽難求、高價售鹽等現(xiàn)象。因此,自動高效的識別在線社交網(wǎng)絡(luò)中的謠言事件意義重大,尤其是微博等在線社交媒體。
日常生活中,人們大多基于自己的常識或通過新聞網(wǎng)站、公共社區(qū)等來分辨微博事件的真假。例如,Snopes[注]https://www.snopes.com/、微博社區(qū)管理中心[注]http://service.account.weibo.com/?type=5&status=0、新浪微博官方辟謠賬號(“@微博辟謠”[注]https://weibo.com/weibopiyao)等。但是這類網(wǎng)站媒體的報道并不完整且具有一定的時滯性,因此對謠言事件進(jìn)行自動識別,可以幫助我們更好地防范謠言,輔助管理機(jī)構(gòu)進(jìn)行謠言干預(yù)和治理。
目前,微博平臺上的謠言事件自動檢測研究仍處于起步階段,大部分的研究工作都將這一問題作為分類任務(wù)來處理,即根據(jù)人工構(gòu)造的特征使用傳統(tǒng)機(jī)器學(xué)習(xí)的分類算法進(jìn)行謠言事件的識別。主要包括淺層的統(tǒng)計特征,如謠言事件的內(nèi)容[2-4]、用戶屬性[5]、傳播方式[6-7]等;以及深層的文本內(nèi)容特征,如謠言事件情感傾向性[8-9]、事件主題[10]、事件關(guān)鍵詞[11]等。本文在上述特征的基礎(chǔ)上,根據(jù)傳播學(xué)者Crouse[12]提出的謠言傳播公式“謠言的流通量=事件的重要性×事件的模糊性/公眾批判能力”,考慮謠言事件的傳播原理,提出了事件流行度、模糊度和流傳度三項新特征,用于微博謠言事件的自動檢測。
另外,上述研究工作在構(gòu)建分類特征時,忽略了事件特征隨著事件發(fā)展的時間變化特性。僅僅基于單個觀察窗口或固定的觀察點(diǎn)進(jìn)行特征構(gòu)建,往往難以表示謠言事件的一般發(fā)展傳播模式。因此,Kwon等[13]首次指出了謠言事件傳播過程中時間屬性的重要性,并提出了推文數(shù)量隨時間變化的時間序列擬合模型,在Twitter數(shù)據(jù)集上獲得了較好的檢測效果。Ma等[14]在Kwon等研究的基礎(chǔ)上進(jìn)一步擴(kuò)展了隨時間變化的特征集合,利用簡單的等長時間序列劃分來觀察謠言事件特征隨時間的變化,并在Twitter數(shù)據(jù)集和新浪微博數(shù)據(jù)集上獲得了不錯的識別結(jié)果。但他們在構(gòu)建謠言事件時間序列特征的過程中,均未考慮事件時序數(shù)據(jù)的分布特點(diǎn),即在時間維度上事件本身的聚合程度。為了更好地觀察和表示謠言事件特征隨時間的變化,本文引入模糊時間序列模型中的論域劃分思想,將事件的時間跨度作為論域,提出了基于模糊聚類的事件時序數(shù)據(jù)動態(tài)劃分算法,并在此基礎(chǔ)上構(gòu)建了隨時間變化的事件特征集合。實(shí)驗(yàn)結(jié)果表明,本文提出的基于動態(tài)時間序列的事件特征表示方法,可以有效提高謠言事件檢測的效果。
謠言事件在社交網(wǎng)絡(luò)環(huán)境下發(fā)展迅猛,其滋生和傳播容易誤導(dǎo)社會輿論,導(dǎo)致線下的“群體性恐慌”以及線上的“網(wǎng)絡(luò)暴力”。社交網(wǎng)絡(luò)謠言事件治理工作正變得日益重要。其中,微博謠言事件檢測引起了學(xué)術(shù)界廣泛的關(guān)注。現(xiàn)有謠言事件檢測方法一般分為兩大類:人工檢測和基于機(jī)器學(xué)習(xí)的自動檢測[15]。
在人工謠言事件檢測方面,就國內(nèi)而言,新浪微博提供了官方辟謠賬號“@微博辟謠”和基于眾包的辟謠平臺“微博不實(shí)信息舉報中心”。但由于微博平臺謠言檢測工作量大、人力資源不足等,截止到2018年7月16日,共發(fā)布和審核謠言事件數(shù)為40 624條(其中,“@微博辟謠”發(fā)布了4 654條辟謠信息,“微博不實(shí)信息舉報中心”共審核判定35 970條不實(shí)事件),難以反映微博平臺上實(shí)際的謠言事件規(guī)模,覆蓋率不足。Snopes是國外一家專門核查并揭穿謠言和傳聞的網(wǎng)站,該網(wǎng)站對謠言事件會使用“真/假/不確定”的可信度評定,目前Snopes已經(jīng)公布了11 887條信息的判定結(jié)果。但是相對于社交網(wǎng)絡(luò)上的謠言事件來說,該網(wǎng)站所能發(fā)揮的作用依然很小。所以,由于不能提供足夠的人力資源進(jìn)行謠言事件的判定和檢測,人工謠言事件檢測方法存在以下局限性:(1)對信息的覆蓋率不足;(2)謠言檢測周期較長,如果在謠言帶來大量危害前仍無法進(jìn)行謠言事件的判定,那么謠言事件檢測的工作將失去意義。
在自動謠言事件檢測方面,現(xiàn)有大部分研究工作主要將這一問題作為分類任務(wù)來處理,重點(diǎn)在于分類算法的選擇和改進(jìn),以及構(gòu)造更有效的檢測特征。Yang等[2]提出基于傳統(tǒng)的內(nèi)容、用戶、傳播特征以及新增的客戶端類型和事件地理位置特征共五大類謠言事件檢測特征,并使用SVM模型進(jìn)行單文本的謠言事件自動檢測。文獻(xiàn)[4]從源微博評論內(nèi)容角度定義了支持性、置信度、內(nèi)容相關(guān)性三個特征,構(gòu)建了SVM分類模型,并有效地識別出了微博虛假消息。文獻(xiàn)[5]則從用戶行為的角度出發(fā),提出了基于用戶行為的新的謠言事件檢測特征,并對Logistics回歸、SVM、樸素貝葉斯、決策樹和K近鄰五種算法做了實(shí)驗(yàn)對比。有學(xué)者還提出基于微博特有的轉(zhuǎn)發(fā)行為形成的傳播網(wǎng)絡(luò)進(jìn)行謠言事件檢測,Wu等[6]通過對單文本謠言事件傳播規(guī)律的分析,明確指出了謠言和非謠言在傳播過程中轉(zhuǎn)發(fā)模式的區(qū)別,并將信息發(fā)布、轉(zhuǎn)發(fā)行為特征與內(nèi)容特征相結(jié)合,利用混合SVM分類器進(jìn)行謠言識別,取得了較好的結(jié)果。Kwon等[13]則從時序、結(jié)構(gòu)和語言三個方面對謠言事件的傳播特征進(jìn)一步細(xì)分和研究,并在SVM、決策樹和隨機(jī)森林三種算法上進(jìn)行了實(shí)驗(yàn)對比。Ma等[14]針對多文本謠言事件的特征會隨著事件的傳播不斷變化的情況,建立了一種時序結(jié)構(gòu)用以描述對時間敏感的謠言事件檢測特征在謠言事件全生命周期的時間序列上的變化,并使用SVM、隨機(jī)森林和決策樹構(gòu)建謠言事件自動識別模型。上述方法大都是基于謠言事件淺層的統(tǒng)計特征或信息傳播特征,并未挖掘謠言事件傳播過程中的深層語義特征。
毛二松等[8]考慮微博謠言事件的情感傾向性、意見領(lǐng)袖傳播影響力等深層語義特征,通過訓(xùn)練集成分類器對微博謠言事件進(jìn)行檢測。祖坤琳等[9]首次提出將微博評論的情感傾向作為謠言事件檢測分類器的新特征,使謠言檢測的分類效果得到可觀提升。楊文太等[10]從謠言事件主題角度出發(fā),借鑒了物理學(xué)中的動力學(xué)理論對微博突發(fā)話題特征進(jìn)行建模,以較小的時間窗口來捕獲謠言事件語義特征,同時也解決了檢測工作的及時性問題。武慶圓等[11]則針對短文謠言事件詞語稀疏、語義提取困難等問題,通過在文本與標(biāo)簽之間引入語義層構(gòu)建了一個多標(biāo)簽雙詞主題模型,用于發(fā)現(xiàn)社交媒體上短文本屬于謠言的傾向。上述研究的核心是為謠言事件構(gòu)造合適的特征,使用傳統(tǒng)機(jī)器學(xué)習(xí)的分類算法進(jìn)行謠言事件自動檢測。
近年來,隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)在自然語言處理、圖像處理等領(lǐng)域取得的一系列突破性研究成果,其強(qiáng)大的特征學(xué)習(xí)與特征表示能力引起了廣泛關(guān)注。在謠言事件檢測領(lǐng)域,Ma等[16]首次引入神經(jīng)網(wǎng)絡(luò)模型對微博謠言事件的多文本序列數(shù)據(jù)進(jìn)行深層特征表示,通過構(gòu)建循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型對謠言事件進(jìn)行檢測,一定程度上克服了傳統(tǒng)手工特征構(gòu)造的復(fù)雜性問題,提高了謠言事件自動檢測的準(zhǔn)確率。但深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練需要大量的數(shù)據(jù)和計算資源,同時網(wǎng)絡(luò)的層數(shù)、模型的架構(gòu)以及模型的可解釋性都是復(fù)雜且具有挑戰(zhàn)的問題。本文的主要研究工作是針對多文本微博事件信息尋找更具有表示能力的謠言事件特征,使用傳統(tǒng)分類算法進(jìn)行謠言事件的自動檢測。
綜上所述,從研究方法的角度來講,謠言事件檢測的主要研究工作大多是通過構(gòu)造事件特征,采用機(jī)器學(xué)習(xí)的分類算法進(jìn)行謠言事件檢測,主要包括淺層的統(tǒng)計特征[2-7]及深層的文本內(nèi)容特征[8-11]。本文在上述特征的基礎(chǔ)上,基于社會學(xué)的謠言傳播原理提出了事件流行度、模糊度和流傳度三項新特征用于微博謠言事件的自動檢測;從研究對象的檢測粒度上來說,微博謠言事件的檢測對象可分為單文本事件的細(xì)粒度謠言檢測[2-9,11]和多文本事件的粗粒度謠言檢測[10,13-14,16]。本文研究主要面向多文本時間序列數(shù)據(jù)的謠言事件檢測。為了更好地觀察謠言事件特征隨時間的變化,本文綜合時間維度上事件數(shù)據(jù)本身的聚合程度,提出基于模糊聚類的事件時序數(shù)據(jù)動態(tài)劃分算法,構(gòu)建了隨時間變化的事件特征集合,有效提高了謠言事件檢測效果。
給定微博事件E,與該事件相關(guān)的微博消息集合為P={p1,p2, …,pn}。本文首先對事件相關(guān)的微博按時間升序排列,然后采用時序數(shù)據(jù)動態(tài)劃分算法在時間維度上對事件進(jìn)行分割,并在此基礎(chǔ)上構(gòu)建隨時間變化的事件特征集合(包括基礎(chǔ)特征和新增特征)。最后,融合所有特征向量訓(xùn)練SVM模型進(jìn)行微博謠言事件的自動檢測。其流程如圖1所示。
現(xiàn)有大部分謠言事件檢測的研究工作中,在構(gòu)建分類特征時忽略了特征隨事件發(fā)展的時間變化特性,僅對固定時間窗口內(nèi)的事件進(jìn)行特征構(gòu)建。Ma等[14]指出了事件特征隨時間變化的特性,并利用簡單的等長時 間序列劃分來捕捉謠言事件特征的時間變化特性,檢測效果得到了提升。但等長的時間序列劃分忽略了事件時序數(shù)據(jù)在時間維度上的聚合程度。為了更好地觀察謠言事件特征隨時間的變化,本文提出了基于模糊聚類的事件時序數(shù)據(jù)動態(tài)劃分算法,并在此基礎(chǔ)上構(gòu)建了隨時間變化的事件特征集合。
圖1 微博謠言事件自動檢測流程
2.1.1 事件時序數(shù)據(jù)動態(tài)劃分算法
對于事件時序數(shù)據(jù),數(shù)據(jù)分布較密集的區(qū)域劃分子區(qū)間長度應(yīng)較短,而數(shù)據(jù)分布較稀疏的區(qū)域子區(qū)間長度應(yīng)較長。即合理的事件時間序列劃分后得到的子區(qū)間的長度應(yīng)該跟數(shù)據(jù)的分布有密切關(guān)系?;诖?,本文引入了模糊時間序列模型中的論域劃分思想,將事件的時間跨度當(dāng)作論域,提出了基于模糊聚類算法的事件時序數(shù)據(jù)動態(tài)劃分算法。本文采用的模糊聚類算法是模糊C均值(FCM)算法,該算法是由Bezdek[17]在1981年提出,是目前應(yīng)用最為廣泛和成功的一種模糊聚類算法。FCM算法將N個L維向量分為C個模糊組,通過迭代不斷更新隸屬度以及聚類中心,最小化目標(biāo)函數(shù)對數(shù)據(jù)進(jìn)行聚類。目標(biāo)函數(shù)及約束條件如式(1)所示。
(1)
其中,m≥1是模糊加權(quán)系數(shù),d(xi,vc)表示第i個數(shù)據(jù)點(diǎn)與第c個聚類中心的距離,uic是數(shù)據(jù)點(diǎn)xi屬于vc的隸屬度。
為了求含有約束條件的目標(biāo)函數(shù)的極值,引入拉格朗日因子構(gòu)造新的目標(biāo)函數(shù),如式(2)所示。
(2)
對于目標(biāo)函數(shù)求極值的最優(yōu)化條件如下:
從而得到隸屬度和聚類中心的計算如式(3)所示。
(3)
本文中使用的FCM算法所涉及的參數(shù)設(shè)置如下:模糊加權(quán)系數(shù)m=2,聚類中心數(shù)C=50,F(xiàn)CM算法停止的條件是迭代次數(shù)達(dá)到100次,或相鄰兩次迭代目標(biāo)函數(shù)改進(jìn)小于1*10-5。
根據(jù)隸屬度可以獲得時間序列的一個模糊分割,得不到確切的時間分割點(diǎn)。所以本文基于FCM算法所計算的聚類中心點(diǎn),選取相鄰兩個聚類中心的中點(diǎn)作為本文時間跨度論域的臨界點(diǎn),得到區(qū)間I1,I2, …,IC,其中C為聚類中心個數(shù)。
2.1.2 事件時序特征構(gòu)建
(4)
(5)
本節(jié)將重點(diǎn)介紹文中微博謠言事件自動檢測的過程中使用的所有特征,含基礎(chǔ)特征和新增特征,及各類特征的定義和計算方式。
2.2.1 基礎(chǔ)特征
本文所采用的基礎(chǔ)特征如表1所示,包括基于內(nèi)容的特征、基于用戶的特征和基于結(jié)構(gòu)的特征。本文會針對微博謠言事件發(fā)展過程中劃分的每一個時間區(qū)間分別使用公式(5)計算下表中的每個特征值。與之前研究不同的是,文中微博內(nèi)容主題使用LDA模型計算了微博熱點(diǎn)話題下的48個主題分布,另外,情感詞的識別和情感傾向主要基于大連理工大學(xué)情感詞匯本體庫。
表1 基礎(chǔ)特征表
2.2.2 新增特征
傳統(tǒng)基礎(chǔ)特征主要針對數(shù)據(jù)本身的特性,未考慮謠言事件傳播的社會必要屬性。美國社會學(xué)家Allport和Postman認(rèn)為謠言事件得以流傳的一個必要條件就是其模糊性,同時指出模糊性乘以重要性決定了謠言的流傳程度。在該定義中,謠言傳播是無意識主體作出的反應(yīng),對此Crouse在上述基礎(chǔ)上引入人的影響因素,重新定義為 “謠言的流通量=事件的重要性×事件的模糊性/公眾批判能力”。為了對微博謠言事件進(jìn)行區(qū)分,本文提出了事件流行度、模糊度、流傳度三個新的特征對微博事件進(jìn)行表示。對于微博事件Ei,有C個時間分割,即C個事件發(fā)展階段,那么這三個特征在各階段的定義和數(shù)學(xué)表示如下:
事件流行度(Posts Popularity,PPop):是指微博事件發(fā)展過程中各階段的重要程度。本文采用各時間段內(nèi)用戶對微博內(nèi)容的轉(zhuǎn)發(fā)、評論和點(diǎn)贊數(shù)來計算各階段事件的流行程度,如式(6)所示。
(6)
其中,Pi,t表示第i個事件中第t個時間段的微博集合,|Pi,t|則是指該集合中微博的總數(shù),ri,p,ci,p,li,p分別表示該集合中第p條微博的轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點(diǎn)贊數(shù)。
事件模糊度(Posts Ambiguity,PAmb):是指微博事件發(fā)展過程中各階段的模糊程度。對于每個時間段,本文使用當(dāng)前時間段內(nèi)微博內(nèi)容與前置時間段內(nèi)微博內(nèi)容的不相似程度來表示該時間段的模糊程度,并采用tf-idf計算內(nèi)容關(guān)鍵詞對微博內(nèi)容進(jìn)行表示。同時,使用Jaccard距離計算各時間段內(nèi)事件的模糊程度,如式(7)所示。
(7)
事件流傳度(Posts Spread,PSpr):是指微博事件發(fā)展過程中各階段的流傳程度。文獻(xiàn)[18]中指出公眾批判能力從本質(zhì)上看體現(xiàn)的是公眾的態(tài)度,因此本文使用表1中的“微博內(nèi)容平均情感得分”來計算公眾的批判能力。根據(jù)Crouse的謠言傳播公式,則本文的事件流傳度=事件流行度×事件模糊度/事件情感度,如式(8)所示。
(8)
為方便實(shí)驗(yàn)對比,本文采用文獻(xiàn)[16]中公開的微博謠言事件數(shù)據(jù)集。該數(shù)據(jù)集主要來自新浪微博社區(qū)管理中心的不實(shí)信息,共包含2 313個謠言事件和2 351個非謠言事件,其中1表示謠言事件(R),0表示非謠言事件(NR)。這些數(shù)據(jù)都是通過微博開放API從微博社區(qū)管理中心獲取。數(shù)據(jù)集的詳細(xì)統(tǒng)計信息如表2所示。
表2 數(shù)據(jù)集詳細(xì)統(tǒng)計信息
為保證實(shí)驗(yàn)的公平性,所有模型使用相同的訓(xùn)練集和測試集,并針對謠言(R)和非謠言(NR)兩個類別分別使用準(zhǔn)確率(Acc)、精準(zhǔn)率(P)、召回率(R)和F1值來評價模型的性能。
3.2.1 參數(shù)選擇
根據(jù)文獻(xiàn)[2,5,13-14]等的實(shí)驗(yàn)發(fā)現(xiàn),在謠言事件檢測領(lǐng)域,SVM模型略優(yōu)于決策樹、隨機(jī)森林等其他分類模型。故本文選擇SVM作為基礎(chǔ)模型。本文首先對SVM模型的核函數(shù)和參數(shù)的選擇進(jìn)行了實(shí)驗(yàn)討論。表3是分別使用四種核函數(shù)(默認(rèn)參數(shù)和所有特征下)實(shí)驗(yàn)結(jié)果,可以看出RBF核函數(shù)更加適合本文的分類任務(wù)。
表3 四種核函數(shù)訓(xùn)練結(jié)果對比
圖2 參數(shù)cost選擇
同樣的方法可獲得γ=0.000 35,如圖3所示。
圖3 參數(shù)γ選擇
3.2.2 實(shí)驗(yàn)結(jié)果與分析
表4 模型試驗(yàn)結(jié)果對比
從表4可以看出,決策樹模型DT-Rank的表現(xiàn)相對于其他模型來說,效果最不理想。這是由于DT-Rank模型是通過一系列謠言信號特征的正則表達(dá)式匹配進(jìn)行謠言事件識別,而這些正則表達(dá)式在本文使用的新浪微博謠言事件數(shù)據(jù)集中僅能匹配到1.63%的微博數(shù)據(jù)。相對來說,基于SVM模型的LK-RBF和SVM-TS在謠言事件識別上表現(xiàn)良好。尤其是SVM-TS模型,相對DT-Rank模型的準(zhǔn)確率提高了14.8%左右,F(xiàn)1值提高了13.6%~16.1%。一方面是由于SVM模型本身良好的泛化能力,更能適應(yīng)微博內(nèi)容的多樣性,更重要的是由于SVM-TS模型中,考慮了謠言事件特征隨時間變化的特性,因此,檢測效果得到了大幅提升。另外,GRU-2模型是基于RNN的深度神經(jīng)網(wǎng)絡(luò)模型。該模型通過謠言事件中,所有詞之間的關(guān)系自動構(gòu)建特征,更好地捕捉了謠言事件內(nèi)容的高層次特征。相對傳統(tǒng)的機(jī)器學(xué)習(xí)模型的準(zhǔn)確率和F1值等都得到了有效提升。
3.2.3 新特征影響
對本文提出的三個新特征,分別使用不同的特征組合(基礎(chǔ)特征+單項新特)研究了每項新特征對模型識別效果的影響。
實(shí)驗(yàn)結(jié)果如圖4所示,橫坐標(biāo)為基礎(chǔ)特征和各項新特的組合(即:PPop、PAmb和PSpr),縱坐標(biāo)為謠言事件檢測的準(zhǔn)確率Acc??傮w來看,在傳統(tǒng)基礎(chǔ)特征基礎(chǔ)上,本文提出的各項新特征對謠言事件檢測結(jié)果都有所提升,準(zhǔn)確率上升約1.0%~1.4%,進(jìn)一步說明了本文提出的三個新特征對于謠言事件檢測的有效性。其中,PAmb特征提升效果最為顯著。這也說明在事件傳播過程中,事件的模糊程度極大地影響了人們對于事件真實(shí)性的判斷,符合人們的一般認(rèn)知規(guī)律。
圖4 單項新特征模型影響對比
本文提出的SVM-DTS謠言事件自動檢測模型,不僅考慮了謠言事件特征隨時間變化的特性,而且綜合了時間維度上謠言事件的分布特征,有效提高了抽取出的特征對謠言事件的表征能力;另外,基于社會學(xué)中謠言的傳播原理,定義了事件流行度、模糊度和流傳度三項謠言事件檢測的新特征。實(shí)驗(yàn)結(jié)果表明,本文提出的模型使謠言事件檢測效果得到了可觀的提升。
在未來的工作中,一方面,我們將尋找更加符合微博謠言事件傳播模式的計算方法和新增特征的表示方法,同時深入考察和分析文中提到的基礎(chǔ)特征和新增特征對謠言事件檢測效果的影響,從而,選擇最佳的特征組合;另外一方面,我們將考慮事件傳播學(xué)原理,構(gòu)建更符合事件發(fā)展傳播的時序特征表示模型。同時,我們也將考慮使用深度神經(jīng)網(wǎng)絡(luò)模型來解決人工特征構(gòu)建復(fù)雜和特征語義性不強(qiáng)等問題。