關(guān)聯(lián)關(guān)系挖掘與預(yù)測
孫越恒1, 王文俊1, 遲曉彤2, 寧溥泰1, 邢 磊1
(1. 天津大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院, 天津 300072; 2. 天津大學(xué)軟件學(xué)院, 天津 300072)
?
基于多維時間序列模型的社會安全事件
關(guān)聯(lián)關(guān)系挖掘與預(yù)測
孫越恒1, 王文俊1, 遲曉彤2, 寧溥泰1, 邢磊1
(1. 天津大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院, 天津 300072; 2. 天津大學(xué)軟件學(xué)院, 天津 300072)
摘要:近年來社會安全事件頻繁發(fā)生,給人民群眾的生命和財產(chǎn)帶來了嚴(yán)重?fù)p害。文章基于大規(guī)模時序數(shù)據(jù),通過挖掘事件觸發(fā)因素,利用多維時間序列模型量化分析其與社會安全事件發(fā)生的關(guān)聯(lián)關(guān)系,并對未來事件的發(fā)生數(shù)量進(jìn)行預(yù)測。另外,提出一種基于態(tài)勢主導(dǎo)的多維時間序列相似性度量方法,量化分析不同類別事件之間發(fā)展趨勢的相似程度,并對三類具體的社會安全事件進(jìn)行相關(guān)分析及預(yù)測。實(shí)驗表明,從時序數(shù)據(jù)角度分析可以很好地挖掘觸發(fā)事件的隱形因素,并較為準(zhǔn)確地估計事件發(fā)生數(shù)目和事件發(fā)展趨勢,為管理者預(yù)防和控制此類事件的發(fā)生提供了一種新的思路和方法。
關(guān)鍵詞:社會安全事件; 關(guān)聯(lián)關(guān)系挖掘; 多維時間序列
危害社會安全事件近幾年來在各地頻發(fā),管理者預(yù)防此類惡性事件發(fā)生的第一步就是分析觸發(fā)事件發(fā)生的原因。除了貧富差距變大、民族矛盾激化等社會原因外,此類事件發(fā)生與近年來互聯(lián)網(wǎng)技術(shù)的普及也有極大的關(guān)系。互聯(lián)網(wǎng)使事件消息的傳播不再受到空間限制,傳播范圍越來越廣,傳播時效性也越來越強(qiáng),這就可能造成了事件之間的模仿效應(yīng),事件與事件之間不再是獨(dú)立存在,一個事件可能如蝴蝶效應(yīng)一般觸發(fā)另一個事件[1]。因此,找到事件與事件之間的關(guān)聯(lián)關(guān)系和觸發(fā)因素對于控制與預(yù)防類似事件發(fā)生尤為重要。
由于非結(jié)構(gòu)化數(shù)據(jù)的文本處理困難以及人的思想與情感極強(qiáng)的不確定性,對于由人主導(dǎo)的社會安全事件之間關(guān)聯(lián)關(guān)系挖掘還處于起步的定性階段,量化分析較少,主要集中在對其傳播特征的挖掘及應(yīng)對上[2-3],只有極少的研究分析社會安全事件的發(fā)生機(jī)理[4]。通過對社會安全事件產(chǎn)生的大量網(wǎng)絡(luò)數(shù)據(jù)特征的分析,本文將運(yùn)用時間序列分析的相關(guān)基礎(chǔ)研究對事件的關(guān)聯(lián)因素進(jìn)行挖掘與定量分析。
時間序列是指一串按時間先后順序排列的而又相互關(guān)聯(lián)的數(shù)據(jù)序列。時間序列分析就是對這種依賴性關(guān)系的挖掘以及根據(jù)分析結(jié)果對未來某時刻值進(jìn)行預(yù)測的一種分析技術(shù)[5],在諸多領(lǐng)域得到廣泛應(yīng)用,例如自然界氣象領(lǐng)域中的氣象數(shù)據(jù),社會經(jīng)濟(jì)領(lǐng)域中一個國家的國民生產(chǎn)總值(GDP),物價指數(shù)等都可以構(gòu)成時間序列數(shù)據(jù)并進(jìn)行分析[6-7],而時間序列也越來越多地應(yīng)用于事件的預(yù)測中,例如經(jīng)濟(jì)領(lǐng)域?qū)τ诮鹑谑录念A(yù)測[8],醫(yī)學(xué)領(lǐng)域?qū)τ诩膊“l(fā)病率預(yù)測[9]以及醫(yī)療事故的時序分析[10]等等。這些都證明時間序列分析方法對于分析具有時序特征的數(shù)據(jù)較為有效,且應(yīng)用更加靈活。
當(dāng)將多個獨(dú)立發(fā)生事件映射到等劃分的時間段內(nèi)觀測到的事件數(shù)目可形成時間序列數(shù)據(jù),不同時間區(qū)間發(fā)生的同類事件之間可能具有相互依賴或者相關(guān)關(guān)系,因此采用時間序列分析模型研究事件發(fā)生規(guī)律是可行的。而當(dāng)前時間段內(nèi)的事件發(fā)生不僅與此前發(fā)生的同類事件本身性質(zhì)相關(guān),也可能與其帶來的附加影響相關(guān),例如前段時間內(nèi)已發(fā)生事件的熱度、該事件的傳播影響大小以及民眾對于事件的情感傾向都可能與此時間段事件的發(fā)生有關(guān)。為了使分析和預(yù)測更加準(zhǔn)確,將這些信息作為附加的相關(guān)變量形成多元變量,通過多維時間序列分析挖掘同類事件發(fā)生的關(guān)聯(lián)因素。對于事件性質(zhì)不同的異類事件,我們認(rèn)為事件性質(zhì)或發(fā)生數(shù)目可能差別明顯,但是其變化趨勢卻可能相同,因此采取基于態(tài)勢主導(dǎo)的多維時間序列相似度分析,通過態(tài)勢距離衡量異類事件發(fā)展趨勢的相似程度,為進(jìn)一步分析異類事件關(guān)聯(lián)關(guān)系做鋪墊。具體內(nèi)容包括:1)定義并抽取事件相關(guān)因素;2)挖掘同類事件之間的關(guān)聯(lián)因素并預(yù)測;3)不同類別事件的相似度分析。
一、 模型基本概念定義
1. 相關(guān)定義
定義1:時間間隔。時間間隔是模型分析最基本的觀測時間單元,記作τ。所有觀測數(shù)值在基本時間間隔內(nèi)觀測獲得,以基本時間間隔做切分。定義整體觀測時間段的起始和終止時間點(diǎn)為ts與te,整體時間被劃分成n個時間段,其中n=(te-ts)/τ。
定義2:階段事件發(fā)生數(shù)目。事件性質(zhì)的量化數(shù)值用事件數(shù)目代表,階段事件數(shù)目指單位時間間隔內(nèi)該類別事件發(fā)生的數(shù)目。第i個時間段內(nèi)事件發(fā)生數(shù)目定義為Yi,其中i=1,2,…,n。這是觀測向量中最重要一維觀測數(shù)據(jù),既屬于觀測影響因素,又屬于被影響因素。
定義3:階段影響因子。一個時間段內(nèi)一類事件發(fā)生而產(chǎn)生的影響中引起下一階段同類事件發(fā)生的影響因子稱為此類事件的階段影響因子。本文定義了兩個危害社會安全事件的階段影響因子,分別為階段事件熱度與階段情感傾向,前者指此階段事件的發(fā)生引起的社會關(guān)注與民眾討論的熱烈程度,后者指此階段民眾對該類事件的發(fā)生的態(tài)度與情感傾向,例如贊同、支持、反對或者憤怒等等。定義第i個時間段內(nèi)事件熱度與民眾情感傾向分別為Hi與Ei。
定義4:多維時間序列。多維時間序列指連續(xù)時間間隔觀測到的事件多維序列數(shù)據(jù)。第i個時間段內(nèi)的事件發(fā)生數(shù)目Yi及附加影響因子事件熱度Hi和民眾情感傾向Ei組成第i個時間間隔內(nèi)的觀測向量Ai=
2. 影響因子抽取
當(dāng)前網(wǎng)上事件發(fā)布渠道主要包括權(quán)威資訊網(wǎng)和熱門微博,這些網(wǎng)絡(luò)媒體或傳播平臺使得公眾言論更加開闊,可追溯性也越來越強(qiáng)。我們選取這兩類傳播媒體,通過消息的傳播路徑,量化事件的階段熱度以及階段情感傾向。
(1) 階段事件熱度。計算熱度的意義是能夠?qū)υ掝}的被關(guān)注程度有一個量化的、直觀的表示,以便可以將熱度因素考慮進(jìn)入模型中,實(shí)際熱度值最終呈現(xiàn)在模型中只是轉(zhuǎn)化為話題之間關(guān)注度比例的問題,而不局限在其量化值本身。因此選取最簡單最常用的加權(quán)法進(jìn)行話題熱度計算。
基于已有的數(shù)據(jù)集,從資訊網(wǎng)來源量化事件熱度,選定資訊網(wǎng)網(wǎng)媒集合M,對于資訊網(wǎng)m,根據(jù)發(fā)布事件的資訊網(wǎng)的網(wǎng)媒權(quán)重km、對于事件j的新聞總報道數(shù)目Qmj,發(fā)布的所有新聞報道中民眾的評論量數(shù)量Cmj,點(diǎn)贊數(shù)量Amj的量化值,通過資訊網(wǎng)傳播因子結(jié)合式(1)得到資訊網(wǎng)傳播的事件熱度為
(1)
從微博傳播的角度衡量事件熱度,選定微博號集合W,對于微博號w,根據(jù)事件發(fā)布源的意見領(lǐng)袖權(quán)重lw以及民眾參與量Qwj的量化值,通過微博傳播因子結(jié)合式(2)得出微博傳播的事件熱度為
(2)
定義事件j的事件熱度hj定義為zhj與whj之和。定義J類事件在第i個時間段內(nèi)的階段事件熱度為
(3)
(2) 階段情感傾向。同話題熱度類似,情感傾向的計算只是為反應(yīng)民眾當(dāng)前階段的整體情感,該量化值最終也會轉(zhuǎn)化成為模型中的不同階段情感比例,而不局限在其量化值本身。因此,我們用最簡單的某類情緒占比來標(biāo)識階段情感傾向即可。
民眾對社會安全事件的情緒復(fù)雜多樣,可以根據(jù)其激烈程度分成多個等級。為方便計算,在此只將情緒分為兩類:積極情緒和消極情緒。積極情緒是指激動、興奮、有正義感,這種情緒可能會抑制此類事件再次發(fā)生;而消極情緒是指言辭激烈,甚至有可能引發(fā)沖動性的行為,這種情緒則可能導(dǎo)致此類事件再次發(fā)生。將階段情感傾向量化為積極情緒所占比例,分析其與下一階段該類事件發(fā)生的關(guān)系。定義在第i個時間段內(nèi)對J類事件的積極情感數(shù)目為PosiJ,消極情感數(shù)目為NegiJ。
因此,J類事件在第i個時間段內(nèi)的階段事件情感傾向為
EiJ=PosiJ/(PosiJ+NegiJ),iτ≤tj<(i+1)τ
(4)
二、 模型建立
1. 假設(shè)
假設(shè)當(dāng)前時間段內(nèi)事件的發(fā)生會與過去p個時間段內(nèi)發(fā)生的事件成線性關(guān)系,且不僅與之前時間段內(nèi)發(fā)生的事件性質(zhì)相關(guān),也與其階段事件熱度以及階段情感傾向相關(guān)。
2. 多維時間序列模型
觀測到的時間序列為{A1,A2,…,An},其中At代表第t個時間段的觀測向量,觀測向量包含第t個時間段內(nèi)事件發(fā)生數(shù)目Yi,第t個時間段階段事件熱度Ht與階段民眾情感傾向Et三個維度。假設(shè)當(dāng)前時間段內(nèi)事件的發(fā)生與過去p個時間段內(nèi)觀測向量成線性關(guān)系,通過一維時間序列ARp階線性時間反演時序模型擴(kuò)展對多維時間序列的關(guān)聯(lián)關(guān)系進(jìn)行定量分析。設(shè)定模型階數(shù)為p,令t=p+k(k=1,2,…,n-p),則模型表示為
(5)
式中:δ為誤差向量,記作δ=[δp+1,δp+2,…,δn]T;β為關(guān)聯(lián)參數(shù)向量,即與每一維度屬性相關(guān)程度,記作β=[β1,β2,…,βp]T。
將觀測向量用矩陣表示為
Z=[Ap+1,Ap+2,…,An]T
則多維時間序列關(guān)聯(lián)模型可以表示為
Z=βX+δ
(6)
βLS=(X′X)-1X′Z
(7)
3. 基于態(tài)勢主導(dǎo)的多維時間序列相似性度量模型
基于態(tài)勢主導(dǎo)的多維時間序列相似度度量的假設(shè)基礎(chǔ)是:不同的多維時間序列其各維度所在量級也許不同,但其變化趨勢可能會相同。也就是說,不同類型事件的事件性質(zhì)的體現(xiàn)可能不同,但是其事件的變化趨勢也許相同。對于給定的兩個觀測向量A,B,通過計算它們之間的態(tài)勢距離DS(A,B)來衡量兩個序列發(fā)展趨勢的相似程度。
每個時間段內(nèi)的態(tài)勢值設(shè)定為三個,上升態(tài)勢用“1”表示,平穩(wěn)態(tài)勢用“0”表示,下降態(tài)勢用“-1”表示。即t時間段內(nèi)r維度態(tài)勢值表示為
(8)
則觀測向量A,B的態(tài)勢距離定義為對應(yīng)時段間的平均距離為
(9)
A,B的態(tài)勢距離DS(A,B)越小,表示A,B發(fā)展趨勢越相近。
三、 實(shí)驗設(shè)計與結(jié)果分析
1. 數(shù)據(jù)集介紹
本實(shí)驗數(shù)據(jù)集由“第二屆中國大數(shù)據(jù)技術(shù)創(chuàng)新大賽”協(xié)辦單位“海量智能數(shù)據(jù)技術(shù)有限公司”提供,數(shù)據(jù)類型為互聯(lián)網(wǎng)媒體報道和UGC用戶生成數(shù)據(jù),訓(xùn)練集主要提供資訊和微博兩類數(shù)據(jù),其時間跨度為2011年4月至2014年4月共三年,數(shù)據(jù)量為55萬條左右。由于選擇的資訊網(wǎng)和微博較為權(quán)威和全面,因此分析結(jié)果基本可以代表事件在網(wǎng)絡(luò)傳播的實(shí)際情況,進(jìn)而反應(yīng)實(shí)際事件發(fā)生的規(guī)律。
數(shù)據(jù)集共包含三類危害社會安全事件,分別為:公交車爆炸事件數(shù)據(jù),暴力恐怖事件數(shù)據(jù)和校園砍傷事件數(shù)據(jù)。數(shù)據(jù)集提供字段主要包括資訊和微博的發(fā)布時間、標(biāo)題、正文、摘要、原始出處、是否原創(chuàng)、評論量、轉(zhuǎn)發(fā)量、正文分詞等信息。微博人物資料信息,包括性別、生日、等級、粉絲數(shù)、個人標(biāo)簽等。
2. 實(shí)驗步驟
(1) 事件提取?;谏鲜鰯?shù)據(jù)集,數(shù)據(jù)預(yù)處理步驟包括數(shù)據(jù)去重與事件提取。數(shù)據(jù)去重基于數(shù)據(jù)庫的前綴索引特點(diǎn),以時間、媒體源和報道題目的前70個字符為索引去掉本質(zhì)相同的數(shù)據(jù)記錄,去重的準(zhǔn)確率達(dá)到98.8%。事件提取采用人工標(biāo)注事件與訓(xùn)練文本分類相結(jié)合的方式,提取獨(dú)立事件以及事件相關(guān)的新聞報道和微博發(fā)布。由于突發(fā)事件數(shù)量并不多,人工標(biāo)注事件的方法可行且準(zhǔn)確。通過標(biāo)注事件利用TF-IDF方法[11]進(jìn)行人名、地名向量提取,并結(jié)合余弦相似度的計算提取同個事件相關(guān)的資訊和微博內(nèi)容。在反復(fù)人工標(biāo)注、修正的迭代下,獲得了很好的事件提取效果。
(2) 時間間隔選取。由于危害社會安全事件的發(fā)生相對來講并不頻繁(例如暴恐事件可能三個月或者半年發(fā)生一次),觀測數(shù)據(jù)較為稀疏,因此,將時間間隔盡量擴(kuò)大,保證數(shù)據(jù)的可觀測性。這里取時間間隔即基本數(shù)據(jù)觀測單元τ為3個月,所有觀測數(shù)據(jù)統(tǒng)計與計算都以3個月為間隔進(jìn)行。整體時間跨度為2011年4月至2014年4月三年,因此共有12個時間間隔,即n=12。
(3) 影響因子抽取與向量構(gòu)建。事件發(fā)生數(shù)目向量構(gòu)建:通過人工標(biāo)注事件,對三類危害社會安全事件進(jìn)行事件提取,提取的事件數(shù)目按3個月為時間間隔進(jìn)行統(tǒng)計。
階段事件熱度向量構(gòu)建。熱度計算需要考慮資訊網(wǎng)報道的媒體權(quán)重與微博報道的意見領(lǐng)袖權(quán)重。我們采用HITS算法思想[12],基于“數(shù)量假設(shè)”與“質(zhì)量假設(shè)”兩點(diǎn)計算資訊網(wǎng)各網(wǎng)媒權(quán)重,而微博意見領(lǐng)袖權(quán)重的計算依據(jù)其微博用戶自身性質(zhì)(粉絲數(shù)、等級)進(jìn)行分級評估設(shè)定。通過對單個事件相關(guān)報道以及微博轉(zhuǎn)發(fā)評論數(shù)量的提取,結(jié)合資訊網(wǎng)媒和微博意見領(lǐng)袖權(quán)重,根據(jù)式(1)~(3)以時間間隔τ=3分別計算12個間隔的階段事件熱度。
階段情感傾向向量構(gòu)建。情感傾向分析的限制關(guān)鍵在于文本的信息抽取。利用情感詞典(董振東HowNet)以及總結(jié)的微博表情詞典,將待分析的資訊評論與微博評論轉(zhuǎn)發(fā)文本通過開源分詞軟件進(jìn)行文本分詞,并將分詞結(jié)果與情感詞典比較,根據(jù)兩類權(quán)值計算每個文本的情感傾向。最后根據(jù)式(4)計算與某個事件相關(guān)的所有評論的正面情感比例,即事件情感傾向。
3. 實(shí)驗結(jié)果與分析
(1) 事件影響因素挖掘。根據(jù)以上分析與計算,得到以3個月為時間間隔的觀測向量。以“校園砍殺”類型事件為例,其觀測向量三個維度如表1所示。
表1 “校園砍殺”事件觀測向量
觀察數(shù)值呈上升趨勢,因此要進(jìn)行數(shù)據(jù)去趨勢平穩(wěn)化,此處采用對數(shù)線性去趨勢平穩(wěn)化方法。由于要考慮三個維度中每個維度對于事件發(fā)生的貢獻(xiàn)比例,因此對數(shù)據(jù)進(jìn)行歸一化使其在同一量級上更便于我們分析結(jié)果。同時,觀察到前5個時刻事件發(fā)生數(shù)量為0,無法采集相關(guān)的事件報道評論以及微博傳播報道。因此,向量從第6時刻開始截斷。將多維觀測向量輸入模型求得參數(shù)向量結(jié)果如表2所示。
表2 相關(guān)系數(shù)
以“校園砍殺”類型事件為例,β=[2.729 1,1.533 7,-0.983 1],模型階數(shù)p=1。表明校園事件的發(fā)生和前一個時間段,也就是前三個月內(nèi)此類事件的發(fā)生相關(guān)。其中,與其事件本身性質(zhì)(事件發(fā)生規(guī)律)關(guān)系度為2.729 1最大。另外,此類事件的事件熱度與事件發(fā)生成正比關(guān)系(1.533 7),也就是說事件,被討論越多,傳播越廣,越有可能導(dǎo)致更多該類事件的發(fā)生,可以理解為很多人也許會受到已經(jīng)發(fā)生的該類事件的影響而去效仿。第三個維度參數(shù)小于0表明,事件發(fā)生與民眾正情感的比例成反比,如果民眾的態(tài)度較為積極向上,則會抑制此類事件發(fā)生,但是效果并不明顯。
根據(jù)參數(shù)β與階數(shù)p以及歷史值,可以預(yù)測下一個時間段即2014年4月~2014年6月內(nèi)校園砍傷事件發(fā)生的數(shù)目為13,根據(jù)實(shí)際的網(wǎng)絡(luò)統(tǒng)計數(shù)據(jù)統(tǒng)計下三個月內(nèi)的校園砍殺事件數(shù)目為15, 綜合另兩類事件訓(xùn)練集的預(yù)測誤差在15.6%左右。由于無法預(yù)測出具體可能發(fā)生的事件內(nèi)容,而僅能預(yù)測事件發(fā)生數(shù)目,因此僅可以根據(jù)歷史相關(guān)數(shù)據(jù)判斷未來事件發(fā)生趨勢,為管理者針對當(dāng)前事態(tài)變化和民眾情緒提供下一步管理的方向指示和緊急預(yù)警。
(2) 事件相似度衡量。根據(jù)三類事件觀測向量每個時間段的變化趨勢確定其態(tài)勢向量。三類事件以數(shù)量維度上的態(tài)勢向量為例,如表3所示,對應(yīng)態(tài)勢圖如圖1所示。
表3 事件發(fā)生數(shù)量維度態(tài)勢向量
通過計算三個維度態(tài)勢向量,計算三類事件的多維時間序列的態(tài)勢相似度,結(jié)果如表4所示。
表4 三類事件態(tài)勢相似度
從模型可以得知,某類事件時間序列的態(tài)勢指其各時間段內(nèi)發(fā)生數(shù)目、事件熱度以及民眾情感傾向整體的狀態(tài)。兩個時間序列的態(tài)勢距離越小,說明其形態(tài)越相近,兩類事件整體趨勢越接近。
通過事件的態(tài)勢相似性距離可以看出,校園砍殺與暴力恐怖類型的事件態(tài)勢距離為1.189,最為相近,也就是說這兩類事件的發(fā)展趨勢最為接近,這可能由于兩類事件都是由人的主觀意識控制造成,事件傳播極可能引起人的效仿,導(dǎo)致模式相近。而公交爆炸事件與暴力恐怖事件和校園砍殺事件的態(tài)勢距離相對來說較遠(yuǎn),分別為1.745和1.897,這可能由于公交爆炸事件多是天氣原因自燃或者極少意外引發(fā)的。
四、 結(jié)語
本文提出了一種新的思路來量化分析社會安全事件的發(fā)生,假設(shè)此類事件的發(fā)生不僅與其事件性質(zhì)有關(guān),還受一些附加因素影響。將事件本身與附加因素映射至多個時間段內(nèi),形成多維時間序列進(jìn)行關(guān)聯(lián)關(guān)系分析,挖掘出可能影響事件發(fā)生的因子。并通過事件的態(tài)勢相似度分析不同類別事件的發(fā)展趨勢相似性,為控制和預(yù)防危害社會安全事件發(fā)生提供了新的思路和方法。但是,由于非結(jié)構(gòu)化文本處理困難,影響因子提取的準(zhǔn)確性無法估測。因此,未來的工作我們更多地要對定義的影響因子進(jìn)行評估并優(yōu)化影響因子的提取過程,同時將事件的關(guān)聯(lián)關(guān)系由線性向非線性進(jìn)行擴(kuò)展。
參考文獻(xiàn):
[1]韓立新, 霍江河. “蝴蝶效應(yīng)”與網(wǎng)絡(luò)輿論生成機(jī)制[J].當(dāng)代傳播, 2008 (6):64-67.
[2]陳虹, 沈申奕. 新媒體環(huán)境下突發(fā)事件中謠言的傳播規(guī)律和應(yīng)對策略[J].華東師范大學(xué)學(xué)報:哲學(xué)社會科學(xué)版, 2011, 43(3):83-91.
[3]劉鐵民.危機(jī)型突發(fā)事件應(yīng)對與挑戰(zhàn)[J]. 中國安全生產(chǎn)科學(xué)技術(shù), 2010, 6(1):8-12.
[4]朱正威, 胡永濤, 郭雪松. 基于尖點(diǎn)突變模型的社會安全事件發(fā)生機(jī)理分析[J]. 西安交通大學(xué)學(xué)報:社會科學(xué)版, 2011, 31(3):51-55.
[5]Chatfield C.TheanalysisofTimeSeries:AnIntroduction[M]. Boca Raton: CRC press, 2013.
[6]鈔小靜, 任保平. 中國經(jīng)濟(jì)增長質(zhì)量的時序變化與地區(qū)差異分析[J]. 江蘇商論, 2014 (27):26-40.
[7]Engle R F. Autoregressive conditional heteroscedasticity with estimates of the variance of United Kingdom inflation[J].Econometrica:JournaloftheEconometricSociety, 1982, 50(4): 987-1007.
[8] 白旻. 金融時間序列數(shù)據(jù)預(yù)測方法探析[J]. 商業(yè)時代, 2012 (21):80-81.
[9] 羅靜, 楊書, 張強(qiáng), 等. 時間序列ARIMA模型在艾滋病疫情預(yù)測中的應(yīng)用[J]. 重慶醫(yī)學(xué), 2012, 41(13):1255-1256.
[10] Schaffer A, Muscatello D, Broome R, et al. Emergency department visits, ambulance calls, and mortality associated with an exceptional heat wave in Sydney, Australia, 2011: A time-series analysis[J].EnvironHealth, 2012, 11(1): 273-279.
[11] Sparck Jones K. A statistical interpretation of term specificity and its application in retrieval[J].Journalofdocumentation, 1972, 28(1): 11-21.
[12] Gibson D, Kleinberg J, Raghavan P. Inferring web communities from link topology[C]//ProceedingsoftheNinthACMConferenceonHypertextandHypermedia. Pitsburgh: ACM Press, 1998: 225-234.
Correlation Mining and Prediction of Social Security Events Based on
Multi-dimensional Time Series Model
Sun Yueheng1, Wang Wenjun1, Chi Xiaotong2, Ning Putai1, Xing Lei1
(1. School of Computer Science and Technology, Tianjin University, Tianjin 300072, China;
2. School of Computer Software, Tianjin University, Tianjin 300072, China)
Abstracts: In recent years the frequentoccurring of social security events has led serious damage to masses’ life and property security. Based on large-scale time series data, this paper quantitatively analyzes the correlation between the trigger factors and the happening of social security events, then predicts the number of security events that may happen in the future. In addition, this paper presents a multi-dimensional time series similarity measurement method which is based on situational dominant, trying to quantitatively analyze the similarity of development tendency among different kinds of events, and make correlation analysis and predictiontowards three kinds of specific social security events. The experiment result shows that time series analysis can well mine the invisible trigger factorsand accurately estimate the number and tendency of public security events’ happening. It can provide a new thought and method for administrators to prevent and control the happening of these kinds of events.
Keywords:social security events; correlationmining of events; multi-dimensional time series
中圖分類號:G350.7
文獻(xiàn)標(biāo)志碼:A
文章編號:1008-4339(2016)02-097-06
通訊作者:王文俊, wjwang@tju.edu.cn.
作者簡介:孫越恒(1974—),男,講師.
基金項目:國家社科基金重大資助項目(14ZDB153);教育部人文社會科學(xué)研究基金資助項目(13YJC870023).
收稿日期:2015-04-27.