胡明生,賈志娟,吉曉宇,洪 流
(1.鄭州師范學(xué)院軟件研究所,河南 鄭州 450044;2.華中科技大學(xué)系統(tǒng)工程研究所,湖北 武漢 430074)
尋找地震相關(guān)區(qū)域的詞頻共現(xiàn)分析方法
胡明生1,2,賈志娟1,吉曉宇1,洪 流2
(1.鄭州師范學(xué)院軟件研究所,河南 鄭州 450044;2.華中科技大學(xué)系統(tǒng)工程研究所,湖北 武漢 430074)
地震的地區(qū)相關(guān)性反映出一定地理位置上地震發(fā)生的規(guī)律性,尋找中國(guó)震區(qū)之間的相關(guān)性規(guī)律可以提前預(yù)測(cè)地震發(fā)生的區(qū)域。以中國(guó)歷史地震災(zāi)害數(shù)據(jù)庫(kù)為平臺(tái)搭建共現(xiàn)分析模型,首先將地震區(qū)域以熟知地名進(jìn)行劃分,在此基礎(chǔ)上改進(jìn)原有Salton模型,提出一種基于修正Salton指數(shù)的共現(xiàn)分析方法,使用修正后的共現(xiàn)分析方法求解地震區(qū)域間的關(guān)聯(lián)度。實(shí)驗(yàn)表明,該修正Salton模型能更準(zhǔn)確地反映關(guān)聯(lián)度。
地震區(qū)域;詞頻共現(xiàn);Salton指數(shù);相關(guān)性
在地震預(yù)報(bào)科學(xué)中,專家們經(jīng)過(guò)長(zhǎng)期的觀測(cè)研究和經(jīng)驗(yàn)積累發(fā)現(xiàn),某些地區(qū)大范圍的地震活動(dòng)往往同時(shí)趨于平靜,即一定區(qū)域上的地震活動(dòng)有同步漲落現(xiàn)象。在一定距離的兩地區(qū)中,某些特定震級(jí)以上的顯著地震相伴發(fā)生的現(xiàn)象稱為地震的相關(guān)現(xiàn)象,也稱為地震的地區(qū)相關(guān)性[1]。
目前災(zāi)害預(yù)測(cè)模型的研究主要集中在歷史災(zāi)害相關(guān)度模型,而將所有時(shí)間、空間以及災(zāi)種等因素都綜合起來(lái)的復(fù)雜網(wǎng)絡(luò)模型的研究就顯得異常艱難。現(xiàn)有的災(zāi)害預(yù)測(cè)模型包含神經(jīng)網(wǎng)絡(luò)模型[2]、基于復(fù)雜網(wǎng)絡(luò)的時(shí)空災(zāi)害模型[3]以及基于相關(guān)度的災(zāi)害預(yù)測(cè)模型。
地震的地區(qū)相關(guān)性反映出一定地理位置上地震發(fā)生的規(guī)律性。因此,尋找中國(guó)震區(qū)之間的相關(guān)性規(guī)律可以提前預(yù)測(cè)地震發(fā)生的區(qū)域,這也是一種常用的地震預(yù)報(bào)方法[4]。傳統(tǒng)的震區(qū)相關(guān)性分析都是通過(guò)一定的自定義模型建立起一套適用于震區(qū)相關(guān)性模型的算法體系,研究過(guò)程繁瑣,表現(xiàn)方式不直接。使用共現(xiàn)分析對(duì)中國(guó)震區(qū)相關(guān)性進(jìn)行研究,能夠使震區(qū)之間的相關(guān)性表現(xiàn)得一目了然,并且減少地震預(yù)測(cè)的工作量和周期。本文將中國(guó)的震區(qū)以省為單位進(jìn)行劃分,然后以歷史地震災(zāi)害數(shù)據(jù)庫(kù)為數(shù)據(jù)來(lái)源,建立歷史地震災(zāi)害地區(qū)關(guān)聯(lián)度模型,通過(guò)使用兩種相對(duì)關(guān)聯(lián)度指數(shù)Jaccard指數(shù)和Salton指數(shù)的評(píng)估方法,實(shí)現(xiàn)中國(guó)震區(qū)間的關(guān)聯(lián)性鑒定,對(duì)地震災(zāi)害區(qū)域的預(yù)測(cè)有很大的推進(jìn)作用。
2.1 網(wǎng)絡(luò)模型的建立
首先,假設(shè)網(wǎng)絡(luò)中有N個(gè)對(duì)象,各個(gè)對(duì)象的名稱都是確定且唯一的,開(kāi)始時(shí)并不知道任何信息,讓任意兩個(gè)對(duì)象之間都以虛線雙向鏈接,如圖1a所示。然后,通過(guò)查詢歷史上對(duì)象之間發(fā)生的聯(lián)系,或文獻(xiàn)總結(jié),可以將確定構(gòu)成有關(guān)聯(lián)的對(duì)象的邊變成實(shí)線,如圖1b所示。最后,將不可能同時(shí)發(fā)生關(guān)聯(lián)的對(duì)象之間的線去掉,無(wú)法確定的邊仍保留虛線的狀態(tài),這時(shí)地震區(qū)域網(wǎng)絡(luò)就建立起來(lái)了,如圖1c所示。
Figure 1 Establishment of correlation degree network model圖1 關(guān)聯(lián)度網(wǎng)絡(luò)模型的建立
2.2 關(guān)聯(lián)度的計(jì)算
可以使用數(shù)學(xué)語(yǔ)言對(duì)網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)之間的關(guān)聯(lián)度進(jìn)行定義:
Figure 2 Correlation degree network model圖2 關(guān)聯(lián)度網(wǎng)絡(luò)模型
定義2 (節(jié)點(diǎn)的度)網(wǎng)絡(luò)中某節(jié)點(diǎn)的度,是該節(jié)點(diǎn)所關(guān)聯(lián)的所有邊的權(quán)值總和。度數(shù)為0的點(diǎn)稱為孤立點(diǎn)。也就是說(shuō)網(wǎng)絡(luò)中沒(méi)有任何節(jié)點(diǎn)與該節(jié)點(diǎn)相關(guān)。
例如,圖2中節(jié)點(diǎn)A1的度為A1-B1,A1-B2,A1-C2,A1-C1的所有關(guān)聯(lián)度的總和,即節(jié)點(diǎn)A1的度為:
定義3 (關(guān)聯(lián)矩陣)一個(gè)具有v個(gè)頂點(diǎn)和e條邊的網(wǎng)G的關(guān)聯(lián)矩陣Av是v×v階矩陣,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)矩陣相應(yīng)的行和列,即:
Av=[aij],1
其中,aij表示頂點(diǎn)vi與頂點(diǎn)vj之間的關(guān)聯(lián)度:
其中,en表示相應(yīng)兩個(gè)節(jié)點(diǎn)的關(guān)聯(lián)度,所以en≤1恒成立。
例如,圖2網(wǎng)絡(luò)的關(guān)聯(lián)矩陣A7為:
A1B1B2C2D1A2C1
3.1 構(gòu)造共現(xiàn)矩陣
本文的數(shù)據(jù)來(lái)源于中國(guó)九個(gè)朝代的地震記錄數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)是目前歷史災(zāi)害記錄數(shù)據(jù)庫(kù)中數(shù)據(jù)量最大的地震災(zāi)害數(shù)據(jù)庫(kù),分為九個(gè)朝代:明朝、南北朝、秦漢、清朝、宋朝、隋唐五代、魏晉、先秦、元朝,每部分都記錄相應(yīng)的地震災(zāi)害記錄,以及相關(guān)地震。主要以某次確定的地震事件為單位來(lái)記錄九個(gè)朝代的地震情況,記錄中包含地震時(shí)間、地震地點(diǎn)以及相關(guān)的已發(fā)生地震,主題包括具體的日期、地點(diǎn)、記錄內(nèi)容[5]。
共現(xiàn)矩陣的構(gòu)造方法:將45個(gè)地震區(qū)域關(guān)鍵詞兩兩作為中國(guó)九個(gè)朝代的地震記錄數(shù)據(jù)庫(kù)的“相與”檢索內(nèi)容可以得到一個(gè)45×45的對(duì)稱方陣,截取方陣的一部分如表1所示。
Table 1 Co-occurrence matrix
3.2 相對(duì)關(guān)聯(lián)度計(jì)算
從共現(xiàn)矩陣反映的兩兩共現(xiàn)頻次,其實(shí)只是一種表象,因?yàn)楣铂F(xiàn)次數(shù)同樣要受到兩個(gè)詞各自的頻次影響,因此,若要正確反映兩個(gè)震區(qū)之間地震事件的關(guān)聯(lián)性大小,就需要將共現(xiàn)矩陣轉(zhuǎn)化為相關(guān)系數(shù)矩陣,才能揭示地震區(qū)域間地震事件的關(guān)聯(lián)性結(jié)構(gòu)分布[6]。
本文采用Jaccard指數(shù)和Salton指數(shù)評(píng)價(jià)地震區(qū)域間的共現(xiàn)率。Jaccard指數(shù)的計(jì)算公式為:
(1)
其中,Jij表示主題詞i和j的共現(xiàn)率,且0≤Jij≤1,cij表示主題詞i和j的共現(xiàn)頻次,ci表示主題詞i的頻次,cj表示主題詞j的頻次。
Salton指數(shù)的計(jì)算公式為:
(2)
其中,Sij表示主題詞i和j的共現(xiàn)率,且0≤Sij≤1,cij、ci、cj的含義與Jaccard指數(shù)相同。通過(guò)上述公式可以得到Salton指數(shù)矩陣,見(jiàn)表2,表中的數(shù)據(jù)是百分?jǐn)?shù)??傮w上看,Salton指數(shù)也表征了45個(gè)地震區(qū)域間地震事件的關(guān)聯(lián)度。
Table 2 Matrix of Salton index
3.3 修正的Salton指數(shù)
本文選取Salton指數(shù)作為評(píng)價(jià)地震區(qū)域間關(guān)聯(lián)度的參數(shù),但是通過(guò)Jaccard指數(shù)與Salton指數(shù)的比較可以看出Salton指數(shù)相對(duì)較大,因此需要對(duì)Salton指數(shù)進(jìn)行修正,使用修正的Salton指數(shù):
(3)
即:
(4)
其中,cSij是修正后的Salton指數(shù),ΔSij是Salton指數(shù)的修正因子,Sij是修正前的Salton指數(shù)。經(jīng)過(guò)修正后的Salton指數(shù)更準(zhǔn)確地體現(xiàn)地震區(qū)域之間的關(guān)聯(lián)度,最終的Salton指數(shù)部分如表3所示。
Table 3 Matrix of improved Salton index
在相同Jaccard指數(shù)的條件下,對(duì)修正后的Salton指數(shù)散點(diǎn)與原始的Salton指數(shù)散點(diǎn)序列進(jìn)行比較得到的結(jié)果如圖3所示。其中,Salton指數(shù)序列的值越小,Salton指數(shù)與Jaccard指數(shù)之間的差距就越小,在表征關(guān)聯(lián)度的準(zhǔn)確性方面,Salton指數(shù)偏高而敏感,Jaccard指數(shù)偏低而穩(wěn)定,圖中修正后的Salton指數(shù)明顯較原有的Salton指數(shù)偏低,能更準(zhǔn)確地表征地震區(qū)域間的相關(guān)性。
Figure 3 Comparison between improved Salton index and orginal Salton index圖3 修正Salton指數(shù)與原始Salton指數(shù)的比較
3.4 仿真結(jié)果
Figure 4 Correlation degree network model of earthquake regions based on improved Salton index圖4 基于修正Salton指數(shù)的地震區(qū)域關(guān)聯(lián)度模型
Pajek是大型復(fù)雜網(wǎng)絡(luò)分析工具,是用于研究目前所存在的各種復(fù)雜非線性網(wǎng)絡(luò)的有力工具[7,8]。本文使用Pajek-2.05建立共現(xiàn)分析網(wǎng)絡(luò)節(jié)點(diǎn)模型,模型中的每一個(gè)節(jié)點(diǎn)代表一個(gè)地震區(qū)域關(guān)鍵詞,節(jié)點(diǎn)之間的向量標(biāo)識(shí)出地震區(qū)域間關(guān)聯(lián)度,也就是修正的Salton指數(shù),其中節(jié)點(diǎn)所代表的地震區(qū)域與實(shí)際的地理位置無(wú)關(guān),最后得出的結(jié)果如圖4所示。
本文提出了一種基于相對(duì)關(guān)聯(lián)特征度的地震區(qū)域共現(xiàn)分析法,以九個(gè)朝代的地震災(zāi)害數(shù)據(jù)庫(kù)為平臺(tái),構(gòu)建出以修正的Salton指數(shù)為參數(shù)的地震區(qū)域間關(guān)聯(lián)度評(píng)估模型,改善了共現(xiàn)分析中Salton指數(shù)過(guò)高的問(wèn)題,使得Salton指數(shù)能更加接近真實(shí)關(guān)聯(lián)度。實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)修正后的Salton指數(shù)與Jaccard指數(shù)的差距明顯縮小,使得使用Salton指數(shù)表示地震區(qū)域之間的關(guān)聯(lián)度的方法更加可靠,對(duì)地震災(zāi)害的預(yù)測(cè)以及地理位置對(duì)地震的影響方面的研究有一定的推進(jìn)作用。
[1] Wu Shao-chun, Wu Geng-feng, Wang Wei, et al. A time-sequence similarity matching algorithm for seismological relevant zones[J]. Journal of Software, 2006, 17(2):185-192.(in Chinese)
[2] Buzna L, Peters K, Ammoser H, et al. Efficient response to cascading disaster spreading[J]. Physical Review E, 2007,75(5):1-8.
[3] Lu Yun-zhong, Chen Zhang-li, Wang Bi-quan, et al. Seismology method of earthquake forecasting[M]. Beijing:Earthquake Press, 1985.(in Chinese).
[4] Lin Guo-liang, Wang Jian. Compilation of Chinese historical earthquake data by building up a database system based on seismic intensity points[J]. ACTA Seismologica SINICA, 34(1):118-124.(in Chinese)
[5] Qiu Jian-feng, Xie Juan, Li Wei, et al. Research on correlation and periodicity of moderate-strong earthquake[J]. Computer Engineering. 2011, 37(10):16-22.(in Chinese)
[6] Hu Ming-sheng, Jia Zhi-juan, Dong Xiang-ying, et al. SA-ANT:A historical epidemic classification method based on simulated annealing and ACO[J]. IJACT:International Journal of Advancements in Computing Technology, 2011, 3(11):47-54.
[7] Song Jun-qiang, Gong Xi-ping, Zhang Li-lun, et al. A block orthogonalization procedure for skinny matrices[J]. Computer Engineering & Science, 2010, 32(4):90-92.(in Chinese)
[8] Jia Zhi-juan,Hu Ming-sheng,Liu Si.Historical disaster classification method based on ant colony clustering[J].Journal of Computer Applications,2012,32(4):1030-1032.(in Chinese)
附中文參考文獻(xiàn):
[1] 吳紹春, 吳耿峰, 王煒,等. 尋找地震相關(guān)地區(qū)的時(shí)間序列相似性匹配算法[J]. 軟件學(xué)報(bào), 2006, 17(2):185-192.
[3] 陸遠(yuǎn)忠,陳章立,王碧泉,等.地震預(yù)報(bào)的地震學(xué)方法[M].北京:地震出版社,1985.
[4] 林國(guó)良, 王健. 基于烈度點(diǎn)的中國(guó)歷史地震資料數(shù)據(jù)庫(kù)系統(tǒng)試編制[J]. 地震學(xué)報(bào), 2012,34(1):118-124.
[5] 邱劍鋒, 謝娟, 李煒,等. 中強(qiáng)地震的相關(guān)性與周期性研究[J]. 計(jì)算機(jī)工程, 2011, 37(10):16-22.
[7] 宋軍強(qiáng), 龔西平,張理論,等. 細(xì)長(zhǎng)矩陣的塊正交化方法[J]. 計(jì)算機(jī)工程與科學(xué), 2010, 32(4):90-92.
[8] 賈志娟,胡明生,劉思.基于蟻群聚類的歷史災(zāi)害分級(jí)方法[J]. 計(jì)算機(jī)應(yīng)用,2012,32(4):1030-1032.
HU Ming-sheng,born in 1973,PhD,associate professor,his research interest includes data mining.
A method of co-occurrence frequency analysis to find out correlations among earthquake areas
HU Ming-sheng1,2,JIA Zhi-juan1,JI Xiao-yu1,HONG Liu2
(1.Institute of Software,Zhengzhou Normal University,Zhengzhou 450044;2.Institute of Systems Engineering,Huazhong University of Science and Technology,Wuhan 430074,China)
Correlations among earthquake areas reflect the regularity of earthquakes happening in certain areas. Looking for correlations among earthquakes can forecast the earthquake areas before the disaster comes. Based on DCHED (Database of Chinese Historical Earthquake Disasters), co-occurrence analysis model is established. Firstly, earthquake areas are divided according to the well-known names. Secondly, the traditional Salton model is improved. And, based on the improved Salton index, a method of co-occurrence analysis is proposed in order to solve problems of correlations among earthquake areas. Finally, experiments are performed to prove that the improved Salton model can reflect correlations among earthquake areas more accurately.
earthquake areas;co-occurrence;Salton index;correlation
2012-08-30;
2013-01-14
國(guó)家自然科學(xué)基金資助項(xiàng)目(U1204703/G011202);河南省重點(diǎn)科技攻關(guān)項(xiàng)目(122102310004);鄭州市創(chuàng)新型科技人才隊(duì)伍建設(shè)工程(10LJRC190)
1007-130X(2014)03-0536-05
G254.9
A
10.3969/j.issn.1007-130X.2014.03.028
胡明生(1973-),男,河南信陽(yáng)人,博士,副教授,研究方向?yàn)閿?shù)據(jù)挖掘。E-mail:hero_jack@163.com
通信地址:450044 河南省鄭州市鄭州師范學(xué)院軟件研究所
Address:Institute of Software,Zhengzhou Normal University,Zhengzhou 450044,Henan,P.R.China