李漢巨, 梁浩波
(廣東電網(wǎng)有限責(zé)任公司東莞供電局, 東莞 523008)
基于關(guān)聯(lián)規(guī)則的自然災(zāi)害預(yù)測系統(tǒng)①
李漢巨, 梁浩波
(廣東電網(wǎng)有限責(zé)任公司東莞供電局, 東莞 523008)
建立自然災(zāi)害預(yù)測模型, 對自然災(zāi)害進行預(yù)測和分析, 有利于提升防災(zāi)減災(zāi)的技術(shù)水平. 基于關(guān)聯(lián)規(guī)則和Web文本挖掘技術(shù)提出自然災(zāi)害預(yù)測系統(tǒng)的設(shè)計方案及實現(xiàn)方法. 該系統(tǒng)利用成熟開源的爬蟲框架從權(quán)威的災(zāi)害信息發(fā)布平臺中定向抓取非結(jié)構(gòu)化的自然災(zāi)害信息, 通過中文分詞技術(shù)進行數(shù)據(jù)清理將其整理成結(jié)構(gòu)化的自然災(zāi)害數(shù)據(jù)庫, 并利用改進的關(guān)聯(lián)規(guī)則算法從中挖掘出自然災(zāi)害事件的關(guān)聯(lián)規(guī)則, 進而可通過實時監(jiān)控關(guān)聯(lián)規(guī)則的前端信息, 實現(xiàn)對自然災(zāi)害事件的預(yù)測. 試運行結(jié)果表明該系統(tǒng)能有效挖掘出自然災(zāi)害信息的關(guān)聯(lián)規(guī)則, 并具有較高置信度.
Web文本; 自然災(zāi)害; 災(zāi)害預(yù)測; 關(guān)聯(lián)規(guī)則; 文本挖掘
Web文本中蘊含豐富的以自然語言描述的非結(jié)構(gòu)化自然災(zāi)害信息[1-4]. 通過Web文本挖掘技術(shù)為災(zāi)害數(shù)據(jù)源, 自動抽取并整理包含災(zāi)害事件類型、時間、空間位置以及影響范圍等結(jié)構(gòu)化的自然災(zāi)害信息, 是對傳統(tǒng)結(jié)構(gòu)化災(zāi)害數(shù)據(jù)庫的重要補充[5,6]. 而基于Web文本自動提取和構(gòu)造結(jié)構(gòu)化、綜合性災(zāi)害信息, 是災(zāi)害信息領(lǐng)域研究的前沿問題[7], 目前國內(nèi)外利用Web文本挖掘技術(shù)在災(zāi)時與災(zāi)后的應(yīng)急響應(yīng)與救援, 災(zāi)害的早期預(yù)警和風(fēng)險分析等方面開展應(yīng)用研究.
從自然災(zāi)害發(fā)生機理研究發(fā)現(xiàn), 同一地區(qū)不同類型自然災(zāi)害的發(fā)生、不同地區(qū)同一類型自然災(zāi)害的發(fā)生以及不同地區(qū)不同類型自然災(zāi)害的發(fā)生之間存在著聯(lián)系[8]. 一方面, 通過對區(qū)域范圍內(nèi)大量積累的、文本語言記錄的歷史災(zāi)害信息進行分析和挖掘, 有利于發(fā)現(xiàn)災(zāi)害事件存在的聯(lián)系, 進而對災(zāi)害發(fā)生的類型、時空分布特征進行分析, 為不同地域空間的自然災(zāi)害事件發(fā)生的關(guān)聯(lián)性提供決策支持. 另一方面, 在突發(fā)災(zāi)害事件下, 需要針對事件可能發(fā)生的前兆和演化過程的數(shù)據(jù)進行快速收集獲取、整理, 以實現(xiàn)對自然災(zāi)害的預(yù)警、預(yù)測, 提升自然災(zāi)害的應(yīng)急處理能力.
基于上述背景, 本文設(shè)計并研發(fā)了自然災(zāi)害預(yù)測系統(tǒng), 該系統(tǒng)利用成熟開源爬蟲框架(WebMagic)從權(quán)威的災(zāi)害信息發(fā)布平臺中定向抓取非結(jié)構(gòu)化的自然災(zāi)害信息, 并利用中文分詞技術(shù)進行數(shù)據(jù)清理將其轉(zhuǎn)換成結(jié)構(gòu)化的自然災(zāi)害數(shù)據(jù)庫. 接著通過關(guān)聯(lián)分析算法從中挖掘出不同區(qū)域災(zāi)害事件發(fā)生的關(guān)聯(lián)規(guī)則, 最后通過實時監(jiān)控某災(zāi)害事件發(fā)生的前兆, 結(jié)合關(guān)聯(lián)規(guī)則,進而實現(xiàn)自然災(zāi)害事件的預(yù)測.
2.1 系統(tǒng)功能及設(shè)計
自然災(zāi)害預(yù)測系統(tǒng)實現(xiàn)如下功能:
(1) 定向抓取自然災(zāi)害Web文本信息, 通過數(shù)據(jù)清理, 形成結(jié)構(gòu)化數(shù)據(jù), 并存儲在MySQL數(shù)據(jù)庫.
(2) 利用改進關(guān)聯(lián)規(guī)則算法對MySQL數(shù)據(jù)庫的數(shù)據(jù)進行挖掘, 產(chǎn)生關(guān)聯(lián)規(guī)則庫.
(3) 利用關(guān)聯(lián)規(guī)則庫和實時抓取的自然災(zāi)害Web文本信息監(jiān)測關(guān)聯(lián)規(guī)則的前端信息, 實現(xiàn)對關(guān)聯(lián)規(guī)則的后端信息的預(yù)測.
系統(tǒng)設(shè)計如圖1所示.
圖1 系統(tǒng)設(shè)計
用戶界面設(shè)計如圖2所示.
2.2 Web技術(shù)架構(gòu)
采取如圖3所示的Web技術(shù)架構(gòu).
2.3 自然災(zāi)害預(yù)測技術(shù)原理
關(guān)聯(lián)規(guī)則采取形如X→Y(時間間隔)的蘊涵式,X和Y分別稱為關(guān)聯(lián)規(guī)則的前端和后端, 該關(guān)聯(lián)規(guī)則表示X發(fā)生, 經(jīng)過時間間隔后, Y將發(fā)生. 比如關(guān)聯(lián)規(guī)則:
表示桂林發(fā)生暴雨15天后東莞將發(fā)生臺風(fēng). 因此假設(shè)上述關(guān)聯(lián)規(guī)則成立, 那么只要監(jiān)測到桂林發(fā)生暴雨, 那么就可以預(yù)測15天后東莞發(fā)生臺風(fēng).
圖2 用戶界面設(shè)計
圖3 Web技術(shù)架構(gòu)
因此自然災(zāi)害預(yù)測系統(tǒng)實現(xiàn)的關(guān)鍵點是:
(1) 自然災(zāi)害Web文本信息抓取, 并通過數(shù)據(jù)清洗,形成結(jié)構(gòu)化的數(shù)據(jù);
(2) 如何從結(jié)構(gòu)化數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則;
(3) 實時抓取關(guān)聯(lián)規(guī)則的前端信息.
3.1 Web文本數(shù)據(jù)收集
3.1.1 數(shù)據(jù)收集的難點
目前國內(nèi)還沒有統(tǒng)一的結(jié)構(gòu)化自然災(zāi)害數(shù)據(jù)信息庫, 因此存在災(zāi)害數(shù)據(jù)標(biāo)準(zhǔn)不同、數(shù)據(jù)來源的可靠性與廣泛性難以界定、缺乏統(tǒng)一的收錄數(shù)據(jù)標(biāo)準(zhǔn)界定和數(shù)據(jù)管理范式(包括災(zāi)害特征類、字段名稱、對應(yīng)數(shù)據(jù)類型等規(guī)范的確定)等種種數(shù)據(jù)質(zhì)量問題, 很難實現(xiàn)災(zāi)害信息的應(yīng)用層面共享. 此外, 由于災(zāi)害信息發(fā)布來源在區(qū)域尺度、時間尺度、信息的精度、信息的時效性、信息條目的全面性等方面往往存在較大的偏差,因此如何得到統(tǒng)一標(biāo)準(zhǔn)的、規(guī)范的、可統(tǒng)計分析的結(jié)構(gòu)化數(shù)據(jù)成為本系統(tǒng)實現(xiàn)的技術(shù)難點.
3.1.2 數(shù)據(jù)源選取
為確保災(zāi)害數(shù)據(jù)來源的可靠性以及能夠覆蓋地震、洪澇等十余種主要災(zāi)害類型, 經(jīng)過調(diào)查分析研究,最終選擇下面國家權(quán)威機構(gòu)的災(zāi)害信息數(shù)據(jù)發(fā)布平臺作為本系統(tǒng)的災(zāi)害歷史數(shù)據(jù)來源. 具體網(wǎng)站信息如下:
(1) 中國農(nóng)業(yè)部種植業(yè)管理司歷史災(zāi)害查詢網(wǎng)站(www.zzys.moa.gov.cn);
(2) 中國森林防火網(wǎng)(www.slfh.gov.cn);
(3) 國家減災(zāi)網(wǎng)(www.jianzai.gov.cn);
(4) 中國地震信息網(wǎng)(www.csi.ac.cn).
3.1.3 數(shù)據(jù)收集方式
由于系統(tǒng)的數(shù)據(jù)源來自不同資料平臺, Web文本數(shù)據(jù)形式以及內(nèi)容均不一樣, 因此系統(tǒng)使用第三方爬蟲軟件進行歷史數(shù)據(jù)收集, 根據(jù)不同的數(shù)據(jù)源定制化采集網(wǎng)頁中指定的文本信息. 最終完成原始數(shù)據(jù)的采集.
3.2 數(shù)據(jù)清洗
3.2.1 數(shù)據(jù)清洗目標(biāo)
災(zāi)害信息的原始數(shù)據(jù)均是Web文本中非結(jié)構(gòu)化的自然語言, 如何從大段的Web文本中提取結(jié)構(gòu)化的滿足需求的有用災(zāi)害信息成為本系統(tǒng)實現(xiàn)的難點. 對文本災(zāi)害信息的語義理解和抽取, 重點是解決文本語言信息的形式化問題, 建立模糊的、定性的語言與定量化的計算機模型之間的聯(lián)系, 實現(xiàn)從大段敘述性的Web文本中整理抽取成形如“時間+地點+災(zāi)害類型”的結(jié)構(gòu)化數(shù)據(jù). 因此需要按照一定的規(guī)則從文本中抽取匹配有關(guān)災(zāi)害事件的命名實體, 如災(zāi)害類型、時間、地點, 確定實體之間的關(guān)系, 進而實現(xiàn)非結(jié)構(gòu)化災(zāi)害信息向結(jié)構(gòu)化災(zāi)害信息的轉(zhuǎn)換.
3.2.2 基于中文分詞的數(shù)據(jù)清洗方法
根據(jù)數(shù)據(jù)來源復(fù)雜、數(shù)據(jù)內(nèi)容雜亂無序等特點,采用了機械匹配法(又稱為字符串匹配法)的自然語言分詞方法, 實現(xiàn)從文本數(shù)據(jù)中提取有效災(zāi)害關(guān)鍵信息(災(zāi)害類型、時間、地點).
機械分詞方法又叫基于字符串匹配的分詞方法,它是按照一定的策略將待分析的字符串與一個“充分大的”機器詞典中的詞條進行匹配, 若在詞典中找到某個字符串, 則匹配成功(識別出一個詞). 該方法是目前Web文本數(shù)據(jù)提取的主流實現(xiàn)方法之一, 具有易實現(xiàn)、可維護、可擴展等優(yōu)點. 但該方法也存在難以處理未登錄詞, 無法有效克服歧義切分的缺點. 由于本系統(tǒng)中Web文本不涉及語義分析, 同時“時間”、“地點”、“災(zāi)害類型”的匹配詞庫量較小, 因此綜合考慮最終使用機械匹配法來實現(xiàn)數(shù)據(jù)提取清洗.
3.2.3 數(shù)據(jù)清洗規(guī)則
目前收集的Web文本數(shù)據(jù)存在如下數(shù)據(jù)質(zhì)量問題:
(1) 原始數(shù)據(jù)針對時間要素相關(guān)的描述存在多種格式, 沒有統(tǒng)一的規(guī)范格式. 以1990年1月1日為例,Web文本數(shù)據(jù)中存在“1990年1月1日”、“1990-01-01”、“19900101”等多種形式.
(2) 原始數(shù)據(jù)針對地點要素相關(guān)的描述存在描述地域粒度不同, 缺乏統(tǒng)一的唯一標(biāo)示. 在Web文本中存在類似“廣東省”、“東莞市”、“珠江三角洲流域”、“華南地區(qū)”等不同級別不同粒度的地域描述說明, 無法形成統(tǒng)一的結(jié)構(gòu)化要素.
(3) 原始數(shù)據(jù)針對災(zāi)害類型要素相關(guān)的描述存在縮略語或者同義詞, 缺乏統(tǒng)一的定義. 例如Web文本中“雪災(zāi)”災(zāi)害類型可能存在被描述成“暴雪”、“大雪”等同義詞.
(4) 原始數(shù)據(jù)針對時間要素相關(guān)的描述存在模糊缺省的情況, 例如“1990年1月, ....”.
(5) 原始數(shù)據(jù)來源復(fù)雜, 數(shù)據(jù)排列無序.
(6) 數(shù)據(jù)中存在由于錄入錯誤等行為導(dǎo)致的違背常識錯誤無效數(shù)據(jù), 例如(1月56日)等.
根據(jù)對以上原始數(shù)據(jù)質(zhì)量問題進行歸納整理, 得出如下數(shù)據(jù)清洗規(guī)則:
(1) 將時間要素提取成格式統(tǒng)一的結(jié)構(gòu)化要素, 為方便后續(xù)關(guān)聯(lián)分析算法使用, 時間要素格式定位為4位數(shù)字表示年份、2位數(shù)字表示月份、2位數(shù)字表示日期的格式, 即“19900101”的形式.
(2) 將地點要素提取成格式統(tǒng)一的結(jié)構(gòu)化要素, 將地區(qū)性的地點描述、省級的地點描述轉(zhuǎn)換成相應(yīng)城市的地點描述, 將地點要素統(tǒng)一成以行政市為單位的數(shù)據(jù).
(3) 將災(zāi)害類型要素統(tǒng)一定義, 最終形成地震、洪災(zāi)、干旱等十類災(zāi)害.
(4) 針對時間要素缺省日期的情況, 在當(dāng)月時間內(nèi)實現(xiàn)隨機日期補全, 針對時間要素缺省月份的情況則視該條數(shù)據(jù)為無效數(shù)據(jù).
(5) 將各條原始數(shù)據(jù)提取信息后按照時間順序進行排序, 形成結(jié)構(gòu)化、有序的數(shù)據(jù)集.
(6) 針對清洗后的結(jié)構(gòu)化數(shù)據(jù)進行常識性容錯檢查, 發(fā)現(xiàn)錯誤后將該條無效數(shù)據(jù)剔除.
按照以上規(guī)則進行數(shù)據(jù)清洗, 最終獲取33717條結(jié)構(gòu)化數(shù)據(jù)(表1所示), 并存入MySQL數(shù)據(jù)庫中.
表1 MySQL數(shù)據(jù)庫數(shù)據(jù)集示例
3.3 自然災(zāi)害Web文本信息實時抓取
3.3.1 實現(xiàn)思路
針對成熟開源爬蟲框架(WebMagic)進行二次開發(fā), 定制化實現(xiàn)“標(biāo)題+發(fā)布時間+災(zāi)害類型”的原災(zāi)害Web文本信息采集. 對采集到的非結(jié)構(gòu)化文本信息數(shù)據(jù)按照上節(jié)方法進行數(shù)據(jù)清洗, 檢索其文本內(nèi)容, 解析生成“時間+地點+災(zāi)害類型”的結(jié)構(gòu)化前端信息.
3.3.2 WebMagic框架介紹
WebMagic框架介紹內(nèi)容來源于網(wǎng)絡(luò)參考文獻《WebMagic爬蟲框架學(xué)習(xí)》, 本文摘取和修改其中重要內(nèi)容方便讀者閱讀. WebMagic的框架由四大組件Downloader、PageProcessor、Scheduler和Pipeline組成,而Spider負責(zé)將它們組織起來. 這四大組件對應(yīng)爬蟲生命周期中的下載、處理、管理和持久化等功能. Spider是WebMagic內(nèi)部流程的核心. 四大組件都是Spider的一個屬性, 可以自由設(shè)置這些屬性, 從而實現(xiàn)不同的功能. Spider也是WebMagic操作的入口, 它封裝了爬蟲的創(chuàng)建、啟動、停止、多線程等功能. WebMagic總體架構(gòu)圖如下:
(1) Downloader負責(zé)下載頁面, 供后續(xù)處理.WebMagic默認以Apache HttpClient作為下載工具.
(2) PageProcessor負責(zé)解析頁面, 抽取有用信息, 以及發(fā)現(xiàn)新的鏈接. WebMagic使用Jsoup作為HTML解析工具, 并基于其開發(fā)了解析XPath的工具Xsoup. Page-Processor對于每個站點每個頁面都不一樣, 是需要使用者定制的部分.
圖4 WebMagic總體架構(gòu)圖
(3) Scheduler負責(zé)管理待抓取的URL和去重工作.WebMagic默認提供了JDK的內(nèi)存隊列來管理URL, 并用集合來進行去重. 也支持使用Redis進行分布式管理.除非有一些特殊的分布式需求, 否則無需自己定制Scheduler.
(4) Pipeline負責(zé)抽取結(jié)果, 包括計算、持久化到文件、數(shù)據(jù)庫等. WebMagic默認提供了“輸出到控制臺”和“保存到文件”兩種結(jié)果處理方案. Pipeline定義了結(jié)果保存的方式, 如果你要保存到指定數(shù)據(jù)庫, 則需要編寫對應(yīng)的Pipeline. 對于一類需求一般只需編寫一個Pipeline.
3.4 關(guān)聯(lián)規(guī)則算法介紹及改進
3.4.1 算法介紹及選擇
R.Agrawal等[9]于1993年提出了關(guān)聯(lián)規(guī)則的概念,用于挖掘顧客交易數(shù)據(jù)的頻繁模式. 關(guān)聯(lián)規(guī)則挖掘算法最常用的就是Apriori和FP-Growth算法. 嚴(yán)格地說Apriori和FP-Growth都是尋找頻繁項集的算法. 其中最經(jīng)典的算法是Apriori[10], 但是其致命的缺點是需要多次掃描事務(wù)數(shù)據(jù)庫. FP-Growth算法是韓家煒等人在2000年提出的關(guān)聯(lián)分析算法[11,12], 它采取如下分治策略: 將提供頻繁項集的數(shù)據(jù)庫壓縮到一棵頻繁模式樹(FP-tree), 但仍保留項集關(guān)聯(lián)信息. 該算法和Apriori算法最主要不同點有: 第一, 不產(chǎn)生候選集; 第二, 只需要兩次遍歷數(shù)據(jù)庫, 大大提高了效率. 因此我們選擇FPGrowth算法挖掘關(guān)聯(lián)規(guī)則.
FP的全稱是Frequent Pattern, 在算法中使用了一種稱為頻繁模式樹(Frequent Pattern Tree)的數(shù)據(jù)結(jié)構(gòu). FP-tree是一種特殊的前綴樹, 由頻繁項頭表和項前綴樹構(gòu)成. 所謂前綴樹, 是一種存儲候選項集的數(shù)據(jù)結(jié)構(gòu), 樹的分支用項名標(biāo)識, 樹的節(jié)點存儲后綴項, 路徑表示項集.
FP_growth算法描述如下[13](偽代碼):
輸入: 事務(wù)數(shù)據(jù)庫D; 最小支持度閾值min_sup;
輸出: 頻繁模式的完全集;
方法:
(1) 按以下步驟構(gòu)造FP樹:
(a) 掃描事務(wù)數(shù)據(jù)庫D一次. 收集頻繁項的集合F和它們的支持度計數(shù). 對F按支持度計數(shù)降序排序, 結(jié)果為頻繁項列表L;
(b) 創(chuàng)建FP樹的根結(jié)點, 以“null”標(biāo)記它. 對于D中每個事務(wù)Trans, 執(zhí)行: 選擇Trans中的頻繁項, 并按L中的次序排序. 設(shè)Trans排序后的頻繁項列表[p|P], 其中p是第一個元素, 而P是剩余元素的列表. 調(diào)用insert_tree([p|P], T). 該過程執(zhí)行情況如下. 如果T有子女N使得N.item-name=p.item-name, 則N的計數(shù)增加1; 否則,創(chuàng)建一個新結(jié)點N, 將其計數(shù)設(shè)置為1, 鏈接到它的父結(jié)點T, 并且通過結(jié)點鏈結(jié)構(gòu)將其鏈接到具有相同itemname的結(jié)點. 如果P非空, 則遞歸地調(diào)用insert_tree(P, N).
(2) FP樹的挖掘通過調(diào)用FP_growth(FP_tree,null)實現(xiàn). 該過程procedure FP_growth(Tree, α)實現(xiàn)如下:
(a) if Tree包含單個路徑P then;
(b) for路徑P中結(jié)點的每個組合(記作β);
(c) 產(chǎn)生模式β∪α, 其支持度計數(shù)support_count等于β中結(jié)點的最小支持度計數(shù);
(d) else for Tree的頭表中每個ai;
(e) 產(chǎn)生一個模式β=ai∪α, 其支持度計數(shù)support_count=ai. Support_count;
(f) 構(gòu)造β的條件模式基, 然后構(gòu)造β的條件FP樹Treeβ;
(h) 調(diào)用FP_growth(Treeβ, β).
3.4.2 算法輔助改進
系統(tǒng)使用Hadoop平臺mahout庫中自帶的FPGrowth算法進行頻繁模式的挖掘. 由于算法的特性, 根據(jù)本系統(tǒng)涉及問題進行算法輔助改進.
問題1. 關(guān)聯(lián)分析的輸入數(shù)據(jù)類型為標(biāo)稱型數(shù)據(jù),而從數(shù)據(jù)采集結(jié)果得到的是具有時間、地點、災(zāi)害類型三個屬性的數(shù)據(jù).
輔助改進: 編寫shell腳本將數(shù)據(jù)采集結(jié)果整理成算法需要的標(biāo)稱型數(shù)據(jù), 首先把地點與災(zāi)害類型合并,再將同一時間發(fā)生的災(zāi)害作為一個事務(wù)進行處理.
問題2. FP-Growth算法的結(jié)果得到的是關(guān)于災(zāi)害預(yù)測的頻繁項集, 而本系統(tǒng)需要的是帶有特定結(jié)構(gòu)的關(guān)聯(lián)規(guī)則.
輔助改進: 編寫python腳本, 將頻繁項集整理輸出為本系統(tǒng)需要的關(guān)聯(lián)規(guī)則.
問題3. 本系統(tǒng)需要分析出具有時間間隔的關(guān)聯(lián)規(guī)則.
輔助改進: 首先編寫python腳本將數(shù)據(jù)采集結(jié)果整理為具有時間間隔的標(biāo)稱型數(shù)據(jù), 再利用大平臺環(huán)境進行后續(xù)的頻繁模式挖掘, 最后利用對解決問題2而編寫的python腳本整理輸出為具有時間間隔的關(guān)聯(lián)規(guī)則.
3.4.3 關(guān)聯(lián)規(guī)則庫設(shè)計及示例
關(guān)聯(lián)規(guī)則作為重要的發(fā)現(xiàn)知識, 被單獨存在MySQL數(shù)據(jù)庫, 與圖1中的災(zāi)害信息數(shù)據(jù)庫是分開的.關(guān)聯(lián)規(guī)則庫(或關(guān)聯(lián)規(guī)則數(shù)據(jù)庫)的數(shù)據(jù)集結(jié)構(gòu)設(shè)計為“前端+時間間隔(天)+后端+置信度”, 其中字段“前端”和“后端”由地點和災(zāi)害類型合并而成, 比如前端“貴港_洪澇”是指關(guān)聯(lián)規(guī)則的前端信息, 表示貴港發(fā)生洪澇災(zāi)害. 置信度是指前端發(fā)生的條件下, 后端發(fā)生的概率.
對表1所示的數(shù)據(jù)集用改進后的FP-Growth算法進行挖掘, 并按照閾值(置信度為60%)對關(guān)聯(lián)規(guī)則進行篩選, 得到137620條有效關(guān)聯(lián)規(guī)則(見表2).
3.5 自然災(zāi)害預(yù)測實現(xiàn)
預(yù)測任務(wù)由系統(tǒng)的預(yù)測程序負責(zé), 操作接口如圖5所示.
表2 關(guān)聯(lián)規(guī)則庫數(shù)據(jù)集示例
圖5 自然災(zāi)害預(yù)測
對預(yù)測效果的評估存在一些困難, 因為預(yù)測準(zhǔn)確性受到很多因素影響, 一是災(zāi)害信息報道不及時, 導(dǎo)致抓取實時災(zāi)害信息延期, 影響最后預(yù)測結(jié)果; 二是預(yù)測結(jié)果的驗證存在困難, 如預(yù)測結(jié)果確實發(fā)生了, 但在指定的網(wǎng)絡(luò)上不存在相關(guān)的報道(或許在別的網(wǎng)站上有相關(guān)報道), 導(dǎo)致無法抓取到真實信息. 目前在系統(tǒng)上設(shè)計自動驗證程序存在技術(shù)難點, 因此預(yù)測效果的評估靠人工核實.
自然災(zāi)害嚴(yán)重威脅著人民生命和國家財產(chǎn)的安全,隨著國家經(jīng)濟發(fā)展和人口增長, 自然災(zāi)害所造成的巨大損失正在日益加重. 本文基于關(guān)聯(lián)規(guī)則和Web文本挖掘技術(shù)提出了一種自然災(zāi)害預(yù)測系統(tǒng)設(shè)計方案及設(shè)計方法, 該系統(tǒng)可定向抓取自然災(zāi)害的Web文本信息,通過中文分詞技術(shù)將非結(jié)構(gòu)化的Web文本信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù), 并利用改進的關(guān)聯(lián)規(guī)則算法從結(jié)構(gòu)化數(shù)據(jù)中挖掘出自然災(zāi)害關(guān)聯(lián)規(guī)則庫, 最后通過實時抓取自然災(zāi)害Web文本信息監(jiān)測關(guān)聯(lián)規(guī)則的前端信息, 即某特定自然災(zāi)害事件發(fā)生的前兆, 結(jié)合關(guān)聯(lián)規(guī)則庫以實現(xiàn)該自然災(zāi)害事件的預(yù)測. 試運行結(jié)果表明該系統(tǒng)能挖掘出有效的關(guān)聯(lián)規(guī)則, 有效提升自然災(zāi)害的防災(zāi)減災(zāi)能力. 該系統(tǒng)還存在一些不足, 比如缺少有效的預(yù)測效果評估程序, 這也是本研究后期努力改進的方向.
1Brunt J. Using the world wide web to advance data management in LTER. LTER Network News, 1998, 11(1):18–19.
2周寧. 信息資源數(shù)據(jù)庫. 2版. 武漢: 武漢大學(xué)出版社, 2006.233–235.
3韋方強, 崔鵬, 胡凱衡, 等. 泥石流災(zāi)害信息共享的方法與實現(xiàn). 災(zāi)害學(xué), 2002, 17(3): 60–64.
4林孝松, 趙純勇. GIS在重慶市地質(zhì)災(zāi)害信息管理系統(tǒng)中的應(yīng)用. 災(zāi)害學(xué), 2003, 18(1): 71–76.
5Dunbar PK. Increasing public awareness of natural hazards via the Internet. Natural Hazards, 2007, 42(3): 529–536. [doi:10.1007/s11069-006-9072-3]
6Peduzzi P, Dao H, Herold C. Mapping disastrous natural hazards using global datasets. Natural Hazards, 2005, 35(2):265–289. [doi: 10.1007/s11069-004-5703-8]
7李衛(wèi)江, 溫家洪. 基于Web文本的災(zāi)害信息挖掘研究進展.災(zāi)害學(xué), 2010, 25(2): 119–123, 128.
8任振球. 關(guān)于加強特大自然災(zāi)害預(yù)測新途徑新方法研究的討論. 地球信息科學(xué), 2000, 2(2): 76–77.
9Agrawal R, Imieliński T, Swami A. Mining association rules between sets of items in large databases. Proc. 1993 ACM SIGMOD International Conference on Management of Data.Washington DC, USA. 1993. 207–216.
10Agrawal R, Srikant R. Fast algorithms for mining association rules. Proc. 20th International Conference on Very Large Data Bases. Santiago, Chile. 1994. 487–499.
11Han JW, Pei J, Yin YW. Mining frequent patterns without candidate generation. Proc. 2000 ACM SIGMOD International Conference on Management of Data. Dallas, Texas,USA. 2000. 1–12.
12楊勇, 王偉. 一種基于MapReduce的并行FP-growth算法. 重慶郵電大學(xué)學(xué)報(自然科學(xué)版), 2013, 25(5): 651–657, 670.[doi: 10.3979/j.issn.1673-825X.2013.05.016]
13Han JW, Kamber M, Pei J, 等. 數(shù)據(jù)挖掘: 概念與技術(shù).范明,孟小峰, 譯. 北京: 機械工業(yè)出版社, 2012.
Natural Disaster Forecasting System Based Association Rules
LI Han-Ju, LIANG Hao-Bo
(Guangdong Power Grid Co. Ltd., Dongguan Power Supply Bureau, Dongguan 523008, China)
The establishment of natural disaster prediction model to predict and analyze the occurrence of natural disasters is conducive to enhance the technical level of disaster prevention and mitigation. We present a design and implementation of natural disaster forecasting system based on association rules and the Web text mining technology. The system uses a mature open source crawler framework to capture the unstructured natural disaster information from the authoritative disaster information release platforms. By using the Chinese word segmentation technique the data are cleaned up and organized into a structured natural disaster database, and mining association rules of natural disaster events are worked out from improved association rule algorithm. And then by monitoring the front-end information of association rules in real time, the prediction of natural disasters can be achieved. Experimental results show that the system can effectively mine the association rules of natural disaster information with high confidence.
Web text; natural disaster; disaster prediction; association rules; text mining
李漢巨,梁浩波.基于關(guān)聯(lián)規(guī)則的自然災(zāi)害預(yù)測系統(tǒng).計算機系統(tǒng)應(yīng)用,2017,26(7):50–55. http://www.c-s-a.org.cn/1003-3254/5877.html
廣東電網(wǎng)有限責(zé)任公司職工創(chuàng)新項目(GDZC-031920160256)
2016-11-18; 收到修改稿時間: 2017-01-04