張 進(jìn), 李 超, 劉孫俊
(成都信息工程學(xué)院計(jì)算機(jī)學(xué)院,四川成都 610225)
隨著計(jì)算機(jī)和網(wǎng)絡(luò)的飛速發(fā)展,信息技術(shù)的不斷發(fā)展和普及,人類積累的數(shù)據(jù)量以指數(shù)級(jí)的方式增長(zhǎng),并且在網(wǎng)絡(luò)上還存在著各種豐富的數(shù)據(jù)資源。不過(guò)與數(shù)據(jù)量的增長(zhǎng)迅速形成了鮮明的對(duì)比,人類分析數(shù)據(jù)的能力和從數(shù)據(jù)中提取知識(shí)的能力卻與之存在著相當(dāng)大的差距,大量的數(shù)據(jù)被收集在大型數(shù)據(jù)庫(kù)中常年不被訪問(wèn),造成了”數(shù)據(jù)墳?zāi)埂?。因此如何有效、科學(xué)、合理、正確地應(yīng)用這些數(shù)據(jù)擺在了科學(xué)家的面前,知識(shí)挖掘技術(shù)就在這個(gè)時(shí)候產(chǎn)生了。但是對(duì)大量數(shù)據(jù)分析和挖掘時(shí)遇到了很大的問(wèn)題,大量的數(shù)據(jù)具有不完全、模糊、冗余的特性,只有很少一部分能夠滿足數(shù)據(jù)挖掘算法的要求,因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,并且需要去除其中無(wú)意義的成分,粗糙集理論由此誕生了。
粗糙集理論是由波蘭杰出的數(shù)學(xué)家Z.Pawlak在1982年提出來(lái)的一種數(shù)據(jù)分析理論,剛開(kāi)始時(shí)主要集中在東歐國(guó)家,當(dāng)時(shí)并沒(méi)有引起國(guó)際計(jì)算機(jī)界和數(shù)學(xué)界的重視,直到1990年左右該理論在數(shù)據(jù)的知識(shí)發(fā)現(xiàn),模式識(shí)別,決策與分析中的成功應(yīng)用才引起了各國(guó)學(xué)者的廣泛關(guān)注。1991年Z.Pawlak的專著《粗糙集一關(guān)于數(shù)據(jù)推理的理論》的問(wèn)世,標(biāo)志著粗糙集理論及其應(yīng)用的研究進(jìn)入活躍時(shí)期[1-2]。
粗糙集理論是一種刻畫(huà)不完整性和不精確性的數(shù)學(xué)工具,能夠有效地分析和處理不完備性數(shù)據(jù),通過(guò)發(fā)現(xiàn)其中的隱藏關(guān)系,從而提取出有效數(shù)據(jù)揭示其規(guī)律,簡(jiǎn)化信息處理。屬性約簡(jiǎn)算法是粗糙集理論的核心內(nèi)容之一。
中國(guó)是一個(gè)自然災(zāi)害頻繁的國(guó)家,而洪水災(zāi)害則是對(duì)整個(gè)社會(huì)經(jīng)濟(jì)發(fā)展影響最大的自然災(zāi)害之一。僅僅依靠工程防洪根本無(wú)法抵御洪水的侵襲,所以在建立完善的防洪工程體系的基礎(chǔ)上通過(guò)災(zāi)情評(píng)估,防洪調(diào)度等非工程措施對(duì)于實(shí)現(xiàn)防洪減災(zāi)的正規(guī)化和現(xiàn)代化具有非常重要的意義。洪水災(zāi)害風(fēng)險(xiǎn)評(píng)估是一項(xiàng)復(fù)雜的系統(tǒng)工程,涉及到社會(huì),經(jīng)濟(jì)等諸多方面,選擇洪水災(zāi)害評(píng)估指標(biāo)是進(jìn)行洪水災(zāi)害評(píng)估的前提和關(guān)鍵。此前的洪水風(fēng)險(xiǎn)評(píng)估一般都是集中在評(píng)估算法的優(yōu)化,而用于評(píng)估的指標(biāo)都是由專家根據(jù)經(jīng)驗(yàn)和知識(shí)總結(jié)出來(lái)的,為了評(píng)估的準(zhǔn)確性可能一些并沒(méi)有意義或者對(duì)洪水風(fēng)險(xiǎn)評(píng)估不起作用的指標(biāo)也被加入指標(biāo)體系,從而導(dǎo)致參照的指標(biāo)多達(dá)上百個(gè),嚴(yán)重影響了評(píng)估算法的精確度和收斂速度。
通過(guò)對(duì)粗糙集中屬性約簡(jiǎn)算法的研究,首次提出對(duì)用于洪水風(fēng)險(xiǎn)評(píng)估的指標(biāo)進(jìn)行約簡(jiǎn),剔除無(wú)意義的指標(biāo),然后利用約簡(jiǎn)后的屬性進(jìn)行風(fēng)險(xiǎn)評(píng)估,不僅降低了專家在對(duì)指標(biāo)進(jìn)行打分時(shí)的模糊性,并且提高風(fēng)險(xiǎn)評(píng)估的準(zhǔn)確性和效率[3-4]。
粗糙集理論是處理不精確和不完備問(wèn)題的數(shù)學(xué)工具,主要思想是在保持分類能力不變的前提下通過(guò)約簡(jiǎn)導(dǎo)出問(wèn)題的分類規(guī)則。
定義1 設(shè)非空集U是我們感興趣的對(duì)象組成的非空有限集合,稱為論域。
定義2 設(shè)R施U上的一個(gè)等價(jià)關(guān)系,U/R表示R的所有等價(jià)類構(gòu)成的集合。
定義3 給定一個(gè)論域U和U上的一簇等價(jià)關(guān)系,若P?S且P≠?,則∩P仍是論域U上的一個(gè)等價(jià)關(guān)系,稱為P上的不可分辨關(guān)系,記為 IND(P)。
顯然不可區(qū)分關(guān)系是一個(gè)等價(jià)關(guān)系,U/IND(P)表示不可區(qū)分關(guān)系 IND(P)在論域U上形成的一個(gè)區(qū)分,稱為U的一個(gè)知識(shí),可以簡(jiǎn)記為 U/P。
屬性約簡(jiǎn)是粗糙集理論的核心內(nèi)容之一,所謂屬性約簡(jiǎn)就是在保持知識(shí)庫(kù)分類能力不變的前提下刪除其中不相關(guān)或不重要的屬性。
定義4 給定一個(gè)知識(shí)庫(kù)K=(U,S)和知識(shí)庫(kù)中的一個(gè)等價(jià)關(guān)系簇P?S,∨P∈P若IND(P)=IND(P-{R})成立,則稱知識(shí) R為P中不必要的,否則稱R為P中必要的。其中必要的條件屬性組成的集合稱為核。
定義5 給定一個(gè)知識(shí)庫(kù)K=(U,S)和知識(shí)庫(kù)中的一簇等價(jià)關(guān)系P?S,對(duì)任意的G?P,若G滿足以下兩條:
(1)G是獨(dú)立的;
(2)IND(G)=IND(P);
則稱G是P的一個(gè)約簡(jiǎn),記為G∈RED(P)。其中RED(P)表示P的全體約簡(jiǎn)組成的集合。
顯然,知識(shí)的任何一個(gè)約簡(jiǎn)與知識(shí)本身對(duì)數(shù)據(jù)庫(kù)中的任意一個(gè)范疇的表達(dá)都是等同的,即它們對(duì)論域的分類能力相同。一般而言,知識(shí)約簡(jiǎn)不唯一,可以有多種約簡(jiǎn)。
粗糙集理論對(duì)給定的對(duì)象集合由若干個(gè)屬性描述,對(duì)象按照屬性的取值情況分成若干個(gè)等價(jià)類,統(tǒng)一等價(jià)類中的對(duì)象不可區(qū)分[5]。
定義8 對(duì)于決策表 T=(U,A,V,F),A=C∪D,C∩D=?,C為條件屬性集,D為決策屬性集,可以用類似的方法計(jì)算其相對(duì)約簡(jiǎn)和相對(duì)核。
定義9 令S=(U,A,V,F)是一個(gè)只是表達(dá)系統(tǒng),|U|=n,決策表S的區(qū)分矩陣是一個(gè)n*n矩陣。
基于區(qū)分矩陣的約簡(jiǎn)算法的基本過(guò)程一般如下:
(1)基于決策表生成區(qū)分矩陣;
(2)從區(qū)分矩陣中找到屬性組合數(shù)為1的屬性,即為核屬性;
(3)從區(qū)分矩陣中找到不包含核屬性的條件屬性組合;
(4)將這些條件屬性組合轉(zhuǎn)化成合取范式的形式,并且利用吸收率進(jìn)行約簡(jiǎn);
(5)根據(jù)要求選擇合適的約簡(jiǎn)。
因?yàn)楫?dāng)決策表?xiàng)l件屬性很多時(shí),基于區(qū)分矩陣的屬性約簡(jiǎn)算法邏輯轉(zhuǎn)換運(yùn)算代價(jià)太大,計(jì)算復(fù)雜度很大,所以本過(guò)程利用任何一個(gè)相對(duì)約簡(jiǎn)都包含核屬性這一特性對(duì)基于屬性依賴度的約簡(jiǎn)算法進(jìn)行改進(jìn),將大大降低計(jì)算的復(fù)雜度[6]。
根據(jù)區(qū)分矩陣中屬性的特點(diǎn),可以得知,區(qū)分矩陣中某個(gè)屬性出現(xiàn)的頻率越大和它所在的項(xiàng)越短,則該屬性的潛在區(qū)分能力就會(huì)越大,該屬性就會(huì)越重要
因此可以得到屬性的重要性函數(shù):
其中k為項(xiàng)長(zhǎng),指屬性a是否出現(xiàn)在該項(xiàng)中,如果出現(xiàn)則值為1,否則值為0。該函數(shù)能夠很好的體現(xiàn)屬性的重要性,因此把其作為啟發(fā)函數(shù)。
由區(qū)分矩陣可以得知,區(qū)分矩陣中的每一項(xiàng)與系統(tǒng)的約簡(jiǎn)都不為空,因?yàn)槿绻麨榭站驼f(shuō)明該約簡(jiǎn)對(duì)該兩個(gè)對(duì)象不可區(qū)分??梢愿鶕?jù)區(qū)分矩陣中屬性長(zhǎng)度為1的作為核元素,在區(qū)分矩陣中凡是含有約簡(jiǎn)中屬性的項(xiàng)都可以用約簡(jiǎn)代替。因此可以將這些項(xiàng)直接置空,從而得到過(guò)濾矩陣。
綜上得到約簡(jiǎn)算法的步驟:
(1)根據(jù)構(gòu)造的區(qū)分矩陣得到核元素,既項(xiàng)長(zhǎng)為1的就是核元素;
(2)利用核元素對(duì)約簡(jiǎn)進(jìn)行初始化,然后用約簡(jiǎn)和區(qū)分矩陣中的每一項(xiàng)進(jìn)行與運(yùn)算,將結(jié)果不為空的項(xiàng)刪除,從而得到過(guò)濾矩陣;
(3)利用上述的啟發(fā)函數(shù)對(duì)約簡(jiǎn)以外的屬性計(jì)算重要性,將屬性重要性最大的屬性加入到約簡(jiǎn)中;
(4)計(jì)算約簡(jiǎn)與區(qū)分矩陣中每一項(xiàng)的交集,如果為空則結(jié)束,否則轉(zhuǎn)到(3);
(5)返回約簡(jiǎn)。
首先應(yīng)該選定進(jìn)行洪水風(fēng)險(xiǎn)評(píng)估的特定地區(qū),這里選定武漢市作為洪水風(fēng)險(xiǎn)評(píng)估的區(qū)域。
通過(guò)詢問(wèn)專家和實(shí)地調(diào)查得到可能影響該地洪水風(fēng)險(xiǎn)的因子包括:地形,植被,土壤含水量,降雨,水庫(kù)分布,人口密度,耕地面積,人均收入水平,水利設(shè)施建設(shè),防災(zāi)意識(shí),河網(wǎng)密度,年齡結(jié)構(gòu),健康狀況,教育程度,基礎(chǔ)設(shè)施密度,生產(chǎn)總值等。
通過(guò)查詢1991~2005年《中國(guó)城市統(tǒng)計(jì)年鑒》中武漢市當(dāng)時(shí)相關(guān)統(tǒng)計(jì)數(shù)據(jù)和中國(guó)氣象科學(xué)數(shù)據(jù)共享服務(wù)網(wǎng)中暴雨洪澇災(zāi)害數(shù)據(jù)集、中國(guó)地面國(guó)際交換站氣候標(biāo)準(zhǔn)值年值數(shù)據(jù)集、中國(guó)農(nóng)作物生長(zhǎng)發(fā)育和農(nóng)田土壤濕度旬值數(shù)據(jù)集得到武漢市對(duì)應(yīng)各屬性的數(shù)值。
表1是通過(guò)對(duì)上述查詢數(shù)據(jù)進(jìn)行一致性處理:即根據(jù)一定的標(biāo)準(zhǔn)劃分等級(jí),這里采用中華人民共和國(guó)水利部于1994年6月2日發(fā)布的防洪標(biāo)準(zhǔn)(GB50201-94),其中決策屬性劃分為特大洪水,大洪水,小洪水,無(wú)4個(gè)等級(jí);而條件屬性則根據(jù)防洪標(biāo)準(zhǔn)劃分為4個(gè)等級(jí),然后再根據(jù)等級(jí)數(shù)據(jù)構(gòu)造洪水信息決策表。
表1 歷年洪水信息決策表
根據(jù)區(qū)分矩陣的定義,可以知道區(qū)分矩陣具有如下性質(zhì):首先,區(qū)分矩陣是一個(gè)對(duì)稱矩陣,因此只需要計(jì)算上三角矩陣或者下三角矩陣就可以了。其次可以根據(jù)定義得知區(qū)分矩陣的元素內(nèi)容是由區(qū)分兩個(gè)對(duì)象的屬性構(gòu)成的:當(dāng)兩個(gè)對(duì)象的條件屬性和決策屬性完全相同時(shí),則它們所對(duì)應(yīng)的區(qū)分矩陣的元素為0;當(dāng)兩個(gè)對(duì)象可以通過(guò)條件屬性取值不同加以區(qū)分時(shí),則它們所對(duì)應(yīng)的區(qū)分矩陣元素取值為這兩個(gè)對(duì)象不同的條件屬性集合;當(dāng)這兩個(gè)對(duì)象的所有條件屬性取值相同而決策屬性取值不同時(shí),則對(duì)應(yīng)的區(qū)分矩陣中的元素取值為空。
表2是根據(jù)歷年洪水信息決策表構(gòu)建的區(qū)分矩陣,由于區(qū)分矩陣是對(duì)稱矩陣,所以這里只計(jì)算了下三角矩陣。
表2 區(qū)分矩陣
從區(qū)分矩陣中找到屬性組合數(shù)為1的條件屬性,則這些條件屬性的組合即為核屬性,得到的核屬性是降雨,將核屬性加入到約簡(jiǎn)集中。
表3 過(guò)濾矩陣
表3就是用約簡(jiǎn)集和區(qū)分矩陣中的每一項(xiàng)進(jìn)行與操作后得到的過(guò)濾矩陣,然后根據(jù)過(guò)濾矩陣計(jì)算矩陣中所有屬性的重要性:
由以上計(jì)算可知,在過(guò)濾矩陣中重要性最大的是d(國(guó)民生產(chǎn)總值),因此將d加入到約簡(jiǎn)集中,然后再次用約簡(jiǎn)集與過(guò)濾矩陣相交,得到新的過(guò)濾矩陣,再按屬性的重要度依次將屬性加入到約簡(jiǎn)集中,直到約簡(jiǎn)集與過(guò)濾矩陣的相交為空,返回約簡(jiǎn)集。
得到的相對(duì)約簡(jiǎn)包括的條件屬性:降雨,國(guó)民生產(chǎn)總值,植被覆蓋率,人口密度,財(cái)產(chǎn)密度,基礎(chǔ)設(shè)施密度,中小企業(yè)密度,防洪設(shè)施建設(shè)。
由于在此應(yīng)用的是粗糙集的基于區(qū)分矩陣的約簡(jiǎn)算法,能夠得到所有約簡(jiǎn),因此這里還需要專家根據(jù)經(jīng)驗(yàn)選擇合適的約簡(jiǎn)作為指標(biāo)集構(gòu)建風(fēng)險(xiǎn)評(píng)估指標(biāo)體系。用約簡(jiǎn)的結(jié)果和以前一些用于洪水評(píng)估的指標(biāo)進(jìn)行對(duì)比,不難發(fā)現(xiàn)條件屬性中土壤含水量,地勢(shì),國(guó)民受教育程度等因素都沒(méi)有被用于構(gòu)建評(píng)價(jià)指標(biāo)體系。因?yàn)楦鶕?jù)武漢市的歷史資料發(fā)現(xiàn)這些因素對(duì)武漢市的洪水災(zāi)情并沒(méi)有起到作用,因此在這里對(duì)這些因素進(jìn)行了刪除,以免影響后面進(jìn)行的風(fēng)險(xiǎn)評(píng)估。
圖1是武漢市的洪水風(fēng)險(xiǎn)評(píng)估的指標(biāo)體系,分為3層結(jié)構(gòu):第一層是該地區(qū)的洪水風(fēng)險(xiǎn)等級(jí);第二層是因素集;第三層是子因素集。
圖1 洪水風(fēng)險(xiǎn)評(píng)估的指標(biāo)體系
根據(jù)模糊層次分析法所建立的數(shù)學(xué)評(píng)估模型如下:
其中F為系統(tǒng)總得分,C為系統(tǒng)評(píng)估矩陣;S為專家評(píng)定的洪水風(fēng)險(xiǎn)的安全等級(jí)加權(quán)值;A為指標(biāo)體系第二層的因素權(quán)重分配集;B為由Bi組成的總評(píng)估矩陣;Ai為第三層子因素的權(quán)重分配集;Ri各因素對(duì)應(yīng)的評(píng)估矩陣,是由專家根據(jù)評(píng)語(yǔ)集即表4投票得出的[7-8]。
表4 洪水風(fēng)險(xiǎn)等級(jí)加權(quán)值
表5 洪水風(fēng)險(xiǎn)等級(jí)
應(yīng)用模糊層次分析法進(jìn)行洪水風(fēng)險(xiǎn)評(píng)估介紹:
(1)要采用層次分析法確定武漢市洪水評(píng)估指標(biāo)因素的權(quán)重值:洪水風(fēng)險(xiǎn)評(píng)估指標(biāo)體系遞減層次結(jié)構(gòu)的構(gòu)成確定了上下級(jí)之間的關(guān)系,可對(duì)每一層次各個(gè)因素相對(duì)于上一層某一準(zhǔn)則的重要性進(jìn)行兩兩比對(duì),從而構(gòu)造出判斷矩陣。其中表6是因素層中各因素對(duì)于系統(tǒng)的權(quán)重所建立的判斷矩陣,求得的權(quán)重集是(0.45,0.27,0.10,0.18)。類似還需要求出子因素層中各子因素對(duì)于因素層中對(duì)應(yīng)因素的權(quán)重判斷矩陣,并且求出權(quán)重集。
表6 判斷矩陣
(2)求得武漢市洪水風(fēng)險(xiǎn)的總得分:利用表4根據(jù)所建立的模糊層次評(píng)估模型計(jì)算得到的武漢市的風(fēng)險(xiǎn)評(píng)估得分為51。
(3)確定武漢市洪水風(fēng)險(xiǎn)等級(jí):根據(jù)表5,武漢市的風(fēng)險(xiǎn)的風(fēng)險(xiǎn)評(píng)估得分為51屬于45-59范疇,因此風(fēng)險(xiǎn)等級(jí)為較差。
查看了武漢市2005年至今的洪水災(zāi)害損失情況都是比較嚴(yán)重的,其中重大洪水兩次,排在了全國(guó)城市洪水損失的前列,可見(jiàn)評(píng)估得到的結(jié)果與武漢市的現(xiàn)實(shí)情況基本相符。因此在對(duì)武漢市的洪水風(fēng)險(xiǎn)進(jìn)行評(píng)估時(shí)利用粗糙集約簡(jiǎn)理論對(duì)用于評(píng)估的屬性集進(jìn)行約簡(jiǎn),利用約簡(jiǎn)后的屬性進(jìn)行風(fēng)險(xiǎn)評(píng)估,最終的結(jié)果是可靠的。由此可見(jiàn)土壤,地勢(shì)等屬性對(duì)于武漢市的洪水風(fēng)險(xiǎn)評(píng)估是多余的,是可以剔除的,并不影響最終評(píng)估結(jié)果的準(zhǔn)確性。
運(yùn)用粗糙集理論的基于區(qū)分矩陣的改進(jìn)的屬性約簡(jiǎn)算法對(duì)洪水風(fēng)險(xiǎn)評(píng)估中的指標(biāo)集進(jìn)行了約簡(jiǎn),得到了在洪水風(fēng)險(xiǎn)評(píng)估中起作用的指標(biāo),剔除了無(wú)意義的指標(biāo),比傳統(tǒng)的專家投票等單純依靠經(jīng)驗(yàn)的方法具有科學(xué)依據(jù)和數(shù)據(jù)支持。由于指標(biāo)數(shù)量減少更易于專家對(duì)各個(gè)指標(biāo)進(jìn)行打分,提高了區(qū)域洪水風(fēng)險(xiǎn)評(píng)估的準(zhǔn)確性和效率。因?yàn)閼?yīng)用粗糙集的屬性約簡(jiǎn)算法需要大量的樣本數(shù)據(jù),當(dāng)數(shù)據(jù)量不充足時(shí)可能會(huì)導(dǎo)致最終的結(jié)果出現(xiàn)偏差,所以在應(yīng)用粗糙集的屬性約簡(jiǎn)算法時(shí)應(yīng)該保證樣本數(shù)據(jù)的正確性和充分性。
[1] 張文修,吳偉志,梁吉業(yè),李德.粗糙集理論與方法[M].北京:機(jī)械工業(yè)出版社,2002.
[2] 殷杰,柴毅,郭茂耘.應(yīng)用粗糙集提取柴油機(jī)故障數(shù)據(jù)特征[J].計(jì)算機(jī)工程與應(yīng)用,2011,(29).
[3] 劉新立.區(qū)域水災(zāi)風(fēng)險(xiǎn)評(píng)估的理論與實(shí)踐[D].北京:北京師范大學(xué),2000.
[4] 王保生,江西旱澇災(zāi)害風(fēng)險(xiǎn)評(píng)估與農(nóng)業(yè)可持續(xù)發(fā)展[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,(8):31-34.
[5] 梁蒙.基于粗糙集的屬性約簡(jiǎn)算法研究[D].河南:河南大學(xué),2011.
[6] 趙永安.基于粗糙集的屬性約簡(jiǎn)算法研究[D].內(nèi)蒙古:內(nèi)蒙古大學(xué),2008.
[7] 王為人.基于層次分析法的流域水資源配置權(quán)重測(cè)算[M].北京:中國(guó)林業(yè)出版社,1998.