高天宇,王慶榮,楊 磊
蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州730070
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘作為一種有效的數(shù)據(jù)處理手段,能夠幫助決策者從數(shù)據(jù)中發(fā)掘有助于決策的信息[1]。粗糙集理論不需要先驗(yàn)知識(shí),作為處理模糊信息的有效方法,在挖掘數(shù)據(jù)中的隱藏信息時(shí)有明顯優(yōu)勢(shì),常用于數(shù)據(jù)預(yù)處理或數(shù)據(jù)分析[2-3]。屬性約簡(jiǎn)作為粗糙集理論中的重點(diǎn)方法,通過依賴度計(jì)算來(lái)去除冗余屬性[3]。Raza 等[4]通過直接計(jì)算屬性依賴度進(jìn)行屬性約簡(jiǎn),比較經(jīng)典方法,其精確度得到了提高;針對(duì)不同情況的樣本數(shù)據(jù)變化情況,Shu 等[5]通過增量式計(jì)算給出了相應(yīng)的約簡(jiǎn)算法;關(guān)于粒計(jì)算理論在數(shù)據(jù)處理及粗糙集的使用中,Liang 等[6]引入高斯核函數(shù)?;瘮?shù)據(jù),提高了大數(shù)據(jù)集的處理效率;Qian等[7]分析了從多粒度層面考慮問題的屬性約簡(jiǎn)的有效性;張?zhí)烊鸬萚8]基于粗糙集與決策樹的數(shù)據(jù)挖掘方法,給出了關(guān)于全斷面掘進(jìn)機(jī)的一種故障檢測(cè)新途徑;劉穎超等[9]基于一種新的粗糙集屬性約簡(jiǎn)理論,挖掘了影響刀具磨損的關(guān)鍵因素;邵為爽等[10]結(jié)合粗糙集與BP 神經(jīng)網(wǎng)絡(luò),給出一種新的煤炭物流中心選址方法。
分析震后經(jīng)濟(jì)損失與其影響因素的相關(guān)程度是合理經(jīng)濟(jì)損失預(yù)測(cè)及分析的前提,有效的地震直接經(jīng)濟(jì)損失評(píng)估,對(duì)救災(zāi)、財(cái)政、捐助、理賠等有重要意義[11]。劉如山等[12]通過建筑類型、數(shù)量、空間分布、結(jié)構(gòu)易損特性以及地震烈度計(jì)算地震經(jīng)濟(jì)損失;陳堯等[13]選取震級(jí)和烈度對(duì)直接經(jīng)濟(jì)損失進(jìn)行了評(píng)估;王偉哲[11]理性分析地震的致災(zāi)因子和承災(zāi)因子,選取了地震震級(jí)、震源深度、設(shè)計(jì)基本加速度、災(zāi)區(qū)面積、全國(guó)人均GDP和受災(zāi)人口的乘積,作為神經(jīng)網(wǎng)絡(luò)的輸入變量及預(yù)測(cè)經(jīng)濟(jì)損失的影響因素;趙士達(dá)等[14]通過理性分析選取了震級(jí)、震源深度、受災(zāi)面積、受災(zāi)人口、設(shè)計(jì)基本地震加速度、地區(qū)人均GDP和產(chǎn)業(yè)結(jié)構(gòu)比例作為影響因素;和仕芳等[15]選取震級(jí)、烈度、人均GDP、人均財(cái)政收入、農(nóng)民人均純收入作為影響因素,并從時(shí)間特征總結(jié)出,經(jīng)濟(jì)和人口差異是地震災(zāi)害之間經(jīng)濟(jì)損失明顯差異的重要影響因素,從數(shù)據(jù)中發(fā)現(xiàn)各影響因素與經(jīng)濟(jì)損失存在線性關(guān)系。
傳統(tǒng)的地震經(jīng)濟(jì)損失分析中缺少對(duì)于相關(guān)影響因素的分析,影響因素的使用趨于主觀選取,影響因素之間重要性研究較少。地震數(shù)據(jù)特點(diǎn)較復(fù)雜,挖掘影響因素的隱藏信息是分析影響因素間重要性的關(guān)鍵?;诖植诩碚撨M(jìn)行重要信息的挖掘較適合于地震數(shù)據(jù)分析,合理的數(shù)據(jù)分析將有助于預(yù)測(cè)、救援及經(jīng)濟(jì)市場(chǎng)的運(yùn)作。屬性約簡(jiǎn)作為粗糙集的核心[16],其約簡(jiǎn)原理主要依賴于條件屬性對(duì)于決策屬性的重要性的區(qū)別[2]。關(guān)于震后經(jīng)濟(jì)損失的相關(guān)數(shù)據(jù),在傳統(tǒng)的屬性約簡(jiǎn)方法中,決策矩陣條件屬性較多時(shí),隱藏其中的低依賴度屬性增多、屬性值粒度較小,導(dǎo)致條件屬性的重要性一致,造成約簡(jiǎn)困難。粒計(jì)算作為大數(shù)據(jù)分析的新方法,粒化準(zhǔn)則的確定、分析數(shù)據(jù)的多粒度視角都有待進(jìn)一步研究[3],常見的無(wú)監(jiān)督離散化方法有等寬、等頻、近似等頻、密度、聚類等[17-18]。為解決約簡(jiǎn)困難給出一種依賴度強(qiáng)化方法,為將其合理化,結(jié)合多粒度粗糙集給出一種離散化方法。
給出一種數(shù)據(jù)挖掘模型,引入多粒度粗糙集,給出合理的?;瘻?zhǔn)則并從多角度分析數(shù)據(jù)。在數(shù)據(jù)挖掘模型中首先提出一種探索模型,確定?;瘻?zhǔn)則、探索粒度范圍與屬性組合范圍。然后考慮粒度范圍與離散量范圍、?;瘻?zhǔn)則與離散量的關(guān)系,根據(jù)范圍內(nèi)不同的離散量離散化數(shù)據(jù);考慮多種條件屬性組合與決策屬性的關(guān)系,在屬性組合范圍內(nèi)全組合屬性,計(jì)算組合的屬性依賴度。最后強(qiáng)化屬性依賴度,將不同屬性之間的依賴程度從組合提取至屬性本身。在本文搜集的國(guó)內(nèi)5 級(jí)以上地震的數(shù)據(jù)中,成功挖掘了震后經(jīng)濟(jì)損失的重要、次要影響因素,且與傳統(tǒng)方法相比更有效。
使用粗糙集處理信息時(shí)首先將處理的信息表示為一個(gè)四元組T={U,A,V,f}。其中,U={x1,x2,…,xn}為論域或?qū)ο蠹?,是全體樣本的集合;A={A1,A2,…,Ac,Ad}為屬性集合,其中包含條件屬性C={A1,A2,…,Ac}、決策屬性D={Ad},V代表了屬性值的集合,V={a11,a12,…,and}。f代表一個(gè)信息函數(shù),通過此函數(shù)來(lái)確定樣本與屬性所對(duì)應(yīng)的屬性值,即f(x,A)=V。條件屬性等價(jià)類集合為條件類,決策屬性等價(jià)類集合為決策類。
E為U中的一組等價(jià)關(guān)系,x∈U為條件類對(duì)象,X∈U為決策類對(duì)象,X關(guān)于E的上近似E*與下近似E*分別為:
利用屬性依賴度來(lái)定義決策屬性與條件屬性的關(guān)聯(lián)程度,將依賴程度表示為以下表達(dá)式:
根據(jù)粗糙集的四元組T={U,A,V,f},給出屬性約簡(jiǎn)的決策表Td={U,A,C,D},屬性集A中劃分出條件屬性集C與決策屬性集D。判斷某條件屬性Ac∈C對(duì)于決策屬性Ad∈D的依賴程度,計(jì)算Ac的剩余屬性依賴度Ro(C,D|C-Ac),得到剩余屬性依賴度集合R,當(dāng)某屬性對(duì)應(yīng)剩余屬性依賴度較低時(shí),屬性較重要,反之較次要。
在屬性約簡(jiǎn)決策矩陣中,存在多個(gè)次要條件屬性時(shí),會(huì)導(dǎo)致屬性值粒度過小,根據(jù)等價(jià)類的定義,此時(shí)易出現(xiàn)等價(jià)類過少,甚至沒有等價(jià)類的情況。例如:某決策表中條件類為{{x1},{x2},…,{xn}},該類中無(wú)等價(jià)類,決策類為{{x1,x2,x3},{x4,…,xn}} ,選取{x1,x2,x3} 為決策集合,R中的值可能均為3n。過多的次要屬性使得Ac的變化很難引起上近似集變化,若所有Ac對(duì)應(yīng)剩余屬性的依賴度均沒有變化,則難以約簡(jiǎn)。
變精度粗糙集放寬對(duì)上下近似集的定義[19],模糊了粗糙集的邊界,使得Ac的變化對(duì)于其剩余屬性依賴度的影響更加敏感。
定義的變精度粗糙集上近似集為:
其中,β表示閾值時(shí)所求上近似集是嚴(yán)格的,當(dāng)β=1 則會(huì)將所有的x納入上近似集。所以β越小,最終的結(jié)果越有意義。
存在這樣的情況,在引入變精度粗糙集的情況下,當(dāng)β <1 時(shí),β的任何變化不會(huì)引起上近似集的改變,其原因可能是多個(gè)依賴度過低的次要屬性存在于決策表中。
由于屬性依賴度對(duì)于各屬性之間的依賴關(guān)系有重要意義[20],通過強(qiáng)化屬性依賴度放大屬性之間的依賴關(guān)系,挖掘次要屬性。
強(qiáng)化屬性依賴度過程如圖1所示,計(jì)算不同的條件屬性Ac之間的組合依賴度,再將屬性組合的依賴度先從組合分離,后合并于每個(gè)屬性,使得重要屬性與次要屬性分開,給出每個(gè)Ac關(guān)于Ad的依賴度,其中依賴度的強(qiáng)化主要體現(xiàn)在合并操作上。
圖1 依賴度分離合并示意圖
屬性全組合方式為式(5),其中g(shù)表示組合的元素?cái)?shù),即對(duì)g個(gè)屬性進(jìn)行組合,記組合總數(shù)為m1,m2,…,mj,j為組合類型數(shù)。
則可得對(duì)應(yīng)的決策矩陣可為:
各屬性組合進(jìn)行計(jì)算較好地保留了屬性之間的關(guān)系特點(diǎn),但求解上近似集的過程中直接參與運(yùn)算的是屬性值,該模型數(shù)據(jù)的離散化對(duì)結(jié)果的影響很大,處理結(jié)果必須最大程度保留數(shù)據(jù)特點(diǎn)。強(qiáng)化屬性依賴度過程中,考慮多個(gè)數(shù)據(jù)粒度可更大程度保留數(shù)據(jù)特點(diǎn),粒計(jì)算是數(shù)據(jù)挖掘中的一個(gè)重點(diǎn),相較于單粒度,多粒度視角的粗糙集對(duì)數(shù)據(jù)分析更全面、視角更廣泛,通過融合多粒層的結(jié)果求得復(fù)雜問題的最終解[21-23]。
從不同粒度層面分析數(shù)據(jù)將更大程度地保留數(shù)據(jù)的特點(diǎn),離散化數(shù)據(jù)時(shí)粒度與離散量成反比,若數(shù)據(jù)離散量越大,則粒度越小,反之越大。通過規(guī)定不同的離散量將數(shù)據(jù)離散化,待處理屬性值其中δ為離散量,不同的離散量對(duì)應(yīng)不同的粒度。
常見的離散化方法有等寬、聚類等[9],地震相關(guān)數(shù)據(jù)涉及面廣,不同屬性的數(shù)據(jù)特點(diǎn)不同,根據(jù)不同類型的數(shù)據(jù)使用不同離散化方法,針對(duì)本文數(shù)據(jù)給出判斷公式,對(duì)量級(jí)差距大的數(shù)據(jù)進(jìn)行動(dòng)態(tài)的離散化。
根據(jù)離散量,處理不同類型數(shù)據(jù)的相對(duì)距離的流程如圖2所示。
圖2 對(duì)不同特點(diǎn)的數(shù)據(jù)進(jìn)行離散化
數(shù)據(jù)粒度較大時(shí)數(shù)據(jù)本身已有歸類與聚集,不做處理;數(shù)據(jù)粒度較小時(shí),判斷數(shù)據(jù)的相對(duì)距離后將數(shù)據(jù)離散化處理。為判斷數(shù)據(jù)粒度大小,在2.2節(jié)給出探索模型。
根據(jù)式(8)判斷數(shù)據(jù)的相對(duì)距離。
在強(qiáng)化依賴度的數(shù)據(jù)挖掘模型中,屬性全組合與不明確的粒度范圍將增加方法的復(fù)雜度。為確定多個(gè)粒度的范圍及每個(gè)粒度的?;瘻?zhǔn)則,去除無(wú)效的組合方式,提出一種離散量與屬性組合探索模型,其中粒化準(zhǔn)則確定了離散量,粒度范圍為離散量范圍。
確定待處理數(shù)據(jù)的結(jié)構(gòu),建立大量與其結(jié)構(gòu)相同的隨機(jī)矩陣,通過計(jì)算平均依賴度,觀測(cè)依賴度變化與離散量及屬性組合的關(guān)系。為使隨機(jī)數(shù)處理更接近待測(cè)數(shù)據(jù),建立模型的流程如圖3所示。
圖3 探索模型程序流程
2.2.1 數(shù)據(jù)隨機(jī)
在對(duì)隨機(jī)矩陣的屬性進(jìn)行隨機(jī)數(shù)賦值時(shí),根據(jù)離散量δ產(chǎn)生隨機(jī)數(shù)如式(9):
式(9)中,anc為屬性值。此處數(shù)據(jù)隨機(jī)的結(jié)果與待測(cè)數(shù)據(jù)的離散化形式一致,在一定程度上模擬了待測(cè)矩陣離散化后的數(shù)據(jù)結(jié)構(gòu)。
2.2.2 屬性組合隨機(jī)
在使用待測(cè)數(shù)據(jù)進(jìn)行計(jì)算時(shí),各屬性數(shù)據(jù)具有對(duì)應(yīng)情景的數(shù)據(jù)特點(diǎn),而探索模型中根據(jù)離散量產(chǎn)生的隨機(jī)數(shù)據(jù),數(shù)據(jù)特點(diǎn)一致,在測(cè)試屬性組合數(shù)時(shí)不需考慮全組合情況,組合結(jié)果滿足式(10):
對(duì)比依賴度分析方法中的全屬性組合,合理的離散量范圍與屬性組合范圍取決于決策矩陣本身的結(jié)構(gòu),而不是屬性間的關(guān)系,因而此處組合結(jié)果更簡(jiǎn)單,且能達(dá)到探索模型的目的。
融合上述方法為本文數(shù)據(jù)挖掘模型,如圖4 所示,依賴度過低的屬性過多,不易從決策矩陣中挖掘,提出依賴度強(qiáng)化方法。引入多粒度粗糙集對(duì)數(shù)據(jù)預(yù)處理,動(dòng)態(tài)的離散化數(shù)據(jù),從多個(gè)角度提取數(shù)據(jù)特征;使用探索模型給出離散量范圍與屬性組合范圍,將數(shù)據(jù)預(yù)處理進(jìn)一步合理化。
圖4 數(shù)據(jù)挖掘模型
探索模型與多粒度視角處理數(shù)據(jù)均是為了提高依賴度分析方法的合理性。
選取國(guó)內(nèi)18 次地震作為研究樣本,用以驗(yàn)證該方法的合理性、實(shí)用性。通過對(duì)以往地震案例的研究歸納明確了在應(yīng)急預(yù)案中的幾個(gè)重要影響因素。
首先確定影響因素有:人口密度、當(dāng)?shù)貧夂蝾愋?、季?jié)、時(shí)間、往年地震情況、地震等級(jí)、當(dāng)?shù)氐匦?。往年地震情況為當(dāng)?shù)鼗蛘弋?dāng)?shù)貙?duì)應(yīng)省、市近50年內(nèi)震級(jí)5級(jí)以上的年均地震次數(shù)。將經(jīng)濟(jì)損失作為決策屬性,其他影響因素作為條件屬性,原始數(shù)據(jù)如表1。
3.2.1 探索離散量與屬性組合范圍
根據(jù)探索模型,確定實(shí)驗(yàn)數(shù)據(jù)中對(duì)象個(gè)數(shù)為18,條件屬性為7,決策屬性為1,在實(shí)驗(yàn)中給出最小的離散量為3。根據(jù)粒度與屬性組合探索模型得出屬性依賴度變化圖,如圖5所示。
圖5 中曲線的自變量有兩個(gè),為粒度與屬性組合。橫坐標(biāo)為自變量粒度,第一個(gè)粒度離散量為2,因?qū)嶒?yàn)發(fā)現(xiàn)粒度過大無(wú)意義,省去,從第二個(gè)粒度開始,實(shí)驗(yàn)中從第七個(gè)粒度開始依賴度隨兩個(gè)自變量的影響變小,自變量粒度選取第二至第七個(gè),粒度Attribute granularity與離散量δ的關(guān)系:Attribute granularity=δ-1;各連續(xù)的曲線為自變量屬性組合,實(shí)驗(yàn)選取全部屬性組合。因變量為平均屬性依賴度,即每個(gè)屬性粒度對(duì)應(yīng)不同屬性組合所得平均屬性依賴度,圖5由500個(gè)隨機(jī)8×18屬性矩陣計(jì)算平均值得出。根據(jù)圖5中5、6、7三種屬性組合在本實(shí)驗(yàn)中明顯聚集,區(qū)分能力較弱,首先去掉這三種組合,故均用實(shí)線表示。
表1 地震經(jīng)濟(jì)損失及其影響因素
圖5 依賴度隨粒度與屬性組合的變化
分析圖5可知,當(dāng)決策屬性個(gè)數(shù)為1,條件屬性個(gè)數(shù)為7,屬性對(duì)象為18個(gè)時(shí):在每個(gè)粒度層面,隨屬性組合個(gè)數(shù)的減少,屬性依賴度差距變大,屬性依賴度關(guān)于粒度變化的斜率變大。根據(jù)屬性依賴度的差值與斜率挑選粒度與屬性組合范圍。選取差距較明顯、斜率較大的情況,屬性之間的依賴度差異較大,最有可能分離出重要屬性與次重要屬性。
3.2.2 數(shù)據(jù)處理
經(jīng)濟(jì)損失數(shù)據(jù)受年代影響較大,為消除這種經(jīng)濟(jì)發(fā)展變化造成的對(duì)比不均等現(xiàn)象,將經(jīng)濟(jì)損失與當(dāng)年GDP的比值作為決策屬性值。
挑選具有一定代表性的數(shù)據(jù)直方圖,第一類數(shù)據(jù)如圖6所示。
圖6 決策屬性的數(shù)據(jù)直方圖
圖6決策屬性為經(jīng)濟(jì)損失與當(dāng)年GDP的比值,自變量0 至17 代表18 個(gè)實(shí)驗(yàn)對(duì)象。此類數(shù)據(jù)為第一類數(shù)據(jù),內(nèi)部量級(jí)相差較大,且存在多個(gè)數(shù)據(jù)量級(jí),根據(jù)本文離散化方法,需要采用不同的τ;第二類數(shù)據(jù),如往年地震情況中有較明顯的聚集情況,設(shè)置其τ為1.25,而經(jīng)濟(jì)損失的τ為2;第三類數(shù)據(jù),如時(shí)間、地震等級(jí),其數(shù)據(jù)內(nèi)相對(duì)距離較均勻,將其平均離散化;第四類數(shù)據(jù),如氣候、地形,此類數(shù)據(jù)本身較為離散,它們之間關(guān)系較不明確,直接賦離散值。
取部分結(jié)果舉例,離散量為3的數(shù)據(jù)處理結(jié)果如表2 所示。對(duì)應(yīng)決策表定義,表2 中a1至a8表示屬性,對(duì)象p1至p18表示震發(fā)地點(diǎn)。
表2 部分處理后數(shù)據(jù)
在傳統(tǒng)聚類方法中,如圖6中的數(shù)據(jù)離散將會(huì)分離3 號(hào)、9 號(hào)地區(qū),動(dòng)態(tài)離散化方法中,當(dāng)離散量為3 時(shí),3號(hào)、9 號(hào)地區(qū)將不會(huì)分離,符合二者同屬于大型損失的情況。
3.3.1 依賴度強(qiáng)化方法
決策屬性a8的值0、1、2 分別對(duì)應(yīng)大、中、小三種程度的經(jīng)濟(jì)損失。離散量為3、4、5,屬性組合為2、3、4,決策屬性值為0、1、2的屬性組合依賴度結(jié)果如表3。
表3 屬性在組合中的依賴度
經(jīng)統(tǒng)計(jì),表3共得出546個(gè)依賴度結(jié)果,包括針對(duì)三種決策屬性的結(jié)果,每種結(jié)果包括三種粒度,將三種粒度的結(jié)果累加。
根據(jù)決策屬性不同,合并依賴度結(jié)果如表4。
表4 每個(gè)屬性的依賴度累加值
根據(jù)表4 屬性依賴度結(jié)果大小將其對(duì)應(yīng)屬性序列號(hào)排序如表5。
表5 屬性序列號(hào)從大到小排序
表5 中屬性序列號(hào)依次對(duì)應(yīng)7 個(gè)條件屬性,條件屬性對(duì)應(yīng)到影響因素,屬性重要程度排序如表6。從表6中可以得出,三種決策屬性互為測(cè)試集,且三種排序結(jié)果較接近,體現(xiàn)出該模型的合理性。根據(jù)排序結(jié)果可看出,地震等級(jí)與時(shí)間在決策中較為重要,地形與氣候較不重要。
表6 影響因素的重要度從高到低排序結(jié)果
3.3.2 傳統(tǒng)屬性約簡(jiǎn)方法
為證明本文方法的必要性,使用同樣數(shù)據(jù),通過傳統(tǒng)的屬性約簡(jiǎn)方法計(jì)算,結(jié)果如表7。
表7 傳統(tǒng)屬性約簡(jiǎn)依賴度結(jié)果
根據(jù)表7,每一列的依賴度結(jié)果均沒有變化,根據(jù)變精度粗糙集理論進(jìn)行計(jì)算,當(dāng)β為0.9時(shí)結(jié)果仍不變,表示通過傳統(tǒng)的屬性約簡(jiǎn)無(wú)法挑出約簡(jiǎn)的刪除對(duì)象。
3.3.3 測(cè)試數(shù)據(jù)結(jié)果
為證明本文方法的合理性,表8選取了50個(gè)較為傳統(tǒng)的隨機(jī)決策矩陣作為測(cè)試數(shù)據(jù)。
表8 測(cè)試數(shù)據(jù)1
該決策矩陣中有5個(gè)屬性,8個(gè)對(duì)象q1~q8,離散量為3,決策屬性b5,條件屬性b1~b4。
首先使用本文方法,統(tǒng)計(jì)依賴度結(jié)果如表9。再使用傳統(tǒng)屬性約簡(jiǎn)方法,引入變精度粗糙集,取β為0.3(實(shí)驗(yàn)得:不使用變精度粗糙集時(shí),存在兩個(gè)屬性的依賴度在約簡(jiǎn)過程中恒為0;且β取0.1、0.2均無(wú)變化),結(jié)果如表10。
表9 強(qiáng)化粗糙集屬性依賴度的數(shù)據(jù)挖掘方法結(jié)果
根據(jù)表10 的屬性約簡(jiǎn)結(jié)果可得,使用傳統(tǒng)的粗糙集屬性約簡(jiǎn)理論時(shí),條件屬性依賴度值的大小排名為:b2>b4>b3>b1。對(duì)比表9 的結(jié)果,則該測(cè)試數(shù)據(jù)中本文方法與傳統(tǒng)方法的表現(xiàn)結(jié)果一致。
表10 傳統(tǒng)屬性約簡(jiǎn)結(jié)果
實(shí)驗(yàn)證明,兩方法在50 個(gè)測(cè)試數(shù)據(jù)中有43 個(gè)表現(xiàn)結(jié)果一致,一致性為86%,故本文方法具有一定的合理性。
對(duì)于傳統(tǒng)的屬性約簡(jiǎn)方法中存在的過多低依賴度屬性、過小粒度級(jí)導(dǎo)致的約簡(jiǎn)困難現(xiàn)象,本文以強(qiáng)化依賴度為主要思想,提出一種依賴度分析方法并構(gòu)建了數(shù)據(jù)挖掘模型。在模型中,引入多粒度粗糙集,針對(duì)本文數(shù)據(jù)集給出了一種數(shù)據(jù)離散化方法,更大程度地保留了屬性特點(diǎn);構(gòu)建探索模型,給出了一種粒度準(zhǔn)則確定方法,合理縮小了屬性組合范圍與離散量范圍,減少過量的計(jì)算;在選取決策屬性時(shí),從經(jīng)濟(jì)損失結(jié)果出發(fā)考慮了不同等級(jí)的經(jīng)濟(jì)損失程度。該模型綜合考慮了不同屬性組合的關(guān)系;從不同粒度層面分析了數(shù)據(jù),成功挖掘出較重要屬性與較次要屬性。在實(shí)驗(yàn)數(shù)據(jù)中本文模型表現(xiàn)較好,在測(cè)試數(shù)據(jù)中本文模型與傳統(tǒng)模型結(jié)果一致性較高,體現(xiàn)了本文數(shù)據(jù)挖掘模型的必要性與合理性。本文數(shù)據(jù)量較小,有待研究更多屬性情況或其他領(lǐng)域下模型的合理性與魯棒性,在更廣泛領(lǐng)域的數(shù)據(jù)挖掘中有待進(jìn)一步研究。