馬 麗 陳桂芬
【摘要】 應(yīng)用粗糙集與決策樹(shù)相結(jié)合的數(shù)據(jù)挖掘方法評(píng)價(jià)吉林省某地的土壤地力等級(jí)。研究數(shù)據(jù)共有161條記錄,16個(gè)屬性,使用粗糙集對(duì)土壤屬性進(jìn)行約簡(jiǎn),去除了5個(gè)土壤冗余屬性,得到屬性約簡(jiǎn)集;使用決策樹(shù)方法對(duì)土壤數(shù)據(jù)建立決策樹(shù)模型,得到了土壤評(píng)價(jià)的決策樹(shù)模型,并提取了分類(lèi)規(guī)則。實(shí)驗(yàn)表明:將粗糙理論與決策樹(shù)相結(jié)合的數(shù)據(jù)挖掘方法能去除冗余屬性,同時(shí)保留了原始數(shù)據(jù)的內(nèi)部特點(diǎn),相對(duì)于單一使用決策樹(shù)方法,決策樹(shù)規(guī)模減小,規(guī)則集較精簡(jiǎn),提高了分類(lèi)的效率。
【關(guān)鍵詞】 粗糙集 決策樹(shù) 數(shù)據(jù)挖掘 土壤評(píng)價(jià) 地力等級(jí)
【Abstract】 In this paper, rough set and decision tree combination were used to evaluate the productivity grade of soil in somewhere of Jilin province. The research data had a total of 161 records and 16 attributes. The paper used rough set to reduce the soil attributes, removed 5 redundant attributes and obtained the attributes reduction set, then decision tree method was used to construct the decision tree model, after that classifying rules were withdrawn. The experiment indicates that the data mining methods that unify the rough set theory and the decision tree can remove redundant attributes and retain the internal features of the original data. Compared with the single—use decision tree method, the decision tree scale is smaller,the rule set is more streamlined and the mining efficiency is improved.
【Keywords】 rough setdecision treedata miningsoil evaluationproductivity grade
引言
土壤評(píng)價(jià)的影響因素較為復(fù)雜,傳統(tǒng)的土壤評(píng)價(jià)方法需要領(lǐng)域?qū)<业膮⑴c,有一定的主觀性,而且較少考慮土壤各屬性間的依賴(lài)關(guān)系,較難表達(dá)土壤性質(zhì)和環(huán)境變量間的非線(xiàn)性關(guān)系。從數(shù)據(jù)挖掘的角度來(lái)看,土壤評(píng)價(jià)實(shí)質(zhì)上屬于分類(lèi)預(yù)測(cè)問(wèn)題。決策樹(shù)方法是一種較好的分類(lèi)方法,適宜處理非線(xiàn)性數(shù)據(jù)和描述數(shù)據(jù),建立的樹(shù)型結(jié)構(gòu)直觀,具有生成速度快,能得到簡(jiǎn)單易懂的分類(lèi)規(guī)則等優(yōu)點(diǎn)。決策樹(shù)在土壤等級(jí)評(píng)定方面也有了一些應(yīng)用,但決策樹(shù)方法不考慮土壤屬性之間的潛在關(guān)系,當(dāng)數(shù)據(jù)集中的屬性過(guò)多時(shí),用決策樹(shù)分類(lèi)易出現(xiàn)結(jié)構(gòu)性差,難以發(fā)現(xiàn)一些本來(lái)可以找到的、有用的規(guī)則信息等情況。粗糙集理論在處理大數(shù)據(jù)量,消除冗余信息等方面具有一定的優(yōu)勢(shì),因此廣泛應(yīng)用于數(shù)據(jù)預(yù)處理、屬性約簡(jiǎn)等方面。鑒于粗糙集和決策樹(shù)具有很強(qiáng)的優(yōu)勢(shì)互補(bǔ)性,本文采用粗糙集與決策樹(shù)相結(jié)合的方法評(píng)價(jià)土壤地力等級(jí),即采用粗糙集方法對(duì)土地屬性進(jìn)行約減,得到低維訓(xùn)練數(shù)據(jù),使用決策樹(shù)方法構(gòu)建決策樹(shù),產(chǎn)生分類(lèi)規(guī)則集,形成評(píng)價(jià)地力等級(jí)的新方法。
1.數(shù)據(jù)挖掘方法設(shè)計(jì)
1.1粗糙集理論
粗糙集(Rough Set,RS)理論是新的處理模糊和不確定性知識(shí)的數(shù)學(xué)工具,其特點(diǎn)是不需要預(yù)先給定某些特征和屬性的數(shù)量描述,而是直接從給定問(wèn)題的描述出發(fā),找出該問(wèn)題的內(nèi)在規(guī)律,其基本思想更接近現(xiàn)實(shí)情況。
粗糙集的基本思想是:稱(chēng)S=(U,A,{Va},a)為知識(shí)表示系統(tǒng),其中,U為非空有限集,稱(chēng)為論域;A為非空有限集,稱(chēng)屬性集合;Va為屬性a∈A的值域;a:U→Va為一單映射。如果A由條件屬性集合C和結(jié)論屬性集合D組成,C,D滿(mǎn)足C∪D=A,C∩D=Φ,則稱(chēng)S為決策系統(tǒng)。在一個(gè)決策系統(tǒng)中,各個(gè)條件屬性之間往往存在著某些程度上的依賴(lài)或關(guān)聯(lián),約簡(jiǎn)可以理解為在不丟失信息的前提下,以最簡(jiǎn)單地描述表示決策系統(tǒng)的結(jié)論屬性對(duì)條件屬性的集合的依賴(lài)和關(guān)聯(lián)。
可以利用C相對(duì)于D的任一約簡(jiǎn)來(lái)代替C,而不會(huì)對(duì)決策有任何影響,這就是粗糙集屬性約簡(jiǎn)的原理。
1.2 決策樹(shù)方法
決策樹(shù)主要應(yīng)用于對(duì)事物進(jìn)行分類(lèi)、預(yù)測(cè)以及數(shù)據(jù)的預(yù)處理等。構(gòu)造決策樹(shù)通常包括兩個(gè)步驟:利用訓(xùn)練集生成決策樹(shù),再對(duì)決策樹(shù)進(jìn)行剪枝。決策樹(shù)的生成是從一個(gè)根節(jié)點(diǎn)開(kāi)始,從上到下的遞歸過(guò)程,通過(guò)不斷的將樣本分割成子集來(lái)構(gòu)造決策樹(shù)。
得到了完全生長(zhǎng)的初始決策樹(shù)后,為了除去噪聲數(shù)據(jù)和孤立點(diǎn)引起的分枝異常,需要對(duì)決策樹(shù)進(jìn)行剪枝。決策樹(shù)的剪枝通常是用葉結(jié)點(diǎn)代替一個(gè)或多個(gè)子樹(shù),然后選擇出現(xiàn)概率最高的類(lèi)作為該結(jié)點(diǎn)的類(lèi)別。
1.3基于粗糙集的決策樹(shù)模型
基于粗糙集和決策樹(shù)結(jié)合的數(shù)據(jù)挖掘算法過(guò)程描述如下:不斷地從條件屬性C中取出相對(duì)于決策屬性D較為重要的屬性,使得決策屬性D對(duì)其依賴(lài)度等于D對(duì)C的依賴(lài)度,得到屬性約簡(jiǎn)集。然后,利用信息增益作為啟發(fā)信息,選擇能夠最好地將樣本分類(lèi)的屬性,創(chuàng)建一個(gè)分枝,并據(jù)此劃分訓(xùn)練集,直到不存在可以再分割的屬性,之后使用測(cè)試集對(duì)構(gòu)建的決策樹(shù)模型進(jìn)行驗(yàn)證修正。
2.實(shí)驗(yàn)及結(jié)果分析
本文引用粗糙集理論和決策樹(shù)方法,研究新的土壤評(píng)價(jià)方法,目的是對(duì)吉林省某地土壤等級(jí)進(jìn)行分類(lèi)預(yù)測(cè),確定土壤的地力等級(jí)。該地地力等級(jí)劃分為1,2,3,4,5,6共6個(gè)等級(jí)。研究數(shù)據(jù)包含15個(gè)條件屬性和一個(gè)決策屬性,共161條記錄。粗糙集屬性約簡(jiǎn)算法要求數(shù)據(jù)為離散數(shù)據(jù),根據(jù)土壤數(shù)據(jù)特點(diǎn),采用Equal Frequency Binning算法對(duì)數(shù)據(jù)進(jìn)行離散化處理。將土壤數(shù)據(jù)的圖上面積(m2) 、平差面積(mu)、 有機(jī)質(zhì)、全氮、速效磷、速效鉀、緩效鉀、有效鋅、有效硼、有效銅、有效鐵、有效錳、有效鉬、PH值、代換量15個(gè)屬性作為條件屬性輸入粗糙集算法,形成條件屬性集C,將地力等級(jí)作為決策屬性D。使用粗糙集約簡(jiǎn)算法約簡(jiǎn)屬性集C,得到約簡(jiǎn)屬性集。得到的約簡(jiǎn)屬性為有機(jī)質(zhì)、全氮、速效磷、緩效鉀、有效硼、有效銅、有效鐵、有效錳、PH、代換量,共10個(gè)條件屬性,共去除5個(gè)冗余屬性。
利用粗糙集方法對(duì)條件屬性進(jìn)行約簡(jiǎn)之后,調(diào)入決策樹(shù)程序,進(jìn)行決策分類(lèi)。在161條記錄中,能正確分類(lèi)的數(shù)據(jù)為137條,24條數(shù)據(jù)未正確分類(lèi),其中地力等級(jí)為1的數(shù)據(jù)共25條,全部正確分類(lèi),地力等級(jí)為2的數(shù)據(jù)18條,16條數(shù)據(jù)正確分類(lèi),地力等級(jí)為3的數(shù)據(jù)13條,10條數(shù)據(jù)正確分類(lèi),地力等級(jí)為4的數(shù)據(jù)63條,53條數(shù)據(jù)正確分類(lèi),地力等級(jí)為5的數(shù)據(jù)34條,29條數(shù)據(jù)正確分類(lèi),地力等級(jí)為6的數(shù)據(jù)8條,4條數(shù)據(jù)正確分類(lèi)。
根據(jù)生成的決策樹(shù),可以提取出決策規(guī)則。提取出的部分決策規(guī)則如下:
if有機(jī)質(zhì) <= 2.964 and PH <= 6.5 and有效錳 <= 26.314 then 地力等級(jí)=3;
if有機(jī)質(zhì) <= 2.964 and PH <= 6.5 and有效錳> 26.314 then 地力等級(jí)=4;
if有機(jī)質(zhì) <= 2.964 and PH >6.5 and全氮 <= 0.1406 then 地力等級(jí)=3;
if有機(jī)質(zhì) <= 2.964 and PH >6.5 and全氮> 0.1406 then 地力等級(jí)=2;
if有機(jī)質(zhì) >2.964 and緩效鉀 <= 713.31 then 地力等級(jí)=2;
if有機(jī)質(zhì) >2.964 and緩效鉀 > 713.31 then 地力等級(jí)=1;
使用44條記錄數(shù)據(jù)對(duì)得到的決策模型驗(yàn)證,正確率為85.3 %,模型預(yù)測(cè)結(jié)果較好。地力等級(jí)較低時(shí),預(yù)測(cè)準(zhǔn)確率較高,對(duì)于高地力等級(jí)的預(yù)測(cè),還需進(jìn)一步修正數(shù)據(jù)集和模型。
3.結(jié)語(yǔ)
數(shù)據(jù)挖掘中決策樹(shù)方法適用于分類(lèi)預(yù)測(cè),在地力等級(jí)評(píng)價(jià)中已有應(yīng)用。但是這種方法還有冗余屬性存在,構(gòu)造的樹(shù)的規(guī)模較大,提取的規(guī)則較多。
本文提出了一種基于粗糙集和決策樹(shù)結(jié)合的評(píng)價(jià)土壤等級(jí)的方法。先使用粗糙集進(jìn)行屬性約簡(jiǎn),之后使用決策樹(shù)進(jìn)行土壤分類(lèi),得到評(píng)價(jià)規(guī)則進(jìn)行地力等級(jí)評(píng)定,最后使用土壤數(shù)據(jù)進(jìn)行算法驗(yàn)證。結(jié)果表明相對(duì)于單一使用決策樹(shù)方法,使用粗糙集進(jìn)行屬性約簡(jiǎn)之后進(jìn)行決策評(píng)價(jià)的方法,可以去除冗余屬性,生產(chǎn)的決策樹(shù)規(guī)模較小,提取的規(guī)則較少,分類(lèi)精度較高,速度更快,提高了挖掘的效率。
從實(shí)驗(yàn)效果來(lái)看,模型評(píng)價(jià)的結(jié)果與實(shí)際情況基本符合,并且該模型可解釋性較好,易于從中提取評(píng)價(jià)規(guī)則。運(yùn)用決策樹(shù)模型能夠揭示該地區(qū)耕地質(zhì)量狀況,有利于提高對(duì)該區(qū)耕地的利用效益。該方法是土壤評(píng)價(jià)的有效方法。
【參考文獻(xiàn)】
[1]黃健, 李會(huì)民, 張惠琳, 馬兵, 孫宇新, 張國(guó)恩, 朱健菲. 基于GIS的吉林省縣級(jí)耕地地力評(píng)價(jià)與評(píng)價(jià)指標(biāo)體系的研究——以九臺(tái)市為例[J]. 土壤通報(bào), 2007,(03):422—426.
[2]薛正平,鄧 華,楊星衛(wèi),等.基于決策樹(shù)和圖層疊置的精準(zhǔn)農(nóng)業(yè)產(chǎn)量圖分析方法[J].農(nóng)業(yè)工程學(xué)報(bào),2006,22(8):140—144.
[3]PAWLAK Z, GRZYMALA—BUSSE J, SLOWINSKI R. Rough sets[M]. Communications of the ACM, 1995, 38(11):88—95)
[4]王玉珍.基于數(shù)據(jù)挖掘的決策樹(shù)方法分析[J].電腦開(kāi)發(fā)與應(yīng)用,2007(05):64—66.
[5]田苗苗.數(shù)據(jù)挖掘之決策樹(shù)方法概述[J].長(zhǎng)春大學(xué)學(xué)報(bào),2004 (06):48—51.
[6]范潔,楊岳湘,溫璞.C4.5算法在在線(xiàn)學(xué)習(xí)行為評(píng)估系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2006,27(6):946—948.
[7]ALEX BERSON, SETPHEN SMITH. Data Warehousing,DataMining & OLAP[M]. New York: Mcraw—HillBookCo.,1999:272—320.
馬麗(1980—),女,吉林長(zhǎng)春人,助教。研究方向:計(jì)算機(jī)農(nóng)業(yè)應(yīng)用。
陳桂芬(1956—),女,博士生導(dǎo)師,教授。研究方向:專(zhuān)家系統(tǒng),精準(zhǔn)農(nóng)業(yè)。