王 瑛,雷書彧,趙學(xué)軍
(中國礦業(yè)大學(xué) (北京)機(jī)電與信息工程學(xué)院,北京 100083)
基于ID3算法的煤礦技術(shù)創(chuàng)新能力研究
王 瑛,雷書彧,趙學(xué)軍
(中國礦業(yè)大學(xué) (北京)機(jī)電與信息工程學(xué)院,北京 100083)
煤礦的技術(shù)創(chuàng)新能力是評價(jià)綠色礦山的關(guān)鍵指標(biāo)之一,對于完善礦產(chǎn)資源管理共同責(zé)任機(jī)制、全面規(guī)范礦產(chǎn)資源開發(fā)秩序、促進(jìn)科學(xué)發(fā)展新機(jī)制具有重要意義。論文綜合綠色礦山建設(shè)與評價(jià)的煤礦企業(yè)數(shù)據(jù),使用數(shù)據(jù)挖掘技術(shù)給出一個(gè)比較合理的評價(jià)規(guī)則,通過評價(jià)規(guī)則構(gòu)建煤礦技術(shù)創(chuàng)新能力評價(jià)模型。其主要方法及流程是計(jì)算技術(shù)創(chuàng)新能力評價(jià)指標(biāo)的信息熵,以其數(shù)值大小作為分類節(jié)點(diǎn)排序依據(jù),通過合理剪枝形成決策樹,完整的決策樹便對應(yīng)完整的評價(jià)規(guī)則。將原始數(shù)據(jù)帶入決策規(guī)則,得出準(zhǔn)確評價(jià),并驗(yàn)證了評價(jià)規(guī)則的正確性。
技術(shù)創(chuàng)新能力;ID3算法;決策樹
我國正處于工業(yè)化、城鎮(zhèn)化發(fā)展的關(guān)鍵階段,資源需求剛性上升,資源環(huán)境壓力日益增大,加強(qiáng)生態(tài)文明制度建設(shè),把資源消耗、環(huán)境損害、生態(tài)效益納入經(jīng)濟(jì)社會(huì)發(fā)展評價(jià)體系,建立體現(xiàn)生態(tài)文明要求的目標(biāo)體系、考核辦法、獎(jiǎng)懲機(jī)制是立足國內(nèi)提高能源資源保障能力的現(xiàn)實(shí)選擇,對我國經(jīng)濟(jì)社會(huì)發(fā)展具有十分重要的現(xiàn)實(shí)意義和深遠(yuǎn)的戰(zhàn)略意義。
然而多年來,綠色礦山評價(jià)缺乏統(tǒng)一標(biāo)準(zhǔn),評價(jià)主管決策因素太大,有失公平。因此,國土資源部提出創(chuàng)建一個(gè)統(tǒng)一的綠色礦山評價(jià)標(biāo)準(zhǔn),而礦山企業(yè)的技術(shù)創(chuàng)新能力作為重要的評價(jià)內(nèi)容列入其中。
在此背景下,本文專門研究礦山企業(yè)中煤礦的技術(shù)創(chuàng)新能力評價(jià)體系,運(yùn)用數(shù)據(jù)挖掘技術(shù)中的ID3決策樹算法,在很大程度上提高了評價(jià)準(zhǔn)確度,為評選綠色礦山企業(yè)提供了可靠的依據(jù),同時(shí)也為煤礦企業(yè)在技術(shù)創(chuàng)新領(lǐng)域的效果做出分析,便于進(jìn)一步改進(jìn)提高。
1.1 ID3算法模型
ID3算法是Quinlan于1979年提出的一種經(jīng)典的決策樹算法,此算法將屬性的信息增益作為各級結(jié)點(diǎn)的屬性選擇標(biāo)準(zhǔn)。在幾種決策樹算法中,ID3算法可以說是最有影響力的。為了實(shí)現(xiàn)達(dá)到以最小信息量最大程度對測試數(shù)據(jù)分類目的,樣本劃分的測試屬性要選擇信息增益最大的屬性。該算法內(nèi)容概括如下:
樹從訓(xùn)練樣本的某單個(gè)結(jié)點(diǎn)開始,若樣本都屬于同一類,那么該結(jié)點(diǎn)成為樹葉,分類結(jié)束,用該類標(biāo)號。如果樣本屬性不屬于同一個(gè)類,算法使用信息增益度量作為啟發(fā)信息,來計(jì)算能將樣本最好地分類的屬性。計(jì)算出的屬性便是該節(jié)點(diǎn)的測試屬性。在此算法中,所有的屬性都是要分類的,即本算法只適用于離散值,如果是連續(xù)屬性的話必須進(jìn)行離散化。對每個(gè)已知的測試屬性值都要?jiǎng)?chuàng)建一個(gè)分支,以此來劃分樣本。根據(jù)以上步驟,遞歸此算法形成樣本判定樹。每個(gè)分支上的屬性只會(huì)出現(xiàn)一次,一旦使用某屬性對樣本集劃分后,此屬性在這個(gè)分支上就不會(huì)出現(xiàn)了。
遞歸劃分步驟只要出現(xiàn)下列條件便會(huì)停止:①所有屬性都以完成對樣本的劃分;②所有樣本屬于同一類;③某個(gè)測試屬性值上已經(jīng)沒有樣本。
測試屬性的取值是樣本集的劃分依據(jù),樣本集將劃分為多少子樣本集取決于測試屬性有多少不同取值。以信息增益度量作為選擇測試屬性的依據(jù),屬性的信息增益越大就越重要,也就更靠近根節(jié)點(diǎn),所以要選擇具有最高信息增益的屬性作為當(dāng)前結(jié)點(diǎn)的測試屬性。由于采用此信息理論方法可以使一個(gè)對象分類的期望測試數(shù)目最小,以保證能找到一棵簡單的樹。
設(shè)S是s個(gè)數(shù)據(jù)樣本的集合,類標(biāo)號屬性有m個(gè)不同值,并定義 n個(gè)不同類 Ci(i=1,2,...,n)。設(shè)Si是類中的樣本數(shù),則對一個(gè)樣本分類所需的期望信息為:
其中,pi—任意樣本屬于的概率,用Si/S表示。設(shè)屬性A具有v個(gè)不同值{a1,a2,...av},可以用屬性A將S劃分為v個(gè)子集{S1,S2,...,Sv},在屬性A上,Si中的樣本的取值為aj。設(shè)子集中類Ci的樣本數(shù)為sij,則屬性A的熵可以這樣計(jì)算:
Gain(A)=I(s1,s2,...sm)-E(A)
通過上述公式計(jì)算每個(gè)屬性的信息增益,選擇具有最高信息增益的屬性作為集第一個(gè)屬性,即根節(jié)點(diǎn)的決策屬性,當(dāng)創(chuàng)建結(jié)點(diǎn)之后,對屬性的每個(gè)值分別創(chuàng)建分枝,劃分樣本。
引入信息增益的概念是ID3算法的一大特點(diǎn)。該算法應(yīng)用簡單,基礎(chǔ)理論清晰。該算法的計(jì)算時(shí)間是結(jié)點(diǎn)個(gè)數(shù)、例子個(gè)數(shù)和特征個(gè)數(shù)之積的線性函數(shù)。由于目標(biāo)函數(shù)一定在搜索空間中,而搜索空間又是完全的假設(shè)空間,所以此算法一定有解。該算法不是像候選剪除算法逐個(gè)地考慮訓(xùn)練例,而是全盤使用訓(xùn)練數(shù)據(jù),這樣的優(yōu)點(diǎn)是可以抵抗噪音,利用全部訓(xùn)練例的統(tǒng)計(jì)性質(zhì)進(jìn)行決策。
總的來說,ID3算法是一種具有實(shí)用價(jià)值的學(xué)習(xí)算法,它的學(xué)習(xí)能力較強(qiáng),基礎(chǔ)理論清晰,算法較簡單,是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)經(jīng)典方法。
1.2 ID3算法應(yīng)用
構(gòu)建煤礦技術(shù)創(chuàng)新能力評價(jià)數(shù)據(jù)集。根據(jù)煤礦技術(shù)創(chuàng)新能力評價(jià)指標(biāo)體系,選擇了11家煤礦的技術(shù)創(chuàng)新數(shù)據(jù),并將其整理,如表1所示。
表1 煤礦技術(shù)創(chuàng)新基礎(chǔ)數(shù)據(jù)
由于分類屬性太多,而當(dāng)前的訓(xùn)練集數(shù)據(jù)太少,若按照當(dāng)前分類建模,準(zhǔn)確率會(huì)很低,在實(shí)驗(yàn)后得到的準(zhǔn)確率為9.0909%,不符合要求。若根據(jù)指標(biāo)權(quán)值合并劃分屬性,將原先的22個(gè)屬性合并到4個(gè)。并用等寬間距法將每個(gè)屬性五等分,由高到低劃分為5個(gè)級別,對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,得到處理后的數(shù)據(jù)集如表2所示。
對訓(xùn)練集進(jìn)行標(biāo)準(zhǔn)化后,用ID3算法進(jìn)行分類并計(jì)算,得到結(jié)果如圖1所示。從圖中可以看到,通過對屬性的合并以及對原始訓(xùn)練集數(shù)據(jù)進(jìn)行相應(yīng)轉(zhuǎn)換后,再次運(yùn)用ID3算法得到的分類模型比之前的分類準(zhǔn)確率高出很多,達(dá)到63.6364%,這說明對于當(dāng)前訓(xùn)練集的劃分屬性改進(jìn)是比較正確的,也得到了更為理想的結(jié)果。根據(jù)上圖中的分類規(guī)則創(chuàng)建對應(yīng)的決策樹。如圖2所示。
表2 劃分為五個(gè)級別的處理數(shù)據(jù)
圖1 計(jì)算結(jié)果
圖2 數(shù)據(jù)決策樹
解析上圖的決策規(guī)則為:
以上為最終得到的分類規(guī)則,即評價(jià)模型,通過此模型可以對其他實(shí)例進(jìn)行劃分,得到相應(yīng)的分類。
本論文運(yùn)用數(shù)據(jù)挖掘中ID3算法,通過對煤礦技術(shù)創(chuàng)新能力數(shù)據(jù)研究分析,產(chǎn)生決策規(guī)則,通過對決策規(guī)則進(jìn)行驗(yàn)證,正確率較高,基本能夠反映煤礦的技術(shù)創(chuàng)新能力。
由于訓(xùn)練集數(shù)據(jù)量小,采用了合并指標(biāo)的辦法來減少劃分屬性,其中引入的專家權(quán)值造成了一定的主觀影響。
[1]陳燕.?dāng)?shù)據(jù)挖掘技術(shù)與應(yīng)用[M].北京:清華大學(xué)出版社,2010.
[2]王宏云.基于數(shù)據(jù)挖掘的煤礦安全監(jiān)測系統(tǒng)研究[D].遼寧工程技術(shù)大學(xué),2009,12.
[3]彭蓬.基于神經(jīng)網(wǎng)絡(luò)的煤礦企業(yè)技術(shù)創(chuàng)新能力評價(jià)及經(jīng)濟(jì)學(xué)分析[J].煤礦現(xiàn)代化,2008,87.
[4]馮陳雷.基于決策樹方法的煤炭企業(yè)效績評價(jià)研究[D].山東科技大學(xué),2007,5.
[5]J Ciurana,G.Quintana,M.L.Garcia-Romeu.Estimating the cost of vertical high-speed machining centers,a comparison between multiple regression analysis and the neural networks approach[J].International Journal of Production Economics,2008,1.
[6]王濤,李舟軍,顏躍進(jìn),陳火旺.?dāng)?shù)據(jù)流挖掘分類技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2007,11.
Research on Coal Mining Technological Innovative Ability Based on ID3 Algorithm
WANG Ying,LEI Shu-Yu,ZHAO Xue-Jun
(School of Mechanical Electronic&Information,China University of Mining&Technology(Beijing),Beijing 100083,China)
The technological innovative ability of coal mine is one of the key indicators for green mine evaluation.It is of great significance to improving the shared responsibility mechanism of mineral resources management,total normalization on mineral resources development order and promoting scientific development new mechanisms.The paper give a reasonable evaluation rule through synthesis of the green mine construction and evaluation of coal mine enterprise data und using data mining.Then through the evaluation rule a coal mining technological innovation ability evaluation model can be built.Its main method process is that calculating the information entropy technology innovation ability evaluation indexes,according to the classification node order by the numerical size and through a decision tree’s reasonable pruning,finally a complete decision tree can correspond to the complete evaluation rule.Taking original data into the decision rule and obtaining the accurate evaluation,the correctness of the evaluation rule can be verified.
technological innovative ability;ID3 algorithm;decision tree
F4
:Adoi:10.3969/j.issn.1002-6673.2014.03.002
1002-6673(2014)03-003-03
2014-03-31
項(xiàng)目來源:2012年度國土資源公益性行業(yè)科研專項(xiàng)(綠色煤炭礦山標(biāo)準(zhǔn)研究-201211003)
王瑛(1972-),女,工程師,畢業(yè)于北京師范大學(xué),目前就職于中國礦業(yè)大學(xué)(北京)機(jī)電與信息工程學(xué)院。