国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

決策樹算法及其改進(jìn)

2014-11-10 14:37蔡星
科技創(chuàng)新導(dǎo)報(bào) 2014年12期
關(guān)鍵詞:子集例子決策樹

蔡星

摘 要:該文對傳統(tǒng)的C4.5決策樹數(shù)據(jù)挖掘算法進(jìn)行了改進(jìn),提出了一種雙重熵平均決策樹算法。傳統(tǒng)的C4.5決策樹算法易出現(xiàn)無意義分枝,過度擬合等問題,針對該類問題,基于雙重熵平均決策樹算法,通過兩次對樣本子集熵平均值的計(jì)算、排序、合并處理,得到修正后的屬性信息增益,并以此作為屬性選擇的依據(jù),從而解決了傳統(tǒng)C4.5決策樹算法可解釋性差、易產(chǎn)生碎片等問題。

關(guān)鍵詞:C4.5決策樹 算法 熵 平衡因子

中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2014)04(c)-0040-02

數(shù)據(jù)聯(lián)機(jī)分析功能是通過對數(shù)據(jù)的處理發(fā)現(xiàn)已知要素與分析度量值之間的關(guān)系,而數(shù)據(jù)挖掘則是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的規(guī)律。數(shù)據(jù)挖掘包括多種挖掘算法,為了研究畢業(yè)生不同屬性與其就業(yè)狀況之間的潛在知識和規(guī)律,該文采用決策樹方法對高校畢業(yè)生數(shù)據(jù)進(jìn)行分析,主要選用的是C4.5決策樹算法。

1 C4.5算法思想

決策樹的優(yōu)點(diǎn)在于原理簡單,發(fā)現(xiàn)知識較快;計(jì)算較為簡單,運(yùn)算速度較快,對于訓(xùn)練數(shù)據(jù)的處理和待決策數(shù)據(jù)的處理效率相對較高;適用于大量數(shù)據(jù)的綜合處理,有利于挖掘數(shù)據(jù)中的重要屬性;最終得到的挖掘結(jié)果是有意見的規(guī)則,有利于用戶的理解。決策樹的主要缺點(diǎn)包括:對數(shù)據(jù)的時(shí)間屬性較為敏感,需要大量的預(yù)處理工作;對于非離散的連續(xù)性數(shù)據(jù)值處理效率和準(zhǔn)確率不佳;易出現(xiàn)過度擬合的情況,產(chǎn)生大量的決策分支,導(dǎo)致決策規(guī)則過于龐大。

C4.5決策樹算法是決策樹算法的主流,它繼承于傳統(tǒng)的ID3算法,繼承了其優(yōu)勢,改進(jìn)了其缺點(diǎn)。但C4.5決策樹算法依然存在著較多的問題,其中最為突出的是過度擬合情況,以及決策準(zhǔn)確性方面的問題。針對上述問題,本課題提出了一種改進(jìn)的C4.5決策樹算法,在算法構(gòu)建過程中,以樹分枝的信息熵為研究對象,將熵值較高的部分和熵值較低的部分進(jìn)行合并和平衡處理,從而達(dá)到減少決策樹分支數(shù)量的目的;與此同時(shí),考慮到C4.5算法在決策分支的確定過程中采用的是局部最優(yōu)的方法,在準(zhǔn)確性方面從整體上看有所欠缺,所以引入了了平衡因子控制算法的整體最優(yōu)化性。

C4.5決策樹算法設(shè)研究對象數(shù)據(jù)集為,該數(shù)據(jù)集中包括個(gè)類別,每一個(gè)類別表示為,選取該數(shù)據(jù)集中的一個(gè)屬性數(shù)據(jù),則可以被劃分為多個(gè)子集,設(shè)有個(gè)取值,則被劃分的子集可表示為。設(shè)為的例子總數(shù),而為的例子數(shù),為的例子總數(shù),是的所有例子中所包括的的例子數(shù),基于上述的設(shè)定,則可以得到如下定義:

(1)類別在出現(xiàn)的概率如式(1)所示:

(1)endprint

摘 要:該文對傳統(tǒng)的C4.5決策樹數(shù)據(jù)挖掘算法進(jìn)行了改進(jìn),提出了一種雙重熵平均決策樹算法。傳統(tǒng)的C4.5決策樹算法易出現(xiàn)無意義分枝,過度擬合等問題,針對該類問題,基于雙重熵平均決策樹算法,通過兩次對樣本子集熵平均值的計(jì)算、排序、合并處理,得到修正后的屬性信息增益,并以此作為屬性選擇的依據(jù),從而解決了傳統(tǒng)C4.5決策樹算法可解釋性差、易產(chǎn)生碎片等問題。

關(guān)鍵詞:C4.5決策樹 算法 熵 平衡因子

中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2014)04(c)-0040-02

數(shù)據(jù)聯(lián)機(jī)分析功能是通過對數(shù)據(jù)的處理發(fā)現(xiàn)已知要素與分析度量值之間的關(guān)系,而數(shù)據(jù)挖掘則是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的規(guī)律。數(shù)據(jù)挖掘包括多種挖掘算法,為了研究畢業(yè)生不同屬性與其就業(yè)狀況之間的潛在知識和規(guī)律,該文采用決策樹方法對高校畢業(yè)生數(shù)據(jù)進(jìn)行分析,主要選用的是C4.5決策樹算法。

1 C4.5算法思想

決策樹的優(yōu)點(diǎn)在于原理簡單,發(fā)現(xiàn)知識較快;計(jì)算較為簡單,運(yùn)算速度較快,對于訓(xùn)練數(shù)據(jù)的處理和待決策數(shù)據(jù)的處理效率相對較高;適用于大量數(shù)據(jù)的綜合處理,有利于挖掘數(shù)據(jù)中的重要屬性;最終得到的挖掘結(jié)果是有意見的規(guī)則,有利于用戶的理解。決策樹的主要缺點(diǎn)包括:對數(shù)據(jù)的時(shí)間屬性較為敏感,需要大量的預(yù)處理工作;對于非離散的連續(xù)性數(shù)據(jù)值處理效率和準(zhǔn)確率不佳;易出現(xiàn)過度擬合的情況,產(chǎn)生大量的決策分支,導(dǎo)致決策規(guī)則過于龐大。

C4.5決策樹算法是決策樹算法的主流,它繼承于傳統(tǒng)的ID3算法,繼承了其優(yōu)勢,改進(jìn)了其缺點(diǎn)。但C4.5決策樹算法依然存在著較多的問題,其中最為突出的是過度擬合情況,以及決策準(zhǔn)確性方面的問題。針對上述問題,本課題提出了一種改進(jìn)的C4.5決策樹算法,在算法構(gòu)建過程中,以樹分枝的信息熵為研究對象,將熵值較高的部分和熵值較低的部分進(jìn)行合并和平衡處理,從而達(dá)到減少決策樹分支數(shù)量的目的;與此同時(shí),考慮到C4.5算法在決策分支的確定過程中采用的是局部最優(yōu)的方法,在準(zhǔn)確性方面從整體上看有所欠缺,所以引入了了平衡因子控制算法的整體最優(yōu)化性。

C4.5決策樹算法設(shè)研究對象數(shù)據(jù)集為,該數(shù)據(jù)集中包括個(gè)類別,每一個(gè)類別表示為,選取該數(shù)據(jù)集中的一個(gè)屬性數(shù)據(jù),則可以被劃分為多個(gè)子集,設(shè)有個(gè)取值,則被劃分的子集可表示為。設(shè)為的例子總數(shù),而為的例子數(shù),為的例子總數(shù),是的所有例子中所包括的的例子數(shù),基于上述的設(shè)定,則可以得到如下定義:

(1)類別在出現(xiàn)的概率如式(1)所示:

(1)endprint

摘 要:該文對傳統(tǒng)的C4.5決策樹數(shù)據(jù)挖掘算法進(jìn)行了改進(jìn),提出了一種雙重熵平均決策樹算法。傳統(tǒng)的C4.5決策樹算法易出現(xiàn)無意義分枝,過度擬合等問題,針對該類問題,基于雙重熵平均決策樹算法,通過兩次對樣本子集熵平均值的計(jì)算、排序、合并處理,得到修正后的屬性信息增益,并以此作為屬性選擇的依據(jù),從而解決了傳統(tǒng)C4.5決策樹算法可解釋性差、易產(chǎn)生碎片等問題。

關(guān)鍵詞:C4.5決策樹 算法 熵 平衡因子

中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2014)04(c)-0040-02

數(shù)據(jù)聯(lián)機(jī)分析功能是通過對數(shù)據(jù)的處理發(fā)現(xiàn)已知要素與分析度量值之間的關(guān)系,而數(shù)據(jù)挖掘則是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的規(guī)律。數(shù)據(jù)挖掘包括多種挖掘算法,為了研究畢業(yè)生不同屬性與其就業(yè)狀況之間的潛在知識和規(guī)律,該文采用決策樹方法對高校畢業(yè)生數(shù)據(jù)進(jìn)行分析,主要選用的是C4.5決策樹算法。

1 C4.5算法思想

決策樹的優(yōu)點(diǎn)在于原理簡單,發(fā)現(xiàn)知識較快;計(jì)算較為簡單,運(yùn)算速度較快,對于訓(xùn)練數(shù)據(jù)的處理和待決策數(shù)據(jù)的處理效率相對較高;適用于大量數(shù)據(jù)的綜合處理,有利于挖掘數(shù)據(jù)中的重要屬性;最終得到的挖掘結(jié)果是有意見的規(guī)則,有利于用戶的理解。決策樹的主要缺點(diǎn)包括:對數(shù)據(jù)的時(shí)間屬性較為敏感,需要大量的預(yù)處理工作;對于非離散的連續(xù)性數(shù)據(jù)值處理效率和準(zhǔn)確率不佳;易出現(xiàn)過度擬合的情況,產(chǎn)生大量的決策分支,導(dǎo)致決策規(guī)則過于龐大。

C4.5決策樹算法是決策樹算法的主流,它繼承于傳統(tǒng)的ID3算法,繼承了其優(yōu)勢,改進(jìn)了其缺點(diǎn)。但C4.5決策樹算法依然存在著較多的問題,其中最為突出的是過度擬合情況,以及決策準(zhǔn)確性方面的問題。針對上述問題,本課題提出了一種改進(jìn)的C4.5決策樹算法,在算法構(gòu)建過程中,以樹分枝的信息熵為研究對象,將熵值較高的部分和熵值較低的部分進(jìn)行合并和平衡處理,從而達(dá)到減少決策樹分支數(shù)量的目的;與此同時(shí),考慮到C4.5算法在決策分支的確定過程中采用的是局部最優(yōu)的方法,在準(zhǔn)確性方面從整體上看有所欠缺,所以引入了了平衡因子控制算法的整體最優(yōu)化性。

C4.5決策樹算法設(shè)研究對象數(shù)據(jù)集為,該數(shù)據(jù)集中包括個(gè)類別,每一個(gè)類別表示為,選取該數(shù)據(jù)集中的一個(gè)屬性數(shù)據(jù),則可以被劃分為多個(gè)子集,設(shè)有個(gè)取值,則被劃分的子集可表示為。設(shè)為的例子總數(shù),而為的例子數(shù),為的例子總數(shù),是的所有例子中所包括的的例子數(shù),基于上述的設(shè)定,則可以得到如下定義:

(1)類別在出現(xiàn)的概率如式(1)所示:

(1)endprint

猜你喜歡
子集例子決策樹
由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
拓?fù)淇臻g中緊致子集的性質(zhì)研究
關(guān)于奇數(shù)階二元子集的分離序列
《團(tuán)圓之后》:“戲改”的“一個(gè)鮮明的例子”
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
初中英語課堂妙用“舉例子”
用通俗的例子打比方
基于決策樹的出租車乘客出行目的識別
縮宮素聯(lián)合米索前列醇防治90例子宮收縮乏力性產(chǎn)后出血臨床觀察
漠河县| 孟村| 兰溪市| 乐业县| 榕江县| 临颍县| 平顺县| 绥江县| 宜黄县| 德格县| 石楼县| 宁远县| 宿州市| 尼木县| 手游| 五莲县| 宁陕县| 静海县| 阿克| 大荔县| 山东| 马公市| 霸州市| 武山县| 屏东市| 普定县| 禹州市| 金平| 桓台县| 阿城市| 淅川县| 巨鹿县| 平江县| 额尔古纳市| 延长县| 交城县| 平武县| 遂昌县| 徐闻县| 循化| 依安县|