国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

主成分分析對(duì)決策樹(shù)算法精度的影響

2019-01-16 05:38:39武君
科技經(jīng)濟(jì)市場(chǎng) 2019年11期
關(guān)鍵詞:風(fēng)險(xiǎn)識(shí)別主成分分析

武君

摘 要:本文使用風(fēng)投企業(yè)風(fēng)險(xiǎn)識(shí)別案例,用四種決策樹(shù)算法,對(duì)比了提取主成分前后算法精度的變化。結(jié)果表明,提取主要成分后,四種算法中只有C5.0算法的精度獲得了提高,而其他三種算法提取主成分后的精度反而有所下降,并且C5.0算法在未提取主成分時(shí)的精度已高于其他三種算法,可見(jiàn)在風(fēng)險(xiǎn)識(shí)別案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。

關(guān)鍵詞:風(fēng)險(xiǎn)識(shí)別;主成分分析;決策樹(shù)算法

0 引言

數(shù)據(jù)挖掘中比較熱門(mén)的就是分類(lèi)算法的研究,而決策樹(shù)算法是分類(lèi)算法中最重要的。常見(jiàn)的決策樹(shù)算法有四種:CART、C5.0、CHAID和QUEST。每種算法針對(duì)不同的數(shù)據(jù)類(lèi)型,精度也不同。如何提升算法的預(yù)測(cè)精度,是許多學(xué)者都嘗試解決的問(wèn)題。有些使用集成學(xué)習(xí)算法,如boosting,Bagging,如趙敏等(2007)[1]研究Adaboost算法在決策樹(shù)中的應(yīng)用,劉余霞等(2012)[2]使用Bagging集成學(xué)習(xí)研究字符識(shí)別,李詒靖等(2016)[3]使用boosting算法解決分類(lèi)問(wèn)題。有些將決策樹(shù)和其他模型結(jié)合在一起,如顧雨等(2010)[4]、張俊深等(2016)[5],都是將多種方法用于分類(lèi)和預(yù)測(cè)。另一種提高精度的方法是在數(shù)據(jù)分析前將主成分分析法引入,先提取主要成分,然后做決策樹(shù)分析。本文基于創(chuàng)業(yè)企業(yè)風(fēng)險(xiǎn)識(shí)別數(shù)據(jù),從實(shí)證方面研究主成分分析對(duì)決策樹(shù)算法精度的影響。

1 理論基礎(chǔ)

1.1 CART算法

CART算法即分類(lèi)與回歸樹(shù),它包含了分類(lèi)樹(shù)和回歸樹(shù),分類(lèi)樹(shù)用于目標(biāo)變量是分類(lèi)型的,回歸樹(shù)用于目標(biāo)變量是連續(xù)型的。CART的生長(zhǎng)是二叉樹(shù),如果目標(biāo)變量是分類(lèi)型,則以Gini系數(shù)來(lái)確認(rèn)分割點(diǎn),如果目標(biāo)變量是數(shù)值型,則以方差來(lái)確認(rèn)分割點(diǎn)。

1.2 C5.0算法

C5.0是經(jīng)典的決策樹(shù)模型算法之一,可生成多分支的決策樹(shù),目標(biāo)變量為分類(lèi)型變量,使用C5.0算法可以生成決策樹(shù)或者規(guī)則集。

1.3 CHAID算法

CHAID算法其核心思想是根據(jù)給定的目標(biāo)變量和解釋變量對(duì)樣本進(jìn)行最優(yōu)分割。利用卡方自動(dòng)交互檢測(cè)法可以快速、有效地挖掘出主要影響因素,它不僅可以處理非線性和高度相關(guān)的數(shù)據(jù),而且還可以將缺失值考慮在內(nèi)。

1.4 QUEST算法

QUEST算法是二叉樹(shù)算法。它通過(guò)將判別坐標(biāo)分配給預(yù)測(cè)變量類(lèi)別,將分類(lèi)變量轉(zhuǎn)換為連續(xù)變量,然后利用二次判別分析QDA來(lái)確定分割點(diǎn)。QUEST樹(shù)算法的一個(gè)優(yōu)點(diǎn)是它是無(wú)偏的,不像CART算法那樣偏向于選擇允許更多分裂的分裂變量以及缺失值更多的分裂變量。

2 實(shí)證分析

2.1 數(shù)據(jù)來(lái)源及描述

本文研究數(shù)據(jù)來(lái)自某風(fēng)投公司提供的所投資創(chuàng)業(yè)企業(yè)數(shù)據(jù)。風(fēng)險(xiǎn)投資是風(fēng)投公司為創(chuàng)業(yè)企業(yè)提供的投資服務(wù),一段時(shí)期后,創(chuàng)業(yè)企業(yè)將面臨成功或失敗兩種可能,風(fēng)投企業(yè)進(jìn)行的風(fēng)險(xiǎn)識(shí)別是將創(chuàng)業(yè)成功與否的離散變量作為因變量,企業(yè)創(chuàng)業(yè)因素作為自變量,進(jìn)行決策樹(shù)分析判斷,進(jìn)而研究創(chuàng)業(yè)成功與否的影響因素。

2.1.1 指標(biāo)匯總

對(duì)風(fēng)投公司提供的數(shù)據(jù)脫敏、預(yù)處理后,整理指標(biāo)如下表。

2.1.2 基本描述

剔除缺失值、無(wú)效數(shù)據(jù)后,得樣本總量209,正樣本99,負(fù)樣本110。

2.2 主成分提取

2.2.1 KMO檢驗(yàn)

對(duì)數(shù)據(jù)計(jì)算KMO檢驗(yàn)得到如下結(jié)果。

2.2.2 提取主成分

主要成分解釋總方差表如下表。

根據(jù)結(jié)果提取數(shù)據(jù)10個(gè)主要成分,主要成分占原始信息的69.830%。

2.3 實(shí)證結(jié)果對(duì)比

首先對(duì)未提取主成分的原始數(shù)據(jù)分別做CART、C5.0、CHAID和QUEST的決策樹(shù)運(yùn)算,再對(duì)提取了主成分的數(shù)據(jù)進(jìn)行上述四種決策樹(shù)算法,其結(jié)果對(duì)比

如下。

分析結(jié)果可得:

第一,與未提取主成分相比,提取主成分后四種算法中,只有C5.0算法的精度獲得了提高;而其他三種算法,提取主成分后的精度反而有所下降。

第二,從上述8個(gè)結(jié)果中可以看出,C5.0算法在未提取主成分時(shí)的精度已高于其他三種算法,可見(jiàn)在該案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。

3 結(jié)論

本文使用風(fēng)投企業(yè)投資成功與否案例,利用四種決策樹(shù)算法,對(duì)比了提取主成分前后,算法精度的變化。結(jié)果表明,提取主要成分后,四種算法中只有C5.0算法的精度獲得了提高,而其他三種算法提取主成分后的精度反而有所下降,并且C5.0算法在未提取主成分時(shí)的精度已高于其他三種算法,可見(jiàn)在該案例中先提取主成分再使用C5.0算法后精度較其他三種算法高。

參考文獻(xiàn):

[1]趙敏,陳恩紅,宋睿.基于集成學(xué)習(xí)的Adaboost演化決策樹(shù)算法[J].計(jì)算機(jī)應(yīng)用與軟件,2007(03):1-2+21.

[2]劉余霞,呂虹,胡濤,孫小虎.基于Bagging集成學(xué)習(xí)的字符識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(33):194-196+211.

[3]李詒靖,郭海湘,李亞楠,劉曉.一種基于Boosting的集成學(xué)習(xí)算法在不均衡數(shù)據(jù)中的分類(lèi)[J].系統(tǒng)工程理論與實(shí)踐,2016,36(01): 189-199.

[4]顧雨,徐廣軍,夏訓(xùn)峰,席北斗,周素霞.基于最優(yōu)組合預(yù)測(cè)模型的中國(guó)工業(yè)固體廢物產(chǎn)生量預(yù)測(cè)[J].環(huán)境污染與防治,2010,32(05): 89-91+109.

[5]張俊深,袁程煒.基于BP神經(jīng)網(wǎng)絡(luò)與修正GM(1,1)模型的能源消費(fèi)組合預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2016(05):90-93.

[6]劉敏,趙璟,薛偉賢.“一帶一路”產(chǎn)能合作與發(fā)展中國(guó)家全球價(jià)值鏈地位提升[J].國(guó)際經(jīng)貿(mào)探索,2018,34(08):49-62.

猜你喜歡
風(fēng)險(xiǎn)識(shí)別主成分分析
數(shù)字出版項(xiàng)目風(fēng)險(xiǎn)識(shí)別與控制
出版廣角(2016年14期)2016-12-13 02:08:11
試論民間金融風(fēng)險(xiǎn)識(shí)別及防范機(jī)制的構(gòu)建
醫(yī)院信息系統(tǒng)集成平臺(tái)建設(shè)與體會(huì)
H銀行企業(yè)信貸項(xiàng)目風(fēng)險(xiǎn)評(píng)估分析
人間(2016年24期)2016-11-23 19:17:33
基于NAR模型的上海市房產(chǎn)稅規(guī)模預(yù)測(cè)
主成分分析法在大學(xué)英語(yǔ)寫(xiě)作評(píng)價(jià)中的應(yīng)用
江蘇省客源市場(chǎng)影響因素研究
SPSS在環(huán)境地球化學(xué)中的應(yīng)用
考試周刊(2016年84期)2016-11-11 23:57:34
戶外俱樂(lè)部活動(dòng)的風(fēng)險(xiǎn)因素識(shí)別與分析
人間(2016年26期)2016-11-03 19:21:55
長(zhǎng)沙建設(shè)國(guó)家中心城市的瓶頸及其解決路徑
宁南县| 福海县| 浦北县| 沽源县| 扎赉特旗| 南宫市| 新营市| 罗江县| 崇左市| 太仓市| 上蔡县| 武安市| 湘阴县| 勃利县| 长宁县| 陵水| 连江县| 柘荣县| 封开县| 朝阳区| 淮南市| 肇东市| 余姚市| 和平区| 盱眙县| 朝阳区| 文昌市| 兴城市| 青海省| 驻马店市| 潞城市| 屏山县| 潢川县| 达尔| 宜兴市| 甘孜县| 颍上县| 英吉沙县| 涟水县| 海宁市| 桦川县|