国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機(jī)器學(xué)習(xí)分類方法的應(yīng)用

2018-01-15 10:14:54杜春澎
科學(xué)與財(cái)富 2018年34期
關(guān)鍵詞:機(jī)器學(xué)習(xí)分類

杜春澎

摘要:本文通過對(duì)機(jī)器學(xué)習(xí)中各類分類方法的學(xué)習(xí)之后,對(duì)輸血服務(wù)中心的數(shù)據(jù)集采用決策樹(分類樹)、Adaboost、Bagging、隨機(jī)森林、支持向量機(jī)、最近鄰方法和神經(jīng)網(wǎng)絡(luò)等七類方法對(duì)其進(jìn)行分類,并采用五折交叉驗(yàn)證法評(píng)價(jià)預(yù)測精度,結(jié)果發(fā)現(xiàn)支持向量機(jī)的是最好的分類方法。

關(guān)鍵詞:機(jī)器學(xué)習(xí);分類;交叉驗(yàn)證

1.引言

分類就是經(jīng)典統(tǒng)計(jì)中所說的判別,當(dāng)因變量有多個(gè)水平且自變量也有分類變量的情況下,判別分析就不可用,此時(shí)就要采用機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘的方法,比如決策樹的分類樹、Adaboost、Bagging、隨機(jī)森林、支持向量機(jī)、最近鄰方法和神經(jīng)網(wǎng)絡(luò)等。

2.數(shù)據(jù)實(shí)驗(yàn)

本文研究的數(shù)據(jù)來源于the UC Irvine機(jī)器學(xué)習(xí)數(shù)據(jù)庫,下載地址:http://archive.ics.uci.edu/ml/datasets/Blood+Transfusion+Service+Center。該數(shù)據(jù)集有748個(gè)觀測值,5個(gè)變量,分別是: Recency - months since last donation(定量);Frequency - total number of donation(定量);Monetary - total blood donated in c.c.(定量);Time - months since first donation(定量);Class -whether he/she donated blood in March 2007(定性)。最后一個(gè)分類變量的水平為:Class(whether he/she donated blood in March 2007 )有兩個(gè)水平:1=獻(xiàn)血,0=沒獻(xiàn)血。通過對(duì)數(shù)據(jù)的查看,可以用前四個(gè)變量作為自變量來預(yù)測作為因變量C (最后一個(gè)變量)的類別。

3.機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)能使計(jì)算機(jī)在沒有明確編程的情況下自主學(xué)習(xí)。不同于傳統(tǒng)方法的模型驅(qū)動(dòng),機(jī)器學(xué)習(xí)是數(shù)據(jù)驅(qū)動(dòng),它探索構(gòu)建了從數(shù)據(jù)中學(xué)習(xí)并對(duì)數(shù)據(jù)進(jìn)行預(yù)測的算法。傳統(tǒng)的統(tǒng)計(jì)模型對(duì)數(shù)據(jù)的分布都有一定的要求或假定,但在現(xiàn)實(shí)中,真實(shí)的數(shù)據(jù)可能并不滿足那些假定或要求,若再用傳統(tǒng)方法,它們的某些優(yōu)良性質(zhì)將不能得到,甚至得出的結(jié)論都有可能錯(cuò)誤。此時(shí)選擇機(jī)器學(xué)習(xí)的方法將更加合理,它不需要對(duì)數(shù)據(jù)分布做任何假定,且產(chǎn)生的結(jié)果也可用交叉驗(yàn)證的方法進(jìn)行評(píng)價(jià)。

3.1 決策樹分類(分類樹)

決策樹分類是通過一定的規(guī)則對(duì)數(shù)據(jù)樣本進(jìn)行分類的過程,當(dāng)數(shù)據(jù)結(jié)構(gòu)為連續(xù)形變量時(shí),稱為決策樹回歸。使用R軟件的程序包rpart.plot進(jìn)行決策樹回歸,得出的分類結(jié)果如決策樹如表1。

其中,行是真實(shí)類,列是預(yù)測類。一共有138個(gè)觀測值被分錯(cuò),誤判率為0.184492。再利用函數(shù)Fold()所產(chǎn)生的5個(gè)隨機(jī)數(shù)據(jù)集做五折交叉驗(yàn)證,給出測試集的分類平均誤判率為0.2271857。

3.2 Adaboost分類

Adaboost是Boosting的一種,是一種組合方法,這里用的程序包是adabag,分類結(jié)果如表2。

表里一共有101個(gè)觀測值被分錯(cuò),誤判率為0.135026。通過五折交叉驗(yàn)證,給出測試集的分類平均誤判率為0.2592931。

3.3 Bagging分類

Bagging分類是一個(gè)最簡單的基于分類樹的組合方法,它利用了自助法放回抽樣。這里用的程序包是adabag中的函數(shù)bagging(),分類結(jié)果如表3。

表里一共有133個(gè)觀測值被分錯(cuò),誤判率為0.1778075。通過五折交叉驗(yàn)證,給出測試集的分類平均誤判率為0.2271857。

3.4 隨機(jī)森林分類

隨機(jī)森林也是從原始數(shù)據(jù)抽取一定數(shù)量的自助法樣本,程序包randomForest包含了隨機(jī)森林函數(shù)randomForest(),分類結(jié)果如表4。

表里一共有63個(gè)觀測值被分錯(cuò),誤判率0.08823529。通過五折交叉驗(yàn)證,給出測試集的分類平均誤判率為0.253915。

3.5 支持向量機(jī)分類

支持向量機(jī)分類是用程序包e1071中的svm()函數(shù)和程序包kernlab中的ksvm()函數(shù)來做SVM分類,兩個(gè)不同函數(shù)的分類結(jié)果分別如表5和表6。

表里一共有158個(gè)觀測值被分錯(cuò),誤判率為0.2112299 。

表里一共有138個(gè)觀測值被分錯(cuò),誤判率為0.184492。通過五折交叉驗(yàn)證,給出測試集的分類平均誤判率為0.2339329和0.2151588。

3.6 最近鄰方法分類

最近鄰方法可能是所有算法中最簡單的方法,它基于訓(xùn)練集對(duì)測試集進(jìn)行分類。用程序包kknn中的kknn()函數(shù)來對(duì)輸血中心的全部數(shù)據(jù)做分類,程序代碼中選項(xiàng)的默認(rèn)值為:k=7,distance=2(Minkowski距離),分類結(jié)果如表7。

表里一共有110個(gè)觀測值被分錯(cuò),誤判率為0.1470588。通過五折交叉驗(yàn)證,給出測試集的分類平均誤判率為0.2526174。

3.6 神經(jīng)網(wǎng)絡(luò)分類

人工神經(jīng)網(wǎng)絡(luò)是由大量的節(jié)點(diǎn)構(gòu)成,其相關(guān)原理是,將上層節(jié)點(diǎn)的值加權(quán)后傳遞給下一層,依次傳遞到最終輸出節(jié)點(diǎn),再根據(jù)輸出節(jié)點(diǎn)的誤差大小情況給前面節(jié)點(diǎn)層一個(gè)激勵(lì)或者抑制的信號(hào),從而改變權(quán)重,最后經(jīng)過反復(fù)傳遞,達(dá)到輸出誤差在某個(gè)范圍內(nèi)。利用程序包nnet的函數(shù)nnet()對(duì)輸血中心的全部數(shù)據(jù)進(jìn)行擬合,得到誤判率為0.2348993,此時(shí)的size=2。

通過五折交叉驗(yàn)證,給出測試集的分類平均誤判率為0.2312573,此時(shí)size=2;當(dāng)size=1時(shí),誤判率為0.2326264;當(dāng)size=3時(shí),誤判率為0.2379597。當(dāng)size增大時(shí),誤判率也隨之增大,通過比較可知,size=2時(shí)最為合適。

4.結(jié)果分析

運(yùn)用以上八種方法來對(duì)輸血中心數(shù)據(jù)擬合的五折交叉驗(yàn)證測試集的誤判率歸納如下表8所示。

由表可知,在八種方法的五折交叉驗(yàn)證測試集誤判率中,誤判率最低的是支持向量機(jī)(ksvm)為0.2151588,其次是決策樹和bagging,誤判率最高的是adaboost為0.2592931。故針對(duì)輸血服務(wù)中心的數(shù)據(jù)而言,進(jìn)行分類最好的方法就是采用支持向量機(jī)分類法。

參考文獻(xiàn):

[1]吳喜之.復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法:基于R的應(yīng)用[M].北京:中國人民大學(xué)出版社,2013:54-69.

[2]唐華松,姚耀文.數(shù)據(jù)挖掘中決策樹算法的探討[J].計(jì)算機(jī)應(yīng)用研究,2001,18(8):18-19.

[3]宋捷,吳喜之.一種新的Boosting回歸樹方法[J].統(tǒng)計(jì)與信息論壇,2010,25(5):9-13.

[4]王鴻斌,張立毅,胡志軍.人工神經(jīng)網(wǎng)絡(luò)理論及其應(yīng)用[J].山西電子技術(shù),2006(2):41-43.

[5]王定成,方廷健,高理富,等.支持向量機(jī)回歸在線建模及應(yīng)用[J].控制與決策,2003,18(1):89-91.

猜你喜歡
機(jī)器學(xué)習(xí)分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
绍兴市| 温宿县| 壶关县| 林州市| 牡丹江市| 隆化县| 绥德县| 通山县| 紫云| 江西省| 静海县| 宜兰县| 黎川县| 昭通市| 侯马市| 吴江市| 濮阳县| 遵义县| 大庆市| 浏阳市| 邵阳市| 开江县| 石泉县| 宜兰县| 靖远县| 绵阳市| 合水县| 武定县| 花垣县| 平度市| 伊吾县| 平远县| 碌曲县| 滨海县| 原阳县| 容城县| 宁乡县| 都江堰市| 普兰店市| 睢宁县| 塘沽区|