国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種優(yōu)化的SVM竹類屬種識別方法

2017-10-10 01:00:12許高建李紹穩(wěn)
關(guān)鍵詞:竹類竹種竹子

李 欣 許高建,2 李紹穩(wěn),2

(1. 安徽農(nóng)業(yè)大學, 合肥 230036; 2. 農(nóng)業(yè)部農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)集成與應(yīng)用重點實驗室, 合肥 230036)

一種優(yōu)化的SVM竹類屬種識別方法

李 欣1許高建1,2李紹穩(wěn)1,2

(1. 安徽農(nóng)業(yè)大學, 合肥 230036; 2. 農(nóng)業(yè)部農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)集成與應(yīng)用重點實驗室, 合肥 230036)

提出了一種優(yōu)化的AS-PO-SVM分類模型,用于解決竹種屬的分類問題。AS-PO-SVM是一種基于屬性選擇(AS)和參數(shù)優(yōu)化(PO)的支持向量機(SVM)分類模型。先用UCI公開數(shù)據(jù)集驗證了AS-PO-SVM模型的分類性能,再將模型應(yīng)用于由簕竹屬、牡竹屬、剛竹屬和玉山竹屬共46個竹種樣本構(gòu)建的Bamboo數(shù)據(jù)集上。實驗結(jié)果顯示AS-PO-SVM模型在Bamboo數(shù)據(jù)集上分類準確率達到95.65%,是一種有效的竹種分類模型。

竹種分類; 屬性選擇; 參數(shù)優(yōu)化; 支持向量機

竹子很少開花結(jié)實,以花和果為依據(jù)的傳統(tǒng)植物分類方法難以應(yīng)用于竹亞科植物。經(jīng)典的竹亞科分類研究是建立在耿氏系統(tǒng)之上,以花序和地下莖性狀為主要指標,結(jié)合稈、枝、芽、籜等營養(yǎng)體特征劃分屬及屬以上類群[1-2]。國內(nèi)外學者已將維管束解剖法、生物化學分類法、胚胎分類學、DNA分子標記等現(xiàn)代手段運用于竹種分類研究[3-9]。隨著計算科學的發(fā)展,數(shù)據(jù)挖掘技術(shù)也相繼被應(yīng)用到植物分類領(lǐng)域,如馬銀曉使用支持向量機算法對鳶尾屬植物進行分類[10],高智慧使用模糊聚類分析方法研究中國散生竹分類[11],張漢堯等人利用聚類分析法將5個屬下14個竹種劃分為2個種群[12]。在以上研究基礎(chǔ)上,提出了一種綜合優(yōu)化的AS(Attribute Selection)-PO(Parameter Optimization)-SVM(Support Vector Machines)分類模型。以農(nóng)業(yè)部農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)集成與應(yīng)用重點實驗室構(gòu)建的竹類種質(zhì)資源數(shù)據(jù)庫為研究對象,以竹子常見的56個形態(tài)學特征為分類特征,構(gòu)建了AS-PO-SVM竹類屬種識別方法,并在開源軟件WEKA平臺上進行模擬驗證。結(jié)果顯示,AS-PO-SVM模型提高了經(jīng)典SVM模型的分類準確率,在46個竹種樣本上預(yù)測準確率達到了95.65%,是一種有效的竹類屬種識別方法。

1 研究方法

1.1支持向量機

SVM作為數(shù)據(jù)挖掘領(lǐng)域經(jīng)典的分類算法,被廣泛應(yīng)用于小樣本、非線性和高維數(shù)據(jù)的分類問題。其基本原理是通過核函數(shù)把輸入向量映射到一個高維特征空間,在新空間中找到一個最大間隔超平面實現(xiàn)對樣本空間的劃分[13]。常用的SVM核函數(shù)包括徑向基核函數(shù)、線性函數(shù)和神經(jīng)網(wǎng)絡(luò)核函數(shù)等,其中徑向基函數(shù)(Radial Basis Function,RBF)只有一個參數(shù)且普適性高,研究選用RBF-SVM作為模型的基本算法。徑向基核函數(shù)是一種沿徑向?qū)ΨQ的標量函數(shù),一般定義為空間中任意一點x到函數(shù)中心y之間的歐式距離的單調(diào)函數(shù),見式(1):

K(x,y)=exp(-g|x-y|2)

(1)

其中g(shù)為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。

在使用RBF-SVM算法建模時,為了提高模型的運行效率和推廣能力,側(cè)重解決2個關(guān)鍵問題:屬性選擇策略和算法參數(shù)尋優(yōu)方法。

1.2 AS屬性選擇策略

實驗數(shù)據(jù)集的屬性即用于構(gòu)建分類模型的特征指標。數(shù)據(jù)集中每個屬性對挖掘模式的貢獻程度并不是均等的,也極有可能包含與挖掘任務(wù)不相關(guān)的屬性。屬性子集選擇就是采取某種評價標準和搜索策略搜索所有可能的屬性組合,通過刪除關(guān)聯(lián)度小甚至負相關(guān)的屬性,以找到預(yù)測效果最好的最小屬性子集。其任務(wù)就是在保證分類效果的前提下降低數(shù)據(jù)維度,縮小數(shù)據(jù)規(guī)模,提高模型的運行效率。另一方面,由于竹子數(shù)據(jù)的采集難度較大,有些形態(tài)特征采集具有一定困難,屬性選擇對后續(xù)的模型推廣具有現(xiàn)實意義。如在僅采集到幾個特征的情況下,仍可保證分類模型的預(yù)測精度。ReliefF算法是一種運行效率較高的特征權(quán)重算法,其基本思想是:一個有效的特征能使同類樣本靠近,不同類樣本遠離[14]。研究采取ReliefF算法結(jié)合Ranker搜索作為AS屬性選擇策略,對數(shù)據(jù)集進行屬性選擇并依權(quán)重排序,通過設(shè)置閾值得到最優(yōu)屬性子集。

1.3 PO參數(shù)優(yōu)化

算法參數(shù)關(guān)系到分類器的性能。RBF-SVM算法受到懲罰因子C和核寬度g的影響。目前SVM參數(shù)設(shè)置主要依靠經(jīng)驗選擇、實驗試湊、梯度下降、交叉驗證、基于遺傳算法或粒子群算法進行優(yōu)化。采用網(wǎng)格搜索和K-交叉驗證法來確定BRF-SVM的參數(shù)。網(wǎng)格尋優(yōu)的一般過程:(1)取定一組參數(shù),利用K-交叉驗證法得到這組參數(shù)下訓(xùn)練集驗證分類準確率;(2)進一步細分網(wǎng)格重復(fù)步驟(1);(3)找到使訓(xùn)練集驗證分類準確率最高的那組C和g,即為最佳參數(shù)[15]。K-交叉驗證法是將數(shù)據(jù)集分成K份相等的子集,每次將其中K-1份數(shù)據(jù)用于訓(xùn)練,而剩下的1份用于測試,這樣重復(fù)K次,根據(jù)K次迭代得到最優(yōu)的一組參數(shù)。

1.4模型評價與指標

分類算法與模型的評價通常采用4個指標:正確率ACC、命中率P、召回率R及度量F1(召回率R和命中率P的調(diào)和平均數(shù))。計算公式為:

ACC=(TP+TN)(TP+TN+FP+FN)

(2)

P=TP(TP+FP)

(3)

R=TP(TP+FN)

(4)

F1=2·R·P(R+P)

(5)

式中:TP—— 預(yù)測正確的正樣本數(shù)量;

TN—— 預(yù)測正確的負樣本數(shù)量;

FP—— 預(yù)測錯誤的負樣本數(shù)量;

FN—— 預(yù)測錯誤的正樣本數(shù)量。

2 結(jié)果與分析

2.1數(shù)據(jù)準備與預(yù)處理

以竹種為樣本,研究竹子在屬的分類問題。實驗樣本Bamboo數(shù)據(jù)集來自農(nóng)業(yè)部農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)集成與應(yīng)用重點實驗室構(gòu)建的竹類種質(zhì)資源基礎(chǔ)數(shù)據(jù)庫。Bamboo數(shù)據(jù)集由簕竹屬、牡竹屬、剛竹屬和玉山竹屬下46個竹種構(gòu)成(見表1),依據(jù)文獻[2,12,16-17]所述竹子常見形態(tài)學特征,選擇其中56個屬性作為分類特征指標(見表2)。

表1 用于實驗分析的46個竹種

數(shù)據(jù)整理:取值明確的描述性屬性按照英文描述直接保存取值,如竹籜籜片形狀有三角形,披針形,帶狀形,橢圓形及其他形狀,則取值為{triangle,lanceolate,banding,oval,other};二值型屬性,如有無葉耳{0,1}。

預(yù)處理方法:當屬性值為連續(xù)性屬性值時,采用WEKA中Discretize算法進行離散化處理,如竹竿高度、稈壁厚度。因為樣本規(guī)模小,采取人工干預(yù)處理缺失值,缺失值太多的樣本直接刪除,數(shù)值型屬性用平均值代替缺失值,非數(shù)值型屬性用出現(xiàn)最多的值代替缺失值。

表2 用于分析的分類特征指標(Bamboo數(shù)據(jù)集的屬性)

2.2 AS-PO-SVM模型的性能測試

選取UCI公開實測數(shù)據(jù)庫的2組數(shù)據(jù)集Labor和Glass對AS-PO-SVM模型進行性能測試。Labor數(shù)據(jù)集包含57個實例,16個屬性,2個類型,是二元分類數(shù)據(jù)集。Glass數(shù)據(jù)集包含214個實例,9個屬性,7個類型,是多分類數(shù)據(jù)集。此次研究基于WEKA實驗平臺,用JAVA語言實現(xiàn),按照前述的AS策略尋找最優(yōu)子集,PO策略優(yōu)化算法的懲罰因子C和參數(shù)g。實驗中,Labor數(shù)據(jù)集在屬性選擇時閾值取0.4,保留排名前9個屬性,Glass數(shù)據(jù)集在屬性選擇時閾值取0.02,保留排名前5個屬性;Labor數(shù)據(jù)集參數(shù)優(yōu)化結(jié)果為C=5.0,g=0.1,Glass數(shù)據(jù)集參數(shù)優(yōu)化結(jié)果為C=7.0,g=10.0。實驗結(jié)果見表3。

表3 AS-PO-SVM模型在UCI公開數(shù)據(jù)集上的測試結(jié)果對比

實驗1的結(jié)果表明,AS-PO-SVM模型提高了經(jīng)典SVM分類器的性能,尤其是針對多分類問題,分類評價的4個指標都得到了提高。

2.3基于AS-PO-SVM模型的竹類屬種分類

實驗數(shù)據(jù)集Bamboo共有246個實例,56個屬性,4個類型。實驗步驟如下:

(1) 載入數(shù)據(jù)集Bamboo.arff并進行預(yù)處理。

(2) 使用ReliefFAttributeEval算法結(jié)合Ranker搜索策略進行屬性選擇,設(shè)置閾值為0.02,去除權(quán)重低于0.05的屬性,依權(quán)重排名得到最優(yōu)屬性子集為{55,47,54,5,17,18,51,42,22,46,27,13,1,50,12,29}(參考表2屬性序號)。

(3) 以第(2)步得到的最優(yōu)屬性子集為輸入,采用元分類器weka.classifiers.meta.GridSearch,其中設(shè)置weka.classifiers.functions.SMO為核分類器,并選用核函數(shù)weka.classifiers.functions.supportVector.RBFKernel,配置相關(guān)參數(shù),利用十折交叉驗證,得到最優(yōu)參數(shù)Values:**10.0**(X coordinate),**0.1**(Y coordinate),即C取10.0,g取0.1。

(4) 以第(2)步得到的屬性子集為輸入,以第(3)步得到的參數(shù)C=10.0,g=0.1作為BRF-SVM的參數(shù),利用十折交叉驗證,構(gòu)建AS-PO-SVM分類器,結(jié)果見表4。

實驗2的結(jié)果表明,AS-PO-SVM模型在Bamboo數(shù)據(jù)集上的分類效果良好??梢夾S-PO-SVM模型用于竹子屬的分類是有效的。

表4 AS-PO-SVM模型在Bamboo數(shù)據(jù)集上的實驗結(jié)果

3 結(jié) 語

研究提出了一種優(yōu)化的AS-PO-SVM分類模型。利用WEKA實驗平臺驗證了模型的分類性能,并在小樣本數(shù)據(jù)集上展開竹種分類試驗,結(jié)果表明AS-PO-SVM模型對竹子屬的分類識別具有較高的精度,為竹子分類研究提供了一種基于數(shù)據(jù)的多參數(shù)定量研究方法。由于竹子數(shù)據(jù)采集難度大,目前的研究僅局限于幾個屬的小樣本數(shù)據(jù),后續(xù)將對更多的竹子屬種進行廣泛的取樣與測試,以構(gòu)建竹種分類識別系統(tǒng)。另外需要再對AS-PO-SVM模型進行進一步校正與完善,如當樣本規(guī)模增大時,如何找到更快的參數(shù)尋優(yōu)算法來縮短模型運行時間,提高分類建模的效率。

[1] 耿伯介,王正平.《中國植物志》九卷一分冊(禾本科-竹亞科)編后記[J].竹子研究匯刊,1996(1):77-79.

[2] 王正平.中國竹亞科分類系統(tǒng)之我見[J].竹子研究匯刊,1997(4):1-6.

[3] 丁雨龍,趙奇僧,陳志銀,等.竹葉結(jié)構(gòu)的比較解剖及其對系統(tǒng)分類意義的評價[J].南京林業(yè)大學學報(自然科學版),1994(3):1-6.

[4] 胡成華,喻富根,陳玲.竹果胚體類型及其系統(tǒng)分類[J].植物分類與資源學報,1994(4):367-372.

[5] 黃京華.叢生竹黃酮類化合物的分析研究及其在分類上的應(yīng)用[J].竹子研究匯刊,1993(1):18-28.

[6] 李升峰.黃酮化合物在散生竹分類中應(yīng)用初探[J].竹子研究匯刊,1990(4):17-23.

[7] 方偉,童再康.部分叢生竹同工酶的研究[J].植物分類學報,1992,30(3):219-225.

[8] WATANABE M,ITO M,KURITA S. Chloroplast DNA Phylogeny of Asian Bamboos (Bambusoideae, Poaceae) and Its Systematic Implication[J].Journal of Plant Research,1994,107(3):253-261.

[9] 李桃.EST-SSR標記在竹類植物系統(tǒng)分類中的研究和應(yīng)用[D].杭州:浙江大學生命科學學院,2008:5-10.

[10] 馬銀曉,姚敏.支持向量機在植物分類中的應(yīng)用[J].科技通報,2007,23(3):404-407.

[11] 高智慧.利用稈維管束進行中國散生竹類的聚類分析[J].廣西植物,1991(2):135-140.

[12] 張漢堯,劉小珍,孫茂勝,等.竹子形態(tài)標記聚類分析研究[J].竹子研究匯刊,2005,24(1):25-28.

[13] CRISTIANINI N, TAYLOR J S.支持向量機導(dǎo)論[M].李國正,王猛,曾華軍,譯.北京:電子工業(yè)出版社,2004:83-98.

[14] 菅小艷,韓素青,崔彩霞.不平衡數(shù)據(jù)集上的Relief特征選擇算法[J].數(shù)據(jù)采集與處理,2016(4):838-844.

[15] 王健峰,張磊,陳國興,等.基于改進的網(wǎng)格搜索法的SVM參數(shù)優(yōu)化[J].應(yīng)用科技,2012(3):28-31.

[16] 耿伯介,溫太輝.試論竹類植物營養(yǎng)體分類[J].竹子研究匯刊,1989(2):17-29.

[17] 賴廣輝.試論竹子分類和種系鑒定中的若干方法問題[J].竹子研究匯刊,2013(3):9-13.

(1.Anhui Agriculture University, Hefei 230036, China;2.Key Laboratory of Technology Integration and Application in Agricultural Internet of Things, Ministry of Agriculture, Hefei 230036, China)

Abstract:An optimized AS-PO-SVM classification model was proposed and applied in the classification of bamboo plants at the level of genus. AS-PO-SVM is a Support Vector Machines (SVM) classification model based on the attribute selection (AS) and parameter optimization (PO). The classification ability of AS-PO-SVM model was firstly verified by UCI open data set, and then the model was used in the classification of 46 bamboo species fromBambusa,Dendrocalamus,PhyllostachysandYushaniagenus from a bamboo data set. The results showed that classification accuracy of bamboo data set by AS-PO-SVM could attain 95.65%, which suggested that the model is an effective tool for the classification of bamboo plants.

Keywords:bamboo classification; attribute selection; parameter optimization; support vector machines

AnOptimizedAS-PO-SVMClassificationModelfortheIdentificationofBambooSpecies

LI Xin1XU Gaojian1,2LI Shaowen1,2

TP18

A

1673-1980(2017)05-0098-04

2017-03-22

“十二五”農(nóng)村領(lǐng)域國家科技計劃課題(2015BAD04B03)

李欣(1986 — ),女,安徽農(nóng)業(yè)大學在讀碩士研究生,研究方向為人工智能及其應(yīng)用。

李紹穩(wěn)(1962 — ),男,教授,博士生導(dǎo)師,研究方向為人工智能與農(nóng)業(yè)信息化。

猜你喜歡
竹類竹種竹子
你所不知道的竹子
竹子為什么長不粗
中國竹類資源與分布
和竹子在一起
河南淅川竹博園竹種引種試驗初報
牡竹屬3個竹種地上部分生物量及特性研究
竹子長得有多快呢?
竹類植物分類研究進展
河南科技(2014年5期)2014-02-27 14:08:46
中國竹類研究成果分析
緬甸竹種的物理機械性能
岳池县| 铅山县| 文山县| 灌阳县| 泸溪县| 辉南县| 德庆县| 侯马市| 英山县| 八宿县| 延寿县| 天全县| 清徐县| 阜阳市| 红河县| 临洮县| 香港| 北辰区| 麻城市| 孝昌县| 泰州市| 深州市| 易门县| 华容县| 永嘉县| 荃湾区| 清水县| 河北区| 镇坪县| 垦利县| 阿荣旗| 东莞市| 江城| 芦溪县| 元谋县| 吉林省| 沅江市| 简阳市| 吴堡县| 汝南县| 固镇县|