柴玉華,丁 然,曹曉達
(東北農(nóng)業(yè)大學 電氣與信息學院,哈爾濱 150030)
?
基于隨機森林的大豆外觀品質(zhì)識別的研究
柴玉華,丁然,曹曉達
(東北農(nóng)業(yè)大學 電氣與信息學院,哈爾濱150030)
摘要:不同等級的大豆外觀質(zhì)量與其內(nèi)部營養(yǎng)等級存在一定關(guān)系,因此快速、精準地識別大豆病態(tài)種類至關(guān)重要。模式識別方法眾多,本文采用隨機森林方法進行研究。選取相應的大豆籽粒圖像對其進行處理,從中挑選10幅圖像,提取其形態(tài)特征,顏色特征,紋理特征,應用隨機森林方法建立大豆外觀品質(zhì)識別模型,然后對大量樣本進行試驗。試驗結(jié)果表明:不同種類病害大豆要想達到理想結(jié)果,訓練步數(shù)各不同。該方法具有魯棒性好、準確度高及系統(tǒng)穩(wěn)定等特點。
關(guān)鍵詞:隨機森林;形態(tài)特征;大豆外觀品質(zhì)
0引言
大豆具有很高的營養(yǎng)價值,被稱為“豆中之王”“田中之肉”,對人類有非常重要的作用。隨著經(jīng)濟的發(fā)展,大豆的生產(chǎn)與加工已經(jīng)迅速發(fā)展成為一個成熟的產(chǎn)業(yè);但農(nóng)業(yè)產(chǎn)出的大豆質(zhì)量參差不齊,使我國大豆產(chǎn)業(yè)在國際市場上缺少競爭力。大豆外觀品質(zhì)與大豆的營養(yǎng)價值有著重要的關(guān)系。我國已于2009年9月1日正式實施《大豆》( GB 1352-2009) 國家標準,此標準與國際發(fā)達國家處于相同水平[1]。
人類的智慧有一個重要方面體現(xiàn)在對外界事物的分類和識別上。比較常用的模式識別分類有神經(jīng)網(wǎng)絡(luò)、決策樹及支持向量機等,具有各自的性能特點。本文研究的隨機森林(Random Forests,RF)是一種基于多棵決策樹的組合分類器,同Bagging方法、ADAboost方法及隨機劃分選擇法相似[2]。它的優(yōu)越性使其在國內(nèi)外眾多領(lǐng)域應用比較廣泛[3]。例如,韓亮采用二次訓練法,構(gòu)造了改進的隨機森林分類器對行人檢測進行分析[4];趙顯通過提取圖像灰度空間中的像素點的灰度值對手勢進行檢測[5]等。
1模式識別方法
1.1概念介紹
模式識別(Pattern Recognition)是在計算機上對信息進行處理、判別的一種分類過程。判別與分類在理論研究和生產(chǎn)實踐中的應用是不可或缺的。若需要處理的問題特別繁瑣復雜、影響因素過多,就會增加解決問題的困難程度,此時模式識別的優(yōu)越性就能體現(xiàn)出來。其能解決計算機中較復雜的問題,對實際問題的解決與處理具有指導意義和應用價值,由此在計算機領(lǐng)域獲得廣泛應用,并獲得一定成功[6]。
1.2隨機森林
圖1 隨機森林分類器模型
要想實現(xiàn)隨機森林算法,就要利用OpenCV算 法 庫 中 的CvRTrees類。OpenCV是開源計算機視覺庫,其中包含了一系列C函數(shù)和少量C++類。并且它還提供了MATLAB語言的接口,這樣就使計算機視覺和圖像處理實現(xiàn)了通用算法。因為CvRTrees類對隨機森林算法進行了封裝,所以對隨機森林算法的分類就變得十分簡單,只需要調(diào)用其接口就可以。
隨機森林雖然在某些噪音較大的分類或回歸問題上產(chǎn)生過擬,但其魯棒性優(yōu)越,對于數(shù)據(jù)的隨機性有很好的處理能力,面對大量的輸入數(shù)據(jù)也擁有較好的處理能力,并可以在決定類別時,評估變量的重要性。由于其具有相似的分類器結(jié)構(gòu),所以得出的效果比較相似,投票的方法還比較簡單。
2分類器設(shè)計
設(shè)計的總體思想:通過對大豆圖像的研究與分析,提取特征向量,設(shè)計分類器。分類器的構(gòu)建大概分為以下3步。
1)建立訓練樣本集。根據(jù)試驗需要,選擇4種大豆為例進行基于隨機森林的大豆外觀品質(zhì)識別分類器的設(shè)計,4種試驗大豆分別為灰病斑大豆、霉變大豆、蟲蝕大豆、破碎大豆。經(jīng)過處理可以得到去除背景的單顆病害大豆籽粒圖像,如圖2所示。
圖2 各種病害單個豆粒圖像
2)采用點對比較特征對樣本進行特征描述。即從樣本圖像中隨機選擇兩個像素點,并比較其的像素值。要選取10×10個像素點均勻分布在樣本圖像中,如圖3所示。
這樣就會有4 950個點對比較特征,對于構(gòu)建一個隨機森林分類器4 950個點對比較特征是足夠的。然后,從這些像素點中隨意抽取2個像素點,比較它們之間差值大小,比較規(guī)則為
其中,任意兩個像素點用p1、p2表示,τ是設(shè)定的一個像素差值的閾值。為了使魯棒性能更加優(yōu)越,要求像素點的值是由每個像素點3×3 鄰域內(nèi)的取平均決定的,則有
Float CvRtees::predict(const Mat & sample,const Mat & missing=Mat())const是用于樣本識別的分類函數(shù)。
圖3 單顆豆粒像素點圖
3)訓練分類器。訓練集中所有樣本進入一棵樹都要通過根節(jié)點,然后所有樣本按照對應準則進行分裂。樣本在分裂后按照如下公式進入左邊或者右邊的子節(jié)點,分別對這兩個子節(jié)點重復上一步,進行遞歸分裂[8],則有
當分裂達到某一節(jié)點的樣本數(shù)量少于預設(shè)值M(20)時,或者分裂層數(shù)達到樹的深度D(10)時,分裂就會停止;最后決定葉子節(jié)點的標簽。預先設(shè)定好樣本標簽b,取值分別為 0、1、2、3,各自對應灰病斑大豆、霉變大豆、蟲蝕大豆、破碎大豆4種樣本,則
j,s.t.
其中,根節(jié)點處總樣本的數(shù)目為N,表示根節(jié)點處j類樣本的數(shù)目為Nj;某一葉子節(jié)點處樣本總數(shù)目為n,葉子節(jié)點中j類樣本的數(shù)目為nj。
Bool Cvrtrees::train(const Mat & trainData. int tflag. const Mat & responses.const Mat & varldx=Mat().const Mat & sampleldx=Mat().const Mat & varType=Mat().const Mat & missingDataMask=Mat().CvRTParams params=CvRTParams())是用于訓練分類器的分類函數(shù)
3實驗結(jié)果
病害大豆具有一定的特征?;加谢也“叽蠖沟淖蚜F洳“叱尸F(xiàn)圓形或不規(guī)則形,中間灰白色,邊緣呈暗褐色。大豆霉變后,它的籽粒會變色變味,表面變的褶皺。大豆一旦破損,其外形有明顯的變化,形態(tài)各異[9]。蟲蝕過的大豆會感染細菌,外形也會發(fā)生明顯變化,但與破損大豆外形有所差異,可以通過對不同種類大豆的形態(tài)、顏色、紋理特征提取從而進行識別。本文基于MatLab平臺,應用隨機森林方法,對大豆的形態(tài)特征進行試驗研究。
首先,選取10粒大豆試驗,標號為1~10,其中2、9、10號為灰病斑豆粒,3、4、7號為霉變豆粒,1、8號為蟲蝕豆粒,6號為破碎豆粒,5號為標準豆粒。實驗結(jié)果如圖4所示。
(a) 灰斑病籽粒訓練結(jié)果 (b) 霉變籽粒訓練結(jié)果
(c) 蟲蝕籽粒訓練結(jié)果 (d) 破碎籽粒訓練結(jié)果
通過仿真結(jié)果可知:當灰病斑大豆訓練步數(shù)為660、霉變大豆訓練步數(shù)為87、蟲蝕大豆訓練步數(shù)為906及破碎大豆訓練步數(shù)為870時,仿真結(jié)果誤差小且效果好。10粒大豆分類結(jié)果如圖5所示。
圖5 分類結(jié)果
其中,縱坐標1~5分別代表破碎、蟲蝕、霉變、灰病斑和標準大豆。實驗結(jié)果與選取樣本一一對應。由結(jié)果圖可以看出,此分類器可以有效的檢測出大豆病害種類。
對于少量的大豆樣本進行過實驗后,對訓練結(jié)果進行保存,再重新選取正常大豆100粒,其他病害大豆各100粒,利用隨機森林算法進行試驗。識別結(jié)果如圖6所示。
圖6 識別率
從圖6可以看出:隨機森林對于病害大豆籽粒有較高的檢驗能力,就整體效果看來在一定程度上它具有一定的實際應用能力。
4結(jié)論
應用隨機森林方法對病害大豆進行檢測,根據(jù)隨機森林方法訓練分類器,實現(xiàn)了少量和大量病害大豆識別系統(tǒng)。隨機森林方法具有以下優(yōu)點:面對大量數(shù)據(jù),分類較為精準;與其他分類方法比較,噪音影響對其影響較低;利用大數(shù)定律可以得到其不容易過擬合;分類器建立時,可以內(nèi)部估算出泛化誤差,這是利用OOB數(shù)據(jù)得到的;面對分類器數(shù)據(jù)集不平衡時,它可以平衡誤差。隨機森林算法已經(jīng)變?yōu)樵絹碓街匾囊环N數(shù)據(jù)分析工具,科學研究領(lǐng)域應用廣泛,如核磁共振光譜、人臉識別、土地覆蓋及3D跟蹤等[10]。
參考文獻:
[1]中華人民共和國國家技術(shù)監(jiān)督局.GB 1352—2009,中華人民共和國國家標準-大豆[S].北京:中國標準出版社,2009.
[2]Breiman L. Bagging forests[J]. Machine Learning, 1996,26(2):123-140.
[3]方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2011,26(3):32-38.
[4]韓亮.基于隨機森林的行人檢測算法研究[D].北京:北方工業(yè)大學,2014:24-26.
[5]趙顯.基于隨機森林的手勢檢測與識別系統(tǒng)的研究[D].湘潭:湘潭大學,2012:7-10.
[6]田趙喜林,趙喜玲,江祥奎.模式識別方法及其比較分析[J].信陽農(nóng)業(yè)高等??茖W校學報,2004,14(3):37-40.
[7]張學工.模式識別[M].北京:清華大學出版社,2010:87.
[8]Leo Breiman. Random forests[J]. Machine Learning,2001,45(1):5-32.
[9]趙丹婷.基于圖像處理技術(shù)的大豆外觀品質(zhì)檢測系統(tǒng)的研究[D].哈爾濱:東北農(nóng)業(yè)大學,2012:26.
[10]L Goncalves,E diBernardo,E Ursella, et al.Monocular tracking of the human arm in 3D[J].International Conference on Computer Vision, Cambridge, 1995:764-770.
Abstract ID:1003-188X(2016)01-0238-EA
Soybean Appearance Quality Detection and Identification Based on Random Forests
Chai Yuhua, Ding Ran, Cao Xiaoda
(College of Electrical and Information,Northeast Agricultural University,Harbin 150030,China)
Abstract:There are certain relationship for different levels of soy appearance quality and their internal nutrition level. So it is very important for fast and accurate detection soybean appearance quality. And there are a lot of pattern recognition method, the article adopts random forests to study. It selects corresponding grains of soybean that make image processing, choose the 10 images and extract 8 morphological characteristics variables to establish soybean appearance test model. It showed that if diseased soybean of different species need to achieve ideal result, it must make different training. That is concluded that this method is high accuracy and system stability finally.
Key words:simulation; random forests; morphological characteristics; soybean appearance quality
文章編號:1003-188X(2016)01-0238-04
中圖分類號:S126
文獻標識碼:A
作者簡介:柴玉華(1965-),女,哈爾濱人,教授,博士生導師,(E-mail)yhchai@163.com。
基金項目:黑龍江省自然科學基金重點項目(ZD201303)
收稿日期:2015-03-13