胡峻峰 曹軍 趙亞鳳
(東北林業(yè)大學,哈爾濱,150040)
責任編輯:張 玉。
機器視覺,由于其具有無損、快速、準確等優(yōu)點,在木材檢測領域得到了廣泛應用,在原木檢尺、木材缺陷分析、鋸材外觀分等、木材顏色分析及評定、木材特征分析、樹種識別、木材紋理特征分析、木材微觀特征分析中取得了大量成果[1],為木材加工自動化提供了技術手段。在木材表面缺陷識別方面,近十幾年中,國外研究者提出了很多有效的紋理和缺陷特征描述子,并結合非監(jiān)督的聚類防火或者監(jiān)督學習的支持向量機、神經(jīng)網(wǎng)絡等,實現(xiàn)了木材表面缺陷識別、木材紋理分類[2-11]。
隨機森林(Random Forests,RF)算法,是一種較新的模型預測和分類算法,相對于其他分類算法而言,隨機森林有著更快的計算速度、更強的抗噪聲能力,并能自然處理多分類問題,能自然避免過擬合。從算法提出至今,在生物學、醫(yī)學和經(jīng)濟學等多領域,特別是交叉領域得到了廣泛的應用。由于隨機森林算法有非??斓倪\算速度,在分類問題上表現(xiàn)優(yōu)異,為此,本文嘗試利用隨機森林算法,進行木材表面圖像的分類。以實木地板缺陷為研究對象,結合缺陷特征,對分割后的實木地板缺陷圖像進行快速分類,旨在保證在線分選的實時性。
與其他學習分類算法一樣,隨機森林算法有模型建立和預測2 個步驟。模型建立過程即訓練過程,利用決策樹對模型進行訓練。在隨機森林中有很多的決策樹,并且每一棵決策樹之間沒有關聯(lián);根據(jù)輸入的特征信息和人工專家分類標簽,建立隨機森林模型,構建森林的過程為訓練過程。在線分等過程中,攝像頭采集實木地板表面圖像,提取特征,作為隨機森林模型的輸入,讓每一棵決策樹并行判斷該樣本屬于哪一類,再根據(jù)決策樹投票數(shù)量預測輸入樣本最終歸為哪一類。
隨機森林是基于Bootstrap 方法的重采樣,產(chǎn)生多個訓練集。設樣本的屬性個數(shù)為M,m 是滿足條件0<m<M 的整數(shù),隨機森林算法的實現(xiàn)可分為6 步:
(1)選用Bootstrap 方法對樣本進行重采樣,隨機生成T 個訓練子集(S1,S2,…,ST),對于給定的1個訓練樣本,通過n 次隨機的可重復的采樣,從數(shù)據(jù)(x1,y1)…(xn,yn)出發(fā),構建一個Bootstrap 樣本(x1*,y*1)…(x*n,y*n)。
(2)利用每個訓練集進行訓練,生成對應的決策樹(C1,C2,…,CT);逐個在決策樹的中間節(jié)點選擇屬性,從M 個屬性中隨機選取m 個屬性,構成當前選擇節(jié)點的分裂屬性集;并且在這m 個屬性中選取最好的分裂方式,對選定節(jié)點隨機分裂;在整個森林構建過程中,保持m 的值始終不變。
(3)每棵決策樹都充分生長,不進行剪枝處理。
(4)利用對應的決策樹對輸入的測試樣本(X)進行分析預測,得到對應的類別C1(X),C2(X),…,CT(X)。
(5)采用投票的方法,計算所有的投票數(shù);在T個決策樹中輸出最多的類,為測試集樣本(X)最終所屬類別。
高中階段是學生最為關鍵的發(fā)展階段和學習階段,所以在進行課程教學方法應用的過程中,廣大教師更需要根據(jù)學生的實際情況,結合其身心特點,制訂良好的培養(yǎng)和教育方案。學科培養(yǎng)的本質就是學科素養(yǎng),這一工作在高中歷史課程教學中同樣占據(jù)著十分重要的位置,能良好地促進學生全面開展歷史學科的學習。歷史素養(yǎng)的主要組成環(huán)節(jié)有知識、能力、正確的價值觀、歷史意識等。課標指出:普通高中在進行歷史課程教學中要將歷史唯物主義作為指導思想,使學生逐漸掌握人類歷史的發(fā)展情況,對學生的人文素養(yǎng)進行培養(yǎng),從而促進學生得到更有效的發(fā)展。因此,在當前教育背景下,教師如何對學生進行歷史素養(yǎng)培養(yǎng)就是當前最為關鍵的問題。
(6)與測試集的分類標簽比較,計算隨機森林正確分類的比例。
圖像的特征可用很多方式描述,其中顏色特征、紋理特征、形狀特征、空間關系特征,是常用的4 種[14]。本文對分割后的缺陷圖像,提取顏色特征、形狀特征、Tamura 紋理特征、灰度共生矩陣4類特征。
為了避免不同的光照條件、材質顏色不同,對顏色分量產(chǎn)生的影響,將Lab 顏色空間的3 個分量(L、a、b)均勻劃分,設Lab 三維顏色空間的L、a、b 分量中都有20 個bin,在顏色空間范圍內(nèi)做平均。將統(tǒng)計的直方圖歸一化,用L、a、b 各分量中計算子色彩bin 在每個分量上的密度(即不同缺陷特征中,各個bin 的像素占該子區(qū)域總像素數(shù)的百分比),衡量它在顏色上的分布特征。本文利用平均強度作為特征,用公式(1)計算。
式中:Li、ai、bi為L、a、b 各分量中第i 個bin 的像素點數(shù)。對于活節(jié)、死節(jié)、蟲眼,其歸一化顏色集分布如圖1所示。可見,3 類不同缺陷顏色直方圖,在特征分布形狀和數(shù)值上都有較大差別,可以用來進行缺陷類別的區(qū)分。根據(jù)缺陷大小不同,其提取時間會有差別。在配置Intel 酷睿處理器、主頻2.2 GHz、內(nèi)存2.0 GB 的PC 機上,基于Matlab2013b 平臺(以后的其他操作均基于該配置和平臺),提取時間小于0.15 s。
圖1 不同缺陷的顏色直方圖
實木地板表面缺陷提取周長、面積、外接矩形長寬比、矩形度、致密度、位置、圓形性,共7 個參數(shù)描述其形狀特征。周長、面積為分割后缺陷的邊緣周長和面積;外接矩形長寬比描述缺陷形狀特征,長寬比越大,表現(xiàn)為越細長;矩形度指的是目標的面積與其最小外接矩形的面積之比,反映了目標對其外接矩形的填充程度;致密度為周長的平方與面積的比值,致密度大是單位面積的周長大,意味著區(qū)域離散,形狀相對復雜,反之則為簡單形狀;位置可以通過目標區(qū)域的面積中心表示,目標區(qū)域的質心為該區(qū)域面積中心;圓形性通過缺陷區(qū)域的邊界點表示,為目標缺陷所有邊界距重心之間距離的平均值與距離均方差的比值,當區(qū)域形狀趨向于圓形變化時,始終單調遞增并趨向于無窮大。
外接矩形用最小外接矩形的做法,在90°范圍內(nèi)將缺陷特征邊界以每次3°左右的增量旋轉,記錄每次旋轉所得到的缺陷外接矩形邊界點的坐標的最大值和最小值。旋轉到某一個角度后,外接矩形的面積達到最小,取面積最小的外接矩形為需要的外接矩形。
根據(jù)以上的形狀特征,對樣本庫中每種缺陷取200 幅圖像(見表1)。
表1 缺陷形狀特征
已經(jīng)分割出來缺陷的圖像,要得到以上特征參數(shù),主要有周長、面積統(tǒng)計;最小外接矩行長寬、圓形性計算。統(tǒng)計以上特征的平均時間,計算周長、面積用時0.161 4 s,最小外接矩陣計算用時0.183 0 s,圓形性計算用時1.229 s。
Tamura 紋理是基于人類的主觀對圖形的認知,提出了6 類紋理特征的基本組成元素,包括:粗糙度、對比度、方向度、線性度、規(guī)整度、粗略度;在6 種特征中,粗糙度、對比度、方向度能夠最直觀的體現(xiàn)圖像中的紋理特征。這幾種紋理特征恰好符合人類視覺對目標的感知,已經(jīng)被廣泛的應用在各種圖像信息檢索系統(tǒng)中。
在Matlab2013b 環(huán)境下,本文提取Tamura 紋理常用的5 個參數(shù),有粗糙度、對比度、方向度、線性度、粗略度。根據(jù)Tamura 紋理的參數(shù),對選出的每種缺陷200 幅圖像進行計算,得到3 類缺陷的參數(shù)和相應的用時(見表2)。
表2 3 種缺陷部分樣本Tamura 紋理特征
灰度共生矩陣通過計算灰度圖像得到它的共生矩陣,然后計算共生矩陣得到矩陣的部分特征值,分別代表圖像的某些紋理特征。為了能更直觀地用共生矩陣描述紋理狀況,從共生矩陣可以導出能量、對比度、逆差距、熵、自相關5 種典型的參數(shù)。能量是灰度共生矩陣元素值的平方和,反映了圖像灰度分布均勻程度和紋理粗細度;對比度反映了圖像的清晰度和紋理溝紋深淺的程度,紋理溝紋越深,其對比度越大,視覺效果越清晰;逆差距反映圖像紋理的同質性,度量圖像紋理局部變化的多少,其值大則說明圖像紋理的不同區(qū)域間缺少變化,局部非常均勻;熵是圖像所具有的信息量的度量,表示了圖像中紋理的非均勻程度或復雜程度;自相關度量空間灰度共生矩陣元素在行或列方向上的相似程度,反映了圖像中局部灰度相關性,當矩陣元素值均勻相等時,相關值大,反之則小。根據(jù)以上特征參數(shù),對選出的每類200 幅圖像進行計算,得到3 類缺陷的參數(shù)和相應的用時(見表3)。
表3 缺陷灰度共生矩陣參數(shù)
前面對缺陷在顏色、形狀和紋理3 類的不同缺陷特征做了計算,但缺陷對最后分類結果的重要性如何尚不清楚??梢钥隙ǖ氖牵煌娜毕萏卣鲗ψ罱K的分類結果有不同的貢獻;為了選取最合適的缺陷,需要對特征進行篩選。特征重要性檢測中,可以選用方差作為依據(jù)。不同特征類別的方差是不同的。不同缺陷類別的方差越大,說明其相應特征值的離散程度越大,與其他特征值相比含有更多的信息;而在同種缺陷之間的特征值方差越小,說明其表征歸屬于同一類的可能越大;一個好的缺陷特征,需要有大的類外方差和小的類間方差。
基于以上思想,筆者利用隨機森林對缺陷重要性進行分析。在隨機森林中,利用OOB(袋外數(shù)據(jù))的值計算特征重要性,步驟如下:
(1)對隨機森林中的每一個決策樹,根據(jù)這棵樹的袋外數(shù)據(jù)計算其相應的OOB 誤差,記為EOOB1。
(2)對袋外數(shù)據(jù)的所有樣本特征X 中隨機加入噪聲干擾,再次計算樣本特征的OOB 誤差,記為EOOB2。
(3)隨機森林中設定決策樹數(shù)量為N,特征X的重要性VI可由式(2)計算。
該重要性參數(shù)可以描述為:若某個特征加入隨機噪聲后,OOB 的值大幅降低,誤差減小明顯,說明該特征對樣本分類有很大影響;換言之,其重要性很高。
由于顏色特征有60 維,維數(shù)較多,在比較重要性時,取平均值作為一個重要度;另外,還有形狀特征、Tamura 紋理特征、灰度共生矩陣3 類特征共18維。按照重要性計算公式,對78 維特征計算重要性,并將顏色特征的60 維特征從3 個顏色分量取平均,比較了21 個特征重要性(見表4)。
表4 特征重要性與提取時間
由表4可見:形狀特征的重要性較低,紋理特征和顏色特征重要性較高。本文中由于在線分選的需要,特征提取時間是另外一個非常重要的參數(shù),本文的特征分析還要考慮特征提取時間。根據(jù)上述的分析過程和平均提取時間,最終獲得各類相關特征的重要性及提取時間。顏色直方圖在時間性能上最優(yōu),重要性居中;形狀特征在重要性上表現(xiàn)最差,圓形度的提取也很大;Tamura 紋理在性能上最優(yōu),特征提取用時居中;灰度共生矩陣整體性能居中,時間性能上最差。從整體性能上比較,Tamura 紋理和顏色直方圖是最優(yōu)的兩組參數(shù)。
實驗采用的樣本是從現(xiàn)場隨機選取的真實測試樣例。根據(jù)常見的3 類缺陷,每類選取200 個樣本,隨機選取每類缺陷圖像的100 個作為訓練樣本,100個作為測試樣本。利用經(jīng)典隨機森林,決策樹規(guī)模為500,隨機輸入個數(shù)為特征值個數(shù)的開方,對4 種不同的特征單獨輸入或者組合輸入,實驗50 次,其分類誤差表現(xiàn)見圖2。
圖2 不同參數(shù)對應分類結果
由圖2可見:單獨利用Tamura 紋理特征和顏色直方圖進行分類,結果比較穩(wěn)定,正確率達到90%左右,利用灰度共生矩陣,Tamura 紋理特征和形狀特征共18 維特征作為輸入,其分類誤差大部分時候大于Tamura 紋理特征對應的分類誤差。在多類特征組合分類實驗后發(fā)現(xiàn),選擇Tamura 紋理特征和顏色直方圖組合能取得最高的分類精度。筆者在Tamura 紋理特征或顏色直方圖中各取單維特征,設置100 棵樹進行分類,實驗50 次求平均后取整,其混淆矩陣見表5。
表5 混淆矩陣
由表5可見:C2類、C3類圖像混淆的概率遠大于C1類圖像。是由于死節(jié)和蟲眼在顏色特征和紋理特征上較活節(jié)有較強的相似性,如何提取更加有效的特征區(qū)分死節(jié)和蟲眼,是值得進一步研究的問題。
本文從顏色、形狀、紋理3 類特征中提取出缺陷圖像特征。顏色特征選用顏色集直方圖;形狀特征主要基于最小外接矩陣,提取周長、面積、位置、矩陣、圓形相關的形狀參數(shù);紋理特征選取灰度共生矩陣、Tamura 紋理參數(shù)。對這些特征參數(shù),根據(jù)時間和重要度參數(shù),選取Tamura 紋理和形狀特征作為隨機森林分類器的輸入,其分類精度能達到95.67%,時間上也能達到最優(yōu),為木材表面缺陷在線分類提供了有益的參考。
[1] 顏志強,曾欽志,張巧玲.機器視覺技術在木材工業(yè)中的應用研究概況[J].木材加工機械,2013(4):55-59.
[2] Estévez P A,Perez C A,Goles E.Genetic input selection to a neural classifier for defect classification of radiata pine boards[J].Forest Products Journal,2003,53(7/8):87-94.
[3] Silvén O,Niskanen M,Kauppinen H.Wood inspection with nonsupervised clustering[J].Machine Vision and Applications,2003,13(5/6):275-285.
[4] Silvén O,Kauppinen H.Recent developments in wood inspection[J].International Journal of Pattern Recognition and Artificial Intelligence,1996,10(1):83-95.
[5] Gu Yuhua Irene,Andersson Henrik,Vicen Raul.Wood defect classification based on image analysis and support vector machines[J].Wood Science and Technology,2010,44(4):693-704.
[6] Schubert M,Mourad S,Schwarze F W M R.Automated image processing for quantification of blue-stain discolouration of Norway spruce wood[J].Wood Science and Technology,2011,45(2):331-337.
[7] Mosorov V,Tomczak L.Image texture defect detection method using fuzzy C-Means clustering for visual inspection systems[J].Arabian Journal for Science and Engineering,2014,39(4):3013-3022.
[8] 白雪冰,王林.基于空頻變換的木材缺陷圖像分割[J].東北林業(yè)大學學報,2010,38(8):71-74.
[9] 徐姍姍,劉應安,徐昇.基于卷積神經(jīng)網(wǎng)絡的木材缺陷識別[J].山東大學學報:工學版,2013,43(2):23-28.
[10] 謝永華,趙麗花,王金聰.基于顏色和數(shù)學形態(tài)學的木材缺陷檢測研究[J].現(xiàn)代科學儀器,2013(2):75-77.
[11] 王阿川,曹軍,于琳瑛,等.改進C-V 模型的木材缺陷彩色圖像分割研究[J].計算機工程與應用,2012,48(5):164-167,206.
[12] 王志瑞,閆彩良.圖像特征提取方法的綜述[J].吉首大學學報:自然科學版,2011,32(5):43-47.