張瀚文, 李 野, 江 晟, 鄧志吉
(1. 長春理工大學(xué) 物理學(xué)院, 長春 130022; 2. 浙江大華技術(shù)股份有限公司, 杭州 310051)
傳統(tǒng)大米品質(zhì)檢測以凱氏定氮法、 高效液相色譜法等化學(xué)方法為主, 不僅要求專業(yè)技術(shù)人員技術(shù)水平高[1], 且具有操作流程復(fù)雜、 檢測周期長并損耗大量稻米樣本等弊端[2]. 高光譜成像檢測技術(shù)是基于連續(xù)密集波段下的二維灰度圖像和一維光譜圖像構(gòu)成的三維數(shù)據(jù)立方體, 探測載體目標(biāo)的幾何空間信息和多維光譜信息, 獲取目標(biāo)高分辨率、 高質(zhì)量成像數(shù)據(jù). 目前, 提取高光譜感興趣區(qū)域(region of interest, ROI)方法很多, 吳瓊[3]和曹崴[4]利用ENVI軟件獲取高光譜ROI區(qū)域譜段信息是應(yīng)用最廣泛的方法, 但其提取速度較慢, 人工操作頻繁, 易導(dǎo)致新誤差. 圖像分割作為模式識別的重要方法已廣泛應(yīng)用于數(shù)字圖像預(yù)處理, Chala等[5]利用卷積神經(jīng)網(wǎng)絡(luò)提出了一種視網(wǎng)膜圖像自動(dòng)分割編/解碼器結(jié)構(gòu)方法; Triki等[6]提出了一種Mask-RCNN圖像分割算法致力于氣候變換與植被演變研究. 能量泛函活動(dòng)輪廓波算法是經(jīng)典的圖像分割方法之一, 該方法可獲得閾值分割最優(yōu)圖像控制點(diǎn), 實(shí)現(xiàn)目標(biāo)圖像的精準(zhǔn)分割. 計(jì)算機(jī)視覺在識別圖像典型特征時(shí), 圖像背景噪聲對分割圖像特征區(qū)域存在一定干擾, Zuo等[7]利用非局部均值化和自適應(yīng)性, 提出了一種小波閾值圖像去噪方法, 豐富重復(fù)的特征圖像. 圖像降噪有助于全面檢測特征區(qū)域, 增強(qiáng)圖像清晰度與信噪比[8], 更好地實(shí)現(xiàn)高光譜成像多維信息處理, 實(shí)現(xiàn)健康大米(healthy rice, HR)、 陳化大米(aged rice, AR)和霉變大米(moldy rice, MR)的快速分類識別. 針對上述問題, 本文提出一種自動(dòng)獲取近紅外高光譜典型特征的模式識別算法, 保證高光譜有效信息不缺失, 并對比分析了3種品質(zhì)、 4個(gè)地區(qū)大米的ROI區(qū)域和幾何形心點(diǎn)(geometric centroid point, GCP)品質(zhì)分類效果.
樣本采用黑龍江省五常市大米, 吉林省柳河縣合十貢米、 江蘇省宜興市小町米及河北省承德市小町米.
使用Hyperspec Ⅲ近紅外高光譜成像系統(tǒng)(美國Headwall公司)采集樣本, 設(shè)備工作波段為885~1 701 nm, 共172個(gè)波段. 應(yīng)用該系統(tǒng)采集高光譜信息前經(jīng)若干次對比預(yù)實(shí)驗(yàn)調(diào)整光通量、 物距和移動(dòng)速度等多個(gè)參數(shù). 近紅外高光譜成像系統(tǒng)結(jié)構(gòu)如圖1所示.
圖1 近紅外高光譜成像系統(tǒng)Fig.1 Near infrared hyperspectral imaging system
為驗(yàn)證不同品質(zhì)大米典型特征識別的有效性, 選擇MATLAB2017進(jìn)行數(shù)據(jù)分析, 實(shí)驗(yàn)環(huán)境為Intel Core i7-10700 CPU, 16 GB內(nèi)存, Windows10專業(yè)版操作系統(tǒng), 實(shí)驗(yàn)技術(shù)路線如圖2所示.
圖2 實(shí)驗(yàn)技術(shù)路線Fig.2 Experimental technical route
采集HR,AR和MR大米近紅外高光譜圖像(near infrared hyperspectral imaging, NIR-HSI), 將大米樣本約按5∶1分為訓(xùn)練集和預(yù)測集, 其中訓(xùn)練集1 200粒大米, 泛化預(yù)測集252粒大米, 分別對大米形態(tài)ROI與GCP區(qū)域建立識別模型, 對比分析大米不同典型特征品質(zhì)分類效果, 選擇更適合本文算法的大米典型特征區(qū)域預(yù)測大米品質(zhì).
為驗(yàn)證不同品質(zhì)大米樣本, 用化學(xué)試劑進(jìn)行大米品質(zhì)定性對比. 化學(xué)實(shí)驗(yàn)效果如圖3(A),(B)所示, 其中HR樣本液為綠色, AR樣本液為橙色; HR與AR測試卡呈陰性雙紅色線條, MR呈陽性單紅色線條, 如圖3(C),(D)所示.
圖3 HR,AR,MR化學(xué)定性對比Fig.3 Chemical qualitative comparison of HR,AR and MR
本文任意選取高光譜第40維作為初始表征圖像進(jìn)行大米NIR-HSI圖像預(yù)處理, 在表征圖像上進(jìn)行掩膜泛函能量活動(dòng)輪廓(Mask-Snake)運(yùn)算處理, 利用一個(gè)掩膜矩陣重新計(jì)算圖像中的像素值[9], 再根據(jù)表征圖像中的能量梯度確立米粒的基本ROI區(qū)域限界. 其閾值分割算法模型為
(1)
其中:Eint=V(S)表示米粒ROI輪廓內(nèi)的自身能量, 稱為米粒內(nèi)部能量;Eimage(V(S))表示米粒ROI輪廓邊界對應(yīng)像素點(diǎn)的能量, 稱為米粒外部能量;Econ(V(S))表示米粒內(nèi)、 外部能量的方差相關(guān)項(xiàng). 內(nèi)部能量由彈性能量和彎曲能量兩部分構(gòu)成.
經(jīng)Mask-Snake高光譜成像預(yù)處理后, 表征圖像已初具米?;拘螒B(tài)與邊界, 但圖像中仍存在少量分布不均勻的背景噪點(diǎn). 通過腐蝕膨脹運(yùn)算使目標(biāo)圖像的輪廓變得更光滑清晰, 其具體作用為斷開較窄的狹頸并消除細(xì)突出物, 使米粒形態(tài)的邊界變得銳利可見. 將降噪后的表征分割圖像應(yīng)用八聯(lián)通域相接, 且逐個(gè)標(biāo)記樣本. 降噪結(jié)構(gòu)元B對集合A進(jìn)行腐蝕膨脹降噪運(yùn)算, 模型定義為
A°B=(A!B)⊕B,
(2)
先令B對A進(jìn)行腐蝕, 然后用B對結(jié)果進(jìn)行膨脹.A°B的邊界由B中點(diǎn)建立, 當(dāng)B在A的邊界內(nèi)側(cè)滾動(dòng)時(shí),B所能到達(dá)A邊界的最遠(yuǎn)點(diǎn), 即為降噪?yún)^(qū)域.其中A為表征圖像全域,B為腐蝕膨脹模塊.
目標(biāo)樣本初始表征圖像經(jīng)Mask-Snake與降噪預(yù)處理, 可得到一顆純凈的大米形態(tài)學(xué)區(qū)域, 但每張NIR-HSI圖像中包含多粒樣本, 不同米粒典型特征區(qū)域光譜信息不同, 在MATLAB仿真平臺中實(shí)現(xiàn)樣本大米數(shù)據(jù)典型特征屬性可視化.
基于Mask-Snake連通域確定每粒大米表征圖像的典型特征形態(tài)學(xué)區(qū)域, 對每粒樣本的高光譜成像數(shù)據(jù)進(jìn)行相同位置區(qū)域的172維全譜段形態(tài)覆蓋, 以確保每一維度上的高光譜圖像形態(tài)信息相同, 如圖4所示. 圖4中白色區(qū)域?yàn)榇竺仔螒B(tài)ROI區(qū)域, 大米高光譜形態(tài)ROI典型特征需計(jì)算白色區(qū)域內(nèi)的全譜段平均光譜反射值, 繪制大米ROI區(qū)域原始光譜圖像; 紅色虛線為大米形態(tài)邊界自適應(yīng)畫出的矩形錨框, 根據(jù)矩形錨框的尺寸計(jì)算出大米GCP區(qū)域; 大米高光譜集合形心點(diǎn)典型特征需計(jì)算圖中藍(lán)色“*”號像素點(diǎn)的全譜段光譜反射值, 繪制大米GCP區(qū)域原始光譜圖像.
圖4 大米典型特征區(qū)域Fig.4 Typical characteristic area of rice
為提高大米品質(zhì)識別的精確率, 對兩種典型特征區(qū)域的大米反射光譜值進(jìn)行多元散射校正(multivariate scattering correction, MSC)預(yù)處理, 該方法可有效消除由于散射水平不同帶來的光譜差異, 增強(qiáng)光譜曲線與數(shù)據(jù)之間的相關(guān)性, 以此作為分類器輸入數(shù)據(jù)進(jìn)行大米典型特征區(qū)域?qū)Ρ确治? 為大米品質(zhì)分類提供一個(gè)較好的數(shù)據(jù)預(yù)處理狀態(tài). 光譜校正模型為
(3)
其中Datai為光譜平均值,bi為基線平移量,ki為基線偏移量.
支持向量機(jī)(support vector machine, SVM)是數(shù)據(jù)集在二維/三維空間下至少存在一種分割超平面的分類算法, 可避免機(jī)器學(xué)習(xí)中的維數(shù)災(zāi)難現(xiàn)象[10]. 如圖5所示, 在二維/三維空間下, 其決策方程對應(yīng)空間中存在一個(gè)分割超平面, 將數(shù)據(jù)線性區(qū)分.
圖5 支持向量機(jī)空間結(jié)構(gòu)示意圖Fig.5 Spatial structure diagram of support vector machine
當(dāng)存在低維可區(qū)分時(shí), 目標(biāo)函數(shù)為
(4)
當(dāng)存在低維不可分時(shí), 通過核變換進(jìn)行三維空間映射分類, 其目標(biāo)函數(shù)為
(5)
NIR-HSI成像數(shù)據(jù)為空間非線性關(guān)系. 如式(4), 在低維空間下目標(biāo)函數(shù)較難進(jìn)行大米品質(zhì)線性區(qū)分, 故將原始光譜數(shù)據(jù)映射至式(5)的三維空間目標(biāo)函數(shù)中進(jìn)行非線性數(shù)據(jù)分類. 每個(gè)產(chǎn)地的3種品質(zhì)大米數(shù)據(jù)在高維空間中進(jìn)行兩次SVM運(yùn)算, 兩兩區(qū)分后得到大米品質(zhì)可視化判別結(jié)果.
3.1 大米NIR-HSI典型特征區(qū)域信息提取
以吉林省柳河縣合十貢米為例, HR,AR,MR典型特征提取分別如圖6~圖8所示. 由圖6和圖8可見, HR與MR樣本經(jīng)Mask-Snake運(yùn)算閾值分割后獲取了精度較高的ROI區(qū)域. 由圖7可見, AR樣本質(zhì)地松脆, 細(xì)微顆粒脫落在實(shí)驗(yàn)背板中, 圖像分割后不能完全將樣本微屑產(chǎn)生的噪聲去除, 需用腐蝕與膨脹運(yùn)算進(jìn)行降噪, 得到較高信噪比的分割圖像.
圖6 HR典型特征提取Fig.6 Typical feature extraction of HR
圖7 AR典型特征提取Fig.7 Typical feature extraction of AR
圖8 MR典型特征提取Fig.8 Typical feature extraction of MR
由圖6~圖8可見, 每粒大米的形態(tài)ROI與GCP區(qū)域經(jīng)NIR-HSI圖像預(yù)處理后, 其表征圖像大米顆粒邊界精確、 分割形態(tài)飽滿, 所選樣本大米的ROI與GCP區(qū)域可較可靠地獲取每粒大米樣本的NIR-HSI典型特征區(qū)域信息. 相比于ENVI軟件手動(dòng)獲取高光譜ROI和GCP區(qū)域信息, 其操作流程繁瑣、 耗時(shí)也相對較長, 不便于高數(shù)量級高光譜成像典型特征區(qū)域的光譜信息提取, 而基于Mask-Snake高光譜圖像自適應(yīng)典型特征區(qū)域分割算法, 其獲取高光譜多維信息速度更快, 算法流程更高效, 整體技術(shù)路線更穩(wěn)定.
分別計(jì)算出HR,AR和MR樣本的形態(tài)ROI與GCP區(qū)域的原始光譜圖像, 對所獲取的各品質(zhì)大米原始反射光譜進(jìn)行MSC預(yù)處理, 結(jié)果如圖9~圖11所示. 由圖9~圖11可見, 基于大米樣本ROI區(qū)域的原始光譜反射曲線整體較光滑, 離散域較集中在一定幅值內(nèi), 經(jīng)MSC預(yù)處理的光譜反射曲線, 其非線性關(guān)系更集中, 趨向形成一條非線性擬合帶. 樣本GCP區(qū)域的原始光譜反射曲線, 每條非線性光譜反射值呈小幅度鋸齒狀, 離散域較ROI區(qū)域幅度更大, GCP原始光譜經(jīng)MSC預(yù)處理后在一定程度上擬合了各光譜反射值之間的散射差異, 但效果并不理想. 總之, 大米樣本形態(tài)ROI區(qū)域光譜反射信息較平滑, 光譜反射率相對集中; 而大米GCP區(qū)域光譜反射值則呈現(xiàn)小范圍波動(dòng)前進(jìn)趨勢, 光譜反射率相對離散. 此外, HR與AR光譜反射趨勢大致相同, 約在1 150,1 215,1 330,1 380,1 460 nm處出現(xiàn)波峰波谷, 但HR與AR的光譜反射率幅值存在一定差異; 而MR樣本受黃曲霉毒素B1侵染影響, 約在1 215,1 380,1 460 nm處后的光譜反射趨勢較HR與AR發(fā)生較大變化.
圖9 HR光譜圖像Fig.9 Spectral images of HR
圖10 AR光譜圖像Fig.10 Spectral images of AR
圖11 MR光譜圖像Fig.11 Spectral images of MR
本文以SVM為空間映射分類模型, 分別建立大米NIR-HSI典型特征區(qū)域的Mask-Snake-MSC-SVM映射分類模型. 將來自黑龍江省五常市的大米(HLJWC)、 吉林省柳河縣的合十貢米(JLLH)、 江蘇省宜興市的小町米(JSYX)以及河北省承德市小町米(HBCD)的HR,AR和MR共1 200粒大米樣本作為訓(xùn)練集, 識別率列于表1; 將4個(gè)產(chǎn)地的HR,AR和MR亂序排布并采集NIR-HSI數(shù)據(jù), 共252粒大米作為泛化預(yù)測集, 識別率列于表2.
表1 大米典型特征訓(xùn)練集識別率
表2 大米典型特征泛化預(yù)測集識別率
首先, 將大米NIR-HSI數(shù)據(jù)的訓(xùn)練集進(jìn)行Mask-Snake圖像預(yù)處理, 分別獲取大米ROI與GCP區(qū)域的原始光譜反射信息; 其次, 將兩組原始光譜信息分別進(jìn)行MSC光譜預(yù)處理; 最后, 將兩組原始光譜信息分別載入至SVM映射分類模型中.
由表1可見, 訓(xùn)練集大米ROI區(qū)域光譜信息識別準(zhǔn)確率總體為98.50%, 大米GCP區(qū)域光譜信息識別準(zhǔn)確率總體為94.92%, 前者較后者識別精度略高3.58%. 由表2可見, 泛化預(yù)測集大米ROI區(qū)域光譜信息識別準(zhǔn)確率總體為94.84%, 除HBCD-AR等4種品質(zhì)大米識別準(zhǔn)確率在90%以下外, 其他產(chǎn)地的大米品質(zhì)識別準(zhǔn)確率均在90%以上; 大米GCP區(qū)域光譜信息識別準(zhǔn)確率總體為84.13%, 僅HLJWC-HR,HBCD-HR和HBCD-AR的模型識別精度在90%以上, 其余產(chǎn)地的大米品質(zhì)識別準(zhǔn)確率均在90%以下; 泛化預(yù)測集ROI較GCP識別精度高10.71%. 基于大米ROI區(qū)域光譜信息的泛化預(yù)測集比訓(xùn)練集識別精度降低3.66%; 而大米GCP區(qū)域光譜信息的泛化預(yù)測集比訓(xùn)練集識別精度降低了10.79%, 下降幅度較大.
在NIR-HSI目標(biāo)樣本數(shù)據(jù)處理技術(shù)路線一致的前提下, 基于GCP區(qū)域光譜信息的建模精度略低, 原因是受NIR-HSI空間信息限制, 所提取的原始光譜信息僅能表示單一像素點(diǎn)譜段信息, 并不能完全代表一粒完整大米的全部多維度高光譜信息, 單一GCP區(qū)域未能更好地利用高光譜豐富的空間信息, 導(dǎo)致大米GCP區(qū)域信息識別精度較低. 而大米ROI區(qū)域利用了高光譜豐富的多元像素、 多維空間信息, 所提取原始平均光譜信息更具有NIR-HSI大米樣本整體代表性, 檢測精度更高. 因此, 大米形態(tài)ROI區(qū)域比GCP區(qū)域建模更適合Mask-Snake-MSC-SVM大米品質(zhì)鑒別算法.
圖12為大米品質(zhì)可視化判別結(jié)果, 以JLLH為例, 3種品質(zhì)大米呈不同姿態(tài)亂序分布, 為大米品質(zhì)識別模型增加泛化性與普適性, 圖12中綠框?yàn)镠R, 藍(lán)框?yàn)锳R, 紅框?yàn)镸R. 與文獻(xiàn)[11]中大米產(chǎn)地溯源分類識別相比, 本文分類準(zhǔn)確率更高. 文獻(xiàn)[11]方法用ENVI4.8版本手動(dòng)提取大米感興趣區(qū)域, 將該區(qū)域內(nèi)像素點(diǎn)平均光譜值作為后續(xù)的分類信息, 綜合分類準(zhǔn)確率為79%, 該方法人為提取高光譜典型特征, 其主觀因素較強(qiáng).
圖12 JLLH三種品質(zhì)大米可視化分類識別結(jié)果Fig.12 Visual classification and recognition results of three kinds of quality rice in JLLH
綜上所述, 本文針對大米近紅外高光譜特征輪廓不清導(dǎo)致有效信息損失與有損化品質(zhì)檢測的問題, 提出了一種基于掩膜下能量泛函活動(dòng)輪廓波的大米高光譜典型特征區(qū)域提取算法組合模型. 采用能量泛函活動(dòng)輪廓波圖像分割算法自適應(yīng)獲取大米典型特征區(qū)域, 使二維形態(tài)表征信息覆蓋高光譜多維度信息, 快速提取高光譜大米典型特征區(qū)域內(nèi)的光譜信息, 優(yōu)化了大米高光譜典型特征區(qū)域提取算法. 基于Msak-Snake對原始NIR-HSI數(shù)據(jù)進(jìn)行圖像預(yù)處理, 提取大米ROI與GCP區(qū)域的譜段信息, 分別建立SVM大米品質(zhì)特征映射模型, 對比分析了高光譜大米典型特征選取對映射模型識別精度的影響, 與ENVI提取高光譜感興趣區(qū)域方法相比, 本文方法自適應(yīng)捕獲大米形態(tài)ROI區(qū)域, 識別精度更優(yōu). 實(shí)驗(yàn)結(jié)果表明, 對4個(gè)產(chǎn)地、 3種品質(zhì)大米樣本進(jìn)行NIR-HSI形態(tài)ROI區(qū)域與GCP區(qū)域的光譜信息自適應(yīng)提取, 分別建立兩種NIR-HSI典型特征區(qū)域的Mask-Snake-MSC-SVM分類映射模型, 經(jīng)對比分析后, 訓(xùn)練集大米形態(tài)ROI區(qū)域識別精度為98.50%, GCP區(qū)域識別精度為94.92%; 泛化性預(yù)測集形態(tài)ROI區(qū)域識別精度為94.84%, GCP區(qū)域識別精度為84.13%, 大米形態(tài)ROI區(qū)域更適合整套大米品質(zhì)鑒別算法模型. 本文Mask-Snake-MSC-SVM大米品質(zhì)識別仿真模型可視化判別精度較高, 能有效解決大米品質(zhì)無損化快速檢測問題, 泛化性預(yù)測集使模型具有較強(qiáng)的實(shí)用性與泛化性.