查啟明, 顧寶興, 姬長英
(南京農(nóng)業(yè)大學(xué) 工學(xué)院,江蘇 南京 210031)
中國是蘋果的生產(chǎn)大國,每年蘋果的種植面積和總產(chǎn)量均為世界第一,但是中國卻不是蘋果貿(mào)易強(qiáng)國,國產(chǎn)蘋果的價(jià)格及質(zhì)量遠(yuǎn)遠(yuǎn)不及進(jìn)口蘋果,主要原因就是我國蘋果的采后分級(jí)技術(shù)落后,不僅在國際市場上缺乏競爭力,而且不能滿足國內(nèi)高端市場的需求。人們?cè)谶x用蘋果時(shí),會(huì)比較看重蘋果的甜度,也就是蘋果內(nèi)部可溶性固形物的質(zhì)量分?jǐn)?shù)。高光譜成像技術(shù)既能夠反映蘋果的外部特征,例如顏色、表明缺陷等肉眼可以看見的特征,又能反映蘋果內(nèi)部的物質(zhì)結(jié)構(gòu)和化學(xué)成分等。
由于高光譜成像技術(shù)的優(yōu)越性,近年來國內(nèi)外在采用高光譜成像技術(shù)檢測農(nóng)產(chǎn)品方面展開了很多的研究。其中,黃文倩等基于400~1 000 nm的蘋果高光譜圖像采用不同的降維方法提取特征波長,然后建立最小二乘支撐向量機(jī)(LS-SVM)建模定量預(yù)測蘋果的可溶性固形物質(zhì)量分?jǐn)?shù)(SSC)。Lu等對(duì)蘋果的硬度進(jìn)行高光譜圖像技術(shù)檢測,利用PCA和ANN相結(jié)合的方法對(duì)兩種產(chǎn)地的蘋果建立模型,模型的相關(guān)系數(shù)分別為0.76和0.55。侯寶路等利用連續(xù)投影算法(SPA)和多元線性回歸算法(MLR)對(duì)梨的高光譜圖像進(jìn)行建模分析,來預(yù)測梨的可溶性固形物含量(SSC)和硬度。羅霞等利用高光譜成像技術(shù)對(duì)火龍果進(jìn)行可溶性固形物質(zhì)量分?jǐn)?shù)檢測,采用PLS和BP神經(jīng)網(wǎng)絡(luò)分別建立預(yù)測模型。
上述研究中大部分是在整個(gè)高光譜波段內(nèi)進(jìn)行特征波長提取,部分是通過經(jīng)驗(yàn)判斷優(yōu)選波段后再采用算法提取特征波長,導(dǎo)致輸入數(shù)據(jù)精度不足。作者將預(yù)處理后的高光譜數(shù)據(jù)先進(jìn)行一階微分后優(yōu)選出噪聲小的波段,再通過連續(xù)投影算法提取特征波長,以此提高模型的預(yù)測精度。
以山東煙富、洛川元帥、洛川富士為研究對(duì)象,在實(shí)驗(yàn)中所使用的蘋果均為2016年7月份在南京浦口水果批發(fā)市場購買。挑選的蘋果表面沒有缺陷、直徑范圍為65~85 mm,大小形狀均勻,共計(jì)198個(gè)。購買來的蘋果放置在冰柜中保存,實(shí)驗(yàn)前分批拿出,待其恢復(fù)至室溫后開始實(shí)驗(yàn)。實(shí)驗(yàn)中隨機(jī)選取150個(gè)樣本作為建模校正集,其余48個(gè)樣本作為建模預(yù)測集。
實(shí)驗(yàn)中所用的高光譜系統(tǒng)包括:Imspector型光譜儀 (芬蘭Specim公司產(chǎn)品)、CCD相機(jī) (美國Imperx公司產(chǎn)品)、鏡頭、21V/150W線性鹵素?zé)簦绹鳬llumination公司產(chǎn)品)、暗箱、電控移動(dòng)平臺(tái)以及計(jì)算機(jī)等部件。高光譜成像波長范圍為358~1 021 nm。參數(shù)設(shè)置如下:曝光時(shí)間52 ms,樣本與鏡頭的距離為330 mm,傳送帶移動(dòng)速度為0.7 mm/s。每個(gè)樣本均在赤道部位標(biāo)記3點(diǎn)(間隔約為)采集3張高光譜圖像,198個(gè)樣本共計(jì)594幅高光譜圖像。
圖1 高光譜系統(tǒng)組成圖Fig.1 Composition diagram of hyperspectral system
為了減少部分噪聲的影響,使用樣本采集相同的參數(shù)條件,經(jīng)行黑白校正,公式為:
式中:R0為采集的樣本原始圖像,B為蓋住鏡頭采集到的圖像,W為反射率為1的校正白板的采集圖像,R為黑白校正后的圖像
使用日本ATAGO公司的PAL-1型糖度儀(誤差在±0.2%之內(nèi))進(jìn)行可溶性固形物(SSC)的測定,每個(gè)樣本測量赤道面均勻間隔的3處,挖取適量的果肉,壓成汁液后進(jìn)行測量,3個(gè)數(shù)值的平均值作為該樣本的SSC值。
使用ENVI軟件提取蘋果的不同波段反射率,提取之前要先確認(rèn)高光譜圖像的感興趣區(qū)域(ROI)。從圖2可以看出同一樣本,相同像素中心區(qū)域的不同像素大小的反射率存在明顯差異,因此在選取ROI時(shí),像素的形狀及大小的選擇顯得尤為重要。郭志明等的研究結(jié)果表明當(dāng)采用圓形150像素點(diǎn)的ROI時(shí),模型效果最佳。因此本文在選取ROI時(shí),在蘋果高光譜圖像的赤道部位,間隔取3處圓形150像素的ROI。以上述3處的平均反射光譜作為該樣本的最終光譜。
圖2 不同像素ROI的反射光譜Fig.2 Reflectance spectra of ROI in different pixel
連續(xù)投影算法(SPA)是一種選擇波長變量的方法,能夠在大量的波長變量中找出共線性最小的變量組合,從而降低模型輸入變量的復(fù)雜性,提高模型的精度。樣本數(shù)M和波長數(shù)N組成的矩陣是原始光譜變量,AM*N為原始光譜變量矩陣,L為最佳波長個(gè)數(shù)(L<M-1),連續(xù)投影算法的步驟如下:
(1)初始化:n-1(第一次迭代)在AM*N中任選一個(gè)列向量(第j列),記為aK(0)(即K(0)=j);
(2)定義一個(gè)集合S:S={j,1≤j≤N,j?{k(0),…,k(n-1)}},這個(gè)集合包含未被選中的列向量的位置,分別計(jì)算aj對(duì)所有未被選中向量的投影:
Paj=aj-(aTjak(n-1))*ak(n-1)*(aTk(n-1)ak(n-1))-1,(j∈S,P是投影算子)
(3)把步驟(2)中計(jì)算的投影值最大的記為k(n):
(4)把步驟(3)中求得的最大投影值作為下一個(gè)迭代過程中的初始值,即:
(5)進(jìn)行下一次迭代:即令n=n+1,如果n<L,返回步驟(2)。
上述循環(huán)結(jié)束后,即得到選取出的特征波長:{k(n),n=0,1,…,N-1}。這樣總共可以得到L*N對(duì)波長組合,將預(yù)測均方根誤差作為所建模型的優(yōu)劣依據(jù),以此選擇出最佳波段。
1.6.1 BP神經(jīng)網(wǎng)絡(luò)BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋網(wǎng)絡(luò),它通過誤差逆向傳播算法進(jìn)行訓(xùn)練,在當(dāng)前科學(xué)研究中得到了廣泛的應(yīng)用,該網(wǎng)絡(luò)模型共包含3個(gè)部分,分別為輸入層、隱含層和輸出層。BP網(wǎng)絡(luò)能夠保存大量的輸入輸出映射關(guān)系,并且具有自主學(xué)習(xí)的能力,并且使用者不用提前掌握這種映射關(guān)系的數(shù)學(xué)方程。它通過不斷調(diào)整網(wǎng)絡(luò)內(nèi)部的權(quán)值和閾值來達(dá)到降低網(wǎng)絡(luò)誤差平方和的目的。
圖3 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Schematic of BP neural network
BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程如下:
(1)輸入模式由輸入層經(jīng)隱含層向輸出層傳播計(jì)算
(2)輸出的誤差由輸出層經(jīng)隱含層傳遞給輸入層
(3)按照上述步驟反復(fù)運(yùn)行
(4)判別全局誤差是否趨向極小值
1.6.2 GA-SVR模型遺傳算法(Genetic algorithm,GA)是通過模擬自然界生物進(jìn)化過程構(gòu)造出來的一種全局自適應(yīng)搜索方法,根據(jù)適應(yīng)度值的大小對(duì)個(gè)體進(jìn)行選擇、交叉、變異及復(fù)制等遺傳操作步驟。在操作中去除適應(yīng)度低的個(gè)體,產(chǎn)生比前代適應(yīng)度高的種群。SVR是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法,能夠用來處理非線性回歸問題等問題。它的主要思想是通過將向量投映到高維空間,構(gòu)建最大間隔的分類超平面,以此解決龐雜數(shù)據(jù)的回歸問題。在SVR模型中,核函數(shù)的類型、懲罰參數(shù)和核函數(shù)參數(shù)在一定程度上影響著模型的泛化能力及預(yù)測精度。作者采用徑向基函數(shù)作為核函數(shù),采用GA搜索確定全局最佳的參數(shù)和。
使用GA算法優(yōu)化SVR模型參數(shù)的過程如下:
(1)設(shè)置初始參數(shù),即遺傳算法種群規(guī)模、進(jìn)化代數(shù)、交叉概率和變異概率
(2)初始化種群,隨機(jī)產(chǎn)生一個(gè)給定規(guī)模的二進(jìn)制代碼種群
(3)對(duì)種群的每個(gè)個(gè)體進(jìn)行運(yùn)算,采用SVR計(jì)算模型的預(yù)測值,并分別分析群體每個(gè)個(gè)體的適應(yīng)度
(4)以遺傳適應(yīng)度為導(dǎo)向,對(duì)種群進(jìn)行復(fù)制、交叉和變異操作,并以此生產(chǎn)下一代
(5)判別是否滿足GA的停止條件,即訓(xùn)練誤差和迭代次數(shù)是否滿足條件,從而選擇是折回步驟(3)還是繼續(xù)向下執(zhí)行
(6)得到最優(yōu)的SVR懲罰參數(shù)和核函數(shù)參數(shù),建立GA-SVR參數(shù)
1.6.3 評(píng)價(jià)標(biāo)準(zhǔn)采集到的高光譜圖像經(jīng)ENVI提取數(shù)據(jù)后,采用S-G平滑、SNV和小波降噪進(jìn)行預(yù)處理,再利用SPA算法提取出特征波長,分別建立BP神經(jīng)網(wǎng)絡(luò)和GA-SVR模型。通過模型的校正集相關(guān)系數(shù)(Rc)、預(yù)測集相關(guān)系數(shù)(Rp)、校正集均方根誤差(RMSEC)、預(yù)測集均方根誤差(RMSEP)和交叉驗(yàn)證均方根誤差(RMSECV)來評(píng)價(jià)模型的性能。其中,Rc、Rp的值越接近 1,RMSEP、RMSECV 的值越小,則模型的性能越好。
在所有樣本中隨機(jī)選取150個(gè)蘋果樣本作為建模校正集,其余48個(gè)樣本作為建模預(yù)測集。校正集及預(yù)測集樣本可溶性固形物質(zhì)量分?jǐn)?shù)真實(shí)值的統(tǒng)計(jì)結(jié)果如表1。
表1 蘋果可溶性固形物的統(tǒng)計(jì)結(jié)果Tablle 1 Statistical results of soluble solid content in apples
采集到的高光譜數(shù)據(jù)存在噪聲信號(hào),這些噪聲信號(hào)會(huì)降低模型的預(yù)測性能。所以需要對(duì)采集的數(shù)據(jù)經(jīng)行預(yù)處理,作者采用的預(yù)處理方法有Savitzky-Golay平滑(S-G)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)和小波降噪(Wavelet-Denoising),結(jié)果如表2所示。
表2 不同預(yù)處理方法的預(yù)測結(jié)果Table2 Prediction resultsofdifferentpretreatment methods
由表2可以看到,采用不同預(yù)處理算法后,有的算法可以提升模型的性能,而有的算法卻降低了模型的性能。采用SNV預(yù)處理后 ,相較于原始光譜而言,模型的校正集吻合度有了提升,但預(yù)測集的預(yù)測精度基本無改善。采用小波降噪預(yù)處理后,校正集和預(yù)測集改善均不明顯。而采用S-G平滑處理后建立的模型相較于原始光譜而言具備較強(qiáng)的預(yù)測分析能力。
所有樣本在圓形150像素ROI內(nèi)的平均反射光譜如圖4所示,通過S-G一階微分處理后的反射光譜圖5可以看到,720~1 010 nm范圍內(nèi)的數(shù)據(jù)較為平滑,故選取該范圍內(nèi)的數(shù)據(jù)用于建立糖度分析的模型。
圖4 所有樣本ROI區(qū)域原始光譜Fig.4 Original spectra of all samples in ROI region
圖5 S-G一階微分處理光譜Fig.5 Spectra of S-G first derivative processing
通過高光譜儀采集到的蘋果數(shù)據(jù),含有數(shù)目巨大的變量,即便通過上述處理后,仍舊保留數(shù)百個(gè)變量。大量的變量數(shù)會(huì)降低模型的運(yùn)行時(shí)間,不便于今后的平臺(tái)移植,也不利于降低蘋果無損檢測的速度和精度。
通過比較各種降維算法后,選擇使用SPA進(jìn)行特征波長的選取,因?yàn)镾PA選取出的特征波長數(shù)目相對(duì)較少,且建立的模型的性能較好。先按照隨機(jī)樣本劃分法,將樣本分成150個(gè)校正集和48個(gè)預(yù)測集。利用SPA對(duì)720~1 010 nm范圍內(nèi)的光譜特征進(jìn)行變量選擇,根據(jù)樣本內(nèi)部的交叉驗(yàn)證均方根誤差RMSECV值來確定最佳的變量數(shù)。如圖6(a)所示,隨著選取波長數(shù)目的增加,RMSECV逐漸降低,波長數(shù)目為12后,RMSECV降低不顯著,且隨著波長數(shù)的增加,模型的復(fù)雜度則變大,所以綜合考慮,選擇12個(gè)有效波長作為模型的輸入變量如圖 6 (b), 他 們 是 740.86、752.95、785.99、800.34、813.59、835.70、842.34、860.05、883.30、897.71、938.70和950.89 nm。
2.4.1 BP神經(jīng)網(wǎng)絡(luò)模型結(jié)果分析BP神經(jīng)網(wǎng)絡(luò)模型的輸入層為經(jīng)SPA篩選出的12個(gè)特征波長變量。隱含層采用logsig型傳遞函數(shù),訓(xùn)練函數(shù)使用trainlm函數(shù)。輸出層就是預(yù)測的蘋果SSC含量,傳遞函數(shù)為pureline,學(xué)習(xí)函數(shù)為learngdm。另外,網(wǎng)絡(luò)的初始參數(shù)設(shè)置如下:訓(xùn)練次數(shù)epochs為1 000,學(xué)習(xí)率lr為0.05,訓(xùn)練精度 goal為0.000 4,測試集48個(gè)樣本的實(shí)驗(yàn)結(jié)果如圖7,BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測相關(guān)系數(shù)=0.743 0,預(yù)測均方根誤差RMSEP=0.797 7。
左圖為預(yù)測值與實(shí)際值的對(duì)比圖,右圖為真實(shí)值與預(yù)測值的95%置信區(qū)間的散點(diǎn)圖,中間的斜線為線性擬合線。從左圖可以看出,BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測結(jié)果可以預(yù)測出真實(shí)值的大致趨勢,僅在部分點(diǎn)位上存在一定誤差。從右圖可以看出真實(shí)值和預(yù)測值的散點(diǎn)圖分布較為離散化。
圖6 SPA選取特征波長結(jié)果Fig.6 Characteristic wavelength results of SPA
圖7 BP模型結(jié)果Fig.7 Results of BP model
圖8 GA優(yōu)化SVR參數(shù)迭代過程Fig.8 SVR parameters optimized by GA
2.4.2 GA-SVR模型結(jié)果分析遺傳算法的初始設(shè)置為,種群規(guī)模為20,進(jìn)化次數(shù)為100,交叉概率為0.5,變異概率為0.01,獨(dú)立運(yùn)行多次,選取出現(xiàn)頻率較高的結(jié)果作為SVR模型的和參數(shù)。如圖8所示,大約迭代20次時(shí),適應(yīng)度值趨于穩(wěn)定,達(dá)到最佳參數(shù)值,分別為c=26.587 9和g=64.643。使用GA算法優(yōu)選出來的參數(shù)值作為SVR模型的輸入?yún)?shù),對(duì)48個(gè)預(yù)測集樣本進(jìn)行預(yù)測分析,實(shí)驗(yàn)結(jié)果如圖9所示。左圖中橫坐標(biāo)為樣本數(shù)量,縱坐標(biāo)為可溶性固形物的質(zhì)量分?jǐn)?shù),右圖為使用SPSS做的預(yù)測集散點(diǎn)圖,橫坐標(biāo)為預(yù)測集可溶性固形物的真實(shí)值,縱坐標(biāo)為預(yù)測值,其中斜線是線性擬合線。模型的相關(guān)系數(shù)Rc=0.880 6,Rp=0.850 5,均方根誤差 RMSEC=0.260 7,RMSEP=0.303 1。
圖9 GA-SVR模型結(jié)果Fig.9 Results of GA-SVR model
從左圖可以看出預(yù)測結(jié)果和真實(shí)值在趨勢上基本吻合,在部分點(diǎn)位上存在些許誤差。從右圖可以看出,真實(shí)值和模型預(yù)測值的散點(diǎn)分布集中在擬合線的兩側(cè),在SPSS中做回歸分析得出的調(diào)整后的判定系數(shù)R2=0.847,擬合優(yōu)度高,預(yù)測效果好。
1)在ENVI中,通過圓形150像素ROI提取出的數(shù)據(jù),經(jīng)由S-G平滑處理后,篩選出720~1 010 nm范圍內(nèi)的數(shù)據(jù)作為模型的輸入變量,此范圍的數(shù)據(jù)平滑性較好。
2)在利用SPA算法提取輸入數(shù)據(jù)的特征變量時(shí),在參考模型均方根誤差的同時(shí)兼顧模型的復(fù)雜度, 選取出的特征波長位:740.86、752.95、785.99、800.34、813.59、835.70、842.34、860.05、883.30、897.71 、938.70和950.89 nm共計(jì)12個(gè)。降低了模型的復(fù)雜度,提高了模型的預(yù)測性能。
3)通過GA算法優(yōu)化SVR模型的懲罰參數(shù)和核函數(shù)參數(shù),遺傳算法的初始設(shè)置為:種群規(guī)模為20,進(jìn)化次數(shù)為100,交叉概率為0.5,變異概率為0.01。 優(yōu)化得到c=26.587 9、g=64.643,此時(shí) SVR 模型的性能最佳。
4)BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測相關(guān)系數(shù)Rp=0.743 0,預(yù)測均方根誤差RMSEP=0.797 7;GA-SVR模型的預(yù)測相關(guān)系數(shù)Rp=0.850 5,預(yù)測均方根誤差RMSEP=0.3031。結(jié)果表明基于SPA算法優(yōu)選出的波長建立的模型預(yù)測精度更高,模型復(fù)雜度得到明顯降低。從GA-SVR模型的散點(diǎn)圖得到調(diào)整后的判斷系數(shù)為0.847,擬合優(yōu)度較高,不被解釋的變量較少,擬合效果較好。