張?jiān)歧?崔超遠(yuǎn),陳永,魯翠萍
(1中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院智能機(jī)械研究所,安徽 合肥 230031;2中國(guó)科學(xué)技術(shù)大學(xué),安徽 合肥 230026;3合肥學(xué)院先進(jìn)制造工程學(xué)院,安徽 合肥 230061)
酸度是衡量蘋(píng)果內(nèi)部品質(zhì)的重要指標(biāo)之一,實(shí)現(xiàn)對(duì)該指標(biāo)的無(wú)損測(cè)定十分重要。可見(jiàn)-近紅外光譜(Vis-NIRS)檢測(cè)技術(shù)以其快速、無(wú)損的優(yōu)勢(shì),在水果糖度、酸度、硬度等內(nèi)部品質(zhì)檢測(cè)領(lǐng)域得到了廣泛應(yīng)用[1?6]。采用Vis-NIRS檢測(cè)設(shè)備獲取到的樣本漫反射光譜信號(hào),主要由樣本分子結(jié)構(gòu)中碳?xì)滏I、碳氧鍵等振動(dòng)產(chǎn)生在可見(jiàn)-近紅外波段的特征譜線,這些特征譜線的強(qiáng)度可以反映樣本中化學(xué)組成的含量。對(duì)于蘋(píng)果的Vis-NIRS,已有相關(guān)研究表明在550~570 nm、650~680 nm、720~740 nm及840~860 nm的波長(zhǎng)范圍內(nèi)存在酸度的特征峰,且酸度含量越高,峰值越大[7?9]。
近年來(lái),研究人員采用化學(xué)計(jì)量學(xué)方法提取光譜有效信息,建立水果內(nèi)部品質(zhì)與光譜信息之間的關(guān)系,構(gòu)建基于Vis-NIRS數(shù)據(jù)的無(wú)損檢測(cè)模型。研究表明通過(guò)光譜特征波長(zhǎng)或波長(zhǎng)區(qū)間數(shù)據(jù)的有效篩選,不僅可以簡(jiǎn)化模型,還可剔除不相關(guān)或非線性變量,建立預(yù)測(cè)能力強(qiáng)、穩(wěn)健性好的模型[10,11],從而實(shí)現(xiàn)預(yù)測(cè)模型的優(yōu)化。在特征波長(zhǎng)選擇方面,應(yīng)用較為廣泛的方法有連續(xù)投影法(SPA)[12]、競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣法(CARS)[13]以及無(wú)信息變量消除法(UVE)[14]等。因設(shè)計(jì)理念的不同,每種算法各有優(yōu)勢(shì),如SPA法篩選的特征波長(zhǎng)數(shù)目少,簡(jiǎn)化了模型,但降低了模型精度;相反,UVE與CARS法選出的波長(zhǎng)變量數(shù)目較多,提高了模型精度,但增加了模型的復(fù)雜度。
近年來(lái),研究人員嘗試融合多種特征波長(zhǎng)選取方法,減少建模變量,簡(jiǎn)化預(yù)測(cè)模型。Fan等[15]提出了CARS-SPA法,用SPA對(duì)CARS選取的特征波長(zhǎng)進(jìn)行二次篩選。將該法應(yīng)用于蘋(píng)果可溶性固形物含量偏最小二乘(PLS)預(yù)測(cè)模型的建立,模型變量數(shù)從42項(xiàng)減少至15項(xiàng)。Jiang等[16]在馬鈴薯還原糖含量的PLS檢測(cè)模型建立過(guò)程中使用CARS-SPA法,模型變量數(shù)從33項(xiàng)減少至17項(xiàng)。Feng等[17]使用SPA-SPA法提取波長(zhǎng)變量,建立蘋(píng)果硬度檢測(cè)模型,建模變量數(shù)從9項(xiàng)降至4項(xiàng)。Liu等[18]通過(guò)UVE-SPA進(jìn)行建模變量選擇,建立了多種蘋(píng)果的(MLR)通用模型,建模變量數(shù)從155項(xiàng)減少至22項(xiàng),但模型精度下降了4.6%。Wang等[19]基于UVE-SPA法選取的特征波長(zhǎng)建立番茄紅素含量PLS檢測(cè)模型,建模變量數(shù)從283項(xiàng)降至35項(xiàng),但預(yù)測(cè)模型精度下降了3.4%。上述研究表明這些方法可以有效減少建模變量數(shù)目,然而會(huì)降低模型精度。
為綜合考慮建模變量數(shù)目及模型精度,本文提出一種逐次追加、優(yōu)勝劣汰的競(jìng)爭(zhēng)性特征波長(zhǎng)篩選法,建立了基于PLS的預(yù)測(cè)模型。在“黃金帥”蘋(píng)果酸度的無(wú)損測(cè)定中運(yùn)用該方法,不僅保證了檢測(cè)精度,且優(yōu)化了模型的復(fù)雜程度,研究結(jié)果對(duì)基于Vis-NIRS的水果品質(zhì)無(wú)損檢測(cè)具有重要意義。
挑選沒(méi)有表面損傷和缺陷、大小勻稱的31個(gè)“黃金帥”蘋(píng)果作為樣本。對(duì)每個(gè)樣本沿著赤道均勻地標(biāo)注四個(gè)部位并依次編號(hào),在每個(gè)標(biāo)記點(diǎn)區(qū)域進(jìn)行漫反射光譜采集與酸度含量測(cè)定。為擴(kuò)大樣本數(shù)量,將每個(gè)標(biāo)記點(diǎn)作為一個(gè)獨(dú)立樣本,組成樣本集。
實(shí)驗(yàn)采用HL-2000-HP型鹵素?zé)糇鳛楣庠?、USB 4000光纖光譜儀獲取數(shù)據(jù)、QR400-7-VIS-NIR型光纖(Ocean optics INC.,USA)進(jìn)行光的傳輸。實(shí)驗(yàn)中,通過(guò)光纖采樣附件采集樣本赤道上均勻分布的四個(gè)標(biāo)記點(diǎn)區(qū)域的可見(jiàn)-近紅外漫反射光譜。具體方式為:將光纖探頭豎直固定于蘋(píng)果樣本正上方,該光纖將光源出射端和蘋(píng)果樣本的漫反射光收集端設(shè)計(jì)在一起。光源發(fā)出的光通過(guò)光纖傳輸并經(jīng)過(guò)透鏡聚焦到蘋(píng)果表面,光從蘋(píng)果表面入射到果肉中,從蘋(píng)果內(nèi)部漫反射出來(lái)的光經(jīng)光纖探頭會(huì)聚后傳輸至光譜儀,光譜儀完成光信號(hào)的分光和采集并傳輸至計(jì)算機(jī)。USB4000光纖光譜儀的采集波長(zhǎng)范圍為346~1046 nm,分辨率為2 nm。在支架上設(shè)置升降臺(tái)以控制光纖探頭與樣本采集點(diǎn)間的距離,放置海綿墊以固定樣本。實(shí)驗(yàn)搭建的光譜采集平臺(tái)如圖1所示。
圖1 光譜采集平臺(tái)Fig.1 Platform for spectral acquisition
使用PAL-BX/ACID5型蘋(píng)果糖酸一體機(jī)(Atago Co.,Tokyo,Japan)對(duì)蘋(píng)果樣本赤道上均勻標(biāo)注的四個(gè)區(qū)域進(jìn)行酸度測(cè)量,步驟如下:
1)挖取直徑約2 cm的一塊果肉,擠出約2 mL果汁;
2)稱取質(zhì)量為1 g的果汁放進(jìn)燒杯中,加入50 g的去離子水稀釋,用攪拌棒充分?jǐn)嚢杈鶆?
3)用滴管從燒杯中取0.3 mL稀釋后的樣品,滴入儀器的棱鏡槽中,按“Start”鍵開(kāi)始測(cè)量,2 s后儀器顯示讀數(shù)。重復(fù)攪拌與測(cè)量操作多次,將重復(fù)出現(xiàn)三次的讀數(shù)記為該測(cè)量點(diǎn)的酸度。
偏最小二乘法是一種數(shù)學(xué)優(yōu)化技術(shù),它通過(guò)最小化誤差的平方和找到一組數(shù)據(jù)的最佳函數(shù)匹配。
在光譜數(shù)據(jù)建模過(guò)程中,PLS算法應(yīng)用最為廣泛。該方法在計(jì)算過(guò)程中同時(shí)考慮了光譜數(shù)據(jù)和濃度數(shù)據(jù)對(duì)建模結(jié)果的影響,能較好地處理數(shù)據(jù)多重共線性、因子結(jié)果不確定性和數(shù)據(jù)非正態(tài)分布等問(wèn)題。PLS回歸模型可以寫(xiě)為
此處X代表蘋(píng)果樣本光譜矩陣,Y代表樣本酸度矩陣,b為回歸系數(shù)向量,e為模型殘差。
蘋(píng)果酸度可見(jiàn)-近紅外無(wú)損測(cè)定模型的總體架構(gòu)如圖2所示。所提出的模型構(gòu)建方法將SPA和CARS兩種波長(zhǎng)選取方法進(jìn)行了融合。將SPA和CARS法選取的波長(zhǎng)集合分別記為S和C,即S={p1,p2,···,pn},C={q1,q2,···,qm},且m>n。定義建模波長(zhǎng)集合A={λi|λi∈S}(1≤i≤n),建模備選波長(zhǎng)集合B={μj|μj∈C且μj?S}(1≤j≤k,k≤m),則對(duì)應(yīng)的建模光譜數(shù)據(jù)集為,建模備選光譜數(shù)據(jù)集為,其中l(wèi)為樣本數(shù)目,xi,j為光譜矩陣X中的元素,表示第i個(gè)樣本光譜在對(duì)應(yīng)波長(zhǎng)位置j處的數(shù)據(jù)。
圖2 模型總體架構(gòu)Fig.2 Overview architecture of the model
預(yù)測(cè)模型構(gòu)建的步驟如下:1)根據(jù)數(shù)據(jù)集DA建立原始PLS模型,并計(jì)算模型的決定系數(shù);2)從集合B中依次提取第i個(gè)波長(zhǎng)μi加入集合A,得到更新的集合Ai={μi,λ1,λ2,···,λn},對(duì)應(yīng)更新的建模光譜數(shù)據(jù)集,根據(jù)數(shù)據(jù)集建立PLS模型,并計(jì)算模型的決定系數(shù),而后將μi從集合Ai中刪除;3)由Step2中建立的各模型決定系數(shù)組成集合,取其中的最大值,此時(shí)對(duì)應(yīng)加入集合A中的波長(zhǎng)為μp(μp∈B);4)比較與的大小。若,則更新,將波長(zhǎng)μp加入集合A并將其從集合B中剔除,更新集合A={μp,λ1,λ2,···,λn}、集合B={μ1,μ2,···,μp?1,μp+1,···μk},對(duì)應(yīng)的建模光譜數(shù)據(jù)集更新為而后返回Step2繼續(xù)執(zhí)行,直至集合B為空。若,算法終止。
采用均方根誤差(ERMS)、決定系數(shù)(R2)和相對(duì)分析誤差(DRP)對(duì)模型性能進(jìn)行評(píng)價(jià),各指標(biāo)的計(jì)算公式可分別表示為
式中:yi和分別表示第i個(gè)樣本點(diǎn)酸度的測(cè)量值和預(yù)測(cè)值,表示所有樣本點(diǎn)酸度的平均值,DS為標(biāo)準(zhǔn)差。一個(gè)性能良好且可靠的預(yù)測(cè)模型,其ERMS應(yīng)盡可能低、R2盡可能接近于1、DRP盡可能高且需滿足DRP>1.4[20]。
使用搭建的光譜采集平臺(tái)獲取各蘋(píng)果樣本標(biāo)記點(diǎn)區(qū)域的可見(jiàn)-近紅外漫反射光譜。采集前打開(kāi)光源預(yù)熱30 min后使用標(biāo)準(zhǔn)漫反射白板進(jìn)行校正。光譜采集使用OceanView軟件,積分時(shí)間設(shè)為30 ms,采集平均次數(shù)設(shè)為5。為減小光程差異的影響,采集過(guò)程中通過(guò)調(diào)節(jié)升降臺(tái)將光纖探頭與各采集點(diǎn)間的距離嚴(yán)格控制為2 cm。
由光譜儀采集的光譜波長(zhǎng)范圍為346~1046 nm,其兩端存在較大噪聲,這些噪聲的加入會(huì)嚴(yán)重影響建模效果,因此將譜線兩端的噪聲剔除。選取波長(zhǎng)范圍為475~925 nm的光譜用于建模,如圖3所示,圖中橫坐標(biāo)為波長(zhǎng),縱坐標(biāo)為反射率,該區(qū)域內(nèi)共有波長(zhǎng)變量2335個(gè)。由圖3可見(jiàn),在550~570 nm波長(zhǎng)范圍內(nèi)有較為明顯的漫反射特征峰;同時(shí),在650~680 nm、720~740 nm及840~860 nm范圍內(nèi)也存在特征峰。但由于“黃金帥”蘋(píng)果樣本酸度含量較低,使得這幾處的特征峰值較低。
圖3 樣本原始光譜Fig.3 Original spectra of the samples
在光譜采集與酸度測(cè)量階段,共得124條樣本數(shù)據(jù),剔除存在明顯異常的光譜和超量程的酸度數(shù)據(jù)后,保留110條樣本數(shù)據(jù),構(gòu)建樣本集。樣本集酸度的分布范圍為0.10%~0.68%。采用SPXY(Sample set partitioning based on joint x-y distance)方法[21]對(duì)樣本集按經(jīng)驗(yàn)值進(jìn)行劃分,使校正集與預(yù)測(cè)集樣本的比例為4:1,即校正與預(yù)測(cè)樣本數(shù)分別為88條和22條。
SPXY方法基于變量之間的歐式距離,在特征空間中均勻選取樣本。在逐步選擇過(guò)程中,樣本之間的距離dxy(i,j)可表示為
式中dx(i,j)和dy(i,j)分別代表以光譜為特征參數(shù)和以酸度為特征參數(shù)計(jì)算的樣本之間的距離,i,j∈(1,z),z為樣本數(shù)。為使樣本在光譜數(shù)據(jù)矩陣和酸度數(shù)據(jù)矩陣中具有相同的權(quán)重,分別除以他們各自的最大值進(jìn)行標(biāo)準(zhǔn)化處理。
根據(jù)
將上述漫反射光譜轉(zhuǎn)換為吸光度光譜,后續(xù)實(shí)驗(yàn)均以吸光度光譜進(jìn)行計(jì)算。
光譜預(yù)處理旨在消除數(shù)據(jù)非相關(guān)信息和噪聲。常用方法有歸一化(NORM)、卷積平滑(SG)、多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)、小波變換(WDE)等[22?24]。為得到較優(yōu)的定量模型,有時(shí)需要組合使用多種預(yù)處理方法。其中,NORM操作可校正由微小光程差異引起的光譜變化;SG能夠消除光譜信號(hào)中疊加的隨機(jī)誤差以提高信噪比;MSC與SNV可以消除蘋(píng)果表面散射及光程變化對(duì)光譜數(shù)據(jù)的影響;WDE利于實(shí)現(xiàn)頻域函數(shù)與時(shí)域函數(shù)之間的轉(zhuǎn)換,在信號(hào)處理中有著較為廣泛的應(yīng)用。此處對(duì)比了基于幾種預(yù)處理及其組合方法對(duì)光譜數(shù)據(jù)進(jìn)行處理后,通過(guò)CARS法選取波長(zhǎng)變量建立的PLS預(yù)測(cè)模型,對(duì)比結(jié)果如表1所示。
表1 基于不同預(yù)處理方法建立的預(yù)測(cè)模型結(jié)果Table 1 Results of prediction model based on different preprocessing methods
由表1可知:基于SG+WDE預(yù)處理方法建立的預(yù)測(cè)模型的精度最高,ERMS、R2與DRP值分別達(dá)到了0.0085、0.9873和8.8626,因此確定SG與WDE的組合方式為此處光譜數(shù)據(jù)的預(yù)處理方法。經(jīng)該方法預(yù)處理后的光譜如圖4所示,圖中橫坐標(biāo)為波長(zhǎng),縱坐標(biāo)為吸光度。
圖4 樣本預(yù)處理后光譜Fig.4 Preprocessed spectra of the samples
特征波長(zhǎng)的選擇直接影響著預(yù)測(cè)模型的精度。本研究將所提出方法同SPA、CARS、CARS-SPA三種方法進(jìn)行了比較,特征波長(zhǎng)選擇結(jié)果分別如圖5(a)~(d)所示,圖中各個(gè)小黑框表示選取的特征波長(zhǎng)對(duì)應(yīng)的數(shù)據(jù)在整條光譜曲線上的分布情況。
由圖5可知,選取波長(zhǎng)變量數(shù)目最多的是CARS法,最少的是SPA法,所提出方法介于兩者之間。在酸度特征峰的四個(gè)區(qū)域550~570 nm、650~680 nm、720~740 nm以及840~860 nm內(nèi),所提出方法均有選中特征變量,而SPA和CARS-SPA法在這些區(qū)域內(nèi)均未選中任何變量,這說(shuō)明了所提出方法的優(yōu)越性。
圖5 特征波長(zhǎng)選擇結(jié)果。(a)SPA;(b)CARS;(c)CARS-SPA;(d)所提出方法Fig.5 Resultsof wavelength selection methods.(a)SPA;(b)CARS;(c)CARS-SPA;(d)Proposed method
為進(jìn)一步探究本研究提出的特征波長(zhǎng)選擇方法選取的變量數(shù)目與所建預(yù)測(cè)模型精度的關(guān)系,選取R2為主要評(píng)價(jià)指標(biāo),并以變量數(shù)目為橫坐標(biāo),預(yù)測(cè)模型的決定系數(shù)R2為縱坐標(biāo),建立兩者之間的關(guān)系圖,如圖6所示。圖6直觀地展示出了兩者間的關(guān)系:隨著選取變量數(shù)目的增加,預(yù)測(cè)模型的精度不斷提高;當(dāng)選取變量數(shù)目達(dá)到36項(xiàng)時(shí),精度R2達(dá)到最大值0.9776;隨后預(yù)測(cè)模型精度隨變量數(shù)目的增多而逐步下降。因此確定了模型精度達(dá)最大值時(shí)的特征波長(zhǎng)共36項(xiàng)。
圖6 預(yù)測(cè)模型精度與變量數(shù)目的關(guān)系Fig.6 Relationship between model accuracy and number of variables
根據(jù)本方法選取的36項(xiàng)波長(zhǎng)變量建立預(yù)測(cè)模型,并與基于前述SPA、CARS、CARS-SPA三種方法選取的波長(zhǎng)變量建立的預(yù)測(cè)模型相比較,各項(xiàng)指標(biāo)如表2所示。
表2 基于不同波長(zhǎng)變量選擇方法建立的預(yù)測(cè)模型結(jié)果Table 2 Results of prediction model based on different wavelength selection methods
綜合分析表2中的三項(xiàng)指標(biāo)可知,基于SPA選取的波長(zhǎng)變量數(shù)最少,但由此所建預(yù)測(cè)模型的各評(píng)價(jià)指標(biāo)不理想;基于CARS所建預(yù)測(cè)模型的精度最高,但選取的變量數(shù)也最多;基于CARS-SPA所建預(yù)測(cè)模型綜合指標(biāo)最低。所提出方法綜合考慮了建模變量數(shù)目及預(yù)測(cè)模型精度,實(shí)驗(yàn)結(jié)果證實(shí)了其有效性。相比于SPA,本方法的精度與可靠性大幅提升,ERMS下降至0.0113%,R2和DRP分別由?0.6921和0.7688提升至0.9776和6.6812;相比于CARS,本方法的ERMS僅上升了0.0028%,R2僅下降了0.98%。在保證模型精度與可靠性的同時(shí),選取的波長(zhǎng)變量數(shù)目由129項(xiàng)顯著下降到36項(xiàng),建模變量大幅減少,有效降低了模型的復(fù)雜程度,提高了運(yùn)算速度。
基于所提出方法建立蘋(píng)果酸度預(yù)測(cè)模型,模型預(yù)測(cè)結(jié)果如圖7所示。由圖可知,模型具有較高的精度和可靠性,驗(yàn)證了本方法的有效性。
圖7 基于所提出方法的蘋(píng)果酸度預(yù)測(cè)結(jié)果Fig.7 Prediction result of appleacidity based on the proposed method
Vis-NIRS檢測(cè)技術(shù)以快速無(wú)損的優(yōu)勢(shì)在水果內(nèi)部品質(zhì)檢測(cè)方面得到了廣泛應(yīng)用。光譜特征波長(zhǎng)的選擇直接影響預(yù)測(cè)模型的精度,為綜合考慮模型精度與建模變量數(shù)目,提出了一種逐次添加的競(jìng)爭(zhēng)性特征波長(zhǎng)篩選法,設(shè)計(jì)了基于偏最小二乘法的預(yù)測(cè)模型。首先使用SPXY方法對(duì)樣本集進(jìn)行劃分,并以SG平滑結(jié)合小波變換對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。在此基礎(chǔ)上使用所提出方法選擇光譜特征波長(zhǎng),建立PLS預(yù)測(cè)模型,與SPA、CARS、CARS-SPA法篩選特征波長(zhǎng)后建立的模型相比較。實(shí)驗(yàn)結(jié)果表明,當(dāng)變量數(shù)目為36項(xiàng)時(shí),PLS預(yù)測(cè)模型的決定系數(shù)達(dá)到最大值0.9776,證明了所提出方法的有效性。所提出方法大幅減少了建模變量數(shù),簡(jiǎn)化了模型的復(fù)雜程度,并保證了檢測(cè)精度,對(duì)基于Vis-NIRS的水果品質(zhì)無(wú)損檢測(cè)具有指導(dǎo)意義。