劉翠玲 李佳琮 孫曉榮 殷鶯倩 張善哲 吳靜珠
(1.北京工商大學人工智能學院, 北京 100048;2.北京工商大學食品安全大數(shù)據(jù)技術北京市重點實驗室, 北京 100048)
實際農作物生產中對農藥的過分依賴及不合理使用,會導致農藥殘留,危害人類的身體健康[1]。隨著生活水平的逐漸提高,人們也越發(fā)重視食品安全、健康、環(huán)保等問題。因此,對常食蔬菜中的農藥殘留量進行檢測十分重要。目前,國內外常用的農藥殘留檢測主要采用氣相色譜法、高效液相色譜法等[2-3]。這些方法適應范圍廣,但操作的過程相對復雜、效率低, 無法實現(xiàn)現(xiàn)場快捷、有效檢驗。
近年來,相關學者利用典型的光譜技術對農產品中農藥殘留進行了研究。張瑛等[4]采用太赫茲光譜檢測大米中沙蠶毒素類農藥殘留,相關系數(shù)達0.959 9。然而,太赫茲等紅外光譜對極性化學鍵的信號比較強,不適宜對含水樣本進行檢測。CHEN等[5]將偏最小二乘法(Partial least squares regression, PLSR)應用于表面增強拉曼光譜技術定量檢測烏龍茶中多菌靈含量,決定系數(shù)達0.964。LIU等[6]采用PLSR成功構建了茶葉中苯醚甲環(huán)唑的表面增強拉曼光譜測定模型,相關系數(shù)達0.97。但常見的拉曼光譜由于散射強度較小,需要利用繁瑣的前處理才能對農藥殘留等痕量精準檢測。
熒光光譜技術具有靈敏度高、選擇性好、價格低廉等優(yōu)勢,目前在農藥含量檢測領域飛速發(fā)展。GUO等[7]利用熒光光譜檢測水中的西維因和百菌清濃度。JI等[8]采用PLSR構建了水中生霉素、多效唑、博斯卡利等多種農藥含量檢測模型,決定系數(shù)達0.98。然而,熒光技術現(xiàn)有研究集中于檢測水溶液中的農藥,對蔬菜中農藥殘留量的檢測較少。寬度學習系統(tǒng)(Broad learning system, BLS)是CHEN等[9]近年來提出的一種有效解決小樣本訓練問題的新型算法。MA等[10]應用BLS對高光譜遙感圖像進行分類;喬繼紅等[11]利用BLS與近紅外光譜,構建了國外奶粉的判別模型。然而,現(xiàn)有研究局限于應用BLS進行分類,且鮮有研究將該模型遷移至其它光譜檢測領域。該算法呈扁平結構,橫向擴展,具有迭代收斂速度快、泛化能力強等優(yōu)勢。在經(jīng)過大量調研與理論研究后,嘗試在熒光光譜技術檢測白菜中吡蟲啉殘留的定量研究中,引入寬度學習系統(tǒng)。
吡蟲啉是一種新煙堿類殺蟲劑,因其高效、低廉等優(yōu)點,被廣泛應用于農作物生產種植中。本文以白菜中吡蟲啉殘留為研究對象,利用熒光光譜技術結合不同數(shù)據(jù)處理方法測定吡蟲啉農藥殘留量。將BLS引入熒光光譜的數(shù)據(jù)建模,并與線性模型PLSR、非線性模型支持向量機(Support vector machine, SVM)以及深度極限學習機(Deep extreme learning machines, DELM) 進行對比分析,驗證BLS在熒光光譜數(shù)據(jù)分析的可行性,并獲得吡蟲啉含量的最優(yōu)檢測模型,擬為開發(fā)在線檢測蔬菜中農藥殘留量系統(tǒng)提供理論依據(jù)。
選用20%的可溶性農藥吡蟲啉(市售,深圳諾普信農化股份有限公司)。將市購的普通大白菜用去離子水洗凈晾干后粉碎,通過砂芯過濾獲取蔬菜汁液為背景溶劑,將農藥與蔬菜汁經(jīng)渦旋混合器充分混勻。配制出吡蟲啉(國標要求最大殘留量0.2 mg/kg)質量比為0~5 mg/kg的13個梯度樣本總計130個。該質量比范圍分布在國標規(guī)定最大殘留量附近,具有實際意義。
使用愛丁堡FS5型熒光光譜儀(英國),采集130個樣品的熒光光譜。熒光光譜的激發(fā)光源選用脈沖氙燈,光電檢測器選用PMT-900型光電倍增管。三維熒光光譜采集,設置激發(fā)波長間隔為10 nm,發(fā)射波長間隔為2 nm,激發(fā)波長λEx為350~550 nm,發(fā)射波長λEm為400~600 nm。熒光發(fā)射光譜采集,設置采集步長為3 nm,采集范圍為430~610 nm。
1.3.1樣本劃分
在模型校準中,樣本被分為校準集和預測集,使用基于聯(lián)合x-y距離(SPXY)的樣本集分區(qū)的樣本分配方法,該方法考慮樣本光譜和樣本參考值的差異[12]。將樣本按照比例3∶1劃分校正集和預測集。其中,校正集與預測集分別包含97個和33個樣本用于構建白菜中吡蟲啉含量預測模型。數(shù)據(jù)劃分具體情況如表1所示,校正集的吡蟲啉含量涵蓋預測集的范圍,說明校正集可以建立穩(wěn)健的校正模型,且預測集可以有效對模型進行預測。
1.3.2光譜預處理
由于使用熒光光譜儀所獲取的數(shù)據(jù)信號除了含被測樣本待測成分信息外,還包括各種儀器的噪聲,如高頻隨機噪聲、基線漂移、雜散信息、樣本背景等無關信息[13]。因此,采用合適的光譜預處理方法可以提取有效的光譜信息,提升光譜質量。在全光譜范圍內使用一階導數(shù)(First-order derivative, D1)、二階導數(shù)(Second-order derivatives, D2)、標準正態(tài)變換(Standard normal variable, SNV)、S-G卷積平滑(Savitzky-Golay, S-G)、多元散射校正(Multiple scattering calibration, MSC)以及連續(xù)小波變換(Continuous wavelet transforms, CWT)6種方法對原始光譜數(shù)據(jù)進行預處理。D1和D2是光譜分析中常用的基線校正和光譜分辨預處理方法,倒數(shù)光譜可以有效地消除其他背景的干擾,提高分辨率和靈敏度[14]。SNV通過單獨對每個樣本的光譜進行校正,使其每個波段的吸光度均符合正態(tài)分布[15]。S-G卷積平滑法通過多項式來對移動窗口內的數(shù)據(jù)進行多項式最小二乘擬合,其實質是一種加權平均法[16]。MSC通過減少樣本間的基線偏移,使其能夠充分保留樣本中與白菜吡蟲啉相關的光譜吸收信息[17]。CWT是一種時頻變換方法,較適用于分析非平穩(wěn)信號[18]。
1.3.3光譜特征提取
核主成分分析(Kernel principal component analysis, KPCA)是對主成分分析(Principal components analysis,PCA)算法的非線性擴展。PCA降維原理是基于線性分析理論,而KPCA是在PCA的理論基礎上采用非線性核函數(shù)Kernel參與數(shù)據(jù)分析,因此能夠挖掘到數(shù)據(jù)集中蘊含的非線性關系[19]。無信息變量消除(Uninformative variable elimination, UVE)可以避免過度擬合,提高模型的預測能力。在這種方法中,通過向原始變量添加人工隨機變量來獲得一個新的數(shù)據(jù)集。模型通過留一交叉驗證進行優(yōu)化。因此,重要性低于人工隨機變量的譜系變量被刪除[20]。
1.3.4BLS模型
寬度學習系統(tǒng)(BLS)是基于隨機向量函數(shù)鏈接網(wǎng)絡(RVFLNN)的一種具有通用逼近能力的新型建模方法[21],具體結構如圖1所示。
圖1 寬度學習系統(tǒng)結構圖Fig.1 Broad learning system structure diagram
BLS隱藏層的輸入矩陣是由映射節(jié)點層(Mapped feature)和增強節(jié)點層(Enhancement nodes)組成,系統(tǒng)第i組映射特征及其構成的集合Zi可表示為
Zi=φi(WeiX+βei) (i=1,2,…,n)
(1)
Zn=[Z1Z2…Zn]
(2)
式中φi(·)——特征映射函數(shù)
Wei——第i個最佳權值向量
βei——對應于Wei的偏置向量
Zn——特征節(jié)點
X——BLS模型的輸入矩陣
增強節(jié)點是映射節(jié)點通過相同映射與非線性激活得到的,其中系統(tǒng)第j個增強節(jié)點及其構成的集合Hj可表示為
Hj=δj(WhjZn+βhj) (j=1,2,…,d)
(3)
Hd=[H1H2…Hd]
(4)
式中δj——映射激活函數(shù)
Hd——增強節(jié)點
Whj、βhj——特征映射至增強節(jié)點的權值向量和偏置向量
白菜中吡蟲啉含量的預測值是將輸出權值矩陣通過回歸廣義逆計算得到的,計算過程可表示為
Y=[Zn|Hd]W
(5)
式中 [Zn|Hd]——寬度學習系統(tǒng)輸入
W——從特征節(jié)點到增強節(jié)點再到系統(tǒng)輸出的權值矩陣
Y——吡蟲啉含量預測值
1.3.5模型評價
選擇決定系數(shù)(Coefficient of determination,R2)和均方根誤差(Root mean square error,RMSE)作為白菜中吡蟲啉農藥殘留含量檢測模型的評價參數(shù)。R2越接近1,表明熒光光譜信息與白菜中吡蟲啉的相關性越好,RMSE越小,表明預測中產生的誤差越小,即光譜建模效果越好[22]。
為了獲得吡蟲啉農藥的最佳激發(fā)波長,吸取5 mL純農藥并掃描其三維熒光光譜。圖2為吡蟲啉溶液三維熒光光譜圖和對應的等高線圖,可以看出,在λEx、λEm為400、480 nm存在一個熒光峰,所以吡蟲啉溶液的最佳激發(fā)波長為400 nm,最佳發(fā)射波長為480 nm。
圖2 尋找吡蟲啉最佳激發(fā)波長的三維熒光光譜圖Fig.2 Three-dimensional fluorescence spectra for finding optimal excitation wavelength of imidacloprid
選用吡蟲啉溶液的最佳激發(fā)波長400 nm,掃描白菜中農殘溶液的熒光發(fā)射光譜,共得到波段數(shù)為61維的光譜數(shù)據(jù)。為了更清晰地分析不同濃度農殘樣本的光譜差異,將各質量比下的10組數(shù)據(jù)取平均,并繪制圖3中的質量比變化對比曲線??梢钥闯?隨著白菜汁中吡蟲啉質量比的增加,對應的熒光強度也隨之增長。在波長490 nm和580 nm處分別存在2個尖峰,對應表示為青光和黃光。通過分析發(fā)現(xiàn)熒光光譜信息與樣本中農藥含量存在規(guī)律變化,因此理論上可以通過熒光數(shù)據(jù)表征白菜汁中吡蟲啉的含量。
圖3 不同吡蟲啉質量比的平均發(fā)射熒光光譜Fig.3 Mean emission fluorescence spectra of different imidacloprid mass ratios
表2 不同預處理的建模結果Tab.2 Modeling results with different pre-processing
農藥殘留樣品的成分復雜,光譜信息量大,通過特征降維可以簡化模型,提高預測的穩(wěn)定性。圖4a為KPCA的降維過程圖,成分數(shù)累計到第17維時累計貢獻率增長趨于平穩(wěn),此時累計貢獻率為95.65%。說明前17維數(shù)據(jù)已包含了大部分有效信息,故選擇前17維主成分量當作預測模型輸入維主成分量。
圖4 光譜特征降維過程圖Fig.4 Diagrams of spectral feature downscaling process
在添加噪聲后,UVE根據(jù)光譜變量和噪聲組成的自變量矩陣,對目標矩陣回歸系數(shù)的統(tǒng)計分布進行變量判斷。圖4b為UVE的變量選擇過程中的加噪篩選過程曲線圖,圖中左側曲線為農藥殘留樣品的光譜變量矩陣,右側為添加與光譜變量數(shù)目相同的隨機噪聲矩陣,2條水平虛線表示隨機噪聲的最大和最小閾值,兩線之間為剔除的無關變量。最終通過UVE選擇出9個特征波長。
白菜中吡蟲啉殘留樣本的光譜數(shù)據(jù)采用最佳預處理方法MSC,然后分別進行KPCA和UVE特征降維,依次將降維后的17維與9維光譜數(shù)據(jù)送入BLS模型。BLS模型的參數(shù)為特征窗口數(shù)量n、窗口內的特征數(shù)量k以及增強節(jié)點數(shù)目m。實驗選用Leaky ReLU為BLS的激活函數(shù),參數(shù)設置n=10,k=30,m=300。表3為基于全波段、KPCA特征和UVE特征的BLS模型的建模結果??梢钥闯?2種降維方式均能有效提升模型精度,說明全波段光譜存在冗余信息,數(shù)據(jù)集的壓縮能夠精煉出與農藥殘留量相關性的光譜信息。其中,基于UVE-BLS組合模型的預測結果最佳,圖5a顯示了該模型真實值與預測值的線性擬合結果,校正集與測試集決定系數(shù)分別為0.970和0.949。此外,UVE-BLS組合模型相比全波段建模的測試集決定系數(shù)增加0.07,均方根誤差降低0.185 mg/kg,說明UVE所提取的特征波段最能表征白菜中吡蟲啉的含量,這種通過添加噪聲來消除不提供信息變量的方式適用于熒光光譜檢測農藥殘留量。圖5b更加清晰地展示了預測集的樣本分布以及吡蟲啉含量真實值和預測值的偏差,可以看出當農藥質量比低于1 mg/kg時,預測偏差較小,預測值均分布在真實值附近。當質量比遠超國家標準0.2 mg/kg時,模型穩(wěn)定性有所下降,預測結果雖然出現(xiàn)明顯浮動,但也始終保持了正確判別農藥殘留量超標的基礎。綜上所述,熒光光譜法結合BLS模型監(jiān)測白菜中吡蟲啉含量是可行的,UVE所選擇的特征波長可作為表征農藥殘留量的光譜特征。
圖5 UVE-BLS建模結果Fig.5 Diagrams of UVE-BLS modeling results
表3 不同降維方法的BLS模型結果Tab.3 Results of BLS models with different dimensionality reduction methods
為了評估BLS算法建立熒光光譜預測白菜中吡蟲啉含量的性能,將基于最優(yōu)特征波長UVE建模的BLS模型與經(jīng)典線性機器學習模型(PLSR)、經(jīng)典非線性模型(SVM)以及基于深度學習的改進非線性模型(DELM)進行對比分析。本研究中PLSR的可調參數(shù)為主成分數(shù),決定了建模分析的變量個數(shù),該參數(shù)的最優(yōu)取值均采用二十折交叉驗證獲得[23];SVM采用RBF核函數(shù),通過設置懲罰因子c和核函數(shù)參數(shù)g調節(jié)模型精度[24];DELM模型設置sigmoid為激活函數(shù),可調參數(shù)為3個隱含層的節(jié)點數(shù)[25]。由表4可以看出,非線性模型的預測精度均優(yōu)于PLSR,說明光譜信息與農藥濃度之間的關系較復雜,并不能通過線性關系表征二者的聯(lián)系。其次,實驗表明BLS模型的準確度最高,能夠針對數(shù)據(jù)特征不多的小樣本進行較為精準預測,證實了BLS模型在光譜檢測食品含量領域的可行性。分析BLS模型優(yōu)于其他模型的原因,可能是因為BLS模型是一種新型的不依賴深度結構的寬度神經(jīng)網(wǎng)絡,該算法提升網(wǎng)絡精度的方式就是通過橫向增加“寬度”,與深度學習模型的增加層數(shù)相比,BLS能有效避免過度學習[26-27]。與線性模型相比,它又能很好地擬合非線性數(shù)據(jù)。實際預測中BLS能通過逐漸逼近的方式,不斷提升預測精度,使其正確性滿足精度要求[28]。
表4 不同建模算法的結果Tab.4 Results of different modeling algorithms
(1)利用三維熒光光譜測定吡蟲啉,在波長400 nm激發(fā)和波長480 nm發(fā)射處呈現(xiàn)熒光特征峰。
(2)結合D1、D2、SNV、S-G、MSC、CWT共6種算法分別對原始光譜數(shù)據(jù)進行預處理。相較而言,基于MSC的預處理效果最佳。
(3)基于KPCA和UVE分別得到了17、9個特征變量,2種降維方法均有效剔除了與建模相關度低的光譜波段,提高了信噪比與后期建模的精度。其中,UVE算法消除冗余變量的性能最佳。
(5)研究結果表明熒光光譜技術檢測白菜中吡蟲啉含量是可行的,驗證了BLS模型在光譜檢測領域的適應性。該方法可為在線檢測農藥殘留量系統(tǒng)的開發(fā)提供理論依據(jù)。