摘要:本研究旨在解決傳統(tǒng)近紅外光譜分析在橡膠樹葉片氮含量(LNC)檢測(cè)中模型精度和穩(wěn)定性的局限。通過對(duì)180張橡膠樹葉片進(jìn)行定量分析,提出了一種改進(jìn)的重加權(quán)采樣算法,即雙權(quán)重競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣(DWCARS)。該方法綜合運(yùn)用回歸系數(shù)和變量投影重要性(VIP)2種權(quán)重評(píng)價(jià)標(biāo)準(zhǔn),并通過競(jìng)爭(zhēng)性機(jī)制優(yōu)化特征選擇。比較分析結(jié)果表明,與傳統(tǒng)CARS和差分進(jìn)化(DE)等方法相比,DWCARS能夠提取出更少且預(yù)測(cè)精度更高的波長(zhǎng)變量。在測(cè)試集上,DWCARS模型展現(xiàn)了顯著性能優(yōu)勢(shì),其決定系數(shù)(R2P)為0.936 7,均方根誤差(RMSEP)為0.121 5,相比于CARS算法建立的預(yù)測(cè)模型RMSEP值降低了21.66%。表明DWCARS算法在提高橡膠樹葉片氮含量檢測(cè)的準(zhǔn)確性和穩(wěn)定性方面表現(xiàn)卓越,適用于精確監(jiān)測(cè)橡膠樹生長(zhǎng)階段的氮素狀況。
關(guān)鍵詞:近紅外光譜;橡膠樹;機(jī)器學(xué)習(xí);光譜波段選擇;葉片氮含量;DWCARS
中圖分類號(hào):S127 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2024)18-0222-10
收稿日期:2023-09-20
基金項(xiàng)目:海南省自然科學(xué)基金創(chuàng)新研究團(tuán)隊(duì)項(xiàng)目(編號(hào):320CXTD431);國(guó)家自然科學(xué)基金(編號(hào):32060413);海南省重點(diǎn)研發(fā)計(jì)劃(編號(hào):ZDYF2022GXJS008);海南省自然科學(xué)基金高層次人才項(xiàng)目(編號(hào):321RC468)。
作者簡(jiǎn)介:胡鵬飛(1996—),男,山東濰坊人,碩士研究生,主要從事植物養(yǎng)分無損檢測(cè)研究。E-mail:hpf@hainanu.edu.cn。
通信作者:李 創(chuàng),博士,教授,博士生導(dǎo)師,主要從事高光譜遙感技術(shù)研究。E-mail:lc@hainanu.edu.cn。
天然橡膠是一種重要的生物聚合物,在國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展中發(fā)揮重要作用。隨著全球?qū)μ烊幌鹉z需求的增長(zhǎng),實(shí)時(shí)監(jiān)測(cè)橡膠樹的養(yǎng)分信息已成為植膠區(qū)管理的迫切需求[1]。葉片氮含量(LNC)作為橡膠樹養(yǎng)分豐缺情況的敏感指標(biāo),通過實(shí)時(shí)監(jiān)測(cè)橡膠樹葉片氮含量,可有效獲取橡膠樹的生長(zhǎng)信息[2]。因此,建立一種高效準(zhǔn)確的橡膠樹葉片氮含量檢測(cè)模型意義重大。
傳統(tǒng)的葉氮含量檢測(cè)方法如凱氏定氮法,由于復(fù)雜的化學(xué)試劑和繁瑣的操作過程,無法滿足養(yǎng)分實(shí)時(shí)監(jiān)測(cè)的需求[3]。近紅外光譜技術(shù)因其快速、無損且低成本的特點(diǎn)已在葉片養(yǎng)分含量的檢測(cè)中廣泛應(yīng)用[4]。Li等采用偏最小二乘回歸模型對(duì)濕地松葉片氮含量進(jìn)行定量分析,選擇了與植物組織中氮含量高度相關(guān)的5個(gè)波段范圍[5];Liu等通過多種光譜預(yù)處理方法相結(jié)合,有效消除了光譜數(shù)據(jù)中的噪聲,得到了針對(duì)不同干旱脅迫條件下的香椿葉片氮含量估測(cè)模型[6]。然而,隨著現(xiàn)代光譜儀器的進(jìn)步,測(cè)量數(shù)據(jù)量大大提高且具有較高的共線性[7]。因此,在波長(zhǎng)變量與響應(yīng)濃度之間建立可解釋關(guān)系,成為提高光譜檢測(cè)模型性能的關(guān)鍵任務(wù)[8]。
競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣(CARS)算法作為一種高效的特征波段選擇方法,表現(xiàn)出出色的全局搜索能力,相較于傳統(tǒng)的光譜區(qū)間選擇算法而言更具優(yōu)勢(shì)[9]。在Zhang等的研究中,通過將CARS與隨機(jī)森林(RF)算法結(jié)合,有效地確定了番茄可溶性固形物含量的有效波長(zhǎng),結(jié)果表明CARS算法所選波段在性能方面表現(xiàn)最佳且特征數(shù)量較少[10]。然而,CARS算法采用一種競(jìng)爭(zhēng)性機(jī)制來選擇和更新模型的權(quán)重參數(shù),此機(jī)制受到模型中蒙特卡洛采樣(MCS)和自適應(yīng)重加權(quán)(ARS)2個(gè)隨機(jī)因素的影響[11],導(dǎo)致不同特征組合在不同迭代中獲勝,可能導(dǎo)致在變量剔除中丟失重要波段[12]。因此,為了構(gòu)建更加穩(wěn)定且具有更高精度的檢測(cè)模型,需要采用更為有效的特征變量選擇策略。
隨著特征變量選擇方法的不斷發(fā)展,出現(xiàn)了多種用于測(cè)定變量重要性的標(biāo)準(zhǔn),包括回歸系數(shù)、變量投影重要性以及選擇性比(SR)參數(shù)等。由于不同參數(shù)對(duì)于變量的解釋能力各不相同,因此單一評(píng)價(jià)標(biāo)準(zhǔn)在解釋多特征數(shù)據(jù)方面存在一定局限性[13]。因此,本研究提出雙權(quán)重競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣(DWCARS)算法,在同一輪蒙特卡洛采樣中引入了2種權(quán)重進(jìn)行波段重要性評(píng)價(jià)。通過自適應(yīng)重加權(quán)的競(jìng)爭(zhēng)機(jī)制,充分利用這2種權(quán)重指標(biāo)對(duì)變量的解釋能力,實(shí)現(xiàn)了特征波長(zhǎng)的有效選擇。
本研究探討了近紅外光譜分析技術(shù)與化學(xué)計(jì)量學(xué)方法的結(jié)合,以實(shí)現(xiàn)對(duì)橡膠樹葉片氮含量的快速檢測(cè)。通過引入DWCARS算法來選擇葉片氮素的特征波長(zhǎng),成功地解決了波段選擇過程中的冗余波長(zhǎng)問題。本研究旨在獲取與LNC高度相關(guān)的近紅外光(NIR)特征波長(zhǎng),并建立高效、準(zhǔn)確的橡膠樹LNC快速檢測(cè)模型。
1 材料與方法
1.1 研究區(qū)概況與樣本采集
本試驗(yàn)所使用的葉片樣本,于2022年4月在海南省儋州市(109.20°~109.70°E,19.40°~19.65°N)的橡膠林試驗(yàn)田內(nèi)采集,采樣區(qū)域如圖1所示。儋州市屬海洋性熱帶季風(fēng)氣候,雨熱資源豐富。年平均降水量1 828.7 mm,年平均氣溫23.8 ℃。供試材料為中國(guó)熱帶農(nóng)業(yè)科學(xué)院選育的巴西橡膠優(yōu)良品種熱研7-33-97的葉片。隨機(jī)采集了200份成熟、健康、完整的橡膠樹冠層葉片,并進(jìn)行密封低溫保存,以備后續(xù)的光譜數(shù)據(jù)采集和理化分析。
1.2 光譜數(shù)據(jù)采集和葉片氮含量分析
1.2.1 光譜數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理
使用GaiaField-F-N17E高光譜成像儀對(duì)葉片樣本進(jìn)行圖像采集掃描,波段范圍為942~1 701 nm。經(jīng)清潔處理后,將樣本放在光譜儀的傳送帶上,通過光譜相機(jī)捕獲樣本的反射光,得到一維影像和光譜信息。傳送帶帶動(dòng)樣本進(jìn)行線掃描,最終計(jì)算機(jī)軟件記錄到掃描行程中包括葉片區(qū)域和非葉片區(qū)域內(nèi)所有物體的高光譜圖像。在室內(nèi)溫度和濕度穩(wěn)定的條件下,取3次掃描的平均值作為樣本的原始光譜。原始光譜的采樣點(diǎn)之間的距離平均為3.3 nm,共有224個(gè)波長(zhǎng)變量。
選取原始光譜圖像中的葉片區(qū)域作為感興趣區(qū)域,計(jì)算葉片區(qū)域光譜數(shù)據(jù)的平均值,獲得平均光譜。為了去除噪聲和增強(qiáng)光譜信息,采用了3種預(yù)處理方法:多元散射校正(MSC)、去趨勢(shì)(DT)和一階導(dǎo)數(shù)變換(D1),同時(shí)對(duì)它們?cè)谀P皖A(yù)測(cè)中的提升效果進(jìn)行分析和對(duì)比。經(jīng)預(yù)處理后的光譜曲線如圖2所示。
1.2.2 異常數(shù)據(jù)剔除
為減少人為誤差或儀器誤差對(duì)模型性能的影響,采用主成分分析(PCA)結(jié)合馬氏距離(MD)的方法(PCA-MD),以剔除可能對(duì)模型產(chǎn)生強(qiáng)影響的極端樣本或異常樣本。由PCA方法得到光譜的主成分和得分,使用得分?jǐn)?shù)據(jù)代替原始數(shù)據(jù)計(jì)算馬氏距離,以反映全譜數(shù)據(jù)信息并壓縮計(jì)算中涉及的變量數(shù),同時(shí)保證M矩陣不存在共線性問題[14]。其中樣品到平均光譜的馬氏距離為:
Di=(Ti-T)M-1(Ti-T)′。(1)
式中:Di為校正樣品i的馬氏距離;Ti為校正樣品i的光譜得分;T為n個(gè)樣品的平均光譜;M為校正樣品光譜的馬氏矩陣。
根據(jù)馬氏距離的結(jié)果圖進(jìn)行顏色編碼,可以得到葉片光譜數(shù)據(jù)的2個(gè)主成分的馬氏距離分布圖(圖3)。在該分布中,距離分布中心D閾值范圍內(nèi)的樣品被認(rèn)為與樣品平均光譜相似。Di-Dt值越小則有越高的相似度,反之則可能為異常樣本。根據(jù)分布情況,從180個(gè)原始樣本中剔除了18個(gè)異常樣本,最終得到162個(gè)葉片光譜數(shù)據(jù)。
1.2.3 葉片氮含量理化分析
凱氏定氮法是用于葉片全氮含量測(cè)定的常規(guī)方法,具有較高的準(zhǔn)確度。本研究采用凱氏定氮法對(duì)橡膠樹葉片中氮元素含量進(jìn)行檢測(cè)。在完成葉片光譜數(shù)據(jù)采集后,對(duì)樣本立即進(jìn)行烘干研磨,并置于定氮瓶中進(jìn)行分析測(cè)試,最終測(cè)得的葉片樣本氮元素含量介于2.1%~4.7%之間,呈正態(tài)分布。
1.3 特征波長(zhǎng)選擇策略
1.3.1 基于PLS回歸系數(shù)與變量投影重要性的變量評(píng)價(jià)
偏最小二乘回歸(PLSR)是應(yīng)對(duì)近紅外光譜中多特征少樣本數(shù)據(jù)問題的常見建模方法。PLSR從輸入特征X和標(biāo)簽值Y中同時(shí)提取主成分信息,由此產(chǎn)生了多個(gè)變量評(píng)價(jià)指標(biāo),包括回歸系數(shù)、變量投影重要性、選擇性比等?;貧w系數(shù)向量β的計(jì)算公式如下:
β=w(qTq)-1qTtyT。(2)
式中:q為載荷矩陣;t為潛在變量矩陣;y為響應(yīng)變量矩陣;w為權(quán)重矩陣。
回歸系數(shù)向量是模型中所有分解得到的潛在變量的函數(shù),它反映了每個(gè)自變量Xi對(duì)因變量的貢獻(xiàn),較大的回歸系數(shù)表示相關(guān)主成分對(duì)因變量有更大的貢獻(xiàn)[15]。
變量投影重要性VIP得分由以下公式計(jì)算:
VIPj=m∑hk=1q2ktTkt3DHNr42ui+Fbhz05ZBDtPw==kwjk‖wjk‖2∑hk=1qtktTktk。(3)
式中:j代表波長(zhǎng)變量的索引;m表示波長(zhǎng)變量的總數(shù);h為PLS的最佳主因子數(shù)量。
VIP得分綜合考慮了光譜對(duì)構(gòu)建PLS得分的貢獻(xiàn)和PLS得分對(duì)濃度變量的解釋能力,代表了波長(zhǎng)變量在模型擬合中的重要性[16]。
通過分析各個(gè)波段的得分矩陣、載荷矩陣等信息,可以計(jì)算出波段的回歸系數(shù)VIP得分。圖4展示了光譜各個(gè)波段對(duì)應(yīng)的回歸系數(shù)和VIP得分。本研究基于競(jìng)爭(zhēng)性重加權(quán)采樣策略,對(duì)回歸系數(shù)與變量投影重要性2種用于解釋變量重要性的指標(biāo)進(jìn)行比較,并提出了雙權(quán)重競(jìng)爭(zhēng)的變量選擇方法。
1.3.2 單權(quán)重競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣(VIP-CARS)方法
盡管CARS默認(rèn)使用回歸系數(shù)作為變量重要性的評(píng)價(jià)指標(biāo),但本研究引入了一種新的波長(zhǎng)選擇方法,即VIP-CARS方法。該方法將單一權(quán)重的回歸系數(shù)替換為單一權(quán)重的變量投影重要性得分,用于波長(zhǎng)選擇的試驗(yàn)研究。
1.3.3 雙權(quán)重競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣
本研究提出了一種基于雙權(quán)重競(jìng)爭(zhēng)的自適應(yīng)重加權(quán)采樣方法,用于特征波段選擇。DWCARS的核心思想是每輪蒙特卡洛采樣中,通過同時(shí)考慮回歸系數(shù)與VIP得分2個(gè)權(quán)重,分別對(duì)波段變量進(jìn)行重要性評(píng)估,并生成2個(gè)不同的權(quán)重排序。然后,利用指數(shù)衰減函數(shù)和自適應(yīng)重加權(quán)采樣,對(duì)這2個(gè)不同的排序進(jìn)行變量選擇,最終得到2個(gè)不同的波段子集,并進(jìn)行對(duì)比選擇最佳結(jié)果。具體流程如下。
(1)計(jì)算2個(gè)權(quán)重。首先,確定蒙特卡洛采樣法的采樣次數(shù)N。每次采樣隨機(jī)選擇一定比例的樣本進(jìn)行PLS建模,記錄每次采樣過程中PLS模型的回歸系數(shù)向量b和VIP得分向量v,并進(jìn)行權(quán)重計(jì)算。其中,回歸系數(shù)權(quán)重wbi和VIP得分權(quán)重wvi的計(jì)算公式如下:
wbi=|bi|∑pi=1|bi|;(4)
wvi=vi∑pi=1vi。(5)
式中:p表示第i次采樣后剩余的特征波段個(gè)數(shù)。
(2)指數(shù)衰減去除波長(zhǎng)。通過指數(shù)衰減函數(shù)(EDF),去除回歸系數(shù)絕對(duì)值權(quán)重相對(duì)較小的波長(zhǎng),并根據(jù)EDF計(jì)算得到保留的波長(zhǎng)數(shù)量的比例。
(3)自適應(yīng)加權(quán)采樣。每次采樣時(shí),采用自適應(yīng)加權(quán)采樣策略,分別使用回歸系數(shù)權(quán)重wbi和VIP得分權(quán)重wvi,從上一次采樣選擇出的特征波段集合中選擇2個(gè)數(shù)量相等的波長(zhǎng)變量子集。然后,分別使用這2個(gè)變量子集進(jìn)行PLS建模,并計(jì)算對(duì)應(yīng)的交叉驗(yàn)證均方根誤差(RMSECV),分別記為RMSECVb和RMSECVv。
(4)選擇最佳子集。比較RMSECVb和RMSECVv的大小。若RMSECVb<RMSECVv,則將RMSECVb對(duì)應(yīng)的波段子集作為本輪的最佳變量子集。反之,若RMSECVb>RMSECVv,則將RMSECVv對(duì)應(yīng)的波段子集作為本輪最佳變量。通過二者比較,得到本輪最終最佳子集Vnew和誤差RMSECV。
(5)選擇最終結(jié)果。在N次采樣結(jié)束后,得到N個(gè)變量子集和對(duì)應(yīng)的N個(gè)RMSECV。選擇RMSECV最小值所對(duì)應(yīng)的特征波段子集作為最終的結(jié)果。
DWCARS方法通過引入VIP得分作為額外權(quán)重,增加了回歸系數(shù)與VIP得分之間的競(jìng)爭(zhēng)機(jī)制,從而更全面地考慮了波段的重要性。詳細(xì)的算法流程見圖5。
2 結(jié)果與分析
2.1 數(shù)據(jù)集劃分
在建立光譜數(shù)據(jù)和葉片氮含量建模之前,將162個(gè)樣本按3∶1的比例劃分為訓(xùn)練集(121個(gè)樣本)和測(cè)試集(41個(gè)樣本)。表1呈現(xiàn)了橡膠樹葉片氮含量的訓(xùn)練集和測(cè)試集統(tǒng)計(jì)信息,其中訓(xùn)練集和測(cè)試集的氮含量標(biāo)準(zhǔn)差分別為0.415%和0.483%,變異系數(shù)分別為12.97%和14.55%。表1中的數(shù)據(jù)表明,訓(xùn)練集和測(cè)試集的樣本分布相對(duì)均勻,因此,這種樣品劃分方法適合光譜分析,可用于建立橡膠樹葉片氮含量回歸校正模型。
2.2 光譜預(yù)處理結(jié)果分析
應(yīng)用PCA-MD方法剔除異常樣本后,模型精度明顯提高。從表2可以看出,DT方法預(yù)處理后的光譜模型精度較低,可能因?yàn)镈T方法增強(qiáng)光譜數(shù)據(jù)的同時(shí)也干擾了與氮素相關(guān)的重要信息。相比其他的預(yù)處理方法,MSC處理后的光譜模型效果最佳,表現(xiàn)為R2P=0.696 3,RMSEP=0.260 5。這表明MSC預(yù)處理方法有效地減少了原始光譜中儀器基線漂移、散射和信號(hào)噪聲等干擾信息。因此,在后續(xù)的數(shù)據(jù)分析中,采用經(jīng)過MSC預(yù)處理的光譜數(shù)據(jù)。
2.3 特征波段選擇
2.3.1 CARS與VIP-CARS波段選擇
圖6展示了CARS算法和VIP-CARS算法進(jìn)行波長(zhǎng)選擇的迭代過程。圖6-a1顯示了在100次蒙特卡洛采樣中,采樣變量數(shù)量的變化。圖6-a2呈現(xiàn)了RMSECV值的演變,圖6-a3展示了每個(gè)變量的系數(shù)或得分的變化情況。從圖6-a1和圖6-b1可以看出,由于采用相同的遞減函數(shù),二者以相同的遞減速度減少波段數(shù)量。在圖6-b3中,某些波段在迭代過程中VIP得分權(quán)重始終高于其他波段。且圖6-b3中垂直紅線標(biāo)記的具有最低RMSECV值的最佳子集,當(dāng)RMSECV值出現(xiàn)下降變化時(shí),部分變量的VIP得分同時(shí)出現(xiàn)躍升的情況,該現(xiàn)象證實(shí)了關(guān)鍵變量的存在。對(duì)比圖6-a2和6-b2可以看出,盡管VIP-CARS更早達(dá)到最低RMSECV位置,但整體而言,CARS算法的最低RMSECV值更小一些,說明回歸系數(shù)權(quán)重相對(duì)于VIP得分效果更好。
2.3.2 DWCARS特征波段選擇
使用DWCARS算法選取葉片氮素含量的特征波長(zhǎng)時(shí),每輪迭代中利用PLS模型得到的回歸系數(shù)與VIP得分的2個(gè)權(quán)重排序。然后,通過自適應(yīng)重加權(quán)采樣選擇2個(gè)不同的變量子集,并以交叉驗(yàn)證均方差(RMSECV)作為評(píng)價(jià)指標(biāo)來競(jìng)爭(zhēng)選取最優(yōu)子集。圖7為DWCARS算法的迭代過程圖,從圖7-c中可以看出,在達(dá)到最佳變量子集的迭代次數(shù)之前,VIP得分在與回歸系數(shù)的競(jìng)爭(zhēng)中有7次占優(yōu)。圖8顯示了CARS算法和DWCARS算法在經(jīng)過100次蒙特卡洛采樣過程中RMSECV的變化。如圖8所示,CARS算法的RMSECV值隨著采樣次數(shù)的增加而交替增大和減小,而DWCARS算法則因?yàn)橐肓送喌g的競(jìng)爭(zhēng)機(jī)制,導(dǎo)致RMSECV值在迭代到30次左右時(shí)連續(xù)下降,進(jìn)一步降低了RMSECV值,相較于CARS算法表現(xiàn)更佳。
鑒于DWCARS算法的最佳RMSECV位置較CARS算法靠后,本研究將采樣次數(shù)調(diào)整為200次以考慮其影響。圖9展示了200次采樣的RMSECV變化,結(jié)果與100次采樣情況基本一致,DWCARS算法的最佳迭代次數(shù)出現(xiàn)在CARS算法靠后的位置,表明DWCARS在減少特征波段數(shù)量方面表現(xiàn)更佳,同時(shí)剔除了冗余信息。
另外,針對(duì)不同的采樣次數(shù)(N分別為50、100、200和500)進(jìn)行了50次DWCARS重復(fù)運(yùn)行并記錄RMSECV值,統(tǒng)計(jì)箱線圖。結(jié)果(圖10)顯示,除了在采樣次數(shù)過低時(shí)出現(xiàn)較大偏差值外,增加采樣次數(shù)對(duì)DWCARS性能影響不大。因此,本研究在建模分析中默認(rèn)采用100次采樣。
2.4 建模結(jié)果分析
為了評(píng)估SACARS算法的建模性能,引入差分進(jìn)化(DE)算法進(jìn)行對(duì)比。分別使用全波長(zhǎng)(用FULL表示)以及CARS、VIP-CARS、DWCARS、DE算法選擇特征波長(zhǎng),建立了橡膠樹葉片中氮含量的不同定量分析模型。圖11顯示了全波段光譜和不同波段選擇算法建立的預(yù)測(cè)模型之間的對(duì)比。其中,通過DWCARS進(jìn)行特征選擇的預(yù)測(cè)模型表現(xiàn)最佳。從表3中的評(píng)價(jià)指標(biāo)可以得知,使用MSC預(yù)處理的DWCARS模型的RMSEP和R2P分別為0.121 5和0.936 7。這些R2和RMSE值表明DWCAR模型在定量檢測(cè)葉片氮含量方面具有出色的預(yù)測(cè)能力,模型的預(yù)測(cè)值與實(shí)測(cè)值大致呈對(duì)角線分布,真值線與擬合線基本重合,預(yù)測(cè)集的回歸性能充分體現(xiàn)了模型的穩(wěn)健性。相比于分別使用CARS、VIP-CARS和DE算法建立模型,使用DWCARS模型能夠明顯提升模型的評(píng)價(jià)指標(biāo)。綜上所述,基于MSC預(yù)處理的DWCARS算法進(jìn)行波段選擇的預(yù)測(cè)模型是橡膠樹葉片氮含量預(yù)測(cè)的最佳模型。
2.5 變量篩選結(jié)果
不同的算法會(huì)影響波段的篩選位置和數(shù)量,較少的特征波段數(shù)量有助于減少冗余信息[17]。在橡膠樹葉片光譜數(shù)據(jù)上,使用MSC預(yù)處理的CARS、VIP-CARS、DWCARS和DE算法篩選出來的變量個(gè)數(shù)分別為56、94、20和105。
圖12直觀地展示了不同的變量選擇方法在橡膠樹葉片光譜數(shù)據(jù)中所選波段在全譜范圍的分布??梢杂^察到,VIP-CARS算法選出的波段分布最集中,主要在1 270~1 440、1 570~1 700 nm范圍內(nèi),CARS和DE算法選擇出的波段則在整個(gè)譜段中分布相對(duì)均勻。其中,DWCARS算法選擇的特征波長(zhǎng)數(shù)量最少,主要集中在1 330~1 380、1 470~1 520 nm區(qū)域,這2個(gè)區(qū)域?qū)?yīng)于光譜數(shù)據(jù)中明顯的吸收峰。
通過分析所選的特征波長(zhǎng),可以得出CARS、VIP-CARS和DWCARS所選擇的波長(zhǎng)范圍相對(duì)一致,但DWCARS選擇的特征波段中剔除了大部分相關(guān)性較低的波段。
3 討論
本研究DWCARS波段選擇方法具有以下特點(diǎn):首先,通過引入VIP得分權(quán)重,有效提高了對(duì)變量的解釋能力并減少了特征波長(zhǎng)的冗余信息。其次,將2種權(quán)重整合到每一輪蒙特卡洛迭代中進(jìn)行競(jìng)爭(zhēng),充分發(fā)揮了不同變量評(píng)價(jià)系數(shù)的特性,使其避免了算法陷入局部最優(yōu)。
通過與其他變量選擇方法的比較,DWCARS在選擇與LNC密切相關(guān)的特征波段方面表現(xiàn)最佳。相比之下,DE算法的回歸精度較低且計(jì)算時(shí)間成本較高。因?yàn)镈E進(jìn)化算法的選擇過程沒有考慮變量的重要性信息,導(dǎo)致搜索效率下降[18]。VIP-CARS模型精度略低于CARS模型,za7WKEaqno2scoXs9gb8mxVVGbixHTzBfaFpP5ds/Os=可能因VIP得分過于突出高重要性特征波段,沒有很好地區(qū)分權(quán)重相對(duì)中等的波長(zhǎng),從而在剔除波長(zhǎng)時(shí)損失了關(guān)鍵特征。
CARS選擇了56個(gè)特征波長(zhǎng),占全部變量的25.0%。DWCARS選擇了20個(gè)特征波長(zhǎng),占全部變量的8.9%,RMSEP值較CARS降低了21.66%,其評(píng)價(jià)指標(biāo)均好于其他模型,這表明DWCARS算法能夠有效提取關(guān)鍵特征,去除冗余信息,建立了魯棒性和可擴(kuò)展性的模型。特別是,DWCARS算法僅使用20個(gè)特征波長(zhǎng)構(gòu)建了氮含量的高性能檢測(cè)模型,少量具有高相關(guān)性的特征波長(zhǎng)更有利于集成到在線檢測(cè)設(shè)備中,并可用于連續(xù)校準(zhǔn)回歸模型[19]。
盡管DWCARS算法模型表現(xiàn)出良好的性能,仍有約13%的LNC變異未能被解釋,可能因訓(xùn)練數(shù)據(jù)的非均質(zhì)性和數(shù)據(jù)采集環(huán)境因素影響了模型性能。未來的研究需要開發(fā)化學(xué)計(jì)量學(xué)方法,提高模型的質(zhì)量和穩(wěn)定性,以實(shí)現(xiàn)快速檢測(cè)。
4 結(jié)論
本研究旨在快速檢測(cè)橡膠樹葉片中的氮含量,采用了近紅外光譜結(jié)合化學(xué)計(jì)量學(xué)方法。為提高模型精度,采用多種特征波長(zhǎng)選擇方法,其中DWCARS模型表現(xiàn)最佳,R2P值為0.936 7,RMSEP值為0.121 5。DWCARS綜合了回歸系數(shù)與VIP得分的權(quán)重,充分利用了重加權(quán)競(jìng)爭(zhēng)機(jī)制,有效解決了特征選擇中的冗余信息問題。該研究為在線監(jiān)測(cè)橡膠樹葉片氮含量提供了理論支持,為實(shí)際應(yīng)用提供了有效方法。
參考文獻(xiàn):
[1] Warren-Thomas E,Dolman P M,Edwards D P.Increasing demand for natural rubber necessitates a robust sustainability initiative to mitigate impacts on tropical biodiversity[J]. Conservation Letters,2015,8(4):230-241.
[2]黎 舟,楊思林,劉云根,等. 基于微分變換的濕地植物高光譜全氮反演[J]. 環(huán)境科學(xué)研究,2022,35(5):1268-1276.
[3]Ali M M,Al-Ani A,Eamus D,et al. Leaf nitrogen determination using non-destructive techniques:a review[J]. Journal of Plant Nutrition,2017,40(7):928-953.
[4]馮 鎮(zhèn),劉 馨,張 震,等. 基于近紅外光譜技術(shù)對(duì)小麥中毒死蜱農(nóng)藥殘留測(cè)定方法的研究[J]. 食品工業(yè)科技,2022,43(4):271-277.
[5]Li Y J,Sun H G,Tomasetto F,et al. Spectrometric prediction of nitrogen content in different tissues of slash pine trees[J]. Plant Phenomics,2022,2022:9892728.
[6]Liu W J,Li Y J,Tomasetto F,et al. Non-destructive measurements of Toona sinensis chlorophyll and nitrogen content under drought stress using near infrared spectroscopy[J]. Frontiers in Plant Science,2022,12:809828.
[7]郭 拓,梁小娟,馬晉芳,等. 基于可擴(kuò)展的自表示學(xué)習(xí)波段選擇算法在近紅外光譜回歸建模中的影響研究[J]. 分析測(cè)試學(xué)報(bào),2022,41(8):1214-1220.
[8]Yun Y H,Li H D,Deng B C,et al. An overview of variable selection methods in multivariate analysis of near-infrared spectra[J]. TrAC Trends in Analytical Chemistry,2019,113:102-115.
[9]Wu X H,Zeng S P,F(xiàn)u H J,et al. Determination of corn protein content using near-infrared spectroscopy combined with A-CARS-PLS[J]. Food Chemistry:X,2023,18:100666.
[10] ZhangD Y,Yang Y,Chen G,et al. Nondestructive evaluation of soluble solids content in tomato with different stage by using Vis/NIR technology and multivariate algorithms[J]. Spectrochimica Acta(Part A:Molecular and Biomolecular Spectroscopy),2021,248:119139.
[11]王偲晗,萬幼川,王明威,等. 改進(jìn)蟻群算法及其在高光譜影像分類中的研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2018,54(1):196-203.
[12]Bin J,Ai F F,F(xiàn)an W,et al. An efficient variable selection method based on variable permutation and model population analysis for multivariate calibration of NIR spectra[J]. Chemometrics and Intelligent Laboratory Systems,2016,158:1-13.
[13]Zhang J,Cui X Y,Cai W S,et al. A variable importance criterion for variable selection in near-infrared spectral analysis[J]. Science China Chemistry,2019,62(2):271-279.
[14]劉翠玲,胡玉君,吳勝男,等. 近紅外光譜奇異樣本剔除方法研究[J]. 食品科學(xué)技術(shù)學(xué)報(bào),2014,32(5):74-79.
[15]Huang X,Xia L. Improved kernel PLS combined with wavelength variable importance for near infrared spectral analysis[J]. Chemometrics and Intelligent Laboratory Systems,2017,168:107-113.
[16]Wang Z Z,Wu Q Y,Kamruzzaman M. Portable NIR spectroscopy and PLS based variable selection for adulteration detection in quinoa flour[J]. Food Control,2022,138:108970.
[17]Kumar B,Dikshit O,Gupta A,et al. Feature extraction for hyperspectral image classification:a review[J]. International Journal of Remote Sensing,2020,41(16):6248-6287.
[18]Liang L,Wei L L,F(xiàn)ang G G,et al. Prediction of holocellulose and lignin content of pulp wood feedstock using near infrared spectroscopy and variable selection[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2020,225:117515.
[19]Bruning B,Liu H J,Brien C,et al. The development of hyperspectral distribution maps to predict the content and distribution of nitrogen and water in wheat (Triticum aestivum)[J]. Frontiers in Plant Science,2019,10:1380.