李珊珊,張付杰, ,李麗霞,張 浩,段星桅,史 磊,崔秀明,李小青
(1.昆明理工大學(xué)現(xiàn)代農(nóng)業(yè)工程學(xué)院,云南 昆明 650500;2.江蘇大學(xué)電氣信息工程學(xué)院,江蘇 鎮(zhèn)江 212000;3.中國人民解放軍69223部隊(duì),新疆 阿克蘇 842300)
天麻是蘭科植物天麻的干燥塊莖,又稱定風(fēng)草、水洋芋,既是一種名貴的中藥材,也是保健食品。天麻具有息風(fēng)止痙、平抑肝陽、祛風(fēng)通絡(luò)等藥效[1],主要用于治療肝風(fēng)內(nèi)動[2]、眩暈頭痛,還可用于治療高血壓、小兒驚風(fēng)等,具有重要的藥用價值和臨床價值。天麻的產(chǎn)地主要分布于云南、四川、貴州、陜西等地區(qū)[3],云南昭通天麻的產(chǎn)量和質(zhì)量位居中國榜首,并且以其較高的藥用保健價值在國內(nèi)外暢銷。研究表明,天麻中的有效藥用成分是酚類,包括天麻素、對羥基苯甲醇(天麻苷元)、4-羥芐基甲醚、4-(4-羥芐氧基)芐基甲醚[4-5];在這些成分中,通常以天麻素和對羥基苯甲醇二者的含量評估天麻的藥效和價格,是衡量天麻品質(zhì)的重要指標(biāo)[6]。因此測定天麻中天麻素和對羥基苯甲醇的含量十分必要。傳統(tǒng)天麻有效成分含量的檢測為化學(xué)分析,如高效液相色譜法[7]、氣相色譜法、紫外-可見分光光度法、液相色譜-質(zhì)譜聯(lián)用法、超高效液相色譜法[8]、超高效液相色譜-三重四極桿串聯(lián)質(zhì)譜法[9-10]等;這些檢測方法存在破壞樣本、操作復(fù)雜、污染環(huán)境及檢測周期長等弊端[11],無法滿足大批量、快速檢測的要求,因此,亟需一種快速高效低成本的檢測技術(shù)評估天麻質(zhì)量。
近紅外光譜技術(shù)以創(chuàng)新性和非破壞性的優(yōu)勢在我國農(nóng)產(chǎn)品檢測[12-14]和食品領(lǐng)域[15-19]有著廣泛的應(yīng)用,同時也在中藥材質(zhì)量監(jiān)控、含量檢測等方面應(yīng)用較多。Zhang Cihai等[20]采用近紅外光譜技術(shù)結(jié)合化學(xué)計(jì)量學(xué)建立了定量分析甘草中多糖含量的方法。Li Xiaoting等[21]采用傅里葉近紅外光譜儀測定靈芝孢子粉中靈芝粉的含量,選擇最小和最大歸一化方法對光譜進(jìn)行預(yù)處理,然后采用偏最小二乘法進(jìn)行分析。Chen Chen等[22]基于近紅外光譜建立支持向量回歸模型對紅棗進(jìn)行光譜分析,檢測紅棗中環(huán)磷酸腺苷的含量。Wu Lun等[23]采用近紅外光譜并結(jié)合化學(xué)計(jì)量學(xué)快速預(yù)測五味子中的多糖含量,預(yù)測模型中,最優(yōu)模型校正集的均方根誤差(root mean square error of calibration,RMSEC)為0.0012,決定系數(shù)R2為0.9976;預(yù)測集的均方根誤差(root mean square error of prediction,RMSEP)為0.0024,決定系數(shù)R2為0.9922,相對分析誤差為11.36。Ma Longhui等[24]采用近紅外光譜快速測定鐵皮石斛中總多酚含量和抗氧化活性的含量,采用競爭性自適應(yīng)重加權(quán)抽樣-偏最小二乘(competitive adaptive reweighted sampling-partial least squares,CARS-PLS)模型進(jìn)行預(yù)測,結(jié)果表明總多酚含量的R2與RMSEP分別為0.8412和0.2905,抗氧化活性的R2與RMSEP為0.9062和0.1028。近紅外光譜技術(shù)在中藥材有效成分含量檢測具有廣闊的應(yīng)用前景,但在天麻中的應(yīng)用鮮有報(bào)道。天麻中的成分含量有多種官能團(tuán),官能團(tuán)在近紅外光譜區(qū)域內(nèi)有多個吸收峰,根據(jù)這一原理,本研究提出利用近紅外光譜技術(shù)檢測天麻中的有效成分。通過采集天麻的光譜數(shù)據(jù),獲取表征天麻素含量和對羥基苯甲醇的光譜信息,預(yù)測天麻中的二者成分含量。
綜上所述,本研究采用便攜式近紅外光譜儀(900~1700 nm)采集光譜,基于原始光譜數(shù)據(jù)和預(yù)處理后的光譜數(shù)據(jù),采用CARS和迭代保留信息變量(iteratively retains informative variables,IRIV)提取特征波長,并對比兩種特征提取算法的建模結(jié)果。利用人工兔優(yōu)化算法(artificial rabbits optimization,ARO)進(jìn)行最小二乘支持向量回歸(least squares support vector regression,LSSVR)模型參數(shù)的優(yōu)化,根據(jù)決定系數(shù)和均方根誤差(root mean square error,RMSE),建立并選擇天麻素及對羥基苯甲醇的最佳預(yù)測模型,以期為天麻的有效成分含量快速檢測提供理論依據(jù)。
所有天麻樣品于2022年8月采自云南昭通市。將采集后的天麻清洗并自然干燥,選取126 個天麻作為實(shí)驗(yàn)樣品。將干燥后的天麻樣品分別放入粉碎機(jī)粉碎,打磨成粉,過200 目篩,放入密封袋中,進(jìn)行編號。
YCNIR-1便攜式近紅外光譜儀 云南小寶科技有限公司;樂祺電子天平(精度0.01 g)昆山優(yōu)科維特電子科技有限公司;1500A型多功能粉碎機(jī) 永康市紅太陽機(jī)電有限公司;1260高效液相色譜儀 安捷倫科技(中國)有限公司。
1.3.1 光譜數(shù)據(jù)提取與有效成分含量測定
天麻的有效成分測定及光譜采集流程如圖1所示。
圖1 天麻的有效成分測定和光譜信息采集Fig.1 Determination of active components and collection of spectral information of Rhizoma Gastrodiae
1.3.1.1 高效液相色譜法測定
利用高效液相色譜儀測定樣本的天麻素、對羥基苯甲醇含量。以十八烷基硅烷鍵合硅膠為填充劑;以乙腈為流動相A,以體積分?jǐn)?shù)0.1%磷酸溶液為流動相B,進(jìn)行梯度洗脫。流速0.8 mL/min;柱溫30 ℃;取天麻樣品0.5 g,加入體積分?jǐn)?shù)50%甲醇溶液25 mL,制作藥材參照物溶液;另取同一天麻樣本粉末約0.5 g,制作供試品溶液,分別精密吸取參照物溶液、供試品溶液各3 μL,注入液相色譜儀進(jìn)行測定。獲得2 種溶液的色譜圖,根據(jù)色譜圖220 nm波長處的波峰面積進(jìn)行對比,分別求得標(biāo)樣曲線和供試樣品溶液的質(zhì)量濃度,通過計(jì)算獲得各樣品的天麻素、對羥基苯甲醇質(zhì)量分?jǐn)?shù)。
圖2 ARO算法流程圖Fig.2 Flow chart of ARO algorithm
1.3.1.2 近紅外光譜數(shù)據(jù)采集
按照密封袋的編號將126 份樣品每份取10 g,放入樣品盒中,用樣品盒蓋壓平表面,保持平整,準(zhǔn)備采集光譜。在光譜掃描之前,儀器先預(yù)熱30 min,再對天麻樣本進(jìn)行光譜掃描。為減小誤差,每個樣本掃描3 次,計(jì)算其平均值作為原始光譜數(shù)據(jù)進(jìn)行建模。參數(shù)設(shè)置:分辨率10.53 nm,固定曝光時間2.54 ms,波長個數(shù)228,波長范圍900~1700 nm。光譜儀通過藍(lán)牙與手機(jī)連接,手機(jī)通過USB連接到電腦上,導(dǎo)出數(shù)據(jù)。在光譜采集過程中,實(shí)驗(yàn)室環(huán)境溫度保持在25~26 ℃。
1.3.2 樣本集選擇與分析
選擇具有代表性的樣本不但可以減少建模的工作量,同時也可以提高模型的穩(wěn)定性和可靠性。本研究采用SPXY算法完成樣本集劃分方法。根據(jù)上述方法,將126 份天麻樣本按照2∶1的比例劃分,其中84 個樣本作為訓(xùn)練集,42 個樣本作為測試集。劃分的數(shù)據(jù)集中天麻素和對羥基苯甲醇的含量數(shù)據(jù)統(tǒng)計(jì)如表1所示。
表1 校正集和預(yù)測集中天麻素和對羥基苯甲醇的含量數(shù)據(jù)統(tǒng)計(jì)Table 1 Data statistics for the contents of gastrodin and 4-hydroxybenzyl alcohol in correction set and prediction set
1.3.3 算法介紹
1.3.3.1 特征波長選擇算法
雖然全波長數(shù)據(jù)可以進(jìn)行建模,但是所獲取的全波長數(shù)據(jù)中存在冗余變量,影響模型的穩(wěn)定性[25]。因此,采用以下特征選擇方法從全光譜數(shù)據(jù)中提取特征波長變量。
CARS是蒙特卡洛采樣和PLS模型回歸系數(shù)相結(jié)合的一種特征變量選擇算法[26]。在運(yùn)算過程中,每次選擇新的子集是通過保留PLS模型中回歸系數(shù)絕對值權(quán)重較大的,刪除權(quán)重較小的點(diǎn),然后在新子集的基礎(chǔ)上建立PLS模型,最終將PLS模型交互驗(yàn)證均方根誤差(root mean square error of cross validation,RMSECV)最小的子集作為特征波長。
IRIV是用于數(shù)據(jù)降維和特征選擇的算法,其主要思想通過多次迭代,根據(jù)變量的信息相關(guān)性和信息價值進(jìn)行變量選擇[27]。每次迭代的目的是保留強(qiáng)信息變量和弱信息變量,同時消除無信息變量和干擾變量,最終得到最佳的變量組合。
1.3.3.2 LSSVR
LSSVR是一種基于支持向量機(jī)的回歸方法,常用于解決回歸問題[28]。與傳統(tǒng)的支持向量回歸相比,LSSVR使用一組線性方程組替代SVR的二次規(guī)劃問題,因此在計(jì)算復(fù)雜度和預(yù)測精度上表現(xiàn)更好。
1.3.3.3 基于ARO的定量模型
ARO算法是2022年提出的一種智能優(yōu)化算法,主要靈感來源于兔子的生存策略[29]。ARO算法包括勘探算子、開發(fā)算子以及勘探到開發(fā)的轉(zhuǎn)換,采用一種自適應(yīng)的搜索策略,能夠根據(jù)當(dāng)前的搜索狀態(tài)進(jìn)行調(diào)整,具有尋優(yōu)能力強(qiáng)、收斂速度快的特點(diǎn)。目前尚未發(fā)現(xiàn)ARO算法應(yīng)用在LSSVR模型的參數(shù)優(yōu)化中,在LSSVR中,正則化參數(shù)γ用來平衡訓(xùn)練集的誤差和模型的復(fù)雜性,核函數(shù)密度σ2決定了模型的精度,這兩個參數(shù)不是相互獨(dú)立的,二者共同作用決定模型精度的高低。因此,本研究采用ARO算法優(yōu)化LSSVR模型的γ和σ2,優(yōu)化LSSVR的流程圖如圖2所示。
在本研究中,采用ARO算法在LSSVR中的參數(shù)優(yōu)化的步驟如下:
1)初始化兔子群體,包括位置和速度信息;
2)計(jì)算兔子的適應(yīng)度值,即LSSVR模型的RMSE;
3)根據(jù)適應(yīng)度值,采用勘探算子、開發(fā)算子、勘探到開發(fā)的轉(zhuǎn)換等算子進(jìn)行兔子群體的更新和優(yōu)化;
4)重新執(zhí)行步驟2和3,直到滿足停止準(zhǔn)則。
本研究選取LSSVR模型作為天麻素、對羥基苯甲醇含量的預(yù)測方法,以決定系數(shù)R2、RMSE作為模型的評價指標(biāo)。R2越大,其值越接近1;RMSE越小,其值越接近0,表明模型的預(yù)測能力和魯棒性越好。R2和RMSE的計(jì)算分別如式(1)和式(2)所示:
式中:yi、i分別為樣本的真實(shí)值、模型預(yù)測值;N為樣本集的數(shù)量;為實(shí)際值的平均值。
采集的天麻光譜數(shù)據(jù)存在外界環(huán)境的干擾和大量噪聲的影響,并且會有基線漂移的現(xiàn)象,因此需要通過預(yù)處理的方法消除外界因素對光譜信息的影響[30]。使用The Unscrambler X 10.4(64-bit)軟件對光譜數(shù)據(jù)進(jìn)行預(yù)處理,其中,卷積平滑(Savitzky-Golay,SG)可以去除噪聲,標(biāo)準(zhǔn)正態(tài)變量變換(standard normalized variable,SNV)可以校正在光譜采集過程中因散射現(xiàn)象等引起的光譜誤差。考慮到不同預(yù)處理方法的不同作用,選擇2 種預(yù)處理結(jié)合作為提高原始光譜信噪比的方法。其中,SG的階數(shù)設(shè)置為1,平滑窗口大小設(shè)置為30,此后的數(shù)據(jù)處理均基于此預(yù)處理方法。由圖3可以發(fā)現(xiàn),曲線間間距變小,噪聲和散射現(xiàn)象均得到改善。光譜曲線有4 處明顯的吸收峰,分別在1000、1200、1480、1600 nm波長附近,這是因?yàn)樘炻樗?、對羥基苯甲醇含有羥基和醚鍵等官能團(tuán)[31]。從圖中可以看出,950 nm與1480 nm波長處的吸收帶與碳水化合物O—H拉伸的二級倍頻和一級倍頻有關(guān)。1100~1250 nm波長附近吸收峰是天麻素C—O鍵伸縮振動引起。在1180~1250 nm波長處有明顯的波峰,對應(yīng)于天麻素中O—H的拉伸一級倍頻,在1480~1620 nm波長處具有明顯的吸收峰,與苯環(huán)骨架振動吸收有關(guān)。1450~1510 nm波長附近的吸收峰歸因于C—H和C—C拉伸振動的組合[32]。
圖3 光譜數(shù)據(jù)預(yù)處理Fig.3 Spectral data preprocessing
2.2.1 基于CARS的天麻素的特征波長選擇
在CARS特征選擇過程中,蒙特卡洛采樣次數(shù)設(shè)置為50,采用五折交叉驗(yàn)證法,天麻素和對羥基苯甲醇的特征選擇過程如圖4所示。在采樣初期,樣本變量的數(shù)目迅速減少,波長數(shù)量的變化趨勢隨著采樣運(yùn)行次數(shù)的增加逐漸減小(圖4a)。圖4b為RMSECV的變化趨勢圖,RMSECV先減小后增大。天麻素和對羥基苯甲醇的RMSECV分別在1~18 次和1~23 次采樣中逐漸減小,不能表征天麻素和對羥基苯甲醇含量的信息被刪除。在采樣19 次和24 次后,隨著一些信息被刪除,RMSECV逐漸變大。在圖4c中,藍(lán)色位置為最佳采樣,此時RMSECV最小,所選擇的波長組合最佳。經(jīng)過CARS的特征選擇后,天麻素和對羥基苯甲醇分別選擇了44 個和30 個特征波長。所選擇的特征變量分布如圖5所示。
圖4 CARS特征選擇過程Fig.4 Feature selection by CARS
圖5 CARS所選特征波長分布Fig.5 Distribution of feature variables selected by CARS
2.2.2 基于IRIV的特征波長選擇
本研究選用IRIV的交叉驗(yàn)證次數(shù)為5,最大主成分?jǐn)?shù)為10。天麻素和對羥基苯甲醇的迭代過程中保留的變量數(shù)如圖6所示。在IRIV的特征選擇過程中,隨著迭代次數(shù)的增加,保留的變量數(shù)逐漸減少,最后趨于穩(wěn)定。天麻素光譜數(shù)據(jù)在第6次迭代后,通過刪除無用變量和干擾變量,保留了49 個強(qiáng)信息變量和弱信息變量,之后為反向消除,通過比較每個變量消除后模型的RMSECV是否降低,決定是否刪除該變量。對羥基苯甲醇的光譜數(shù)據(jù)在第7次迭代后,保留了37 個強(qiáng)信息變量和弱信息變量。最終天麻素和對羥基苯甲醇數(shù)據(jù)分別反向消除了19 個和13 個波長變量,分別得到了27 個波長變量和24 個波長變量,分別占全波長數(shù)目的11.8%和10.9%。
圖6 IRIV特征選擇Fig.6 feature selection by IRIV
將CARS、IRIV選擇的特征變量作為LSSVR的輸入,天麻素、對羥基苯甲醇的含量作為模型的輸出,進(jìn)行LSSVR定量模型的建立,建模結(jié)果如表2所示。對比表中特征選擇算法,CARS、IRIV這兩種特征選擇方法可以將天麻素、對羥基苯甲醇的光譜信息進(jìn)行篩選,保留了能夠表征天麻素、對羥基苯甲醇的有用信息,簡化了模型,比全波段的LSSVR模型性能更好。天麻素、對羥基苯甲醇的最佳特征選擇算法均為CARS,CARS-LSSVR在天麻素、對羥基苯甲醇成分含量的預(yù)測中表現(xiàn)出更高的精度,天麻素和對羥基苯甲醇的R2p分別為0.8573和0.8643,RMSEP分別為0.0660和0.0643。
表2 基于全波段和特征選擇的LSSVR建模結(jié)果Table 2 Modeling results using LSSVR based on full band spectra or feature selection
雖然特征選擇后的精度有所提高,但是仍然可以進(jìn)一步提升。本研究引入智能優(yōu)化算法ARO對LSSVR模型參數(shù)進(jìn)行優(yōu)化,并與PSO、GWO的建模結(jié)果進(jìn)行比較,如表3所示。3 種算法的最大迭代次數(shù)設(shè)置為100,種群規(guī)模大小設(shè)置為30,參數(shù)γ與σ2的范圍設(shè)置為[0.01,1000]。
表3 基于CARS的不同算法的建模結(jié)果Table 3 Modeling results using different algorithms based on CARS
通過建模對比可以發(fā)現(xiàn),引入優(yōu)化算法后的預(yù)測結(jié)果高于優(yōu)化前,說明經(jīng)過ARO算法優(yōu)化后LSSVR建立的模型能夠提高模型的精度,ARO算法在尋優(yōu)速度、尋優(yōu)能力上優(yōu)于PSO、GWO,ARO的預(yù)測效果最好。天麻素、對羥基苯甲醇的最佳預(yù)測模型為CARS-AROLSSVR,其分別為0.9696和0.9577,RMSEP分別為0.0140和0.0200,CARS-ARO-LSSVR模型的預(yù)測如圖7所示。
圖7 天麻素(A)和對羥基苯甲醇(B)的CARS-ARO-LSSVR預(yù)測效果Fig.7 Modeling results using CARS-ARO-LSSVR for gastrodin (A) and 4-hydroxybenzyl alcohol (B)
本研究提出了一種基于近紅外光譜的快速檢測方法,建立了天麻中天麻素和對羥基苯甲醇含量的檢測模型,用于對天麻中有效成分含量的預(yù)測。分別采用CARS、IRIV算法對SG-SNV預(yù)處理后的光譜數(shù)據(jù)進(jìn)行特征波長提取,建立近紅外光譜與天麻素、對羥基苯甲醇含量的LSSVR模型,同時采用ARO算法進(jìn)行模型參數(shù)優(yōu)化,其中天麻素、對羥基苯甲醇的最佳預(yù)測模型為CARS-ARO-LSSVR,其R2p分別為0.9696和0.9577,RMSEP分別為0.0140和0.0200。綜上,近紅外光譜結(jié)合CARS-ARO-LSSVR對天麻中有效成分含量的預(yù)測可行,本研究可為天麻快速檢測裝置的研發(fā)提供部分理論依據(jù),同時也為其他中藥材的快速檢測研究提供一定理論參考。