田瀚舉,楊顏溶,賈 豪,李瑩瑩,段浩瀚,趙新梅,張春亞,雷敬衛(wèi)*,謝彩俠,楊春靜, 3,龔海燕*
基于紅外光譜結(jié)合機(jī)器學(xué)習(xí)方法的牛膝不同炮制品及炮制程度的判別分析
田瀚舉1, 2,楊顏溶1, 2,賈 豪1, 2,李瑩瑩1, 2,段浩瀚1, 2,趙新梅1, 2,張春亞1, 2,雷敬衛(wèi)1, 2*,謝彩俠1, 2,楊春靜1, 2, 3,龔海燕1, 2*
1. 河南中醫(yī)藥大學(xué)藥學(xué)院,河南 鄭州 450046 2. 河南省中藥質(zhì)量控制與評價工程技術(shù)研究中心,河南 鄭州 450046 3. 河南中醫(yī)藥大學(xué)第三附屬醫(yī)院,河南 鄭州 450046
采用紅外光譜技術(shù)結(jié)合機(jī)器學(xué)習(xí)算法建立牛膝炮制品類別與炮制程度的定性判別模型。采集不同炮制品與不同炮制程度牛膝的中紅外光譜(mid infrared spectroscopy,MIRS),運(yùn)用BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)、遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)(GA-BP)、隨機(jī)森林(random forest,RF)、徑向基神經(jīng)網(wǎng)絡(luò)(radial basis function network,RBFN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)等機(jī)器學(xué)習(xí)算法建立牛膝炮制品類別與炮制程度的定性判別模型;采集不同炮制品與不同炮制程度牛膝的近紅外光譜(near infrared spectroscopy,NIRS),使用TQ Analyst軟件中的判別分析法建立牛膝炮制品類別與炮制程度的定性分析模型。機(jī)器學(xué)習(xí)算法模型結(jié)果顯示CNN判別模型較優(yōu)秀,BPNN、RF及RBFN性能相近,GA-BP模型性能相對較差。3個NIRS定性模型結(jié)果顯示驗證集準(zhǔn)確率均為100%,可準(zhǔn)確預(yù)測炮制品類別與炮制程度。通過紅外光譜技術(shù)建立的定性分析模型可作為牛膝炮制品類別與炮制程度的鑒別手段。同時提供了快速、無損的檢測手段及可靠的數(shù)據(jù)分析方法,為中藥材炮制品類別與炮制程度精準(zhǔn)識別提供新的方法參考。
牛膝;炮制品;炮制程度;紅外光譜;正交偏最小二乘法-判別分析;機(jī)器學(xué)習(xí)算法
牛膝為莧科牛膝屬植物牛膝BL的干燥根[1],最早出自《神農(nóng)本草經(jīng)》,其根入藥,具有補(bǔ)肝腎、強(qiáng)筋骨、活血化瘀的功效[2],主要含有皂苷類、甾酮類、多糖類等化合物[3]。現(xiàn)國內(nèi)有三大牛膝產(chǎn)區(qū):內(nèi)蒙赤峰、河北安國和河南焦作[4]。牛膝炮制歷史悠久,古代炮制方法有酒制(酒漬、酒浸、酒煮、酒洗、酒炒、酒蒸等)、炒制、焙制、炙制、藥汁制等[5]?,F(xiàn)代臨床所用的牛膝飲片主要為牛膝生品、酒牛膝、鹽牛膝等[6]。牛膝生品經(jīng)酒炙后能增強(qiáng)活血祛瘀、通經(jīng)止痛的作用,鹽炙后能增強(qiáng)補(bǔ)肝腎、強(qiáng)筋骨作用[7]。
紅外光譜法作為一種快速無損分析技術(shù),且具有樣品制備簡單、無污染、經(jīng)濟(jì)實惠等特點,在諸多領(lǐng)域均有應(yīng)用[8-10]。隨著化學(xué)計量學(xué)和機(jī)器學(xué)習(xí)算法與紅外光譜技術(shù)的結(jié)合,復(fù)雜的樣品光譜信息得以有效可視化,成為中藥快速鑒別及質(zhì)量評價的一種有效手段[11],目前,該技術(shù)已廣泛應(yīng)用于中藥材產(chǎn)地溯源研究[12-17]。
本課題組前期采用紅外光譜技術(shù)開展了牛膝產(chǎn)地的快速識別研究[18],在此基礎(chǔ)上本研究通過采集3個產(chǎn)地的牛膝生品,不同炮制程度的酒牛膝和鹽牛膝近紅外光譜(near infrared spectroscopy,NIRS)和中紅外光譜(mid infrared spectroscopy,MIRS)信息,結(jié)合BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)、遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)(GA-BP)、隨機(jī)森林(random forest,RF)、徑向基神經(jīng)網(wǎng)絡(luò)(radial basis function network,RBFN)、卷積神經(jīng)網(wǎng)絡(luò)算法開展對牛膝炮制類別與炮制程度研究,建立適合的定性判別模型,為牛膝炮制類別與炮制程度的精準(zhǔn)識別提供方法支撐。
INVENIOS型傅里葉變換紅外光譜儀,德國Bruker公司;Nicolet 6700型傅里葉紅外光譜儀,美國Thermo Fisher公司;Spectrum for Window軟件(版本3.02),美國Pekin Elmer公司;Matlab軟件(版本R2022b),美國MathWorks公司;FW-4A型粉末壓片機(jī),天津市拓?fù)鋬x器有限公司;FW-100型高速萬能粉碎機(jī),北京科偉永興儀器有限公司;101-3AB型點熱恒溫鼓風(fēng)干燥箱,北京中興偉業(yè)儀器有限公司;ME204E/OL型萬分之一天平,上海梅特勒-托利多儀器有限公司。
溴化鉀,光譜純,天津市科密歐化學(xué)試劑有限公司;無水乙醇,分析純,天津市致遠(yuǎn)化學(xué)試劑有限公司;黃酒,酒精度≥10.0% vol,批號20220616D,浙江古越龍山紹興酒股份有限公司;精純鹽,河南省鹽業(yè)集團(tuán)有限公司。
牛膝樣品于2021年12月采集自道地產(chǎn)區(qū)河南省焦作市西陶鎮(zhèn)、非道地產(chǎn)區(qū)河北省安國市西佛落鎮(zhèn)與內(nèi)蒙古自治區(qū)赤峰市喀喇沁旗牛家營子鎮(zhèn),共計15個批次,均為1年生,所有樣品經(jīng)河南中醫(yī)藥大學(xué)陳隨清教授鑒定為莧科牛膝屬植物牛膝Bl的干燥根。
牛膝除去雜質(zhì),洗凈,潤透,除去殘留蘆頭,切段,干燥得到牛膝生品,粉碎后過3號和9號篩,貯藏備用。取牛膝生品,照參照《中國藥典》2020年版四部0213炮制通則中酒炙法[19],加黃酒10%拌勻,燜透,置炒鍋內(nèi),文火炒制,炒至表面顏色略深,偶見焦斑,微有酒香氣,制備炮制不及、炮制適中(酒牛膝)和炮制過3種不同程度,粉碎后過3號和9號篩,貯藏備用。
取牛膝生品,參照《中國藥典》2020年版四部0213炮制通則中鹽炙法,加食鹽2%,用10%蒸餾水溶解拌勻,燜透,置炒鍋內(nèi),文火炒制,炒至表面色深,略有焦斑,制備炮制不及、炮制適中(鹽牛膝)和炮制太過3種不同程度,粉碎后過3號和9號篩,貯藏備用。具體樣品信息見表1,部分樣品示圖見圖1。
圖1 不同產(chǎn)地來源牛膝生品及炮制品
稱取樣品粉末(過9號篩)約2 mg與干燥溴化鉀以1∶100研磨混勻,取適量混合均勻的樣品置于專用壓片模具中,用8 MPa的壓力壓制30 s,壓成均勻半透明的薄片,取出,置紅外光譜儀中采集各樣品MIRS圖。光譜掃描范圍400~4000 cm?1,每張光譜掃描次數(shù)16次每秒,光譜分辨率為4 cm?1,掃描速度0.2 cm?1,掃描時扣除CO2和H2O,室溫20~25 ℃,相對濕度25%~35%。每張圖譜重復(fù)掃描3次,取其平均光譜,每份樣品掃描3張圖譜。
稱取樣品粉末(過3號篩)約6 g,置于石英樣品杯中,混合均勻,輕輕壓平,以空氣為背景,扣除背景采集光譜圖,采用積分球漫反射,分辨率為8 cm?1,掃描64次,掃描范圍為4000~12 000 cm?1,溫度范圍為25~30 ℃,空氣濕度為25%~30%。每張圖譜重復(fù)掃描3次,取其平均光譜,每份樣品掃描3張圖譜。
MIRS信息均采用Spectrum for window 3.02軟件對各樣品采集的原始MIRS進(jìn)行處理,采用TQ Analyst軟件對NIRS進(jìn)行多元信號修正(multiple signal correction,MSC)、標(biāo)準(zhǔn)正則變換(standard normal variate transform,SNV)、一階導(dǎo)數(shù)(first derivative)、二階導(dǎo)數(shù)(second derivative)、SG平滑(Savitzky-Golay,SG)、ND平滑(Norris derivative,ND)。
使用GraphPad Prism軟件繪制牛膝生品、酒牛膝和鹽牛膝平均相對峰高柱狀圖,使用Matlab軟件構(gòu)建不同炮制品和不同炮制程度分類模型,將數(shù)據(jù)樣本隨機(jī)拆分成訓(xùn)練集(70%)和測試集(30%),運(yùn)用BPNN、遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)(GA-BP)、隨機(jī)森林(random forest,RF)、徑向基神經(jīng)網(wǎng)絡(luò)(radial basis function network,RBFN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)等算法構(gòu)建分類模型。使用TQ軟件建立不同炮制品和不同炮制程度牛膝近紅外定性分析模型。
MIRS進(jìn)行透過率與吸光度轉(zhuǎn)換、基線校正、歸一化處理,計算得到14個共有峰(圖2),對1號峰進(jìn)行歸一化之后,牛膝生品的2~14號峰經(jīng)酒炙與鹽炙后相對峰高均升高,且酒牛膝增長幅度大于鹽牛膝,結(jié)果見圖3。不同產(chǎn)地牛膝樣品的原始MIRS及不同炮制品(以河南為例)原始MIRS如圖4、5所示,原始NIRS及不同炮制品(以河南為例)原始NIRS如圖6、7所示。
采用BPNN、GA-BP、RF、RBFN、CNN等算法建立牛膝不同炮制品及不同炮制品不同炮制程度MIRS分類判別模型。
BPNN是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),具有很強(qiáng)的非線性映射能力、適應(yīng)能力和學(xué)習(xí)能力[20],具備任意復(fù)雜的分類模式和良好的多維函數(shù)映射的能力[21],是應(yīng)用最為廣泛的人工神經(jīng)網(wǎng)絡(luò)之一[22];與BPNN因在模型連接權(quán)值和閾值選取時具有隨機(jī)性,從而易于陷入局部最優(yōu)解不同。遺傳算法(genetic algorithm,GA)是模擬自然界中遺傳機(jī)制及物種進(jìn)化的過程中形成的一種并行隨機(jī)搜索優(yōu)化方法,二者相結(jié)合得到的GA-BP算法發(fā)可以做到優(yōu)化可行域內(nèi)BP神經(jīng)網(wǎng)絡(luò)模型連接權(quán)值和閾值選取的隨機(jī)性,有效增強(qiáng)模型的泛化能力和收斂性[23];以決策樹為核心的多分類RF算法作為一種典型的多分類器算法,可以很好地對數(shù)據(jù)進(jìn)行集成學(xué)習(xí)[24],同時根據(jù)數(shù)據(jù)的多樣性進(jìn)行分類處理,故此,RF算法擁有非常強(qiáng)大的適用性,可以在許多領(lǐng)域進(jìn)行廣泛應(yīng)用,特別是針對一些非線性高維數(shù)據(jù),隨機(jī)森林算法也可以很快地進(jìn)行數(shù)據(jù)處理[25],此外,RF算法對噪聲和隨機(jī)誤差的防控非常到位,可以極大地減少因數(shù)據(jù)產(chǎn)生的誤差,從而降低了數(shù)據(jù)處理難度,節(jié)約了大量的人力物力,幫助數(shù)據(jù)得到快速、準(zhǔn)確的分析;RBFN具有唯一最佳逼近、訓(xùn)練簡潔、學(xué)習(xí)收斂速度快等良好性能,并且具有很強(qiáng)的非線性擬合能力,可逼近任意的非線性函數(shù),具有較好的泛化能力,現(xiàn)已成功應(yīng)用于語音識別、自動控制、信息圖像處理和故障診斷等多個領(lǐng)域[26];CNN是一種常見的文本分類模型,是由卷積層、池化層、全連接層組成的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[27]。相對于傳統(tǒng)的多層感知神經(jīng)網(wǎng)絡(luò),其卷積層具有局部鏈接、權(quán)值共享以及池化操作既能夠有效地提取特征,大幅度地簡化了網(wǎng)絡(luò)的復(fù)雜度[28]。
圖2 MIRS共有峰示意圖
圖3 牛膝不同炮制品的平均相對峰高柱狀圖
圖5 河南牛膝不同炮制品MIRS示意圖
圖6 牛膝樣品的原始NIRS
圖7 河南牛膝不同炮制品的NIRS示意圖
以BPNN為例,將已劃分好的不同炮制品的數(shù)據(jù)集導(dǎo)入Matlab R2022b軟件,模型判別結(jié)果如圖8所示,不同炮制品判別模型中訓(xùn)練集的準(zhǔn)確率為98.9%,而測試集的準(zhǔn)確率為92.5%,訓(xùn)練集與測試集準(zhǔn)確率均大于90%。對于不同炮制品的不同炮制程度BPNN模型判別結(jié)果顯示:酒牛膝與鹽牛膝不同炮制程度模型訓(xùn)練集的準(zhǔn)確率分別為96.0%和98.4%,測試集的準(zhǔn)確率分別為92.6%和94.4%,兩個模型訓(xùn)練集與測試集準(zhǔn)確率均大于90%,說明基于該樣本集建立的BPNN模型適用于酒牛膝、鹽牛膝不同炮制程度的預(yù)測判別。對比GA-BP的模型判別結(jié)果,隨著迭代次數(shù)的增加,判別模型錯誤率呈現(xiàn)降低趨勢(圖9)。不同炮制品的GA-BP判別模型中訓(xùn)練集的準(zhǔn)確率為93.6%,測試集準(zhǔn)確率為90%。對于不同炮制品的不同炮制程度GA-BP模型判別結(jié)果顯示:酒牛膝與鹽牛膝不同炮制程度模型訓(xùn)練集的準(zhǔn)確率分別為90.5%和96.8%,測試集準(zhǔn)確率分別為90.7%和94.4%,如圖10所示。CNN模型迭代曲線如圖11所示,CNN、RBFN、RF模型判別準(zhǔn)確率結(jié)果見圖12~14。
在機(jī)器學(xué)習(xí)中,混淆矩陣作為一個誤差矩陣,常用來可視化地評估監(jiān)督學(xué)習(xí)算法的性能,是機(jī)器學(xué)習(xí)中總結(jié)分類模型預(yù)測結(jié)果的情形分析表,以矩陣形式將數(shù)據(jù)集中的記錄按照真實的類別與分類模型預(yù)測的類別判斷2個標(biāo)準(zhǔn)進(jìn)行匯總。分類的正確性可以通過計算正確預(yù)測樣本屬于此樣本數(shù)量(true positives,TP),正確預(yù)測的樣本數(shù)量不屬于此樣本集數(shù)量(true negatives,TN),和樣本被錯誤地預(yù)測為此樣本數(shù)量(false positives,F(xiàn)P)以及樣本被錯誤地預(yù)測為不屬于樣本數(shù)量(false negatives,F(xiàn)N)來進(jìn)行衡量,評價指標(biāo)主要包括準(zhǔn)確度(accuracy)、精確度(precision)、召回率(recall)等[29]。其中精確度可以用來衡量模型的整體有效性,即預(yù)測正確的結(jié)果占總樣本的百分比;樣本類別于模型判別結(jié)果的一致性則可以通過精密度來衡量;召回率即在實際為樣本中被預(yù)測為該樣本的概率。本實驗以混淆矩陣結(jié)合準(zhǔn)確度、精確度以及召回率評估模型性能,其數(shù)據(jù)越接近1,模型的性能越好。具體計算公式如下。
圖9 GA-BP模型適應(yīng)度曲線
圖10 GA-BP模型判別準(zhǔn)確率
準(zhǔn)確度=(TP+TN)/(TP+TN+FP+FN)
精確度=TP/(TP+FP)
精確度=TP/(TP+FN)
不同炮制品預(yù)測輸出有3個類別,其中1代表生品,2代表酒牛膝,3代表鹽牛膝。不同炮制品不同炮制程度預(yù)測輸出有4個類別,其中1代表生品,2代表炮制不及,3代表炮制適中,4代表炮制過。模型混淆矩陣可視化見圖15~19,評價指標(biāo)數(shù)值見表2~4。
圖11 CNN模型迭代曲線
圖12 CNN神經(jīng)網(wǎng)絡(luò)模型判別準(zhǔn)確率
圖13 RBFN模型判別準(zhǔn)確率
上述結(jié)果表明,5種算法對于訓(xùn)練集以及預(yù)測集的判別準(zhǔn)確率除GA-BP外均在0.90以上,展現(xiàn)了良好的分類性能,但是不同模型之間判別性能有較大差異。例如,在對于不同炮制品的判別模型中,CNN模型性能極佳,對于訓(xùn)練集以及預(yù)測集的判別成功率分別達(dá)到了1.00和0.98,且二者差距較小,說明該模型在當(dāng)前樣本量下面對不同數(shù)據(jù)集時魯棒性較佳。反觀GA-BP算法,雖然彌補(bǔ)了BPNN算法易陷入局部極小、收斂速度慢的缺點,但在本樣本集建立的模型判別結(jié)果中不難看出,對于不同炮制品判別模型以及炮制品不同炮制程度判別模型中,BPNN模型整體優(yōu)于GA-BP模型。
圖14 RF模型判別準(zhǔn)確率
圖15 不同炮制品(A)、酒牛膝不同炮制程度(B)、鹽牛膝不同炮制程度(C)的BPNN模型混淆矩陣(1訓(xùn)練集、2測試集)
由此可見,不同建模方法對于數(shù)據(jù)集特征提取邏輯不同,應(yīng)根據(jù)數(shù)據(jù)集特性選擇合適的建模方法進(jìn)行判別以及分析。
本實驗采用判別分析法建立不同炮制品NIRS定性判別模型,以及不同炮制品不同炮制品程度的NIRS定性判別模型,以性能系數(shù)(PI)和誤判例數(shù)為評價指標(biāo),PI值越大,誤判例數(shù)越小,說明NIRS定性模型的判別分析結(jié)果越準(zhǔn)確。本實驗考察了光譜預(yù)處理方法對定性模型的影響,得不同炮制品定性模型的最佳預(yù)處理條件為SNV+SG;不同炮制品光譜預(yù)處理結(jié)果見表5。以PI和誤判例數(shù)為評價指標(biāo),考察不同波段對NIRS定性模型的影響,得不同炮制品定性模型的最佳波段為4250~5150 cm?1,不同炮制品不同波段分析結(jié)果見表6。采用TQ Analyst軟件,根據(jù)NIRS最佳預(yù)處理方法及最佳的光譜波段進(jìn)行判別分析,建立不同炮制品的定性分析模型(圖20)。
圖16 不同炮制品(A)、酒牛膝不同炮制程度(B)、鹽牛膝不同炮制程度(C)的GA-BP模型混淆矩陣(1訓(xùn)練集、2測試集)
圖17 不同炮制品(A)、酒牛膝不同炮制程度(B)、鹽牛膝不同炮制程度(C)的CNN模型混淆矩陣(1訓(xùn)練集、2測試集)
圖18 不同炮制品(A)、酒牛膝不同炮制程度(B)、鹽牛膝不同炮制程度(C)的RBFN模型混淆矩陣(1訓(xùn)練集、2測試集)
圖19 不同炮制品(A)、酒牛膝不同炮制程度(B)、鹽牛膝不同炮制程度(C)的RF模型混淆矩陣(1訓(xùn)練集、2測試集)
將驗證集樣品的NIRS圖譜輸入所建模型,結(jié)果顯示,不同炮制品可被準(zhǔn)確分為3類,正確率為100%。本實驗考察了光譜預(yù)處理方法對定性模型的影響,得酒牛膝不同炮制程度定性模型的最佳預(yù)處理條件為SNV+ND+1stDer,鹽牛膝不同炮制程度定性模型的最佳預(yù)處理條件為MSC+SG。酒、鹽牛膝不同炮制程度光譜預(yù)處理結(jié)果(表7、8)。
表2 不同炮制品判別模型評價指標(biāo)
表3 酒牛膝不同炮制程度判別模型評價指標(biāo)
表4 鹽牛膝不同炮制程度判別模型評價指標(biāo)
表5 不同炮制品NIRS預(yù)處理結(jié)果
表6 不同炮制品不同建模波段結(jié)果
圖20 不同炮制品定性分析模型
表7 酒牛膝不同炮制程度NIRS預(yù)處理結(jié)果
表8 鹽牛膝不同炮制程度NIRS預(yù)處理結(jié)果
以PI和誤判例數(shù)為評價指標(biāo),考察不同波段對NIRS定性模型的影響,得酒牛膝不同炮制程度定性模型的最佳波段為4150~5150 cm?1,鹽牛膝不同炮制程度定性模型的最佳波段為4050~5000 cm?1,酒、鹽牛膝不同炮制程度、不同波段分析結(jié)果見表9、10。
采用TQ Analyst軟件,根據(jù)NIRS最佳預(yù)處理方法及最佳的光譜波段進(jìn)行判別分析,建立酒、鹽牛膝不同炮制程度的定性分析模型(圖21、22)。
表9 酒牛膝不同炮制程度不同建模波段結(jié)果
表10 鹽牛膝不同炮制程度不同建模波段結(jié)果
圖21 酒牛膝不同炮制程度定性分析模型
圖22 鹽牛膝不同炮制程度定性分析模型
將驗證集樣品的NIRS圖譜輸入所建模型,結(jié)果顯示,酒、鹽牛膝不同炮制程度可被準(zhǔn)確分為4類,正確率為100%。
本實驗通過采集不同炮制品以及炮制品不同炮制程度牛膝MIRS圖譜,使用4種不同的機(jī)器學(xué)習(xí)算法建立判別模型,其結(jié)果顯示,當(dāng)前樣本量下,不同炮制品判別模型中CNN模型性能較好,僅在預(yù)測集中1個樣品被錯誤預(yù)測,并且訓(xùn)練集與預(yù)測集準(zhǔn)確度差異較小,顯示出較佳的魯棒性,BPNN、RBFN以及RF算法模型準(zhǔn)確度相差較小性能相當(dāng),GA-BP算法模型性能相對較差;而炮制品不同炮制程度判別模型中,CNN模型效果最好,其次為BPNN模型,RF與RBFN模型性能相近,GA-BP模型較差。
使用NIRS技術(shù)采集不同炮制品以及不同炮制程度牛膝紅外圖譜,建立定性模型結(jié)果顯示3個NIRS定性模型驗證集準(zhǔn)確率均為100%,可準(zhǔn)確預(yù)測炮制品類別與炮制程度。
由表2~4可知,GA-BP算法雖然使用了遺傳算法對BPNN進(jìn)行了優(yōu)化,彌補(bǔ)了一些方面的不足,但是在本樣本數(shù)據(jù)集中并沒有展現(xiàn)優(yōu)于BPNN的效果,這可以歸結(jié)于如下原因:GA-BP對BPNN最核心的改進(jìn)在于通過隨機(jī)搜索的方法避免了模型的局部最優(yōu)解,而這一改進(jìn)在數(shù)據(jù)樣本相對較少,數(shù)據(jù)特征并不復(fù)雜的情況下是很難起到作用的。因為對機(jī)器學(xué)習(xí)模型而言,在一個簡單低維的特征空間中求解,往往其局部最優(yōu)解正是全局最優(yōu)解。因此,在本實驗中,由于數(shù)據(jù)樣本構(gòu)造的特征空間較為簡便,因此模型在能夠很容易找到其全局最優(yōu)解,進(jìn)而在實驗結(jié)果上呈現(xiàn)出GA-BP沒有展現(xiàn)優(yōu)于BPNN的效果。
另一方面,當(dāng)數(shù)據(jù)量進(jìn)一步擴(kuò)大時,GA-BP或許能夠有效提升BPNN的效果。以上論斷提示提示應(yīng)當(dāng)根據(jù)數(shù)據(jù)集特征選擇合適的算法進(jìn)行建模。同時,為了提高判別模型建立的效率、準(zhǔn)確度以及魯棒性,可以在建模前選擇合適的數(shù)據(jù)預(yù)處理方法在建模前期對數(shù)據(jù)集進(jìn)行預(yù)處理,進(jìn)行去噪聲、基線校正、散射校正等操作,同時結(jié)合如競爭自適應(yīng)重加權(quán)采樣算法(competitive adaptive reweighted sampling,CARS)[30]、投影算法(successive projections algorithm,SPA)、非信息變量剔除(uninformative variables elimination,UVE)、區(qū)間偏最小二乘法(interval partial least squares,iPLS)[31]等方法選擇合適的建模波段,提高建模效率。
此外,從上文數(shù)據(jù)可以看出,雖然各算法在不同炮制品以及炮制品不同炮制程度模型判別過程中表現(xiàn)出相當(dāng)?shù)倪m應(yīng)性,但是隨著樣本類別、數(shù)量的增加,其判別準(zhǔn)確率均有不同程度的下降,可以通過如下手段提升判別的準(zhǔn)確性:首先,對炮制工藝進(jìn)行優(yōu)化,保證炮制品工藝穩(wěn)定,產(chǎn)品合格,在確保炮制品質(zhì)量均一的前提下擴(kuò)大樣本量。其次,與光譜照相機(jī)等多光譜成像技術(shù)相結(jié)合[32],提升產(chǎn)品信息維度,得到更為飽滿的產(chǎn)品信息,最后,可以使用如圖神經(jīng)網(wǎng)絡(luò)[33]以及具有時序?qū)傩缘母倪M(jìn)神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法進(jìn)行建模,最終建立準(zhǔn)確度高、適用性廣、魯棒性佳的判別模型。
隨著中醫(yī)藥行業(yè)的高速發(fā)展,對中藥材的需求量不斷提升,中藥飲片質(zhì)量參差不齊已成為制約中醫(yī)藥產(chǎn)業(yè)健康發(fā)展的主要因素,紅外光譜技術(shù)結(jié)合化學(xué)計量學(xué)和機(jī)器學(xué)習(xí)算法可實現(xiàn)快速對中藥材產(chǎn)地進(jìn)行溯源、炮制品以及不同炮制程度的判別,同時結(jié)合不同來源數(shù)據(jù)進(jìn)行整合分析[34],從而明確藥材來源,保證藥材質(zhì)量。
利益沖突 所有作者均聲明不存在利益沖突
[1] 王小燕, 郭常潤, 常軍民, 等. 懷牛膝多糖的柱前衍生化-HPLC指紋圖譜建立及單糖成分含量測定 [J]. 中國藥房, 2021, 32(3): 294-300.
[2] 唐維維, 梁獻(xiàn)葵, 馬馳虹, 等. 不同采收季節(jié)懷牛膝指紋圖譜研究 [J]. 中藥材, 2019, 42(9): 2079-2085.
[3] 紀(jì)亮, 劉倩茹, 梁獻(xiàn)葵, 等. 不同規(guī)格懷牛膝不同極性部位HPLC指紋圖譜 [J]. 中國藥學(xué)雜志, 2020, 55(8): 580-587.
[4] 施之琪, 朱月琴, 曹琰, 等. 基于標(biāo)準(zhǔn)湯劑的牛膝配方顆粒質(zhì)量評價研究 [J]. 中藥新藥與臨床藥理, 2019, 30(7): 863-869.
[5] 翁倩倩, 趙佳琛, 金艷, 等. 經(jīng)典名方中牛膝類藥材的本草考證 [J]. 中國現(xiàn)代中藥, 2020, 22(8): 1261-1268.
[6] 李思懿, 張鳳玲, 王曉倩. 牛膝炮制方法的歷史沿革與現(xiàn)代研究 [J]. 中醫(yī)藥管理雜志, 2022, 30(3): 19-22.
[7] 陶益, 杜映姍, 黃蘇潤, 等. 牛膝不同炮制品中化學(xué)成分的UPLC-Q-TOF/MS分析 [J]. 中國實驗方劑學(xué)雜志, 2017, 23(12): 1-5.
[8] 陳露萍, 徐芳芳, 張欣, 等. 基于偏最小二乘法建立大株紅景天片素片硬度近紅外光譜預(yù)測模型 [J]. 中草藥, 2023, 54(8): 2446-2452.
[9] Xue J T, Liu Y F, Ye L M,. Rapid and simultaneous analysis of five alkaloids in four parts ofby near-infrared spectroscopy [J]., 2018, 188: 611-618.
[10] 黃志偉, 郭拓, 黃文靜, 等. 近紅外光譜技術(shù)在名貴中藥材質(zhì)量評價中的研究進(jìn)展 [J]. 中草藥, 2022, 53(20): 6328-6336.
[11] 姜澤明, 周甜甜, 卜洪洋, 等. 落葉松樹皮原花青素生產(chǎn)過程的紅外光譜分析[J]. 光譜學(xué)與光譜分析, 2018, 38(1): 62-67.
[12] 田勝尼, 李亞楠, 胡藝璇, 等. 安徽齊云山石斛傅里葉紅外光譜分析 [J]. 生物學(xué)雜志, 2021, 38(6): 65-69.
[13] 鄭司浩, 趙莎, 曾燕, 等. 中藥材品種與產(chǎn)地鑒別研究現(xiàn)狀與思考 [J]. 中國現(xiàn)代中藥, 2021, 23(12): 2037- 2045.
[14] 李超, 李孟芝, 李丹霞, 等. 基于傅里葉變換紅外光譜指紋技術(shù)的艾葉產(chǎn)地溯源研究 [J]. 光譜學(xué)與光譜分析, 2022, 42(8): 2532-2537.
[15] 王小鵬, 張璐, 陳鵬舉, 等. 近紅外光譜技術(shù)應(yīng)用于中藥四類味覺分類辨識的可行性分析[J]. 中草藥, 2023, 54(4): 1076-1086.
[16] 賴長江生, 周融融, 余意, 等. 基于近紅外分析和化學(xué)計量學(xué)方法對不同產(chǎn)地靈芝快速鑒別及多糖含量測定的研究 [J]. 中國中藥雜志, 2018, 43(16): 3243-3248.
[17] 張振宇, 常相偉, 嚴(yán)輝, 等. 基于近紅外光譜分析技術(shù)的干姜質(zhì)量快速評價研究[J]. 中草藥, 2022, 53(23): 7516-7523.
[18] 賈豪, 雷益銘, 張維方, 等. 牛膝藥材的紅外指紋圖譜建立及多元統(tǒng)計分析 [J]. 中國藥房, 2022, 33(2): 153-159.
[19] 中國藥典[S]. 四部. 2020: 31.
[20] 方翔, 侯淑萍, 劉瑣, 等. 基于BP神經(jīng)網(wǎng)絡(luò)算法和公式法糾正黃疸對儀器測定血紅蛋白的影響及探討 [J]. 中國衛(wèi)生檢驗雜志, 2022, 32(18): 2233-2236.
[21] Xie F Y, Fan H D, Li Y,. Melanoma classification on dermoscopy images using a neural network ensemble model [J]., 2017, 36(3): 849-858.
[22] 孫炬仁. 基于遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)下馬鈴薯產(chǎn)量預(yù)測模型 [J]. 農(nóng)機(jī)化研究, 2023, 45(6): 53-57.
[23] 于旭峰, 李紅梅, 卓偉, 等. 基于近紅外光譜技術(shù)的馬鈴薯葉片含水率高效預(yù)測 [J]. 光學(xué)儀器, 2020, 42(4): 7-13.
[24] Lam C, Calvert J, Siefkas A,. Personalized stratification of hospitalization risk amidst COVID-19: A machine learning approach [J]., 2021, 10(3): 100554.
[25] 湯衛(wèi)東, 肖大軍, 談林濤, 等. 機(jī)器學(xué)習(xí)下隨機(jī)森林算法在電網(wǎng)故障分析指揮系統(tǒng)中的應(yīng)用 [J]. 計算技術(shù)與自動化, 2022, 41(3): 59-63.
[26] 馮麟涵, 楊俊杰, 焦立啟. 基于RBF神經(jīng)網(wǎng)絡(luò)的船舶沖擊譜速度數(shù)據(jù)挖掘與預(yù)報 [J]. 振動與沖擊, 2022, 41(13): 189-194.
[27] 周飛燕, 金林鵬, 董軍. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述 [J]. 計算機(jī)學(xué)報, 2017, 40(6): 1229-1251.
[28] 何力, 鄭灶賢, 項鳳濤, 等. 基于深度學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展 [J]. 計算機(jī)工程, 2021, 47(2): 1-11.
[29] Sokolova M, Lapalme G. A systematic analysis of performance measures for classification tasks [J]., 2009, 45(4): 427-437.
[30] Li H D, Liang Y Z, Xu Q S,. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration [J]., 2009, 648(1): 77-84.
[31] Zou X B, Zhao J W, Povey M J W,. Variables selection methods in near-infrared spectroscopy [J]., 2010, 667(1/2): 14-32.
[32] 吳剛, 彭要奇, 周廣奇, 等.基于多光譜成像和卷積神經(jīng)網(wǎng)絡(luò)的玉米作物營養(yǎng)狀況識別方法研究 [J]. 智慧農(nóng)業(yè): 中英文, 2020, 2(1): 111-120.
[33] 徐冰冰, 岑科廷, 黃俊杰, 等. 圖卷積神經(jīng)網(wǎng)絡(luò)綜述 [J]. 計算機(jī)學(xué)報, 2020, 43(5): 755-780.
[34] 趙倩, 繆培琪, 李小莉, 等. 數(shù)據(jù)融合技術(shù)在中藥分析領(lǐng)域中的應(yīng)用進(jìn)展 [J]. 中草藥, 2023, 54(11): 3706-3714.
Discrimination analysis of different processed products and processing degree ofbased on infrared spectroscopy combined with machine learning methods
TIAN Han-ju1, 2, YANG Yan-rong1, 2, JIA Hao1, 2, LI Ying-ying1, 2, DUAN Hao-han1, 2, ZHAO Xin-mei1, 2, ZHANG Chun-ya1, 2, LEI Jing-wei1, 2, XIE Cai-xia1, 2, YANG Chun-jing1, 2, 3, GONG Hai-yan1, 2
1. School of Pharmacy, Henan University of Chinese Medicine, Zhengzhou 450046, China 2. Henan Engineering Technology Research Center for TCM Quality Control and Evaluation, Zhengzhou 450046, China 3. Third Affiliated Hospital of Henan University of Chinese Medicine, Zhengzhou 450046, China
To establish a qualitative discrimination model for the type and degree of processing of Niuxi (, AB) using infrared spectroscopy and machine learning algorithms.The infrared spectra of AB with different processing types and degree was collected, and various machine learning algorithms, including back propagation neural network (BPNN), genetic algorithm-optimized BP neural network (GA-BP), random forest (RF), radial basis function network (RBFN), and convolutional neural networks (CNN) were used to establish a qualitative discrimination model for the type and degree of processed products of AB. The near-infrared spectra (NIRS) of AB with different processing types and degree was collected, and TQ Analyst software was used to establish a qualitative analysis model for the type and degree of processed products of AB.The results of the machine learning algorithm models showed that the CNN discriminative model was superior, the BPNN, RF and RBFN had similar performance, and the GA-BP model had relatively poor performance. The three NIRS qualitative models had validation accuracies of 100%, indicating that they could accurately predict the type and degree of processed products of AB.The qualitative analysis model developed in this study by infrared spectroscopy can be used as a means to identify the type and degree of processed products of AB. It also provides a rapid and non-destructive means of testing and a reliable method for data analysis, with view to providing a new method of reference for the accurate identification of the type and degree of preparation of Chinese herbal processed products.
BL.; processed product; processing degree; infrared spectroscopy; orthogonal partial least squares- discriminant analysis; machine learning algorithm
R283.6
A
0253 - 2670(2023)22 - 7387 - 15
10.7501/j.issn.0253-2670.2023.22.015
2023-05-29
國家重點研發(fā)計劃“中醫(yī)藥現(xiàn)代化研究”重點專項項目(2018YFC1707000);河南省中醫(yī)藥科學(xué)研究專項課題(2022ZY1156)
田瀚舉,男,碩士研究生,研究方向為中藥質(zhì)量分析研究。E-mail: tianhanju@163.com
通信作者:雷敬衛(wèi),男,教授,研究方向為中藥質(zhì)量分析研究。Tel: (0371)65955281 E-mail: 925390812@qq.com
龔海燕,女,副教授,研究方向為中藥質(zhì)量分析研究。Tel: (0371)65575838 E-mail: ghy_mz@163.com
[責(zé)任編輯 鄭禮勝]