, ,源棟,,, ,,*
(1.云南中煙工業(yè)有限責(zé)任公司技術(shù)中心,云南昆明 650231;2.科邁恩(北京)科技有限公司,北京 100080;3.云南煙草質(zhì)量監(jiān)督檢測站,云南昆明 650106)
根據(jù)2015年《中國藥典》[1]所收載的中藥材,將葛根分為柴葛(豆科葛屬植物野葛Puerarialobata(Willd.)Ohwi)和粉葛(豆科葛屬植物葛的變種甘葛藤PuerariathomsoniiBenth)兩個品種,二者在纖維性、葛根素、大豆苷、大豆苷元等含量差異都較大,前者味苦只能入藥,后者為藥食兩用[2]。葛根在我國分布廣泛,資源豐富,但不同產(chǎn)地葛根受環(huán)境、氣候等因素影響,品質(zhì)之間差異較大。為此,鑒別葛根的地道性及質(zhì)量評價一直是熱門課題。目前,對于葛根藥材及相關(guān)中藥制劑的質(zhì)量控制主要是采用色譜及光譜技術(shù)測定其中一個或多個有效成分的含量,以含量的多少來評價其質(zhì)量的優(yōu)劣。近年來,色譜指紋圖譜分析應(yīng)用較多[3-6]。
近紅外光譜(NIR)波長范圍在780~2498 nm,NIR光譜屬于分子光譜,主要是由分子振動的非諧振性使分子從基態(tài)向高能級躍遷時產(chǎn)生,分子在躍遷過程中吸收能量,從而產(chǎn)生了吸收光譜。相對傳統(tǒng)的化學(xué)分析技術(shù),大多數(shù)類型的樣品均可采用NIR光譜技術(shù)直接進行測定,而不需要進行物理、化學(xué)等任何處理,尤其對于固體樣品,不需要進行溶劑提取等工藝,直接進行NIR光譜分析,具有快速、簡便、高效、準(zhǔn)確且成本較低,不破壞樣品,不消耗化學(xué)試劑,不污染環(huán)境優(yōu)點。因此,NIR光譜分析技術(shù)受到越來越多人的青睞,在農(nóng)業(yè)[7]、食品[8]、石油化工[9]、生物醫(yī)學(xué)[10-12]等領(lǐng)域被廣泛研究和應(yīng)用,相對于近紅外定量分析方面的發(fā)展,近紅外模式識別方面的研究進展較慢。近紅外光譜模式識別是基于采集到的樣品的光譜數(shù)據(jù),采用計算機數(shù)學(xué)建模的方法,對樣品進行識別和分類的方法。在化學(xué)計量學(xué)分析中,用于模式識別的原始數(shù)據(jù)特征越多,所包含信息越豐富,對于分析實驗結(jié)果越有利。而近紅外光譜往往包含了樣品的大量特征信息,因此,將近紅外光譜結(jié)合模式識別方法,能更加有效地對樣品進行等級分類和屬性判別。目前,基于NIR光譜信息的模式識別技術(shù)已經(jīng)成為研究熱點[13-16],在各個行業(yè)的產(chǎn)品真假識別、在線分類判別、原產(chǎn)地鑒定、產(chǎn)品質(zhì)量監(jiān)控與分析等方面發(fā)揮了重要的作用。近紅外光譜模式識別主要分為兩部分,首先是特征信息提取,常見的有效方法有主成分分析(PCA)[17]、偏最小二乘(PLS)[11,18]等,其次是分類器算法,常見的有效方法有線性判別分析(LDA)、人工神經(jīng)網(wǎng)絡(luò)(ANN)[19]、支持向量機(SVM)[20-21]等。其中特征信息提取是重要的基礎(chǔ)性環(huán)節(jié),它是對變量(如,波長)和樣品對應(yīng)的數(shù)據(jù)矩陣進行特征分析和數(shù)據(jù)降維。k近鄰分類(k-nearest neighbor classification,kNN)[20,22]算法根據(jù)待識樣本在特征空間中k個最近鄰樣本中多數(shù)樣本的類別來進行分類,因此具有直觀、無需先驗統(tǒng)計知識、無師學(xué)習(xí)等特點,從而成為非參數(shù)分類的一種重要方法[23]。
本文通過ChemPattern軟件,采用基于多元統(tǒng)計分析PLS-DA及kNN建模,開展基于NIR光譜的不同種類和產(chǎn)地來源的葛根化學(xué)模式識別,以期為中藥葛根的質(zhì)量評價與質(zhì)量控制提供依據(jù)。
柴葛及粉葛樣品 從藥店以及香精香料公司購買的安徽、廣西、湖北、湖南、四川、云南及重慶等12個不同產(chǎn)地、不同批次共120個樣品作為實驗樣品;詳細(xì)信息如表1所示。
表1 葛根藥材樣品Table 1 Summary of Radix puerariae samples
1.2.1 葛根樣品處理 先將葛根樣品敲成小碎塊,然后用旋風(fēng)磨粉碎,過60目篩,裝入密封袋中備用。
1.2.2 光譜數(shù)據(jù)的采集 在室內(nèi)溫度24~28 ℃下,相對濕度≤70%,開機預(yù)熱光譜儀2 h;采集背景光譜后,把混勻的固體粉末樣品放入樣品杯中,使用壓樣器輕壓平整,樣品厚度≥10 mm;將裝好樣品的樣品杯置于旋轉(zhuǎn)臺上,采集樣品近紅外漫反射光譜并保存,每個樣品重新裝樣并連續(xù)進行3次平行采集。儀器參數(shù)為光譜掃描范圍4000~10000 cm-1;分辨率:8 cm-1;掃描次數(shù)不低于64次。采集完成后,用95%乙醇2~3次洗凈樣品杯上的殘留物,待乙醇揮發(fā)完畢后,進行下一個樣品光譜的采集。
1.2.3 葛根品種及產(chǎn)地的多元統(tǒng)計分析 采集12個產(chǎn)地共120個葛根樣品的近紅外光譜數(shù)據(jù),對光譜進行預(yù)處理并建立共有模式,對全部樣品進行相似度分析、PLS判別分析及部分樣品(除差別較大的安徽柴葛)的PLS分析,初步對樣品種類及產(chǎn)地情況進行判定。
1.2.4 葛根品種及產(chǎn)地的模式識別 分別選擇不同的樣品為測試集和訓(xùn)練集,基于PLS-DA對葛根的種類(粉葛和柴葛)進行模式識別,另外對比PLS-DA和kNN兩種方法,對葛根產(chǎn)地以及產(chǎn)地和種類同時進行識別,以樣品識別率為依據(jù),選定較為合適的模式識別方法。
數(shù)據(jù)處理軟件:ChemPattern化學(xué)計量學(xué)與化學(xué)指紋圖譜系統(tǒng)解決方案軟件2017版[科邁恩(北京)科技有限公司(Chemmind Technologies Co.,Ltd.)]。
將光譜數(shù)據(jù)導(dǎo)入ChemPattern軟件,所有葛根樣品的紅外透過率疊加圖譜如圖1所示,可以看出,安徽柴葛的紅外光譜和其他組有明顯的差異,剩余各組樣品間的光譜曲線差異很小,很難對葛根的分類進行區(qū)分。
圖1 葛根樣品的NIR透過率疊加圖Fig.1 Near infrared transmission spectra of Radix Puerariae
對光譜進行校正后,設(shè)置重慶萬州的10批樣品為代表性樣品生成共有模式,如圖2所示。利用所建立的共有模式,采用歐氏距離計算相似度,結(jié)果如圖3(A)所示,結(jié)果顯示,除安徽柴葛外,其他組樣品之間的相似度較高,僅可大致區(qū)分出安徽柴葛和其他組兩個大類,但不能進行全部區(qū)分。對樣品進行偏最小二乘判別分析,分析結(jié)果如圖3(B)所示。由圖可知,偏最小二乘判別分析顯示,安徽柴葛明顯區(qū)別于其他組別的樣本。
圖2 葛根樣品模式Fig.2 Common pattern of Radix Puerariae Transmission spectra
圖3 葛根樣品相似度分析(A)及PLS潛變量分析(B)Fig.3 Similarity analyses(A)and PLS-DAscores plot(B)of all Radix Puerariae sample
對除安徽柴葛外的樣品做PLS分析如圖4(A),可以看出,絕大部分地區(qū)樣本都可以很好地區(qū)分,但四川粉葛和重慶萬州(圖4A實線圈)出現(xiàn)了重疊,四川和重慶地理位置相對比較接近,可以用于解釋造成該兩組樣本相似度高的原因。此外,粉葛和柴葛的區(qū)別,從圖中的分布也可以大致體現(xiàn)出來(圖4A、4B虛線圈為柴葛樣品)。以LV1、LV2和LV3進行作圖4B(實線圈)可以看出,原本重疊的四川粉葛和重慶萬州也可以完全區(qū)分開。
2.2.1 葛根品種識別 從柴葛和粉葛每組中隨機挑選1/5的樣本作為測試集,以剩余的粉葛(58個)和柴葛(32個)作為訓(xùn)練集,進行PLS-DA模式識別,采用留一交叉驗證選擇潛變量數(shù)目。結(jié)果如圖5所示,根據(jù)訓(xùn)練集留一交叉驗證結(jié)果,選出潛變量個數(shù)為3,訓(xùn)練集交叉驗證葛根種類識別率為100%。同時,利用測試集對所建PLS-DA模型進行評價,5次隨機分組建模測試集葛根種類識別率平均結(jié)果為100%。以上結(jié)果表明所選的PLS-DA葛根種類識別模型準(zhǔn)確可靠,可用于粉葛和柴葛的準(zhǔn)確判別。
圖5 粉葛和柴葛的PLS-DA預(yù)測效果圖Fig.5 Performance of PLS-DA Radix Puerariae Varieties classification model
2.2.2 葛根地點的識別 根據(jù)葛根的地點分布,首先將所有樣品隨機分為訓(xùn)練集(4/5)和測試集(1/5),然后采用PLS-DA建立葛根產(chǎn)地識別模型。PLS-DA的潛變量數(shù)用留一交叉驗證確定,結(jié)果如圖6所示,可以看出潛變量數(shù)為16時,模型的識別率最大僅為84.43%,可能的原因是PLS-DA為線性模型,而紅外光譜和地點信息之間可能是非線性的關(guān)系,所以導(dǎo)致模型的識別效果不夠理想。
圖6 PLS-DA建模潛變量數(shù)與模型識別率關(guān)系圖Fig.6 Accuracy of classification versus number of latent variable
采用kNN進行建模,留一交叉驗證進行鄰近樣本數(shù)目K值的選擇,結(jié)果如圖7所示,可以看出K值為1或2時,結(jié)果最好;K值增加到3時,模型效果有較大下降,而K越大模型越不容易過擬合,因此K值確定為2。采用非線性的方法kNN進行建模結(jié)果如圖8所示,可以看出kNN模型對各地點葛根可以進行很好的識別,模型訓(xùn)練集和測試集識別率均為100%,表明模型對葛根地點的識別準(zhǔn)確可靠,另外也表明葛根地點信息和紅外光譜之間可能存在非線性關(guān)系。
圖7 鄰近樣本數(shù)目與kNN葛根地點識別模型準(zhǔn)確率關(guān)系圖Fig.7 Accuracy of kNN Radix Puerariae origin recognition model versus number of nearest neighbors
圖8 葛根地點的kNN模式識別效果Fig.8 Performance of kNN origin identification model for Radix Puerariae
2.2.3 葛根種類地點同時識別 由前2.2.2可知,葛根地點和紅外光譜之間存在非線性關(guān)系,因此將樣本分為訓(xùn)練集(4/5)和測試集(1/5),采用kNN進行建模。如圖9所示,采用留一交叉驗證選出K值為2,訓(xùn)練集交叉驗證識別率為99.30%。利用測試集評價所建kNN模型的識別效果,結(jié)果如圖10所示,可以看出此時模型對訓(xùn)練集和測試集的識別率均為100%,表明kNN模型可對葛根的產(chǎn)地和種類同時進行準(zhǔn)確的識別。
圖9 鄰近樣本數(shù)目與kNN葛根地點種類模型準(zhǔn)確率關(guān)系圖Fig.9 Accuracy of kNN Radix Puerariae varieties and origin recognition model versus number of nearest neighbors
圖10 kNN建模對葛根地點種類模式識別結(jié)果Fig.10 Performance of kNN Radix Puerariae Varieties classification model
基于多元統(tǒng)計分析,對12個產(chǎn)地共120個葛根樣品進行相似度及PLS判別分析,結(jié)果顯示,除安徽柴葛外其他組樣品之間的相似度較高。結(jié)合藥材外觀,可以觀察到安徽柴葛的纖維性強、顏色較深,其性狀與其他野葛樣品亦有不同,推斷該樣品可能為生長年限較長的野生品種。分別選擇不同的樣品為測試集和訓(xùn)練集,基于PLS-DA對葛根的兩個種類粉葛和柴葛進行模式識別,識別率達(dá)100%,另外采用該方法對葛根產(chǎn)地的識別率為84.44%,采用非線性的kNN后識別率提升為100%,表明葛根地點信息和紅外光譜間可能存在非線性關(guān)系。當(dāng)采用kNN對葛根產(chǎn)地和品種同時進行模式識別,樣品識別率達(dá)100%。本文建立了基于近紅外光譜的化學(xué)計量學(xué)模式識別方法,為葛根的質(zhì)量評價及控制提供了可靠的評價新方法。