国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于高光譜數(shù)據(jù)的乳香產(chǎn)地快速鑒別

2021-10-05 08:48:52程介虹陳爭光
關(guān)鍵詞:乳香產(chǎn)地波長

程介虹,陳爭光

(黑龍江八一農(nóng)墾大學(xué)信息與電氣工程學(xué)院,大慶 163319)

乳香為橄欖科植物卡氏乳香樹(Boswellia carterii Birdw)及同屬植物鮑達(dá)乳香樹(Boswellia bhawdajiana Birdw)的樹皮滲出的樹脂,具有活血行氣止痛,消腫生肌的功效,在中醫(yī)藥中有著較高的藥用價值。其種類分為索馬里乳香、埃塞俄比亞乳香、印度乳香三種,不同產(chǎn)地的乳香的藥用價值不同。由于三種乳香外觀等較為接近,很難通過性狀鑒別其產(chǎn)地。通過閱讀文獻(xiàn),發(fā)現(xiàn)現(xiàn)有研究主要通過高效液相色譜法、液質(zhì)聯(lián)用法和氣質(zhì)聯(lián)用法等鑒別,如:于新蘭等[1]通過氣相指紋圖譜結(jié)合化學(xué)計量學(xué),對三種乳香進(jìn)行鑒別,王趙等[2]通過4 種鑒別技術(shù)(性狀、顯微、TLC 和HPLC 指紋圖譜鑒別)系統(tǒng)地比較了3 種藥用乳香的異同;孫磊等[3]通過色譜指紋圖譜結(jié)合化學(xué)計量學(xué),可以精確區(qū)分和系統(tǒng)評價3 種藥用乳香;Michael Paul 等[4]通過薄層色譜法鑒別三種不同乳香樹脂。但上述檢測分析方法在操作、運(yùn)行、維護(hù)等方面的成本較高,耗時較長。高光譜圖像技術(shù)具有波段多、光譜分辨率高、圖譜合一等優(yōu)點(diǎn),檢測過程中無需對樣品進(jìn)行預(yù)處理、快速無損,被廣泛應(yīng)用到農(nóng)業(yè)[5]、醫(yī)療[6]、化工[7]等方面的檢測分析。因此,將具有快速、無損、批量檢測特性的高光譜技術(shù)引入中藥鑒定領(lǐng)域,試圖尋找一種方法可以快速無損地進(jìn)行乳香產(chǎn)地判別,以解決中藥流通中乳香產(chǎn)地混雜的問題。

研究以三個產(chǎn)地的乳香樣品為研究對象,提取乳香樣本的高光譜數(shù)據(jù)中的近紅外光譜數(shù)據(jù),對近紅外光譜進(jìn)行歸一化預(yù)處理,然后通過連續(xù)投影算法(Successive Projections Algorithm,SPA)進(jìn)行特征波長提取,在特征波長基礎(chǔ)上,分別基于極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)、支持向量機(jī)(Support Vector Machine,SVM)、線性判別分析(linear discriminant analysis,LDA)三種方法建立分類判別模型,進(jìn)行乳香產(chǎn)地的預(yù)測判別,以實(shí)現(xiàn)高光譜技術(shù)對不同產(chǎn)地乳香種類的鑒別。

1 材料與方法

1.1 樣本數(shù)據(jù)

所用數(shù)據(jù)來自于中國中醫(yī)科學(xué)院中藥資源中心,利用Hyspex 系列高光譜成像儀,收集索馬里、印度、埃塞俄比亞三個產(chǎn)地的410~2 500 nm 乳香光譜數(shù)據(jù)。數(shù)據(jù)為高光譜原始數(shù)據(jù)(DN 值數(shù)據(jù)),已經(jīng)過設(shè)備自帶的RAD 校正,數(shù)據(jù)由兩個鏡頭獲?。?10~990 nm 以及950~2 500 nm),光譜分辨率為6 nm。

選取11 個乳香樣品的高光譜數(shù)據(jù),其中3 個為索馬里產(chǎn)地的乳香樣本、4 個為印度產(chǎn)地的乳香樣本、4 個為埃塞俄比亞產(chǎn)地的乳香樣本,每個樣本選取波長范圍為950~2 500 nm 的近紅外范圍的光譜數(shù)據(jù),共計288 個波長點(diǎn)。

1.2 SPA 特征波長選擇算法

由于光譜數(shù)據(jù)波段多、波段高相關(guān)性,會引起“維度災(zāi)難”。特征波長選擇是用來克服“維度災(zāi)難”和模型化高維數(shù)據(jù)的一種重要方法,可以有效解決這一問題。在掃描樣品的光譜時由于儀器及環(huán)境的干擾,樣本的光譜數(shù)據(jù)中通常會含有大量無信息變量甚至干擾變量,波長間也會存在嚴(yán)重的共線性及冗余信息,基于有效波長所建立的模型的穩(wěn)健性和預(yù)測精度通常較全譜模型有所提高。因此,波長選擇已經(jīng)發(fā)展成為了光譜定量分析中的一個重要步驟。特征波長選擇是從全譜數(shù)據(jù)中提取部分涵蓋有用信息的光譜,去除噪聲光譜及無用信息,建立一個更為簡約、穩(wěn)定的光譜模型,可以極大地減少變量數(shù)目,加快模型的計算效率,提高模型的穩(wěn)健性[8]。

SPA 是由Araujo 等[9]提出的一種以消除變量間共線性為主要目的的特征波長選擇算法,該方法主要原理是利用向量的投影分析,對全譜數(shù)據(jù)的有效變量進(jìn)行提取,消除冗余信息及無信息變量[10]。假設(shè)已給出初始波長k(0)和所需提取波長數(shù)目N,算法步驟為[9,11-12]:

Step 0:在第一次迭代(n=1)之前,將校正集Xcal的第j 列光譜數(shù)據(jù)賦值給xj,j=1,…,J,J 為總波長數(shù)。

Step 1:沒有被選擇的列向量的集合記為S,S={j,1≤j≤J,j?{k(0),…,k(n-1)}}

Step 2:計算xj在子空間正交于xk(n-1)的投影,,j∈S,其中P為投影算子。

Step 3:令k(n)=arg(max‖Pxj‖),j∈S

Step 4:令xj=Pxj,j∈S

Step 5:令n=n+1,如果n<N 返回Step 1 循環(huán)。

End:最后得到的波長為{k(n);n=0,…,N-1}

其中k(0)和N 的選擇是很關(guān)鍵的一個步驟。為了得到全局最優(yōu)結(jié)果,k(0)的取值是在1~J 之間變化。N 的變化范圍是:1≤N≤Mcal,Mcal 為校正集樣本數(shù),具體取值由模型的誤差決定。

1.3 分類建模方法

1.3.1 ELM 判別方法

極限學(xué)習(xí)機(jī)[13]是2004 年由南洋理工大學(xué)黃廣斌副教授提出的一種新型單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFN),具有結(jié)構(gòu)簡單、學(xué)習(xí)速度快、非線性處理能力和全局搜索性能良好等優(yōu)勢。ELM 只需設(shè)置網(wǎng)絡(luò)中隱含層的神經(jīng)元數(shù)和激活函數(shù)[14],輸入層和隱含層的連接權(quán)值、隱含層的閾值可以隨機(jī)設(shè)定,且不需要更新調(diào)整,相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)(BP、RBF),其網(wǎng)絡(luò)參數(shù)的隨機(jī)賦值避免了多次迭代耗時長和易陷入局部最小值的缺點(diǎn),使得ELM 在學(xué)習(xí)速率和泛化能力方面具有較強(qiáng)的優(yōu)勢。

1.3.2 SVM 判別方法

支持向量機(jī)是1995 年由Cortes 和Vapnik 首先提出的,是一種非線性的統(tǒng)計學(xué)習(xí)方法,抗噪性能強(qiáng)、效率高。它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。其基本原理是將輸入數(shù)據(jù)空間映射到高維空間,尋找一個最優(yōu)分離曲面,使數(shù)據(jù)的間隔盡可能大,從而得到一個全局最優(yōu)解,以達(dá)到分類的目的[15]。SVM 的關(guān)鍵在于核函數(shù),較為常用的核函數(shù)包括線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)以及sigmoid 核函數(shù)。

1.3.3 LDA 判別方法

線性判別分析是1936 年由Ronald Fisher 最早提出的,又稱為“Fisher 判別分析”,它是一種模式識別的經(jīng)典方法,屬于有監(jiān)督的判別方法。其基本原理是找到一個投影方向,將高維的向量投影到最優(yōu)的鑒別矢量空間,以達(dá)到抽取分類信息和壓縮特征空間維數(shù)的效果,使得向量在新的子空間有最大的類間聚類和最小的類內(nèi)距離[16],通俗的說就是每一種類別數(shù)據(jù)的投影點(diǎn)盡可能的接近,而不同類別的數(shù)據(jù)的類別中心之間的距離盡可能的大。其計算量較小,能夠從高維數(shù)據(jù)提取出主成分信息,以提高分類的準(zhǔn)確度[17]。

1.4 數(shù)據(jù)分析工具

實(shí)驗(yàn)所用軟件包括MATLAB R2015b、The Unscrambler X 10.3(64-bit)和ENVI 5.5(64-bit)。MATLAB 是由美國MathWorks 公司出品的一款較為常用的數(shù)據(jù)處理軟件,可實(shí)現(xiàn)數(shù)值分析、用戶界面、編程語言、圖像處理等多種功能,為圖像處理及建模仿真提供高效全面的解決方案。The Unscrambler 是一款多元數(shù)據(jù)分析軟件,具有較強(qiáng)的回歸、分類以及預(yù)測的建模工具,操作簡便,易于使用。ENVI 是一款遙感圖像處理軟件,具有信息提取、圖像分類、數(shù)據(jù)融合變換等多種技術(shù),包含處理高光譜數(shù)據(jù)的多種工具。

感興趣區(qū)域的提取在ENVI 軟件中實(shí)現(xiàn),光譜數(shù)據(jù)的預(yù)處理在Unscrambler 軟件中實(shí)現(xiàn),變量選擇、圖形的繪制、三種分類模型(極限學(xué)習(xí)機(jī)、支持向量機(jī)、線性判別分析)的建立及預(yù)測判別等在MATLAB中實(shí)現(xiàn)。

2 結(jié)果與分析

2.1 光譜數(shù)據(jù)特征

高光譜圖像為三維數(shù)據(jù)塊,第一維和第二維為圖像大小,第三維為近紅外波長信息。為了提取乳香樣本的近紅外信息,利用ENVI 軟件提取乳香高光譜圖像的感興趣區(qū)域(region of interest,ROI)的近紅外光譜數(shù)據(jù),每個高光譜圖像選取7 個ROI,計算ROI內(nèi)的平均光譜值,以此平均值作為該樣本的一條近紅外光譜數(shù)據(jù),每個樣本收集7 條光譜曲線,共收集77 條光近紅外光譜曲線(圖1),其中埃塞俄比亞產(chǎn)地28 條,索馬里產(chǎn)地21 條,印度產(chǎn)地28 條。為消除數(shù)據(jù)之間的量綱影響,對原始光譜數(shù)據(jù)進(jìn)行Min-Max 歸一化預(yù)處理,公式如下:

圖1 原始光譜圖Fig.1 Original spectrum

其中,min(x),max(x)分別是x 中最小值和最大值。通過Min-Max 歸一化處理可以將數(shù)據(jù)映射到(0,1)之間,可以消除樣本表面散射、光程變化的影響,降低同一樣品多次測試間誤差[18]。預(yù)處理后的光譜圖如圖2 所示。由圖2 可以發(fā)現(xiàn)預(yù)處理后的光譜數(shù)據(jù)在一定程度上消除了基線漂移、強(qiáng)化了譜帶特征、可以清晰分辨波峰波谷,所以后續(xù)的波長選擇及模型建立均基于預(yù)處理后的光譜數(shù)據(jù)進(jìn)行。

圖2 預(yù)處理后光譜圖Fig.2 Pre-processed spectrum

2.2 樣本集劃分

SPXY(sample set portioning based on joint x-y distance)算法是一種能夠同時考慮樣本光譜數(shù)據(jù)信息與理化性質(zhì)特性的樣本集劃分方法,將77 個樣本通過SPXY 劃分為75%建模集和25%預(yù)測集,建模集包含57 個樣本,預(yù)測集包含20 個樣本。其中建模集包含22 個埃塞俄比亞產(chǎn)地、17 個索馬里產(chǎn)地、18個印度產(chǎn)地的乳香,預(yù)測集包含6 個埃塞俄比亞產(chǎn)地、4 個索馬里產(chǎn)地、10 個印度產(chǎn)地的乳香,然后分別賦值作為判別依據(jù),將埃塞俄比亞產(chǎn)地的乳香賦值為1,索馬里產(chǎn)地的乳香賦值為2,印度產(chǎn)地的乳香賦值為3,以便進(jìn)行后續(xù)分類模型的判定。

2.3 特征波長選取

由SPA 方法選擇特征波長建立多元線性回歸模型,設(shè)置N 的最大最小值分別為:Nmin=5、Nmax=56,選取RMSEV 最小值對應(yīng)的波長個數(shù)即為最終的特征波長個數(shù)。圖3 中的正方形標(biāo)記所示為SPA 多元線性回歸模型選擇的變量數(shù),RMSEV 的最小值為0.192,此后各模型的RMSEV 值基本穩(wěn)定,不再大幅度降低。此時特征波長N 的個數(shù)確定為20 個,圖4中方塊所對應(yīng)的20 個點(diǎn)即為SPA 選擇的最佳特征波長,分別為949、954、965、1 123、1 167、1 199、1 216、1 336、1 396、1 412、1 423、1 450、1 548、1 608、1 717、1 881、1 935、2 006、2 240、2 300 nm。其中分布在1 900 nm 區(qū)域的波長,對應(yīng)于乳香結(jié)構(gòu)中-COOH 化學(xué)鍵的吸收;分布在1 015、1 195 nm 區(qū)域的波長,對應(yīng)于乳香結(jié)構(gòu)中-CH3化學(xué)鍵的吸收。

圖3 模型選擇的變量數(shù)Fig.3 Number of variables selected by the model

圖4 SPA 所選特征波長點(diǎn)Fig.4 Characteristic wavelength points selected by SPA

2.4 建立分類模型

2.4.1 ELM 分類模型

通過研究發(fā)現(xiàn)“Sigmoid”激活函數(shù)較“Sine”和“Hardlim”函數(shù)具有更高的預(yù)測精度和穩(wěn)定性[19],所以選擇“Sigmoid”函數(shù)為激活函數(shù)。一般情況下,隱層節(jié)點(diǎn)數(shù)小于或遠(yuǎn)小于訓(xùn)練集樣本數(shù),即:隱層神經(jīng)元個數(shù)=訓(xùn)練集樣本數(shù)* 隱層神經(jīng)元數(shù)目的比例參數(shù)(0.2~0.5),所以隱含層神經(jīng)元數(shù)目設(shè)置為20 個。

由表1 可以看出,采用ELM 對三種產(chǎn)地的乳香建立判別模型,基于特征波長提取后的SPA-ELM 模型預(yù)測集準(zhǔn)確率高達(dá)100%,而原始光譜ELM 模型的預(yù)測集準(zhǔn)確率僅為85%,結(jié)果表明,基于SPA 算法提取的20 個特征波長能代替原始光譜信息,不但可以降低數(shù)據(jù)冗余度,減少模型的輸入量,還可以提高預(yù)測的準(zhǔn)確率??梢?,連續(xù)投影算法結(jié)合極限學(xué)習(xí)機(jī)建立的分類模型可以有效識別出三種不同產(chǎn)地的乳香,基于SPA-ELM 和高光譜技術(shù)對乳香產(chǎn)地判別是一種有效的方法。

表1 ELM 預(yù)測模型性能比較Table 1 Performance comparison of ELM prediction model

2.4.2 SVM 分類模型

以多分類SVM 建立乳香產(chǎn)地分類模型,構(gòu)造多個二分類模型,將每個二分類的模型結(jié)果組合起來以實(shí)現(xiàn)多分類SVM 模型。在上述四種核函數(shù)中,徑向基(RBF)函數(shù)在小樣本的情況下更容易獲得好的結(jié)果,所以選用徑向基核函數(shù)建立SVM 分類模型,采用網(wǎng)格尋優(yōu)法和五折交叉驗(yàn)證得到最優(yōu)參數(shù)——懲罰因子C、核參數(shù)σ。SVM 對全譜及特征波長選擇后數(shù)據(jù)的分類建模預(yù)測結(jié)果如表2 所示。

表2 SVM 預(yù)測模型性能比較Table 2 Performance comparison of SVM prediction model

由表2 可以看出,采用SVM 對三種產(chǎn)地的乳香建立判別模型,基于特征波長提取后的SPA-SVM 模型預(yù)測集準(zhǔn)確率為85%,而FULL-SVM 模型的預(yù)測集準(zhǔn)確率僅為70%,表明,特征波長選擇在一定程度上對模型的精度有所提高。

2.4.3 LDA 分類模型

LDA 對全譜及特征波長選擇后數(shù)據(jù)的分類建模預(yù)測結(jié)果如表3 所示。

表3 LDA 預(yù)測模型性能比較Table 3 Performance comparison of LDA prediction model

由表3 可以看出,采用LDA 對三種產(chǎn)地的乳香建立判別模型,基于特征波長提取后的SPA-LDA 模型預(yù)測集準(zhǔn)確率高達(dá)100%,而基于原始光譜的LDA模型的預(yù)測集準(zhǔn)確率僅為80%,SPA 特征波長選擇后的LDA 判別模型與全譜的LDA 判別模型效果相比,預(yù)測準(zhǔn)確率有所提升,說明波長選擇后保留了對建模有益的變量,消除了冗余干擾信息變量。并且,SPA-LDA 是一種較為有效的方法,可以進(jìn)行乳香產(chǎn)地的預(yù)測判別,以實(shí)現(xiàn)高光譜技術(shù)對不同產(chǎn)地的乳香種類鑒別。

3 討論

從上述三種分類模型所得的結(jié)果可以看出,其中SPA-ELM 和SPA-LDA 的分類精度優(yōu)于SPASVM,其原因可能是因?yàn)镋LM 可以有多種方式投影到高維,而且訓(xùn)練速度快,我們可以通過訓(xùn)練多種ELM 模型,從中選擇較好的一部分,然后再bagging,組合起來加強(qiáng)效果,所以獲得了較優(yōu)的結(jié)果。而SVM算法處理高維數(shù)據(jù)具有較大優(yōu)勢,但首先即對全譜數(shù)據(jù)進(jìn)行了降維處理,這可能使得SVM 無法發(fā)揮優(yōu)勢,所以較SPA-ELM 和SPA-LDA 模型的分類精度略差。所提出的SPA-ELM 和SPA-LDA 兩種分類模型均獲得了100%的分類判別結(jié)果,可以進(jìn)行乳香產(chǎn)地的預(yù)測判別。相比于前人的試驗(yàn)結(jié)果,如:王趙等[2]通過TLC 指紋圖譜鑒別對3 種藥用乳香進(jìn)行區(qū)分,但處理方法繁雜,需要對乳香進(jìn)行前處理;許佳等[20]建立了乳香藥材的高效薄層色譜指紋圖譜,與數(shù)碼輪廓圖譜結(jié)合分析比較,對不同產(chǎn)地的乳香進(jìn)行鑒別、歸類。但同樣需要對乳香進(jìn)行甲醇超聲提取等前處理,操作較為復(fù)雜。而本文所提出的方法,無需對乳香樣本進(jìn)行前期化學(xué)處理,操作便捷,并且判別的準(zhǔn)確率較高,可以準(zhǔn)確判別三種乳香的產(chǎn)地,高光譜分析是一種有效可行的方法能夠進(jìn)行乳香產(chǎn)地判別。

4 結(jié)論

為減少建模所需的波長點(diǎn)和計算工作量,得到預(yù)測能力強(qiáng)、魯棒性高的模型,對歸一化預(yù)處理后的數(shù)據(jù)采用SPA 算法提取特征波長,分別建立ELM、SVM、LDA 三種分類模型,然后通過比較全譜及特征波長選擇后數(shù)據(jù)的分類建模結(jié)果,尋找一種有效的方法可以進(jìn)行乳香產(chǎn)地判別。結(jié)果表明:三種分類方法下,特征波長選擇后的判別模型相較于全譜的判別模型預(yù)測準(zhǔn)確率均有所提升,表明波長選擇消除了冗余變量,提高了模型預(yù)測精度。其中,SPA-ELM、SPA-LDA 兩種方法的預(yù)測準(zhǔn)確率均為100%,兩種方法均可實(shí)現(xiàn)乳香產(chǎn)地的快速、無損鑒別。綜上所述,利用高光譜技術(shù)對乳香產(chǎn)地進(jìn)行檢測是可行的。研究為乳香產(chǎn)地的快速無損檢測分析提供參考。

猜你喜歡
乳香產(chǎn)地波長
HPLC-PDA雙波長法同時測定四季草片中沒食子酸和槲皮苷的含量
警惕“洗產(chǎn)地”暗礁
中國外匯(2019年22期)2019-05-21 03:14:56
食物離產(chǎn)地越遠(yuǎn)越好
捆都而(乳香)揮發(fā)油提取工藝研究進(jìn)展
中成藥(2018年9期)2018-10-09 07:19:02
測定不同產(chǎn)地寬筋藤中5種重金屬
中成藥(2018年8期)2018-08-29 01:28:16
雙波長激光治療慢性牙周炎的療效觀察
日本研發(fā)出可完全覆蓋可見光波長的LED光源
中國照明(2016年4期)2016-05-17 06:16:15
加強(qiáng)產(chǎn)地檢疫實(shí)現(xiàn)以檢促防
維吾爾藥阿拉伯膠和乳香藥材摻偽的鑒別研究
便攜式多用途光波波長測量儀
乌海市| 南靖县| 牟定县| 类乌齐县| 堆龙德庆县| 通道| 呼伦贝尔市| 怀来县| 天祝| 鄂伦春自治旗| 克什克腾旗| 来凤县| 甘泉县| 凉城县| 通辽市| 武义县| 宝应县| 枣庄市| 织金县| 潜江市| 保德县| 芮城县| 中阳县| 香河县| 石嘴山市| 凉城县| 会理县| 金门县| 论坛| 盐池县| 黄山市| 铜川市| 牡丹江市| 泾源县| 林西县| 肥城市| 永仁县| 织金县| 开江县| 嘉黎县| 溆浦县|