伍世元,駱德漢,鄧炳榮,趙慶輝
(廣東工業(yè)大學(xué)信息工程學(xué)院,廣州 510006)
中藥材存在產(chǎn)地、批次、品種、采收季節(jié)等因素的影響[1],致使中藥材很難達(dá)到質(zhì)量標(biāo)準(zhǔn)化,中藥材質(zhì)量可控性成為中醫(yī)藥界關(guān)注的熱門(mén)話題?;诟泄俚蔫b別方法不可避免地要受生理、經(jīng)驗(yàn)、情緒、環(huán)境等因素的影響,其主觀性強(qiáng)、重復(fù)性差,難以形成標(biāo)準(zhǔn)。高效液相色譜、氣相色譜等理化方法需要較長(zhǎng)的前處理時(shí)間,很難將獲得的數(shù)據(jù)和樣本的氣味直接聯(lián)系起來(lái)[1-2],而且是典型的有損檢測(cè)。
電子鼻是由具有交叉敏感特性的傳感器陣列和適當(dāng)?shù)哪J阶R(shí)別算法組成的儀器,能識(shí)別簡(jiǎn)單和復(fù)雜的氣味或氣體[3]。它不但具有客觀性強(qiáng)、重現(xiàn)性好、操作簡(jiǎn)單等特點(diǎn),更重要的是對(duì)樣品的測(cè)定可以做到不失原本性、無(wú)損性,能像人類(lèi)鼻子一樣獲得樣品氣味的整體信息[5],即“氣味指紋圖譜”。目前電子鼻在食品品質(zhì)評(píng)價(jià)、環(huán)境檢測(cè)、疾病診斷等方面獲得廣泛應(yīng)用[4-7]。
文獻(xiàn)[2]采用電子鼻識(shí)別不同種類(lèi)的中藥材,而不同種類(lèi)的中藥材外在特性有很大的差異,用電子鼻來(lái)鑒別沒(méi)有充分發(fā)揮其在中藥材鑒別中的優(yōu)勢(shì)。本文提出在自然態(tài)下利用電子鼻對(duì)不同產(chǎn)地和采收期的同種中藥材進(jìn)行分類(lèi)鑒別,為中藥材質(zhì)量控制提供一種新的有效方法。
采用德國(guó) AIRSENSE公司制造的 PEN3便攜式電子鼻,PEN3電子鼻是一種用來(lái)檢測(cè)氣體和蒸汽的小巧、快捷、高效的檢測(cè)系統(tǒng),經(jīng)過(guò)訓(xùn)練后可以很快辨別單一化合物或者混合氣體,其測(cè)量氣室內(nèi)置10個(gè)金屬氧化物氣體傳感器組成傳感器陣列,分別以 “S1”到“S10”命名。
確定檢測(cè)參數(shù)如下,工作環(huán)境溫度:25℃;頂空生成時(shí)間:60 min(靜態(tài)頂空);進(jìn)氣流量:200m L/min;采樣時(shí)間:80 s;相對(duì)濕度:58%~62%;清洗時(shí)間:100 s;采樣間隔時(shí)間:1.0 s;零點(diǎn)漂移時(shí)間:10.0 s;預(yù)抽樣時(shí)間:6.0 s;頂空空間:250 mL。
實(shí)驗(yàn)樣品由廣東藥學(xué)院提供,測(cè)量數(shù)據(jù)一半用做訓(xùn)練樣本,一半用做測(cè)試樣本。
(1)不同采收期中藥材對(duì)象和檢測(cè)方法
選擇 2個(gè)批次不同采收期的陽(yáng)春砂為研究對(duì)象(批次 1為成熟的陽(yáng)春砂,批次 2為成熟前 1個(gè)月采收的)。由于要求在自然態(tài)下對(duì)樣品進(jìn)行測(cè)量并分類(lèi),對(duì)中藥材無(wú)需經(jīng)過(guò)研磨粉碎,而陽(yáng)春砂顆粒有大有小,致使兩批次陽(yáng)春砂樣本占住的體積、外觀狀態(tài)、散發(fā)氣味濃度不一致,在其他檢測(cè)參數(shù)基本確定的情況下,質(zhì)量因素將是影響測(cè)量結(jié)果的主要因素。所以對(duì) 2個(gè)不同采收期的陽(yáng)春砂各取 5個(gè)質(zhì)量水平(5 g、10 g、15 g、20 g、25 g),分別以 “陽(yáng)春砂 01”到“陽(yáng)春砂 10”命名,其中“陽(yáng)春砂 01”到 “陽(yáng)春砂 05”代表批次 1各樣本,“陽(yáng)春砂 06”到“陽(yáng)春砂 10”代表批次 2各樣本,每個(gè)水平重復(fù)測(cè)量 12次,共得到120個(gè)樣本。
(2)不同產(chǎn)地中藥材對(duì)象和檢測(cè)方法
選擇安徽太和、廣東揭陽(yáng)、江蘇太倉(cāng)產(chǎn)的薄荷為研究對(duì)象,根據(jù)不同采收期的陽(yáng)春砂分析結(jié)果,樣本質(zhì)量水平統(tǒng)一取 15 g,每個(gè)水平重復(fù)測(cè)量 16次,共得到 48個(gè)樣本。
電子鼻面臨的一個(gè)問(wèn)題是對(duì)差別微小,濃度甚微的氣體進(jìn)行檢測(cè),類(lèi)別之間的測(cè)量空間間隔很近。僅選擇一個(gè)特征只能代表傳感器響應(yīng)數(shù)據(jù)的某一方面的信息,所獲信息有限[6];采用多個(gè)具有代表性的特征增加了信息量,但是會(huì)增加特征陣列的維數(shù),特征之間也會(huì)出現(xiàn)相互抵消的現(xiàn)象[7],使得分類(lèi)判別處理數(shù)據(jù)量大而且分類(lèi)鑒別結(jié)果不一定理想。鑒于上述討論,選擇代表傳感器響應(yīng)曲線不同方面的各個(gè)特征組成原始特征集合,通過(guò)鑒別結(jié)果的反饋對(duì)特征組合進(jìn)行優(yōu)化,得到一個(gè)使判別分類(lèi)最優(yōu)的特征子集,并用于對(duì)待測(cè)樣本進(jìn)行鑒別。
特征集合包括以下特征:各傳感器第 15秒數(shù)據(jù)、各傳感器第 30秒數(shù)據(jù)、各傳感器第 40秒數(shù)據(jù)、各傳感器第 50秒數(shù)據(jù)、各傳感器第 60秒數(shù)據(jù)、各傳感器第 70秒數(shù)據(jù)、各傳感器第 80秒數(shù)據(jù)、各傳感器的均值、各傳感器的峰值、各傳感器的方差、各傳感器的標(biāo)準(zhǔn)差、各曲線的微分值、各曲線的積分值、各傳感器四階擬合系數(shù)(5個(gè)擬合參數(shù))、各傳感器方差最大時(shí)候的響應(yīng)值。
主成分分析(PCA)雖能最大限度地保持原有測(cè)量數(shù)據(jù)集的信息,但經(jīng)過(guò)降維后保存下來(lái)的信息卻不一定對(duì)分類(lèi)最有用,這是因?yàn)楸?PCA算法拋棄的那些分布方向有可能正是能夠把不同類(lèi)別區(qū)分開(kāi)來(lái)的方向。線性判別分析(LDA)由原始數(shù)據(jù)經(jīng)線性組合構(gòu)造判別函數(shù),將多維空間分成一些子空間,能夠最大限度地區(qū)分不同的樣品集,分類(lèi)效果好且易實(shí)現(xiàn),但是,當(dāng)樣本總數(shù)較少或選取的特征數(shù)較多時(shí),直接采用 LDA算法會(huì)出現(xiàn)小樣本問(wèn)題,即導(dǎo)致樣本類(lèi)內(nèi)散布矩陣奇異,LDA算法將無(wú)法進(jìn)行下去,而解決小樣本問(wèn)題可通過(guò)降維的方法使類(lèi)內(nèi)散布矩陣非奇異或者避免對(duì)其求逆[8-9]。所以,本文綜合 PCA和 LDA的優(yōu)缺點(diǎn),采用由 PCA算法得到的特征矩陣作為 LDA算法的輸入矩陣,即 PCA+LDA分析法[10]。
在特征集合里選擇特征子集,通過(guò) PCA對(duì)特征子集進(jìn)行降維,減少數(shù)據(jù)計(jì)算量,進(jìn)而優(yōu)化特征向量,得到能夠代表原始特征主要方面的少量特征作為 LDA的輸入,即得到足夠的信息,又減少數(shù)據(jù)的處理量,使類(lèi)內(nèi)散布最小化、類(lèi)間散布最大化。
在選擇某一個(gè)特征或特征集合全部特征的情況下,分類(lèi)結(jié)果都不理想。如圖 1所示,在特征集合里選取單一特征的情況下,得到區(qū)分度最好的特征是“各傳感器的方差”,但區(qū)分效果還是不太理想,在相同質(zhì)量水平的“陽(yáng)春砂 04”和“陽(yáng)春砂 09”之間決策邊界靠的很近;不同質(zhì)量水平的同一批次樣本聚合度不理想,質(zhì)量因素對(duì)分類(lèi)影響很大。圖 2是選擇特征集合的全部特征,對(duì)其進(jìn)行 PCA+LDA分析,結(jié)果各個(gè)樣本數(shù)據(jù)混雜在一起,分類(lèi)效果反而更差??梢?jiàn),單一的特征不能代表樣本的整體信息,對(duì)樣本的反映不全面,而太多的特征往往使得特征之間相互抵消,分類(lèi)反而不理想。
圖1 單一特征下的不同采收期陽(yáng)春砂分類(lèi)結(jié)果
圖2 特征集合下的不同采收期陽(yáng)春砂分類(lèi)結(jié)果
通過(guò)選擇特征集合里的特征反復(fù)試驗(yàn),當(dāng)選擇“各傳感器的方差”、“各傳感器的標(biāo)準(zhǔn)差”、“各曲線的微分值”這一特征子集時(shí),能夠?qū)蓚€(gè)不同采收期的陽(yáng)春砂很好的區(qū)分開(kāi)來(lái),如圖 3所示。通過(guò)一條直線可以清楚地把 2個(gè)批次不同采收期的陽(yáng)春砂區(qū)別開(kāi)來(lái),決策邊界清晰。盡管在不同質(zhì)量的情況下,兩個(gè)批次的陽(yáng)春砂數(shù)據(jù)不重合,說(shuō)明質(zhì)量會(huì)影響分類(lèi)的結(jié)果,但是質(zhì)量引起的差別比單一特征和特征集合下的要緊湊得多?!瓣?yáng)春砂 06”到“陽(yáng)春砂10”靠得比較緊湊,說(shuō)明質(zhì)量對(duì)這一批次的影響較小,是采收時(shí)間較早的批次,散發(fā)的氣味比較淡;“陽(yáng)春砂 02”、“陽(yáng)春砂 03”、“陽(yáng)春砂 04”重疊在一起,質(zhì)量因素對(duì)這一區(qū)段的樣本影響較小;總體上講,“陽(yáng)春砂 01”到“陽(yáng)春砂 05”質(zhì)量因素對(duì)它的影響很大,尤其是在“陽(yáng)春砂 05”有強(qiáng)烈離群現(xiàn)象,說(shuō)明在 20 g、25 g質(zhì)量之間,質(zhì)量因素對(duì)測(cè)量影響很大,所以應(yīng)該避免選擇位于此區(qū)間的質(zhì)量的樣本作為檢測(cè)對(duì)象。通過(guò)選擇一個(gè)特征子集,收到了很好的分類(lèi)結(jié)果,說(shuō)明“各傳感器的方差”、“各傳感器的標(biāo)準(zhǔn)差”、“各曲線的微分值”這一特征子集能夠充分代表不同采收期陽(yáng)春砂的特點(diǎn)。
圖3 特征子集下的不同采收期陽(yáng)春砂分類(lèi)結(jié)果
通過(guò)采用與不同采收期陽(yáng)春砂分類(lèi)類(lèi)似的方法反復(fù)驗(yàn)證,在特征集合里面選擇適當(dāng)?shù)奶卣髯蛹?對(duì)不同產(chǎn)地的薄荷進(jìn)行分類(lèi)。
通過(guò)試驗(yàn),最終選擇“各傳感器的均值”、“各傳感器的峰值”、“各曲線的標(biāo)準(zhǔn)差”、“各曲線的微分值”、“四階擬合系數(shù)”這一特征子集,獲得較好的分類(lèi)結(jié)果,說(shuō)明這一特征子集能夠充分代表不同產(chǎn)地薄荷的特點(diǎn),如圖 4(a)、4(b)所示。但是,在相同的特征子集情況下,PCA分析方法中廣東薄荷和安徽薄荷的分類(lèi)界面靠得很近,PCA+LDA分析方法類(lèi)內(nèi)更加緊湊、類(lèi)間分界面更加明顯,證實(shí) PCA+LDA分析方法的優(yōu)越性。
圖4 不同產(chǎn)地中藥材分類(lèi)結(jié)果
選擇和訓(xùn)練樣本相一致的特征子集,把待測(cè)樣本數(shù)據(jù)通過(guò) PCA+LDA映射到特征空間,分別采用歐式距離、馬氏距離分析法,計(jì)算未知樣本和各個(gè)訓(xùn)練類(lèi)別之間的距離,把未知樣本歸類(lèi)到距離最小的訓(xùn)練類(lèi)別,得出未知樣本的類(lèi)別屬性。由于采用反饋方法獲得最能區(qū)別樣本的特征子集,通過(guò)分別采用歐式距離、馬氏距離分析法,都能得到正確的識(shí)別結(jié)果,正確率為 100%。
事先確定特征,通過(guò)模式識(shí)別技術(shù)做分類(lèi)判別的方法有很大的劣勢(shì),因?yàn)闊o(wú)法確定事先選擇的特征就能確切的代表樣本類(lèi)別之間的最大差別。況且選擇某一個(gè)特征得到的信息有限,而選擇過(guò)多的特征使得特征相互抵消,并不一定能獲得較好的分類(lèi)判別結(jié)果。應(yīng)該采取逆向思維的方法,通過(guò)一個(gè)反饋的過(guò)程,根據(jù)測(cè)量結(jié)果不斷優(yōu)化特征子集,最終達(dá)到較好的分類(lèi)判別結(jié)果。同時(shí),采用 PCA+LDA分析方法,能夠解決 PCA算法對(duì)不同的訓(xùn)練樣本數(shù)據(jù)不敏感的問(wèn)題和 LDA算法可能出現(xiàn)的小樣本問(wèn)題,又能夠?qū)崿F(xiàn) PCA算法的特征壓縮,使得處理變得簡(jiǎn)單有效。
通過(guò)此種方法,對(duì)不同產(chǎn)地的薄荷以及不同采收期的陽(yáng)春砂進(jìn)行分類(lèi)鑒別,獲得較理想的結(jié)果。通過(guò)電子鼻構(gòu)建中藥材氣味指紋圖譜的方法具有可觀的前景,將為中藥材質(zhì)量控制以及中藥材的質(zhì)量標(biāo)準(zhǔn)化提供一種行之有效的方法。
[1]孟巖,鄭旭光,鄭燕,等.色譜指紋圖譜在中藥與天然產(chǎn)物研究中的應(yīng)用[J].河北醫(yī)藥,2009,31(18):2473-2474.
[2]劉紅秀,姬生國(guó),莊家俊,等.基于仿生嗅覺(jué)的中藥材鑒別的實(shí)現(xiàn)[J].廣東藥學(xué)院學(xué)報(bào),2009,25(4):356-359.
[3]Gardner JW,Bartlett N.A Brief History of Electronic Nose[J].Sensors and Actuators B,1994,18-19:211-220.
[4]Huichun Yu,Jun Wang.Discrimination of LongJing Green-Tea Grade by Electronic Nose[J].Sensors and Actuators B:Chemical,2007,122(1):134-140.
[5]Ghasemi-Varnamkhasti M,Mohtasebi S S,Siadat M,et al.Meat Quality Assessment by Electronic Nose(Machine Olfaction Technology)[J].Sensors,2009,9(8):6058-6083.
[6]周海濤,殷勇,于慧春.勁酒電子鼻鑒別分析中傳感器陣列優(yōu)化方法研究[J].傳感技術(shù)學(xué)報(bào),2009,22(2):175-177.
[7]海錚,王俊.電子鼻信號(hào)特征提取與傳感器優(yōu)化的研究[J].傳感技術(shù)學(xué)報(bào),2006,19(3):606-609.
[8]宋楓溪,程科,楊靜宇.最大散度差和大間距線性投影與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2004,30(6):890-896.
[9]陳伏兵,張生亮,高秀梅.小樣本情況下 Fisher線性鑒別分析的理論及其驗(yàn)證[J].中國(guó)圖象圖形學(xué)報(bào),2005,10(8):984-991.
[10]鄒宇華.嶺南中草藥分類(lèi)鑒別的機(jī)器嗅覺(jué)實(shí)現(xiàn)方法研究[D]:[碩士學(xué)位論文].廣州:廣東工業(yè)大學(xué),2009.