金瑩,何蔚娟
(1.咸陽職業(yè)技術學院 機電學院,陜西西安,712000; 2.三原縣農(nóng)業(yè)科學技術中心,陜西三原,713800)
在我國,傳統(tǒng)中藥針對材病理治療的針對性上講究地道藥材。同一種藥材在特定的自然條件和生態(tài)環(huán)境下會表現(xiàn)出不同的藥理特性,其在針對患者的醫(yī)療效果上也會表現(xiàn)出不同的治療效果。因此,對于同種藥材的混合鑒別就成為我國研究者進行藥材分類研究的熱點。張鵬琴[1]提出一種基于監(jiān)督局部線性嵌入和判別分析氣味數(shù)據(jù)分析方法,該方法將不同種類的中藥材及不同產(chǎn)地的何首烏進行分類鑒別。但該方法在使用沒有全局考慮中藥材的藥理特性。郝丹丹[2]研究了一種實時快捷的藥材鑒定方法,實現(xiàn)了短時間對同一地區(qū)不同植物的判別。而該方法對不同產(chǎn)地藥物分類具有一定的局限性。因此,丁學利[3]研究運用標準差法分別提取特征波段,將中藥材的中紅外和近紅外兩種紅外光譜的特征波段數(shù)據(jù)合并后,采用Fisher判別分析法,對組別進行合理的分類,正確率達到98.4%。由于在基于Fisher方法判別的過程中,要進行反復試錯理論,增加了算法的復雜度。馮煒思[4]利用短的DNA序列,對某個或者某些相關的基因進行大范圍的掃描,實現(xiàn)對中藥材分類鑒別。王靜[5]基于中紅外光譜數(shù)據(jù),采用導數(shù)光譜法、標準正態(tài)變量變換和多元散色校正等預處理方法并依據(jù)標準差法提取特征波段,通過線性判別分析、支持向量機、集成學習三種有監(jiān)督分類模型與處理后的數(shù)據(jù)進行交叉組合鑒別,快速準確鑒別中藥材產(chǎn)地。以上兩種方法在理論研究及實際應用上具有一定的借鑒。
因此,為了快速實現(xiàn)不同產(chǎn)地不同藥材的分類與鑒別,本文針對若干不同產(chǎn)地與種類中藥材的紅外光譜數(shù)據(jù),基于多元散射校正(Multiplicative Scatter Correction, MSC)理論,以工程數(shù)據(jù)處理軟件Matlab、Excel及Spss為分析工具,計算出不同產(chǎn)地藥材的特征數(shù)據(jù),并對其進行分類,以此確定出藥材的不同產(chǎn)地。最后,并對分類結(jié)果進行了檢驗。
光譜[6]是指復色光在經(jīng)過色散系統(tǒng)后,被色散后單色光按波長的大小而排列的圖案。由于同一藥材在不同的生長條件或者外部環(huán)境的影響下,對太陽光的吸光度表現(xiàn)出不同的特性。因此,可以利用近紅外與中紅外光譜的照射來鑒別藥材的種類。而且對比問題中已知圖1可知,藥材A和藥材B的波數(shù)趨勢相差較大,藥材A在波數(shù)1000的吸光度最高,達到了0.3(AU),而藥材B在波數(shù)[1000,1500]區(qū)間的吸光度最高,只有0.16(AU)。其峰位相差較大,峰強趨勢不一致,峰數(shù)出現(xiàn)次數(shù)也大不相同,對比可知不同種類的藥材差異性較大。
利用數(shù)據(jù)分析軟件Matlab對425組藥材的紅外光譜進行處理,結(jié)果如圖1所示。
圖1 425組 中藥材數(shù)據(jù)曲線圖
由圖1可知,由于425組原數(shù)據(jù)未進行預處理,在[0,0.4]的數(shù)據(jù)存在大部分重疊,題中給出數(shù)據(jù)存在負值,且負值對其影響較小。圖中橫坐標表示光譜的波數(shù),縱坐標表示吸收的中紅外光,令起點區(qū)間[0.7,0.9]為第一組數(shù)據(jù);起點區(qū)間[0.5,0.6]為第二組數(shù)據(jù);起點區(qū)[0,0.4]為第三組數(shù)據(jù)。第一組數(shù)據(jù)的兩條波數(shù)大體趨勢較為相似,可判斷其為同一種藥材。同理可得,第二組數(shù)據(jù)為第二種藥材,第三組數(shù)據(jù)為第三種藥材。這三種波長的峰度和峰強有所不同,第一組數(shù)據(jù)的波數(shù)在[500,1000]之間峰位較高;第二組數(shù)據(jù)的波數(shù)在[1000,1500]之間峰位最高;第三組數(shù)據(jù)的波數(shù)在[500,1000]之間峰位最高,峰位越高,則峰強越強。
由于圖1中數(shù)據(jù)眾多,而且大部分數(shù)據(jù)曲線存在重疊與交叉現(xiàn)象,不利于數(shù)據(jù)的處理與分類。因此可以考慮將425組數(shù)據(jù)曲線進行分離,可以通過對數(shù)據(jù)曲線峰型進行對比,進而實現(xiàn)藥材種類的鑒別與分類。425組中第221-330組數(shù)據(jù)曲線如圖2所示。
圖2 221-330組中藥材數(shù)據(jù)曲線圖
由圖2可知,第(221、222、225、226、227...)組數(shù)據(jù)的波數(shù)在[0,1000](cm-1)的峰位最高,峰數(shù)出現(xiàn)次數(shù)基本相同,且峰強大體趨勢一致,可以判斷其為同一種藥材;第(234、258、279、297、309...)組數(shù)據(jù)的波數(shù)在[0,1000](cm-1)的峰位最高,在[1000,4000](cm-1)之間曲線峰數(shù)和峰強比例大體相同,則為另一種藥材;第(223、230、233、236、239...)在[0,2000](cm-1)之間的峰型走向以及峰位、峰強基本一致,且[2000,4000](cm-1)之間圖形基本吻合。但是,由于光譜圖的相似度判定存在著一定的人為主觀因素,對中藥材的鑒別存在很大缺陷,且由于圖1中下半?yún)^(qū)域出現(xiàn)嚴重重疊,導致無法研究藥材的差異性和特征,因此基于現(xiàn)代的分析工具,尋求一種便捷快速的藥材種類鑒別方法是現(xiàn)代中藥材研究的必須。
多元散射校正[7]MSC是高光譜數(shù)據(jù)預處理常用的算法之一,它可以有效地消除由于散射水平不同帶來的光譜差異,從而增強光譜與數(shù)據(jù)之間的相關性。因此,本文將基于MSC理論進行中藥材鑒別模型的建立與求解,以達到中藥材種類鑒別的目的。
基于對上述中藥材光譜數(shù)據(jù)的分析,首先通過下式來計算光譜數(shù)據(jù)中的平均光譜:
式中X表示n×p維(二維)定標光譜數(shù)據(jù)矩陣,n為定標樣品數(shù),Ai與平均光譜A進行一元線性回歸后得到的相對偏移系數(shù)和平移量。一元線性回歸式可以表示為:
式中,矢量Ai是1×p維矩陣,表示單個樣品光譜矢量,mi和bi分別表示各樣品近紅外光譜矢量。根據(jù)上式則多元散射校正可以表示為:
由于均值、中位數(shù)、眾數(shù)、極差、標準差可以反映數(shù)據(jù)的特征、相似度及差異性。均值可描述每列數(shù)據(jù)取值的平均位置,如下式:
標準差是離均差平方的算術平均數(shù)的算術平方根,用σ表示:
極差是指其最大值與最小值之間的差距,xmax為最大值,xmin為最小值:
均方差表示,一個數(shù)據(jù)集的離散程度,記作s:
并對其進行求解,部分結(jié)果如表1所示。
表1 各個數(shù)據(jù)特征表
從表1中可以觀察到,均值最高是0.843,最低為0.244,在[0.02,0.09]之間;中位數(shù)最高為0.0643,最低為0.0168,在[0.01,0.07]之間;眾數(shù)最高為0.0216,最低為-0.0008,在[0.0001,0.03];極差最高為0.3433,最低為0.0790,為[0.07,0.35];標準差最高為0.822,最低為0.0195,在[0.01,0.9],對此均值在0.04以下為一種藥材,[0.04,0.07]為第二種藥材,0.07以上為第三種藥材。在上述確定藥材種類中,選取數(shù)據(jù)較少,結(jié)果可能存在偶然性。多元散射校正可以放大數(shù)據(jù)的特征,因此經(jīng)過對圖1的MSC處理,得到研究性較高和觀察性較明顯的數(shù)據(jù)圖3。
圖3 多元散射校正后中藥材數(shù)據(jù)曲線圖
由圖3可知,藥材數(shù)據(jù)可以可分為三組,起點[0.3,0.7]中三條波數(shù)為第一組數(shù)據(jù),即附件一中的數(shù)據(jù)64、136、201 ,起點[0.1,0.4]中的波數(shù)為第二組數(shù)據(jù),起點[-0.1,0.05]中的波數(shù)為第三組數(shù)據(jù)。圖中可以看出三組數(shù)據(jù)大致在[0,1500]之間的峰位較高。第一組數(shù)據(jù)在[0,1500]峰位較高,峰強趨勢基本一致;第二組數(shù)據(jù)在[0,1000]的峰位較高,峰數(shù)與峰強基本相同;第三組數(shù)據(jù)在[400,1000]的峰位較高,且425組藥材中紅外光譜曲線峰型基本一致。
為進一步驗證上述模型的準確性,本次將利用數(shù)據(jù)挖掘[8],及皮爾遜相關系數(shù)[9]來進行模型檢驗。在上文研究可得的三種藥材的組數(shù)范圍內(nèi)分別挑選一組藥材數(shù)據(jù)(64、139、202),第64組圖4(a)數(shù)據(jù)中,區(qū)間[-2.06,1.73]在總體數(shù)據(jù)中占比最大;同理可得,第139組圖4(b)數(shù)據(jù)在區(qū)間[-0.204,0.00203]占比重最大;第202組圖4(c)數(shù)據(jù)在[-0.0108,0.099]占比最大。根據(jù)對圖1中的425組數(shù)據(jù)分析可知,圖1中紅外光譜數(shù)據(jù)存在三種藥材。
圖4 三種藥材任意一組數(shù)據(jù)貢獻率圖
表2(A)為NO與OP的皮爾遜相關系數(shù)表,(B)為NO與Classs的皮爾相關系數(shù)表。
表2 皮爾遜相關系數(shù)表
在正態(tài)分布顯著標準圖中,顯著性數(shù)據(jù)小于等于0.001時為極性相關;在≥0.05,<0.001為強性相關,顯著數(shù)據(jù)≥0.1,< 0.05時為相關性,數(shù)據(jù)在< 0.1時可以確定兩組數(shù)據(jù)為相關性數(shù)據(jù)。由表2(A)可知,顯著性數(shù)據(jù)0.001及兩組數(shù)據(jù)相同率為99.9%,由表2(B)可知,顯著性數(shù)據(jù)為99.4%,由此可知,兩組數(shù)據(jù)都在極性相關區(qū)間內(nèi),由此證明NO 、Class 、OP 產(chǎn)生于同一組數(shù)據(jù)。由此可以鑒定馬氏分類法做出的藥材產(chǎn)地與類別鑒定結(jié)果正確。
本文基于多元散射校正理論對425種不同產(chǎn)地不同藥材進行了鑒別與分類,并建立了多元散射校正模型和驗證模型,利用大數(shù)據(jù)分析工具對藥材光譜數(shù)據(jù)特征值進行分析,確定了藥材的不同產(chǎn)地及種類。