国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于紅外光譜和隨機(jī)森林的蕨麻產(chǎn)地鑒別

2017-04-25 06:38:35楊尚梅吉守祥
實(shí)驗(yàn)室研究與探索 2017年3期
關(guān)鍵詞:蕨麻產(chǎn)地青海

楊尚梅, 陳 穎, 吉守祥

(青海民族大學(xué) a.化學(xué)化工學(xué)院; b.藥學(xué)院,西寧 810007)

基于紅外光譜和隨機(jī)森林的蕨麻產(chǎn)地鑒別

楊尚梅a, 陳 穎a, 吉守祥b

(青海民族大學(xué) a.化學(xué)化工學(xué)院; b.藥學(xué)院,西寧 810007)

利用紅外光譜與隨機(jī)森林相結(jié)合的方法對(duì)不同產(chǎn)地蕨麻進(jìn)行分類鑒別,測(cè)定了42個(gè)來自青海省不同產(chǎn)地的蕨麻樣品的紅外光譜。小波變換對(duì)紅外光譜原始譜圖數(shù)據(jù)進(jìn)行了預(yù)處理,紅外光譜數(shù)據(jù)壓縮到原來的1/8,其分析精度與原始光譜數(shù)據(jù)基本相當(dāng)。將42個(gè)樣品劃分為有30個(gè)樣品的訓(xùn)練集和12個(gè)樣品的測(cè)試集,建立隨機(jī)森林預(yù)測(cè)蕨麻產(chǎn)地模型。使用內(nèi)部交叉驗(yàn)證和外部數(shù)據(jù)進(jìn)行驗(yàn)證,采用R語言實(shí)現(xiàn)隨機(jī)森林算法, 并對(duì)模型的參數(shù)進(jìn)行了優(yōu)化。結(jié)果表明,所建立的判別模型中訓(xùn)練樣本和測(cè)試樣本判別正確率均為100%。建立的模型能夠正確地對(duì)蕨麻樣品快速進(jìn)行產(chǎn)地鑒別,紅外光譜法結(jié)合隨機(jī)森林可作為中藥材產(chǎn)域分類鑒別的一種新的嘗試。

蕨麻; 紅外光譜; 小波變換; 隨機(jī)森林; R語言

0 引 言

蕨麻(PotentillaanserineL)為薔薇科委陵菜屬植物鵝絨委陵菜的根,中藏醫(yī)常用藥,又名戳瑪、延壽果、人參果等,主產(chǎn)于青海及甘肅甘南等地區(qū)[1]。除常被作為營(yíng)養(yǎng)進(jìn)補(bǔ)藥外,近些年又作為抗腫瘤用藥而獲得廣泛應(yīng)用[2]。已有色譜、光譜實(shí)驗(yàn)技術(shù)并結(jié)合化學(xué)計(jì)量學(xué)方法鑒別蕨麻質(zhì)量的報(bào)道[3-4],到目前為止,多采用包括多元統(tǒng)計(jì)分析在內(nèi)的單分類器模型鑒別方法[5-6]。本文針對(duì)光譜數(shù)據(jù)龐大,受算法局限,單分類器容易引發(fā)過度擬合,使所建模型精度有限,采用數(shù)據(jù)挖掘中分類器集成的隨機(jī)森林方法,對(duì)不同產(chǎn)地蕨麻的紅外光譜數(shù)據(jù)建模。由于隨機(jī)森林算法對(duì)多線性不敏感,允許多達(dá)幾千個(gè)解釋變量,通過參數(shù)優(yōu)化使所建模型精度高[7],成功地實(shí)現(xiàn)對(duì)青海蕨麻產(chǎn)地的鑒別。

1 實(shí)驗(yàn)部分

1.1 樣品來源及處理

選用42個(gè)不同產(chǎn)地的蕨麻作為研究樣品,它們分別采自青海玉樹市、果洛州、海南州、西寧市及甘肅甘南等地,經(jīng)青海省蕨麻研究中心李軍喬教授鑒定為薔薇科委陵菜屬植物鵝絨委陵菜的根,即蕨麻。具體產(chǎn)地、樣品數(shù)及分區(qū)見表1。

表1 樣品來源及分區(qū)

采摘的鮮果按產(chǎn)地編號(hào),經(jīng)洗凈曬干后,置于普通干燥箱內(nèi)65 ℃以下干燥至恒重。制樣時(shí),取出用微型植物粉碎機(jī)粉碎,過100目篩后裝袋密封備用。

1.2 實(shí)驗(yàn)儀器及藥品

儀器:島津IRPrestge-21型傅里葉變換紅外光譜儀,分辨率0.5 cm-1,信噪比40 000∶1。新型高靈敏度DLATGS檢測(cè)器。

藥品:譜純溴化鉀,天津天光光學(xué)儀器有限公司出品。

1.3 不同產(chǎn)地蕨麻紅外光譜的測(cè)定

按編號(hào)依次取已過100目篩的蕨麻粉末3 mg與150 mg光譜純的溴化鉀在研缽中混合均勻后壓片,置于IRPrestge-21型傅里葉變換紅外光譜儀樣品池,按測(cè)定范圍4 000~400 cm-1,信號(hào)累加16次掃描獲取紅外光譜(分辨率4 cm-1)。利用儀器自帶IRsolution軟件自動(dòng)進(jìn)行多點(diǎn)基線校正和平滑處理。每個(gè)樣品平行測(cè)定3次,取其吸光度平均值作為該樣品的紅外光譜數(shù)據(jù)。

1.4 紅外光譜的小波變換預(yù)處理

利用Matlab小波工具箱,通過小波母函數(shù)的選擇,最高分解層次的確定以及采用啟發(fā)式SURE(heursure)方法獲取降噪和壓縮閾值等步驟,通過編程實(shí)現(xiàn)紅外光譜降噪和壓縮[8]。用于本研究的紅外光譜經(jīng)壓縮,數(shù)據(jù)長(zhǎng)度由1 868壓縮到241后,作為隨機(jī)森林建模的輸入數(shù)據(jù)。

2 隨機(jī)森林算法建模

2.1 隨機(jī)森林算法原理

隨機(jī)森林算法是基于Bagging(Bootstrap aggregating)一種組合分類器算法發(fā)展而來[9-12]。影響隨機(jī)森林分類預(yù)測(cè)能力的因素有:①森林中單棵樹的強(qiáng)度,如果每一棵決策樹的分類強(qiáng)度越大,則整體隨機(jī)森林的分類性能越好;②森林中樹之間的相關(guān)性,若樹與樹之間相關(guān)度越大,像似樹與樹之間技葉相互穿插越多,則隨機(jī)森林的分類性能越差。

2.2 隨機(jī)森林建模的計(jì)算機(jī)實(shí)現(xiàn)

本研究采用R軟件平臺(tái)下的擴(kuò)展軟件包randomForest建立紅外光譜數(shù)據(jù)隨機(jī)森林模型。調(diào)用randomForest即可以建立隨機(jī)森林模型[13-15]。該函數(shù)預(yù)設(shè)置的核心參數(shù)有:mtry參數(shù),表示樹節(jié)點(diǎn)預(yù)選變量個(gè)數(shù),決定單棵樹性能;ntree參數(shù),表示隨機(jī)森林中樹的數(shù)目,決定整片隨機(jī)森林的性能和規(guī)模。

2.3 紅外光譜隨機(jī)森林建模

以42個(gè)蕨麻樣品小波降噪壓縮后的241個(gè)紅外光譜數(shù)據(jù)及產(chǎn)地分區(qū)變量(REGION)與樣品編號(hào)(No)作為隨機(jī)森林建模的數(shù)據(jù)集(X42×243),分類變量為字符型變量。

隨機(jī)選取30例樣品作為訓(xùn)練集samp=sample(1∶42,30),余下的12例樣品x=juema[-samp]作為測(cè)試集。建模時(shí)使用OOB(out-of-bag) 交叉驗(yàn)證算法能保證訓(xùn)練集與測(cè)試集獨(dú)立,提高預(yù)測(cè)精度。

以訓(xùn)練集作為數(shù)據(jù)輸入,用randomForest ( )函數(shù)默認(rèn)的參數(shù),即mtry=3,ntree=500時(shí)建模,在R平臺(tái)調(diào)用該函數(shù)運(yùn)行后,即可得到蕨麻紅外光譜的隨機(jī)森林模型juema.rf。模型的30個(gè)訓(xùn)練集回判全部判對(duì),調(diào)用函數(shù)命令pred=predict(juema.rf,x),得出12個(gè)獨(dú)立測(cè)試集的產(chǎn)地判定結(jié)果,其中有1例17號(hào)樣品判錯(cuò)。初建的隨機(jī)森林模型有待優(yōu)化。

2.4 紅外光譜隨機(jī)森林的優(yōu)化建模

隨機(jī)森林模型優(yōu)化是通過調(diào)整模型參數(shù)mtry和ntree實(shí)現(xiàn)的??刹捎胢try從1~7逐一增加的方法,由基于OOB數(shù)據(jù)的模型誤判率均值的大小確定模型最優(yōu)節(jié)點(diǎn)變量數(shù)。結(jié)果當(dāng)模型節(jié)點(diǎn)變量數(shù)為1時(shí),模型誤判率均值為0.022 276 41最低,因此,參數(shù)mtry選取為1。

利用R語言繪圖函數(shù)plot,通過編程可得到模型誤差Error與隨機(jī)森林中樹的數(shù)目trees的關(guān)系圖(見圖1),由該圖可以確定參數(shù)ntree。從圖1可以看出,當(dāng)trees=450左右時(shí),3類的分類誤差最小(total),因此,參數(shù)ntree選取為450。

圖1 隨機(jī)森林模型誤差與樹數(shù)量關(guān)系圖

以優(yōu)化后的參數(shù)建立隨機(jī)森林蕨麻產(chǎn)地鑒別模型,模型回判和獨(dú)立測(cè)試集的產(chǎn)地歸屬判定結(jié)果正確率均達(dá)到100%。

3 結(jié)果與討論

3.1 隨機(jī)森林模型蕨麻產(chǎn)地鑒別結(jié)果

randomForest建模函數(shù)訓(xùn)練集和測(cè)試集的實(shí)際運(yùn)行總的結(jié)果如下:

OOB estimate of error rate: 0%

Confusion matrix:

ABCclass.errorA14000B01600C00120

全部樣品實(shí)現(xiàn)正確的地域分類,可見模型預(yù)測(cè)精度高,結(jié)果令人滿意。青海蕨麻產(chǎn)地的上述分類與青海實(shí)際情況是一致的。地域劃分為A類的青海玉樹市與果洛州兩地位置靠近,位于青海西南部,青藏高原東部,海拔、氣候、土壤等生態(tài)環(huán)境相似,因而產(chǎn)品質(zhì)量相似,且品質(zhì)優(yōu)良[5];地域劃分為B類的青海海南州(同德與興??h),位于青海湖之南,海拔、氣候、土壤等生態(tài)環(huán)境與地域A存在較大的不同,蕨麻品質(zhì)良好,自然歸于另一類;地域劃分為C類的西寧市與甘南地區(qū),位于青海東部,青藏高原的東方門戶,海拔、氣候、土壤等生態(tài)環(huán)境與地域A、B存在較大的不同,品質(zhì)也就有差異,它們劃歸于C類是合理的。

作為比較,同一數(shù)據(jù)集交叉驗(yàn)證下,采用單分類器的多元統(tǒng)計(jì)Fisher判別分析,誤判達(dá)5例之多(3,11,17,29,39號(hào)樣品),正確率88.1%。采用神經(jīng)網(wǎng)絡(luò)BP方法建模,隨機(jī)選取30例為訓(xùn)練集,12例為獨(dú)立檢測(cè)集,神經(jīng)網(wǎng)絡(luò)參數(shù)調(diào)優(yōu)后,預(yù)測(cè)誤判也有2例(17,29號(hào)樣品),正確率95.2%??梢婋S機(jī)森林建模精度高。

3.2 變量的重要性

圖2是調(diào)用函數(shù)importance獲得變量測(cè)算出的標(biāo)準(zhǔn)重要值MeanDecreaseAccuracy對(duì)241個(gè)蕨麻紅外光譜波數(shù)變量位置的火柴桿圖。從圖中可以看出,前5個(gè)最大的標(biāo)準(zhǔn)重要值3.812 4 (波數(shù)位置X98,以下同)、3.080 0(X28)、2.979 6(X223)、2.971 9(X236)、2.848 6(X133)分布在紅外光譜R—H(R=O,N,C)伸縮振動(dòng)峰區(qū)至指紋區(qū),揭示若僅取指紋區(qū)數(shù)據(jù)建模,這通常是部分紅外光譜應(yīng)用文獻(xiàn)中的一種數(shù)據(jù)處理方法,必然會(huì)丟失部分光譜信息,影響建模精度。本研究雖然數(shù)據(jù)點(diǎn)由1 868個(gè)壓縮至241個(gè),但小波變換重構(gòu)后的壓縮數(shù)據(jù),仍保留了原始光譜數(shù)據(jù)的信息,仍然是全譜建模,不會(huì)丟失光譜信息,能保證建模精度。

圖2 特征波數(shù)重要性度量結(jié)果

3.3 隨機(jī)森林判別模型

隨機(jī)森林算法融合了Bagging算法和隨機(jī)特征選取兩大機(jī)器學(xué)習(xí)技術(shù)。大量的理論和實(shí)證研究都能夠證明該算法建立的模型具有很高的預(yù)測(cè)準(zhǔn)確率,模型結(jié)果對(duì)缺失數(shù)據(jù)、多元共線性和非平衡的數(shù)據(jù)穩(wěn)??;而且在對(duì)數(shù)據(jù)進(jìn)行分類的同時(shí),還可以給出各個(gè)變量在分類過程中的重要性量度,該量度能夠篩選出相對(duì)重要變量,從而加深對(duì)模型的理解。

4 結(jié) 語

實(shí)驗(yàn)測(cè)定了青海不同產(chǎn)地蕨麻的紅外光譜。以R軟件平臺(tái)下的免費(fèi)擴(kuò)展軟件包randomForest實(shí)現(xiàn)隨機(jī)森林算法,建立了青海蕨麻產(chǎn)地鑒別模型。該模型對(duì)產(chǎn)地鑒別預(yù)測(cè)精度高,正確識(shí)別率達(dá)到100%,從而為蕨麻分類鑒別、質(zhì)量控制提供了新的適用方法,也為鑒別其他中草藥提供了思路。

隨機(jī)森林建模方法對(duì)樣本數(shù)據(jù)沒有特定的要求,需要優(yōu)化的參數(shù)少,模型穩(wěn)定性好,適合光譜學(xué)大量樣品數(shù)據(jù)建模。而且免費(fèi)擴(kuò)展軟件包容易得到,因而建模方法易于推廣,應(yīng)用前景廣闊。

[1] 劉 意,成 亮,延在昊,等.鵝絨委陵菜化學(xué)成分及藥理作用研究進(jìn)展[J].中草藥,2015,46(8):159-166.

[2] 劉志軍,白 瑤,郭麗霞,等.蕨麻的化學(xué)成分及藥理活性研究進(jìn)展[J].食品安全質(zhì)量檢測(cè)學(xué)報(bào),2015,16(9):277-282.

[3] 侯陸星,蔡光明,張雅銘,等. 藏藥蕨麻高效液相色譜指紋圖譜研究[J]. 中南藥學(xué),2007,5(6):555-558.

[4] 夏 蓮,孫志偉,李國(guó)梁,等. 藏藥蕨麻多糖的光譜性質(zhì)及單糖組成分析[J]. 天然產(chǎn)物研究與開發(fā),2011,23(3): 453-457.

[5] 陳 穎,文 慧,謝久祥,等.青海及周圍地區(qū)的蕨麻紅外圖譜的建立及計(jì)算機(jī)解析[J]. 云南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,34(4):65-70.

[6] 白 雁,張 威,王 星,等. 銀黃顆粒劑的近紅外光譜鑒別分析[J]. 實(shí)驗(yàn)室研究與探索,2010,29(6):22-23.

[7] 張曉明,王玉鑫,王 廣,等. 基于Hadoop的網(wǎng)站入侵檢測(cè)與分析系統(tǒng)設(shè)計(jì)[J]. 實(shí)驗(yàn)室研究與探索,2016,35(4):126-128.

[8] 劉明地,李 仲,吳啟勛,等.枸杞產(chǎn)地的小波變換紅外光譜的聚類分析鑒別[J].華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,48(6):857-860.

[9] Breiman L. Random Forests[J]. Machine Learning, 2001,45:5-32.

[10] Diaz Uriarte R, Andres S A. Gene selection and classification of microarray data using random forest[J]. BMC Bioinform, 2006(7): 3-16.

[11] Prinzie A, Van Den Pdel D. Random forests for multiclassification: random multinomial logit[J]. Expert Systems with Applications,2008,34(3):1721-1732.

[12] Kurtanjek Z. Chemometric versus random forest predictors of ionic liquid toxicity[J]. Chemical and Engineering Quarterly, 2014,28(4): 459-463.

[13] Liaw A, Wiener M. Classification and regression by random forest[J]. Rnews, 2002,2(3): 18-22.

[14] Verikas A, Gelzinis A, Bacauskiene M. Mining data with random forests: A survey and results of new tests[J].Pattern Recognition, 2010, 44(2):330-349.

Identifying the Origin of Potentilla Anserine Based on Infrared Spectroscopy and Random Forest Method

YANGShangmeia,CHENYinga,JIShouxiangb

(a. College of Chemistry and Chemical Engineering; b. College of Pharmacy, Qinghai University for Nationalities, Xining 810007, China)

The infrared spectroscopy combining with random forest method was used in the identification of Potentilla anserine from different fields of Qinghai Province. Forty-two samples of Potentilla anserine from different fields of Qinghai province were surveyed by FTIR (Fourier transform infrared spectroscopy). The original data matrix of FTIR was pretreated with wavelet transform. The results showed that the infrared spectroscopy data were compressed to 1/8 of its original data, but the spectral information and analytical accuracy were not deteriorated. The 42 samples of Potentilla anserine were divided into 30 training samples and 12 validation samples. Random forest model was constructed by the training samples to predict the discrimination effect of identifying the origin of Potentilla anserine with internal cross validation and external validation sample. R language was adopted to achieve algorithm of random forest. Parameters of random forest model were optimized. The prediction accuracy of the proposed model was 100% for the training samples and 100% for the test samples. It can be concluded that the method is quite suitable for the fast discrimination of producing areas of Potentilla anserine. This infrared spectral analysis technology combined the random forest was proved to be a reliable and new practical method for the identification of geographical origin of Chinese medicine. The method in the present paper is very broad prospect of application.

Potentilla anserine; infrared spectroscopy; wavelet transform; random forest; R language

2016-06-27

國(guó)家自然科學(xué)基金資助項(xiàng)目(81160554)

楊尚梅(1976-),女,青海西寧人,碩士,講師,現(xiàn)主要從事有機(jī)化學(xué)與分子光譜研究。

Tel.: 18797181523; E-mail: yangshm528@126.com

O 657.3

A

1006-7167(2017)03-0013-03

猜你喜歡
蕨麻產(chǎn)地青海
淺談甘肅迭部縣蕨麻豬養(yǎng)殖優(yōu)勢(shì)
岷縣蕨麻豬
蕨麻豬養(yǎng)殖現(xiàn)狀及發(fā)展建議
大美青海
警惕“洗產(chǎn)地”暗礁
食物離產(chǎn)地越遠(yuǎn)越好
測(cè)定不同產(chǎn)地寬筋藤中5種重金屬
中成藥(2018年8期)2018-08-29 01:28:16
青海行七首(錄二)
青海 管放相宜 漸入佳境
小而精的典范:高原“名豬”蕨麻豬
德清县| 密山市| 庆城县| 托克逊县| 黄浦区| 崇义县| 伽师县| 西华县| 文登市| 双辽市| 承德县| 九龙城区| 玛沁县| 潢川县| 凌云县| 宝坻区| 威宁| 康乐县| 商洛市| 河津市| 长海县| 七台河市| 黄浦区| 鸡东县| 晋州市| 西林县| 灵寿县| 中方县| 寿阳县| 辽阳市| 荆门市| 汉阴县| 托里县| 财经| 郎溪县| 岚皋县| 永仁县| 尼玛县| 图木舒克市| 都昌县| 黑龙江省|