国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多元統(tǒng)計分析影響天麻素形成的環(huán)境因素

2022-09-23 12:25:38何翠華余羽桔余水祥
關(guān)鍵詞:天麻標(biāo)準(zhǔn)化變量

何翠華,蔣 琴,余羽桔,余水祥,張 力,王 科

(成都工業(yè)學(xué)院 大數(shù)據(jù)與人工智能學(xué)院,成都 611730)

中藥材天麻為蘭科植物天麻(Gastrodia elata)的干燥塊莖,具有息風(fēng)止痙、平抑肝陽、祛風(fēng)通絡(luò)等功效。天麻生長于海拔1 200~1 800 m的林下陰濕、腐殖質(zhì)較厚的地方,喜歡涼爽和濕潤環(huán)境。天麻素是天麻的主要有效成分,可抑制或縮短癲癇的發(fā)作時間,還有降低外周血管、腦血管和冠狀血管阻力,并有降壓、減慢心率及鎮(zhèn)痛抗炎作用。找出影響天麻有效成分天麻素合成的主要環(huán)境因素,對更好地實(shí)現(xiàn)天麻人工種植和開發(fā),提高天麻素含量,具有十分重要的意義。

現(xiàn)有相關(guān)文獻(xiàn)在天麻生長與生態(tài)因子的關(guān)系及天麻種植現(xiàn)狀中,研究了溫度、水分、光照等因素對天麻生長的影響[1];在影響山區(qū)林間天麻商品性狀的重要因素中,研究了氣候、土壤等因素對天麻生長的影響[2]。隨著統(tǒng)計分析方法在現(xiàn)實(shí)應(yīng)用中日益成熟,越來越多的關(guān)于醫(yī)藥植物的研究取得成果[3-11]。目前大多對天麻生長影響因素的研究是屬于定性研究[12-14],由于不同地方環(huán)境的影響,不同產(chǎn)地野生及栽培天麻的品質(zhì)有很大差異,劉玉亭等[13]針對影響天麻產(chǎn)量因素,如栽種土壤、環(huán)境條件、栽種期、種麻、栽種密度、營養(yǎng)物質(zhì)、栽種方法、菌材培養(yǎng)等進(jìn)行了一系列實(shí)驗(yàn)研究。

另外,對于影響因素較多,變量類型包括數(shù)值變量和分類變量等多種情況的分析提供了有力工具。主成分分析、聚類分析、Lasso回歸、隨機(jī)森林等統(tǒng)計方法對于變量的降維和重要性分析相比原來的回歸分析,可以克服變量或變量類型較多、變量之間存在共線性等問題。[9]

本文以天麻種植數(shù)據(jù)為例,選取天麻素為因變量,年均溫、最冷月均溫、最熱月均溫、年降水量、年日照時數(shù)、無霜期、氣候類型、土壤類型等因素為自變量進(jìn)行分析。由于影響天麻素有效形成的因素太多,先對數(shù)值類型的變量采用相關(guān)可視化,直觀觀察各個因素之間的相關(guān)性,然后利用主成分對其進(jìn)行降維,并將主成分的因子得分作為重要性排名的標(biāo)準(zhǔn),再結(jié)合聚類分析,找出影響天麻素合成的主要因素。

1 算法理論

1.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)的清洗是為了得到更好的實(shí)驗(yàn)結(jié)果??紤]數(shù)據(jù)中的特征是包含非數(shù)值型的離散化數(shù)據(jù),需要將其整合為數(shù)值型數(shù)據(jù),因此采用獨(dú)熱編碼,其方法是使用位狀態(tài)寄存器來對N個狀態(tài)進(jìn)行編碼,每個狀態(tài)都有獨(dú)立的寄存器位,以產(chǎn)地氣候類型和產(chǎn)地土壤類型為例,若屬于這類天氣,編碼1;不屬于,則編碼0。將離散特征的取值擴(kuò)展到歐式空間。此外為了保證數(shù)據(jù)的質(zhì)量,使用標(biāo)準(zhǔn)化方法和蓋帽法相結(jié)合,從而統(tǒng)一量綱、去掉異常值,對數(shù)據(jù)進(jìn)行清洗。

設(shè)因變量天麻素為y,自變量年均溫、最冷月均溫、最熱月均溫、年降水量、年日照時數(shù)、無霜期、氣候類型、土壤類型分別為x1,x2,…,x8,先通過z-score標(biāo)準(zhǔn)法將數(shù)值類型的變量x1,x2,…,x6轉(zhuǎn)化為同一個量級,以保證數(shù)據(jù)之間的可比性,公式為:

(1)

式中:zij為第i種影響因素第j個樣本的標(biāo)準(zhǔn)分?jǐn)?shù);xij為第i種影響因素第j個樣本的數(shù)據(jù);μi為第i種影響因素的均值;σi為第i種影響因素的標(biāo)準(zhǔn)差,i=1,2,…,6。

從標(biāo)準(zhǔn)化中z的得分大于3或者小于-3的結(jié)果被稱為異常值,為了讓異常值不影響后續(xù)的數(shù)據(jù)分析,使用蓋帽法去處理數(shù)據(jù)中的異常值。蓋帽法將某連續(xù)變量均值上下3倍標(biāo)準(zhǔn)差范圍外的記錄替換為均值上下3倍標(biāo)準(zhǔn)差值。

1.2 相關(guān)分析

相關(guān)分析主要是分析變量間的相關(guān)性大小,其具體公式為:

1.3 主成分分析

主成分分析主要是結(jié)合降維的思想,將多個影響天麻素的因素進(jìn)行降維,在原始影響因素變量的基礎(chǔ)上,通過一定的線性組合得到多個綜合變量,通過累積貢獻(xiàn)率是否達(dá)到80%來確定主要的成分,再結(jié)合主成分的得分,對影響因素進(jìn)行分析,得出主要的影響因素。

1.4 聚類分析

本文采用聚類分析,主要根據(jù)“物以類聚”的原理,將不同的影響因素進(jìn)行歸類,得到影響天麻素形成有效成分的主要類別。為了能夠更加清晰地認(rèn)識天麻素的影響因素之間的關(guān)系,引入歐氏距離聚類分析。歐式距離的計算公式為:

(3)

式中:dik表示第i種影響因素與第k種影響因素的距離(i,k=1,2,…,6且i≠k)。

2 數(shù)據(jù)處理

2.1 數(shù)據(jù)的選取

把天麻素看作因變量,其他特征看作自變量進(jìn)行分析。根據(jù)查看氣候類型和土壤類型2個特征且設(shè)置為‘object’。對特征因子數(shù)據(jù)查看缺失值和唯一值,可以觀測出數(shù)據(jù)信息沒有缺失值以及數(shù)據(jù)的類型。部分讀取結(jié)果見表1。

表1 部分地區(qū)元素影響

2.2 數(shù)據(jù)的轉(zhuǎn)換

對文本數(shù)據(jù)進(jìn)行獨(dú)熱編碼,以氣候類型為例,采用0-1進(jìn)行處理,變量‘氣候類型’共有52個離散特征,分別是亞熱帶濕潤季風(fēng)氣候、亞熱帶大陸性濕潤季風(fēng)、亞熱帶季風(fēng)氣候、高原山地氣候、亞熱帶季風(fēng)性濕潤氣候等,使用獨(dú)熱編碼之后部分結(jié)果見表2。

表2 氣候類型數(shù)據(jù)的編碼

此外對土壤類型也進(jìn)行了同樣的數(shù)據(jù)操作,將文本型數(shù)據(jù)轉(zhuǎn)化了數(shù)值型數(shù)據(jù)。

2.3 數(shù)據(jù)的清洗

2.3.1 標(biāo)準(zhǔn)化處理

為消除其他特征量綱、數(shù)據(jù)級等的影響,更客觀地反映其他影響天麻因素的特征,將天麻素、年均溫、最冷月均溫、最熱月均溫、年降水量、年日照時數(shù)、無霜期等數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

標(biāo)準(zhǔn)化的目的是將不同數(shù)量級數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化處理后再進(jìn)行比較,從標(biāo)準(zhǔn)化的結(jié)果中也可以看出數(shù)據(jù)存在異常值。

2.3.2 異常值處理

從標(biāo)準(zhǔn)化的結(jié)果中看出數(shù)據(jù)存在異常值,使用蓋帽法處理后,最終部分?jǐn)?shù)據(jù)見表3。

表3 異常值處理后的部分?jǐn)?shù)據(jù)

由表3結(jié)果可知,z分?jǐn)?shù)的值得分正常,消除了異常值。

3 簡單線性相關(guān)分析

根據(jù)影響天麻生長的數(shù)值類型的變量作相關(guān)性分析,得到相關(guān)圖,其中顏色的深淺代表相關(guān)性的強(qiáng)弱,結(jié)果如圖1所示。

從圖1可以看出天麻素和年均溫、最冷月均溫、最熱月均溫、無霜期呈正相關(guān),和降水量、日照時期呈負(fù)相關(guān),并且其中無霜期、最冷月均溫和年均溫的相關(guān)性較高,呈中度相關(guān)偏上,產(chǎn)地年均溫和無霜期呈中度相關(guān),這也說明了各個因素之間的相關(guān)性較大。

圖1 相關(guān)性可視化圖

4 主成分分析

首先,對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,消除量綱影響。標(biāo)準(zhǔn)化處理后的變量記作zi(i=1,2,…,6)。

使用SPSS軟件對所提取的特征因子進(jìn)行相應(yīng)的主成分分析,所得到的碎石圖見圖2。

圖2 碎石圖

由圖2可以看出,隨著特征值的逐漸減少,只需前面的較少的成分因子即可代替所有的信息量,結(jié)合前3個主成分的累計貢獻(xiàn)率已經(jīng)達(dá)到80%,故選取前3個主成分,所得的主成分方差解釋以及相應(yīng)的方差貢獻(xiàn)率見表4。

表4 總方差解釋表 %

采用SPSS計算得到相對應(yīng)的3個主成分的成分矩陣見表5。

表5 成分矩陣

從表4可以看出,只需3個主成分即可代表所有的影響因素,并且從表2可以看出,方差最大的幾個成分為年均溫、最冷月均溫、最熱月均溫,這也說明對天麻素影響最大的因素即為前3個。在所提取的主成分中,主成分1主要包含了年均溫、最冷月均溫、最熱月均溫、降水量,而其中主要凸顯也是這4個因素,在主成分2中主要突出顯示天麻所在的地理位置,主成分3主要突出顯示產(chǎn)地年日照時數(shù)。

5 聚類分析

通過聚類分析,按影響天麻有效成分形成的主要因素進(jìn)行聚類,得到變量的不同類別。對各個變量的聚類結(jié)果,繪制譜系圖,結(jié)果見圖3。

圖3 影響因素譜系圖

從圖3中可以看出在聚類分析的結(jié)果中可以分為2類,一類為產(chǎn)地年日照時數(shù),產(chǎn)地氣候類型為亞熱帶、暖溫帶共存,產(chǎn)地土壤類型為黃棕壤;一類為年均溫、最熱月均溫、年降水量、無霜期,氣候類型為亞熱帶季風(fēng)氣候或亞熱帶濕潤季風(fēng)氣候,土壤類型為黃壤。第2類對比主成分分析的結(jié)果可以發(fā)現(xiàn),第2類的因子影響較大。

6 結(jié)語

本文結(jié)合了統(tǒng)計分析方法,探索影響天麻素含量的重要因素,在探索過程中對數(shù)據(jù)的預(yù)處理方式結(jié)合獨(dú)熱編碼、標(biāo)準(zhǔn)化等方法。本研究表明影響天麻素形成的重要因素有年均溫、最冷月均溫、最熱月均溫、降水量、無霜期、土壤類型,其中土壤類型影響較大的為黃壤、黃棕壤,氣候類型影響較大的為亞熱帶季風(fēng)氣候。

從主成分的結(jié)果可以看到前3個主成分累計貢獻(xiàn)率達(dá)80%,包含影響天麻素的大部分特征信息,此外從聚類分析的譜系圖結(jié)果中可以看出,影響因素大致分為2類,一類為產(chǎn)地年日照時數(shù),產(chǎn)地氣候類型為亞熱帶、暖溫帶共存,產(chǎn)地土壤類型為黃棕壤,偏向于氣候的影響;一類為年均溫,最熱月均溫,年降水量,無霜期,氣候類型為亞熱帶季風(fēng)氣候或亞熱帶濕潤季風(fēng)氣候,土壤類型為黃壤,偏向于溫度和土壤的影響。結(jié)合2個分析結(jié)果,在實(shí)際運(yùn)用中建議在四川種植天麻時能夠?yàn)樘炻樘峁S壤、均溫、亞熱帶季風(fēng)氣候的適宜環(huán)境。

猜你喜歡
天麻標(biāo)準(zhǔn)化變量
神奇的天麻
大自然探索(2024年1期)2024-02-29 09:10:34
標(biāo)準(zhǔn)化簡述
你知道食天麻會引起“藥駕”嗎?
抓住不變量解題
也談分離變量
天麻無根無葉也能活
標(biāo)準(zhǔn)化是綜合交通運(yùn)輸?shù)谋U稀庾x《交通運(yùn)輸標(biāo)準(zhǔn)化體系》
中國公路(2017年9期)2017-07-25 13:26:38
基于HPLC-ESI-TOF/MS法分析測定烏天麻和紅天麻中化學(xué)成分的研究
SL(3,3n)和SU(3,3n)的第一Cartan不變量
論汽車維修診斷標(biāo)準(zhǔn)化(上)
辛集市| 兴城市| 绥宁县| 岳池县| 贵溪市| 宣武区| 毕节市| 泾源县| 余姚市| 东阿县| 凯里市| 神池县| 阳信县| 安陆市| 遂昌县| 洞头县| 闻喜县| 四子王旗| 定远县| 漠河县| 浮山县| 永善县| 西丰县| 荣昌县| 凉城县| 凤庆县| 武义县| 孟村| 缙云县| 桂林市| 辛集市| 怀宁县| 蕲春县| 曲靖市| 义乌市| 漳浦县| 通江县| 威远县| 赣榆县| 长白| 茂名市|