何翠華,蔣 琴,余羽桔,余水祥,張 力,王 科
(成都工業(yè)學(xué)院 大數(shù)據(jù)與人工智能學(xué)院,成都 611730)
中藥材天麻為蘭科植物天麻(Gastrodia elata)的干燥塊莖,具有息風(fēng)止痙、平抑肝陽、祛風(fēng)通絡(luò)等功效。天麻生長于海拔1 200~1 800 m的林下陰濕、腐殖質(zhì)較厚的地方,喜歡涼爽和濕潤環(huán)境。天麻素是天麻的主要有效成分,可抑制或縮短癲癇的發(fā)作時間,還有降低外周血管、腦血管和冠狀血管阻力,并有降壓、減慢心率及鎮(zhèn)痛抗炎作用。找出影響天麻有效成分天麻素合成的主要環(huán)境因素,對更好地實(shí)現(xiàn)天麻人工種植和開發(fā),提高天麻素含量,具有十分重要的意義。
現(xiàn)有相關(guān)文獻(xiàn)在天麻生長與生態(tài)因子的關(guān)系及天麻種植現(xiàn)狀中,研究了溫度、水分、光照等因素對天麻生長的影響[1];在影響山區(qū)林間天麻商品性狀的重要因素中,研究了氣候、土壤等因素對天麻生長的影響[2]。隨著統(tǒng)計分析方法在現(xiàn)實(shí)應(yīng)用中日益成熟,越來越多的關(guān)于醫(yī)藥植物的研究取得成果[3-11]。目前大多對天麻生長影響因素的研究是屬于定性研究[12-14],由于不同地方環(huán)境的影響,不同產(chǎn)地野生及栽培天麻的品質(zhì)有很大差異,劉玉亭等[13]針對影響天麻產(chǎn)量因素,如栽種土壤、環(huán)境條件、栽種期、種麻、栽種密度、營養(yǎng)物質(zhì)、栽種方法、菌材培養(yǎng)等進(jìn)行了一系列實(shí)驗(yàn)研究。
另外,對于影響因素較多,變量類型包括數(shù)值變量和分類變量等多種情況的分析提供了有力工具。主成分分析、聚類分析、Lasso回歸、隨機(jī)森林等統(tǒng)計方法對于變量的降維和重要性分析相比原來的回歸分析,可以克服變量或變量類型較多、變量之間存在共線性等問題。[9]
本文以天麻種植數(shù)據(jù)為例,選取天麻素為因變量,年均溫、最冷月均溫、最熱月均溫、年降水量、年日照時數(shù)、無霜期、氣候類型、土壤類型等因素為自變量進(jìn)行分析。由于影響天麻素有效形成的因素太多,先對數(shù)值類型的變量采用相關(guān)可視化,直觀觀察各個因素之間的相關(guān)性,然后利用主成分對其進(jìn)行降維,并將主成分的因子得分作為重要性排名的標(biāo)準(zhǔn),再結(jié)合聚類分析,找出影響天麻素合成的主要因素。
數(shù)據(jù)的清洗是為了得到更好的實(shí)驗(yàn)結(jié)果??紤]數(shù)據(jù)中的特征是包含非數(shù)值型的離散化數(shù)據(jù),需要將其整合為數(shù)值型數(shù)據(jù),因此采用獨(dú)熱編碼,其方法是使用位狀態(tài)寄存器來對N個狀態(tài)進(jìn)行編碼,每個狀態(tài)都有獨(dú)立的寄存器位,以產(chǎn)地氣候類型和產(chǎn)地土壤類型為例,若屬于這類天氣,編碼1;不屬于,則編碼0。將離散特征的取值擴(kuò)展到歐式空間。此外為了保證數(shù)據(jù)的質(zhì)量,使用標(biāo)準(zhǔn)化方法和蓋帽法相結(jié)合,從而統(tǒng)一量綱、去掉異常值,對數(shù)據(jù)進(jìn)行清洗。
設(shè)因變量天麻素為y,自變量年均溫、最冷月均溫、最熱月均溫、年降水量、年日照時數(shù)、無霜期、氣候類型、土壤類型分別為x1,x2,…,x8,先通過z-score標(biāo)準(zhǔn)法將數(shù)值類型的變量x1,x2,…,x6轉(zhuǎn)化為同一個量級,以保證數(shù)據(jù)之間的可比性,公式為:
(1)
式中:zij為第i種影響因素第j個樣本的標(biāo)準(zhǔn)分?jǐn)?shù);xij為第i種影響因素第j個樣本的數(shù)據(jù);μi為第i種影響因素的均值;σi為第i種影響因素的標(biāo)準(zhǔn)差,i=1,2,…,6。
從標(biāo)準(zhǔn)化中z的得分大于3或者小于-3的結(jié)果被稱為異常值,為了讓異常值不影響后續(xù)的數(shù)據(jù)分析,使用蓋帽法去處理數(shù)據(jù)中的異常值。蓋帽法將某連續(xù)變量均值上下3倍標(biāo)準(zhǔn)差范圍外的記錄替換為均值上下3倍標(biāo)準(zhǔn)差值。
相關(guān)分析主要是分析變量間的相關(guān)性大小,其具體公式為:
主成分分析主要是結(jié)合降維的思想,將多個影響天麻素的因素進(jìn)行降維,在原始影響因素變量的基礎(chǔ)上,通過一定的線性組合得到多個綜合變量,通過累積貢獻(xiàn)率是否達(dá)到80%來確定主要的成分,再結(jié)合主成分的得分,對影響因素進(jìn)行分析,得出主要的影響因素。
本文采用聚類分析,主要根據(jù)“物以類聚”的原理,將不同的影響因素進(jìn)行歸類,得到影響天麻素形成有效成分的主要類別。為了能夠更加清晰地認(rèn)識天麻素的影響因素之間的關(guān)系,引入歐氏距離聚類分析。歐式距離的計算公式為:
(3)
式中:dik表示第i種影響因素與第k種影響因素的距離(i,k=1,2,…,6且i≠k)。
把天麻素看作因變量,其他特征看作自變量進(jìn)行分析。根據(jù)查看氣候類型和土壤類型2個特征且設(shè)置為‘object’。對特征因子數(shù)據(jù)查看缺失值和唯一值,可以觀測出數(shù)據(jù)信息沒有缺失值以及數(shù)據(jù)的類型。部分讀取結(jié)果見表1。
表1 部分地區(qū)元素影響
對文本數(shù)據(jù)進(jìn)行獨(dú)熱編碼,以氣候類型為例,采用0-1進(jìn)行處理,變量‘氣候類型’共有52個離散特征,分別是亞熱帶濕潤季風(fēng)氣候、亞熱帶大陸性濕潤季風(fēng)、亞熱帶季風(fēng)氣候、高原山地氣候、亞熱帶季風(fēng)性濕潤氣候等,使用獨(dú)熱編碼之后部分結(jié)果見表2。
表2 氣候類型數(shù)據(jù)的編碼
此外對土壤類型也進(jìn)行了同樣的數(shù)據(jù)操作,將文本型數(shù)據(jù)轉(zhuǎn)化了數(shù)值型數(shù)據(jù)。
2.3.1 標(biāo)準(zhǔn)化處理
為消除其他特征量綱、數(shù)據(jù)級等的影響,更客觀地反映其他影響天麻因素的特征,將天麻素、年均溫、最冷月均溫、最熱月均溫、年降水量、年日照時數(shù)、無霜期等數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
標(biāo)準(zhǔn)化的目的是將不同數(shù)量級數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化處理后再進(jìn)行比較,從標(biāo)準(zhǔn)化的結(jié)果中也可以看出數(shù)據(jù)存在異常值。
2.3.2 異常值處理
從標(biāo)準(zhǔn)化的結(jié)果中看出數(shù)據(jù)存在異常值,使用蓋帽法處理后,最終部分?jǐn)?shù)據(jù)見表3。
表3 異常值處理后的部分?jǐn)?shù)據(jù)
由表3結(jié)果可知,z分?jǐn)?shù)的值得分正常,消除了異常值。
根據(jù)影響天麻生長的數(shù)值類型的變量作相關(guān)性分析,得到相關(guān)圖,其中顏色的深淺代表相關(guān)性的強(qiáng)弱,結(jié)果如圖1所示。
從圖1可以看出天麻素和年均溫、最冷月均溫、最熱月均溫、無霜期呈正相關(guān),和降水量、日照時期呈負(fù)相關(guān),并且其中無霜期、最冷月均溫和年均溫的相關(guān)性較高,呈中度相關(guān)偏上,產(chǎn)地年均溫和無霜期呈中度相關(guān),這也說明了各個因素之間的相關(guān)性較大。
圖1 相關(guān)性可視化圖
首先,對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,消除量綱影響。標(biāo)準(zhǔn)化處理后的變量記作zi(i=1,2,…,6)。
使用SPSS軟件對所提取的特征因子進(jìn)行相應(yīng)的主成分分析,所得到的碎石圖見圖2。
圖2 碎石圖
由圖2可以看出,隨著特征值的逐漸減少,只需前面的較少的成分因子即可代替所有的信息量,結(jié)合前3個主成分的累計貢獻(xiàn)率已經(jīng)達(dá)到80%,故選取前3個主成分,所得的主成分方差解釋以及相應(yīng)的方差貢獻(xiàn)率見表4。
表4 總方差解釋表 %
采用SPSS計算得到相對應(yīng)的3個主成分的成分矩陣見表5。
表5 成分矩陣
從表4可以看出,只需3個主成分即可代表所有的影響因素,并且從表2可以看出,方差最大的幾個成分為年均溫、最冷月均溫、最熱月均溫,這也說明對天麻素影響最大的因素即為前3個。在所提取的主成分中,主成分1主要包含了年均溫、最冷月均溫、最熱月均溫、降水量,而其中主要凸顯也是這4個因素,在主成分2中主要突出顯示天麻所在的地理位置,主成分3主要突出顯示產(chǎn)地年日照時數(shù)。
通過聚類分析,按影響天麻有效成分形成的主要因素進(jìn)行聚類,得到變量的不同類別。對各個變量的聚類結(jié)果,繪制譜系圖,結(jié)果見圖3。
圖3 影響因素譜系圖
從圖3中可以看出在聚類分析的結(jié)果中可以分為2類,一類為產(chǎn)地年日照時數(shù),產(chǎn)地氣候類型為亞熱帶、暖溫帶共存,產(chǎn)地土壤類型為黃棕壤;一類為年均溫、最熱月均溫、年降水量、無霜期,氣候類型為亞熱帶季風(fēng)氣候或亞熱帶濕潤季風(fēng)氣候,土壤類型為黃壤。第2類對比主成分分析的結(jié)果可以發(fā)現(xiàn),第2類的因子影響較大。
本文結(jié)合了統(tǒng)計分析方法,探索影響天麻素含量的重要因素,在探索過程中對數(shù)據(jù)的預(yù)處理方式結(jié)合獨(dú)熱編碼、標(biāo)準(zhǔn)化等方法。本研究表明影響天麻素形成的重要因素有年均溫、最冷月均溫、最熱月均溫、降水量、無霜期、土壤類型,其中土壤類型影響較大的為黃壤、黃棕壤,氣候類型影響較大的為亞熱帶季風(fēng)氣候。
從主成分的結(jié)果可以看到前3個主成分累計貢獻(xiàn)率達(dá)80%,包含影響天麻素的大部分特征信息,此外從聚類分析的譜系圖結(jié)果中可以看出,影響因素大致分為2類,一類為產(chǎn)地年日照時數(shù),產(chǎn)地氣候類型為亞熱帶、暖溫帶共存,產(chǎn)地土壤類型為黃棕壤,偏向于氣候的影響;一類為年均溫,最熱月均溫,年降水量,無霜期,氣候類型為亞熱帶季風(fēng)氣候或亞熱帶濕潤季風(fēng)氣候,土壤類型為黃壤,偏向于溫度和土壤的影響。結(jié)合2個分析結(jié)果,在實(shí)際運(yùn)用中建議在四川種植天麻時能夠?yàn)樘炻樘峁S壤、均溫、亞熱帶季風(fēng)氣候的適宜環(huán)境。