關(guān)鍵詞:土壤;花生;鎘;隨機森林;預測模型
花生是我國重要的油料和經(jīng)濟作物,是我國居民食用植物油和蛋白質(zhì)的重要來源。我國是世界花生的生產(chǎn)和消費大國,花生是我國為數(shù)不多的具有明顯競爭優(yōu)勢的出口創(chuàng)匯農(nóng)產(chǎn)品。隨著花生直接食用和食品加工需求不斷增加,國際上對花生重金屬超標問題越來越關(guān)注。近年來花生重金屬特別是鎘(Cd)含量超標等食品安全問題,已經(jīng)成為我國花生出口貿(mào)易的主要制約因素之一。調(diào)查發(fā)現(xiàn)花生對土壤中的Cd具有較強的富集能力,按照我國食品安全限量標準(GB 2762-2022. Cd≤0.5mg·kg-1),我國花生Cd超標現(xiàn)象在局部地區(qū)較為嚴重。Dai等于2009-2014年在我國15個花生主產(chǎn)省的調(diào)查發(fā)現(xiàn),8698份花生樣品籽粒Cd平均含量為0.17mg·kg-1,有2.8%的樣品Cd含量超出食品安全國家標準的限量值。王珊珊等在遼寧省調(diào)查發(fā)現(xiàn),在土壤Cd含量低于篩選值的花生產(chǎn)區(qū),花生籽粒Cd含量達到了0.21-0.75mg·kg-1,超標比例高達31%。如果按照FAO/WHO的國際標準(CXS 193-1995,Cd≤0.10mg·kg-1)或歐盟標準(EC 18861/2006.Cd≤0.20mg·kg-1),我國局部地區(qū)花生Cd超標問題將更為突出。
目前,關(guān)于Cd在土壤一作物系統(tǒng)中的遷移預測模型研究主要集中在水稻、小麥、蔬菜等大宗作物,而土壤一花生體系中Cd的遷移預測研究較少。Yang等基于田間調(diào)查采樣,建立了廣西地質(zhì)高背景區(qū)花生富集Cd的多元線性回歸模型。由于大尺度田間環(huán)境下污染物一土壤一作物之間復雜的相互作用,傳統(tǒng)的多元線性回歸模型難以準確預測污染物在土壤一作物系統(tǒng)中的非線性關(guān)系。通過大樣本數(shù)據(jù)訓練的機器學習方法可實現(xiàn)對目標變量的高精度預測,在面對復雜系統(tǒng)中自變量和因變量的非線性關(guān)系以及處理多維特征數(shù)據(jù)集時均表現(xiàn)出較大潛力。Huang等通過機器學習,發(fā)現(xiàn)基于土壤鐵錳氧化物結(jié)合態(tài)Cd、土壤pH、土壤可還原態(tài)錳含量和水稻灌漿成熟后期的土壤含水率,能很好地預測區(qū)域尺度稻米Cd含量(R2=0.81)。牟力言等在全國大尺度空間范圍內(nèi),基于隨機森林等機器學習算法識別了不同區(qū)域稻米富集Cd、As的重要影響因素。然而機器學習方法在土壤一花生系統(tǒng)中Cd的遷移預測方面還未見報道,我國不同區(qū)域花生富集Cd的重要影響因素還不明確。
富集系數(shù)(BCF,作物Cd含量與土壤Cd含量的商)可以量化Cd在土壤一作物中的轉(zhuǎn)移過程,表征作物吸收積累Cd的能力。本研究結(jié)合全國范圍調(diào)查的土壤一花生系統(tǒng)采樣數(shù)據(jù),利用隨機森林模型對全國以及南、北方花生產(chǎn)區(qū)花生Cd富集系數(shù)進行預測,進一步利用隨機森林模型分析特征變量的相對重要性,解析影響Cd在土壤一花生系統(tǒng)中遷移的主要因素,以期為我國花生產(chǎn)地土壤污染風險管控與修復技術(shù)研發(fā)提供理論依據(jù)。
1材料與方法
1.1數(shù)據(jù)獲取
綜合考慮我國花生主產(chǎn)區(qū)分布、潛在土壤污染情況等因素,在我國北方花生主產(chǎn)區(qū)吉林(16個采樣點)、山東(18個采樣點)、山西(9個采樣點)、河南(7個采樣點)、遼寧(7個采樣點)、河北(3個采樣點)、新疆(2個采樣點)以及南方花生主產(chǎn)區(qū)江蘇(13個采樣點)、安徽(6個采樣點)、江西(6個采樣點)、廣西(5個采樣點)、四川(5個采樣點)、湖北(2個采樣點)、廣東(1個采樣點)等地共點對點采集土壤一花生樣品100組。利用五點取樣法分別采集相應花生和表層土壤(0-20cm)樣品,采集后的土壤樣品密封存于自封袋中,經(jīng)風干過篩后保存?zhèn)溆??;ㄉv果樣品經(jīng)自來水洗凈后脫殼,籽粒105℃殺青30min,60℃烘干至質(zhì)量恒定,研磨粉碎。土壤pH、有機質(zhì).陽離子交換量、黏粒、交換性鈣、游離鐵氧化物、游離鋁氧化物、游離錳氧化物等土壤基本理化性質(zhì)的分析測試方法詳見文獻。土壤全量Cd采用HN03+H202+HF高壓密封消解,電感耦合等離子體質(zhì)譜(ICP-MS)(Agilent7700x,美國)測定,采用國家土壤標準物質(zhì)(GBW07405a)進行質(zhì)量控制,測定值均在標準值范圍(0.16+0.03mg·kg-1)內(nèi)。土壤有效態(tài)Cd含量采用0.005mol·L-1的DTPA提?。甀CP-MS測定?;ㄉ蚜d含量采用HN03+H202高壓密封消解,ICP-MS測定,采用大米標準物質(zhì)(GSB-23a)進行質(zhì)量控制,測定值均在標準值范圍(0.32+0.04mg·kg-1)內(nèi)。
1.2預測模型建立
多元線性回歸模型(Multiple Linear Regression,MLR)是利用多個自變量解釋因變量變化的一種常用模型,通過優(yōu)化自變量的組合來解釋與因變量的線性關(guān)系,并且該模型還可以避免自變量多重共線性?;谕寥览砘再|(zhì)數(shù)據(jù),模型由式(1)建立:
隨機森林模型(Random Forest,RF)是一種基于分類和回歸的集成機器學習算法,可用于分析自變量與因變量之間復雜的非線性關(guān)系,其特點是利用Bootstrap抽樣法,從樣本數(shù)據(jù)中隨機抽取n個樣本數(shù)據(jù)作為訓練集,基于這些數(shù)據(jù)建立決策樹,且重復抽樣和訓練步驟建立大量決策樹,從而最終形成隨機森林。由于數(shù)據(jù)選取具有隨機性和決策樹參數(shù)的可調(diào)節(jié)性,并且該模型不用對數(shù)據(jù)的正態(tài)分布和獨立性等假設條件進行檢驗,不用考慮變量的共線性問題,因此在處理分類和回歸的問題上,RF具有良好的表現(xiàn)。
MLR和RF模型的性能評價指標選取決定系數(shù)(R2)和均方根誤差(RMSE)。特征重要性利用隨機森林解釋器中節(jié)點不純度基尼系數(shù)(Gini)計算,特征變量x的重要性為決策樹節(jié)點分支前后基尼指數(shù)變化量的歸一化數(shù)值。隨機森林決策樹數(shù)量為500,最大深度為8。
1.3數(shù)據(jù)分析
數(shù)據(jù)分析通過SPSS 26.0實現(xiàn),MLR通過SPSS26.0中的線性回歸模型進行擬合,南、北花生產(chǎn)區(qū)污染特征以及土壤理化性質(zhì)顯著性差異由SPSS 26.0中的獨立樣本t檢驗分析。RF通過Python 3.9 sklearn包中的函數(shù)搭建,可視化過程通過matplotlib包和Orig-inPr0 2019b實現(xiàn)。
2結(jié)果與討論
2.1土壤性質(zhì)、土壤Cd含量與花生Cd含量特征分析
采集的全國100組樣品的土壤理化性質(zhì)、土壤Cd含量、花生Cd含量以及富集系數(shù)數(shù)據(jù)特征見表1,南、北方花生產(chǎn)區(qū)土壤理化性質(zhì)以及土壤和花生Cd污染特征見圖1、圖2。全國100組樣品的土壤pH在4.03-9.10之間,平均值6.45,其中5%呈極強酸性(pHlt;4.5)、28%呈強酸性(pH 4.5~5.5)、27%呈酸性(pH5.5-6.5)、11%呈中性(pH 6.5-7.5)、19%呈堿性(pH7.5-8.5)、10%呈強堿性(pHgt;8.5),酸性土壤占60%。南方花生產(chǎn)區(qū)土壤pH平均值(5.96)顯著低于北方產(chǎn)區(qū)pH平均值(6.72)。
全國100組樣品的土壤陽離子交換量、黏粒、交換性鈣、有機質(zhì)、游離鐵氧化物、游離鋁氧化物、游離錳氧化物含量的平均值分別為11.97cmol·kg-1、45.93%、0.92g·kg-1、14.72g·kg-1.9.89g·kg-1、1.10g·kg-1、0.43g·kg-1。進一步分析發(fā)現(xiàn),南、北方花生產(chǎn)區(qū)的游離鐵氧化物、游離鋁氧化物和游離錳氧化物含量存在顯著差異,而陽離子交換量、土壤有機質(zhì)、黏粒含量、交換性鈣含量無顯著差異。
全國100組樣品的土壤全量Cd含量為0.03-1.19mg·kg-1,有14%的樣品超過我國《土壤環(huán)境質(zhì)量農(nóng)用地土壤污染風險管控標準(試行)》(GB 15618-2018)中的風險篩選值。利用0.005mol·L-1DTPA提取的土壤有效態(tài)Cd含量為0.02-0.20mg·kg-1,平均值為0.04mg·kg-1。全國100組樣品的花生籽粒Cd含量為0.01-1.43mg·kg-1,有15個采樣點位的花生籽粒Cd含量超過我國食品安全限量標準(0.5mg·kg-1)。花生籽粒Cd超標的點位中僅有3個土壤Cd含量超標,其余均未超標,這意味著我國現(xiàn)行的土壤污染風險篩選值可能并不能準確評估我國花生產(chǎn)地Cd污染風險。對比南、北方花生產(chǎn)區(qū)Cd污染特征,發(fā)現(xiàn)南方產(chǎn)區(qū)土壤全量Cd、有效態(tài)Cd以及花生籽粒Cd含量均顯著高于北方。
采集的全國100組花生樣品中BCF范圍為0.05-13.23,平均值為2.42。南、北方花生產(chǎn)區(qū)花生BCF無明顯差異。Wang等通過田間試驗發(fā)現(xiàn),在pH值6.03、全量Cd含量0.31mg·kg-1的土壤上,種植的19個花生品種Cd富集系數(shù)為0.83-3.26,均值為2.08。王飛等發(fā)現(xiàn)在湖南湘江流域酸性Cd污染稻田(0.70mg·kg-1)上種植的5個花生品種Cd平均富集系數(shù)達到1.10。Gu等在廣西南寧地區(qū)Cd污染土壤(0.33mg·kg-1)調(diào)查發(fā)現(xiàn),花生對Cd的平均富集系數(shù)為1.65。以上文獻報道的花生BCF均在本研究的BCF范圍內(nèi),但本研究的BCF平均值要更高,其原因在于本研究采集的花生產(chǎn)區(qū)土壤樣品全量Cd含量(0.19mg·kg-1)相對更低,由于作物Cd含量并非隨著土壤Cd含量的升高而線性升高,導致BCF往往隨著土壤Cd含量的升高而降低。從本研究結(jié)果和以往文獻報道都可以看出,花生對Cd的富集能力非常強,這加劇了花生的食品安全風險。
2.2花生Cd富集系數(shù)預測模型
花生籽粒Cd含量、富集系數(shù)與土壤Cd含量及理化參數(shù)之間的相關(guān)性見圖3。結(jié)果發(fā)現(xiàn)土壤有效態(tài)Cd含量與pH呈顯著負相關(guān),與有機質(zhì)、游離鐵氧化物、游離鋁氧化物、游離錳氧化物、陽離子交換量、黏粒含量呈顯著正相關(guān)關(guān)系?;ㄉ蚜d含量與土壤有效態(tài)Cd含量、游離鋁氧化物含量、陽離子交換量、黏粒含量呈顯著正相關(guān),與pH、交換性鈣含量呈顯著負相關(guān)。土壤重金屬有效態(tài)含量往往比總量更能反映重金屬的生物富集效應,Liu等在珠三角區(qū)域調(diào)查發(fā)現(xiàn),白菜Cd含量與土壤有效態(tài)Cd含量的相關(guān)性(r=0.673)明顯高于土壤全量Cd (r=0.485)。花生Cd富集系數(shù)BCF則與土壤pH、交換性鈣、有機質(zhì)、游離鐵氧化物、游離錳氧化物含量呈顯著負相關(guān)關(guān)系。
對數(shù)據(jù)采用逐步回歸分析的方法建立最優(yōu)的多元線性回歸模型,結(jié)果見表2。通過建立的預測方程可知,對于全國100組樣品,利用土壤pH和游離鐵氧化物含量建立的預測方程回歸系數(shù)R2為0.471,表明可以解釋花生Cd富集系數(shù)47.1%的變化。對于北方和南方產(chǎn)區(qū)的分組數(shù)據(jù),分別構(gòu)建出以土壤pH、游離鐵氧化物和交換性鈣含量為變量的最優(yōu)預測模型(R2=0.545,n=62)和以土壤pH、游離錳氧化物、有機質(zhì)和黏粒含量為變量的最優(yōu)預測模型(R2=0.657,n=38)。
利用土壤pH、交換性鈣、有機質(zhì)、游離鐵氧化物、游離鋁氧化物、游離錳氧化物、陽離子交換量、黏粒含量這些特征變量(n=8)構(gòu)建隨機森林模型對花生Cd富集系數(shù)進行預測。結(jié)果顯示在全國100組樣品的花生Cd富集系數(shù)預測方面,與最優(yōu)多元線性回歸模型(R2=0.471)相比,RF模型(R2=0.935)取得了明顯更好的預測效果(圖2a、圖2b),同時RF模型(RMSE=0.789)的均方根誤差也低于多元線性回歸模型(RMSE=2.345)。同時在北方和南方花生產(chǎn)區(qū)花生Cd富集系數(shù)預測方面,與相應的最優(yōu)多元線性回歸模型相比,RF模型均取得了更好的預測效果和更低的均方根誤差(圖2c、圖2d、圖2e、圖2f)。牛碩等基于區(qū)域調(diào)查,構(gòu)建了隨機森林(R2=0.583)和神經(jīng)網(wǎng)絡(R2=0.490)的機器學習模型,對小麥Cd富集系數(shù)進行預測,發(fā)現(xiàn)二者預測性能均優(yōu)于多元線性回歸模型(R2=0.410)。Xie等建立了土壤一水稻系統(tǒng)中Cr、Cu、Zn、Ni的生物富集預測模型,發(fā)現(xiàn)隨機森林模型(R2=0.58-0.79)對4種元素的預測效果均優(yōu)于多元線性回歸模型(R2=0.46~0.67)。這些結(jié)果與本研究相似,均表明與傳統(tǒng)的多元線性回歸模型相比,基于隨機森林等算法的機器學習模型表現(xiàn)更為可靠,有較大應用潛力。其原因可能是土壤重金屬生物有效性與環(huán)境因子之間存在復雜的非線性關(guān)系,MLR僅能構(gòu)建變量之間簡單的線性關(guān)系,導致模型預測精度受到限制。而基于集成機器學習算法的RF,具有較強的非線性處理能力,RF模型預測不需要對數(shù)據(jù)的正態(tài)分布和獨立性等假設條件進行檢驗,也不需要考慮變量的共線性問題,即共線性問題不會對RF模型的預測性能產(chǎn)生影響。
2.3隨機森林模型特征變量重要性
應用RF解釋器對特征變量重要性進行排序,結(jié)果如圖5所示。土壤游離鐵氧化物含量和pH是影響全國產(chǎn)區(qū)花生Cd富集系數(shù)預測最重要的2個特征變量,其相對重要性分別為51.5%和16.6%,其余特征變量的相對重要性均低于10%。影響北方產(chǎn)區(qū)花生Cd富集系數(shù)預測最重要的3個特征變量為土壤游離錳氧化物含量、游離鐵氧化物含量和pH,其相對重要性分別為30.0%、29.9%、11.7%,其余特征變量的相對重要性均低于10%。影響南方產(chǎn)區(qū)花生Cd富集系數(shù)預測最重要的特征變量為土壤游離錳氧化物、黏粒、游離鐵氧化物和有機質(zhì)含量,其相對重要性分別為29.7%、20.8%、14.0%、13.0%,其余特征變量的相對重要性均低于10%。
由于pH可以顯著影響土壤中Cd的沉淀/溶解、吸附/解吸等過程,土壤pH通常被認為是所有理化性質(zhì)中影響土壤Cd有效性最重要的因子之一。低pH條件下由于Cd2+與正電荷的相斥作用、Cd形態(tài)間的相互轉(zhuǎn)化作用以及Cd與其他金屬及非金屬離子的競爭作用等,使得有效態(tài)Cd的含量迅速增加。Zhao等通過對江蘇省稻米Cd含量的機器學習預測發(fā)現(xiàn),除土壤全量Cd外,土壤pH是影響稻米Cd含量預測的最重要變量,其相對重要性為17.2%。Cd化學形態(tài)模型預測表明,當土壤pHlt;6.5時,Cd主要與土壤有機質(zhì)結(jié)合;當pHgt;6.5時,鐵錳氧化物成為主要吸附位點,土壤中無定形錳氧化物與Cd的結(jié)合能力強于鐵鋁氧化物或氫氧化物。因此,錳氧化物含量高的土壤通常Cd的活性也較低。土壤中黏粒含量越高,對Cd的吸附固定能力越強,導致作物體內(nèi)Cd含量降低。陳宏坪等基于8種水稻土的盆栽試驗發(fā)現(xiàn),土壤pH和黏粒含量是影響水稻土Cd臨界值的兩個最主要因素。我國花生種植的最適宜區(qū)土壤黏粒含量相對較低,這是由于砂性土壤有利于花生莢果膨大和干物質(zhì)積累,而黏土土壤致密,透氣性差,不利于花生根系深扎和莢果干物質(zhì)積累。但砂土中黏粒含量較低導致Cd的有效性往往較高,這也可能是引起花生Cd富集能力較強的原因之一。Ca2+和Cd2+具有同樣的化合價,且離子半徑極度接近(Ca2+為g.gX10-2nm,Cd2+為9.7x 10-2nm),它們能夠競爭土壤中黏土礦物、氧化物及有機質(zhì)上的陽離子吸附交換位點,因此,外源Ca可以通過影響土壤中Cd的生物有效性從而調(diào)控植物對Cd的吸收。宋正國等通過盆栽實驗發(fā)現(xiàn)施用硝酸鈣后,土壤溶液中Ca2+/Cd2+比值與小油菜體內(nèi)Cd濃度呈顯著正相關(guān),說明土壤中鈣濃度升高會促進Cd的解吸,進而影響小油菜對Cd的吸收。Zhang等通過水培試驗發(fā)現(xiàn)硝酸鈣增強了水稻體內(nèi)Cd從根向地上部的轉(zhuǎn)運,表明Ca還可能會促進Cd在作物體內(nèi)的轉(zhuǎn)運。
比較南方、北方花生產(chǎn)區(qū)的MLR模型和RF模型的特征變量,發(fā)現(xiàn)不同區(qū)域相對重要性較高的特征變量有所差異,可能是由于不同區(qū)域土壤理化性質(zhì)及污染特征差異造成的。本研究發(fā)現(xiàn)南方花生產(chǎn)區(qū)預測模型中土壤黏粒和有機質(zhì)含量相對重要性更高,原因可能在于南方花生產(chǎn)區(qū)土壤黏粒含量的變異系數(shù)(0.59)要高于北方花生產(chǎn)區(qū)的(0.49),同時南方花生產(chǎn)區(qū)土壤有機質(zhì)含量的變異系數(shù)(0.43)也明顯高于北方花生產(chǎn)區(qū)的(0.39)。全國以及南、北方花生產(chǎn)區(qū)土壤的游離鐵氧化物含量變異系數(shù)均遠高于土壤pH的變異系數(shù),這可能是導致全國以及南、北方花生產(chǎn)區(qū)預測模型中游離鐵氧化物含量相對重要性均更高的原因之一。此外,據(jù)褚宏欣等在我國17個省份開展的旱地土壤微量元素調(diào)查發(fā)現(xiàn),北方土壤有效鐵含量相較于南方明顯偏低,缺鐵現(xiàn)象主要集中在北方,而最近Xu等發(fā)現(xiàn)缺鐵會促進雙子葉植物根系鐵相關(guān)轉(zhuǎn)運基因IRT1介導的Cd轉(zhuǎn)運增強。
3結(jié)論
(1)采集的全國花生樣品Cd富集系數(shù)平均值為2.42,花生籽粒Cd含量超標的15個點位中僅有3個土壤Cd含量超標,說明花生對Cd的富集能力較強,我國現(xiàn)行的土壤污染風險管控標準可能并不能準確評估我國花生產(chǎn)地Cd污染風險。
(2)利用全國以及南北方產(chǎn)區(qū)分組數(shù)據(jù)構(gòu)建的隨機森林模型(R2=0.930-0.966)對花生Cd富集系數(shù)的預測性能均明顯優(yōu)于相應的多元線性回歸模型(R2=0.471-0.657),為田間大尺度下土壤一花生系統(tǒng)中Cd的遷移預測提供了新的視角和解決方案。
(3)隨機森林模型分析結(jié)果表明影響北方產(chǎn)區(qū)花生Cd富集系數(shù)預測最重要的特征變量為土壤游離錳氧化物含量、游離鐵氧化物含量和pH,而影響南方產(chǎn)區(qū)花生Cd富集系數(shù)預測最重要的特征變量為土壤游離錳氧化物、黏粒、游離鐵氧化物和有機質(zhì)含量。結(jié)果為有針對性地研發(fā)區(qū)域花生產(chǎn)地土壤污染風險管控與修復技術(shù)提供了科學依據(jù)。