郝夢潔 張麗 魯新新
摘 要:土壤無機碳庫作為陸地生態(tài)系統(tǒng)中第二大碳庫,在吸收大氣中CO2以維持陸地生態(tài)系統(tǒng)碳循環(huán)穩(wěn)定方面發(fā)揮著重要作用。高光譜數據具有維度大、強冗余性等特點,不利于土壤無機碳快速反演建模,而使用機器學習方法可實現對土壤無機碳的快速、高效測定。該文綜述了利用機器學習方法對土壤無機碳高光譜反演建模的研究現狀,以期為土壤無機碳在全球碳循環(huán)中的研究提供參考。
關鍵詞:機器學習;土壤無機碳;高光譜;反演模型;應用進展
中圖分類號 S153.6+1文獻標識碼 A文章編號 1007-7731(2021)04-0108-04
Abstract: As the second largest carbon pool in terrestrial ecosystems, soil inorganic carbon pool plays an important role in absorbing CO2 from the atmosphere to maintain the stable carbon cycle in terrestrial ecosystems. The hyperspectral data are characterized by large dimension and strong redundancy, which is not conducive to the rapid inversion modeling of soil inorganic carbon. The machine learning method can be used to realize the rapid and efficient determination of soil inorganic carbon. In this paper, the research status of soil inorganic carbon hyperspectral inversion modeling by machine learning method is reviewed, which can provide theoretical reference for the research of soil inorganic carbon in the global carbon cycle.
Key words: Machine learning; Soil inorganic carbon; Hyperspectral; Inversion model; Application progress
溫室效應的加劇加速了全球變暖進程,導致全球大氣中二氧化碳濃度不斷增加,加重了人類維持陸地生態(tài)系統(tǒng)碳循環(huán)穩(wěn)定的負擔。土壤無機碳庫作為陸地生態(tài)系統(tǒng)中僅次于土壤有機碳庫的第二大碳庫,主要存儲于干旱、半干旱地區(qū),在吸收大氣中CO2以維持陸地生態(tài)系統(tǒng)碳循環(huán)穩(wěn)定方面發(fā)揮著重要作用[1,2]。干旱、半干旱地區(qū)生態(tài)系統(tǒng)普遍脆弱,因此土壤無機碳極易受到人類活動影響而產生碳失匯現象,導致大氣中CO2濃度增加、陸地生態(tài)系統(tǒng)碳平衡遭到破壞,最終不利于延緩全球變暖的步伐[3]。長期以來,眾多研究主要集中于土壤有機碳庫對維持土壤肥力、調節(jié)全球碳循環(huán)的作用以及其隨環(huán)境變化的動態(tài)演變過程,忽視了土壤無機碳庫在吸收干旱、半干旱地區(qū)大氣CO2以調節(jié)氣候的作用。已有研究表明,土壤無機碳在干旱、半干旱地區(qū)的碳循環(huán)中發(fā)揮著至關重要的作用[4]。高光譜數據具有維度大、強冗余性的特點,不利于土壤無機碳快速反演建模,使用機器學習方法可極大提高反演建模速率,有效提升建模精度,實現對土壤無機碳的快速高效測定[5]。采用機器學習方法實現土壤無機碳高光譜數據反演模型已成為近年來的研究熱點。為此,筆者對采用機器學習方法實現土壤無機碳高光譜數據反演建模的研究現狀進行了綜述,以期為土壤無機碳在全球碳循環(huán)中的研究提供參考。
1 土壤無機碳特征及研究現狀
1.1 土壤無機碳儲量 土壤無機碳主要包含原生碳酸鹽和次生碳酸鹽,次生碳酸鹽的形成是土壤無機碳積累的主要途徑[6,7]。土壤無機碳在土壤碳庫中的儲量遠低于土壤有機碳,但我國干旱、半干旱地區(qū)總面積約占國土面積的50%以上,因此掌握土壤無機碳含量有利于科研人員加深對荒漠生態(tài)系統(tǒng)碳固存行為的認識與理解[8]。研究發(fā)現,天然土壤表層中的無機碳含量遠高于有機碳[9,10]。人類一系列的農業(yè)土地開發(fā)利用方式在一定程度上會加速土壤無機碳發(fā)生淋失或淋溶,這會對當地生態(tài)系統(tǒng)的穩(wěn)定和土壤無機碳庫造成極大的不利影響[11]。
1.2 土壤無機碳測定方法 土壤無機碳存在3種形式,即固相、液相和氣相,固相主要由石灰性母質和風積灰塵構成,液相的來源是CO2和H2O反應所產生的HCO[_3]與H2CO3溶液,氣相則是土壤呼吸所釋放的CO2[12]。通常采用氣量法、CO2吸收法和總有機碳分析儀法測定土壤無機碳的含量[13]。
1.3 土壤無機碳的影響因素 土壤無機碳是土壤碳庫的一部分,陸地生態(tài)系統(tǒng)中所有的生物因素(土壤生物中的植物、動物、微生物)、物理化學因素(土壤容重、土壤鹽度、pH值)和人為因素(土地利用方式)都會對其造成直接或間接影響。其中,土壤容重、土壤鹽度、pH值等物理化學因素會作用于CaCO3溶解度而對溶解平衡常數造成影響,進而改變CaCO3沉淀機制[14]。研究發(fā)現,東北表層土壤(0~50cm)中的土壤無機碳隨土壤容重、pH值的增加而增加,不同的土地利用方式會導致土壤無機碳儲量發(fā)生明顯變化[15-17]。一般來說,某研究區(qū)域內的土壤無機碳含量高,則該研究區(qū)域內的土壤有機碳含量會偏低。但研究發(fā)現,新疆艾比湖濕地自然保護區(qū)的土壤無機碳和土壤有機碳之間存在正相關關系[18,19]。由于土壤生物中的植物、動物生理活動以及微生物具備形成碳酸鹽的能力,因此生物因素也是影響土壤無機碳的重要因素。研究表明,土壤中的草酸鹽會通過生物氧化來提高土壤pH值,進而對土壤無機碳造成影響;熱帶地區(qū)白蟻會對土壤次生碳酸鹽的形成產生影響[20,21]。由此可見,研究土壤次生碳酸鹽的形成時忽視生物因素會對土壤無機碳形成和變化造成認識偏差。人為因素中土地利用方式對土壤無機碳的影響巨大,如更改作物類型、轉變土壤所在的生態(tài)系統(tǒng)類型、改變耕作方式、改變施肥方式、改變灌溉方式等都會對土壤無機碳造成顯著影響。通過比較黃土地區(qū)不同土地利用方式下的土壤無機碳分布差異發(fā)現,荒地的土壤無機碳分布高于草地和林地,林地的無機碳分布最少[22]。
2 機器學習方法建模過程
2.1 高光譜數據來源 采集土樣研磨過篩后使用波長在350~2500nm的FieldSpec Pro FR型光譜儀測量土樣,獲得高分辨率且連續(xù)的地物光譜曲線,將曲線進行處理即可得到高光譜數據。
2.2 高光譜數據特征選擇 特征選擇是為了解決數據間存在的相關性和冗余性而對原始數據進行特征選取以滿足給定特征標準的過程[23]。高光譜數據因其維度大增加了建模過程的工作量并減緩了模型的運行時間,不利于研究人員開展后續(xù)研究工作。在領略了機器學習方法處理高維數據的快速便捷后,諸多研究人員開始使用機器學習中的支持向量機、遺傳算法和連續(xù)投影算法等進行土壤理化性質高光譜數據的特征選取工作[24,25]。為了實現算法結構風險最小化,支持向量機方法通過核函數將非線性可分樣本數據映射到高維線性可分空間,使用優(yōu)化法求解超平面,獲取決策函數的參數。遺傳算法是一種隨機搜索算法,依賴于生物進化機制,通過比較、選擇、交換等操作來進行多次迭代,即可在保留目標函數值較優(yōu)的變量前提下,剔除其中較差的變量,獲得該算法的最優(yōu)參數[26]。連續(xù)投影算法(SPA)將變量投影操作用于數據矩陣,可在大量高光譜數據中提取小部分變量數據的過程中,有效提取關鍵光譜信息的同時概括大部分的光譜信息[25]。
2.3 模型構建 在構建高光譜數據反演模型時,模型因變量是選取土壤無機碳含量,自變量是不同波段的高光譜數據。建模結果可用于模型評價,參考模型評價來選取最優(yōu)反演建模方法。土壤理化性質高光譜數據建模主要以機器學習方法為主[27-29]。機器學習中,BP神經網絡算法的結構和大小取決于土壤光譜數據的復雜程度,它將高光譜數據作為網絡的輸入層,土壤無機碳含量作為輸出層,在隱含層中進行訓練,可實現對土壤無機碳高光譜數據的反演建模。使用隨機森林算法在解決回歸問題建立反演模型時,遵循算法中每一棵決策樹之間不存在關聯性并且模型的最終輸出取決于算法中所有決策樹的共同制訂的原則。支持向量機是一種受監(jiān)督的模式識別模型,能夠較好地解決在研究土壤無機碳高光譜數據反演模型中出現的非線性、小樣本等問題。
2.3.1 BP神經網絡算法建立反演模型流程 BP神經網絡算法流程等同于非線性映射,算法結果實現了一個多層反饋模型用來學習有用知識,再對算法進行訓練,熟悉訓練集的模式后,按照已經學習得出的模式對數據進行預測,同時為了提高模型精度需適時調整算法參數[30]。算法流程如下:(1)輸入訓練數據集,調整參數設置,如交叉驗證次數、初始權值閾值、激活函數等,即可構建網絡的基本結構;(2)對網絡初始化,確定參數設置;(3)確定模型隱含層的節(jié)點數和計算輸出(見公式1、2);(4)計算輸出層的輸出;(5)誤差計算;(6)更新權值后更新閾值;(7)確定算法迭代是否結束或者預測的目標精度是否已經達到預測目標精度,若算法尚未結束迭代過程,則需要到算法流程的第二步繼續(xù)進行算法訓練;(8)待訓練完成,將測試集數據放入已經調試好的BP神經網絡中進行預測或反演,可得到最終的預測或反演結果。
2.3.2 隨機森林算法建立反演模型流程 隨機森林算法是為了解決決策樹算法所存在的過擬合或無法保證取得全局最優(yōu)的問題而加以改進的算法。它立足于重采樣方法來抽取樣本并對這些樣本進行決策樹建模,再組合多棵決策樹以期實現預測并構建反演模型[31]。算法流程如下:(1)訓練數據樣本集需要進行有放回抽樣,即可獲得M個樣本子集;(2)對樣本子集進行特征子集選取;(3)根據數據樣本子集和獲得的特征子集訓練單棵決策樹;(4)組合已經訓練完畢的決策樹,用投票的方式對數據進行預測。
2.3.3 支持向量機算法建立反演模型流程 支持向量機算法可以在建立高光譜反演模型時實現非線性回歸。借助映射將非線性的原函數轉化成線性可分的高維特征空間中的樣本函數,在降低計算復雜度的同時有效提升算法的魯棒性[32]。算法流程如下:(1)高維空間中尋找超平面用作決策邊界,使所有數據滿足到達該平面距離最近的要求;(2)計算預測值和實際值之間的差值,并與設置好的預測誤差作比較,當差值小于預測誤差時可不計算損失,當不滿足該條件時需要引入松弛變量和拉格朗日函數求解該問題,即可獲得反演結果。
3 機器學習在土壤無機碳反演建模中的應用
隨著人工智能的蓬勃發(fā)展和計算機技術的高效應用,研究人員發(fā)現使用率極高的線性建模方法中偏最小二乘法并不能獲得較好的土壤理化性質反演建模精度,因此逐漸轉向了運用機器學習來進行土壤理化性質的反演建模。史楊[33]發(fā)現非線性建模方法可以對土壤成分進行建模精度更高的預測研究。Patrick Filippi等[34]通過隨機森林模型實現了對新南威爾士州西南部拉克蘭河河谷下游的半干旱灌溉棉花種植區(qū)0.3~0.5m土壤無機碳含量建模,可以用來預測整個研究區(qū)域的0.3~0.5m地下土層土壤無機碳的存在。Kandrika Sreenivas等[35]使用隨機森林模型構建印度無機碳密度的估測模型,發(fā)現采樣點的數據分布對隨機森林模型的預測結果沒有顯著影響。L. Wang等[36]采用統(tǒng)計技術和機器學習技術相組合的增強回歸樹對土壤受到雨水侵蝕后沉積物中的無機碳含量實現優(yōu)化預測。由此可知,運用機器學習對土壤無機碳反演建模精度更高,適用范圍更廣。高光譜遙感技術在土壤理化性質定量反演中的不斷拓展也加快了機器學習在高光譜遙感技術中的進步。
4 小結
及時了解干旱、半干旱地區(qū)生態(tài)系統(tǒng)土壤無機碳的動態(tài)變化對于了解全球碳循環(huán)極其重要,可為今后精確估算某一研究區(qū)域碳儲量提供可靠依據,快速高效實現土壤無機碳的反演建??梢詾橥寥罒o機碳在全球碳循環(huán)中的研究提供理論依據??萍嫉呐畈l(fā)展推動了機器學習方法的進步,研究人員應根據研究內容因地制宜對現有學習方法進行諸多模型耦合,有效提升反演模型精度,并實現具備創(chuàng)新性的模型耦合。相比于傳統(tǒng)的線性建模方法,機器學習方法對土壤無機碳反演建模精度更高,適用范圍更廣,更有利于實現土壤理化性質的定量反演。
參考文獻
[1]張謙,張建國,王麗梅,等.塔克拉瑪干沙漠公路防護林不同咸水滴灌下土壤有機碳與無機碳垂直分布特征[J].西北林學院學報,2019,34(4):1-7.
[2]李巧玲,閻欣,吳秀芝,等.荒漠草原沙漠化對土壤無機碳和有機碳的影響[J].水土保持學報,2019,33(1):98-103,110.
[3]李小涵,李富翠,劉金山,等.長期施氮引起的黃土高原旱地土壤不同形態(tài)碳變化[J].中國農業(yè)科學,2014,47(14):2795-2803.
[4]Hui An,Qiao-Ling Li,Xin Yan,et al.Desertification control on soil inorganic and organic carbon accumulation in the topsoil of desert grassland in Ningxia,northwest China[J].Ecological Engineering,2019,127:348-355.
[5]孫俊,金夏明,毛罕平,等.基于高光譜圖像光譜與紋理信息的生菜氮素含量檢測[J].農業(yè)工程學報,2014,30(10):167-173.
[6]孫向陽.土壤學[M].北京:中國林業(yè)出版社,2005:96-97.
[7]BUGHIO M A,WANG P,MENG F,et al. Neoformation of pedogenic carbonates by irrigation and fertilization and their contribution to carbon sequestration in soil[J]. Geoderma,2016,262:12-19.
[8]孟延,周建斌,郝平琦,等.土壤無機碳研究進展及意義[J].北方農業(yè)學報,2017,45(3):54-57.
[9]Suleiman S. Tagiverdiev,Sergei N. Gorbov,et al.The content and distribution of various forms of carbon in urban soils of southern Russia on the example of Rostov agglomeration[J].Geoderma Regional,2020,21:e00266.
[10]雒瓊,王玉剛,鄧彩云,等.干旱區(qū)土壤剖面無機碳分布及其與鹽堿性的關系[J].水土保持學報,2017,31(5):240-246.
[11]雒瓊,王玉剛,鄧彩云,等.不同農業(yè)土地利用年限干旱區(qū)土壤剖面碳存儲動態(tài)變化[J].農業(yè)工程學報,2017,33(19):287-294.
[12]于天仁,陳家坊.土壤發(fā)生中的化學過程[M].北京:科學出版社,1989.
[13]王蓮蓮,楊學云,楊文靜.土壤碳酸鹽幾種測定方法的比較[J].西北農業(yè)學報,2013,22(5):144-150.
[14]隋曉敏.膠州灣典型河口濕地土壤無機碳儲量分布特征及影響因素[D].青島:青島大學,2019.
[15]祖元剛,李冉,王文杰,等.我國東北土壤有機碳、無機碳含量與土壤理化性質的相關性[J].生態(tài)學報,2010,31(18):5207-5216.
[16]王恒俊,張淑光,蔡風岐.黃土高原地區(qū)土壤資源及其合理利用[M].北京:中國科學技術出版社,1991.
[17]劉哲,陳懂懂,李奇,等.土地利用方式對高寒草甸生態(tài)系統(tǒng)土壤無機碳的影響[J].水土保持通報,2016,36(5):73-79.
[18]Pan G X.Some features of carbon cycling in humid subtropical karst region:an example of Guilin Yaji Karst experiment site[J].China Geography,1997,7(3):48-57.
[19]張雪妮,呂光輝,貢璐,等.新疆艾比湖濕地自然保護區(qū)不同土壤類型無機碳分布特征[J].中國沙漠,2013,33(4):1084-1090.
[20]Cailleau G,Braissant O,Dupraz C,et al. Biologically induced accumulations of CaCO3 in orthox soils of Biga,Ivory Coast[J]. Catena,2005,59(1):1-17.
[21]Cowie R H.Tropical ecology and physical edaphology[J].Trends in Ecology & Evolution,1988,3(5):120-120.
[22]崔麗峰,劉叢強,涂成龍,等.黃土地區(qū)不同覆被下土壤無機碳分布及同位素組成特征[J].生態(tài)學雜志,2013,32(5):1187-1194.
[23]黃鉉.特征降維技術的研究與進展[J].計算機科學,2018,45(S1):16-21,53.
[24]楊愛霞,丁建麗.新疆艾比湖濕地土壤有機碳含量的光譜測定方法對比[J].農業(yè)工程學報,2015,31(18):162-168.
[25]朱建偉,劉玉學,吳超凡,等.施用生物炭后土壤有機碳的近紅外光譜模型研究與應用[J].生態(tài)學報,2020,40(20):7430-7440.
[26]于雷,洪永勝,周勇,等.高光譜估算土壤有機質含量的波長變量篩選方法[J].農業(yè)工程學報,2016,32(13):95-102.
[27]章海亮,羅微,劉雪梅,等.應用遺傳算法結合連續(xù)投影算法近紅外光譜檢測土壤有機質研究[J].光譜學與光譜分析,2017,37(2):584-587.
[28]白婷,丁建麗,王敬哲.基于機器學習算法的土壤有機質質量比估算[J].排灌機械工程學報,2020,38(8):829-834.
[29]曹肖奕,丁建麗,葛翔宇,等.基于光譜指數與機器學習算法的土壤電導率估算研究[J].土壤學報,2020,57(4):867-877.
[30]何宇峰.基于改進PCA-MEA-BP神經網絡的瓦斯涌出量預測研究[D].西安:西安科技大學,2020.
[31]喬黎偉,王靜怡,郭煒,等.基于隨機森林算法的中短期用電量預測[J].電力科學與技術學報,2020,35(2):150-156.
[32]邊澤山.基于SVM的溫室大棚溫濕度預測預警系統(tǒng)研究[D].包頭:內蒙古科技大學,2020.
[33]史楊.基于可見光近紅外光譜的土壤成分預測模型研究[D].合肥:中國科學技術大學,2018.
[34]Patrick Filippi,Stephen R. Cattle,Matthew J. Pringle,et al.A two-step modelling approach to map the occurrence and quantity of soil inorganic carbon[J].Geoderma,2020,371:114382.
[35]Kandrika Sreenivas,V.K. Dadhwal,Suresh Kumar,et al.Digital mapping of soil organic and inorganic carbon status in India[J].Geoderma,2016,269:160-173.
[36]L.Wang,X.Huang,N.F.Fang,et al.Selective transport of soil organic and inorganic carbon in eroded sediment in response to raindrop sizes and inflow rates in rainstorms[J].Journal of Hydrology,2019,575:42-53.
(責編:徐世紅)