高志煒,吳電明,*,陳 曦,潘月鵬
機(jī)器學(xué)習(xí)在氮循環(huán)領(lǐng)域的應(yīng)用研究進(jìn)展①
高志煒1,2,3,吳電明1,2,3,4*,陳 曦1,2,3,潘月鵬4
(1 華東師范大學(xué)地理科學(xué)學(xué)院,地理信息科學(xué)教育部重點實驗室,上海 200241;2 崇明生態(tài)研究院,上海 202162;3 自然資源部超大城市自然資源時空大數(shù)據(jù)分析應(yīng)用重點實驗室,上海 200241;4 中國科學(xué)院大氣物理研究所大氣邊界層物理和大氣化學(xué)國家重點實驗室,北京 100029)
氮循環(huán)是地球圈層中水–土–氣–生多介質(zhì)、多界面的復(fù)雜過程,與土壤健康、糧食安全、全球變暖、空氣污染、水體質(zhì)量等環(huán)境問題密切相關(guān)。近年來,得益于計算機(jī)技術(shù)的快速發(fā)展和海量、多源數(shù)據(jù)的產(chǎn)生,機(jī)器學(xué)習(xí)迅速成為研究氮素循環(huán)強有力的工具。本文系統(tǒng)梳理了機(jī)器學(xué)習(xí)的功能性概念,包括典型開發(fā)流程和學(xué)習(xí)應(yīng)用場景等;總結(jié)了機(jī)器學(xué)習(xí)的典型應(yīng)用算法,包括經(jīng)典機(jī)器學(xué)習(xí)(如隨機(jī)森林、支持向量機(jī)等)和深度學(xué)習(xí)(如卷積神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)等);并綜述了機(jī)器學(xué)習(xí)在氮循環(huán)研究領(lǐng)域的應(yīng)用研究進(jìn)展,包括大氣、水體、土壤和植物/作物等介質(zhì)的氮素代謝機(jī)制、模擬氮素循環(huán)過程及管理氮素流動等。未來基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)的特征工程和模型融合的研究,將會給氮循環(huán)領(lǐng)域的數(shù)據(jù)分析與建模帶來巨大變革。同時,將機(jī)器學(xué)習(xí)與基于物理過程的模型相結(jié)合解決氮循環(huán)過程中的復(fù)雜問題,可為服務(wù)國家“雙碳”戰(zhàn)略以及控制全球變暖、空氣污染等環(huán)境問題提供重要支撐。
機(jī)器學(xué)習(xí);深度學(xué)習(xí);氮循環(huán);硝化;反硝化;氧化亞氮
氮(N)是生命代謝必需的營養(yǎng)元素,參與蛋白質(zhì)合成、信號調(diào)節(jié)等基礎(chǔ)生理功能[1]??諝庵?8% 的氣體是氮氣(N2),經(jīng)由閃電作用、生物固氮、人工合成氨等途徑形成活性氮,從而進(jìn)入陸地、海洋、大氣等圈層,參與氮素循環(huán)。自然生態(tài)系統(tǒng)一般處于“氮限制”的狀態(tài),少量的氮沉降、施肥等氮素輸入可以促進(jìn)生態(tài)系統(tǒng)生產(chǎn)力的提高[2]。但是,由于人口數(shù)量的不斷增加和對糧食產(chǎn)量的需求,大量的氮肥被用于提高作物、森林樹木和草場等產(chǎn)量,導(dǎo)致過量的氮素進(jìn)入生態(tài)系統(tǒng),超過了地球系統(tǒng)的行星邊界(planetary boundary layer),成為繼生物多樣性之后的又一全球性問題[3]。據(jù)估算,農(nóng)田生態(tài)系統(tǒng)作物的氮素利用率只有20% ~ 50%[4],其余的氮素一部分被保留在土壤中,一部分通過硝態(tài)氮淋失、氣體排放等進(jìn)入水體和大氣,引發(fā)了一系列的環(huán)境問題,包括土壤酸化、面源污染、大氣污染、臭氧層空洞、生物多樣性降低等[5-6]。
為了研究多介質(zhì)氮素遷移轉(zhuǎn)化過程及其環(huán)境效應(yīng),國內(nèi)外學(xué)者已經(jīng)發(fā)展了多種模型,主要包括自下而上(bottom-up)和自上而下(top-down)兩種類型。前者包括排放清單估算、基于物理過程的模型預(yù)測等,決定其預(yù)測能力的關(guān)鍵因素在于數(shù)據(jù)量的大小、氮素循環(huán)機(jī)理的研究等,如土壤數(shù)據(jù)庫的建立、氮循環(huán)的關(guān)鍵功能基因和驅(qū)動因素的解析等[7-9];后者包括遙感定量反演等,其模型的準(zhǔn)確度更依賴于儀器精度、大氣條件和后期數(shù)據(jù)分析等因素[10]。雖然這些方法能夠精確地定量評估氮素循環(huán)過程、驅(qū)動機(jī)制和環(huán)境影響等,對解決氮循環(huán)復(fù)合型問題起到了決定性的作用,但也存在一些缺陷,如自下而上的方法非??简炑芯空叩南闰炛R,自上而下的方法面對存在缺失值的時間序列的建模能力仍然有限[11],且兩者在擬合非線性關(guān)系的精度上也有待提高以及運行成本高昂等[12]。
機(jī)器學(xué)習(xí)(Machine Learning,ML)是近年來迅速發(fā)展起來的人工智能中的一個新興領(lǐng)域,為科學(xué)家研究氮素代謝、循環(huán)和利用等提供了全新的視角。機(jī)器學(xué)習(xí)已被廣泛地應(yīng)用于土壤學(xué)[13]、大氣科學(xué)[14]、環(huán)境科學(xué)[15]、水文學(xué)[16]和生物信息學(xué)[17]等多學(xué)科交叉研究領(lǐng)域。氮素循環(huán)作為生物地球化學(xué)循環(huán)的重要組成部分,也已經(jīng)涌現(xiàn)出大量機(jī)器學(xué)習(xí)的應(yīng)用性文章。如圖1所示,關(guān)于機(jī)器學(xué)習(xí)和氮素交叉研究的論文數(shù)量呈現(xiàn)逐年增長的趨勢,2010年以來更是飛速發(fā)展。單一的、集成的或與基于物理過程模型混合建模的機(jī)器學(xué)習(xí)算法與氮素經(jīng)典的研究手段結(jié)合被應(yīng)用于生態(tài)系統(tǒng)氮素循環(huán)各個時空尺度的研究[18-19]。機(jī)器學(xué)習(xí)憑借更靈活的模型結(jié)構(gòu)和更高的計算效率,能夠定量構(gòu)建社會、經(jīng)濟(jì)、環(huán)境要素到氮素濃度變化的動態(tài)響應(yīng)關(guān)系中,從不斷增長的地理空間數(shù)據(jù)流中提取模式和見解,提高季節(jié)性預(yù)測的預(yù)測能力,進(jìn)行跨多個時間尺度的遠(yuǎn)程空間聯(lián)系建模,從而獲得對氮素科學(xué)問題的進(jìn)一步理解?;旌辖5姆椒ㄒ彩沟脵C(jī)器學(xué)習(xí)和物理過程模型各自在已經(jīng)獲得較好預(yù)測結(jié)果的情況下更進(jìn)一步賦予和增添了彼此的競爭優(yōu)勢[20]。機(jī)器學(xué)習(xí)還在降低研究成本,宏觀、全面、快速預(yù)測土壤中氮的流入、流出和轉(zhuǎn)化過程,了解大尺度全球氮素通量及其空間分布,大大降低全球氮素收支的不確定性等方面發(fā)揮重要作用,迅速成為研究氮素循環(huán)強有力的工具[15]。
圖1 基于Web of Science以“機(jī)器學(xué)習(xí)”和“氮”為關(guān)鍵詞搜索得到的世界各國已發(fā)表論文的數(shù)量(訪問日期2022年7月15日)
本文綜述了機(jī)器學(xué)習(xí)在氮循環(huán)領(lǐng)域的研究進(jìn)展和應(yīng)用情況,比較了其與經(jīng)典研究方法的優(yōu)劣,提出了未來應(yīng)該關(guān)注的研究方向,以期為推動氮素循環(huán)研究、解決氮素相關(guān)的環(huán)境問題等提供科學(xué)支撐,也為政府部門決策、聯(lián)合國政府間氣候變化專門委員會(IPCC)氣候變化評估、實現(xiàn)聯(lián)合國可持續(xù)發(fā)展目標(biāo)等提供參考和建議。
氮素生物地球化學(xué)循環(huán)主要由微生物參與的氧化還原反應(yīng)驅(qū)動。固氮作用、好氧硝化、厭氧反硝化、厭氧氨氧化等多種過程驅(qū)使地球上不同價態(tài)或相態(tài)的氮素保持動態(tài)平衡[21]。空氣中的惰性N2是可自由獲取的氮的最大庫存,但由于其三鍵結(jié)構(gòu)的高度化學(xué)穩(wěn)定性,很難被生物直接利用,需要經(jīng)過一系列氮轉(zhuǎn)化過程,形成如銨鹽(NH4+)和硝酸鹽(NO3?)才能為生物所吸收[22]。通過生物固氮和閃電作用每年約203 Tg的N2轉(zhuǎn)化為活性氮,進(jìn)入陸地和海洋生態(tài)系統(tǒng)[23](圖2)。大部分N2被還原為銨化合物,隨后在硝化作用下,NH4+被逐步氧化成NO3?,并通過土壤、沉積物、淡水和海水的微生物反硝化、化學(xué)作用等以N2的形式重新返回大氣,構(gòu)成氮的循環(huán)過程。同時,厭氧氨氧化微生物以亞硝酸鹽(NO2?)為電子受體,將NH4+氧化為N2,也起到脫氮作用[24],因此,該過程經(jīng)常和反硝化作用一起被應(yīng)用到廢水處理廠的脫氮工藝中。而硝酸鹽異化還原為銨(DNRA)會與反硝化微生物競爭NO3?和有機(jī)物,將NO3?還原為NO2?和NH4+,再次將固定的氮回收利用[25]。土壤中超過90% 的氮素以有機(jī)態(tài)形式存在,難以被植物利用[26]。礦化作用將土壤中有機(jī)態(tài)氮在微生物的作用下轉(zhuǎn)化為易被植物吸收的無機(jī)氮(如NH4+、NO3?)[27],再經(jīng)過氮素同化最終合成氨基酸和蛋白質(zhì),因此,該過程與作物產(chǎn)量和氮素利用效率等密切相關(guān)[28]。
(圖中圓環(huán)上的數(shù)字代表了三大系統(tǒng)的活性氮分配;各個細(xì)線箭頭旁的數(shù)字表示氮素遷移轉(zhuǎn)化的通量(N,Tg/a),其中,黑色數(shù)字代表自然通量,全部自然通量203 Tg/a被匯入生態(tài)系統(tǒng)活性氮庫;黃色數(shù)字代表人為排放通量,全部人為排放通量210 Tg/a;加底紋的數(shù)字代表參與水體生態(tài)系統(tǒng)氮素循環(huán)過程的活性氮通量。數(shù)據(jù)來源于Fowler等[23]的文獻(xiàn))
在氮素轉(zhuǎn)化過程中,大量的活性氮被釋放到環(huán)境中,直接影響氣候變化、空氣污染和水體質(zhì)量等。例如,硝化和反硝化作用產(chǎn)生的氧化亞氮(N2O)是一種重要的溫室氣體,在地球的輻射平衡和平流層臭氧(O3)循環(huán)中起著關(guān)鍵作用[29]。而通過氨揮發(fā)產(chǎn)生的氨氣(NH3),以及硝化和反硝化過程排放的氮氧化物(NO)和氣態(tài)亞硝酸(HONO)等是典型的空氣污染物[30],參與近地面O3和氫氧自由基(·OH)的生產(chǎn)和消耗、揮發(fā)性有機(jī)化合物(VOCs)的循環(huán)等過程,在自由基光化學(xué)和大氣氧化能力等方面起著關(guān)鍵作用[23]。這些短壽命活性氮氣體(NH3、NO和HONO)可以轉(zhuǎn)化為NO3?或NH4+,是形成氣溶膠的重要前體物,影響著大氣細(xì)顆粒物濃度(PM2.5)和空氣質(zhì)量[31]。大氣干濕沉降可以移除空氣中的活性氮,連同氮肥(主要是銨態(tài)氮和硝態(tài)氮)的輸入,再次進(jìn)入陸地或海洋生態(tài)系統(tǒng)的氮循環(huán)(圖2)。
機(jī)器學(xué)習(xí)是實現(xiàn)人工智能的一種方法,是一門跨學(xué)科的學(xué)科,通過結(jié)合概率論、統(tǒng)計學(xué)等數(shù)學(xué)方法,從已知數(shù)據(jù)中模擬或?qū)崿F(xiàn),從已有數(shù)據(jù)中挖掘規(guī)則,從而實現(xiàn)對未知數(shù)據(jù)的“預(yù)測”[32]。機(jī)器學(xué)習(xí)發(fā)展到今日,已經(jīng)積累了大量的算法。一般根據(jù)學(xué)習(xí)方式分為監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。監(jiān)督學(xué)習(xí)需要對每一個數(shù)據(jù)樣本有明確標(biāo)注,常應(yīng)用于分類和回歸問題,常見的算法有貝葉斯分類器、邏輯回歸、隨機(jī)森林、支持向量機(jī)、卷積神經(jīng)網(wǎng)絡(luò)等[33]。非監(jiān)督學(xué)習(xí)算法的主要任務(wù)是在不對數(shù)據(jù)做任何標(biāo)注情況下發(fā)現(xiàn)數(shù)據(jù)的分布規(guī)律,常應(yīng)用于關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類,常見的算法包括K-Means聚類、層次聚類、自組織映射等[33]。強化學(xué)習(xí)通過與外部環(huán)境交互獲得的反饋中學(xué)習(xí),常見的應(yīng)用場景包括動態(tài)系統(tǒng)以及機(jī)器人控制等,常見的算法包括Q-Learning等[34]。
機(jī)器學(xué)習(xí)模型的開發(fā)遵循收集數(shù)據(jù)、處理數(shù)據(jù)、建立模型、訓(xùn)練和驗證模型以及測試模型性能的系統(tǒng)步驟[15](圖3)。數(shù)據(jù)處理包括①數(shù)據(jù)清洗,識別“臟數(shù)據(jù)”:對缺失數(shù)據(jù)、異常數(shù)據(jù)和重復(fù)數(shù)據(jù)進(jìn)行刪除、填充和糾正等;②數(shù)理統(tǒng)計分析:對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化或正態(tài)化處理;③數(shù)據(jù)挖掘:針對高維數(shù)據(jù)進(jìn)行降維,或為了避免多重共線性進(jìn)行特征提取。開發(fā)模型也是一項復(fù)雜的任務(wù),首先將處理后的數(shù)據(jù)進(jìn)行分組,分為訓(xùn)練集、驗證集和測試集。訓(xùn)練集用于模型擬合;驗證集用于調(diào)整模型的超參數(shù),初步評估模型的能力;測試集用于評估最終模型的泛化能力和性能表現(xiàn)。模型的準(zhǔn)確性通常根據(jù)不同的任務(wù)選擇不同的準(zhǔn)則。分類任務(wù)通常采用極大似然準(zhǔn)則,回歸任務(wù)通常采用均方誤差準(zhǔn)則。預(yù)測問題通常屬于回歸任務(wù),常用的指標(biāo)有決定系數(shù)(2)、卡方(χ2)、平均偏差誤差(MBE)、均方誤差(MSE)、均方根誤差(RMSE)、平均百分比誤差(MPE)等[35]。
圖3 機(jī)器學(xué)習(xí)模型開發(fā)的典型工作流程
MATLAB機(jī)器學(xué)習(xí)工具箱、R的“程序包”、Python的scikit-learn以及開源的算法等為非機(jī)器學(xué)習(xí)領(lǐng)域的從業(yè)人員搭建了能在其專業(yè)領(lǐng)域應(yīng)用的橋梁。氮循環(huán)領(lǐng)域的輸入變量主要來自于高光譜圖像數(shù)據(jù)、生物地球化學(xué)實驗室模擬、外場測量數(shù)據(jù)和文本數(shù)據(jù)等[36],非常規(guī)數(shù)據(jù)源還有智能手機(jī)等[37]。當(dāng)輸入變量很少時,通過統(tǒng)計學(xué)方法或研究人員的先驗知識,可以篩選出變量的最佳集合,確保模型的準(zhǔn)確性,并使模型具有可解釋性。隨著研究區(qū)的擴(kuò)大,研究內(nèi)容的復(fù)雜化,將會產(chǎn)生更高維數(shù)據(jù)集,評估所有變量的重要性將變得難以實現(xiàn)。雖然模型輸入變量的增多能提供更高的準(zhǔn)確性,但同時會降低模型的可解釋性,并導(dǎo)致多重共線性[38]。因此,機(jī)器學(xué)習(xí)提供了特征選擇技術(shù)以消除輸入變量的多重共線性,包括粒子群優(yōu)化、遺傳算法(GA)、混合GA–人工神經(jīng)網(wǎng)絡(luò)、平行GA、人工蜂群算法等[39]。為了探索特征選擇的數(shù)據(jù)集是否穩(wěn)健,可利用重復(fù)的敏感性分析觀察在不同輸入下輸出的波動范圍,從而對輸入進(jìn)行取舍增減,進(jìn)一步保證模型輸入數(shù)據(jù)集的優(yōu)質(zhì)性[40]。一旦成功地構(gòu)建模型,就能將其用于特定問題的預(yù)測,但此時它們僅適用于開發(fā)它們的數(shù)據(jù)范圍或特定問題,想要實現(xiàn)模型的外推仍然需要新數(shù)據(jù)集的重新訓(xùn)練。遷移學(xué)習(xí)提供了模型的可移植性解決方案,它可以有機(jī)地利用源域中的知識對目標(biāo)域更好地建模[41]。
機(jī)器學(xué)習(xí)方法(例如隨機(jī)森林、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò))應(yīng)用非常廣泛,其性能和適用性普遍優(yōu)于更簡單的方法,例如主成分回歸、偏最小二乘回歸、多元線性回歸和K最近鄰算法等[13, 38]。本文主要介紹代表性的經(jīng)典機(jī)器學(xué)習(xí)方法以及深度學(xué)習(xí)進(jìn)階算法(圖4)。
圖4 機(jī)器學(xué)習(xí)各類算法性能和可解釋性之間的權(quán)衡以及各自優(yōu)勢[38]
3.1.1 隨機(jī)森林 隨機(jī)森林(Random Forest,RF)是Breiman開發(fā)的一種基于若干決策樹的集成學(xué)習(xí)算法?!半S機(jī)”是它的精髓,主要體現(xiàn)為訓(xùn)練集隨機(jī)抽樣以及特征子集隨機(jī)生成。正是因為這兩個“隨機(jī)”的引入,才較好地提升了它的泛化和抗噪能力,使其不易陷入單一決策樹引發(fā)的過擬合問題。迄今為止,RF在全球生態(tài)系統(tǒng)中氮素轉(zhuǎn)化通量預(yù)測[42]、活性氮物種時空建模[43]、土壤/水體氮素濃度衛(wèi)星反演評估[44-45]等方面都表現(xiàn)出了強大的應(yīng)用潛力。
3.1.2 支持向量機(jī) 支持向量機(jī)(Support Vector Machine,SVM)是一種用于二元分類的廣義分類器,使用核技巧以及定義軟間隔最大化,旨在維度空間中找到一個正確分類的最優(yōu)決策面[46]。相比于容易過度擬合訓(xùn)練樣本和基于貪心學(xué)習(xí)的策略來搜索假設(shè)空間的人工神經(jīng)網(wǎng)絡(luò),SVM以結(jié)構(gòu)風(fēng)險最小化(SRM)原理代替經(jīng)驗風(fēng)險最小化(ERM)原理,大大降低了過擬合風(fēng)險,并以凸優(yōu)化的本質(zhì)和核函數(shù)的使用有效避免局部最優(yōu)和“維度災(zāi)難”[47]。SVM有4種核函數(shù)類型:線性、多項式、S型(Sigmoid)和徑向基函數(shù)(RBF)。核函數(shù)及其參數(shù)的選擇影響SVM模型分析結(jié)果的準(zhǔn)確性。RBF核,有的時候也被稱為高斯核(Gaussian Kernel),廣泛應(yīng)用于土壤測繪數(shù)字制圖[48]、水質(zhì)監(jiān)測和廢水處理[49]、生態(tài)化學(xué)計量[50]等方面。
深度學(xué)習(xí)或深度神經(jīng)網(wǎng)絡(luò)是指具有多層的人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)。ANN最早由Warren McCulloch和Walter Pitts提出,很多理論分析和前瞻性成果在20世紀(jì)五六十年代相繼出現(xiàn)。比如1958年心理學(xué)家Rosenblatt 創(chuàng)造的感知機(jī)(Perceptron),但由于感知機(jī)存在無法完成多種模式的訓(xùn)練識別的缺陷使得研究陷入冰凍期[51]。經(jīng)過多層神經(jīng)網(wǎng)絡(luò)和反向傳播算法的提出及應(yīng)用,神經(jīng)網(wǎng)絡(luò)于20世紀(jì)80年代迎來了第二次研究熱潮[52]。隨著網(wǎng)絡(luò)層數(shù)的遞增,反向傳播算法容易產(chǎn)生梯度消失或者爆炸的問題;另一方面,其他諸如SVM等新興算法又可以在更少的硬件資源條件下達(dá)到很好的效果,因此神經(jīng)網(wǎng)絡(luò)復(fù)歸沉寂[53]。但21世紀(jì)以來,隨著計算能力和訓(xùn)練數(shù)據(jù)規(guī)模的大幅度提升,特別是云計算、高性能GPU硬件設(shè)備的廣泛應(yīng)用,使得神經(jīng)網(wǎng)絡(luò)研究再次復(fù)蘇,迎來第三次繁榮。
深度學(xué)習(xí)也是機(jī)器學(xué)習(xí)的最蓬勃發(fā)展的分支[54],并得益于計算機(jī)技術(shù)的快速發(fā)展以及海量數(shù)據(jù)的不斷積累,其在醫(yī)學(xué)、物理學(xué)、化學(xué)等領(lǐng)域大放異彩并啟發(fā)了地學(xué)的發(fā)展。它可以在不依賴于先驗知識的情況下完全由數(shù)據(jù)驅(qū)動,不斷從增長的地理空間數(shù)據(jù)流中提取模式和見解,從而成為地理建模的新方法[20]。在地球系統(tǒng)大數(shù)據(jù)背景下,深度學(xué)習(xí)算法(例如卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò))結(jié)合地理信息系統(tǒng)(GIS)和遙感(RS)或利用谷歌地球引擎(GEE)等云計算平臺鏈接,通過編譯大量數(shù)據(jù)進(jìn)行環(huán)境資源監(jiān)測、土地覆蓋測繪和信息建設(shè)與預(yù)測,輔助決策者進(jìn)行氮素管理。
3.2.1 卷積神經(jīng)網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)以生物視覺感知機(jī)制為靈感,是一種著名的深度學(xué)習(xí)架構(gòu),在計算機(jī)視覺領(lǐng)域取得了令人矚目的成就。1990 年,Le Cun等[55]發(fā)表了建立CNN現(xiàn)代框架的開創(chuàng)性論文。自2012年以來,CNN逐漸成為圖像分類、對象檢測、語義分割等視覺識別任務(wù)的主流算法[56]。
3.2.2 長短期記憶網(wǎng)絡(luò) 長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)屬于一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),擅長處理非線性時間序列數(shù)據(jù)。最初版本是由Sepp Hochreiter和Jürgen Schmidhuber在1997年提出,用于克服RNN在學(xué)習(xí)長期依賴項時通常出現(xiàn)的梯度爆炸/消失問題[57]。在地球系統(tǒng)科學(xué)背景下,通過建立氣候和遙感協(xié)變量與目標(biāo)變量(陸地、海洋和大氣)相關(guān)聯(lián)的LSTM模型,可推斷大陸或全球估計值[58]。
機(jī)器學(xué)習(xí)的應(yīng)用場景非常廣泛,包括文本處理、圖像識別、數(shù)據(jù)挖掘等[35]。近年來,在地球科學(xué)領(lǐng)域涌現(xiàn)出了各類跨學(xué)科和應(yīng)用型研究。例如,Reichstein等[20]給出了機(jī)器學(xué)習(xí)的典型地學(xué)研究應(yīng)用場景,包括分類問題、融合問題、預(yù)測問題、時間序列建模問題等。在氮素循環(huán)領(lǐng)域,機(jī)器學(xué)習(xí)已經(jīng)承接室內(nèi)培養(yǎng)試驗、田間野外試驗、大氣外場觀測、遙感觀測和分子生物學(xué)手段產(chǎn)生的高通量數(shù)據(jù)流,在水–土–氣–生多介質(zhì)、多界面上,進(jìn)行了各個研究尺度上的模型模擬,包括從單細(xì)胞、微生物純菌等微觀尺度,到培養(yǎng)瓶、盆栽等小尺度,以及到小區(qū)、田塊、流域等中等尺度,再到國家、洲際和全球等大尺度,建立了包含海洋固氮[59]、預(yù)測硝化速率及N2O的排放[60]等多個全球尺度時空模型,氮肥的輸入和氮沉降[61]相關(guān)的多個農(nóng)業(yè)模型,改善水體富營養(yǎng)化的反硝化過程和厭氧氨氧化模型[62],以及識別固氮基因的分子生物學(xué)模型[63]等。
從20世紀(jì)90年代開始,隨著SVM和RNN的流行,機(jī)器學(xué)習(xí)轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動的方法。相比于傳統(tǒng)模型,機(jī)器學(xué)習(xí)具有以下優(yōu)勢。一方面,機(jī)器學(xué)習(xí)無需太多先驗知識。例如,在預(yù)測硝化作用過程中,隨機(jī)梯度提升(SGB)相比于基于物理過程的WNMM(水氮管理模型)、APSIM(農(nóng)業(yè)生產(chǎn)系統(tǒng)模型)等模型表現(xiàn)出更佳的性能[60]。在評估空氣質(zhì)量的確定性方面,隨機(jī)森林(RF)方法表現(xiàn)出比化學(xué)和物理傳輸模型WRF-CMAQ更高的準(zhǔn)確性[64]。另一方面,機(jī)器學(xué)習(xí)方法已被證明比以往的機(jī)械或半經(jīng)驗建模方法更強大和靈活。例如,具有一個隱藏層的人工神經(jīng)網(wǎng)絡(luò)能夠過濾去除噪聲,預(yù)測CO2通量的晝夜和季節(jié)性變化[65]。Cui等[66]提出了一個由隨機(jī)森林、梯度提升和反向傳播神經(jīng)網(wǎng)絡(luò)組成的集成機(jī)器學(xué)習(xí)模型,實現(xiàn)了對未被以往氮循環(huán)模型量化的HONO估算。2010年以來,隨著深度學(xué)習(xí)的興起,數(shù)據(jù)驅(qū)動的優(yōu)勢更加得到加強,傳統(tǒng)模型高成本化學(xué)求解的束縛被進(jìn)一步掙脫。同時,對于理論和經(jīng)驗知識還未達(dá)到或還未成熟的情況,機(jī)器學(xué)習(xí)還可以提供一種依賴于數(shù)據(jù)來彌補未知的映射關(guān)系的解決方法[67]。然而,盡管機(jī)器學(xué)習(xí)算法具有強大的泛化能力和非線性學(xué)習(xí)能力,但大多數(shù)算法的黑箱特點導(dǎo)致其不可解釋或模型的可解釋性不足,且隨著隱藏層層數(shù)的增多,可解釋性越差[68](圖4),這也催生了模型解釋領(lǐng)域的發(fā)展[69]。例如,Hou等[18]采用RF輔以Shapley加性解釋算法和post hoc解釋技術(shù)揭示了大氣霾污染的驅(qū)動因素。另外,將機(jī)器學(xué)習(xí)算法集成到物理過程模型框架中也可彌補可解釋性較差的短板,聯(lián)合數(shù)據(jù)同化算法融合時空上離散分布的不同來源和分辨率的直接或間接觀測信息來自動調(diào)整模型軌跡,以減少動態(tài)模型中的偏差[70]。Zhan等[71]開發(fā)的新型混合模型隨機(jī)森林時空克里格法(RF-STK),填補了每日NO2統(tǒng)計建模的空白,成為人體健康風(fēng)險評估和解決空氣污染問題的關(guān)鍵步驟。
機(jī)器學(xué)習(xí)還為實現(xiàn)氮素智能管理、提高作物產(chǎn)量、保障土壤健康和糧食安全等提供了新的研究途徑和策略,成為精準(zhǔn)農(nóng)業(yè)系統(tǒng)科學(xué)決策的支持工具[72]。特別是機(jī)器學(xué)習(xí)的分支深度學(xué)習(xí)和強化學(xué)習(xí),具有更強的表征能力或環(huán)境交互能力,與氮循環(huán)中存在的反饋控制循環(huán)相結(jié)合,使得環(huán)境氮素調(diào)節(jié)更加“智能”,并通過多系統(tǒng)耦合和動態(tài)調(diào)整策略找到符合目標(biāo)的氮素最優(yōu)配置[73]?;跈C(jī)器學(xué)習(xí)的視覺傳感技術(shù)可以有效識別葉片/冠層或土壤氮含量[44, 74]、診斷作物營養(yǎng)狀況[75]、自動監(jiān)測缺氮脅迫[75]、確定當(dāng)前季節(jié)的植物氮需求[76]、開發(fā)控釋尿素[77]、預(yù)測作物產(chǎn)量[78]等。氮素的有效分配將最大限度地提高作物生產(chǎn)力,這不僅節(jié)省了人力、物力和經(jīng)濟(jì)成本,還減少氮素流失所造成的一系列生態(tài)問題[79]。同樣地,自動化和DNA測序技術(shù)的最新進(jìn)展大大降低了分析微生物群落組成的成本,機(jī)器學(xué)習(xí)的回歸和分類模型則可以利用從農(nóng)田土壤中收集的16S rRNA基因數(shù)據(jù)對土壤健康進(jìn)行綜合評估[80]。在生物學(xué)上,Higdon等[63]用RF訓(xùn)練分類模型識別具有生物固氮特征的基因,與泛基因組關(guān)聯(lián)研究(Pan-GWAS)識別的基因進(jìn)行比對和協(xié)同建模,鑒定出玉米分離株中乳球菌泛基因組與生物固氮相關(guān)的基因子集。
機(jī)器學(xué)習(xí)還在與氮循環(huán)相關(guān)的河流生態(tài)學(xué)、流域面源污染控制、溪流湖泊恢復(fù)生態(tài)學(xué)等領(lǐng)域具有潛在的應(yīng)用前景。如,基于高分辨率衛(wèi)星遙感產(chǎn)品,利用挺水植物對氮去除或水凈化的光譜響應(yīng),引入4種機(jī)器學(xué)習(xí)方法來估算水體總氮濃度[44],可能是一種新的水質(zhì)參數(shù)光學(xué)估算方法[81];基于LSTM架構(gòu),可提前幾個小時預(yù)測污水處理廠氨氮和硝氮的排放濃度[82];而Xu等[62]使用ANN模型進(jìn)一步揭示了不同抗生素抑制下厭氧氨氧化脫氮過程的響應(yīng)效應(yīng)及潛在機(jī)制,并融合動力學(xué)建模方法對最大脫氮率進(jìn)行了預(yù)測。
總體而言,各種經(jīng)典穩(wěn)健的機(jī)器學(xué)習(xí)方法和進(jìn)階深度學(xué)習(xí)算法已經(jīng)應(yīng)用于地球系統(tǒng)科學(xué)的主要子領(lǐng)域,并且越來越多地被整合、用于補充和增強現(xiàn)有的物理過程模型,在生態(tài)系統(tǒng)氮素循環(huán)的多個過程中成為支持科學(xué)決策的依據(jù),也為理解生物地球化學(xué)氮素代謝、循環(huán)和利用等提供了新的視角。
大數(shù)據(jù)正在成為21世紀(jì)的關(guān)鍵資源之一,以數(shù)據(jù)驅(qū)動發(fā)現(xiàn)的模型也成為生物地球化學(xué)領(lǐng)域的熱點議題。隨著計算機(jī)性能的突破,深度學(xué)習(xí)和強化學(xué)習(xí)的持續(xù)發(fā)展,易于使用的機(jī)器學(xué)習(xí)工具箱的出現(xiàn),預(yù)示著未來10年機(jī)器學(xué)習(xí)算法針對地球科學(xué)領(lǐng)域的預(yù)測研究將繼續(xù)呈現(xiàn)持續(xù)性的增長[33]。從歷史上看,機(jī)器學(xué)習(xí)已被證明具有強大的表征和泛化能力,可以進(jìn)一步認(rèn)識多源、多尺度、多介質(zhì)、復(fù)雜高維的時空關(guān)系,研究者可以通過訓(xùn)練模型獲取、篩選、分析和可視化生物地球化學(xué)數(shù)據(jù),模擬氮循環(huán)重要生物或非生物轉(zhuǎn)化過程,探索發(fā)現(xiàn)潛在轉(zhuǎn)化機(jī)制,解決氮素失衡導(dǎo)致的土壤(如土壤酸化)、大氣(如臭氧層空洞)和水體(如富營養(yǎng)化)等生態(tài)安全問題。通過將強化學(xué)習(xí)和深度學(xué)習(xí)結(jié)合,還能實現(xiàn)與環(huán)境交互,制定完整解決方案,自動改進(jìn)算法,建立動態(tài)自動化系統(tǒng)。但在實際應(yīng)用方面,未來還需要考慮模型的復(fù)雜性和可解釋性,對此建議根據(jù)從地球系統(tǒng)物理模型派生的合成數(shù)據(jù)測試機(jī)器學(xué)習(xí)方法的性能,在遵守物理定律的框架下,同時在理論薄弱的地方發(fā)揮數(shù)據(jù)驅(qū)動和經(jīng)驗驅(qū)動的協(xié)同作用[20]。未來基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)的特征工程和模型融合的研究,將會給氮循環(huán)領(lǐng)域的數(shù)據(jù)分析與建模帶來巨大變革,為服務(wù)國家“雙碳”戰(zhàn)略以及控制全球變暖、空氣污染等環(huán)境問題提供更多途徑。
[1] Maathuis F J. Physiological functions of mineral macronutrients[J]. Current Opinion in Plant Biology, 2009, 12(3): 250–258.
[2] Melillo E D. The first green revolution: Debt peonage and the making of the nitrogen fertilizer trade, 1840-1930[J]. The American Historical Review, 2012, 117(4): 1028–1060.
[3] Rockstr?m J, Steffen W, Noone K, et al. A safe operating space for humanity[J]. Nature, 2009, 461(7263): 472–475.
[4] Li S T, He P, Jin J Y. Nitrogen use efficiency in grain production and the estimated nitrogen input/output balance in China agriculture[J]. Journal of the Science of Food and Agriculture, 2013, 93(5): 1191–1197.
[5] Galloway J N, Townsend A R, Erisman J W, et al. Transformation of the nitrogen cycle: Recent trends, questions, and potential solutions[J]. Science, 2008, 320(5878): 889–892.
[6] Houlton B Z, Almaraz M, Aneja V, et al. A world of cobenefits: Solving the global nitrogen challenge[J]. Earth’s Future, 2019, 7(8): 865–872.
[7] Wu D M, Zhang J W, Wang M D, et al. Global and regional patterns of soil nitrous acid emissions and their acceleration of rural photochemical reactions[J]. Journal of Geophysical Research: Atmospheres, 2022, 127(6): e2021JD036379.
[8] Tian H Q, Yang Q C, Najjar R G, et al. Anthropogenic and climatic influences on carbon fluxes from eastern North America to the Atlantic Ocean: A process-based modeling study[J]. Journal of Geophysical Research: Biogeosciences, 2015, 120(4): 757–772.
[9] Giltrap D L, Li C S, Saggar S. DNDC: A process-based model of greenhouse gas fluxes from agricultural soils[J]. Agriculture, Ecosystems & Environment, 2010, 136(3/4): 292–300.
[10] Overpeck J T, Meehl G A, Bony S, et al. Climate data challenges in the 21st century[J]. Science, 2011, 331(6018): 700–702.
[11] Das M, Ghosh S K. A deep-learning-based forecasting ensemble to predict missing data for remote sensing analysis[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(12): 5228–5236.
[12] Lee H, Wang J F, Leblon B. Using linear regression, random forests, and support vector machine with unmanned aerial vehicle multispectral images to predict canopy nitrogen weight in corn[J]. Remote Sensing, 2020, 12(13): 2071.
[13] Padarian J, Minasny B, McBratney A B. Machine learning and soil sciences: A review aided by machine learning tools[J]. Soil, 2020, 6(1): 35–52.
[14] Zheng L M, Lin R, Wang X M, et al. The development and application of machine learning in atmospheric environment studies[J]. Remote Sensing, 2021, 13(23): 4839.
[15] Zhong S F, Zhang K, Bagheri M, et al. Machine learning: New ideas and tools in environmental science and engineering[J]. Environmental Science & Technology, 2021, 55(19): 12741–12754.
[16] Sit M, Demiray B Z, Xiang Z R, et al. A comprehensive review of deep learning applications in hydrology and water resources[J]. Water Science and Technology, 2020, 82(12): 2635–2670.
[17] Jin S T, Zeng X X, Xia F, et al. Application of deep learning methods in biological networks[J]. Briefings in Bioinformatics, 2021, 22(2): 1902–1917.
[18] Hou L L, Dai Q L, Song C B, et al. Revealing drivers of haze pollution by explainable machine learning[J]. Environmental Science & Technology Letters, 2022, 9(2): 112–119.
[19] Keller C A, Evans M J. Application of random forest regression to the calculation of gas-phase chemistry within the GEOS-Chem chemistry model v10[J]. Geoscientific Model Development, 2019, 12(3): 1209–1225.
[20] Reichstein M, Camps-Valls G, Stevens B, et al. Deep learning and process understanding for data-driven Earth system science[J]. Nature, 2019, 566(7743): 195–204.
[21] Canfield D E, Glazer A N, Falkowski P G. The evolution and future of Earth’s nitrogen cycle[J]. Science, 2010, 330(6001): 192–196.
[22] Kuypers M M M, Marchant H K, Kartal B. The microbial nitrogen-cycling network[J]. Nature Reviews Microbiology, 2018, 16(5): 263–276.
[23] Fowler D, Coyle M, Skiba U, et al. The global nitrogen cycle in the twenty-first century[J]. Philosophical Transactions of the Royal Society of London Series B, Biological Sciences, 2013, 368(1621): 20130164.
[24] Broda E. Two kinds of lithotrophs missing in nature[J]. Zeitschrift Für Allgemeine Mikrobiologie, 1977, 17(6): 491–493.
[25] Woods D D. The reduction of nitrate to ammonia bywelchii[J]. The Biochemical Journal, 1938, 32(11): 2000–2012.
[26] Matsumoto S, Ae N. Characteristics of extractable soil organic nitrogen determine using various chemical solutions and its significance for nitrogen uptake by crops[J]. Soil Science and Plant Nutrition, 2004, 50(1): 1–9.
[27] Schimel J P, Bennett J. Nitrogen mineralization: Challenges of a changing paradigm[J]. Ecology, 2004, 85(3): 591–602.
[28] Xu G H, Fan X R, Miller A J. Plant nitrogen assimilation and use efficiency[J]. Annual Review of Plant Biology, 2012, 63: 153–182.
[29] Thompson R L, Lassaletta L, Patra P K, et al. Acceleration of global N2O emissions seen from two decades of atmospheric inversion[J]. Nature Climate Change, 2019, 9(12): 993–998.
[30] 宋雅琦, 吳電明, 俞元春. 土壤活性氮氣體排放研究進(jìn)展[J]. 科技導(dǎo)報, 2022, 40(3): 130–144.
[31] Zhang X N, Ward B B, Sigman D M. Global nitrogen cycle: Critical enzymes, organisms, and processes for nitrogen budgets and dynamics[J]. Chemical Reviews, 2020, 120(12): 5308–5351.
[32] Xu Y J, Liu X, Cao X, et al. Artificial intelligence: A powerful paradigm for scientific research[J]. The Innovation, 2021, 2(4): 100179.
[33] Bergen K J, Johnson P A, de Hoop M V, et al. Machine learning for data-driven discovery in solid Earth geoscience[J]. Science, 2019, 363(6433): eaau0323.
[34] Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: A survey[J]. Journal of Artificial Intelligence Research, 1996, 4: 237–285.
[35] Zhou Z H. Machine Learning[M]. Singapore: Springer Singapore, 2021.
[36] Salcedo-Sanz S, Ghamisi P, Piles M, et al. Machine learning information fusion in Earth observation: A comprehensive review of methods, applications and data sources[J]. Information Fusion, 2020, 63: 256–272.
[37] Yang M D, Hsu Y C, Tseng W C, et al. Assessment of grain harvest moisture content using machine learning on smartphone images for optimal harvest timing[J]. Sensors, 2021, 21(17): 5875.
[38] Liu X, Lu D W, Zhang A Q, et al. Data-driven machine learning in environmental pollution: Gains and problems[J]. Environmental Science & Technology, 2022, 56(4): 2124–2133.
[39] 周慧穎, 汪廷華, 張代俐. 多標(biāo)簽特征選擇研究進(jìn)展[J]. 計算機(jī)工程與應(yīng)用, 2022, 58(15): 52–67.
[40] 何坤龍, 趙偉, 劉曉輝, 等. 云霧覆蓋下地表溫度重建機(jī)器學(xué)習(xí)模型的訓(xùn)練集敏感性分析[J]. 遙感學(xué)報, 2021, 25(8): 1722–1734.
[41] 王惠. 遷移學(xué)習(xí)研究綜述[J]. 電腦知識與技術(shù), 2017, 13(32): 203–205.
[42] Glenn A J, Moulin A P, Roy A K, et al. Soil nitrous oxide emissions from no-till canola production under variable rate nitrogen fertilizer management[J]. Geoderma, 2021, 385: 114857.
[43] Li R, Cui L L, Zhao Y L, et al. Long-term trends of ambient nitrate (NO3?) concentrations across China based on ensemble machine-learning models[J]. Earth System Science Data, 2021, 13(5): 2147–2163.
[44] Wang J Z, Shi T Z, Yu D L, et al. Ensemble machine-learning-based framework for estimating total nitrogen concentration in water using drone-borne hyperspectral imagery of emergent plants: A case study in an arid oasis, NW China[J]. Environmental Pollution, 2020, 266(Pt 2): 115412.
[45] Mashaba-Munghemezulu Z, Chirima G J, Munghemezulu C. Modeling the spatial distribution of soil nitrogen content at smallholder maize farms using machine learning regression and sentinel-2 data[J]. Sustainability, 2021, 13(21): 11591.
[46] Noble W S. What is a support vector machine?[J]. Nature Biotechnology, 2006, 24(12): 1565–1567.
[47] 奉國和. SVM分類核函數(shù)及參數(shù)選擇比較[J]. 計算機(jī)工程與應(yīng)用. 2011, 47(3): 123–124.
[48] Zhou T, Geng Y J, Chen J, et al. High-resolution digital mapping of soil organic carbon and soil total nitrogen using DEM derivatives, Sentinel-1 and Sentinel-2 data based on machine learning algorithms[J]. Science of the Total Environment, 2020, 729: 138244.
[49] Kim Y, Oh S. Machine-learning insights into nitrate- reducing communities in a full-scale municipal wastewater treatment plant[J]. Journal of Environmental Management, 2021, 300: 113795.
[50] Qiu Z C, Ma F, Li Z W, et al. Estimation of nitrogen nutrition index in rice from UAV RGB images coupled with machine learning algorithms[J]. Computers and Electronics in Agriculture, 2021, 189: 106421.
[51] 張馳, 郭媛, 黎明. 人工神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用綜述[J]. 計算機(jī)工程與應(yīng)用. 2021, 57(11): 57–69.
[52] Werbos P J. The roots of backpropagation: From ordered derivatives to neural networks and political forecasting[M]. New York: John Wiley & Sons, 1994.
[53] Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273–297.
[54] Zhang Q C, Yang L T, Chen Z K, et al. A survey on deep learning for big data[J]. Information Fusion, 2018, 42: 146–157.
[55] Le Cun Y, Boser B, Denker J S, et al. Handwritten digit recognition with a back-propagation network[J]. Advances in Neural Information Processing Systems, 1990: 396–404.
[56] Chen L Y, Li S B, Bai Q A, et al. Review of image classification algorithms based on convolutional neural networks[J]. Remote Sensing, 2021, 13(22): 4712.
[57] Sherstinsky A. Fundamentals of recurrent neural network (RNN) and long short-term memory (LSTM) network[J]. Physica D: Nonlinear Phenomena. 2020, 404: 132306.
[58] Li K L, Duan H R, Liu L F, et al. An integrated first principal and deep learning approach for modeling nitrous oxide emissions from wastewater treatment plants[J]. Environmental Science & Technology, 2022, 56(4): 2816–2826.
[59] Tang W Y, Li Z C, Cassar N. Machine learning estimates of global marine nitrogen fixation[J]. Journal of Geophysical Research: Biogeosciences, 2019, 124(3): 717–730.
[60] Pan B B, Lam S K, Wang E L, et al. New approach for predicting nitrification and its fraction of N2O emissions in global terrestrial ecosystems[J]. Environmental Research Letters, 2021, 16(3): 034053.
[61] Lu X C, Yuan D H, Chen Y A, et al. Estimations of long-term nss-SO42–and NO3–wet depositions over East Asia by use of ensemble machine-learning method[J]. Environmental Science & Technology, 2020, 54(18): 11118–11126.
[62] Xu X X, Liu S, Zeng M, et al. Deciphering response effect and underlying mechanism of anammox-based nitrogen removal process under exposures to different antibiotics via big data analysis[J]. Bioresource Technology, 2022, 347: 126674.
[63] Higdon S M, Huang B C, Bennett A B, et al. Identification of nitrogen fixation genes inisolated from maize using population genomics and machine learning[J]. Microorganisms, 2020, 8(12): 2043.
[64] Vu T V, Shi Z B, Cheng J, et al. Assessing the impact of clean air action on air quality trends in Beijing using a machine learning technique[J]. Atmospheric Chemistry and Physics, 2019, 19(17): 11303–11314.
[65] Papale D, Valentini R. A new assessment of European forests carbon exchanges by eddy fluxes and artificial neural network spatialization[J]. Global Change Biology, 2003, 9(4): 525–535.
[66] Cui L L, Wang S X. Mapping the daily nitrous acid (HONO) concentrations across China during 2006-2017 through ensemble machine-learning algorithm[J]. Science of the Total Environment, 2021, 785: 147325.
[67] Taki R, Wagner-Riddle C, Parkin G, et al. Comparison of two gap-filling techniques for nitrous oxide fluxes from agricultural soil[J]. Canadian Journal of Soil Science, 2019, 99(1): 12–24.
[68] Zdeborová L. Understanding deep learning is also a job for physicists[J]. Nature Physics, 2020, 16(6): 602–604.
[69] Toms B A, Barnes E A, Ebert-Uphoff I. Physically interpretable neural networks for the geosciences: Applications to earth system variability[J]. Journal of Advances in Modeling Earth Systems, 2020, 12(9): e2002M-e2019M.
[70] Ivatt P D, Evans M J. Improving the prediction of an atmospheric chemistry transport model using gradient- boosted regression trees[J]. Atmospheric Chemistry and Physics, 2020, 20(13): 8063–8082.
[71] Zhan Y, Luo Y Z, Deng X F, et al. Satellite-based estimates of daily NO2exposure in China using hybrid random forest and spatiotemporal kriging model[J]. Environmental Science & Technology, 2018, 52(7): 4180–4189.
[72] Ghahramani Z. Probabilistic machine learning and artificial intelligence[J]. Nature, 2015, 521(7553): 452–459.
[73] Irrgang C, Boers N, Sonnewald M, et al. Towards neural Earth system modelling by integrating artificial intelligence in Earth system science[J]. Nature Machine Intelligence, 2021, 3(8): 667–674.
[74] Patel A K, Ghosh J K, Pande S, et al. Deep-learning-based approach for estimation of fractional abundance of nitrogen in soil from hyperspectral data[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 6495–6511.
[75] Barbedo J G A. Detection of nutrition deficiencies in plants using proximal images and machine learning: A review[J]. Computers and Electronics in Agriculture, 2019, 162: 482–492.
[76] Qin Z S, Myers D B, Ransom C J, et al. Application of machine learning methodologies for predicting corn economic optimal nitrogen rate[J]. Agronomy Journal, 2018, 110(6): 2596–2607.
[77] Jiang Z W, Yang S H, Chen X, et al. Controlled release urea improves rice production and reduces environmental pollution: A research based on meta-analysis and machine learning[J]. Environmental Science and Pollution Research International, 2022, 29(3): 3587–3599.
[78] Chlingaryan A, Sukkarieh S, Whelan B. Machine learning approaches for crop yield prediction and nitrogen status estimation in precision agriculture: A review[J]. Computers and Electronics in Agriculture, 2018, 151: 61–69.
[79] Yang Y, Shang X, Chen Z, et al. A support vector regression model to predict nitrate-nitrogen isotopic composition using hydro-chemical variables[J]. Journal of Environmental Management, 2021, 290: 112674.
[80] Wilhelm R C, van Es H M, Buckley D H. Predicting measures of soil health using the microbiome and supervised machine learning[J]. Soil Biology and Biochemistry, 2022, 164: 108472.
[81] Niu C, Tan K, Jia X P, et al. Deep learning based regression for optically inactive inland water quality parameter estimation using airborne hyperspectral imagery[J]. Environmental Pollution, 2021, 286: 117534.
[82] Farhi N, Kohen E, Mamane H, et al. Prediction of wastewater treatment quality using LSTM neural network[J]. Environmental Technology & Innovation, 2021, 23: 101632.
Machine Learning in Nitrogen Cycle Research: A review
GAO Zhiwei1,2,3, WU Dianming1,2,3,4*, CHEN Xi1,2,3, PAN Yuepeng4
(1 School of Geographical Sciences, East China Normal University, Key Laboratory of Geographic Information Sciences, Ministry of Education, Shanghai 200241, China; 2 Institute of Eco-Chongming (IEC), Shanghai 202162, China; 3 Key Laboratory of Spatial-temporal Big Data Analysis and Application of Natural Resources in Megacities, Ministry of Natural Resources, Shanghai 200241, China; 4 State Key Laboratory of Atmospheric Boundary Physics and Atmospheric Chemistry, Institute of Atmospheric Physics, Chinese Academy of Sciences, Beijing 100029, China)
Nitrogen cycle is a complex process of multi-media and multi-interface between water-soil-atmosphere-biology in the Earth's sphere, which is closely related to environmental problems such as soil health, food security, global warming, air pollution and water quality. With the rapid development of computer technology and the generation of massive and multi-source data in recent years, machine learning (ML) has rapidly become a powerful tool to study nitrogen cycle. This paper first introduces the functional concepts of ML, including typical development process and learning application scenarios. Then typical application algorithms of ML are summarized, including classical ML (such as random forest, support vector machine, etc.) and deep learning (such as convolutional neural network, long-term and short-term memory network, etc.). In addition, the application research progress of ML in the field of nitrogepn cycle research are reviewed, including nitrogen metabolism mechanism, simulating nitrogen cycle process and managing nitrogen flow in atmosphere, water, soil and plant/crop. In the future, the research of feature engineering and model fusion based on big data and ML technology will bring great changes to data analysis and modeling in the field of nitrogen cycle. Meanwhile, combine ML with process-based models to solve complex problems in the nitrogen cycle, which will provide important support for serving the national “double carbon” strategy and controlling global warming, air pollution and other environmental issues.
Machine learning (ML); Deep learning; Nitrogen cycle; Nitrification; Denitrification; Nitrous oxide
S154.1;TP181
A
10.13758/j.cnki.tr.2023.04.001
高志煒, 吳電明, 陳曦, 等. 機(jī)器學(xué)習(xí)在氮循環(huán)領(lǐng)域的應(yīng)用研究進(jìn)展. 土壤, 2023, 55(4): 689–698.
上海市2022年度科技創(chuàng)新行動計劃長三角科技創(chuàng)新共同體領(lǐng)域項目(22002400300),LAPC國家重點實驗室開放課題(LAPC-KF-2022-09)和中央引導(dǎo)地方科技發(fā)展資金項目(2021ZY0002)資助。
(dmwu@geo.ecnu.edu.cn)
高志煒(1999—),女,山東德州人,碩士研究生,主要從事城市環(huán)境氮循環(huán)研究。E-mail:51213901022@stu.ecnu.edu.cn