張勁夫,晉 華,馬雪健,何宇琛,閔雅欣
(太原理工大學(xué)水利科學(xué)與工程學(xué)院,太原 030024)
土壤含水量是陸地和大氣能量交換過程中的重要因子,直接影響著植被生長、農(nóng)作物生產(chǎn)和區(qū)域生態(tài)環(huán)境穩(wěn)定[1,2],快速、準確地獲取土壤含水量是實現(xiàn)節(jié)水灌溉、水資源高效利用與農(nóng)業(yè)可持續(xù)發(fā)展的關(guān)鍵環(huán)節(jié)[3,4]。常見的土壤含水量測量方法有烘干法、中子儀法和TDR 法等,但它們在實際應(yīng)用中都存在一定的局限,如烘干法在采樣時會破壞土體,耗時耗力且不適宜野外測量[5],中子儀法需要昂貴的儀器設(shè)備且存在潛在的輻射危害[6],TDR 法不僅成本高且測試精度受土壤飽和度的影響較大[7]。近年來,數(shù)字圖像技術(shù)的日益成熟為土壤含水量的無損識別和預(yù)測提供了有力的技術(shù)支持。張榮標[8]、Zanetti[9]、刁萬英[10]等利用數(shù)碼相機獲取不同含水量的土壤圖像,并基于圖像提取的灰度值、色調(diào)和亮度等特征參數(shù)構(gòu)建了土壤含水量預(yù)測模型,結(jié)果表明所建模型可以較好地估測土壤含水量。
隨著手機功能的逐步完善,手機相機以其便攜性、普遍性、易操作性等優(yōu)勢正成為數(shù)字圖像技術(shù)在農(nóng)業(yè)應(yīng)用中的重要手段[11,12]。另外,在利用土壤圖像特征預(yù)測土壤含水量的建模技術(shù)中,多以線性回歸模型[9,10,13]為主,而土壤圖像特征與含水量間的非線性關(guān)系使得線性模型的精度有限[14]。支持向量機作為機器學(xué)習(xí)的經(jīng)典算法,能夠根據(jù)有限的樣本信息,平衡模型的復(fù)雜性和學(xué)習(xí)能力,找到最優(yōu)解[15],在處理高維數(shù)據(jù)集、小樣本和非線性問題中表現(xiàn)出許多特有的優(yōu)勢[16]。
鑒于此,本文以粗砂、細砂、粉砂質(zhì)壤土、壤質(zhì)黏土和粉砂質(zhì)黏土等5種土壤為研究對象,利用手機相機采集不同含水量土壤圖像,分析RGB 顏色空間紅(R)、綠(G)、藍(B)灰度值,HSV 顏色空間色調(diào)(H)、飽和度(S)和亮度(V)值以及全色灰度值(DN)等7 種顏色特征參數(shù)與土壤含水量的關(guān)系,將相關(guān)性較大的特征參數(shù)進行組合作為輸入項構(gòu)建支持向量機土壤含水量反演模型,以期提供一種基于支持向量機技術(shù)的土壤含水量預(yù)測方法。
試驗土壤分為粗砂、細砂、粉砂質(zhì)壤土、壤質(zhì)黏土和粉砂質(zhì)黏土[17],土壤特性如表1 所示。經(jīng)去雜、研磨和烘干后裝入125個直徑5.5 cm、深3 cm 的鋁盒,土樣深度為2 cm。各鋁盒加入不同質(zhì)量的水(質(zhì)量含水量分布在0~25%范圍內(nèi)),充分攪拌后密封靜置24 h使水分在土壤中均勻擴散,共制成125個不同含水量的土壤樣品,如圖1所示。
表1 室內(nèi)土壤樣品特性Tab.1 Characteristics of indoor soil samples
圖1 不同含水量的土壤圖像Fig.1 Soil images with different water content
圖像采集在室內(nèi)進行,采集設(shè)備為華為nova 5z 手機,相機設(shè)置參數(shù)如表2所示。將裝有土樣的鋁盒置于實驗臺上,用手機在距離土樣表面高度50 cm 處拍照,并保持攝像頭與土樣表面平行。為了保證采集的圖像不受光照強度的影響,在距離土樣表面高度為2.5 m、角度為75°處添加日光燈恒定光源(功率為40 W),采集結(jié)束后利用烘干稱重法獲取不同鋁盒中土樣的質(zhì)量含水量實測值。
表2 手機相機參數(shù)Tab.2 Mobile camera parameters
為了消除圖像背景和樣品容器邊緣對土樣造成的陰影影響,將采集的土壤樣本圖像在Photoshop 2015 軟件中進行預(yù)處理,并選取中心區(qū)域的正方形區(qū)域裁剪圖像[18,19]。對裁剪后的圖像進行R、G、B、H、S、V 和DN 顏色特征參數(shù)提取。具體方法如下:
(1)提取RGB 顏色空間的紅色灰度值(R)、綠色灰度值(G)和藍色灰度值(B)的中值,以克服土壤樣品表面微起伏陰影造成的偏差[19,20]。
(2)將RGB 顏色空間轉(zhuǎn)變到HSV 顏色空間獲得H、S 和V的中值[21]:
(3)將圖像轉(zhuǎn)換為全色圖像獲得全色灰度值(DN)的中值[18]:
支持向量機(Support vector machines,SVM)是建立在統(tǒng)計學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險最小化原理基礎(chǔ)上的機器學(xué)習(xí)方法[22],它通過引入核函數(shù),將原低維空間中非線性不可分的數(shù)據(jù)映射到高維特征空間[23],建立線性模型以求解非線性問題。SVM很大程度上克服了“離散值多”和“過學(xué)習(xí)”等問題[15,22]。對于樣本數(shù)據(jù)(xi, yi),i=1,2,…,n,xi為輸入變量,yi為對應(yīng)的輸出變量,n 為樣本個數(shù),φ(x)為樣本數(shù)據(jù)轉(zhuǎn)換到高維空間的非線性映射,則在高維空間的線性回歸表達式為[24]:
式中:ω為權(quán)值向量;b為偏差。
ω和b可通過求解風(fēng)險函數(shù)的最小值獲得最優(yōu)解:
式中:ε為損失系數(shù);ξi、為松弛變量;C為懲罰因子。
采用拉格朗日乘子法以及核函數(shù)將問題轉(zhuǎn)換為對偶形式進行求解[24],最終得到SVM回歸方程:
式中:ai和ai*為拉格朗日乘子,K(xi, x)為核函數(shù),常用的核函數(shù)有徑向基核、線性核和多項式核等[23],本文選用應(yīng)用廣泛的徑向基函數(shù),其表達式為exp(-g‖x-xi‖2),懲罰因子C和核參數(shù)g是影響SVM性能的主要參數(shù)[15,25]。
K-CV 參數(shù)優(yōu)化法是基于交叉驗證(Cross Validation,CV)思想下的一種網(wǎng)格尋優(yōu)方法,其原理是將原始數(shù)據(jù)分成K 組,每組數(shù)據(jù)分別做一次驗證集,其余K-1組子集數(shù)據(jù)作為訓(xùn)練集,共可獲得K個模型,將K個模型驗證集的回歸均方誤差的均值作為回歸性能判斷指標[26]。該方法不僅可以有效避免收斂速度慢或者不收斂的情況[24],而且還可防止模型訓(xùn)練中過學(xué)習(xí)和欠學(xué)習(xí)的發(fā)生[26],故本文采用K-CV 法對模型參數(shù)進行優(yōu)化。
2.1.1 R、G、B和DN與土壤含水量的關(guān)系分析
圖2 為5 種土壤的顏色特征參數(shù)R、G、B 和DN 隨含水量變化的關(guān)系圖,可以看出對于同一種土壤,R>G>B,這是因為土壤反射的紅色波長較多,其次是綠色和藍色。隨著含水量的增加,5 種土壤的R、G、B 灰度值和DN 灰度值均降低,這是由于土壤吸收的水分主要存儲于土壤顆粒間的孔隙中,含水量的增加會使孔隙逐漸被水充滿,水分對可見光的吸收增強使得土壤表面的反射和散射降低,從而使反射光強度減小,土壤表面亮度降低(即灰度值降低)[27]。此外,由于5種土壤顆粒組成和內(nèi)部孔隙結(jié)構(gòu)不同,各土壤的R、G、B 和DN隨含水量的變化趨勢存在差異。砂土的灰度值隨含水量的增加先迅速降低,后趨于穩(wěn)定,這是因為砂土中砂粒含量較高(達98%以上),水分增加優(yōu)先充填砂粒間的大孔隙,使得土壤表面迅速變暗,當(dāng)土壤的大孔隙被水充滿后土壤表面亮度趨于穩(wěn)定。粉砂質(zhì)壤土的灰度值隨含水量的增加先快速降低,后趨于穩(wěn)定,這是由于粉砂質(zhì)壤土中粉粒含量較高(達78%以上),土體疏松、綿軟,內(nèi)部毛管孔隙數(shù)量較多,含水量在0~10%時水分充填到土壤孔隙使土壤表面快速變暗,當(dāng)毛管孔隙被水充滿后土壤表面亮度趨于穩(wěn)定。黏土的灰度值隨含水量的增加先緩慢降低,后快速降低并趨于穩(wěn)定,壤質(zhì)黏土的灰度值最后還呈現(xiàn)上升趨勢,這是因為黏土中粉粒和黏??偤枯^高(達56%和79%以上),對水的吸附能力較強,當(dāng)含水量在0~5%時,水分被土壤顆粒吸附不能充填到土壤孔隙,所以土壤表面的亮度下降緩慢,當(dāng)含水量大于5%時,水分開始充填土壤孔隙,使得土壤表面快速變暗,當(dāng)土壤的孔隙被水充滿后土壤表面亮度趨于穩(wěn)定,壤質(zhì)黏土的灰度值最后還呈現(xiàn)上升趨勢是因為當(dāng)含水量超過臨界值20%,壤質(zhì)黏土表面形成水膜,增加了土壤表面反射率使土壤表面亮度升高。
圖2 R、G、B和DN隨含水量變化的關(guān)系圖Fig.2 Relationship of R、G、B and DN with water content
2.1.2 H、S和V與土壤含水量的關(guān)系分析
圖3為5種土壤的顏色特征參數(shù)H、S和V隨含水量變化的關(guān)系圖,可以看出隨著含水量的增加,色調(diào)(H)變化較小,飽和度(S)先增加后趨于穩(wěn)定,亮度(V)逐漸降低。這是由于色調(diào)(H)是用于區(qū)別顏色種類的參數(shù),土壤水分增加的過程中,土壤表面的顏色深度增加,而顏色種類基本不變,所以H 隨含水量的增加變化較小;飽和度(S)是用于衡量顏色純度的參數(shù),S 值越高,圖像越純凈[18],灰度值越小,故其與灰度值的變化趨勢相反;亮度(V)是用于衡量顏色明暗程度的參數(shù),故其與灰度值的變化趨勢一致,即隨著含水量的增加而降低。
圖3 H、S和V隨含水量變化的關(guān)系圖Fig.3 Relationship of H、S and V with water content
2.1.3 顏色特征參數(shù)與土壤含水量的相關(guān)性分析
上述分析表明了7種顏色特征參數(shù)與土壤含水量之間存在不同的非線性關(guān)系,為進一步篩選建模所需參數(shù),在IBM SPSS 26 軟件中對7 種顏色特征參數(shù)與對應(yīng)的土壤含水量分別進行相關(guān)性分析,相關(guān)系數(shù)計算結(jié)果如表3所示。
表3 顏色特征參數(shù)與土壤含水量的相關(guān)系數(shù)Tab.3 Correlation coefficient between color characteristic parameters and soil water content
由表3可知:不同顏色特征參數(shù)與土壤含水量之間存在不同的相關(guān)性,特征參數(shù)S 與土壤含水量之間呈現(xiàn)正相關(guān)關(guān)系,其余特征參數(shù)R、G、B、H、V、DN 與土壤含水量之間均呈現(xiàn)負相關(guān)關(guān)系。在RGB 顏色空間,相關(guān)性由大到小依次為R、G、B,在HSV 顏色空間,相關(guān)性由大到小依次為V、H、S,全色圖像的特征參數(shù)DN 與含水量之間的相關(guān)性僅小于R 和V。選取相關(guān)性較大的顏色特征參數(shù)可以提高含水量反演的精度,同時為了減小反演模型的空間和時間復(fù)雜度,本文選取RGB顏色空間的R、HSV顏色空間的V和全色圖像的DN數(shù)據(jù)等3個參數(shù)構(gòu)建模型。
為保證模型的可靠性,隨機選取每種土壤含水量實測數(shù)據(jù)的80%(20 個樣本)為訓(xùn)練集,20%(5 個樣本)為驗證集,以R、V 和DN 為輸入變量,土壤含水量為輸出變量,通過在Matlab 軟件中編程構(gòu)建支持向量機土壤含水量反演模型,并對5 種土壤的含水量進行預(yù)測。同時對5 種不同類型的土壤進行交叉驗證,隨機選取全部土壤含水量實測數(shù)據(jù)的80%(100 個樣本)為訓(xùn)練集,20%(25 個樣本)為驗證集,從而檢驗?zāi)P蛯Σ煌寥赖念A(yù)測效果。選取決定系數(shù)(R2)、均方根誤差(RMSE)和平均絕對誤差(MAE)評價模型精度,其中R2越接近1,RMSE 和MAE 越小,說明模型反演效果越好,精度越高[14,28]。
模型反演土壤含水量結(jié)果如圖4 所示,評價指標如表4 所示。對特定土壤單獨建模時,可以發(fā)現(xiàn)圖中各點均勻地分布在1∶1 線附近,預(yù)測值與實測值基本一致,模型訓(xùn)練集的R2在0.957~0.982 之間,RMSE 在0.770%~1.317%之間,MAE 在0.495%~1.112%之間,驗證集的R2在0.986~0.997 之間,RMSE在0.402%~0.911%之間,MAE 在0.339%~0.831%之間,各項評價指標均表現(xiàn)良好,表明模型的反演效果較好。同時可以看到模型預(yù)測不同質(zhì)地土壤含水量的精度差別不大,其中壤質(zhì)黏土和細砂土含水量的反演精度較高,R2分別為0.997 和0.994,RMSE分別為0.402%和0.523%,MAE分別為0.339%和0.407%;其次是粉砂質(zhì)黏土和粉砂質(zhì)壤土,R2均為0.991,RMSE 分別為0.895% 和0.911%, MAE分別為0.691% 和0.831%;對于粗砂土含水量的反演精度較低,R2為0.986,RMSE 和MAE 分別為0.843%和0.743%,結(jié)果表明支持向量機土壤含水量反演模型對5 種質(zhì)地土壤含水量反演效果均較好。對5種不同土壤統(tǒng)一建模時,可以看出因土壤質(zhì)地的影響導(dǎo)致模型的預(yù)測精度降低,訓(xùn)練集的R2為0.698,RMSE為3.468%,MAE 在為2.651%,驗證集的R2為0.749,RMSE 為3.885%,MAE 為2.865%,表明本研究建立的模型更適用于特定土壤的含水量反演。
圖4 模型反演土壤含水量結(jié)果Fig.4 The inversion results of soil water content by the model
表4 支持向量機土壤含水量反演模型評價指標Tab.4 Evaluation index of soil water content inversion model of support vector machine
表5為同類型研究提出的土壤含水量反演模型對比。刁萬英等[10]以壤土、紅壤和黑壤為研究對象,利用土壤圖像信息S和V建立了不同密度表層土壤含水量反演的的估算模型,R2在0.60~0.96 之間,RMSE 在3.00%~8.00%之間。Santos 等[18]對于不同顆粒組成的黏土和砂壤土分別建立了以土壤圖像特征參數(shù)為自變量的多元線性擬合模型預(yù)測土壤含水量,R2在0.73~0.90 之間,RMSE 在1.11%~3.29%之間。Persson[29]選擇S 與V之間的簡單線性回歸模型來估算均勻細砂和4 種棕壤的含水量,R2在0.93~0.99之間,RMSE在1.10%~2.60%之間。相比于多元線性模型,本研究基于手機圖像顏色特征參數(shù)R、V和DN構(gòu)建的支持向量機土壤含水量反演模型預(yù)測5 種不同質(zhì)地土壤的含水量的R2均大于0.98,更接近1,RMSE 和MAE 均小于0.92%,更接近0,說明本研究建立的土壤含水量反演模型預(yù)測值與實測值更接近,模型的預(yù)測精度和穩(wěn)定性更高,展示了支持向量機在手機圖像技術(shù)檢測土壤含水量的應(yīng)用優(yōu)勢。但是本文所建立的模型更適用于特定土壤質(zhì)地的含水量反演,今后可以從建模技術(shù)等方面開展相關(guān)研究來增強模型對不同土壤的適用性。另外,在圖像采集過程中,不同的手機及其參數(shù)設(shè)置會使圖像信息出現(xiàn)差異,本文僅研究了nova 5z 手機及其相機參數(shù),下一步將對不同的采集設(shè)備進行土壤含水量反演研究,從而提出圖像數(shù)據(jù)的采集標準。
表5 同類型研究的土壤含水量反演模型對比Tab.5 Comparison of soil water content inversion models for the same type of research
(1)利用手機圖像獲取的7種顏色特征參數(shù)與土壤含水量之間存在不同的非線性關(guān)系,R、G、B、V、H和DN與土壤含水量為負相關(guān)關(guān)系,S 與土壤含水量為正相關(guān)關(guān)系,且R、V和DN與土壤含水量的相關(guān)性較大。
(2)以R、V和DN 等3個參數(shù)進行組合作為輸入項并采用支持向量機方法構(gòu)建的土壤含水量反演模型用于室內(nèi)5種土壤的含水量預(yù)測時,R2在0.986~0.997 之間,RMSE 在0.402%~0.911%之間,MAE 在0.339%~0.831%之間,所建模型可實現(xiàn)對不同土壤的含水量反演。
(3)本研究構(gòu)建的支持向量機反演模型預(yù)測土壤含水量的R2均大于0.98,RMSE 和MAE 均小于0.92%,優(yōu)于同類型研究的多元線性反演模型預(yù)測土壤含水量的相應(yīng)值,即所建模型表現(xiàn)出更高的預(yù)測精度和穩(wěn)定性。本研究為獲取土壤含水量提供了一種快速便捷的新方法,后續(xù)還需在圖像采集設(shè)備和建模技術(shù)等方面展開研究以拓展模型的適用性。