郭鴻儒 馬燕 蒲克俊
摘要:本文利用多通道光譜模塊AS7263,收集與草坪相關(guān)地物的漫反射光譜數(shù)據(jù),經(jīng)歸一化處理,通過對訓(xùn)練數(shù)據(jù)進(jìn)行主成分分析和聚類分析,將數(shù)據(jù)分為4類,利用KNN算法對測試數(shù)據(jù)的進(jìn)行識別與分類。其中對植物、土壤、紅地磚和混凝土類的數(shù)據(jù)識別正確率分別為95.12%、87.05%、76.92%和90.67%。結(jié)果表明,多通道漫反射光譜結(jié)合KNN算法, 對于植物和地物的識別區(qū)分是可行的。
關(guān)鍵詞:多通道光譜,漫反射,K值近鄰算法(KNN),識別
作者簡介:郭鴻儒 (1981.3),男,甘肅蘭州,研究生, 高級工程師, 從事理化技術(shù)等方面研究。
資助項目:蘭州市人才創(chuàng)新創(chuàng)業(yè)項目“基于UWB定位系統(tǒng)的草坪智能割草機(jī)器人” (2018-RC-38)、甘肅省高等學(xué)校青年博士基金項目(2021QB-082)資助。
光譜技術(shù)以無損性、實(shí)時性等特點(diǎn),成為一種廣泛使用的的分析技術(shù)手段。利用地面的反射光譜特征來識別地面物體,已廣泛的應(yīng)用于遙感環(huán)境監(jiān)測等領(lǐng)域[1]。近年來,很多研究對農(nóng)作物,雜草、藥材等植物進(jìn)行識別區(qū)分,其中有些包含對環(huán)境物體的區(qū)分[2-6]。通過光譜數(shù)據(jù)結(jié)合模式識別和其它機(jī)器學(xué)習(xí)方法,可以提高地物的識別和分類的精度與效率[7]。但是,這些研究大多使用的是通用光譜分析儀器,如紅外分析儀器,高光譜儀等,不利于輕量化和微型化,難以進(jìn)行二次開發(fā),應(yīng)用范圍受到了極大地限制。光譜儀的進(jìn)一步小型化和集成化已成趨勢,出現(xiàn)了芯片級的光譜儀,其結(jié)構(gòu)的簡單性、便攜性、可靠性和低成本,拓展了其應(yīng)用的范圍,使得光譜技術(shù)的廣泛應(yīng)用成為可能[7]。
本文利用便攜式可見光-紅外多通道光譜模塊AS7263,設(shè)計了一款便攜的光譜數(shù)據(jù)采集裝置。通過收集一定波長草坪相關(guān)地物的漫反射光譜數(shù)據(jù),并分類建立草坪植物和環(huán)境地物的光譜反射模型,利用KNN算法進(jìn)行了識別和區(qū)分。
1 材料與方法
1.1 數(shù)據(jù)采集裝置
數(shù)據(jù)采集裝置由多通道光譜模塊AS7263、Arduino Nano單片機(jī)、藍(lán)牙模塊及鋰電池等,構(gòu)成一個便攜的光譜數(shù)據(jù)采集裝置,其結(jié)構(gòu)如圖1所示。艾邁斯半導(dǎo)體公司(ams)的AS7263多通道光譜傳感器,其將光干涉濾光片直接集成于CMOS硅芯片上,包含6個獨(dú)立的通道,其光譜響應(yīng)范圍約為610-860nm(分別是:610 nm、680nm、730nm、760nm、810 nm和860 nm),其半峰寬 (FWHM)為 20 nm,涵蓋部分可見光和近紅外(NIR)光譜,可用于可見光-近紅外光波長的光譜數(shù)據(jù)獲取。
數(shù)據(jù)采集裝置工作流程如下:AS7263傳感器采集光譜數(shù)據(jù)之后, Arduino Nano單片機(jī)通過 I2C 接口訪問傳感器相應(yīng)的寄存器獲取采集的數(shù)據(jù),單片機(jī)收到數(shù)據(jù)后,再經(jīng)過 USART(串口)將數(shù)據(jù)發(fā)送給藍(lán)牙模塊,由藍(lán)牙將數(shù)據(jù)發(fā)送給Android 手機(jī)App存貯,并進(jìn)一步進(jìn)行數(shù)據(jù)整理和分析。
1.2數(shù)據(jù)采集
草坪及地物光譜數(shù)據(jù)收集地點(diǎn)位于甘肅中醫(yī)藥大學(xué)和平校區(qū)校園內(nèi)。采集時間為2020年8月7日,中午12至14時,天氣晴天。數(shù)據(jù)采集時,傳感器面向地面,高度距離被采集物體上部5-10cm,并水平隨機(jī)移動收集漫反射數(shù)據(jù)。
采集樣本:草坪草、三葉草、土壤(干和濕)、混凝土地面,石質(zhì)地磚、濕地磚、石塊路面和紅色地磚等9類。每種樣本采集100至150組數(shù)據(jù)。共采集到1400組數(shù)據(jù)。
1.3 KNN算法和數(shù)據(jù)處理
KNN(K-Nearest Neighbors)算法又稱K值近鄰算法,它是模式識別和機(jī)器學(xué)習(xí)中常用的算法之一[8]。就是給定一個訓(xùn)練數(shù)據(jù)集,對新的輸入實(shí)例,從訓(xùn)練集中找到和新數(shù)據(jù)最接近的k條記錄,然后根據(jù)它們的主要分類來決定新數(shù)據(jù)的類別。該算法涉及3個主要因素:訓(xùn)練集、距離計算和k值的大小。
數(shù)據(jù)處理如下:將采集到的數(shù)據(jù)分為訓(xùn)練集和測試集兩部分,從各類別數(shù)據(jù)中,隨機(jī)選出20組數(shù)據(jù)作為訓(xùn)練集,數(shù)據(jù)剔除異常數(shù)據(jù)后,經(jīng)過歸一化處理,作為KNN分類模型,測試集數(shù)據(jù)用來測試和驗(yàn)證方法。數(shù)據(jù)經(jīng)過KNN算法計算與各個訓(xùn)練數(shù)據(jù)點(diǎn)的歐氏距離,將測試數(shù)據(jù)歸入距離最短的訓(xùn)練集類別。
主成分(PCA)和聚類分析使用SPSS軟件(版本v18.0)進(jìn)行分析。
2 結(jié)果與分析
2.1多通道光譜數(shù)據(jù)
從圖2為收集到的植物及地物的多通道漫反射光譜圖,草坪和三葉草的漫反射曲線在610nm,680nm可見光波段反射比較少,在近紅外波段760nm、810 nm和860 nm反射率急劇上升,形成了植物特有的“紅邊”特征譜圖,這與其它地物在可見光和近紅外波段反射有比較明顯的差別。其它地物的漫反射曲線變化較為緩和,且曲線間波動差異較小。通過分析光譜曲線的差異將植物和其它地物的漫反射光譜區(qū)分開。
為了進(jìn)一步研究光譜間的相關(guān)性,用主成分(PCA)方法和聚類方法分析變量之間的關(guān)系,結(jié)果如圖3所示。PCA方法通過對數(shù)據(jù)多通道數(shù)據(jù)進(jìn)行降維,選取主要的兩個主成分(PC1,PC2)得到PCA載荷圖。主成分分析的9組數(shù)據(jù)均為模型數(shù)據(jù)的平均值。從圖3(左)中可以看出:濕土壤和干土壤為一類,分布在第一象限;紅地磚單獨(dú)分布在第三象限,為一類;混凝土地面、濕地磚、石地磚和石塊路面、分布在第二象限,為一類;草地和三葉草為一類,分布在第四象限。聚類分析選用的聚類計算方法為近鄰方法,聚類分析結(jié)果如圖3(右)所示,結(jié)果表明:草地、三葉草聚為一類;紅地磚單獨(dú)為一類;濕土壤、干土壤和石塊路面聚為一類,濕地磚、石地磚和混凝土地面,聚為一類。根據(jù)PCA和聚類分析結(jié)果,將訓(xùn)練數(shù)據(jù)歸為四類,植物類、土壤類、紅地磚類和混凝土類。
2.2 KNN算法的結(jié)果
以上述4類訓(xùn)練數(shù)據(jù)為KNN算法識別模型,對收集到的草地以及其它相關(guān)地物的漫反射測試數(shù)據(jù)進(jìn)行識別與分類,統(tǒng)計各類數(shù)據(jù)的識別正確率。算法中k值對識別率的影響較大,根據(jù)k值的選擇原則,避免過擬合的現(xiàn)象,盡量選擇k值較?。ㄒ话銥槠鏀?shù))。通過優(yōu)化和綜合考慮,本文選用k值為3。
KNN識別率的結(jié)果如圖4所示,可以看出,對于植物類識別能力較高,識別率達(dá)到95.12%,對于土壤類的識別率為87.05%,對于紅色地磚的識別率只有76.92%,對于混凝土、石塊等和混合類的識別率為90.67%。從結(jié)果可以看出,通過KNN算法識別,對于植物類識別能力較高,可將植物類和其它類別進(jìn)行區(qū)分。對于其它3類,土壤類、紅地磚類和混凝土類的識別和區(qū)分能力相對較弱,存在相互識別錯誤的情況,區(qū)分能力較低。對于混凝土類中尤其是混凝土、石塊、地磚等地物,由于其組成成分多為混合物,還受地面塵土等環(huán)境因素的影響,造成表面漫反射光譜數(shù)據(jù)相互干擾,波動范圍較大,識別率較低。
3 討論
本文采集到的草坪地物數(shù)據(jù)中,植物的漫反射光譜數(shù)據(jù)與其它地物在可見光和近紅外波段有比較明顯的差別,其中包含了植物部分漫反射特征光譜。因此,通過識別該特征數(shù)據(jù)可以將植物和其它地物數(shù)據(jù)區(qū)分開。但是,對于地面其它類型的地物識別率較低,對土壤、混凝土、石塊地磚等識別率較低??赡芘c環(huán)境物體其組成成分復(fù)雜、多為混合物,且分布不均勻、地面塵土等環(huán)境影響因素有關(guān)。此外,實(shí)驗(yàn)以太陽光作為光源,光譜會受采集地理位置、氣象條件等因素的影響。進(jìn)一步提高其它地物區(qū)分能力,需要更多的特征波長信息和進(jìn)一步的環(huán)境影響因素研究。
參考文獻(xiàn)
[1] 胡盈盈, 王瑞燕, 郭鵬濤,等. 基于近地光譜特征的玉米田間雜草識別研究[J]. 江蘇農(nóng)業(yè)科學(xué), 2020, 048(008):242-246.
[2] 許岳飛, 金晶煒, 孫小玲,等. 基于反射光譜技術(shù)評價草坪質(zhì)量模型的研究[J]. 草業(yè)學(xué)報, 2009, 18(004):256-259.
[3]李穎. 基于SVM的地面成像光譜數(shù)據(jù)田間雜草識別研究[J]. 遙感信息, 2014, 29(001):40-43,50.
[4]李嬋, 王俊杰, 鄔國鋒,等. 基于葉片光譜特征的農(nóng)業(yè)區(qū)域植物分類[J]. 深圳大學(xué)學(xué)報(理工版), 2018(3):307-315.
[5] 徐馳, 陳功, 楊紅麗,等. 不同草坪草冠層反射光譜特征的比較研究[J]. 草原與草坪, 2010(02):62-65.
[6] 王勝, 常智慧, 韓烈保. 光譜反射在草坪草脅迫研究中的應(yīng)用及前景[J]. 中國農(nóng)學(xué)通報, 2012, 28(16).
[7] 王偉平, 金里. 芯片級硅基光譜儀研究進(jìn)展[J]. 光譜學(xué)與光譜分析, 2020, v.40(02):7-16.
[8] 何晨陽,周孟然, 閆鵬程. KNN結(jié)合PCA在激光誘導(dǎo)熒光光譜識別礦井突水中的應(yīng)用[J]. 光譜學(xué)與光譜分析,2016,36(7):2234-2237.