摘要:構(gòu)建植被覆蓋度模型是運(yùn)用數(shù)學(xué)算法對(duì)作物群體監(jiān)控系統(tǒng)中采集的數(shù)據(jù)進(jìn)行處理的一種數(shù)學(xué)方法,常用的構(gòu)建模型主要有KNN、樸素貝葉斯、Kmeans等。介紹3種模型在提取植被覆蓋度運(yùn)用的相關(guān)理論,以期為作物群體監(jiān)控系統(tǒng)應(yīng)用提供算法基礎(chǔ)。
關(guān)鍵詞:植被覆蓋度;構(gòu)建模型;KNN;樸素貝葉斯;Kmeans
中圖分類號(hào):TP183 ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ?文章編號(hào):1674-1161(2023)03-0038-02
在電子信息技術(shù)飛速發(fā)展的背景下,作物群體監(jiān)控系統(tǒng)成為當(dāng)下農(nóng)業(yè)科研的熱點(diǎn),該系統(tǒng)可以服務(wù)精細(xì)化農(nóng)業(yè),準(zhǔn)確了解作物生長狀況,實(shí)現(xiàn)對(duì)作物生長發(fā)育的控制,對(duì)提高作物產(chǎn)量和質(zhì)量具有重要意義[1]。作物群體監(jiān)控系統(tǒng)主要通過無人機(jī)搭載高光譜成像設(shè)備采集水稻圖像數(shù)據(jù),截取部分圖像進(jìn)行預(yù)處理、樣本擴(kuò)展庫構(gòu)建和圖像分割,最后構(gòu)建植被覆蓋度模型。構(gòu)建植被覆蓋度模型是運(yùn)用數(shù)學(xué)算法對(duì)作物群體監(jiān)控系統(tǒng)中采集的數(shù)據(jù)進(jìn)行處理的一種數(shù)學(xué)方法,常用的構(gòu)建模型主要有KNN、樸素貝葉斯、Kmeans等。介紹3種模型在提取植被覆蓋度運(yùn)用的相關(guān)理論,以期為作物群體監(jiān)控系統(tǒng)應(yīng)用提供算法基礎(chǔ)。
1 KNN模型構(gòu)建
KNN訓(xùn)練算法是一種基本的實(shí)例分類訓(xùn)練算法。該算法假設(shè)已成功給定了一個(gè)被稱為分類訓(xùn)練且類別已確定的實(shí)例數(shù)據(jù)集,在實(shí)例分類時(shí)新加入一個(gè)實(shí)例,依照其中k個(gè)最近相鄰的訓(xùn)練學(xué)習(xí)實(shí)例類別,通過多數(shù)實(shí)例組合進(jìn)行表決等多種手段,對(duì)其類型進(jìn)行綜合預(yù)測。因此,KNN算法并沒有必要提供顯式的自動(dòng)機(jī)器深度學(xué)習(xí)計(jì)算過程,它實(shí)際上是利用訓(xùn)練數(shù)據(jù)集對(duì)特征向量空間進(jìn)行劃分,并作為其分類模型[2]。
1.1 KNN算法原理
KNN數(shù)值模型的3個(gè)重要基礎(chǔ)性設(shè)計(jì)要素分別是k值的正確選取、距離值的衡量及分類決策準(zhǔn)則。當(dāng)k值三要素均已確定時(shí),對(duì)于任何新的輸入實(shí)例,其所屬的類都是唯一可以被確定的,即可以依照要素把特征空間分割成幾組子空間,確定各子空間中每一點(diǎn)都所屬的子空間類。
1.2 基于KNN距離度量
在一個(gè)特征數(shù)據(jù)空間中兩個(gè)不同實(shí)例的點(diǎn)之間的數(shù)據(jù)距離值,也就是兩個(gè)不同實(shí)例的點(diǎn)之間的數(shù)據(jù)相似性不同程度的反映。例如,KNN模型的向量特征實(shí)數(shù)空間為三維的向量實(shí)數(shù)空間時(shí),使用的空間距離計(jì)算公式為歐式空間距離,其距離公式為
[L2(xi,xj)=(l=13|x(l)i-x(l)j|2)12] ? ? ? ? ? ? ? ?(1)
1.3 k值的選擇
k值不同,KNN模型得到的結(jié)果也會(huì)有很大差異。當(dāng)給定的k值較小時(shí),相當(dāng)于使用較小的鄰域中輸入訓(xùn)練過程實(shí)例的值來對(duì)其結(jié)果進(jìn)行模擬預(yù)測,學(xué)習(xí)時(shí)的近似和模擬誤差也同樣會(huì)逐漸減小,只有和輸入的一個(gè)訓(xùn)練過程實(shí)例較近的一個(gè)輸入訓(xùn)練過的實(shí)例,才真正能夠?qū)ξ覀冾A(yù)測的學(xué)習(xí)結(jié)果有效。k值降低代表著整個(gè)系統(tǒng)模型的擬合設(shè)置過程變得更加復(fù)雜,極易產(chǎn)生過擬合現(xiàn)象。當(dāng)給定的k值較大時(shí),相當(dāng)于對(duì)較大鄰域內(nèi)部智能訓(xùn)練過程實(shí)例的一個(gè)數(shù)據(jù)模型進(jìn)行了數(shù)值預(yù)測,此時(shí)的優(yōu)點(diǎn)是可以大幅降低根據(jù)學(xué)習(xí)公式估算時(shí)的誤差,缺點(diǎn)是根據(jù)學(xué)習(xí)公式估算的近似度和誤差將會(huì)逐漸加大。k值增大意味著整個(gè)模型中的整體設(shè)計(jì)變得更加簡單。
1.4 KNN模型構(gòu)建過程
1) 計(jì)算每個(gè)已分好類的點(diǎn)與待測點(diǎn)的歐式距離;2) 把各點(diǎn)到待測點(diǎn)的距離按從小到大進(jìn)行排序;3) 根據(jù)給定的k值選擇距離最小的k個(gè)點(diǎn);4) 觀察k個(gè)點(diǎn)所代表類別的各自出現(xiàn)次數(shù);5) 取出出現(xiàn)次數(shù)最多的點(diǎn)的類別,并把待測點(diǎn)歸為這一類別。
2 樸素貝葉斯模型構(gòu)建
樸素貝葉斯模型是基于貝葉斯定理及其樸素特征符合條件的幾個(gè)獨(dú)立基本假設(shè)而逐步提出來的。該屬性計(jì)算簡化方法以貝葉斯算法模型為理論基礎(chǔ),對(duì)屬性彼此獨(dú)立的計(jì)算目標(biāo)和取值函數(shù)進(jìn)行簡化,沒有任何一個(gè)屬性變量對(duì)其所需占據(jù)的決策過程結(jié)果的影響比重很大,也沒有任何一個(gè)屬性變量對(duì)它所需要占據(jù)的決策過程結(jié)果的影響比重很小。
2.1 構(gòu)建算法
對(duì)于給定的訓(xùn)練數(shù)據(jù)集,首先做出條件獨(dú)立的假設(shè),得到輸入和輸出的聯(lián)合概率分布;然后在此模型基礎(chǔ)上給出輸入x,利用貝葉斯定理求出后每個(gè)分類的后驗(yàn)概率,選出其中最大者作為輸出y[3]。
樸素貝葉斯方法主要是通過對(duì)聯(lián)合訓(xùn)練的多個(gè)數(shù)據(jù)模型進(jìn)行聯(lián)合學(xué)習(xí)分析來幫助理解的一種聯(lián)合概率分布方法。先驗(yàn)概率分布
P(Y = ck) , k = 1,2,...,K ? ? ? ? ? ? ? ? ?(2)
條件概率分布
P(X=x|Y=ck)=P(X(1)=x(1), ... ,X(n)=x(n)|Y=ck ),k=1,
2,...,K ? ?(3)
樸素貝葉斯法就條件概率分布公式做出了保持條件概率獨(dú)立性的基本假設(shè),這種算法其實(shí)是比較強(qiáng)烈的數(shù)學(xué)假說,樸素貝葉斯法因之得名。具體來說,條件獨(dú)立性可以用一種假設(shè)性來表示
P(X=x|Y=ck)=P(X(1)=x(1), ... ,X(n)=x(n)|Y=ck )
=ΠP(X(j)=x(j)|Y=ck) ? ? ? (4)
樸素貝葉斯分類時(shí),對(duì)給定的輸入x,通過這個(gè)學(xué)習(xí)過程得到的樸素模型可用來直接計(jì)算后驗(yàn)概率分布P(Y=ck|X=x),將后驗(yàn)概率最大的類作為x的類輸出。
2.2 樸素貝葉斯分類流程
2.2.1 準(zhǔn)備工作階段 根據(jù)具體情況確定特征屬性并適當(dāng)劃分,再由人工將待分類項(xiàng)分類,形成訓(xùn)練樣本集合。準(zhǔn)備工作流程是該方法唯一通過人工分類的流程,對(duì)后續(xù)樣本分類質(zhì)量起到至關(guān)重要的作用
2.2.2 分類器訓(xùn)練階段 將特征屬性和訓(xùn)練樣本輸入,根據(jù)輸入數(shù)據(jù)計(jì)算每個(gè)特征屬性劃分對(duì)每個(gè)類別的條件概率預(yù)估以及每個(gè)類別在訓(xùn)練樣本中出現(xiàn)的頻率,記錄并輸出分類器。
2.2.3 應(yīng)用階段 應(yīng)用第二階段分類器對(duì)待分類項(xiàng)分類,輸出待分類項(xiàng)和類別的映射關(guān)系。
3 Kmeans模型構(gòu)建
Kmeans是一種非監(jiān)督學(xué)習(xí)、面向聚類函數(shù)的算法,其算法設(shè)計(jì)思路是當(dāng)k被賦予特定值、使用原始群集中心點(diǎn)時(shí),每個(gè)點(diǎn)(或數(shù)據(jù)記錄)將被劃分為離其最近群集中心所代表的群集。定義所有群體類集中的中心點(diǎn)后,再次遍歷所有的點(diǎn),計(jì)算下一次聚類中心(就是取點(diǎn)的平均值),然后對(duì)其他點(diǎn)進(jìn)行一個(gè)替換點(diǎn)并分配中心點(diǎn)和迭換替代點(diǎn)并更新一個(gè)群集內(nèi)的所有點(diǎn)的替換步驟,直到1 個(gè)群集內(nèi)所有點(diǎn)的變化很小或能重新達(dá)到指定的迭代次數(shù)[4]。
3.1 算法流程
1) 鑒于k值未知,故先給定k值,即聚類后得到的k個(gè)簇;2) 遍歷所有數(shù)據(jù),在其中隨機(jī)選中k個(gè)數(shù)據(jù)點(diǎn)作為聚類中心點(diǎn),即每個(gè)簇的中心;3) 通過計(jì)算每個(gè)點(diǎn)與聚類中心點(diǎn)的歐式距離,比較所有距離的大小,取最小距離并將點(diǎn)歸入此集合內(nèi);4) 把所有數(shù)據(jù)回歸到最優(yōu)集合(包含 k 個(gè)集合),對(duì)各集合重新求解,再對(duì)其中的質(zhì)心進(jìn)行求解;5) 如果計(jì)算聚類得到的質(zhì)心與原始質(zhì)心之間穩(wěn)定距離遠(yuǎn)遠(yuǎn)小于某個(gè)點(diǎn)設(shè)置的質(zhì)心閾值,則意味著重新計(jì)算的質(zhì)心在此位置上已變化不大且趨于穩(wěn)定(稱為收斂),此時(shí)可直接確定該質(zhì)心聚類已達(dá)到期望的閾值結(jié)果,算法可能會(huì)被自動(dòng)終止;6) 若新的聚類中心點(diǎn)與原來的中心點(diǎn)之間距離變化很大,則需替換3~5 個(gè)步驟。
3.2 數(shù)學(xué)原理
將Kmeans算法原理用數(shù)學(xué)公式表示:假設(shè)集合劃分成k個(gè),標(biāo)記為(C1,C2,...CK),則得到的最小化平方誤差E為
[E=i=1kx∈Ci||x-μi||22] ? ? ? ? ? ? ? ? ? ? ? ? (5)
式中,μi是集合Ci的平方均值向量,也稱為質(zhì)心,其表示方法為:
[μi=1Cix∈Cix] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(6)
優(yōu)點(diǎn):1) Kmeans是最簡單的聚類算法,實(shí)現(xiàn)起來較為容易且速度較快;2) 當(dāng)聚類得到的集合均較密集且每個(gè)集合之間的差異較大,則該模型實(shí)現(xiàn)得較好;3) 該算法需確定的參數(shù)很少,只有集合個(gè)數(shù)k值。
缺點(diǎn):1) k值未知,需人為設(shè)定,但通常情況下確定k值很難;2) Kmeans聚類算法對(duì)聚類開始的中心點(diǎn)選取要求很高,不同隨機(jī)點(diǎn)直接獲得的初始聚類選擇結(jié)果截然不同,故對(duì)其聚類結(jié)果產(chǎn)生極大影響;3) 通過迭代方式得到的解,有極大可能會(huì)得到局部最優(yōu)解,但無法得到全局最優(yōu)解,從而為模型構(gòu)建帶來很大誤差,影響真實(shí)效果。
參考文獻(xiàn)
[1] 呂霞,馬向陽,冮地,等.基于水稻群體監(jiān)控系統(tǒng)的植被覆蓋度模型對(duì)比研究[J].農(nóng)業(yè)科技與裝備,2022(1):47-48.
[2] 劉文斌,張樂.基于KNN的卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)算法[J].信息與電腦(理論版),2019(2):48-49.
[3] 李濤.多源傳感器數(shù)據(jù)融合及其在目標(biāo)檢測中的應(yīng)用[D].成都:電子科技大學(xué),2015.
[4] 鐘穗希,李子波,唐榮年.基于PCA-Kmeans聚類法的橡膠樹葉片氮含量的近紅外高光譜診斷模型研究[J].海南大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,38(3):260-269.
Theoretical Research on the Construction of Three Planting Coverage Models
L? Xia
(Liaoning Institute of Agricultural Mechanization, Shenyang 110161, China)
Abstract: The construction of vegetation coverage model is a mathematical method that uses mathematical algorithms to process the data collected in crop population monitoring system. The commonly used construction models mainly include KNN, Naive Bayes, Kmeans, etc. This paper introduced the relevant theories of the application of the three models in the extraction of vegetation coverage, so as to provide the algorithm basis for the application of crop population monitoring system.
Key words: vegetation coverage; construct model; KNN; Naive Bayes; Kmeans