基于DBSCAN和BP_Adaboost的農(nóng)機(jī)作業(yè)地塊劃分方法

2023-03-07 07:20李亞碩王長偉徐名漢偉利國龐在溪

農(nóng)業(yè)機(jī)械學(xué)報 2023年1期

李亞碩趙博王長偉徐名漢偉利國龐在溪

(1.中國農(nóng)業(yè)機(jī)械化科學(xué)研究院集團(tuán)有限公司，北京 100083；2.土壤植物機(jī)器系統(tǒng)技術(shù)國家重點(diǎn)實(shí)驗室，北京 100083)

0 引言

隨著農(nóng)業(yè)機(jī)械化作業(yè)的普遍推廣、農(nóng)業(yè)機(jī)械化水平的提升，物聯(lián)網(wǎng)技術(shù)在農(nóng)機(jī)生產(chǎn)管理中的作用日益突出。目前，通過機(jī)載物聯(lián)網(wǎng)設(shè)備和無線通信技術(shù)，監(jiān)管人員可以實(shí)時獲取農(nóng)機(jī)作業(yè)位置、作業(yè)狀態(tài)和作業(yè)效率，并通過監(jiān)管平臺進(jìn)行任務(wù)分配和補(bǔ)貼結(jié)算等，滿足了農(nóng)機(jī)監(jiān)管部門和農(nóng)機(jī)合作社管理人員對所屬農(nóng)機(jī)的實(shí)時監(jiān)管和作業(yè)規(guī)劃需求[1-4]。農(nóng)機(jī)管理人員按時間或工作量給機(jī)手發(fā)放工資，按地塊面積向農(nóng)戶收取費(fèi)用或向相關(guān)部門申請補(bǔ)貼，因此地塊的精準(zhǔn)劃分是工資發(fā)放、費(fèi)用收取、補(bǔ)貼申請、面積計算、效率評估等的基礎(chǔ)。深松作業(yè)可以根據(jù)深松機(jī)入土深度判斷是否在田間作業(yè)，但其它如收獲、植保、打捆等作業(yè)難以根據(jù)機(jī)載傳感器判斷作業(yè)狀態(tài)。無法強(qiáng)制農(nóng)機(jī)駕駛員只在田間才打開機(jī)載設(shè)備，其他時間關(guān)閉設(shè)備。因此需要根據(jù)得到的軌跡點(diǎn)信息自動判斷農(nóng)機(jī)軌跡點(diǎn)狀態(tài)和劃分地塊。

使用機(jī)載定位設(shè)備可以記錄作業(yè)軌跡信息，實(shí)時發(fā)送后端處理，得到行駛軌跡和作業(yè)分布。根據(jù)上傳的農(nóng)機(jī)行駛軌跡，可在監(jiān)管平臺的地圖中人工劃分地塊。但一臺農(nóng)機(jī)每天作業(yè)多個地塊，每天多臺農(nóng)機(jī)同時作業(yè)，一個作業(yè)季的地塊數(shù)量非常多，人工劃分耗時耗力，并且由于地圖精度問題，人工標(biāo)記邊界容易出現(xiàn)誤差。

地塊劃分的前提是農(nóng)機(jī)軌跡點(diǎn)狀態(tài)的確定。目前，軌跡點(diǎn)數(shù)據(jù)處理多采用聚類算法，根據(jù)軌跡點(diǎn)聚簇判斷狀態(tài)和劃分地塊。田間作業(yè)軌跡點(diǎn)密集，道路行駛軌跡點(diǎn)稀疏，利用這一特點(diǎn)通過DBSCAN聚類的方法區(qū)分田間作業(yè)和道路行駛軌跡[5-6]。但聚類方法的鄰域半徑和鄰域點(diǎn)數(shù)不易確定，不同農(nóng)機(jī)、不同地形作業(yè)軌跡相差很大。有研究人員利用時空信息對軌跡進(jìn)行密度聚類[7-9]，由于軌跡點(diǎn)具有時序性，將時間作為聚類信息對準(zhǔn)確率的提升作用不大。利用空間索引和網(wǎng)格密度聚類[10-11]，有效提升了運(yùn)行速度，但網(wǎng)格尺寸和密度閾值參數(shù)敏感。盡管聚類方法對農(nóng)機(jī)田間作業(yè)軌跡效果較好，但對道路轉(zhuǎn)移行駛軌跡容易誤識別，因此單純依靠聚類方法，很難提升農(nóng)機(jī)軌跡點(diǎn)狀態(tài)識別率。

根據(jù)軌跡點(diǎn)單個特征設(shè)定閾值，容易遺漏深層的內(nèi)部相互關(guān)系。依靠神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法進(jìn)行訓(xùn)練，在多維特征組成的高維空間尋找有效的內(nèi)部關(guān)聯(lián)性，進(jìn)而有效識別農(nóng)機(jī)軌跡點(diǎn)狀態(tài)，再根據(jù)時序關(guān)系劃分地塊。但訓(xùn)練樣本的標(biāo)記耗時太大，并且有新農(nóng)機(jī)作業(yè)軌跡識別需要重新標(biāo)記訓(xùn)練，推廣性不強(qiáng)。

本文結(jié)合農(nóng)機(jī)空間運(yùn)行軌跡的特點(diǎn)，選擇農(nóng)機(jī)軌跡點(diǎn)經(jīng)度、緯度、速度、近鄰點(diǎn)相互關(guān)系等作為特征，先用DBSCAN算法進(jìn)行聚類，得到初步的聚類結(jié)果和類別標(biāo)記；利用BP_Adaboost算法對軌跡點(diǎn)進(jìn)行訓(xùn)練和識別；將田間與道路交界處附近軌跡點(diǎn)標(biāo)記為道路軌跡并添加到訓(xùn)練樣本中重復(fù)訓(xùn)練，直至訓(xùn)練樣本無新增。以期解決海量數(shù)據(jù)標(biāo)記困難、不同地塊軌跡差異大、田間與道路交界處軌跡點(diǎn)易誤識別等問題。

1 農(nóng)機(jī)作業(yè)地塊劃分

通過安裝在農(nóng)機(jī)上的北斗定位接收裝置自動記錄農(nóng)機(jī)運(yùn)行全過程軌跡，獲取農(nóng)機(jī)經(jīng)緯度位置信息、速度信息等。農(nóng)機(jī)在行進(jìn)和停車時，機(jī)載定位設(shè)備都會發(fā)送位置信息，因此，農(nóng)機(jī)行駛軌跡點(diǎn)分道路行駛軌跡點(diǎn)、田間作業(yè)軌跡點(diǎn)和停車點(diǎn)。農(nóng)機(jī)從車庫行駛至目的地塊以及在兩地塊間轉(zhuǎn)移時，一般沿道路單向行駛，速度較快，軌跡點(diǎn)稀疏；在田間作業(yè)時，在地塊內(nèi)往返行駛，速度偏慢，軌跡點(diǎn)密集；當(dāng)農(nóng)機(jī)因故停車時，軌跡點(diǎn)以農(nóng)機(jī)為中心，在小范圍內(nèi)呈散點(diǎn)簇分布。劃分地塊的依據(jù)是區(qū)分田間作業(yè)軌跡點(diǎn)和道路行駛軌跡點(diǎn)，因此需先處理停車點(diǎn)和其他干擾軌跡點(diǎn)。再根據(jù)農(nóng)機(jī)軌跡點(diǎn)的特性，對不同軌跡點(diǎn)信息進(jìn)行分析試驗，選取有用特征。

1.1 數(shù)據(jù)預(yù)處理

由于定位精度原因，農(nóng)機(jī)在停車時，軌跡點(diǎn)不是集中在一個點(diǎn)，而是散落在農(nóng)機(jī)附近小范圍內(nèi)，稱為農(nóng)機(jī)停車散點(diǎn)，速度為0或者很小值。當(dāng)定位偏差過大或者設(shè)備故障導(dǎo)致多個軌跡點(diǎn)未發(fā)送時，連續(xù)接收到的兩點(diǎn)間距過大，稱為漂移點(diǎn)。停車散點(diǎn)和漂移點(diǎn)如圖1所示。

圖1 停車散點(diǎn)和漂移點(diǎn)Fig.1 Parking scatter and drift point

有效農(nóng)機(jī)行駛軌跡點(diǎn)是道路行駛軌跡點(diǎn)和田間作業(yè)軌跡點(diǎn)，農(nóng)機(jī)停車散點(diǎn)和漂移點(diǎn)會影響軌跡狀態(tài)識別，在數(shù)據(jù)處理前應(yīng)去除。為保持圖像數(shù)據(jù)完整性，本文在數(shù)據(jù)處理時不計算停車散點(diǎn)和漂移點(diǎn)，在地圖中，將這兩類點(diǎn)標(biāo)記為道路行駛點(diǎn)。為了防止將田間作業(yè)過程中臨時停車軌跡點(diǎn)誤刪除，停車散點(diǎn)判斷依據(jù)設(shè)置為：連續(xù)很多點(diǎn)的速度小于某一閾值。將漂移點(diǎn)的上一軌跡點(diǎn)作為前段軌跡終點(diǎn)，下一軌跡點(diǎn)作為下段軌跡起點(diǎn)。

由于采集器故障、信號差、斷電等原因，會造成連續(xù)兩軌跡點(diǎn)之間間隔很遠(yuǎn)。當(dāng)某一軌跡點(diǎn)與前一軌跡點(diǎn)距離較大，而與下一軌跡點(diǎn)間隔正常時，認(rèn)為兩軌跡點(diǎn)之間存在軌跡點(diǎn)丟失。將上一軌跡點(diǎn)作為前段軌跡終點(diǎn)，下一軌跡點(diǎn)作為下段軌跡起點(diǎn)。

1.2 特征選取

農(nóng)機(jī)行駛軌跡點(diǎn)包含時間、經(jīng)緯度、速度等信息，農(nóng)機(jī)田間作業(yè)軌跡和道路行駛軌跡交叉，依據(jù)軌跡點(diǎn)屬性信息，可利用閾值設(shè)定、聚類、分類等方法區(qū)分軌跡點(diǎn)狀態(tài)，找到有效的屬性信息是取得理想效果的前提。圖2為軌跡點(diǎn)近鄰點(diǎn)數(shù)差異圖，其中近鄰區(qū)域半徑為當(dāng)日軌跡點(diǎn)平均距離的3倍。

圖2 軌跡點(diǎn)近鄰點(diǎn)數(shù)差異柱狀圖Fig.2 Histogram of difference in number of adjacent points of track points

以軌跡點(diǎn)為中心、以r為半徑的圓范圍內(nèi)近鄰軌跡點(diǎn)的個數(shù)，田間作業(yè)軌跡點(diǎn)多于道路行駛軌跡點(diǎn)。研究發(fā)現(xiàn)，當(dāng)r為每天農(nóng)機(jī)作業(yè)軌跡點(diǎn)平均距離3倍時，田間作業(yè)軌跡點(diǎn)和道路行駛軌跡點(diǎn)在r范圍內(nèi)的近鄰點(diǎn)數(shù)量區(qū)分性最好。當(dāng)r過小時，田間作業(yè)軌跡點(diǎn)近鄰點(diǎn)數(shù)量急劇下降，當(dāng)r過大時，道路行駛軌跡點(diǎn)近鄰點(diǎn)數(shù)量增加，都會造成兩類軌跡點(diǎn)近鄰點(diǎn)數(shù)量重合部分增加。如圖2所示，田間作業(yè)軌跡點(diǎn)周圍軌跡點(diǎn)數(shù)量集中在7～9個之間，道路行駛軌跡點(diǎn)周圍軌跡點(diǎn)數(shù)量集中在4～6個之間，有較好的區(qū)分性。因此該特征可以用于判斷軌跡點(diǎn)狀態(tài)。以速度和近鄰點(diǎn)平均距離等為特征，不同狀態(tài)軌跡點(diǎn)分布如圖3所示。

圖3 不同特征下軌跡點(diǎn)分布Fig.3 Distribution of trajectory points under different characteristics

由圖3可以看出，田間作業(yè)軌跡點(diǎn)速度慢且與附近點(diǎn)距離小，雖然有一定的區(qū)分性，但是重疊交叉部分也很多，依靠某一、兩個特征難以達(dá)到預(yù)期效果。在一定半徑范圍內(nèi)，田間作業(yè)軌跡點(diǎn)附近軌跡點(diǎn)數(shù)要多于道路行駛軌跡點(diǎn)附近軌跡點(diǎn)數(shù)。當(dāng)選用速度、近鄰點(diǎn)數(shù)和近鄰點(diǎn)平均距離作為特征時，軌跡點(diǎn)分布如圖3c所示，雖然仍有部分重疊，但區(qū)分性較單個特征要好。在多特征組成的高維空間內(nèi)，田間作業(yè)軌跡點(diǎn)和道路行駛軌跡點(diǎn)更具區(qū)分性。但單純依靠閾值作為判斷依據(jù)，普適性不強(qiáng)，且閾值不易確定。應(yīng)在有效特征選取的基礎(chǔ)上，自學(xué)習(xí)內(nèi)部關(guān)聯(lián)性，進(jìn)而判斷軌跡點(diǎn)狀態(tài)。

本研究選取軌跡點(diǎn)經(jīng)緯度、速度、近鄰點(diǎn)平均距離、近鄰點(diǎn)數(shù)、軌跡點(diǎn)與近鄰點(diǎn)距離作為特征，利用BP_Adaboost訓(xùn)練模型識別軌跡點(diǎn)狀態(tài)。樣本標(biāo)記工作量過大，先利用DBSCAN聚類方法得到初步類別標(biāo)記，再進(jìn)行訓(xùn)練。

1.3 DBSCAN聚類

密度聚類算法[12-14]假設(shè)聚類結(jié)構(gòu)能通過樣本分布的緊密程度確定，從樣本密度的角度來考察樣本之間的可連接性，并基于可連接樣本不斷擴(kuò)展聚類簇以獲得最終的聚類結(jié)果。農(nóng)機(jī)田間作業(yè)軌跡點(diǎn)緊密，道路行駛軌跡點(diǎn)稀疏，利用密度聚類方法不僅可以區(qū)分田間作業(yè)軌跡和道路行駛軌跡，還可以將不同地塊的軌跡點(diǎn)聚為不同類。DBSCAN基于“鄰域”參數(shù)(ε，NminPts)來判斷軌跡點(diǎn)數(shù)據(jù)的緊密程度，ε為以每個軌跡點(diǎn)為中心的長度范圍，NminPts是軌跡點(diǎn)要成為一個簇中心，周圍軌跡點(diǎn)距離小于ε的最少個數(shù)。DBSCAN可以去除噪聲點(diǎn)，并且不必提前規(guī)定聚類個數(shù)，聚類步驟如下：

(1)從數(shù)據(jù)集中任意選取一個軌跡點(diǎn)p。

(2)如果對于參數(shù)ε和NminPts，選一個軌跡點(diǎn)p，找到所有密度可達(dá)的核心對象，生成聚類簇。

(3)如果選取的軌跡點(diǎn)p是邊緣點(diǎn)，選取另一個軌跡點(diǎn)。

(4)重復(fù)步驟(2)、(3)，直到所有軌跡點(diǎn)被處理。

農(nóng)機(jī)道路行駛軌跡一般為單向，田間作業(yè)為往返行駛，具有明顯的區(qū)分性，因此DBSCAN方法對這種軌跡狀態(tài)區(qū)分有不錯的效果。但部分道路區(qū)段由于農(nóng)機(jī)折返行駛、轉(zhuǎn)向、減速等原因?qū)е萝壽E點(diǎn)密度變大，使該處軌跡被誤識別為田間作業(yè)軌跡。不同農(nóng)機(jī)行駛速度和軌跡不同，田間作業(yè)軌跡間隔也不同，DBSCAN算法對于輸入?yún)?shù)ε和NminPts是敏感的，使用固定的ε和NminPts不能很好解決所有農(nóng)機(jī)軌跡狀態(tài)識別問題。

1.4 類別不平衡處理

利用分類器訓(xùn)練模型，再對軌跡點(diǎn)進(jìn)行識別，可以避免聚類算法中ε和NminPts不易確定的問題。但在農(nóng)機(jī)行駛軌跡中，田間作業(yè)軌跡點(diǎn)數(shù)量要遠(yuǎn)多于道路行駛軌跡點(diǎn)數(shù)量，特別情況下比例可達(dá)10∶1。用同樣數(shù)量田間作業(yè)軌跡點(diǎn)數(shù)據(jù)進(jìn)行訓(xùn)練，樣本數(shù)量不足；田間作業(yè)軌跡點(diǎn)選用過多，會造成類別不平衡，都影響識別準(zhǔn)確率，因此需要增加道路行駛軌跡點(diǎn)數(shù)據(jù)量。SMOTE算法[15-17]是在少數(shù)類樣本和其近鄰的少數(shù)類樣本之間進(jìn)行隨機(jī)線性插值生成新樣本，來達(dá)到平衡數(shù)據(jù)集的目的。算法原理如下：

(1)對于每一個少數(shù)類樣本Xi(i=1,2,…，n)，根據(jù)歐氏距離計算出最近鄰的k個少數(shù)類樣本(Y1,Y2,…，Yk)。

(2)從k個最近鄰樣本中隨機(jī)選擇若干個樣本，在每個選出的樣本Yi和原樣本Xi之間進(jìn)行隨機(jī)線性插值，生成新樣本Snew。插值方法計算式為

Snew=Xi+rand(0,1)(Yi-Xi)

(1)

式中 rand(0,1)——(0，1)區(qū)間內(nèi)的隨機(jī)數(shù)

(3)將新生成的樣本加入原數(shù)據(jù)集中。SMOTE 算法是對隨機(jī)過采樣的一種改進(jìn)方法，它簡單有效，并且避免了過擬合的問題。根據(jù)選取的特征，對新的數(shù)據(jù)樣本利用BP_Adaboost訓(xùn)練模型。

1.5 BP_Adaboost算法

Adaboost是一種迭代算法，其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的弱分類器，然后把這些弱分類器集合起來構(gòu)成一個更強(qiáng)的分類器, 而在 BP_Adaboost中弱分類器即BP神經(jīng)網(wǎng)絡(luò)[18-19]。

BP神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層構(gòu)成[20]，是一種從輸入到輸出的映射，通過用已知的模式對網(wǎng)絡(luò)進(jìn)行訓(xùn)練，就會得到一個能反映輸入到輸出之間精確映射關(guān)系的網(wǎng)絡(luò)，特點(diǎn)是信號前向傳播，誤差反向傳播。

建模過程中，初始學(xué)習(xí)率設(shè)置為0.000 1，既可以保證快速順利找到損失函數(shù)的最小值，又不致于產(chǎn)生過大反復(fù)振蕩。

其中，輸入層為軌跡點(diǎn)特征，包括軌跡點(diǎn)經(jīng)緯度、速度、半徑r內(nèi)近鄰軌跡點(diǎn)個數(shù)、與近鄰點(diǎn)平均距離和到近鄰點(diǎn)的距離。由于各輸入變量的單位不一致且數(shù)值范圍相差較大，提前依據(jù)最大最小原則進(jìn)行歸一化。

輸出層包含2個神經(jīng)元，分別對應(yīng)軌跡點(diǎn)狀態(tài)。輸出層中某神經(jīng)元輸出為1時，代表農(nóng)機(jī)在田間作業(yè)，輸出為-1時代表農(nóng)機(jī)在道路行駛。

確定隱含層神經(jīng)元個數(shù)[21]計算式為

(2)

式中h——隱含層神經(jīng)元個數(shù)

n1——輸入層神經(jīng)元個數(shù)

n2——輸出層神經(jīng)元個數(shù)

a——可變系數(shù)

由式(2)可確定隱含層神經(jīng)元個數(shù)為8。Adaboost算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的，它根據(jù)每次訓(xùn)練集中每個樣本的分類是否正確，以及上次的總體分類的準(zhǔn)確率，來確定每個樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送到下層分類器進(jìn)行訓(xùn)練，最后將每次得到的分類器融合在一起，作為最后的決策分類器。

開始時，每個樣本對應(yīng)的權(quán)重是相同的，即其中n為樣本個數(shù)，在此樣本下訓(xùn)練出第1個弱分類器，對于分類錯誤的樣本，加大其對應(yīng)的權(quán)值，而對于分類正確的樣本，降低其權(quán)重。從而得到一個新的樣本分布，再次對樣本進(jìn)行訓(xùn)練，得到第2個弱分類器，以此類推，T次循環(huán)得到T個弱分類器。最后將弱分類器聯(lián)合起來，使用加權(quán)的投票機(jī)制代替平均投票機(jī)制。讓分類效果好的弱分類器具有較大的權(quán)重，而分類效果差的分類器具有較小的權(quán)重。

算法步驟如下：

(1)從樣本空間中隨機(jī)選擇m組訓(xùn)練數(shù)據(jù)，初始化測試數(shù)據(jù)的分布權(quán)值

(3)

根據(jù)確定好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，初始化BP神經(jīng)網(wǎng)絡(luò)權(quán)值和閾值。

(2)用訓(xùn)練數(shù)據(jù)訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)并且預(yù)測訓(xùn)練數(shù)據(jù)輸出，得到預(yù)測序列g(shù)(t)的預(yù)測誤差和et，et的計算公式為

(4)

式中g(shù)(t)——預(yù)測分類結(jié)果

y——期望分類結(jié)果

(3)根據(jù)步驟(2)中得到的et，計算序列的權(quán)重αt，權(quán)重計算公式為

(5)

(4)調(diào)整下一輪訓(xùn)練樣本的權(quán)重，調(diào)整公式為

(6)

式中βt——?dú)w一化因子

保證在權(quán)重比例不變的情況下使分布權(quán)值和為1。

(5)用BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練T輪后得到T組弱分類函數(shù)f(gt,αt)，由T組弱分類函數(shù)f(gt,αt)組合得到了強(qiáng)分類函數(shù)h(x)。

選取農(nóng)機(jī)運(yùn)行軌跡點(diǎn)經(jīng)緯度、速度、近鄰點(diǎn)平均距離等作為特征，對作業(yè)軌跡點(diǎn)進(jìn)行標(biāo)記，選取80%作為訓(xùn)練樣本，利用BP_Adaboost算法得到訓(xùn)練模型，對所有軌跡點(diǎn)進(jìn)行識別。BP_Adaboost算法對軌跡點(diǎn)識別效果要好于只依靠經(jīng)緯度信息聚類的DBSCAN算法，但農(nóng)機(jī)多，工作時間長，產(chǎn)生的軌跡點(diǎn)多，對軌跡點(diǎn)標(biāo)記耗時耗力，容易出錯。不同農(nóng)機(jī)不同作業(yè)地塊行駛軌跡不同，對新的農(nóng)機(jī)軌跡識別需要重新標(biāo)記，推廣適用性不強(qiáng)。

1.6 DBSCAN+BP_Adaboost算法

研究大量農(nóng)機(jī)作業(yè)軌跡數(shù)據(jù)發(fā)現(xiàn)，由于農(nóng)機(jī)在道路行駛過程中折返行駛、轉(zhuǎn)向、減速等原因?qū)е萝壽E點(diǎn)密度變大，使該處軌跡被誤識別為田間作業(yè)軌跡，另外部分田間軌跡與道路軌跡交界處也容易將道路行駛軌跡點(diǎn)識別為田間作業(yè)軌跡點(diǎn)?？傮w而言，聚類算法的誤識別集中在將道路軌跡誤識別為田間軌跡。DBSCAN方法對大多數(shù)軌跡點(diǎn)分類準(zhǔn)確，利用聚類得到的類別信息，通過BP_Adaboost集成弱分類器訓(xùn)練，并將類別變換處附近軌跡點(diǎn)權(quán)重設(shè)置一個小的置信值，得到分類器模型后對軌跡點(diǎn)狀態(tài)進(jìn)行識別。再對得到的軌跡點(diǎn)進(jìn)行處理后重新訓(xùn)練，直至識別結(jié)果不發(fā)生變化。

1.7 地塊劃分

將識別后帶類別標(biāo)記的軌跡點(diǎn)按時序遍歷，當(dāng)軌跡點(diǎn)類別標(biāo)記為田間作業(yè)軌跡時，放入地塊序列，查找后續(xù)軌跡點(diǎn)，若類別標(biāo)記不發(fā)生變化，放入同一個序列；若類別標(biāo)記發(fā)生變化，查找到下一個地塊標(biāo)記軌跡點(diǎn)，放入新的地塊序列。當(dāng)下一地塊軌跡點(diǎn)距離超過5倍平均距離時，說明遇到軌跡點(diǎn)丟失，將下一軌跡點(diǎn)放入新地塊序列。

遍歷完所有軌跡點(diǎn)后，得到多個地塊序列，每個序列內(nèi)的軌跡點(diǎn)屬于同一個地塊。為防止同一地塊因出現(xiàn)斷點(diǎn)或軌跡點(diǎn)狀態(tài)識別錯誤導(dǎo)致被誤分成多個地塊，計算各地塊軌跡點(diǎn)與其他地塊軌跡點(diǎn)距離最小值，若小于3倍平均距離，將2地塊合并為同一地塊。直至地塊數(shù)量無變化。

具體步驟如下：

(1)按時序遍歷所有帶狀態(tài)標(biāo)記的軌跡點(diǎn)。

(2)找到第1個地塊標(biāo)記軌跡點(diǎn)，放入地塊序列中。

(3)將其后所有地塊標(biāo)記軌跡點(diǎn)放入同一序列，直至查找到道路標(biāo)記軌跡點(diǎn)。

(4)繼續(xù)遍歷，查找到下一個地塊標(biāo)記軌跡點(diǎn)，計算該點(diǎn)到上一地塊序列軌跡點(diǎn)最小距離是否小于3倍平均距離，若小于，則將該點(diǎn)放入上一地塊序列；否則，放入新地塊序列。

(5)重復(fù)步驟(3)、(4)，直至遍歷完所有軌跡點(diǎn)。

(6)計算某一地塊序列內(nèi)軌跡點(diǎn)與其他地塊序列軌跡點(diǎn)距離最小值是否小于3倍平均距離，若小于，按時序合并2個地塊序列。

(7)重復(fù)步驟(6)，直至地塊序列數(shù)量不發(fā)生變化。

2 實(shí)驗

2.1 數(shù)據(jù)獲取

實(shí)驗采用某縣50臺農(nóng)機(jī)在2020年10月15—26日期間所有作業(yè)數(shù)據(jù)作為數(shù)據(jù)集，作業(yè)地塊數(shù)量為5 304。在農(nóng)機(jī)上安裝采集設(shè)備，每5 s采集一次作業(yè)點(diǎn)數(shù)據(jù)，總軌跡點(diǎn)數(shù)為5 196 782，通過無線通信發(fā)送至后端服務(wù)器。每個軌跡點(diǎn)包含農(nóng)機(jī)作業(yè)點(diǎn)經(jīng)緯度、速度等信息。實(shí)驗采用經(jīng)緯度、速度、3倍平均距離內(nèi)近鄰點(diǎn)數(shù)量、軌跡點(diǎn)周圍20個點(diǎn)距離作為特征，利用DBSCAN對軌跡點(diǎn)聚類，將得到的特征及類標(biāo)記用BP_Adaboost算法訓(xùn)練模型，識別農(nóng)機(jī)運(yùn)行狀態(tài)。

2.2 軌跡狀態(tài)識別及地塊劃分

將獲取到的軌跡點(diǎn)數(shù)據(jù)進(jìn)行如下步驟處理：

(1)將采集的軌跡點(diǎn)做預(yù)處理，并提取特征。

(2)使用DBSCAN算法對軌跡點(diǎn)聚類，得到道路軌跡和田間軌跡。

(3)將前后標(biāo)記發(fā)生變化的軌跡點(diǎn)及前后10個軌跡點(diǎn)權(quán)重減半。

(4)使用smote方法增加道路行駛軌跡點(diǎn)樣本數(shù)量。

(5)選取80%軌跡點(diǎn)作為訓(xùn)練樣本，全部軌跡點(diǎn)為測試樣本。

(6)選取軌跡點(diǎn)經(jīng)緯度、速度、3倍平均距離內(nèi)近鄰點(diǎn)數(shù)量、軌跡點(diǎn)周圍n個點(diǎn)距離作為特征，利用BP_Adaboost訓(xùn)練數(shù)據(jù)集，并對測試樣本進(jìn)行軌跡狀態(tài)識別。

(7)將識別的每天軌跡點(diǎn)中前后標(biāo)記發(fā)生變化的軌跡點(diǎn)及前后10個軌跡點(diǎn)標(biāo)記為道路軌跡點(diǎn)，并放入訓(xùn)練樣本中。

(8)重復(fù)步驟(6)、(7)，直至訓(xùn)練樣本數(shù)量不發(fā)生變化。

(9)根據(jù)時序關(guān)系和軌跡點(diǎn)類別劃分地塊。

對數(shù)據(jù)采用本文方法和DBSCAN方法分別做實(shí)驗，將軌跡點(diǎn)加載到地圖中，根據(jù)地圖中軌跡點(diǎn)位置和行駛軌跡，人工對軌跡點(diǎn)狀態(tài)進(jìn)行標(biāo)記。總軌跡點(diǎn)數(shù)為5 196 782，其中田間作業(yè)軌跡點(diǎn)數(shù)量為3 162 468，道路行駛軌跡點(diǎn)數(shù)量為2 034 314。軌跡點(diǎn)狀態(tài)識別結(jié)果如表1所示，其中田間作業(yè)軌跡點(diǎn)記為T，道路行駛軌跡點(diǎn)記為D。

表1 軌跡點(diǎn)狀態(tài)各方法識別結(jié)果Tab.1 Recognition results of each method of track point state

軌跡點(diǎn)識別正確的數(shù)量為田間軌跡點(diǎn)識別為田間軌跡點(diǎn)個數(shù)與道路軌跡點(diǎn)識別為道路軌跡點(diǎn)個數(shù)之和。軌跡點(diǎn)狀態(tài)識別準(zhǔn)確率P為

(7)

式中T11——田間作業(yè)軌跡點(diǎn)識別正確數(shù)量

T22——道路行駛軌跡點(diǎn)識別正確數(shù)量

T——軌跡點(diǎn)總數(shù)量

用DBSCAN算法對軌跡點(diǎn)狀態(tài)識別準(zhǔn)確率為93.35%，用DBSCAN+BP_Adaboost算法對軌跡點(diǎn)狀態(tài)識別準(zhǔn)確率為96.75%。因此本文算法得到的軌跡點(diǎn)狀態(tài)識別準(zhǔn)確率高于DBSCAN算法。

當(dāng)DBSCAN算法選取不同參數(shù)時，軌跡點(diǎn)識別準(zhǔn)確率如圖4所示。

圖4 不同參數(shù)下兩算法軌跡點(diǎn)識別準(zhǔn)確率Fig.4 Accuracy of two methods for track point recognition under different parameters

由圖4可以看出，本文方法依托于DBSCAN算法，走勢和DBSCAN算法有相關(guān)性，整體優(yōu)于DBSCAN算法，并且準(zhǔn)確率變化受參數(shù)影響小于DBSCAN算法。

使用密度聚類方法識別軌跡點(diǎn)狀態(tài)的同時，根據(jù)點(diǎn)簇聚集關(guān)系劃分不同地塊。使用本研究方法得到軌跡點(diǎn)狀態(tài)后，需再按照地塊劃分步驟進(jìn)行劃分，得到地塊劃分效果如圖5所示。

圖5 不同算法劃分地塊效果圖Fig.5 Effect drawing of dividing plots by two methods

圖5中灰色點(diǎn)表示道路行駛軌跡點(diǎn)，彩色點(diǎn)表示田間作業(yè)軌跡點(diǎn)，不同顏色表示不同地塊。由圖5a 可以看到，部分道路行駛軌跡點(diǎn)被識別為田間作業(yè)軌跡點(diǎn)，下方綠色區(qū)域多個不同地塊被聚類成一個地塊。由圖5b可以看到，使用本文方法劃分地塊，準(zhǔn)確率高于只用DBSCAN算法。個別地塊緊鄰，由于閾值設(shè)置原因，DBSCAN算法無法將兩地塊區(qū)分。用本方法能識別出兩地塊間轉(zhuǎn)移行駛軌跡，進(jìn)而可以很好地精細(xì)劃分地塊。

地塊劃分錯誤分為4種類型：非地塊誤識別為地塊、地塊未被識別出、多個地塊被識別成一個地塊和一個地塊被識別成多個地塊。

其中，多個地塊被識別成一個地塊可以歸為地塊未被識別出；一個地塊被識別成多個地塊，可以歸為非地塊誤識別成地塊。

因此地塊識別準(zhǔn)確率R為

(8)

式中T0——識別正確的地塊數(shù)量

Tf——總地塊數(shù)量

錯誤識別量為

En=T1+T2

(9)

式中T1——非地塊誤識別成地塊和一個地塊被識別成多個地塊的數(shù)量

T2——地塊未被識別出和多個地塊被識別成一個地塊的數(shù)量

另外

Tf≤T0+T1+T2

(10)

由于錯誤識別的數(shù)量和作業(yè)地塊的數(shù)量沒有關(guān)聯(lián)性，因此地塊識別的準(zhǔn)確程度由地塊識別準(zhǔn)確率和錯誤識別個數(shù)組成。兩算法劃分地塊結(jié)果如表2所示。

表2 不同算法劃分地塊結(jié)果Tab.2 Results of dividing plots by two methods

由表2可知，由于非地塊區(qū)域為道路行駛軌跡點(diǎn)，將道路行駛軌跡點(diǎn)誤識別為田間作業(yè)軌跡點(diǎn)會錯分成地塊，而道路行駛軌跡點(diǎn)識別正確仍舊是軌跡點(diǎn)而不是地塊，因此不存在非地塊識別為非地塊的數(shù)量。通過DBSCAN算法得到地塊識別準(zhǔn)確數(shù)為5 072，準(zhǔn)確率為95.63%，誤識別個數(shù)為592；通過DBSCAN+BP_Adaboost算法得到地塊識別準(zhǔn)確數(shù)為5 184，準(zhǔn)確率為97.74%，誤識別個數(shù)為339。因此在識別準(zhǔn)確率和誤識別個數(shù)方面，DBSCAN+BP_Adaboost算法都優(yōu)于DBSCAN聚類算法。

本文提出的先通過DBSCAN算法得到軌跡點(diǎn)類別，再對軌跡點(diǎn)通過BP_Adaboost算法訓(xùn)練，軌跡點(diǎn)狀態(tài)識別準(zhǔn)確率高于只使用DBSCAN算法，且省去了大量人工標(biāo)記的時間。后期有新農(nóng)機(jī)作業(yè)軌跡識別，可以直接使用本方法，適用性較強(qiáng)。地塊的劃分準(zhǔn)確率高于基于密度聚類方法，且錯分的地塊數(shù)量也少于基于密度聚類的方法。

3 結(jié)論

(1)分析了農(nóng)機(jī)作業(yè)軌跡特征及軌跡點(diǎn)有用信息，選取農(nóng)機(jī)軌跡點(diǎn)經(jīng)緯度、速度、近鄰點(diǎn)關(guān)系等作為特征，實(shí)驗證明特征有效。

(2)利用DBSCAN算法對農(nóng)機(jī)軌跡點(diǎn)聚類，得到帶類別標(biāo)記的田間作業(yè)軌跡點(diǎn)和道路行駛軌跡點(diǎn)；再用BP_Adaboost算法建立訓(xùn)練模型對農(nóng)機(jī)軌跡點(diǎn)進(jìn)行識別；將容易誤識別的道路和田間交界處附近軌跡點(diǎn)標(biāo)記為道路行駛軌跡點(diǎn)，并添加到訓(xùn)練樣本中重復(fù)訓(xùn)練，直至訓(xùn)練樣本不再增加。軌跡點(diǎn)狀態(tài)識別準(zhǔn)確率達(dá)到96.75%，較DBSCAN算法有很大提升。

(3)本文算法劃分地塊較DBSCAN算法聚類后得到的地塊更準(zhǔn)確，錯分的地塊數(shù)量更少。無需對樣本標(biāo)記，節(jié)省大量人力，并且對新農(nóng)機(jī)作業(yè)軌跡有適用性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡