李亞碩 趙 博 王長偉 徐名漢 偉利國 龐在溪
(1.中國農(nóng)業(yè)機(jī)械化科學(xué)研究院集團(tuán)有限公司, 北京 100083;2.土壤植物機(jī)器系統(tǒng)技術(shù)國家重點(diǎn)實(shí)驗室, 北京 100083)
隨著農(nóng)業(yè)機(jī)械化作業(yè)的普遍推廣、農(nóng)業(yè)機(jī)械化水平的提升,物聯(lián)網(wǎng)技術(shù)在農(nóng)機(jī)生產(chǎn)管理中的作用日益突出。目前,通過機(jī)載物聯(lián)網(wǎng)設(shè)備和無線通信技術(shù),監(jiān)管人員可以實(shí)時獲取農(nóng)機(jī)作業(yè)位置、作業(yè)狀態(tài)和作業(yè)效率,并通過監(jiān)管平臺進(jìn)行任務(wù)分配和補(bǔ)貼結(jié)算等,滿足了農(nóng)機(jī)監(jiān)管部門和農(nóng)機(jī)合作社管理人員對所屬農(nóng)機(jī)的實(shí)時監(jiān)管和作業(yè)規(guī)劃需求[1-4]。農(nóng)機(jī)管理人員按時間或工作量給機(jī)手發(fā)放工資,按地塊面積向農(nóng)戶收取費(fèi)用或向相關(guān)部門申請補(bǔ)貼,因此地塊的精準(zhǔn)劃分是工資發(fā)放、費(fèi)用收取、補(bǔ)貼申請、面積計算、效率評估等的基礎(chǔ)。深松作業(yè)可以根據(jù)深松機(jī)入土深度判斷是否在田間作業(yè),但其它如收獲、植保、打捆等作業(yè)難以根據(jù)機(jī)載傳感器判斷作業(yè)狀態(tài)。無法強(qiáng)制農(nóng)機(jī)駕駛員只在田間才打開機(jī)載設(shè)備,其他時間關(guān)閉設(shè)備。因此需要根據(jù)得到的軌跡點(diǎn)信息自動判斷農(nóng)機(jī)軌跡點(diǎn)狀態(tài)和劃分地塊。
使用機(jī)載定位設(shè)備可以記錄作業(yè)軌跡信息,實(shí)時發(fā)送后端處理,得到行駛軌跡和作業(yè)分布。根據(jù)上傳的農(nóng)機(jī)行駛軌跡,可在監(jiān)管平臺的地圖中人工劃分地塊。但一臺農(nóng)機(jī)每天作業(yè)多個地塊,每天多臺農(nóng)機(jī)同時作業(yè),一個作業(yè)季的地塊數(shù)量非常多,人工劃分耗時耗力,并且由于地圖精度問題,人工標(biāo)記邊界容易出現(xiàn)誤差。
地塊劃分的前提是農(nóng)機(jī)軌跡點(diǎn)狀態(tài)的確定。目前,軌跡點(diǎn)數(shù)據(jù)處理多采用聚類算法,根據(jù)軌跡點(diǎn)聚簇判斷狀態(tài)和劃分地塊。田間作業(yè)軌跡點(diǎn)密集,道路行駛軌跡點(diǎn)稀疏,利用這一特點(diǎn)通過DBSCAN聚類的方法區(qū)分田間作業(yè)和道路行駛軌跡[5-6]。但聚類方法的鄰域半徑和鄰域點(diǎn)數(shù)不易確定,不同農(nóng)機(jī)、不同地形作業(yè)軌跡相差很大。有研究人員利用時空信息對軌跡進(jìn)行密度聚類[7-9],由于軌跡點(diǎn)具有時序性,將時間作為聚類信息對準(zhǔn)確率的提升作用不大。利用空間索引和網(wǎng)格密度聚類[10-11],有效提升了運(yùn)行速度,但網(wǎng)格尺寸和密度閾值參數(shù)敏感。盡管聚類方法對農(nóng)機(jī)田間作業(yè)軌跡效果較好,但對道路轉(zhuǎn)移行駛軌跡容易誤識別,因此單純依靠聚類方法,很難提升農(nóng)機(jī)軌跡點(diǎn)狀態(tài)識別率。
根據(jù)軌跡點(diǎn)單個特征設(shè)定閾值,容易遺漏深層的內(nèi)部相互關(guān)系。依靠神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法進(jìn)行訓(xùn)練,在多維特征組成的高維空間尋找有效的內(nèi)部關(guān)聯(lián)性,進(jìn)而有效識別農(nóng)機(jī)軌跡點(diǎn)狀態(tài),再根據(jù)時序關(guān)系劃分地塊。但訓(xùn)練樣本的標(biāo)記耗時太大,并且有新農(nóng)機(jī)作業(yè)軌跡識別需要重新標(biāo)記訓(xùn)練,推廣性不強(qiáng)。
本文結(jié)合農(nóng)機(jī)空間運(yùn)行軌跡的特點(diǎn),選擇農(nóng)機(jī)軌跡點(diǎn)經(jīng)度、緯度、速度、近鄰點(diǎn)相互關(guān)系等作為特征,先用DBSCAN算法進(jìn)行聚類,得到初步的聚類結(jié)果和類別標(biāo)記;利用BP_Adaboost算法對軌跡點(diǎn)進(jìn)行訓(xùn)練和識別;將田間與道路交界處附近軌跡點(diǎn)標(biāo)記為道路軌跡并添加到訓(xùn)練樣本中重復(fù)訓(xùn)練,直至訓(xùn)練樣本無新增。以期解決海量數(shù)據(jù)標(biāo)記困難、不同地塊軌跡差異大、田間與道路交界處軌跡點(diǎn)易誤識別等問題。
通過安裝在農(nóng)機(jī)上的北斗定位接收裝置自動記錄農(nóng)機(jī)運(yùn)行全過程軌跡,獲取農(nóng)機(jī)經(jīng)緯度位置信息、速度信息等。農(nóng)機(jī)在行進(jìn)和停車時,機(jī)載定位設(shè)備都會發(fā)送位置信息,因此,農(nóng)機(jī)行駛軌跡點(diǎn)分道路行駛軌跡點(diǎn)、田間作業(yè)軌跡點(diǎn)和停車點(diǎn)。農(nóng)機(jī)從車庫行駛至目的地塊以及在兩地塊間轉(zhuǎn)移時,一般沿道路單向行駛,速度較快,軌跡點(diǎn)稀疏;在田間作業(yè)時,在地塊內(nèi)往返行駛,速度偏慢,軌跡點(diǎn)密集;當(dāng)農(nóng)機(jī)因故停車時,軌跡點(diǎn)以農(nóng)機(jī)為中心,在小范圍內(nèi)呈散點(diǎn)簇分布。劃分地塊的依據(jù)是區(qū)分田間作業(yè)軌跡點(diǎn)和道路行駛軌跡點(diǎn),因此需先處理停車點(diǎn)和其他干擾軌跡點(diǎn)。再根據(jù)農(nóng)機(jī)軌跡點(diǎn)的特性,對不同軌跡點(diǎn)信息進(jìn)行分析試驗,選取有用特征。
由于定位精度原因,農(nóng)機(jī)在停車時,軌跡點(diǎn)不是集中在一個點(diǎn),而是散落在農(nóng)機(jī)附近小范圍內(nèi),稱為農(nóng)機(jī)停車散點(diǎn),速度為0或者很小值。當(dāng)定位偏差過大或者設(shè)備故障導(dǎo)致多個軌跡點(diǎn)未發(fā)送時,連續(xù)接收到的兩點(diǎn)間距過大,稱為漂移點(diǎn)。停車散點(diǎn)和漂移點(diǎn)如圖1所示。
圖1 停車散點(diǎn)和漂移點(diǎn)Fig.1 Parking scatter and drift point
有效農(nóng)機(jī)行駛軌跡點(diǎn)是道路行駛軌跡點(diǎn)和田間作業(yè)軌跡點(diǎn),農(nóng)機(jī)停車散點(diǎn)和漂移點(diǎn)會影響軌跡狀態(tài)識別,在數(shù)據(jù)處理前應(yīng)去除。為保持圖像數(shù)據(jù)完整性,本文在數(shù)據(jù)處理時不計算停車散點(diǎn)和漂移點(diǎn),在地圖中,將這兩類點(diǎn)標(biāo)記為道路行駛點(diǎn)。為了防止將田間作業(yè)過程中臨時停車軌跡點(diǎn)誤刪除,停車散點(diǎn)判斷依據(jù)設(shè)置為:連續(xù)很多點(diǎn)的速度小于某一閾值。將漂移點(diǎn)的上一軌跡點(diǎn)作為前段軌跡終點(diǎn),下一軌跡點(diǎn)作為下段軌跡起點(diǎn)。
由于采集器故障、信號差、斷電等原因,會造成連續(xù)兩軌跡點(diǎn)之間間隔很遠(yuǎn)。當(dāng)某一軌跡點(diǎn)與前一軌跡點(diǎn)距離較大,而與下一軌跡點(diǎn)間隔正常時,認(rèn)為兩軌跡點(diǎn)之間存在軌跡點(diǎn)丟失。將上一軌跡點(diǎn)作為前段軌跡終點(diǎn),下一軌跡點(diǎn)作為下段軌跡起點(diǎn)。
農(nóng)機(jī)行駛軌跡點(diǎn)包含時間、經(jīng)緯度、速度等信息,農(nóng)機(jī)田間作業(yè)軌跡和道路行駛軌跡交叉,依據(jù)軌跡點(diǎn)屬性信息,可利用閾值設(shè)定、聚類、分類等方法區(qū)分軌跡點(diǎn)狀態(tài),找到有效的屬性信息是取得理想效果的前提。圖2為軌跡點(diǎn)近鄰點(diǎn)數(shù)差異圖,其中近鄰區(qū)域半徑為當(dāng)日軌跡點(diǎn)平均距離的3倍。
圖2 軌跡點(diǎn)近鄰點(diǎn)數(shù)差異柱狀圖Fig.2 Histogram of difference in number of adjacent points of track points
以軌跡點(diǎn)為中心、以r為半徑的圓范圍內(nèi)近鄰軌跡點(diǎn)的個數(shù),田間作業(yè)軌跡點(diǎn)多于道路行駛軌跡點(diǎn)。研究發(fā)現(xiàn),當(dāng)r為每天農(nóng)機(jī)作業(yè)軌跡點(diǎn)平均距離3倍時,田間作業(yè)軌跡點(diǎn)和道路行駛軌跡點(diǎn)在r范圍內(nèi)的近鄰點(diǎn)數(shù)量區(qū)分性最好。當(dāng)r過小時,田間作業(yè)軌跡點(diǎn)近鄰點(diǎn)數(shù)量急劇下降,當(dāng)r過大時,道路行駛軌跡點(diǎn)近鄰點(diǎn)數(shù)量增加,都會造成兩類軌跡點(diǎn)近鄰點(diǎn)數(shù)量重合部分增加。如圖2所示,田間作業(yè)軌跡點(diǎn)周圍軌跡點(diǎn)數(shù)量集中在7~9個之間,道路行駛軌跡點(diǎn)周圍軌跡點(diǎn)數(shù)量集中在4~6個之間,有較好的區(qū)分性。因此該特征可以用于判斷軌跡點(diǎn)狀態(tài)。以速度和近鄰點(diǎn)平均距離等為特征,不同狀態(tài)軌跡點(diǎn)分布如圖3所示。
圖3 不同特征下軌跡點(diǎn)分布Fig.3 Distribution of trajectory points under different characteristics
由圖3可以看出,田間作業(yè)軌跡點(diǎn)速度慢且與附近點(diǎn)距離小,雖然有一定的區(qū)分性,但是重疊交叉部分也很多,依靠某一、兩個特征難以達(dá)到預(yù)期效果。在一定半徑范圍內(nèi),田間作業(yè)軌跡點(diǎn)附近軌跡點(diǎn)數(shù)要多于道路行駛軌跡點(diǎn)附近軌跡點(diǎn)數(shù)。當(dāng)選用速度、近鄰點(diǎn)數(shù)和近鄰點(diǎn)平均距離作為特征時,軌跡點(diǎn)分布如圖3c所示,雖然仍有部分重疊,但區(qū)分性較單個特征要好。在多特征組成的高維空間內(nèi),田間作業(yè)軌跡點(diǎn)和道路行駛軌跡點(diǎn)更具區(qū)分性。但單純依靠閾值作為判斷依據(jù),普適性不強(qiáng),且閾值不易確定。應(yīng)在有效特征選取的基礎(chǔ)上,自學(xué)習(xí)內(nèi)部關(guān)聯(lián)性,進(jìn)而判斷軌跡點(diǎn)狀態(tài)。
本研究選取軌跡點(diǎn)經(jīng)緯度、速度、近鄰點(diǎn)平均距離、近鄰點(diǎn)數(shù)、軌跡點(diǎn)與近鄰點(diǎn)距離作為特征,利用BP_Adaboost訓(xùn)練模型識別軌跡點(diǎn)狀態(tài)。樣本標(biāo)記工作量過大,先利用DBSCAN聚類方法得到初步類別標(biāo)記,再進(jìn)行訓(xùn)練。
密度聚類算法[12-14]假設(shè)聚類結(jié)構(gòu)能通過樣本分布的緊密程度確定,從樣本密度的角度來考察樣本之間的可連接性,并基于可連接樣本不斷擴(kuò)展聚類簇以獲得最終的聚類結(jié)果。農(nóng)機(jī)田間作業(yè)軌跡點(diǎn)緊密,道路行駛軌跡點(diǎn)稀疏,利用密度聚類方法不僅可以區(qū)分田間作業(yè)軌跡和道路行駛軌跡,還可以將不同地塊的軌跡點(diǎn)聚為不同類。DBSCAN基于“鄰域”參數(shù)(ε,NminPts)來判斷軌跡點(diǎn)數(shù)據(jù)的緊密程度,ε為以每個軌跡點(diǎn)為中心的長度范圍,NminPts是軌跡點(diǎn)要成為一個簇中心,周圍軌跡點(diǎn)距離小于ε的最少個數(shù)。DBSCAN可以去除噪聲點(diǎn),并且不必提前規(guī)定聚類個數(shù),聚類步驟如下:
(1)從數(shù)據(jù)集中任意選取一個軌跡點(diǎn)p。
(2)如果對于參數(shù)ε和NminPts,選一個軌跡點(diǎn)p,找到所有密度可達(dá)的核心對象,生成聚類簇。
(3)如果選取的軌跡點(diǎn)p是邊緣點(diǎn),選取另一個軌跡點(diǎn)。
(4)重復(fù)步驟(2)、(3),直到所有軌跡點(diǎn)被處理。
農(nóng)機(jī)道路行駛軌跡一般為單向,田間作業(yè)為往返行駛,具有明顯的區(qū)分性,因此DBSCAN方法對這種軌跡狀態(tài)區(qū)分有不錯的效果。但部分道路區(qū)段由于農(nóng)機(jī)折返行駛、轉(zhuǎn)向、減速等原因?qū)е萝壽E點(diǎn)密度變大,使該處軌跡被誤識別為田間作業(yè)軌跡。不同農(nóng)機(jī)行駛速度和軌跡不同,田間作業(yè)軌跡間隔也不同,DBSCAN算法對于輸入?yún)?shù)ε和NminPts是敏感的,使用固定的ε和NminPts不能很好解決所有農(nóng)機(jī)軌跡狀態(tài)識別問題。
利用分類器訓(xùn)練模型,再對軌跡點(diǎn)進(jìn)行識別,可以避免聚類算法中ε和NminPts不易確定的問題。但在農(nóng)機(jī)行駛軌跡中,田間作業(yè)軌跡點(diǎn)數(shù)量要遠(yuǎn)多于道路行駛軌跡點(diǎn)數(shù)量,特別情況下比例可達(dá)10∶1。用同樣數(shù)量田間作業(yè)軌跡點(diǎn)數(shù)據(jù)進(jìn)行訓(xùn)練,樣本數(shù)量不足;田間作業(yè)軌跡點(diǎn)選用過多,會造成類別不平衡,都影響識別準(zhǔn)確率,因此需要增加道路行駛軌跡點(diǎn)數(shù)據(jù)量。SMOTE算法[15-17]是在少數(shù)類樣本和其近鄰的少數(shù)類樣本之間進(jìn)行隨機(jī)線性插值生成新樣本,來達(dá)到平衡數(shù)據(jù)集的目的。算法原理如下:
(1)對于每一個少數(shù)類樣本Xi(i=1,2,…,n),根據(jù)歐氏距離計算出最近鄰的k個少數(shù)類樣本(Y1,Y2,…,Yk)。
(2)從k個最近鄰樣本中隨機(jī)選擇若干個樣本,在每個選出的樣本Yi和原樣本Xi之間進(jìn)行隨機(jī)線性插值,生成新樣本Snew。插值方法計算式為
Snew=Xi+rand(0,1)(Yi-Xi)
(1)
式中 rand(0,1)——(0,1)區(qū)間內(nèi)的隨機(jī)數(shù)
(3)將新生成的樣本加入原數(shù)據(jù)集中。SMOTE 算法是對隨機(jī)過采樣的一種改進(jìn)方法,它簡單有效,并且避免了過擬合的問題。根據(jù)選取的特征,對新的數(shù)據(jù)樣本利用BP_Adaboost訓(xùn)練模型。
Adaboost是一種迭代算法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的弱分類器,然后把這些弱分類器集合起來構(gòu)成一個更強(qiáng)的分類器, 而在 BP_Adaboost中弱分類器即BP神經(jīng)網(wǎng)絡(luò)[18-19]。
BP神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層構(gòu)成[20],是一種從輸入到輸出的映射,通過用已知的模式對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,就會得到一個能反映輸入到輸出之間精確映射關(guān)系的網(wǎng)絡(luò),特點(diǎn)是信號前向傳播,誤差反向傳播。
建模過程中,初始學(xué)習(xí)率設(shè)置為0.000 1,既可以保證快速順利找到損失函數(shù)的最小值,又不致于產(chǎn)生過大反復(fù)振蕩。
其中,輸入層為軌跡點(diǎn)特征,包括軌跡點(diǎn)經(jīng)緯度、速度、半徑r內(nèi)近鄰軌跡點(diǎn)個數(shù)、與近鄰點(diǎn)平均距離和到近鄰點(diǎn)的距離。由于各輸入變量的單位不一致且數(shù)值范圍相差較大,提前依據(jù)最大最小原則進(jìn)行歸一化。
輸出層包含2個神經(jīng)元,分別對應(yīng)軌跡點(diǎn)狀態(tài)。輸出層中某神經(jīng)元輸出為1時,代表農(nóng)機(jī)在田間作業(yè),輸出為-1時代表農(nóng)機(jī)在道路行駛。
確定隱含層神經(jīng)元個數(shù)[21]計算式為
(2)
式中h——隱含層神經(jīng)元個數(shù)
n1——輸入層神經(jīng)元個數(shù)
n2——輸出層神經(jīng)元個數(shù)
a——可變系數(shù)
由式(2)可確定隱含層神經(jīng)元個數(shù)為8。Adaboost算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集中每個樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送到下層分類器進(jìn)行訓(xùn)練,最后將每次得到的分類器融合在一起,作為最后的決策分類器。
開始時,每個樣本對應(yīng)的權(quán)重是相同的,即其中n為樣本個數(shù),在此樣本下訓(xùn)練出第1個弱分類器,對于分類錯誤的樣本,加大其對應(yīng)的權(quán)值,而對于分類正確的樣本,降低其權(quán)重。從而得到一個新的樣本分布,再次對樣本進(jìn)行訓(xùn)練,得到第2個弱分類器,以此類推,T次循環(huán)得到T個弱分類器。最后將弱分類器聯(lián)合起來,使用加權(quán)的投票機(jī)制代替平均投票機(jī)制。讓分類效果好的弱分類器具有較大的權(quán)重,而分類效果差的分類器具有較小的權(quán)重。
算法步驟如下:
(1)從樣本空間中隨機(jī)選擇m組訓(xùn)練數(shù)據(jù),初始化測試數(shù)據(jù)的分布權(quán)值
(3)
根據(jù)確定好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),初始化BP神經(jīng)網(wǎng)絡(luò)權(quán)值和閾值。
(2)用訓(xùn)練數(shù)據(jù)訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)并且預(yù)測訓(xùn)練數(shù)據(jù)輸出,得到預(yù)測序列g(shù)(t)的預(yù)測誤差和et,et的計算公式為
(4)
式中g(shù)(t)——預(yù)測分類結(jié)果
y——期望分類結(jié)果
(3)根據(jù)步驟(2)中得到的et,計算序列的權(quán)重αt,權(quán)重計算公式為
(5)
(4)調(diào)整下一輪訓(xùn)練樣本的權(quán)重,調(diào)整公式為
(6)
式中βt——?dú)w一化因子
保證在權(quán)重比例不變的情況下使分布權(quán)值和為1。
(5)用BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練T輪后得到T組弱分類函數(shù)f(gt,αt),由T組弱分類函數(shù)f(gt,αt)組合得到了強(qiáng)分類函數(shù)h(x)。
選取農(nóng)機(jī)運(yùn)行軌跡點(diǎn)經(jīng)緯度、速度、近鄰點(diǎn)平均距離等作為特征,對作業(yè)軌跡點(diǎn)進(jìn)行標(biāo)記,選取80%作為訓(xùn)練樣本,利用BP_Adaboost算法得到訓(xùn)練模型,對所有軌跡點(diǎn)進(jìn)行識別。BP_Adaboost算法對軌跡點(diǎn)識別效果要好于只依靠經(jīng)緯度信息聚類的DBSCAN算法,但農(nóng)機(jī)多,工作時間長,產(chǎn)生的軌跡點(diǎn)多,對軌跡點(diǎn)標(biāo)記耗時耗力,容易出錯。不同農(nóng)機(jī)不同作業(yè)地塊行駛軌跡不同,對新的農(nóng)機(jī)軌跡識別需要重新標(biāo)記,推廣適用性不強(qiáng)。
研究大量農(nóng)機(jī)作業(yè)軌跡數(shù)據(jù)發(fā)現(xiàn),由于農(nóng)機(jī)在道路行駛過程中折返行駛、轉(zhuǎn)向、減速等原因?qū)е萝壽E點(diǎn)密度變大,使該處軌跡被誤識別為田間作業(yè)軌跡,另外部分田間軌跡與道路軌跡交界處也容易將道路行駛軌跡點(diǎn)識別為田間作業(yè)軌跡點(diǎn)??傮w而言,聚類算法的誤識別集中在將道路軌跡誤識別為田間軌跡。DBSCAN方法對大多數(shù)軌跡點(diǎn)分類準(zhǔn)確,利用聚類得到的類別信息,通過BP_Adaboost集成弱分類器訓(xùn)練,并將類別變換處附近軌跡點(diǎn)權(quán)重設(shè)置一個小的置信值,得到分類器模型后對軌跡點(diǎn)狀態(tài)進(jìn)行識別。再對得到的軌跡點(diǎn)進(jìn)行處理后重新訓(xùn)練,直至識別結(jié)果不發(fā)生變化。
將識別后帶類別標(biāo)記的軌跡點(diǎn)按時序遍歷,當(dāng)軌跡點(diǎn)類別標(biāo)記為田間作業(yè)軌跡時,放入地塊序列,查找后續(xù)軌跡點(diǎn),若類別標(biāo)記不發(fā)生變化,放入同一個序列;若類別標(biāo)記發(fā)生變化,查找到下一個地塊標(biāo)記軌跡點(diǎn),放入新的地塊序列。當(dāng)下一地塊軌跡點(diǎn)距離超過5倍平均距離時,說明遇到軌跡點(diǎn)丟失,將下一軌跡點(diǎn)放入新地塊序列。
遍歷完所有軌跡點(diǎn)后,得到多個地塊序列,每個序列內(nèi)的軌跡點(diǎn)屬于同一個地塊。為防止同一地塊因出現(xiàn)斷點(diǎn)或軌跡點(diǎn)狀態(tài)識別錯誤導(dǎo)致被誤分成多個地塊,計算各地塊軌跡點(diǎn)與其他地塊軌跡點(diǎn)距離最小值,若小于3倍平均距離,將2地塊合并為同一地塊。直至地塊數(shù)量無變化。
具體步驟如下:
(1)按時序遍歷所有帶狀態(tài)標(biāo)記的軌跡點(diǎn)。
(2)找到第1個地塊標(biāo)記軌跡點(diǎn),放入地塊序列中。
(3)將其后所有地塊標(biāo)記軌跡點(diǎn)放入同一序列,直至查找到道路標(biāo)記軌跡點(diǎn)。
(4)繼續(xù)遍歷,查找到下一個地塊標(biāo)記軌跡點(diǎn),計算該點(diǎn)到上一地塊序列軌跡點(diǎn)最小距離是否小于3倍平均距離,若小于,則將該點(diǎn)放入上一地塊序列;否則,放入新地塊序列。
(5)重復(fù)步驟(3)、(4),直至遍歷完所有軌跡點(diǎn)。
(6)計算某一地塊序列內(nèi)軌跡點(diǎn)與其他地塊序列軌跡點(diǎn)距離最小值是否小于3倍平均距離,若小于,按時序合并2個地塊序列。
(7)重復(fù)步驟(6),直至地塊序列數(shù)量不發(fā)生變化。
實(shí)驗采用某縣50臺農(nóng)機(jī)在2020年10月15—26日期間所有作業(yè)數(shù)據(jù)作為數(shù)據(jù)集,作業(yè)地塊數(shù)量為5 304。在農(nóng)機(jī)上安裝采集設(shè)備,每5 s采集一次作業(yè)點(diǎn)數(shù)據(jù),總軌跡點(diǎn)數(shù)為5 196 782,通過無線通信發(fā)送至后端服務(wù)器。每個軌跡點(diǎn)包含農(nóng)機(jī)作業(yè)點(diǎn)經(jīng)緯度、速度等信息。實(shí)驗采用經(jīng)緯度、速度、3倍平均距離內(nèi)近鄰點(diǎn)數(shù)量、軌跡點(diǎn)周圍20個點(diǎn)距離作為特征,利用DBSCAN對軌跡點(diǎn)聚類,將得到的特征及類標(biāo)記用BP_Adaboost算法訓(xùn)練模型,識別農(nóng)機(jī)運(yùn)行狀態(tài)。
將獲取到的軌跡點(diǎn)數(shù)據(jù)進(jìn)行如下步驟處理:
(1)將采集的軌跡點(diǎn)做預(yù)處理,并提取特征。
(2)使用DBSCAN算法對軌跡點(diǎn)聚類,得到道路軌跡和田間軌跡。
(3)將前后標(biāo)記發(fā)生變化的軌跡點(diǎn)及前后10個軌跡點(diǎn)權(quán)重減半。
(4)使用smote方法增加道路行駛軌跡點(diǎn)樣本數(shù)量。
(5)選取80%軌跡點(diǎn)作為訓(xùn)練樣本,全部軌跡點(diǎn)為測試樣本。
(6)選取軌跡點(diǎn)經(jīng)緯度、速度、3倍平均距離內(nèi)近鄰點(diǎn)數(shù)量、軌跡點(diǎn)周圍n個點(diǎn)距離作為特征,利用BP_Adaboost訓(xùn)練數(shù)據(jù)集,并對測試樣本進(jìn)行軌跡狀態(tài)識別。
(7)將識別的每天軌跡點(diǎn)中前后標(biāo)記發(fā)生變化的軌跡點(diǎn)及前后10個軌跡點(diǎn)標(biāo)記為道路軌跡點(diǎn),并放入訓(xùn)練樣本中。
(8)重復(fù)步驟(6)、(7),直至訓(xùn)練樣本數(shù)量不發(fā)生變化。
(9)根據(jù)時序關(guān)系和軌跡點(diǎn)類別劃分地塊。
對數(shù)據(jù)采用本文方法和DBSCAN方法分別做實(shí)驗,將軌跡點(diǎn)加載到地圖中,根據(jù)地圖中軌跡點(diǎn)位置和行駛軌跡,人工對軌跡點(diǎn)狀態(tài)進(jìn)行標(biāo)記。總軌跡點(diǎn)數(shù)為5 196 782,其中田間作業(yè)軌跡點(diǎn)數(shù)量為3 162 468,道路行駛軌跡點(diǎn)數(shù)量為2 034 314。軌跡點(diǎn)狀態(tài)識別結(jié)果如表1所示,其中田間作業(yè)軌跡點(diǎn)記為T,道路行駛軌跡點(diǎn)記為D。
表1 軌跡點(diǎn)狀態(tài)各方法識別結(jié)果Tab.1 Recognition results of each method of track point state
軌跡點(diǎn)識別正確的數(shù)量為田間軌跡點(diǎn)識別為田間軌跡點(diǎn)個數(shù)與道路軌跡點(diǎn)識別為道路軌跡點(diǎn)個數(shù)之和。軌跡點(diǎn)狀態(tài)識別準(zhǔn)確率P為
(7)
式中T11——田間作業(yè)軌跡點(diǎn)識別正確數(shù)量
T22——道路行駛軌跡點(diǎn)識別正確數(shù)量
T——軌跡點(diǎn)總數(shù)量
用DBSCAN算法對軌跡點(diǎn)狀態(tài)識別準(zhǔn)確率為93.35%,用DBSCAN+BP_Adaboost算法對軌跡點(diǎn)狀態(tài)識別準(zhǔn)確率為96.75%。因此本文算法得到的軌跡點(diǎn)狀態(tài)識別準(zhǔn)確率高于DBSCAN算法。
當(dāng)DBSCAN算法選取不同參數(shù)時,軌跡點(diǎn)識別準(zhǔn)確率如圖4所示。
圖4 不同參數(shù)下兩算法軌跡點(diǎn)識別準(zhǔn)確率Fig.4 Accuracy of two methods for track point recognition under different parameters
由圖4可以看出,本文方法依托于DBSCAN算法,走勢和DBSCAN算法有相關(guān)性,整體優(yōu)于DBSCAN算法,并且準(zhǔn)確率變化受參數(shù)影響小于DBSCAN算法。
使用密度聚類方法識別軌跡點(diǎn)狀態(tài)的同時,根據(jù)點(diǎn)簇聚集關(guān)系劃分不同地塊。使用本研究方法得到軌跡點(diǎn)狀態(tài)后,需再按照地塊劃分步驟進(jìn)行劃分,得到地塊劃分效果如圖5所示。
圖5 不同算法劃分地塊效果圖Fig.5 Effect drawing of dividing plots by two methods
圖5中灰色點(diǎn)表示道路行駛軌跡點(diǎn),彩色點(diǎn)表示田間作業(yè)軌跡點(diǎn),不同顏色表示不同地塊。由 圖5a 可以看到,部分道路行駛軌跡點(diǎn)被識別為田間作業(yè)軌跡點(diǎn),下方綠色區(qū)域多個不同地塊被聚類成一個地塊。由圖5b可以看到,使用本文方法劃分地塊,準(zhǔn)確率高于只用DBSCAN算法。個別地塊緊鄰,由于閾值設(shè)置原因,DBSCAN算法無法將兩地塊區(qū)分。用本方法能識別出兩地塊間轉(zhuǎn)移行駛軌跡,進(jìn)而可以很好地精細(xì)劃分地塊。
地塊劃分錯誤分為4種類型:非地塊誤識別為地塊、地塊未被識別出、多個地塊被識別成一個地塊和一個地塊被識別成多個地塊。
其中,多個地塊被識別成一個地塊可以歸為地塊未被識別出;一個地塊被識別成多個地塊,可以歸為非地塊誤識別成地塊。
因此地塊識別準(zhǔn)確率R為
(8)
式中T0——識別正確的地塊數(shù)量
Tf——總地塊數(shù)量
錯誤識別量為
En=T1+T2
(9)
式中T1——非地塊誤識別成地塊和一個地塊被識別成多個地塊的數(shù)量
T2——地塊未被識別出和多個地塊被識別成一個地塊的數(shù)量
另外
Tf≤T0+T1+T2
(10)
由于錯誤識別的數(shù)量和作業(yè)地塊的數(shù)量沒有關(guān)聯(lián)性,因此地塊識別的準(zhǔn)確程度由地塊識別準(zhǔn)確率和錯誤識別個數(shù)組成。兩算法劃分地塊結(jié)果如表2所示。
表2 不同算法劃分地塊結(jié)果Tab.2 Results of dividing plots by two methods
由表2可知,由于非地塊區(qū)域為道路行駛軌跡點(diǎn),將道路行駛軌跡點(diǎn)誤識別為田間作業(yè)軌跡點(diǎn)會錯分成地塊,而道路行駛軌跡點(diǎn)識別正確仍舊是軌跡點(diǎn)而不是地塊,因此不存在非地塊識別為非地塊的數(shù)量。通過DBSCAN算法得到地塊識別準(zhǔn)確數(shù)為5 072,準(zhǔn)確率為95.63%,誤識別個數(shù)為592;通過DBSCAN+BP_Adaboost算法得到地塊識別準(zhǔn)確數(shù)為5 184,準(zhǔn)確率為97.74%,誤識別個數(shù)為339。因此在識別準(zhǔn)確率和誤識別個數(shù)方面,DBSCAN+BP_Adaboost算法都優(yōu)于DBSCAN聚類算法。
本文提出的先通過DBSCAN算法得到軌跡點(diǎn)類別,再對軌跡點(diǎn)通過BP_Adaboost算法訓(xùn)練,軌跡點(diǎn)狀態(tài)識別準(zhǔn)確率高于只使用DBSCAN算法,且省去了大量人工標(biāo)記的時間。后期有新農(nóng)機(jī)作業(yè)軌跡識別,可以直接使用本方法,適用性較強(qiáng)。地塊的劃分準(zhǔn)確率高于基于密度聚類方法,且錯分的地塊數(shù)量也少于基于密度聚類的方法。
(1)分析了農(nóng)機(jī)作業(yè)軌跡特征及軌跡點(diǎn)有用信息,選取農(nóng)機(jī)軌跡點(diǎn)經(jīng)緯度、速度、近鄰點(diǎn)關(guān)系等作為特征,實(shí)驗證明特征有效。
(2)利用DBSCAN算法對農(nóng)機(jī)軌跡點(diǎn)聚類,得到帶類別標(biāo)記的田間作業(yè)軌跡點(diǎn)和道路行駛軌跡點(diǎn);再用BP_Adaboost算法建立訓(xùn)練模型對農(nóng)機(jī)軌跡點(diǎn)進(jìn)行識別;將容易誤識別的道路和田間交界處附近軌跡點(diǎn)標(biāo)記為道路行駛軌跡點(diǎn),并添加到訓(xùn)練樣本中重復(fù)訓(xùn)練,直至訓(xùn)練樣本不再增加。軌跡點(diǎn)狀態(tài)識別準(zhǔn)確率達(dá)到96.75%,較DBSCAN算法有很大提升。
(3)本文算法劃分地塊較DBSCAN算法聚類后得到的地塊更準(zhǔn)確,錯分的地塊數(shù)量更少。無需對樣本標(biāo)記,節(jié)省大量人力,并且對新農(nóng)機(jī)作業(yè)軌跡有適用性。