土壤污染場地多無人車的路徑規(guī)劃與運(yùn)輸任務(wù)分配算法

2023-09-25 11:59金冰慧孫陽吳文君翟夢荻高強(qiáng)司鵬搏

環(huán)境工程技術(shù)學(xué)報(bào) 2023年5期

金冰慧，孫陽，吳文君，翟夢荻，高強(qiáng)，司鵬搏

北京工業(yè)大學(xué)信息學(xué)部

隨著我國城市化進(jìn)程的加快和產(chǎn)業(yè)的調(diào)整升級，焦化廠等重污染企業(yè)逐漸搬離或關(guān)停[1-2]，污染場地的修復(fù)和治理工作刻不容緩。土壤修復(fù)技術(shù)成為日益關(guān)注的焦點(diǎn)[3]，用于土壤修復(fù)的智能化設(shè)備創(chuàng)新與研發(fā)也勢在必行[4-5]。近年來，人工智能技術(shù)不斷發(fā)展，其在環(huán)境監(jiān)測與治理場景中的應(yīng)用越來越廣泛[6-7]?？紤]到焦化場地的多環(huán)芳烴等典型污染物性質(zhì)穩(wěn)定難以降解，又對人體有極大的危害[8-9]，為了提高運(yùn)輸污染土壤的安全性和效率，采用智能化的無人設(shè)備進(jìn)行污染土壤修復(fù)工作具有重要意義。隨著科學(xué)技術(shù)的發(fā)展，智能無人車（unmanned ground vehicle，UGV）已經(jīng)被應(yīng)用在醫(yī)療、軍事、交通、采礦、農(nóng)業(yè)等領(lǐng)域以進(jìn)行探測、搜索、救援和運(yùn)輸任務(wù)[10-11]，在危險(xiǎn)環(huán)境中利用無人車進(jìn)行工作已是大勢所趨。

在多無人車協(xié)同進(jìn)行土壤污染場地受污染土壤的運(yùn)輸工作中，為保證多無人車安全、高效、精準(zhǔn)地運(yùn)輸污染土壤，需要根據(jù)土壤污染場地具體的地形地貌特點(diǎn)建立多無人車路徑規(guī)劃和任務(wù)分配模型。在路徑規(guī)劃方面，對于傳統(tǒng)的路徑規(guī)劃算法[12-13]，如A*、人工勢場等，面對場地規(guī)模和運(yùn)輸任務(wù)數(shù)量的增加時(shí)，這些算法的實(shí)時(shí)性和穩(wěn)定性會變差。對于包括蟻群優(yōu)化(ant colony optimization,ACO)[14]、粒子群優(yōu)化(particle swarm optimization,PSO)[15]、遺傳算法(genetic algorithm,GA)[16]在內(nèi)的智能算法雖具有處理復(fù)雜路徑規(guī)劃問題的自學(xué)習(xí)和自我更新能力，但由于其算法計(jì)算復(fù)雜度較高，很容易陷入局部最優(yōu)解。近年來，深度強(qiáng)化學(xué)習(xí)(DRL)算法已廣泛應(yīng)用于無人車的路徑規(guī)劃之中[17-18]，通過不斷訓(xùn)練無人車與土壤污染環(huán)境的交互過程，持續(xù)優(yōu)化網(wǎng)絡(luò)參數(shù)并輸出最優(yōu)路徑?jīng)Q策。在任務(wù)分配方面，傳統(tǒng)的解決方法包括利用拍賣算法[19]、匈牙利算法[20]、遺傳算法[21]等進(jìn)行任務(wù)分配，但大多數(shù)研究往往專注于已知路徑開銷下任務(wù)分配問題的求解，并沒有考慮路徑規(guī)劃對系統(tǒng)開銷的影響。

本文以某一污染嚴(yán)重的焦化廠為研究環(huán)境，設(shè)計(jì)多無人車智能運(yùn)輸模型，集自動導(dǎo)航、路徑規(guī)劃與協(xié)同調(diào)度等技術(shù)于一體，對污染土壤運(yùn)輸過程實(shí)施精準(zhǔn)控制和智能優(yōu)化，提高修復(fù)效率。在土壤污染場地多無人車協(xié)同運(yùn)輸?shù)墓ぷ鲌鼍跋?，考慮了土壤污染場地的復(fù)雜地形地貌特點(diǎn)和實(shí)際系統(tǒng)開銷，設(shè)計(jì)了基于深度雙Q 網(wǎng)絡(luò) (double deep q-network,DDQN)和ACO 算法的多無人車路徑規(guī)劃和任務(wù)調(diào)度機(jī)制以提高污染土壤運(yùn)輸效率。首先，利用車聯(lián)網(wǎng)技術(shù)構(gòu)建多無人車系統(tǒng)以實(shí)現(xiàn)各無人車以及中央控制器間的有效通信，并建立運(yùn)輸場景下的多無人車路徑規(guī)劃和任務(wù)分配組合優(yōu)化問題模型；再分別利用DDQN 和ACO 算法進(jìn)行路徑?jīng)Q策優(yōu)化和任務(wù)執(zhí)行序列優(yōu)化。充分考慮特殊應(yīng)用環(huán)境和車聯(lián)網(wǎng)系統(tǒng)的特點(diǎn)，對復(fù)雜環(huán)境下無人車路徑規(guī)劃和協(xié)同優(yōu)化問題進(jìn)行研究，以期為今后在污染環(huán)境修復(fù)、災(zāi)后營救、礦區(qū)開采等特殊環(huán)境下的多無人車協(xié)同工作提供參考。

1 土壤污染場地多無人車協(xié)同調(diào)度與路徑規(guī)劃問題模型

1.1 運(yùn)輸任務(wù)場景

針對土壤污染場地中的多無人車污染土壤運(yùn)輸場景（圖1）進(jìn)行研究，該場景中主要包含崎嶇起伏的土壤污染場地、處理中心、若干運(yùn)輸無人車、若干存儲待運(yùn)輸?shù)奈廴就寥蓝训娜蝿?wù)節(jié)點(diǎn)以及障礙物等。主要利用多無人車將所有待處理的污染土壤運(yùn)輸?shù)教幚碇行慕y(tǒng)一進(jìn)行處理，其中多個(gè)無人車統(tǒng)一由處理中心出發(fā)至各任務(wù)節(jié)點(diǎn)，裝載并運(yùn)輸污染土壤，最終回到處理中心。為方便對多無人車的控制以及進(jìn)行車輛之間的通信，基于車聯(lián)網(wǎng)技術(shù)建立多無人車系統(tǒng)。首先，在網(wǎng)絡(luò)中選取一個(gè)節(jié)點(diǎn)作為集中控制器，集中控制器不僅可以利用車聯(lián)網(wǎng)的無線通信技術(shù)與多輛無人車進(jìn)行通信，還可以用于集中收集和分析環(huán)境、任務(wù)以及無人車的數(shù)據(jù)信息，并利用這些信息訓(xùn)練和優(yōu)化系統(tǒng)模型。土壤污染場地中的多無人車可以利用定位和感知技術(shù)收集其周圍一定范圍內(nèi)的環(huán)境和任務(wù)信息，并通過無線通信技術(shù)將收集到的信息上傳至集中控制器。集中控制器對接收到的各無人車的局部信息進(jìn)行整合分析，利用這些數(shù)據(jù)訓(xùn)練模型。最后，集中控制器將路徑規(guī)劃和任務(wù)分配模型輸出的各無人車最優(yōu)動作決策以及執(zhí)行任務(wù)序列分發(fā)給對應(yīng)無人車執(zhí)行，以減少系統(tǒng)開銷，提升運(yùn)輸效率。

圖1 多UGV 智能運(yùn)輸任務(wù)場景Fig.1 Multi-UGV intelligent transportation task scenario

由于雨水的侵蝕和地表水結(jié)構(gòu)的變化，土壤污染場地的地面通常崎嶇不平，大量廢棄污染物長期覆蓋在土地表面，產(chǎn)生的有毒酸堿性物質(zhì)滲入土壤，導(dǎo)致土壤性狀產(chǎn)生變化。因此，為了建立合理的環(huán)境模型，利用柵格法將環(huán)境劃分為規(guī)則若干柵格，對每個(gè)柵格賦予信息表示其地形情況，建立基于地勢的三維環(huán)境模型。多UGV 運(yùn)輸場景中的UGV 和任務(wù)具有不同的標(biāo)識。將M個(gè)UGV 集合表示為M={1,2,···,M}，N個(gè)運(yùn)輸任務(wù)集合表示為T={T1,T2,···,TN}，假設(shè)各UGV 的裝載量相同，所有運(yùn)輸任務(wù)量相同，每個(gè)UGV 的單次最大裝載的任務(wù)數(shù)量為g，每個(gè)UGV 被分配執(zhí)行的任務(wù)集合可表示為 Tm，UGVm被分配的運(yùn)輸任務(wù)的數(shù)量表示為nm。

規(guī)定UGV 每次動作由當(dāng)前柵格中心移動至下一柵格的中心，且動作被限制在以90°分隔的前、后、左、右4 個(gè)方向。由于土壤污染場地環(huán)境地形表面并不平坦，考慮實(shí)際情況，當(dāng)相鄰2 個(gè)柵格間的地形坡度較大時(shí)，為了安全UGV 可能選擇繞路。定義坡度為當(dāng)前柵格與下一柵格的中點(diǎn)高度連線與水平方向的夾角，用 α表示。UGV 在環(huán)境中單步行駛的速度v與坡度有關(guān)，當(dāng)UGV 從高度較高的柵格移動到較低的柵格或從高度較低的柵格移動到較高的柵格時(shí)，UGV 將以比在平坦地形中更低的速度行駛更長時(shí)間。

1.2 優(yōu)化問題建模

對于任意任務(wù)Tj、Tk，（Tj,Tk∈T ），用 ξjk(Pjku)表示UGV 從任務(wù)Tj到Tk的第u條路徑所用的時(shí)間，對每個(gè)任務(wù)Tj都有 ξjj=0 。設(shè)σjkm:T×T×M →{0,1}為任務(wù)分配標(biāo)識，它將起始和結(jié)束位置的索引Tj、Tk和m(U GVm∈M)之間的關(guān)系映射為一個(gè)二進(jìn)制值，當(dāng)且僅當(dāng)指定 UGVm在任務(wù)Tj和Tk之間移動時(shí)，該值為1，否則為0。對于所有Tj和m，存在 σjjm=0，為了更好地描述約束，定義了一個(gè)映射χjm:T×M →{0,1}，將任務(wù)Tj與 UGVm映射為一個(gè)二進(jìn)制值，當(dāng)且僅當(dāng)指定U GVm服務(wù)于任務(wù)Tj時(shí)，該值為1，否則為0。

為提高污染土壤運(yùn)輸效率，縮短運(yùn)行周期，土壤污染場地場景下多UGV 的路徑規(guī)劃和任務(wù)分配策略以最小化多UGV 的總時(shí)間開銷為優(yōu)化目標(biāo)，且必須滿足一些約束條件以保證路徑規(guī)劃和任務(wù)分配的有效性，優(yōu)化目標(biāo)可建模如下：

滿足約束條件

其中：式(4)為每個(gè)任務(wù)由且僅由一個(gè)UGV 完成；式(5)和式(6)確保到達(dá)和離開相同的任務(wù)的是同一個(gè)UGV；式(7)為每個(gè)UGV 的總運(yùn)輸任務(wù)量不大于其最大裝載量；式(8)為每個(gè)UGV 運(yùn)輸?shù)娜蝿?wù)不重復(fù)；式(9)為M個(gè)UGV 共同完成N個(gè)運(yùn)輸任務(wù)。上述問題是一個(gè)具有無窮解集的組合優(yōu)化問題，無法通過簡單窮舉來解決，因此很難求解。

2 DDQN-ACO 路徑規(guī)劃和任務(wù)分配算法

針對上述土壤污染場地的多UGV 路徑規(guī)劃和任務(wù)分配的組合優(yōu)化問題，筆者提出了一種DDQNACO 路徑規(guī)劃和任務(wù)分配算法來求解此問題。首先將原問題分解為路徑規(guī)劃和任務(wù)分配子問題分別進(jìn)行求解。利用基于DDQN 的路徑規(guī)劃算法來獲得各任務(wù)節(jié)點(diǎn)間的最優(yōu)路徑和實(shí)際路徑開銷，并基于此開銷矩陣，使用ACO 算法解決多UGV 的任務(wù)分配問題。

2.1 基于DDQN 的路徑規(guī)劃算法

2.1.1 建立MDP 模型

土壤污染場地的多UGV 路徑規(guī)劃問題可以看作是UGV 和土壤污染環(huán)境間一個(gè)連續(xù)的交互過程，可以利用深度強(qiáng)化學(xué)習(xí)算法進(jìn)行求解。馬爾可夫決策過程(Markov decision process,MDP)通?？梢杂脕砻枋錾疃葟?qiáng)化學(xué)習(xí)問題。本文中UGV 可以獲取污染環(huán)境地形、環(huán)境邊界、障礙物位置等信息作為動作選擇的依據(jù)，因此，可以將三維環(huán)境中的UGV 路徑規(guī)劃問題建模為MDP 模型。MDP 模型(S,A,R,γ) 包含狀態(tài)空間 S，動作空間 A、獎勵(lì)函數(shù)R和折扣因子 γ。狀態(tài)空間 S由UGV 的全局環(huán)境信息 G、當(dāng)前位置信息su和目標(biāo)位置信息sg構(gòu)成。UGV 在任意時(shí)刻的狀態(tài)可表示為st=(G,su,sg)∈S。動作{空間 A表示UGV 的} 4 個(gè)移動方向，表示為A=前進(jìn),后退,左轉(zhuǎn),右轉(zhuǎn)。γ 為折扣系數(shù)，γ ∈[0,1]，用于描述未來獎勵(lì)函數(shù)的重要性。R為獎勵(lì)函數(shù)，指UGV 在采取動作后獲得的獎勵(lì)。在路徑規(guī)劃訓(xùn)練過程中，獎勵(lì)函數(shù)的設(shè)計(jì)非常重要。為了行車安全，UGV 應(yīng)避開障礙物；為了提高系統(tǒng)的運(yùn)輸效率，應(yīng)該結(jié)合地形因素，縮短UGV 到達(dá)目標(biāo)的時(shí)間，以節(jié)省系統(tǒng)開銷。因此，將獎勵(lì)函數(shù)設(shè)置為：

式中：r1為當(dāng)UGV 到達(dá)目標(biāo)時(shí)獲得的獎勵(lì)；-r2為UGV 遇到障礙物時(shí)的懲罰。

2.1.2 DDQN 算法

DDQN 是一種典型的深度強(qiáng)化學(xué)習(xí)算法，由評估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)構(gòu)成（圖2）。DDQN 算法在訓(xùn)練過程中，通過將2 個(gè)神經(jīng)網(wǎng)絡(luò)輸出的差值作為誤差進(jìn)行反向傳播，優(yōu)化每個(gè)神經(jīng)元的權(quán)值，使誤差最小化。

圖2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程Fig.2 Neural network training process

UGV 利用 ε-greedy策略來選擇動作at=，通過執(zhí)行動作at獲得相應(yīng)的獎勵(lì)Rt并進(jìn)入下一個(gè)狀態(tài)st+1。將(st,at,Rt,st+1)存儲在記憶庫中，神經(jīng)網(wǎng)絡(luò)從記憶庫中隨機(jī)取部分樣本進(jìn)行訓(xùn)練。為了提高預(yù)測精度，目標(biāo)網(wǎng)絡(luò)Q值更新如下：

式中：Rt為t時(shí)刻的即時(shí)獎勵(lì)；st+1為下一時(shí)刻的狀態(tài)；θ為評估網(wǎng)絡(luò)的參數(shù)；θ-為目標(biāo)網(wǎng)絡(luò)的參數(shù)。其損失函數(shù)為 Loss(θ)=E{[φt-Q(st,at;θ)]2}。經(jīng)過一段時(shí)間的訓(xùn)練后，得到土壤污染場地中任意2 個(gè)任務(wù)Tj和Tk之間的最優(yōu)路徑和路徑開銷，并生成開銷矩陣 L：

2.2 基于ACO 的多UGV 任務(wù)分配模型

2.2.1 運(yùn)輸任務(wù)分配模型

在土壤污染場地多UGV 的運(yùn)輸任務(wù)分配模型中，所有UGV 從同一個(gè)處理中心出發(fā)，到各任務(wù)點(diǎn)運(yùn)輸污染土壤并返回處理中心（圖3）?；贒DQN路徑規(guī)劃算法獲得的開銷矩陣 L，可將原組合優(yōu)化問題轉(zhuǎn)化為任務(wù)分配問題：

圖3 任務(wù)分配模型Fig.3 Task assignment model

式（13）滿足式(4)、式(7)～(9)的約束條件。這是一個(gè)典型的多旅行商問題（mTSP），可采用ACO 算法進(jìn)行求解。

2.2.2 ACO 算法

ACO 算法是一種群體智能優(yōu)化算法，由Colorni 等人于1991 年首次提出[22]。該算法通過模擬真實(shí)蟻群選擇路徑，尋找食物源和巢穴之間的最短路徑。在覓食過程中，螞蟻會沿著路徑釋放出一種可以被其他螞蟻檢測到的信息素。當(dāng)越多的螞蟻通過這條路線時(shí)，會積累更多的信息素。隨著信息素濃度不斷更新，信息素將吸引更多螞蟻前往更短的路線[23]。利用ACO 算法解決多UGV 任務(wù)分配問題的步驟如下。

式中：?為信息素因子；β為啟發(fā)式因子；Tq為Tj的未訪問任務(wù)集；τjk為路徑(Tj,Tk)上的信息素濃度；ηjk為啟發(fā)式信息。持續(xù)根據(jù)式（14）選擇 Tq中的下一個(gè)任務(wù)，直到 Tq為空。

此外，為了更好地探索全局最優(yōu)解，使用2-opt方法來優(yōu)化每個(gè)UGV 的局部任務(wù)序列 Tm[24]。重復(fù)上述步驟不斷迭代并更新信息素[25]，最終輸出當(dāng)前的最優(yōu)任務(wù)分配策略。

3 結(jié)果與分析

3.1 仿真設(shè)置

為驗(yàn)證所述DDQN-ACO 算法在土壤污染場地進(jìn)行污染土壤運(yùn)輸任務(wù)的有效性，基于python 語言編程建立虛擬仿真環(huán)境進(jìn)行試驗(yàn)和分析。模擬仿真土壤污染環(huán)境設(shè)置為150 m×150 m 的正方形區(qū)域，劃分為30×30 個(gè)柵格，環(huán)境的高度區(qū)間以 λ=0.5 m為單位區(qū)間進(jìn)行劃分，并用不同顏色表示不同的高度間隔（圖4）。在該仿真環(huán)境中設(shè)置1 個(gè)處理中心C，4 個(gè)UGV 和12 個(gè)待運(yùn)輸任務(wù)，設(shè)UGV 最大裝載量可以運(yùn)輸3 個(gè)任務(wù)。DDQN 神經(jīng)網(wǎng)絡(luò)的參數(shù)如表1 所示。使用ACO 算法進(jìn)行任務(wù)分配中涉及的主要參數(shù)如下：信息素的揮發(fā)率 ρ為0.03，信息素因子 ?為1，啟發(fā)式因子 β為3，最大迭代次數(shù)為50，每次迭代隨機(jī)生成的決策數(shù)量為200，2-opt 方法的迭代次數(shù)為20。

表1 神經(jīng)網(wǎng)絡(luò)的參數(shù)Table 1 Parameters of neural network

圖4 仿真環(huán)境示意Fig.4 Simulation environment diagram

為驗(yàn)證本文提出的DDQN-ACO 算法的性能，提出以下比較方案：1）Manhattan-ACO，使用ACO 算法根據(jù)任意2 個(gè)任務(wù)之間的曼哈頓距離進(jìn)行任務(wù)分配；2）DDQN-greedy，使用貪婪算法根據(jù)DDQN 訓(xùn)練得到的所有運(yùn)輸任務(wù)間的實(shí)際路徑開銷進(jìn)行任務(wù)分配。

3.2 仿真結(jié)果

基于上述仿真環(huán)境及算法進(jìn)行學(xué)習(xí)和訓(xùn)練，利用DDQN 算法訓(xùn)練UGV 在土壤污染場地中不斷探索學(xué)習(xí)，最終得到UGV 在處理中心和各運(yùn)輸任務(wù)兩兩之間的路徑開銷并生成開銷矩陣，再基于開銷矩陣進(jìn)行任務(wù)分配。表2 顯示了基于不同算法得到的每個(gè)UGV 的具體任務(wù)分配策略和路徑對應(yīng)的時(shí)間開銷。由表2 可見，基于DDQN-ACO 算法得到的總路徑開銷為347.50 s，基于Manhattan-ACO、DDQNgreedy 算法得到的路徑開銷分別為362.50、413.75 s?；贒DQN-ACO 算法得到的路徑開銷明顯低于其他算法，與Manhattan-ACO 和DDQN-greedy 算法相比，本文所提算法在系統(tǒng)時(shí)間開銷上分別提升了4.1%和16%。其次，在任務(wù)分配結(jié)果中可以看到每個(gè)UGV 被分配執(zhí)行的任務(wù)序列起始點(diǎn)均為C，這表明每個(gè)UGV 都是由處理中心出發(fā)，最終將焦化廠內(nèi)的污染土壤運(yùn)輸?shù)教幚碇行模项A(yù)期設(shè)定與實(shí)際運(yùn)輸流程。

表2 不同算法下的任務(wù)分配結(jié)果Table 2 Task assignment results under different algorithms

由算法的任務(wù)分配和路徑規(guī)劃結(jié)果（圖5）可見，DDQN 訓(xùn)練的路徑可以成功地避開障礙物和地勢較高或較低的區(qū)域，最終找到相對平坦安全的路徑。這是因?yàn)樵O(shè)計(jì)在DDQN 路徑規(guī)劃算法時(shí)考慮了地形因素對系統(tǒng)時(shí)間開銷的影響，對UGV 行駛過程中碰到障礙物和高度差較大的區(qū)域時(shí)設(shè)置了較大的懲罰，經(jīng)過一段時(shí)間的探索和訓(xùn)練，UGV 學(xué)習(xí)了這些規(guī)律，并最終形成平坦的路徑。所以，與圖5(d)相比，基于DDQN-ACO 算法獲得的圖5(b)的路徑更平坦，減少了上坡和下坡情況?；贏CO 算法進(jìn)行任務(wù)分配時(shí)，蟻群經(jīng)過多次迭代保留最優(yōu)分配策略，因此，與圖5(f)相比，基于DDQN-ACO 算法的任務(wù)分配策略對應(yīng)的各UGV 路徑更加均衡。

通過表2 和圖5 可以看出，相對于另外2 個(gè)對比算法，DDQN-ACO 算法獲得的路徑、任務(wù)分配策略和總開銷均為最優(yōu)。這是因?yàn)榕cManhattan-ACO算法相比，DDQN-ACO 算法使用了從訓(xùn)練中獲得的實(shí)際路徑開銷，這更接近實(shí)際的駕駛情況；與DDQN-greedy 算法相比，基于蟻群優(yōu)化算法得到的任務(wù)分配策略比基于貪婪算法得到的任務(wù)分配更加均衡和高效。

在UGV 不同裝載任務(wù)量的情況下DDQNACO 和另外2 種比較算法的系統(tǒng)時(shí)間開銷如圖6 所示。由圖6 可以看出，隨著UGV 裝載任務(wù)量的增加，系統(tǒng)時(shí)間開銷整體呈現(xiàn)降低趨勢，這表明UGV 的裝載任務(wù)量越大，單次能運(yùn)輸?shù)奈廴就寥栏?，有效地減少了往返處理中心的路徑，節(jié)省了UGV 運(yùn)輸系統(tǒng)的時(shí)間開銷，提高了運(yùn)輸效率。此外，與其他2 種算法相比，隨著UGV 的裝載量的變化，由DDQN-ACO 算法產(chǎn)生的系統(tǒng)時(shí)間開銷始終保持最低。

圖6 不同UGV 最大裝載任務(wù)量對系統(tǒng)時(shí)間開銷的影響Fig.6 Impact of different UGV maximum loading tasks on system time cost

基于上述結(jié)果可以驗(yàn)證無人車在土壤污染環(huán)境中進(jìn)行運(yùn)輸任務(wù)的可行性和高效性，結(jié)合已有研究利用無人車或智能機(jī)器人進(jìn)行自動化工作的場景，如在碼頭裝卸運(yùn)輸[26]、火車零件檢測[27]、煤礦巡檢運(yùn)輸[28]等，同樣證明了利用無人車、機(jī)器人等智能設(shè)備能夠節(jié)約人力成本，提高任務(wù)執(zhí)行效率，可為行業(yè)帶來更多的經(jīng)濟(jì)效益。

4 結(jié)論

（1）針對土壤污染場地中多智能無人車協(xié)同運(yùn)輸工作場景，綜合考慮了土壤污染場地的地形地貌特點(diǎn)和無人車實(shí)際路徑開銷，設(shè)計(jì)了基于深度強(qiáng)化學(xué)習(xí)和蟻群優(yōu)化算法的DDQN-ACO 算法，實(shí)現(xiàn)了集路徑規(guī)劃和協(xié)調(diào)調(diào)度為一體的多無人車運(yùn)輸系統(tǒng)。

（2）以提升土壤污染場地?zé)o人車系統(tǒng)時(shí)間開銷為目標(biāo)，在不同裝載量情況下，提出的DDQNACO 算法與其他基于簡單的線性距離或基于貪婪算法得到的任務(wù)分配策略相比，系統(tǒng)時(shí)間開銷始終最低。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡