楊雯
(山東愛普電氣設(shè)備有限公司,山東 濟南 250101)
自動引導(dǎo)小車AGV(automatedguidedvehicle),是現(xiàn)代物流系統(tǒng)中的重要成員,它具有自動化集成度高、柔性好、可靠性高、自動導(dǎo)航運行、安裝便利及使用方便等特點。AGV的導(dǎo)航方式眾多,包括視覺導(dǎo)航、GPS導(dǎo)航、激光導(dǎo)航、磁帶導(dǎo)引。其中磁帶導(dǎo)引由于實現(xiàn)簡單,造價便宜,抗干擾能力強在工程領(lǐng)域應(yīng)用最廣。
本文設(shè)計的磁導(dǎo)航AGV由本體結(jié)構(gòu)、電氣控制單元和傳感器檢測單元三部分組成。AGV本體結(jié)構(gòu)為六輪式結(jié)構(gòu),由位于車體中部驅(qū)動單元的兩驅(qū)動輪和前后四個萬向輪組成。兩驅(qū)動輪由兩個步進電機通過差速驅(qū)動實現(xiàn)AGV直行、轉(zhuǎn)向、避障等運動。
電控單元中采用西門子S7-200系列PLCCPU224XP作為主控制器,用PTO脈沖輸出方式完成AGV加速啟動和減速停止時的步進電機控制,PWM脈沖輸出方式完成軌跡跟蹤時的電機控制。傳感器檢測單元由用于磁條路徑檢測的磁傳感器和用于避障的超聲波傳感器和接觸式防撞傳感器組成,其中磁傳感器為AGV的“眼睛”,通過讀取磁條獲取小車位置和偏移狀態(tài)信息,主控制單元通過對其所得到的信息進行分析,得到不同偏移狀態(tài)時的電機控制量,從而達到對AGV準(zhǔn)確控制的目的。
路徑跟蹤問題馬爾科夫建模強化學(xué)習(xí)是一類用于解決馬爾可夫決策過程MDP)問題的算法集合,需將目標(biāo)任務(wù)轉(zhuǎn)化為MDP問題才能應(yīng)用強化學(xué)習(xí)算法。包括4個部分的設(shè)計,分別為智能體、狀態(tài)空間、動作空間與獎勵函數(shù),智能體在本文中即為第一章所描述的AGV模型。
考慮到磁導(dǎo)航AGV通常只能得到磁感應(yīng)器中心點與磁條中心點的偏差距離這一外界信息。所以在感應(yīng)信息缺乏的情況下,若只利用傳感器當(dāng)前的觀測信號作為狀態(tài)表示,其狀態(tài)表示只能反映AGV車身一點與磁條的距離,并不能體現(xiàn)AGV車身方向與磁條路徑方向之間的夾角。上述問題也被稱為混淆狀態(tài)問題,該狀態(tài)表示不滿足馬爾科夫特性。于是考慮加入最近N步的歷史狀態(tài)共同構(gòu)建狀態(tài)表示。
由于AGV由轉(zhuǎn)向驅(qū)動輪驅(qū)動,因此對AGV的控制輸出為驅(qū)動輪轉(zhuǎn)動力矩與驅(qū)動輪轉(zhuǎn)向力矩,兩個力矩分別控制主動輪的轉(zhuǎn)速與方向。伺服電機可輸出的力矩范圍是比較大的,若直接使用輸出力矩大小作為智能體的動作輸出空間可能導(dǎo)致兩個問題,其一是由于連續(xù)的動作行為是被獨立隨機選擇的所以在訓(xùn)練的過程中智能體可能會連續(xù)輸出兩個差距較大的力矩值,這種情況可能會對電機的使用壽命造成影響,其二是智能體的動作空間越大其訓(xùn)練的時間也會越長,原因是導(dǎo)致探索的狀態(tài)空間變大了。
策略函數(shù)的更新使用了確定性策略梯度算法。確定性策略的梯度的存在,確定性策略梯度的提出避免了算法在動作空間上的積分計算,使得策略梯度的估計效率大大的超過了隨機策略梯度算法。與隨機策略不同的是確定性策略的動作輸出不存在隨機性,無法對狀態(tài)空間進行探索,所以在使用確定性策略算法時需要在輸出動作時加入隨機的探索噪音以實現(xiàn)對狀態(tài)空間的探索。
算法在應(yīng)用前需要進行一段時間的訓(xùn)練,并在算法收斂后結(jié)束該階段。最終得到的策略函數(shù)即為將當(dāng)前AGV的狀態(tài)輸入映射為動作輸出的路徑跟蹤控制器。訓(xùn)練階段結(jié)束后只保留策略函數(shù)部分作為AGV的路徑跟蹤控制器?;静襟E如下:(1)獲取AGV狀態(tài)信號st輸入到策略函數(shù)網(wǎng)絡(luò)中;(2)策略函數(shù)接收輸入狀態(tài)信號st后生成動作at作為輸出,在加入探索噪音后返回給AGV執(zhí)行;(3)AGV執(zhí)行動作at后得到獎勵rt與下一個狀態(tài)st+1,組合前一時刻狀態(tài)信號st并加入歷史信號后組成經(jīng)驗樣本e(St,at,rt,St+1)存儲到大小為1×10 4的經(jīng)驗緩存池中;(4)從經(jīng)驗緩存池中隨機采樣一個batch的經(jīng)驗樣本用于訓(xùn)練;(5)使用采樣的經(jīng)驗樣本,用式(12)計算損失函數(shù);(6)通過隨機梯度下降的優(yōu)化方法最小化損失函數(shù)來更新值函數(shù)逼近網(wǎng)絡(luò)QSt,at|()ω的參數(shù)ω;(7)通過確定性策略梯度算法式來更新策略函數(shù)網(wǎng)絡(luò)μst|()θ的參數(shù)θ。
仿真結(jié)果及分析路徑跟蹤仿真中使用了兩個半徑分別為6m與4m的圓弧連接3段直線作為跟蹤路徑。首先在訓(xùn)練階段中,考慮到磁條傳感器的寬度通常為20cm,其最大測量誤差為±10cm。所以將誤差允許范圍限定為±10cm,當(dāng)AGV的跟蹤誤差大于±10cm時則判定出軌并結(jié)束本次跟蹤任務(wù),將AGV重置為誤差在±10cm范圍內(nèi)的隨機初始狀態(tài),進入下次迭代。AGV每次出軌或是行駛完跟蹤路徑的全程則為一次完整的。在模型性能驗證中,AGV的起點坐標(biāo)為(9.9.0),初始誤差設(shè)置為0.1m,去除探索噪音只保留策略函數(shù)部分作為控制輸出。