国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強化學(xué)習(xí)技術(shù)的變電站巡檢機器人的路徑規(guī)劃研究

2021-06-26 00:49蔡志全韓永成
冶金動力 2021年3期
關(guān)鍵詞:卷積變電站神經(jīng)網(wǎng)絡(luò)

張 晶,蔡志全,韓永成,高 丹

(唐山工業(yè)職業(yè)技術(shù)學(xué)院,河北唐山 063202)

引言

隨著變電站巡檢機器人的技術(shù)的發(fā)展與進(jìn)步,變電站運維業(yè)務(wù)由傳統(tǒng)的人工逐漸向智能、自主的巡檢機器人過渡。現(xiàn)有變電站巡檢機器人一般情況下能夠完成變電站巡檢任務(wù),但是存在路徑規(guī)劃精準(zhǔn)度低、用時長等缺點。尤其是在現(xiàn)場環(huán)境發(fā)生變化、巡檢過程中存在障礙物時,機器人無法及時快速調(diào)整巡檢路線以順利完成巡檢任務(wù)。因此,對變電站巡檢機器人的路徑規(guī)劃進(jìn)行研究,對巡檢任務(wù)的完成乃至智能變電站的發(fā)展都有著至關(guān)重要的作用。要讓機器人能夠更好地發(fā)揮自主能動性,在外界干擾情況下仍能順利完成巡檢任務(wù),機器人必須具備在有障礙的環(huán)境下的自動規(guī)避障礙并繼續(xù)執(zhí)行任務(wù)的能力。

1 變電站巡檢機器人的路徑規(guī)劃常用方法

變電站智能巡檢機器人的技術(shù)核心是路徑規(guī)劃,即根據(jù)變電站內(nèi)的地圖信息和具體任務(wù)規(guī)劃一條從起始位置到目標(biāo)位置的最優(yōu)路徑。路徑規(guī)劃主要研究的問題有:

(1)主路徑問題,即由巡檢的起始點到目標(biāo)點之間的路徑。由于變電站內(nèi)部分電力設(shè)備位置為靜態(tài)固定,機器人的起始點、目標(biāo)點以及聯(lián)通路徑相對固定,對變電站內(nèi)部環(huán)境進(jìn)行全局路徑規(guī)劃。

(2)巡檢機器人的避障問題。當(dāng)機器人進(jìn)行巡檢任務(wù)時,應(yīng)能發(fā)現(xiàn)靜止或者動態(tài)的障礙物,并能將其繞開重新返回原始路徑或根據(jù)情況重新規(guī)劃路徑。

(3)最優(yōu)路徑問題。機器人執(zhí)行巡檢任務(wù)時路徑相對固定,最優(yōu)路徑問題主要集中在機器人遇礙時,即如何進(jìn)行避障和糾偏使得巡檢耗時最少、路徑最優(yōu)[1]。

目前國內(nèi)外對路徑規(guī)劃已進(jìn)行了大量的研究,路徑規(guī)劃的方法有很多種,主要分為經(jīng)典法、啟發(fā)式搜索法和人工智能算法。在已知環(huán)境條件下,利用這些方法對機器人的全局和局部路徑規(guī)劃尋找最優(yōu)路徑。其中經(jīng)典法分為:人工勢場法、柵格法、BUG 算法、路線圖等,啟發(fā)式搜索分為:A*、D*、RRT算法等[2]。人工智能算法是基于人類學(xué)習(xí)特點而延伸出的仿生智能算法,將算法與經(jīng)典算法融合衍生的算法主要有:神經(jīng)網(wǎng)絡(luò)、模糊邏輯、深度學(xué)習(xí)等。

由Khatib提出的人工勢能法開啟了科學(xué)家對路徑規(guī)劃問題研究的熱潮。圖1為人工勢能的算法模型,根據(jù)APF 的方法,假設(shè)在變電站構(gòu)建空間內(nèi)障礙物產(chǎn)生排斥力,目標(biāo)點則產(chǎn)生吸引力。當(dāng)巡檢移動機器人被放置在模型空間中,它會朝著具有吸引力的目標(biāo)點移動,并有效地避開了中間有排斥力的障礙物[2]。但是模型空間中當(dāng)排斥力與吸引力相同或者目標(biāo)點周圍的排斥力過大時,機器人就會在當(dāng)前位置停止,這是該算法的不足之處。此外變電站電力設(shè)備較多,使得環(huán)境中電磁干擾相對較大,勢能變化具有不確定性,會影響機器人路徑規(guī)劃的精度。

圖1 APF模型示意圖

啟發(fā)式搜索法也是一種經(jīng)典的路徑規(guī)劃算法,其中A*搜索算法是最經(jīng)典的方法之一,它由Dijikstra 算法擴展而來,并利用等代價搜索和啟發(fā)式搜索來有效地計算最佳優(yōu)先搜索方式,極大的節(jié)約了計算時間[3]。但在變電站內(nèi)環(huán)境過大時,算法所需的內(nèi)存就會非常的大。后續(xù)Anthony Stenz 對A*算法進(jìn)行了改進(jìn)形成了著名的D*算法,該算法能夠更新未知環(huán)境的地圖信息,并且在遇到新的障礙物時對路徑進(jìn)行重新規(guī)劃,即可以實現(xiàn)機器人在部分或者全部未知的動態(tài)環(huán)境中進(jìn)行路徑規(guī)劃。2016 年,史久根等人提出的改進(jìn)D*路徑規(guī)劃算法,該算法是在基CA 模型的基礎(chǔ)上對D*算法進(jìn)行改進(jìn),與D*算法相比,有效降低機器人角度變化的最小增量,并且縮短了運行時間[7],仿真結(jié)果如圖2 所示。

圖2 基于CA 模型改進(jìn)的D*算法

路徑規(guī)劃的經(jīng)典算法解決了基本問題,但是仍存在路徑耗時長、無法自主避障、巡檢路徑準(zhǔn)確性差等問題,尤其在未知環(huán)境條件下或者遇到障礙物時無法進(jìn)行自主路徑規(guī)劃。隨著人工智能技術(shù)和計算機技術(shù)的不斷發(fā)展,基于人類學(xué)習(xí)行為的智能算法也進(jìn)入了科學(xué)家的研究范疇,科學(xué)家們嘗試將經(jīng)典與智能算法結(jié)合,這種算法的融合對路徑規(guī)劃的耗時和精度上都有所提升。

近些年,深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)得到了很多學(xué)者的關(guān)注。2013 年,英國科研團(tuán)隊Deep Mind 提出了首個深度強化學(xué)習(xí)模型——深度Q 網(wǎng)絡(luò)(Deep Q Network,簡稱DQN)[4],經(jīng)過對該網(wǎng)絡(luò)的訓(xùn)練,在Atari競技游戲中打敗了人類選手。除了游戲領(lǐng)域外,學(xué)者們利用基本的深度強化網(wǎng)絡(luò)與其它算法結(jié)合,引出了新的概念和方法,并將其應(yīng)用于工程領(lǐng)域,取得了很多成果。Finn等結(jié)合采用深度強化學(xué)習(xí)應(yīng)于機器人抓取動作的預(yù)測,在研究訓(xùn)練機器人抓取策略的同時實現(xiàn)圖像預(yù)測算法的自監(jiān)督訓(xùn)練。此外深度強化學(xué)習(xí)在路徑規(guī)劃、自然語言處理、無人駕駛、軋鋼故障檢測等領(lǐng)域也有應(yīng)用。

深度強化學(xué)習(xí)被認(rèn)為是實現(xiàn)具備完全自主能力的人工智能的重要理論支撐。深度強化學(xué)習(xí)具有自監(jiān)督學(xué)習(xí)能力,可在復(fù)雜的環(huán)境中自主與周圍環(huán)境進(jìn)行交互。同時對決策和狀態(tài)也有強大的表現(xiàn)能力,可以在復(fù)雜的情況下作出決策。深度強化學(xué)習(xí)在路徑規(guī)劃方面最主要的優(yōu)勢在于其不依賴人工標(biāo)記軌跡,只需設(shè)置規(guī)劃原則如運行路徑最短、無障礙物碰撞和目標(biāo)點等,然后在虛擬試驗平臺或者現(xiàn)實環(huán)境中訓(xùn)練神經(jīng)網(wǎng)絡(luò)即可。但是深度強化學(xué)習(xí)在路徑規(guī)劃上仍也存在很多不足之處,如路徑規(guī)劃時效性差、遇障礙多次轉(zhuǎn)向等問題。本文為了提升路徑規(guī)劃的時效和準(zhǔn)確性,基于DQN 算法提出了一種改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)GNN 與Q 網(wǎng)絡(luò)相結(jié)合的深度強化學(xué)習(xí)算法,并對該算法模型進(jìn)行了仿真,結(jié)果表明該算法能有效地降低巡檢機器人路徑規(guī)劃時間,路徑規(guī)劃精準(zhǔn)度達(dá)到98.3%。

2 強化學(xué)習(xí)算法

強化學(xué)習(xí)方法中一種經(jīng)典有效的算法為QLearning 算法,因該算法具有簡單實用的特點,被廣泛應(yīng)用于機器人路徑規(guī)劃導(dǎo)航中。其基本形式如式(1)。

式中:s——狀態(tài);

a——狀態(tài)s中選擇的行為;

α——學(xué)習(xí)系數(shù);

r——行動得到的獎賞;

γ——比例系數(shù);

maxQ(s′,a′)——在下一個狀態(tài)中行動所取得的Q值最大值。

具體步驟:

初始化Q()

s,a為任意值;

初始化s為任意值;

根據(jù)貪婪策略執(zhí)行某一行為a,并轉(zhuǎn)移到新狀態(tài)s′;

根據(jù)更新規(guī)則更新上一狀態(tài)的Q值;

直到完成特定步數(shù)或者s達(dá)到終止?fàn)顟B(tài)。

強化學(xué)習(xí)算法流程見圖3。

圖3 強化學(xué)習(xí)算法流程

3 深度強化學(xué)習(xí)算法

在基于學(xué)習(xí)的方法中,可以利用深度學(xué)習(xí)在處理高維信息和強化學(xué)習(xí)處理復(fù)雜環(huán)境中連續(xù)決策的優(yōu)點,組成深度強化學(xué)習(xí)。利用雙目視覺攝像機采集環(huán)境信息,建立立體的檢測模型,并采用深度學(xué)習(xí)算法感知環(huán)境,以得到具體的狀態(tài)特征信息。利用強化學(xué)習(xí)進(jìn)行預(yù)期回報評判,然后通過動作策略將當(dāng)前的狀態(tài)映射到機器人的具體動作輸出。機器人在得到動作策略信號后進(jìn)行動作,之后雙目視覺采集到新的特征信息,以此不斷循環(huán),最終實現(xiàn)路徑的最優(yōu)化。深度強化學(xué)習(xí)算法是一種獨立于人為標(biāo)記的算法,該算法與環(huán)境進(jìn)行試錯交互,并且將巡檢機器人的狀態(tài)參數(shù)作為初始輸入,以動作值函數(shù)的估計值輸出作為自驅(qū)動,從而提升路徑規(guī)劃的快速精準(zhǔn)性。深度強化學(xué)習(xí)框架見圖4。

圖4 深度強化學(xué)習(xí)框架

由于巡檢過程中采集到的數(shù)據(jù)信息量大,本文設(shè)計的路徑規(guī)劃算法基于DQN 算法,將改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)GNN 與Q 網(wǎng)絡(luò)相結(jié)合。卷積神經(jīng)網(wǎng)絡(luò)是一種與人視覺神經(jīng)網(wǎng)絡(luò)非常類似的算法,當(dāng)神經(jīng)元層數(shù)達(dá)到一定數(shù)量的情況下就能給提取到巡檢現(xiàn)場的豐富信息。考慮到卷積神經(jīng)網(wǎng)絡(luò)計算耗時長的問題,對卷積神經(jīng)網(wǎng)絡(luò)加以改進(jìn),卷積層批量歸一化處理,以減少模型收斂時間,加快處理速度,同時連接層逐層縮小,以降低圖像匹配時間。改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)算法流程圖見圖5。

圖5 改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)算法流程圖

4 仿真研究分析

變電站的設(shè)備實際布局與地理環(huán)境等是固定的,在進(jìn)行分析過程中為了便于建立模型,同時也為了方便數(shù)據(jù)處理,只需將主要的環(huán)境和設(shè)備進(jìn)行識別建模,可以對變電站進(jìn)行平面分析,建立柵格進(jìn)行研究。改進(jìn)DQN 的路徑規(guī)劃算法流程圖見圖6。

圖6 改進(jìn)DQN的路徑規(guī)劃算法流程圖

圖7 是在10×10 柵格環(huán)境下分別采用普通DQN算法和本文所設(shè)計的改進(jìn)型DQN 算法做對比。在仿真分析過程中,黑色區(qū)域為機器人巡視過程中的障礙物及其自身膨脹處理后的障礙區(qū),普通DQN 算法和改進(jìn)型DQN算法的迭代次數(shù)都設(shè)置為100次。

圖7 兩種算法巡檢機器人路徑規(guī)劃仿真結(jié)果比較

通過圖7(a)所示經(jīng)過迭代學(xué)習(xí)最終得到的最優(yōu)路線基本相同,但是通過圖7(b)圖所示的兩種方法的收斂速度可以看出本文設(shè)計改進(jìn)型深度強化學(xué)習(xí)的學(xué)習(xí)速度更快,穩(wěn)定性更好。綜上,本文提出的改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)GNN 與Q 網(wǎng)絡(luò)相結(jié)合的深度強化學(xué)習(xí)算法能給更快的進(jìn)行巡路徑規(guī)劃,有效提高巡檢機器人路徑規(guī)劃的效率。

5 結(jié)論

結(jié)合變電站巡檢機器人路徑規(guī)劃問題特點,介紹了強化學(xué)習(xí)與深度學(xué)習(xí),并將兩種算法進(jìn)行了融合,研究了深度強化學(xué)習(xí)。針對DQN 算法提出了一種改進(jìn)型卷積神經(jīng)網(wǎng)絡(luò)GNN 與Q 網(wǎng)絡(luò)相結(jié)合的深度強化學(xué)習(xí)算法[5]。通過對改進(jìn)的DQN 算法進(jìn)行仿真,試驗結(jié)果表明在同樣的環(huán)境下進(jìn)行路徑規(guī)劃訓(xùn)練,改進(jìn)型算法能夠在較小的迭代次數(shù)下完成最優(yōu)路徑的規(guī)劃,表明該算法的收斂速度更快,更有效地節(jié)約巡檢用時。

猜你喜歡
卷積變電站神經(jīng)網(wǎng)絡(luò)
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
從濾波器理解卷積
關(guān)于變電站五防閉鎖裝置的探討
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
超高壓變電站運行管理模式探討
220kV戶外變電站接地網(wǎng)的實用設(shè)計
基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
變電站,城市中“無害”的鄰居