国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于DDPG的仿人形機器人仿真研究

2019-02-10 06:35
福建質(zhì)量管理 2019年24期
關(guān)鍵詞:正態(tài)分布標(biāo)準(zhǔn)差學(xué)習(xí)效果

(西華師范大學(xué)電子信息工程學(xué)院 四川 南充 637000)

一、前言

人形機器人步態(tài)控制是驗證各種機器學(xué)習(xí)算法的有效平臺,在現(xiàn)有各種機器學(xué)習(xí)算法中,為實現(xiàn)人形機器人學(xué)會穩(wěn)定行走,基于強化學(xué)習(xí)的步態(tài)控制算法取得了突破性成功[1]。通過強化學(xué)習(xí)的思想,讓人形機器人行走時連續(xù)的感知周圍環(huán)境,根據(jù)當(dāng)前狀態(tài)選擇最優(yōu)動作,最終訓(xùn)練出能使機器人穩(wěn)定行走的模型。Timothy等人提出的深度確定性策略梯度算法(DDPG,Deep Deterministic Policy Gradient)取得不錯的效果[2]。本文通過BipedalWalker-v2仿真環(huán)境驗證該算法,并對提高環(huán)境探索能力的正態(tài)分布噪聲的參數(shù)進行分析。

二、DDPG算法

DDPG結(jié)合DQN(Deep Q-Learning)算法中得緩沖回放模型和目標(biāo)網(wǎng)絡(luò)結(jié)構(gòu),緩沖回放將一些采樣樣本收集起來,每次優(yōu)化時從中隨機取出一部分進行優(yōu)化,從而減少一些不穩(wěn)定性。目標(biāo)網(wǎng)絡(luò)結(jié)構(gòu)使計算目標(biāo)價值的模型在一段時間內(nèi)被固定,從而減少模型的波動性。融合Actor-Critic算法的框架,建立Actor和Critic網(wǎng)絡(luò),Actor網(wǎng)絡(luò)用于與環(huán)境交互,并產(chǎn)生當(dāng)前策略,Critic網(wǎng)絡(luò)用來評估當(dāng)前策略。以及DPG(Deterministic Policy Gradient)算法的結(jié)論,可以用一個值函數(shù)模型來擬合目標(biāo)函數(shù)中得價值估計部分[3]。為提高對環(huán)境的探索能力,動作選取公式如式(1),N為正態(tài)分布噪聲。

(1)

DDPG算法流程如下:

首先初始化Actor網(wǎng)絡(luò)參數(shù)θ、θ’,Critic網(wǎng)絡(luò)參數(shù)ω、ω’,以及經(jīng)驗回放D,令ω'=ω,θ'=θ。

對每一個回合,循環(huán)以下步驟:

(1)初始化S為當(dāng)前狀態(tài)序列的第一個狀態(tài)S,拿到其特征向量φ(S);

(2)在Actor當(dāng)前網(wǎng)絡(luò)基于狀態(tài)S得到A=πθ(φ(S))+Ν;

(3)執(zhí)行動作A,得到新狀態(tài)S',獎勵R,判斷是否終止?fàn)顟B(tài),未終止,執(zhí)行(4);

(4)將{φ((S),A,R,φ((S'),is_end}存入在經(jīng)驗回放集合D中;

(5)從經(jīng)驗回放D中均勻采樣m個樣本{φ((Sj),Aj,Rj,φ((S'j),is_endj},j=1,2,…,m,并計算當(dāng)前目標(biāo)Q值yj:

yj=rj+γQ'(φ(S'j),πθ'(S'j),ω')

(2)

(8)更新目標(biāo)網(wǎng)絡(luò)參數(shù):

θ'←τθ+(1-τ)θ'

(3)

ω'←τω+(1-τ)ω'

(4)

(9)如果S'是終止?fàn)顟B(tài),當(dāng)前輪迭代完畢,否則轉(zhuǎn)到步驟(2)。

三、實驗數(shù)據(jù)與分析

本次研究仿真部分,使用ubuntu16.04操作系統(tǒng)和Sublime代碼編輯器,仿真環(huán)境是OpenAI的Gym環(huán)境,深度學(xué)習(xí)框架是TensorFlow。

(一)BipedalWalker-v2仿真環(huán)境

在Gym提供的BipedalWalker-v2環(huán)境中,機器人通過調(diào)整到比較好的姿態(tài)獲得更高的分?jǐn)?shù)。通過讀取場景的信息,環(huán)境狀態(tài)輸入部分有24個值,包括角速度,水平速度,垂直速度,關(guān)節(jié)位置,關(guān)節(jié)角速度,腿與地方接觸的位置,以及10個激光雷達測距儀測量等。每個值得范圍都是從負(fù)無窮到正無窮,反饋輸出的動作有4個值,每個值的范圍都是從-1到1,環(huán)境信息如表1所示[4]。

表1 BipedalWalker-v2的信息

(二)仿真結(jié)果

1.算法有效性

在BipedalWalker-v2環(huán)境中的學(xué)習(xí)效果如圖1所示,正態(tài)分布中標(biāo)準(zhǔn)差最大值為4,最小值為0.001,經(jīng)過1000輪的學(xué)習(xí)。可以取得較好的學(xué)習(xí)效果。

圖1 BipedalWalker-v2仿真結(jié)果

2.數(shù)據(jù)分析

當(dāng)標(biāo)準(zhǔn)差最大值一定時,改變標(biāo)準(zhǔn)差最小值,仿真結(jié)果如圖2所示。當(dāng)標(biāo)準(zhǔn)差初始值為4時,分別設(shè)定標(biāo)準(zhǔn)差最小值為0.01、0.001和0.0001,從圖中可以看到隨著訓(xùn)練次數(shù)的增加,獎勵最后趨于穩(wěn)定,當(dāng)標(biāo)準(zhǔn)差最小值為0.01時,在訓(xùn)練回合到3000時還是會有較大的波動,獎勵值沒有很好的收斂。標(biāo)準(zhǔn)差最小值為0.0001時,獎勵值雖然可以收斂,但是收斂值保持在30左右,沒有獲得較好的分?jǐn)?shù)。標(biāo)準(zhǔn)差的值為0.001時,獎勵值不僅可以收斂還能夠保持較高的分?jǐn)?shù)。這種現(xiàn)象說明,隨著訓(xùn)練次數(shù)的增加,機器人可以逐漸得到較高的獎勵,但是在已經(jīng)得到高獎勵的情況下,還是以較大的標(biāo)準(zhǔn)差來處理動作值,就會帶來較大的波動,同時若標(biāo)準(zhǔn)差的最小值設(shè)置過小,機器人在開始的學(xué)習(xí)中容易因為探索不夠,會需要更多的學(xué)習(xí)回合才能獲得較好的獎勵值。在訓(xùn)練過程中,隨著訓(xùn)練次數(shù)的增加,后期所用的都是標(biāo)準(zhǔn)差最小值,并且因為其獎勵隨訓(xùn)練回合數(shù)的曲線變化是呈鋸齒狀的,若標(biāo)準(zhǔn)差最小值過小,就很可能出現(xiàn)收斂在較小獎勵值的情況。

圖2 scale=4仿真結(jié)果

圖3 scale_min=0.001仿真圖

當(dāng)標(biāo)準(zhǔn)差最小值一定時,改變標(biāo)準(zhǔn)差最大值,仿真結(jié)果如圖3所示。從圖中可以看到,當(dāng)標(biāo)準(zhǔn)差初始值分別為3,4,5時,隨著訓(xùn)練次數(shù)的增加最后都可以收斂,但是它們最后的收斂值來看,標(biāo)準(zhǔn)差初始值為3時收斂值最小,標(biāo)準(zhǔn)差初始化值為4時收斂值在240左右,初始值為5時的收斂值在230左右,并且標(biāo)準(zhǔn)差為4時獎勵最大值相較其他兩種最大。標(biāo)準(zhǔn)差初始值主要是為了在開始訓(xùn)練的一段時間給機器人較大的動作選擇自由,能夠進行充分的探索,通過嘗試得到獲取高獎勵的經(jīng)驗,為后期的訓(xùn)練積累到好的學(xué)習(xí)經(jīng)驗。初始值過小會使得機器人還未能有一定的好的學(xué)習(xí)經(jīng)驗,但是隨著訓(xùn)練回合數(shù)的增加,給予機器人的自由會逐漸減少至0.001,從而導(dǎo)致它將很難再學(xué)習(xí)到更好的結(jié)果。初始值設(shè)置過大,即給予機器人的自由度過大,甚至遠遠超過DDPG模型中原本的動作選取策略,顯然會使DDPG模型的訓(xùn)練效果大打折扣。

從仿真結(jié)果可以得出標(biāo)準(zhǔn)差的最小值在很大程度上影響?yīng)剟钍欠袷諗浚瑯?biāo)準(zhǔn)差的初始值會影響收斂值的大小,它們都是DDPG模型的關(guān)鍵參數(shù)。調(diào)整好這兩個參數(shù)的大小,會決定是否能得到好的訓(xùn)練結(jié)果。

四、結(jié)束語

本文將深度確定性策略梯度算法用于人形機器人的步態(tài)研究,在BipedalWalker-v2環(huán)境中驗證該算法的可行性,驗證中發(fā)現(xiàn)該算法中,提高對環(huán)境探索能力的正態(tài)分布參數(shù)對于學(xué)習(xí)效果的影響很大,分別討論正態(tài)分布中的標(biāo)準(zhǔn)差和最小標(biāo)準(zhǔn)差對學(xué)習(xí)效果的影響,以及Batch Size的大小對于學(xué)習(xí)效果的影響,具有一定的參考意義。

猜你喜歡
正態(tài)分布標(biāo)準(zhǔn)差學(xué)習(xí)效果
疫情期間線上學(xué)習(xí)效果評價分析
“百詞斬”對于大學(xué)英語四級詞匯學(xué)習(xí)效果的實證研究
關(guān)于n維正態(tài)分布線性函數(shù)服從正態(tài)分布的證明*
基于學(xué)習(xí)性評價原則提高研究性學(xué)習(xí)效果的研究
用Pro-Kin Line平衡反饋訓(xùn)練儀對早期帕金森病患者進行治療對其動態(tài)平衡功能的影響
蓮心寶寶有話說
基于對數(shù)正態(tài)分布的出行時長可靠性計算
正態(tài)分布及其應(yīng)用
關(guān)于二維正態(tài)分布的一個教學(xué)注記
對于平均差與標(biāo)準(zhǔn)差的數(shù)學(xué)關(guān)系和應(yīng)用價值比較研究