国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)Q-學(xué)習(xí)的導(dǎo)航知識(shí)獲取算法研究

2011-01-23 09:25:42鄭炳文
科學(xué)之友 2011年4期
關(guān)鍵詞:模擬退火移動(dòng)機(jī)器人機(jī)器

鄭炳文

(勝利油田海洋采油廠,山東 東營 257000)

基于改進(jìn)Q-學(xué)習(xí)的導(dǎo)航知識(shí)獲取算法研究

鄭炳文

(勝利油田海洋采油廠,山東 東營 257000)

基本Q-學(xué)習(xí)算法總是利用當(dāng)前最優(yōu)策略進(jìn)行動(dòng)作的選取,這樣容易陷入局部最優(yōu)。文章在模擬退火強(qiáng)化學(xué)習(xí)基礎(chǔ)上提出了基于探索區(qū)域擴(kuò)張的Q-學(xué)習(xí),加入原地探索策略,提高了找到目標(biāo)的效率;引入了探索區(qū)域擴(kuò)張策略,避免了初始時(shí)在整個(gè)環(huán)境中加入探索的盲目性,提高了學(xué)習(xí)效率;加入算法的自主學(xué)習(xí)結(jié)束條件,避免了找到最優(yōu)路徑后的重復(fù)學(xué)習(xí),節(jié)省了學(xué)習(xí)時(shí)間。仿真實(shí)驗(yàn)驗(yàn)證了算法的有效性。

強(qiáng)化學(xué)習(xí);Q-學(xué)習(xí);探索區(qū)域擴(kuò)張;模擬退火;神經(jīng)網(wǎng)絡(luò)

1 機(jī)器學(xué)習(xí)背景

移動(dòng)機(jī)器人要在未知環(huán)境中安全、可靠地完成指定任務(wù),除了應(yīng)具有建模、定位、規(guī)劃、運(yùn)動(dòng)等基本能力外,還應(yīng)能夠處理各種突發(fā)情況,逐漸適應(yīng)環(huán)境,提高工作效率,這就要求其導(dǎo)航控制系統(tǒng)具有靈活性和適應(yīng)性。近年來,機(jī)器學(xué)習(xí)已成為人工智能和機(jī)器人學(xué)的一個(gè)研究熱點(diǎn),并且取得了不少突破性進(jìn)展,其中包括神經(jīng)網(wǎng)絡(luò)算法研究、模糊邏輯算法研究、進(jìn)化學(xué)習(xí)算法應(yīng)用研究、統(tǒng)計(jì)學(xué)習(xí)特別是支持向量機(jī)(Support Vector Machine,SVM)理論和算法研究、強(qiáng)化學(xué)習(xí)理論和算法研究等。上述機(jī)器學(xué)習(xí)理論和方法為復(fù)雜和未知環(huán)境中的信息提取、環(huán)境理解、任務(wù)規(guī)劃和行為決策提供了有效的解決途徑,應(yīng)用機(jī)器學(xué)習(xí)方法來實(shí)現(xiàn)未知環(huán)境中移動(dòng)機(jī)器人導(dǎo)航控制器的設(shè)計(jì)和優(yōu)化,已成為近年來移動(dòng)機(jī)器人導(dǎo)航控制技術(shù)的研究熱點(diǎn)。

2 機(jī)器學(xué)習(xí)在導(dǎo)航中的研究概況

隨著模糊邏輯方法和技術(shù)研究的進(jìn)展,應(yīng)用模糊邏輯方法實(shí)現(xiàn)移動(dòng)機(jī)器人的導(dǎo)航成為一個(gè)研究熱點(diǎn)。在基于模糊邏輯的移動(dòng)機(jī)器人導(dǎo)航方法中存在的另一個(gè)關(guān)鍵問題是參數(shù)的優(yōu)化和對(duì)環(huán)境的自適應(yīng)。雖然模糊規(guī)則的建立可以利用人類的語言知識(shí),但仍然有許多參數(shù)需要調(diào)整和優(yōu)化,才能獲得滿意的效果,而且一旦環(huán)境發(fā)生改變,模糊控制器往往缺乏自適應(yīng)和自學(xué)習(xí)的能力。

神經(jīng)網(wǎng)絡(luò)作為人工智能和機(jī)器學(xué)習(xí)研究的一個(gè)熱點(diǎn),已成功地應(yīng)用于模式識(shí)別、自適應(yīng)控制、系統(tǒng)辨識(shí)等領(lǐng)域。神經(jīng)網(wǎng)絡(luò)具有良好的非線性函數(shù)逼近能力和容錯(cuò)能力,且能夠?qū)崿F(xiàn)自適應(yīng)和學(xué)習(xí)?;谏窠?jīng)網(wǎng)絡(luò)的導(dǎo)航方法采用了神經(jīng)網(wǎng)絡(luò)的無監(jiān)督學(xué)習(xí)或監(jiān)督學(xué)習(xí)方法,其中無監(jiān)督學(xué)習(xí)方法僅能夠?qū)崿F(xiàn)對(duì)環(huán)境特征的自組織分類和識(shí)別,難以實(shí)現(xiàn)行為選擇的優(yōu)化,而監(jiān)督學(xué)習(xí)方法則要求構(gòu)造各種條件下的教師信號(hào),因此缺乏對(duì)未知和快速變化環(huán)境的自適應(yīng)能力。

進(jìn)化計(jì)算是模擬自然界生物進(jìn)化過程的一種計(jì)算智能方法,目前已在算法和理論上取得了大量的研究成果,并成功地應(yīng)用于組合優(yōu)化、自適應(yīng)控制、規(guī)劃設(shè)計(jì)、機(jī)器學(xué)習(xí)和人工生命等領(lǐng)域。利用進(jìn)化計(jì)算方法雖然可以實(shí)現(xiàn)移動(dòng)機(jī)器人導(dǎo)航控制器對(duì)環(huán)境的自適應(yīng)和優(yōu)化,但存在計(jì)算時(shí)間長、學(xué)習(xí)效率不高的缺點(diǎn)。

2.1 ε-greedy 策略

如果ka=0,就定義Qt(a)為默認(rèn)值,如Q0(a)=0,當(dāng)ka→∞時(shí),Qt(a)一定收斂于Q*(a)。因?yàn)槊看喂烙?jì)是相關(guān)回報(bào)抽樣的簡單的平均,因此稱此估計(jì)動(dòng)作值的方法為抽樣平均法。這只是估計(jì)動(dòng)作值的一種方法,不一定是最好的,下面討論怎樣用此估計(jì)來選擇動(dòng)作。

2.2 Boltzmann分布

這里T為溫度參數(shù)。溫度高時(shí),所有動(dòng)作概率接近相等。溫度低時(shí),動(dòng)作選擇概率由于它們的估計(jì)值的不同而存在很大不同。當(dāng)溫度趨近于0時(shí),軟最大化動(dòng)作選擇變?yōu)樨澙穭?dòng)作選擇。

2.3 基于Metropolis規(guī)則的Q-學(xué)習(xí)算法

模擬退火算法是求解組合優(yōu)化問題的有效近似算法,它是對(duì)固體退火過程的模擬。該算法是局部搜索算法的一種擴(kuò)展,解決優(yōu)化解陷入局部最小的情形,其核心是Metropolis準(zhǔn)則。模擬退火算法不是完全拒絕惡化解,因此,能夠跳出局部最優(yōu),避免陷入局部搜索。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境描述

實(shí)驗(yàn)環(huán)境為一個(gè)20×20的柵格世界,每個(gè)柵格代表智能體的一種狀態(tài)。S為智能體的初始點(diǎn),T為目標(biāo)點(diǎn),黑色區(qū)域?yàn)檎系K物。環(huán)境中的障礙物和目標(biāo)都是靜態(tài)的,對(duì)于智能體而言,環(huán)境(即障礙物、邊界以及目標(biāo)的位置)是未知的。以智能體為中心的二維空間內(nèi)平均分布8個(gè)運(yùn)動(dòng)方向,代表它的8個(gè)可選動(dòng)作。立即回報(bào) r為{-100,100,0},對(duì)應(yīng)條件為{碰到障礙物,到達(dá)目標(biāo),其他}。

3.2 實(shí)驗(yàn)結(jié)果分析

比較了3種算法的綜合指標(biāo),可以看出,環(huán)境越復(fù)雜,ERE-Q-learning算法的優(yōu)勢(shì)越明顯。

表1 搜索路徑總長度的降低率比較

4 結(jié)束語

通過討論 Q-學(xué)習(xí)算法中探索與利用之間的平衡問題,首先介紹了平衡探索和利用的各種算法,然后分析了這些算法的不足之處,最后在基于Metropolis準(zhǔn)則的Q-學(xué)習(xí)的基礎(chǔ)上,提出了基于探索區(qū)域擴(kuò)張的 Q-學(xué)習(xí)算法。此算法加入原地探索策略,提高了找到目標(biāo)的效率;引入了探索區(qū)域擴(kuò)張策略,避免了初始時(shí)在整個(gè)環(huán)境中加入探索的盲目性,提高了學(xué)習(xí)效率;加入算法的自主學(xué)習(xí)結(jié)束條件,避免了找到最優(yōu)路徑后的重復(fù)學(xué)習(xí),節(jié)省了學(xué)習(xí)時(shí)間,而且環(huán)境越復(fù)雜,越能體現(xiàn)該算法的優(yōu)越性。該算法的折算率、降溫率和最大限制步數(shù)還有必要進(jìn)一步優(yōu)化,以使算法具有更好的適應(yīng)性。

Based on Improves the Q-study the Guidance Knowledge Gain Algorithm Research

Zheng Bingwen

The basic Q-learning algorithm always uses the current most superior strategy to carry on the movement the selection, such easy to fall into is partially most superior.Article proposed in the simulation annealing strengthening study foundation based on explores the Q-study which the region expands, joins in-situ exploration strategy, enhanced has found the goal the efficiency; Introduced has explored the region expansion strategy, has avoided initial when joined the exploration in the entire environment blindness, enhanced the study efficiency;Joined the algorithm the independent study termination condition, after having avoided found the optimal choice the redundant study, has saved study time.The simulation experiment has confirmed the algorithm validity.

strengthened study; Q-study; explores the region expansion; simulation annealing; neural network

TP242

A

1000-8136(2011)06-0141-02

猜你喜歡
模擬退火移動(dòng)機(jī)器人機(jī)器
機(jī)器狗
移動(dòng)機(jī)器人自主動(dòng)態(tài)避障方法
機(jī)器狗
模擬退火遺傳算法在機(jī)械臂路徑規(guī)劃中的應(yīng)用
未來機(jī)器城
電影(2018年8期)2018-09-21 08:00:06
基于Twincat的移動(dòng)機(jī)器人制孔系統(tǒng)
基于模糊自適應(yīng)模擬退火遺傳算法的配電網(wǎng)故障定位
SOA結(jié)合模擬退火算法優(yōu)化電容器配置研究
無敵機(jī)器蛛
基于遺傳-模擬退火算法的城市軌道交通快慢車停站方案
南安市| 建昌县| 康马县| 屏东县| 达孜县| 贵溪市| 岫岩| 新郑市| 高台县| 孙吴县| 乐至县| 五寨县| 福州市| 灵山县| 普安县| 西乌| 安顺市| 定边县| 收藏| 达尔| 台东县| 白沙| 天全县| 栖霞市| 桐乡市| 积石山| 资中县| 虞城县| 油尖旺区| 平南县| 阿巴嘎旗| 石柱| 牡丹江市| 平乐县| 拜城县| 新兴县| 墨玉县| 原平市| 日土县| 西昌市| 永川市|