摘要:研究具有自主學(xué)習(xí)能力的發(fā)育機(jī)器人,使機(jī)器人能夠真正具有類似人的學(xué)習(xí)技能。動(dòng)態(tài)結(jié)構(gòu)網(wǎng)絡(luò)的修剪算法設(shè)計(jì)使它像生物控制系統(tǒng)那樣靈活而穩(wěn)定。從模擬人的學(xué)習(xí)過程角度出發(fā),通過不斷地學(xué)習(xí),使機(jī)器人擁有自主發(fā)展自身智能的能力,實(shí)現(xiàn)了機(jī)器人自主發(fā)育的功能。
關(guān)鍵字:發(fā)育機(jī)器人;動(dòng)態(tài)結(jié)構(gòu)網(wǎng)絡(luò);修剪算法
Pruning algorithm based on dynamic structure network design
Abstract:Robot research with independent learning ability of development, Make the robot can truly with similar learning skill of people. Pruning algorithm of dynamic structure network design to make it as flexible and stable as biological control system. From the Angle of the simulation of the human skills learning process, Through constant learning, Make robots have the ability to independently develop their intelligence, Realized the function of robot autonomous development.
Keyword: Development of a robot; Dynamic structure of the network; Pruning algorithm
1 動(dòng)態(tài)結(jié)構(gòu)模型
動(dòng)態(tài)網(wǎng)絡(luò)模型是一個(gè)具有輸入層、競爭層和輸出層的三層的網(wǎng)絡(luò)結(jié)構(gòu),它的結(jié)構(gòu)圖如圖1所示。它是根據(jù)自組織特征映射神經(jīng)網(wǎng)絡(luò)的競爭工作機(jī)制設(shè)計(jì),同時(shí)將修剪學(xué)習(xí)算法應(yīng)用到該模型中。
刺激P即兩輪機(jī)器人的狀態(tài)變量;u為網(wǎng)絡(luò)的輸出值,網(wǎng)絡(luò)的輸出采用徑向基函數(shù)作為激發(fā)函數(shù);決策選擇部分是一個(gè)動(dòng)作集,根據(jù)輸出值以及評(píng)估機(jī)制的反饋在貪婪策略的指導(dǎo)下選取一個(gè)動(dòng)作a作用于機(jī)器人上評(píng)估機(jī)制可以根據(jù)兩輪機(jī)器人的控制效果給網(wǎng)絡(luò)的競爭層一個(gè)反饋信號(hào)r[1]。
2 網(wǎng)絡(luò)結(jié)構(gòu)模型
基于自組織特征映射網(wǎng)絡(luò)的三層網(wǎng)絡(luò)采用了“全互連”型的連接方式,即各層網(wǎng)絡(luò)神經(jīng)元之間都有連接權(quán)值。三層的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示[2]。
圖2 基于自組織特征映射的三層網(wǎng)絡(luò)結(jié)構(gòu)
Fig.2Three?layer network?structure based on self-organizing feature map network
網(wǎng)絡(luò)接收歸一化的刺激信號(hào) ,輸入層包含n個(gè)神經(jīng)元,與P的矢量維數(shù)相等。輸入層不對(duì)輸入信號(hào)做任何處理,通過權(quán)值連接關(guān)系W將輸入刺激傳送到競爭層,競爭層包含M個(gè)神經(jīng)元[3]。
其中,僅有獲勝神經(jīng)元的輸出值 為1,其余神經(jīng)元的輸出值都為0。
V是兩層網(wǎng)絡(luò)的連接權(quán)值,令 和 分別為輸出層神經(jīng)元的輸入、輸出值,則
其中, 為激發(fā)函數(shù),文中采用的是徑向基函數(shù)。
初始值是根據(jù)網(wǎng)絡(luò)的輸出層的輸出值進(jìn)行優(yōu)化,再由決策選擇模塊根據(jù)選擇策略選擇一個(gè)動(dòng)作a,作用于兩輪機(jī)器人[4]。
3 動(dòng)態(tài)仿生學(xué)習(xí)優(yōu)化模型設(shè)計(jì)
采用了Boltzmann策略進(jìn)行了算法的優(yōu)化, 將boltzmann機(jī)引入到仿生學(xué)習(xí)算法中,能夠自主采用一種行為從一種狀態(tài)到另一種狀態(tài),利用對(duì)采取動(dòng)作的評(píng)價(jià)找到最優(yōu)策略。下面給出了Markov決策過程。
考慮一個(gè)有限的隨機(jī)過程,環(huán)境狀態(tài) ,環(huán)境狀態(tài)由轉(zhuǎn)移到的轉(zhuǎn)移概率可以用公式(3)表示: (3)
Markov決策是為了選擇出一個(gè)最優(yōu)策略,使機(jī)器人選擇的動(dòng)作得到最大的評(píng)價(jià)獎(jiǎng)賞, 。機(jī)器人采取動(dòng)作時(shí)得到的獎(jiǎng)賞信號(hào)或懲罰信號(hào)代表著決策的好壞,Markov決策過程的評(píng)價(jià)函數(shù)由公式(70)表示:
其中 是智能體執(zhí)行策略 后,環(huán)境狀態(tài)由St轉(zhuǎn)移到St+1的轉(zhuǎn)移概率。而最優(yōu)策略所產(chǎn)生的評(píng)價(jià)函數(shù)V*為公式(4)所示:
在無限范圍的情況下,V*滿足式(6),著名的Bellman最優(yōu)化方程:
4 仿真實(shí)驗(yàn)
在真實(shí)的實(shí)驗(yàn)環(huán)境中,外界的干擾因素會(huì)影響到機(jī)器人狀態(tài)量,為了模擬真實(shí)環(huán)境,將白噪聲干擾信號(hào)加入到輸入的狀態(tài)量中,仿真結(jié)果圖3所示,表明機(jī)器人需要經(jīng)過1000步(10s)的學(xué)習(xí)調(diào)節(jié)后,機(jī)器人才能達(dá)到平衡狀態(tài)。
以上仿真結(jié)果表明,Boltzmann策略算法的優(yōu)化能使機(jī)器人處于勻速運(yùn)動(dòng)平衡的穩(wěn)定狀態(tài),保持直立平衡。其能夠?qū)崿F(xiàn)機(jī)器人自主運(yùn)動(dòng)平衡控制目標(biāo),具有實(shí)用價(jià)值。
5 小結(jié)
動(dòng)態(tài)優(yōu)化仿生學(xué)習(xí)模型的設(shè)計(jì),采用的是Boltzmann機(jī)與仿生自主學(xué)習(xí)算法相結(jié)合,根據(jù)算法策略的評(píng)價(jià)值采取動(dòng)作,而不是采取當(dāng)前最優(yōu)策略,這樣使機(jī)器人能更好的適應(yīng)未知環(huán)境。將兩輪機(jī)器人置于更復(fù)雜的環(huán)境,雖然向平穩(wěn)狀態(tài)過渡時(shí)間較長,不過仍能達(dá)到最終控制效果,表現(xiàn)了動(dòng)態(tài)網(wǎng)絡(luò)修剪算法的實(shí)用性。
參考文獻(xiàn):
[1]阮曉鋼,蔡建羨,陳靜.基于強(qiáng)化學(xué)習(xí)規(guī)則的兩輪機(jī)器人自平衡控制[J].計(jì)算機(jī)測(cè)量與控制,2009,2:321-323
[2]謝艷輝.可生長結(jié)構(gòu)自組織網(wǎng)絡(luò)研究及其在倒立擺控制中的應(yīng)用[D].北京:北京工業(yè)大學(xué),2007.
[3]韓紅桂.神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)動(dòng)態(tài)優(yōu)化設(shè)計(jì)方法及應(yīng)用[D].北京:北京工業(yè)大學(xué),2011.
[4]蔡建羨.Skinner操作條件反射模型與機(jī)器人仿生自主學(xué)習(xí)控制[D]. 北京:北京工業(yè)大學(xué),2010.
基金項(xiàng)目:校級(jí)青年科學(xué)研究基金項(xiàng)目(Z201518)。First auther: HUO Mei-jie(1989—), lady, teaching assistant
第一作者:霍美杰(1989~),女,助教。Correspondent auther: HUO Mei-jie(1981—), lady, teaching assistan.
華北理工大學(xué)信息工程學(xué)院
通信作者:霍美杰(1989~),女,碩士,助教。E-mail: 1042623870@qq.com.