高振洋 秦斌
摘要:在高端人工智能領(lǐng)域中,感知力和決策能力都是衡量智能水平的重要指標(biāo)。將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,使得智能體能夠從高維的狀態(tài)動(dòng)作空間中感知信息,通過得到的信息對(duì)模型進(jìn)行訓(xùn)練、做出決策,以能夠通過端對(duì)端的學(xué)習(xí)方式來實(shí)現(xiàn)從原始輸入到輸出的直接控制。本文介紹了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)基礎(chǔ)知識(shí);闡述了深度強(qiáng)化學(xué)習(xí)主流算法中的DQN及其變種和應(yīng)用,分析了深度層次強(qiáng)化學(xué)習(xí)算法。最后對(duì)相關(guān)工作做了總結(jié)和展望。
關(guān)鍵詞:深度學(xué)習(xí);強(qiáng)化學(xué)習(xí);深度強(qiáng)化學(xué)習(xí);層次強(qiáng)化學(xué)習(xí);人工智能
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)04-0157-03
Abstract:In the field of advanced artificial intelligence, perceptual ability and decision-making capacity are both important indicators to measure the level of intelligence.Combining the perceptual ability of deep learning with the decision-making capacity of reinforcement learning, which makes that the agent can perceive imformation from the high-dimensional state action space, train the model and make decisions through the information obtained. So that we can achieve the direct control from original input to output through end to end learning. In this paper, we introduce the basic knowledge of deep learning and reinforcement learning; Elaborating the DQN and its variants and applications, which is the mainstream algorithm of deep reinforcement learning, analysising the algorithm of deep hierarchies reinforcement learning. Finally, the related researches were summarized and prospected.
Key words:Deep learning; Reinforcement learning; Deep Reinforcement learning; Hierarchies reinforcement learning; Artificial Intelligence
2016年由Google擁有的人工智能(AI)研究團(tuán)隊(duì)DeepMind創(chuàng)新性地將具有感知能力的深度學(xué)習(xí)(Deep Learning:DL)和具有決策能力的強(qiáng)化學(xué)習(xí)(Reinforcement Learning:RL)相聯(lián)合,提出了深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning:DRL)算法。通過DRL算法訓(xùn)練得到的圍棋智能體——AlphaGo擊敗了人類頂尖職業(yè)棋手,引起了全世界的關(guān)注,開啟了AI領(lǐng)域研究的新時(shí)代。
近幾年,DRL算法被廣泛應(yīng)用于視頻預(yù)測、文本生成、機(jī)器人、機(jī)器翻譯、控制優(yōu)化、目標(biāo)定位、文本游戲、自動(dòng)駕駛等多個(gè)領(lǐng)域中,展現(xiàn)了強(qiáng)大的適應(yīng)和學(xué)習(xí)能力。因此,深入分析和研究DRL算法,對(duì)于促進(jìn)人工智能領(lǐng)域的發(fā)展及拓展其應(yīng)用具有極其重要的意義[1]。
1 深度強(qiáng)化學(xué)習(xí)理論基礎(chǔ)
1.1 深度學(xué)習(xí)
2006年,Hinton及其學(xué)生等人[2]提出了深度網(wǎng)絡(luò)的概念,開啟了DL研究的熱潮。DL的核心思想是對(duì)觀察數(shù)據(jù)進(jìn)行分層特征表示,實(shí)現(xiàn)由低級(jí)特征進(jìn)一步抽象到高級(jí)特征[3]。
深度學(xué)習(xí)的模型主要有:深度信念網(wǎng)絡(luò)(DBN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。
深度學(xué)習(xí)的發(fā)展階段包括:萌芽期:BP算法的發(fā)明(1970s-1980s)到2006年;發(fā)展期:從2006年Hinton等人提出的‘深度學(xué)習(xí)概念以及訓(xùn)練方法到2012年。該階段主要以深度無監(jiān)督學(xué)習(xí)為研究重點(diǎn);爆發(fā)期:從2012年Hinton團(tuán)隊(duì)的Alexnet模型[4]在Imagenet競賽中取得驚人的成績至今。
當(dāng)今社會(huì),深度學(xué)習(xí)廣泛應(yīng)用于人工智能相關(guān)多個(gè)領(lǐng)域,極大促進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展。受到世界各國高科技公司和研究人員的重視。
1.2 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(RL)是機(jī)器學(xué)習(xí)中的重要學(xué)習(xí)工具。主要解決的是序貫決策問題,智能體(Agent)通過動(dòng)作與環(huán)境進(jìn)行交互時(shí),環(huán)境會(huì)返給Agent一個(gè)當(dāng)前的獎(jiǎng)勵(lì),Agent根據(jù)當(dāng)前的獎(jiǎng)勵(lì)評(píng)估所采取的動(dòng)作。經(jīng)過數(shù)次迭代學(xué)習(xí)后,Agent可以最終學(xué)到達(dá)到相應(yīng)目標(biāo)的最優(yōu)動(dòng)作(最優(yōu)策略[5])。
RL問題通常由馬爾科夫決策過程(Markov Decision Process, MDP)來建模。MDP通常由元組(S,A,P,R,γ)描述,其中:
(1) S為所有環(huán)境狀態(tài)的集合,s·S。
(2) A為有限的動(dòng)作集合,a∈A。
(3) P為狀態(tài)轉(zhuǎn)移概率,P(s/s,a)表示在s狀態(tài)下執(zhí)行動(dòng)作a時(shí),轉(zhuǎn)移到s的概率。