張鵬昊 秦斌
摘要:隨著人工智能的發(fā)展深度強(qiáng)化學(xué)習(xí)越來(lái)越多進(jìn)入人們的視線,它是以一種通用的形式把深度學(xué)習(xí)的感知力和強(qiáng)化學(xué)習(xí)的決策能力結(jié)合起來(lái),繼而通過(guò)高維度的方式感知信息訓(xùn)練模型發(fā)出決策,也可以通過(guò)分層強(qiáng)化學(xué)習(xí)來(lái)將復(fù)雜的深度學(xué)習(xí)問(wèn)題化簡(jiǎn)為單一的問(wèn)題,從而解決了空間維數(shù)災(zāi)難的問(wèn)題。該文介紹了深度強(qiáng)化學(xué)習(xí)的理論知識(shí)還有幾種最新的前沿算法,以及在現(xiàn)實(shí)生活中的各種各樣的應(yīng)用,最后對(duì)相關(guān)領(lǐng)域進(jìn)行了總結(jié)和展望。
關(guān)鍵詞:深度學(xué)習(xí);強(qiáng)化學(xué)習(xí);深度強(qiáng)化學(xué)習(xí);人工智能;智能應(yīng)用
中圖分類號(hào):TP3? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)28-0104-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
1949年春季,DONALD HEBB提出了歷史上大名鼎鼎的赫布理論(Hebbian theory),他解釋了在人類學(xué)習(xí)過(guò)程中大腦里的神經(jīng)元[1]是怎么變化的,標(biāo)志著機(jī)器學(xué)習(xí)[2](Machine Learning)的誕生。1956年的一個(gè)夏天,一群具有創(chuàng)新總結(jié)能力的年輕科學(xué)家一起聚會(huì),其中包括麥卡賽、明斯基和羅切斯等人,坐在一起討論如何用計(jì)算機(jī)將人腦的思維模擬出來(lái)的問(wèn)題,由此,人工智能(AI)這門未來(lái)最火熱的學(xué)科正式誕生。2016年秋季人工智能[3]團(tuán)隊(duì)DeepMind把深度學(xué)習(xí)(Deep Learning:DL)和以決策能力聞名的強(qiáng)化學(xué)習(xí)(Reinforcement Learning:RL)創(chuàng)新性地結(jié)合起來(lái),由此標(biāo)志著深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning:DRL)算法第一次問(wèn)世,這直接開啟了一波學(xué)習(xí)人工智能的新熱潮。
近些年來(lái),DRL算法應(yīng)用到了越來(lái)越廣泛的領(lǐng)域,比如圖像識(shí)別[4]分析,機(jī)器人,電子皮膚[5],目標(biāo)識(shí)別,自動(dòng)汽車,自動(dòng)泊車等多個(gè)領(lǐng)域,顯示出了DRL的適應(yīng)性和未來(lái)的潛在發(fā)展能力。所以,深入研究探索DRL算法無(wú)論對(duì)于人工智能領(lǐng)域還是未來(lái)人類智能家居方面都有著不可替代的意義。
1 預(yù)備理論
1.1 深度學(xué)習(xí)
1956年,能模擬人類感知能力的機(jī)器被一位心理學(xué)家Frank Rosenblatt首次提出,并為之進(jìn)行過(guò)無(wú)數(shù)次試驗(yàn)后,為之命名為感知機(jī)(Perceptron),而單層神經(jīng)網(wǎng)絡(luò)[6]的出現(xiàn)就給DL的出現(xiàn)奠定了重要的基礎(chǔ)。直到2006年,Geoffrey Hinton提出了一個(gè)多層神經(jīng)網(wǎng)絡(luò),這個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)比單層神經(jīng)網(wǎng)絡(luò)的話,是有更強(qiáng)的總結(jié)能力和學(xué)習(xí)能力的,對(duì)所學(xué)習(xí)的東西那些最根本的數(shù)據(jù)都有著最貼切地表達(dá),這實(shí)現(xiàn)了低級(jí)特征到高級(jí)特征的過(guò)度。
深度學(xué)習(xí)的發(fā)展階段:起源階段:BP模型,海布規(guī)則,感知機(jī)。(1940s-1980s)發(fā)展階段:Hopfield神經(jīng)網(wǎng)絡(luò),BP算法,梯度消失[7]等問(wèn)題。(1980s-2000s).
1.2 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是一個(gè)從屬于機(jī)器學(xué)習(xí)當(dāng)中非常重要的學(xué)習(xí)工具,他的其他名字還有增強(qiáng)學(xué)習(xí)[8]等,是大類機(jī)器學(xué)習(xí)當(dāng)中最重要的的方法論之一,智能體在和環(huán)境交互時(shí),所在的環(huán)境會(huì)給予對(duì)應(yīng)的反饋,通過(guò)這個(gè)反饋智能體[9]會(huì)自行決定應(yīng)該采取什么動(dòng)作來(lái)適應(yīng)這個(gè)變化,馬爾可夫決策(Markov Decision Process, MDP)過(guò)程就是最常見的強(qiáng)化學(xué)習(xí)模型,如圖1所示。在另一方面,該決策過(guò)程會(huì)影響智能體的變化,直到智能體進(jìn)入一個(gè)新的穩(wěn)定的狀態(tài),此時(shí)一次完整的迭代才算結(jié)束,智能體會(huì)將該過(guò)程中所有的變化全部記錄下來(lái)直到形成一個(gè)新的智能體。
2 深度強(qiáng)化學(xué)習(xí)主流算法
2.1 Q-LEARNING
1989年Q-LEARNING[10]的方法由Watkins提出。1992年,他和Dayan證明了其收斂性,對(duì)于智能體的某一個(gè)狀態(tài),以及智能體執(zhí)行的每一個(gè)動(dòng)作,有很多動(dòng)作是不是及時(shí)的,比如有些情況,買面包能買到好的和壞的,這并不是我們能決定的,而且也不是及時(shí)反饋的,所以最好的情況是智能體可以對(duì)未來(lái)的情況進(jìn)行有效的期望總結(jié),那么Q-LEARNING就都具備這些我們希望得到的結(jié)果。
有的時(shí)候我們還會(huì)引入一個(gè)概念折扣因子[-γ],如果在某一個(gè)時(shí)刻智能體獲得了一個(gè)獎(jiǎng)勵(lì)[X],那么對(duì)于U時(shí)間前的動(dòng)作的期望和獎(jiǎng)勵(lì)獻(xiàn)是X*[γ^u],在經(jīng)濟(jì)學(xué)當(dāng)中這個(gè)公式也得到了廣泛的應(yīng)用。這就叫Q函數(shù),也就是現(xiàn)在我們經(jīng)常說(shuō)的Q-LEARNING,他能夠計(jì)算期望獎(jiǎng)勵(lì)。如果智能體的空間狀態(tài)是有限的,轉(zhuǎn)移概率就是可估計(jì)的,我們就可以用期望動(dòng)態(tài)規(guī)劃來(lái)解出來(lái)Q函數(shù),一般情況下我們需要進(jìn)行無(wú)數(shù)次的迭代探索來(lái)選擇Q學(xué)習(xí)的動(dòng)作,這叫作Q-LEARNING。
2.2 DEEP Q-LEARNING
2013年,谷歌旗下的DEEPMIND位于英國(guó)倫敦,是一個(gè)致力于發(fā)展前沿人工智能的企業(yè),首次將神經(jīng)系統(tǒng)[11]的知識(shí)和人工智能領(lǐng)域結(jié)合在一起的企業(yè),在NIPS WORKSHOP上提出了DEEP Q-LEARNING,主要的任務(wù)是讓AI智能體系統(tǒng)在像素中學(xué)會(huì)進(jìn)行ATARI游戲,在之后2015年還登上了NATURE的封面,如果智能體的空間是連續(xù)的,那么規(guī)劃的狀態(tài)數(shù)就是無(wú)限的,我們用深度[Q]網(wǎng)絡(luò)來(lái)模擬這個(gè)[Q]函數(shù),這個(gè)就是DQN,他會(huì)把智能體所有的信息(狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)、期望等等)存儲(chǔ)到內(nèi)存中,這些東西在訓(xùn)練的時(shí)候就可以多次使用,稱之為Memory Replay,我們注意到當(dāng)前的每個(gè)動(dòng)作的擬合的獎(jiǎng)勵(lì),還要擬合我們未來(lái)可能要引入的噪聲,來(lái)形成一個(gè)延遲更新的Q函數(shù),來(lái)形成一個(gè)新的[Q]值,我們通常稱之為Target Network。
2.3 DQN改進(jìn)算法
2015年,DQN有三個(gè)主要的改進(jìn),分別是Double DQN,Dueling Network和Prioritized Replay,我們來(lái)分別說(shuō)一下每個(gè)算法的具體改進(jìn)步驟,Double DQN是改進(jìn)了Q值運(yùn)算的計(jì)算方法,這個(gè)動(dòng)作考慮到Q值以及他的狀態(tài)動(dòng)作都相關(guān)。但是具體到現(xiàn)實(shí)情況以后,我們實(shí)際上更加注重動(dòng)作所帶來(lái)的獎(jiǎng)勵(lì),Dueling Network則是對(duì)DEEP Q-LEARNING的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整和改進(jìn),Prioritized Replay是在探討replay memory的采樣優(yōu)先級(jí)的問(wèn)題,這其中Double DQN,Dueling Network這兩種算法不困難只需要改幾行代碼就可以實(shí)現(xiàn)該功能,但是Prioritized Replay這個(gè)算法卻需要很多的工作,還有額外的維護(hù)數(shù)據(jù)結(jié)構(gòu)等工作,會(huì)消耗很大量的時(shí)間和工作。
2.4 Policy Gradient
Richard S.Sutton在2000年在NIPS上提出了policy gradient的方法,policy gradient是一種用狀態(tài)來(lái)進(jìn)行直接的輸入輸出的方法,他是更為直接的,輸入一個(gè)動(dòng)作輸出一個(gè)動(dòng)作,進(jìn)而獲得獎(jiǎng)勵(lì)來(lái)更新出智能提示如何決斷下一個(gè)動(dòng)作出現(xiàn)的概率,但是這種方法并不是最優(yōu)策略。
2.5 Deep Deterministic Policy Gradient
Deep Deterministic Policy Gradient的決定行為策略是由David Silver在前些年提出的,大致的算法是,當(dāng)神經(jīng)網(wǎng)絡(luò)的概率方差無(wú)限趨近于零的時(shí)候,就達(dá)成了我們需要的東西,運(yùn)用了actor-critic算法框架,把DEEP Q-LEARNING和Policy Gradient混合了起來(lái),在提高樣本利用率方面取得了長(zhǎng)足的進(jìn)步。
3? 深度強(qiáng)化學(xué)習(xí)的實(shí)踐
3.1 計(jì)算機(jī)視覺領(lǐng)域
多年來(lái),深度強(qiáng)化學(xué)習(xí)實(shí)踐領(lǐng)域中最飽滿的研究方向之一就是計(jì)算機(jī)視覺[12]領(lǐng)域,該領(lǐng)域包含多種多樣的技術(shù)方面,從模仿人眼視覺觀看世界到拓展新的視覺領(lǐng)域方面都取得了新的突破(比如人臉識(shí)別領(lǐng)域),而我們所說(shuō)的計(jì)算機(jī)視覺領(lǐng)域又包含以下幾個(gè)方面的五種應(yīng)用技術(shù):
一是目標(biāo)跟蹤技術(shù),目標(biāo)跟蹤是指追蹤某一個(gè)或者多個(gè)目標(biāo)的一種在特定場(chǎng)合才能用到的技術(shù),這種技術(shù)的老牌應(yīng)用是在視頻和真實(shí)世界的交互上的作用,在檢測(cè)到真實(shí)世界出現(xiàn)了視頻中存在的特定對(duì)象以后進(jìn)行采集和捕捉跟蹤進(jìn)而進(jìn)行觀察。
二是圖像分類技術(shù),具體例子就是選取幾個(gè)類別的數(shù)字圖片,集成圖像識(shí)別分類算法進(jìn)行訓(xùn)練以后,再取得不同的數(shù)字圖片集合,來(lái)進(jìn)行驗(yàn)證識(shí)別分類操作,最后得出分類成果和準(zhǔn)確率。
三是對(duì)象檢測(cè)技術(shù),這項(xiàng)技術(shù)通常會(huì)牽扯到一些對(duì)象的邊界化和標(biāo)簽化問(wèn)題,需要針對(duì)圖像上的各個(gè)標(biāo)簽進(jìn)行分類和定義,這是一項(xiàng)很大的工程,需要在很多地方大量的使用卷積神經(jīng)網(wǎng)絡(luò)[13]來(lái)進(jìn)行圖片的分類和標(biāo)簽化識(shí)別,這通常會(huì)消耗大量的訓(xùn)練時(shí)間,也很一項(xiàng)很重要的成本。
四是實(shí)例分割技術(shù),該技術(shù)就是將一副復(fù)雜重疊圖象的各個(gè)要素進(jìn)行識(shí)別和分割,并且用不同的顏色代表他們,后期對(duì)不同的物體進(jìn)行不同的操作,并且確定內(nèi)容和邊界以及彼此的差異關(guān)系。
五是語(yǔ)義分割技術(shù),將一幅圖片分解成一個(gè)個(gè)的像素組,并且對(duì)他們進(jìn)行分類和標(biāo)簽化[14],比如在一個(gè)房間里面,除了識(shí)別桌子、椅子、杯子、臺(tái)燈、冰箱、電視以外,我們還必須要知道每個(gè)物體的邊界,用我們自己訓(xùn)練好的算法模型來(lái)預(yù)測(cè)結(jié)果。
3.2 語(yǔ)音識(shí)別領(lǐng)域
近年來(lái),將語(yǔ)音翻譯為文字等功能如雨后春筍般涌現(xiàn)出來(lái),那么語(yǔ)音識(shí)別的任務(wù)主要就是將一段由自然語(yǔ)言發(fā)音的一段語(yǔ)音,每一個(gè)頻率聲段對(duì)應(yīng)上人類的每一個(gè)語(yǔ)音序列片段即可。而這一任務(wù)又會(huì)由很多不同的技術(shù)方向串聯(lián)而成,其中包括語(yǔ)音識(shí)別聲段及其頻率的選取,語(yǔ)音識(shí)別[15]聲段的特征提取,對(duì)應(yīng)語(yǔ)音識(shí)別聲段和頻率的模式配對(duì)準(zhǔn)則,以及對(duì)應(yīng)語(yǔ)音聲段和漢字翻譯之間的訓(xùn)練技術(shù)等。
一是語(yǔ)音識(shí)別聲段及其頻率的選取,由單詞識(shí)別,音節(jié)識(shí)別,音素識(shí)別等選取方法,具體使用哪種選取方法根據(jù)特定的情況來(lái)看,具體問(wèn)題具體分析,其中單詞識(shí)別使用最廣泛也最實(shí)用,音節(jié)識(shí)別多用在像漢語(yǔ)這種音節(jié)較多且能大部分覆蓋所有漢字的情況下。
二是語(yǔ)音識(shí)別聲段的特征提取,意為對(duì)語(yǔ)音信號(hào)的各種信息進(jìn)行處理,去除掉對(duì)分析頻率頻段沒用的信息,篩選出對(duì)我們有用的頻段,簡(jiǎn)而言之就是對(duì)語(yǔ)音信息的一個(gè)壓縮再處理的過(guò)程。
最后就是語(yǔ)音識(shí)別聲段和頻率的模式配對(duì)還有訓(xùn)練技術(shù),該技術(shù)意為將不同頻率的頻段信號(hào)和我們所熟悉的文字一一搭配起來(lái),工作量很大,但是由于漢字很多,所呈現(xiàn)出來(lái)的結(jié)果并不理想,所以正在逐步被人工神經(jīng)網(wǎng)絡(luò)取代。
3.3 游戲領(lǐng)域
在近幾年來(lái)深度強(qiáng)化學(xué)習(xí)在游戲領(lǐng)域的應(yīng)用越來(lái)越廣泛,甚至在某些領(lǐng)域超過(guò)了人類操作的極限,會(huì)更加精準(zhǔn),取得了長(zhǎng)足的進(jìn)步,比如現(xiàn)在深度強(qiáng)化學(xué)習(xí)已經(jīng)應(yīng)用到了棋類游戲,策略[16]游戲等,通過(guò)深度強(qiáng)化學(xué)習(xí),我們能在每一步選擇的時(shí)候都做出最正確的抉擇,來(lái)適應(yīng)未來(lái)游戲的發(fā)展走向,或者說(shuō)棋類游戲預(yù)知對(duì)手所有可能的行動(dòng)方式,讓我們勝利的概率大大增加。也正是因?yàn)樯疃葟?qiáng)化學(xué)習(xí)在游戲領(lǐng)域如此的如魚得水,很多游戲或者軟件開發(fā)商甚至開放了關(guān)于自家游戲的深度強(qiáng)化學(xué)習(xí)的測(cè)試平臺(tái)來(lái)更好地對(duì)游戲性能進(jìn)行更加精準(zhǔn)的測(cè)試和分析,效率大大提升。
3.4 汽車智能駕駛領(lǐng)域
自動(dòng)泊車,高速公路的定速巡航,以及發(fā)生事故前的自動(dòng)避障[17]功能近些年來(lái)被越來(lái)越多的應(yīng)用到最新的汽車上面,這些最先進(jìn)的功能都是得益于深度強(qiáng)化學(xué)習(xí)和汽車領(lǐng)域的傳感器[18]等器件的高度結(jié)合,傳統(tǒng)的自動(dòng)泊車都是基于昂貴的激光距離傳感器還有人工算法相結(jié)合出來(lái)的產(chǎn)物,但是人們自己設(shè)計(jì)出來(lái)的算法總會(huì)出錯(cuò)出現(xiàn)誤差,那么在泊車時(shí)候的磕碰,在定速巡航[19]時(shí)的事故也是可能發(fā)生的,而且后果不堪設(shè)想,在深度強(qiáng)化學(xué)習(xí)取得長(zhǎng)遠(yuǎn)進(jìn)步的今天,將該技術(shù)與汽車領(lǐng)域結(jié)合后,就具備了很強(qiáng)的自適應(yīng)能力,能很好的判斷絕大多數(shù)可能出現(xiàn)的場(chǎng)景,擺脫了人工設(shè)計(jì)算法的最大弊端,所有的算法都是由數(shù)據(jù)進(jìn)行決策,給智能駕駛領(lǐng)域帶來(lái)了一個(gè)全新的未來(lái)。
4 結(jié)語(yǔ)
本文主要介紹了深度強(qiáng)化學(xué)習(xí)的歷史發(fā)展進(jìn)程,當(dāng)代的主流算法以及如何實(shí)現(xiàn)的過(guò)程,以及深度強(qiáng)化學(xué)習(xí)在我們的日常生活中各式各樣的應(yīng)用。深度強(qiáng)化學(xué)習(xí)在目前AI領(lǐng)域也是一個(gè)極其熱門的研究方向,隨著社會(huì)的進(jìn)步和發(fā)展,智能系統(tǒng)越來(lái)越多地應(yīng)用在了人們的日常生活中,深度強(qiáng)化學(xué)習(xí)在這場(chǎng)人與數(shù)據(jù)的演變中發(fā)揮著不可替代的作用,可以預(yù)見到的是,在未來(lái),深度強(qiáng)化學(xué)習(xí)扮演的角色將會(huì)越來(lái)越重要。
參考文獻(xiàn):
[1] 劉星,王文雙,趙建印,等.自適應(yīng)在線增量ELM的故障診斷模型研究[J].系統(tǒng)工程與電子技術(shù),2021,43(9):2678-2687.
[2] 夏茂森,江玲玲.基于深度網(wǎng)絡(luò)CNN-LSTM模型的中國(guó)消費(fèi)者信心指數(shù)預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2021,37(7):21-26.
[3] 陳銳,孫慶春.人工智能司法決策的合法性辨疑[J].西安交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2021,41(3):123-130.
[4] 曾國(guó)敘,吳德偉,代傳金.NCC特征匹配的類腦視覺識(shí)別記憶算法[J].信號(hào)處理,2021,37(5):780-787.
[5] Suresh Kumar V,Krishnamoorthi C.Development of electrical transduction based wearable tactile sensors for human vital signs monitor:Fundamentals,methodologies and applications[J].Sensors and Actuators A:Physical,2021,321:112582.
[6] 黃浩,葛洪偉.強(qiáng)化類間區(qū)分的深度殘差表情識(shí)別網(wǎng)絡(luò)[J].計(jì)算機(jī)科學(xué)與探索, 2021:1-10.
[7] 程玉,鄭華,陳曉文,等.基于密集殘差注意力網(wǎng)絡(luò)的圖像超分辨率算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2021,30(1):135-140.
[8] Banerjee S,Singh G K.Deep neural network based missing data prediction of electrocardiogram signal using multiagent reinforcement learning[J].Biomedical Signal Processing and Control,2021,67:102508.
[9] 高巍,羅俊仁,袁唯淋,等.面向?qū)κ纸5囊鈭D識(shí)別方法綜述[J].網(wǎng)絡(luò)與信息安全學(xué)報(bào),2021,7(4):86-100.
[10] Vainer J,Kukacka J.Nash Q-learning agents in Hotelling's model:Reestablishing equilibrium[J].Communications in Nonlinear Science and Numerical Simulation,2021,99:105805.
[11] 凌園果,徐卡婭,仇文進(jìn),等.鈣衛(wèi)蛋白S100A8/A9在神經(jīng)系統(tǒng)疾病中作用的研究進(jìn)展[J].醫(yī)學(xué)綜述,2021,27(7):1278-1283.
[12] 王宇,李濤,邢立冬,等.OpenVX高效能并行可重構(gòu)運(yùn)算通路設(shè)計(jì)與實(shí)現(xiàn)[J/OL].計(jì)算機(jī)工程,2021:1-16.
[13] 趙宏,孔東一.圖像特征注意力與自適應(yīng)注意力融合的圖像內(nèi)容中文描述[J].計(jì)算機(jī)應(yīng)用,2021,41(9):2496-2503.
[14] 董紹江,吳文亮,賀坤,等.基于性能衰退評(píng)估的軸承壽命狀態(tài)識(shí)別方法研究[J].振動(dòng)與沖擊,2021,40(5):186-192,210.
[15] 陳聰,賀杰,陳佳.混合連接時(shí)間/注意力機(jī)制端到端語(yǔ)音識(shí)別[J].控制工程,2021,28(3):585-591.
[16] 趙小軍,陳建,井宇航,等.地鐵車輛基于受電弓供電的控制策略研究及應(yīng)用[J].科技風(fēng),2021(9):197-198.
[17] 房啟志,張樹寧,徐嵩,等.小型智能機(jī)器魚系統(tǒng)研究與設(shè)計(jì)[J].電子器件,2021,44(1):197-202.
[18] 洪婉玲,趙春柳,徐睿,等.涂覆介孔型Pt/WO_(3)膜的光纖布喇格光柵氫氣傳感器[J].光通信技術(shù),2021:1-7.
[19] Ma F W,Yang Y,Wang J W,et al.Eco-driving-based cooperative adaptive cruise control of connected vehicles platoon at signalized intersections[J].Transportation Research Part D:Transport and Environment,2021,92:102746.
【通聯(lián)編輯:朱寶貴】