国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能深度強(qiáng)化學(xué)習(xí)的原理與核心技術(shù)探究

2020-03-24 22:28吳英萍耿江濤
理論與創(chuàng)新 2020年24期
關(guān)鍵詞:深度學(xué)習(xí)人工智能

吳英萍 耿江濤

【摘? 要】應(yīng)用大數(shù)據(jù)技術(shù)的深度學(xué)習(xí)及深度強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域的一場(chǎng)革命,深度學(xué)習(xí)使強(qiáng)化學(xué)習(xí)能夠處理以前難以解決的問(wèn)題,取得了令人矚目的進(jìn)步,特別是在游戲和棋類(lèi)競(jìng)技等領(lǐng)域都超過(guò)了人類(lèi)的表現(xiàn)。本文介紹了強(qiáng)化學(xué)習(xí)的一般領(lǐng)域,然后介紹了基于價(jià)值和基于策略的方法和深度強(qiáng)化學(xué)習(xí)中的核心算法,進(jìn)一步表現(xiàn)了深層神經(jīng)網(wǎng)絡(luò)融入強(qiáng)化學(xué)習(xí)的獨(dú)特優(yōu)勢(shì)。

【關(guān)鍵詞】強(qiáng)化學(xué)習(xí);深度學(xué)習(xí);深度強(qiáng)化學(xué)習(xí);人工智能

引言

近期的人工智能(Artificial Intelligence, AI)研究為機(jī)器學(xué)習(xí)(Machine Learning,ML)提供了強(qiáng)大的技術(shù)。作為解決人工智能問(wèn)題通用框架的強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)也與深度學(xué)習(xí)(Deep Learning,DL)相結(jié)合,產(chǎn)生的深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)也在近年取得了令人興奮的成就。

強(qiáng)化學(xué)習(xí)(RL)是關(guān)于一個(gè)智能體與環(huán)境相互作用,通過(guò)試驗(yàn)和錯(cuò)誤的方法,為自然科學(xué)、社會(huì)科學(xué)和工程等領(lǐng)域的順序決策問(wèn)題學(xué)習(xí)一個(gè)最優(yōu)策略。

強(qiáng)化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的整合有著悠久的歷史。近期深度學(xué)習(xí)取得了令人振奮的成果,得益于大數(shù)據(jù)、強(qiáng)大計(jì)算力、新算法技術(shù)、成熟的軟件包和架構(gòu)以及強(qiáng)大的資金支持,強(qiáng)化學(xué)習(xí)也開(kāi)始復(fù)興,尤其是深層神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)的結(jié)合,即深度強(qiáng)化學(xué)習(xí)。

在過(guò)去的幾年里,深度學(xué)習(xí)在游戲、機(jī)器人、自然語(yǔ)言處理等領(lǐng)域的強(qiáng)化學(xué)習(xí)中一直很流行,也取得了一些突破,比如Deep Q-network和AlphaGo;以及新穎的架構(gòu)和應(yīng)用,如可微神經(jīng)計(jì)算機(jī)、異步方法、價(jià)值迭代網(wǎng)絡(luò)、無(wú)監(jiān)督強(qiáng)化和輔助學(xué)習(xí)、神經(jīng)結(jié)構(gòu)設(shè)計(jì),機(jī)器翻譯的雙重學(xué)習(xí)、口語(yǔ)對(duì)話系統(tǒng)、信息提取、引導(dǎo)策略搜索和生成性對(duì)手模仿學(xué)習(xí),進(jìn)一步推動(dòng)創(chuàng)新的核心要素和機(jī)制等。

為什么深度學(xué)習(xí)有助于強(qiáng)化學(xué)習(xí)取得如此巨大的成就?基于深度學(xué)習(xí)的表示學(xué)習(xí)通過(guò)梯度下降實(shí)現(xiàn)自動(dòng)特征工程和端到端學(xué)習(xí),從而大大減少甚至消除了對(duì)領(lǐng)域知識(shí)的依賴(lài)。特征工程過(guò)去是手工完成的,通常耗時(shí)、過(guò)多且不完整。深層次的分布式表示利用數(shù)據(jù)中因子的分層組合來(lái)對(duì)抗維度指數(shù)級(jí)爆炸的挑戰(zhàn)。深層神經(jīng)網(wǎng)絡(luò)的通用性、表達(dá)性和靈活性使一些任務(wù)變得更容易或可能,例如,在上面談到的突破和新的體系結(jié)構(gòu)和應(yīng)用。

深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)特定類(lèi)別,并非沒(méi)有局限性,例如,它是一個(gè)缺乏可解釋性的黑匣子,沒(méi)有清晰而充分的科學(xué)原理,沒(méi)有人類(lèi)的智慧,在某些任務(wù)上無(wú)法與嬰兒競(jìng)爭(zhēng)。因此,對(duì)于深度學(xué)習(xí)、機(jī)器學(xué)習(xí)和人工智能,還有很多探索性的工作要做。

深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)分別被選為2013年和2017年麻省理工學(xué)院技術(shù)評(píng)論十大突破性技術(shù)之一,將在實(shí)現(xiàn)人工通用智能方面發(fā)揮關(guān)鍵作用。AlphaGo的主要貢獻(xiàn)者David Silver甚至提出了一個(gè)公式:人工智能=強(qiáng)化學(xué)習(xí)+深度學(xué)習(xí)。

1.深度學(xué)習(xí)

以下簡(jiǎn)要介紹機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的概念和基本原理。

1.1機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是從數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測(cè)和決策。通??煞譃楸O(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

在監(jiān)督學(xué)習(xí)中,使用標(biāo)記的數(shù)據(jù)。分類(lèi)和回歸是兩類(lèi)監(jiān)督學(xué)習(xí)研究的問(wèn)題,分別是分類(lèi)輸出和數(shù)值輸出。

無(wú)監(jiān)督學(xué)習(xí)試圖從沒(méi)有標(biāo)簽的數(shù)據(jù)中提取信息,例如聚類(lèi)和密度估計(jì)。表征學(xué)習(xí)是一種典型的無(wú)監(jiān)督學(xué)習(xí)。表征學(xué)習(xí)尋找一種表示方法,以盡可能多地保留原始數(shù)據(jù)的信息,同時(shí)保持表示比原始數(shù)據(jù)更簡(jiǎn)單或更易訪問(wèn),具有低維、稀疏和獨(dú)立的表示。

強(qiáng)化學(xué)習(xí)使用評(píng)價(jià)性反饋,但沒(méi)有監(jiān)督信號(hào)。

機(jī)器學(xué)習(xí)基于概率論、統(tǒng)計(jì)和優(yōu)化理論,是大數(shù)據(jù)、數(shù)據(jù)科學(xué)、預(yù)測(cè)建模、數(shù)據(jù)挖掘和信息檢索的基礎(chǔ),并成為計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和機(jī)器人技術(shù)等的重要組成部分。機(jī)器學(xué)習(xí)是人工智能(AI)的一個(gè)子集,并且正在發(fā)展成為人工智能各個(gè)領(lǐng)域的關(guān)鍵。

1.2深度學(xué)習(xí)

深度學(xué)習(xí)與淺層學(xué)習(xí)形成鮮明對(duì)比。對(duì)于許多機(jī)器學(xué)習(xí)算法,如線性回歸、邏輯回歸、支持向量機(jī)、決策樹(shù)、boosting集成提升算法等,都有輸入層和輸出層,在訓(xùn)練前可以用人工特征工程對(duì)輸入進(jìn)行轉(zhuǎn)換。在深度學(xué)習(xí)中,在輸入和輸出層之間,則有一個(gè)或多個(gè)隱藏層。在除輸入層之外的每一層,都計(jì)算每個(gè)單元的輸入,作為前一層單元的加權(quán)和;然后使用非線性變換或激活函數(shù),如對(duì)數(shù)處理、三角函數(shù)處理或最近更流行的校正線性單元(Rectified Linear Unit, ReLU)應(yīng)用于單元的輸入,以獲得輸入的新表示從上一層開(kāi)始。在各個(gè)層的單元之間的鏈接上標(biāo)有權(quán)重。在計(jì)算從輸入到輸出后,在輸出層和每個(gè)隱藏層,都可以向后計(jì)算誤差導(dǎo)數(shù),并向輸入層反向傳播梯度,從而更新權(quán)重以?xún)?yōu)化某些損失函數(shù)。

前向深層神經(jīng)網(wǎng)絡(luò)或多層感知器(Multi-Layer Perceptron, MLP)是將一組輸入值映射到輸出值,該數(shù)學(xué)函數(shù)由每一層的許多簡(jiǎn)單函數(shù)組成。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)設(shè)計(jì)用于處理具有多個(gè)陣列的數(shù)據(jù),如彩色圖像、語(yǔ)言、音頻頻譜圖和視頻,受益于這些信號(hào)的特性:局部連接、共享權(quán)重、池和多層的使用,并受到視覺(jué)神經(jīng)科學(xué)中簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞的啟發(fā)。殘差網(wǎng)絡(luò)(Residual Networks, ResNets)旨在通過(guò)添加快捷連接來(lái)學(xué)習(xí)參考層輸入的殘差函數(shù)來(lái)簡(jiǎn)化深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。為解決這些問(wèn)題,提出了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory networks, LSTM)和門(mén)控遞歸單元(Gated Recurrent Unit, GRU),并通過(guò)門(mén)控機(jī)制通過(guò)遞歸細(xì)胞操縱信息。

2.強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)

為了更好地理解深度強(qiáng)化學(xué)習(xí),首先要對(duì)強(qiáng)化學(xué)習(xí)有一個(gè)很好的理解。以下簡(jiǎn)要介紹強(qiáng)化學(xué)習(xí)的背景,并介紹值函數(shù)、時(shí)間差分學(xué)習(xí)、函數(shù)逼近、策略?xún)?yōu)化、深度強(qiáng)化學(xué)習(xí)等術(shù)語(yǔ)。

2.1問(wèn)題背景

強(qiáng)化學(xué)習(xí)的基本過(guò)程可以用狀態(tài) (State) 、行動(dòng) (Action) 、狀態(tài)轉(zhuǎn)移概率 (Possibility) 、狀態(tài)轉(zhuǎn)移獎(jiǎng)勵(lì)或回報(bào) (Reward) 構(gòu)成的四元組{s, a, p, r}表示。對(duì)于離散時(shí)間MDP(Markov Decision Programming), 狀態(tài)和動(dòng)作的集合稱(chēng)為狀態(tài)空間 (State Space) 和動(dòng)作空間 (Action Space) , 分別使用S和A表示, si∈S, ai∈A。根據(jù)第t步選擇的行動(dòng), 狀態(tài)根據(jù)概率P (st+1st, at) 從st轉(zhuǎn)移到st+1, 在狀態(tài)的轉(zhuǎn)移的同時(shí), 決策主體得到一個(gè)即時(shí)的獎(jiǎng)勵(lì)Rt (st, at, st+1) .該過(guò)程結(jié)束時(shí)的累積獎(jiǎng)勵(lì) (Return) 為

其中, γ∈(0,1]為折扣因子。該智能體決策的目標(biāo)是使每個(gè)狀態(tài)下的這種累計(jì)獎(jiǎng)勵(lì)的期望值最大化。問(wèn)題設(shè)定為離散狀態(tài)和動(dòng)作空間,但很容易將其擴(kuò)展到連續(xù)空間。

2.2探索與應(yīng)用

探索(Exploration)是使用多種探索技術(shù)找到關(guān)于環(huán)境的更多信息。

應(yīng)用(Exploitation)是利用已知信息應(yīng)用多種手段來(lái)得到最多的獎(jiǎng)勵(lì)。

2.3值函數(shù)

值函數(shù)是對(duì)預(yù)期的、累積的、折扣的、未來(lái)獎(jiǎng)勵(lì)的預(yù)測(cè),用于衡量每個(gè)狀態(tài)或狀態(tài)行動(dòng)對(duì)的好壞。

狀態(tài)值vπ (s) = E[Rt|st = s] 是指從狀態(tài)s出發(fā),按照策略函數(shù)π (a|s)采取動(dòng)作a的狀態(tài)期望值。

最優(yōu)狀態(tài)值 v*(s) = maxπ vπ (s) = maxa qπ* (s, a) 是采用行動(dòng)策略函數(shù)π對(duì)狀態(tài)s所能達(dá)到的最大狀態(tài)值。

行動(dòng)值qπ (s, a) = E[Rt|st = s, at = a] 是指在狀態(tài)s中選擇行動(dòng)a,然后遵循策略函數(shù)π的獎(jiǎng)勵(lì)期望值。

最優(yōu)行動(dòng)值函數(shù)q*(s, a) = maxπ qπ (s, a)是狀態(tài)s和行動(dòng)a的任何策略所能達(dá)到的最大行動(dòng)值,使用π*表示最優(yōu)策略。

2.4時(shí)間差分學(xué)習(xí)

當(dāng)強(qiáng)化學(xué)習(xí)問(wèn)題滿(mǎn)足馬爾科夫性質(zhì),即未來(lái)狀態(tài)只取決于當(dāng)前狀態(tài)和行動(dòng),而不取決于過(guò)去時(shí),將其表述為馬爾科夫決策過(guò)程(Markov Decision Process, MDP),由5元組(S, A, P, R, γ)定義。當(dāng)有系統(tǒng)模型時(shí),采用動(dòng)態(tài)編程方法:策略評(píng)估來(lái)計(jì)算策略的價(jià)值/行動(dòng)價(jià)值函數(shù),價(jià)值迭代和策略迭代來(lái)尋找最優(yōu)策略。當(dāng)沒(méi)有模型時(shí),則采用強(qiáng)化學(xué)習(xí)方法。當(dāng)有模型時(shí),強(qiáng)化學(xué)習(xí)方法也能發(fā)揮作用。

時(shí)間差分(Temporal Difference, TD)學(xué)習(xí)是強(qiáng)化學(xué)習(xí)的核心。時(shí)間差分學(xué)習(xí)通常是指值函數(shù)評(píng)價(jià)的學(xué)習(xí)方法。Q-learning也被認(rèn)為是時(shí)差學(xué)習(xí)。

TD學(xué)習(xí)以無(wú)模型、在線、完全增量的方式,直接從TD誤差的經(jīng)驗(yàn)中學(xué)習(xí)價(jià)值函數(shù)V(s),并進(jìn)行引導(dǎo)。TD學(xué)習(xí)是一個(gè)預(yù)測(cè)問(wèn)題。迭代規(guī)則是:

V (s) ← V (s) + α[r + γV (st) -V (s)],

其中: α是學(xué)習(xí)率,而[r + γV (st) - V (s)] 稱(chēng)為T(mén)D誤差。

引導(dǎo)方法和TD迭代規(guī)則一樣,根據(jù)后續(xù)的估計(jì)來(lái)估計(jì)狀態(tài)或動(dòng)作值,這在強(qiáng)化學(xué)習(xí)中很常見(jiàn),比如TD學(xué)習(xí)、Q學(xué)習(xí)、動(dòng)作者-評(píng)判者算法。引導(dǎo)方法通常學(xué)習(xí)速度較快,并且可以實(shí)現(xiàn)在線和持續(xù)學(xué)習(xí)。

2.5函數(shù)逼近

當(dāng)狀態(tài)和/或動(dòng)作空間很大、很復(fù)雜或連續(xù)時(shí),函數(shù)近似是一種泛化的方法。函數(shù)逼近旨在從函數(shù)的實(shí)例中概括出一個(gè)函數(shù),以構(gòu)造出整個(gè)函數(shù)的一個(gè)近似值。這通常是監(jiān)督學(xué)習(xí)中的一個(gè)概念,用于機(jī)器學(xué)習(xí)和統(tǒng)計(jì)曲線擬合等研究領(lǐng)域。函數(shù)逼近通常選擇線性函數(shù),部分原因是其理想的理論特性。

2.6深度強(qiáng)化學(xué)習(xí)

當(dāng)使用深度神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning)時(shí),就得到深度強(qiáng)化學(xué)習(xí)(deep RL)方法。此時(shí),使用深度神經(jīng)網(wǎng)絡(luò)來(lái)近似逼近強(qiáng)化學(xué)習(xí)的值函數(shù)、策略和模型(狀態(tài)轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù))。

3.深度強(qiáng)化學(xué)習(xí)核心技術(shù)

強(qiáng)化學(xué)習(xí)智能體主要由值函數(shù)、策略和模型組成。探索與應(yīng)用是強(qiáng)化學(xué)習(xí)的一個(gè)基本權(quán)衡。知識(shí)對(duì)強(qiáng)化學(xué)習(xí)至關(guān)重要。

3.1值函數(shù)

價(jià)值函數(shù)是強(qiáng)化學(xué)習(xí)中的一個(gè)基本概念,時(shí)間差分(Temporal Difference, TD)學(xué)習(xí)及其擴(kuò)展Q-learning分別是學(xué)習(xí)狀態(tài)和動(dòng)作價(jià)值函數(shù)的經(jīng)典算法。

Q-learning 算法偽代碼如下:

然而,當(dāng)動(dòng)作值函數(shù)被類(lèi)似神經(jīng)網(wǎng)絡(luò)的非線性函數(shù)逼近時(shí),強(qiáng)化學(xué)習(xí)是不穩(wěn)定甚至發(fā)散的。由此,提出了深度強(qiáng)化學(xué)習(xí)模型(Deep Q-Network, DQN)。DQN做出了以下重要貢獻(xiàn):利用經(jīng)驗(yàn)重演和目標(biāo)網(wǎng)絡(luò),穩(wěn)定了用深層神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行動(dòng)作值函數(shù)逼近的訓(xùn)練;設(shè)計(jì)了一種僅以像素和游戲分?jǐn)?shù)為輸入的端到端增強(qiáng)學(xué)習(xí)方法,從而只需要最小的領(lǐng)域知識(shí);訓(xùn)練一個(gè)具有相同算法、網(wǎng)絡(luò)架構(gòu)和超參數(shù)的靈活網(wǎng)絡(luò),能夠在許多不同的任務(wù)上表現(xiàn)出色,其性能優(yōu)于以前的算法,性能與人類(lèi)專(zhuān)業(yè)測(cè)試人員相當(dāng)。

3.2策略

策略將狀態(tài)映射到動(dòng)作上,策略?xún)?yōu)化就是要找到一個(gè)最優(yōu)映射。策略搜索法將策略參數(shù)化, 以累積回報(bào)的期望作為目標(biāo)函數(shù)。

目標(biāo)函數(shù)同時(shí)也是參數(shù)θ的函數(shù), 原問(wèn)題變成基于θ的最優(yōu)化問(wèn)題, 求解該優(yōu)化問(wèn)題的方法又稱(chēng)為策略梯度法。

相對(duì)而言,值函數(shù)Q-learning算法更有效率,而策略梯度法則是穩(wěn)定收斂的。

異步動(dòng)作者-評(píng)判者算法 (Asynchronous Actor Critic, A3C)同時(shí)學(xué)習(xí)策略和狀態(tài)值函數(shù),值函數(shù)用于引導(dǎo),即從后續(xù)估計(jì)中更新?tīng)顟B(tài),以減少方差和加快學(xué)習(xí)速度。

在A3C中,并行動(dòng)作參與者采用不同的探索策略來(lái)穩(wěn)定訓(xùn)練,從而避免了經(jīng)驗(yàn)重演。與大多數(shù)深度學(xué)習(xí)算法不同,異步方法可以在單個(gè)多核CPU上運(yùn)行。對(duì)于Atari游戲,A3C運(yùn)行速度快得多,但表現(xiàn)優(yōu)于DQN、D-DQN和優(yōu)先D-DQN。A3C還成功地解決了連續(xù)的電機(jī)控制問(wèn)題:TORCS賽車(chē)游戲和MujoCo物理操作和移動(dòng),以及迷宮,一個(gè)使用視覺(jué)輸入的隨機(jī)3D迷宮導(dǎo)航任務(wù),在這個(gè)任務(wù)中,每一個(gè)新的場(chǎng)景中,每個(gè)智能體都將面對(duì)一個(gè)新的迷宮,因此它需要學(xué)習(xí)一個(gè)探索隨機(jī)迷宮的一般策略。

3.3獎(jiǎng)勵(lì)

獎(jiǎng)勵(lì)為增強(qiáng)學(xué)習(xí)智能體提供評(píng)估性的反饋以做出決策。獎(jiǎng)勵(lì)可能是稀疏的,因此對(duì)學(xué)習(xí)算法是有挑戰(zhàn)性的,例如,在計(jì)算機(jī)圍棋中,獎(jiǎng)勵(lì)發(fā)生在游戲結(jié)束時(shí)。有無(wú)監(jiān)督的方式來(lái)利用環(huán)境信號(hào)。獎(jiǎng)勵(lì)函數(shù)是獎(jiǎng)勵(lì)的數(shù)學(xué)公式。獎(jiǎng)勵(lì)形成是指在保持最優(yōu)策略的同時(shí),修改獎(jiǎng)勵(lì)函數(shù),以促進(jìn)學(xué)習(xí)。獎(jiǎng)勵(lì)功能可能不適用于某些增強(qiáng)學(xué)習(xí)問(wèn)題。

在模仿學(xué)習(xí)中,智能體通過(guò)專(zhuān)家演示學(xué)習(xí)執(zhí)行任務(wù),從專(zhuān)家那里獲取軌跡樣本,不需要強(qiáng)化信號(hào),也不需要訓(xùn)練時(shí)專(zhuān)家提供額外的數(shù)據(jù);模仿學(xué)習(xí)的兩種主要方法是行為克隆和逆強(qiáng)化學(xué)習(xí)。行為克隆,或稱(chēng)學(xué)徒學(xué)習(xí),或示范學(xué)習(xí),被定義為一個(gè)有監(jiān)督的學(xué)習(xí)問(wèn)題,用于將狀態(tài)-行為對(duì)從專(zhuān)家軌跡映射到政策,而無(wú)需學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。逆強(qiáng)化學(xué)習(xí)(Inverse Reinforcement Learning IRL)是在觀察到最優(yōu)行為的情況下確定獎(jiǎng)勵(lì)函數(shù)的問(wèn)題,通過(guò)IRL探討學(xué)徒制學(xué)習(xí)。

(1)從示范中學(xué)習(xí)。

深度Q-示范學(xué)習(xí)(Deep Q-learning from Demonstrations, DQfD),試圖通過(guò)利用示范數(shù)據(jù),結(jié)合時(shí)間差分(TD)、監(jiān)督損失和正則化損失來(lái)加速學(xué)習(xí)。在這種方法中,示范數(shù)據(jù)沒(méi)有獎(jiǎng)勵(lì)信號(hào),但Q學(xué)習(xí)中有獎(jiǎng)勵(lì)信號(hào)。有監(jiān)督的大邊際分類(lèi)損失使從學(xué)習(xí)值函數(shù)導(dǎo)出的策略能夠模仿演示者;TD損失使值函數(shù)根據(jù)Bellman方程有效,并進(jìn)一步用于強(qiáng)化學(xué)習(xí);網(wǎng)絡(luò)權(quán)重和偏差的正則化損失函數(shù)可防止過(guò)度擬合小型演示數(shù)據(jù)集。在預(yù)訓(xùn)練階段,DQfD只對(duì)演示數(shù)據(jù)進(jìn)行訓(xùn)練,以獲得模仿演示者的策略和用于持續(xù)學(xué)習(xí)RL的值函數(shù)。然后,DQfD自生成樣本,并按一定比例與演示數(shù)據(jù)混合,得到訓(xùn)練數(shù)據(jù)。在Atari游戲中,DQfD通常比DQN具有更好的初始性能、更高的平均回報(bào)和更快的學(xué)習(xí)速度。

監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)是從專(zhuān)家的行動(dòng)中學(xué)習(xí)的,如同從演示中的學(xué)習(xí)一樣,用結(jié)果初始化強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)。

(2)生成性對(duì)抗性模仿學(xué)習(xí)。

在IRL中,智能體首先學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù),然后從中得到最優(yōu)策略。許多IRL算法都有很高的時(shí)間復(fù)雜度,內(nèi)環(huán)存在RL問(wèn)題。生成性對(duì)抗性模仿學(xué)習(xí)算法,繞過(guò)中間IRL步驟,直接從數(shù)據(jù)中學(xué)習(xí)策略。生成性對(duì)抗訓(xùn)練是為了適應(yīng)辨別器,定義專(zhuān)家行為的狀態(tài)和行為的分布,以及生成器和策略。

生成性對(duì)抗模仿學(xué)習(xí)發(fā)現(xiàn)了一種策略,使得判別器DR無(wú)法區(qū)分遵循專(zhuān)家策略的狀態(tài)和遵循仿真器策略的狀態(tài),從而迫使DR在所有情況下都取0.5,而在等式中無(wú)法區(qū)分。通過(guò)將兩者都表示為深度神經(jīng)網(wǎng)絡(luò),并通過(guò)反復(fù)對(duì)每一個(gè)進(jìn)行梯度更新來(lái)找到一個(gè)最優(yōu)解。DR可以通過(guò)監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練,數(shù)據(jù)集由當(dāng)前的和專(zhuān)家的記錄組成。對(duì)于一個(gè)固定的DR,尋找一個(gè)最優(yōu)的DR。因此,這是一個(gè)以 -logDR(s)為獎(jiǎng)勵(lì)的策略?xún)?yōu)化問(wèn)題。

(3)第三人稱(chēng)模仿學(xué)習(xí)。

上述模仿學(xué)習(xí)中,具有第一人稱(chēng)示范的局限性,因此可以從無(wú)監(jiān)督的第三人稱(chēng)示范中學(xué)習(xí),通過(guò)觀察其他人實(shí)現(xiàn)目標(biāo)來(lái)模仿人類(lèi)的學(xué)習(xí)。

3.4模型與計(jì)劃

模型是一個(gè)智能體對(duì)環(huán)境的表示,包括轉(zhuǎn)移概率模型和獎(jiǎng)勵(lì)模型。通常假設(shè)獎(jiǎng)勵(lì)模型是已知的。無(wú)模型強(qiáng)化學(xué)習(xí)方法處理未知的動(dòng)力學(xué)系統(tǒng),但通常需要大量的樣本,這對(duì)于實(shí)際的物理系統(tǒng)來(lái)說(shuō)可能是昂貴的或難以獲得的?;谀P偷膹?qiáng)化學(xué)習(xí)方法以數(shù)據(jù)高效的方式學(xué)習(xí)價(jià)值函數(shù)和/或策略,但存在模型辨識(shí)問(wèn)題,估計(jì)的模型可能不精確,性能受到估計(jì)模型的限制。規(guī)劃通常用模型來(lái)構(gòu)造價(jià)值函數(shù)或策略,因此規(guī)劃通常與基于模型的強(qiáng)化學(xué)習(xí)方法相關(guān)。

價(jià)值迭代網(wǎng)絡(luò)(Value Iteration Networks,VIN),是一個(gè)完全可微的CNN規(guī)劃模塊,可用于近似值迭代算法,以學(xué)習(xí)計(jì)劃,例如強(qiáng)化學(xué)習(xí)中的策略。與傳統(tǒng)規(guī)劃不同,車(chē)輛識(shí)別號(hào)是無(wú)模型的,其中獎(jiǎng)勵(lì)和轉(zhuǎn)移概率是神經(jīng)網(wǎng)絡(luò)的一部分,因此可以避免系統(tǒng)辨識(shí)問(wèn)題。利用反向傳播技術(shù)可以對(duì)車(chē)輛識(shí)別碼進(jìn)行端到端的訓(xùn)練。價(jià)值迭代網(wǎng)絡(luò)為強(qiáng)化學(xué)習(xí)問(wèn)題設(shè)計(jì)了新的深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

3.5探索

強(qiáng)化學(xué)習(xí)智能體通常使用探索來(lái)減少其對(duì)獎(jiǎng)勵(lì)函數(shù)和轉(zhuǎn)移概率的不確定性。這種不確定性可以量化為置信區(qū)間或環(huán)境參數(shù)的后驗(yàn)概率,這些參數(shù)與其行動(dòng)訪問(wèn)次數(shù)有關(guān)。使用基于計(jì)數(shù)的探索,強(qiáng)化學(xué)習(xí)智能體使用訪問(wèn)計(jì)數(shù)來(lái)指導(dǎo)其行為,以減少不確定性。然而,基于計(jì)數(shù)的方法在大型域中并不直接有用。內(nèi)在動(dòng)機(jī)方法建議探索令人驚訝的東西,典型的是在學(xué)習(xí)過(guò)程中基于預(yù)測(cè)誤差的變化。內(nèi)在動(dòng)機(jī)方法并不像基于計(jì)數(shù)的方法那樣需要馬爾科夫?qū)傩院捅砀癖硎?。狀態(tài)空間上的密度模型pseudo count,通過(guò)引入信息增益,將基于計(jì)數(shù)的探索和內(nèi)在動(dòng)機(jī)統(tǒng)一起來(lái),在基于計(jì)數(shù)的探索中與置信區(qū)間相關(guān),在內(nèi)在動(dòng)機(jī)中與學(xué)習(xí)進(jìn)度相關(guān)聯(lián)。

另一種獎(jiǎng)勵(lì)探索技術(shù),以避免以往獎(jiǎng)勵(lì)的無(wú)效、無(wú)方向的探索策略,如貪婪和熵正則化算法,并促進(jìn)對(duì)區(qū)域的定向探索,其中當(dāng)前策略下行動(dòng)序列的對(duì)數(shù)概率低估了最終的獎(jiǎng)勵(lì)。未充分獎(jiǎng)勵(lì)的探索策略是由最優(yōu)策略的重要性抽樣而來(lái),并結(jié)合模式尋優(yōu)和均值尋優(yōu)兩個(gè)條件來(lái)權(quán)衡探索與應(yīng)用。

3.6知識(shí)

知識(shí)對(duì)于深度強(qiáng)化學(xué)習(xí)的進(jìn)一步發(fā)展至關(guān)重要。知識(shí)可以通過(guò)值函數(shù)、獎(jiǎng)勵(lì)、策略、模式、探索技術(shù)等多種方式融入強(qiáng)化學(xué)習(xí)。然而如何將知識(shí)融入強(qiáng)化學(xué)習(xí)仍然是一個(gè)很大的需要進(jìn)一步研究的問(wèn)題。

4.結(jié)語(yǔ)

深度強(qiáng)化學(xué)習(xí)方法推動(dòng)了人工智能領(lǐng)域鼓舞人心的進(jìn)步。目前深度強(qiáng)化學(xué)習(xí)的研究集中在表征學(xué)習(xí)和目標(biāo)導(dǎo)向行為的研究上,克服了樣本效率低下的明顯問(wèn)題,使深度強(qiáng)化學(xué)習(xí)能夠有效的工作。

參考文獻(xiàn)

[1]SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search [J]. Nature, 2016, 529(7587): 484-+.

[2]萬(wàn)里鵬, 蘭旭光, 張翰博, et al. 深度強(qiáng)化學(xué)習(xí)理論及其應(yīng)用綜述 [J]. 模式識(shí)別與人工智能, 2019, 32(01): 67-81.

[3]SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge [J]. Nature, 2017, 550(7676): 354-+.

[4]SILVER D, HUBERT T, SCHRITTWIESER J, et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play [J]. Science, 2018, 362(6419): 1140-+.

[5]ARULKUMARAN K, DEISENROTH M P, BRUNDAGE M, et al. Deep Reinforcement Learning A brief survey [J]. Ieee Signal Processing Magazine, 2017, 34(6): 26-38.

[6]趙星宇,丁世飛. 深度強(qiáng)化學(xué)習(xí)研究綜述 [J]. 計(jì)算機(jī)科學(xué), 2018, 45(07): 1-6.

[7]唐平中,朱軍,俞揚(yáng)等. 動(dòng)態(tài)不確定條件下的人工智能 [J]. 中國(guó)科學(xué)基金, 2018, 32(03): 266-70.

[8]孫路明,張少敏,姬濤等. 人工智能賦能的數(shù)據(jù)管理技術(shù)研究 [J]. 軟件學(xué)報(bào), 2020, 31(03): 600-19.

[9]劉全,翟建偉,章宗長(zhǎng)等. 深度強(qiáng)化學(xué)習(xí)綜述 [J]. 計(jì)算機(jī)學(xué)報(bào), 2018, 41(01): 1-27.

基金項(xiàng)目:(1)廣東省教育廳2019年度普通高校特色創(chuàng)新類(lèi)項(xiàng)目(2019GKTSCX152);? ? (2)廣東省教育廳2018年度重點(diǎn)平臺(tái)及科研項(xiàng)目特色創(chuàng)新項(xiàng)目(2018GWTSCX030);(3)廣東省教育廳2018年度省高等職業(yè)教育教學(xué)質(zhì)量與教學(xué)改革工程教育教學(xué)改革研究與實(shí)踐項(xiàng)目(GDJG2019309);(4)廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院2020年校級(jí)質(zhì)量工程重點(diǎn)項(xiàng)目(SWZL202001)。

作者簡(jiǎn)介:吳英萍(1982.10-),講師,學(xué)士,廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院計(jì)算機(jī)應(yīng)用與軟件技術(shù)教研室專(zhuān)任教師。研究方向?yàn)檐浖夹g(shù),人工智能。

*通訊作者:耿江濤(1965.12-),教授,高級(jí)工程師,華南師范大學(xué)博士生,廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院教育研究院教授。研究方向?yàn)榇髷?shù)據(jù)應(yīng)用技術(shù),高職教育管理與國(guó)際化。

1.廣州涉外經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院? ? 廣東廣州? ? 510540

2.華南師范大學(xué)? ? 廣東廣州? ? ? 510631

猜你喜歡
深度學(xué)習(xí)人工智能
人工智能之父
2019:人工智能
人工智能與就業(yè)
數(shù)讀人工智能
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
兴仁县| 禄丰县| 凤冈县| 廊坊市| 临泽县| 安庆市| 潞西市| 台安县| 右玉县| 寿光市| 定兴县| 九龙县| 昔阳县| 伊川县| 时尚| 洛阳市| 留坝县| 奉新县| 沾益县| 秦安县| 奉贤区| 安陆市| 宜宾市| 永胜县| 金沙县| 江永县| 义马市| 太仓市| 景东| 莎车县| 苍梧县| 新昌县| 道真| 上杭县| 和政县| 沂水县| 邯郸市| 通化市| 南昌市| 临邑县| 镇平县|