国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

<samp id="ougyy"><tfoot id="ougyy"></tfoot></samp>

<strike id="ougyy"><nav id="ougyy"></nav></strike>

<samp id="ougyy"><tbody id="ougyy"></tbody></samp>

<th id="ougyy"><nav id="ougyy"></nav></th>

<blockquote id="ougyy"></blockquote>

?

大數(shù)據(jù)環(huán)境下的增強(qiáng)學(xué)習(xí)綜述*

2014-11-27 08:15馮延蓬孟憲軍江建舉何國坤

深圳職業(yè)技術(shù)學(xué)院學(xué)報 2014年3期

關(guān)鍵詞：先驗分層狀態(tài)

仵博，馮延蓬，孟憲軍，江建舉，何國坤

（深圳職業(yè)技術(shù)學(xué)院教育技術(shù)與信息中心，廣東深圳 518055）

增強(qiáng)學(xué)習(xí)（Reinforcement Learning，簡稱RL）是一種有效的最優(yōu)控制學(xué)習(xí)方法，實現(xiàn)系統(tǒng)在模型復(fù)雜或者不確定等條件下基于數(shù)據(jù)驅(qū)動的多階段優(yōu)化學(xué)習(xí)控制，是近年來一個涉及機(jī)器學(xué)習(xí)、控制理論和運籌學(xué)等多個學(xué)科的交叉研究方向．增強(qiáng)學(xué)習(xí)因其具有較強(qiáng)的在線自適應(yīng)性和對復(fù)雜系統(tǒng)的自學(xué)能力，使其在機(jī)器人導(dǎo)航、非線性控制、復(fù)雜問題求解等領(lǐng)域得到成功應(yīng)用[1-4]．

經(jīng)典增強(qiáng)學(xué)習(xí)算法按照是否基于模型分類，可分為基于模型（Model-based）和模型自由（Model-free）兩類．基于模型的有TD學(xué)習(xí)、Q學(xué)習(xí)、SARSA和ACTOR-CRITIC等算法．模型自由的有DYNA-Q和優(yōu)先掃除等算法．以上經(jīng)典增強(qiáng)學(xué)習(xí)算法在理論上證明了算法的收斂性，然而，在實際的應(yīng)用領(lǐng)域，特別是在大數(shù)據(jù)環(huán)境下，學(xué)習(xí)的參數(shù)個數(shù)很多，是一個典型的NP難問題，難以最優(yōu)化探索和利用兩者之間的平衡[5-8]．因此，經(jīng)典增強(qiáng)學(xué)習(xí)算法只在理論上有效．

為此，近年來的增強(qiáng)學(xué)習(xí)研究主要集中在減少學(xué)習(xí)參數(shù)數(shù)量、避免后驗分布全采樣和最小化探索次數(shù)等方面，達(dá)到算法快速收斂的目的，實現(xiàn)探索和利用兩者之間的最優(yōu)化平衡．當(dāng)前現(xiàn)有算法按照類型可分為五類：1）抽象增強(qiáng)學(xué)習(xí)；2）可分解增強(qiáng)學(xué)習(xí)；3）分層增強(qiáng)學(xué)習(xí)；4）關(guān)系增強(qiáng)學(xué)習(xí)；5）貝葉斯增強(qiáng)學(xué)習(xí)．

1 抽象增強(qiáng)學(xué)習(xí)

抽象增強(qiáng)學(xué)習(xí)（Abstraction Reinforcement Learning，簡稱 ARL）的核心思想是忽略掉狀態(tài)向量中與當(dāng)前決策不相關(guān)的特征，只考慮那些有關(guān)的或重要的因素，達(dá)到壓縮狀態(tài)空間的效果[9]．該類算法可以在一定程度上緩解“維數(shù)災(zāi)”問題．狀態(tài)抽象原理如圖1所示．

目前，狀態(tài)抽象方法有狀態(tài)聚類、值函數(shù)逼近和自動狀態(tài)抽象等方法．函數(shù)逼近方法難于確保增強(qiáng)學(xué)習(xí)算法能夠收斂，采用線性擬合和神經(jīng)網(wǎng)絡(luò)等混合方法來實現(xiàn)函數(shù)逼近是當(dāng)前的研究熱點和方向．狀態(tài)聚類利用智能體狀態(tài)空間中存在的對稱性來壓縮狀態(tài)空間，實現(xiàn)狀態(tài)聚類．自動狀態(tài)抽象增強(qiáng)學(xué)習(xí)方法利用 U-樹自動地由先驗知識推理出狀態(tài)抽象，是狀態(tài)抽象增強(qiáng)學(xué)習(xí)研究的方向之一．以上算法都在一定程度上緩解了增強(qiáng)學(xué)習(xí)中大規(guī)模狀態(tài)造成算法無法收斂的問題，但是存在以下缺點：1）增強(qiáng)學(xué)習(xí)的績效依賴于狀態(tài)抽象方法對狀態(tài)空間的劃分，如何合理劃分子空間是狀態(tài)抽象增強(qiáng)學(xué)習(xí)面臨的難題．如果空間劃分過粗，難以實現(xiàn)增強(qiáng)學(xué)習(xí)算法的快速收斂；而如果空間劃分過細(xì)，則會喪失泛化能力．2）狀態(tài)抽象方法與特定問題表示相關(guān)，缺少統(tǒng)一的理論框架，阻礙了狀態(tài)抽象增強(qiáng)學(xué)習(xí)的廣泛應(yīng)用．

圖1 狀態(tài)抽象原理示意圖

圖2 可分解原理示意圖

2 可分解增強(qiáng)學(xué)習(xí)

可分解增強(qiáng)學(xué)習(xí)（Factored Reinforcement Learning，簡稱 FRL）是一種對狀態(tài)轉(zhuǎn)移函數(shù)和報酬函數(shù)進(jìn)行壓縮表示的增強(qiáng)學(xué)習(xí)方法[10]．該方法的核心思想是首先利用動態(tài)貝葉斯網(wǎng)絡(luò)的條件獨立特性和上下文獨立特性將狀態(tài)轉(zhuǎn)移函數(shù)和報酬函數(shù)進(jìn)行可分解描述，將離散的概率分布函數(shù)轉(zhuǎn)化成決策樹來表示，達(dá)到將大規(guī)模指數(shù)級的狀態(tài)空間壓縮到多項式級別的狀態(tài)空間的目的，然后采用決策論回歸方法對決策樹進(jìn)行學(xué)習(xí)，可分解原理如圖2所示．

可分解增強(qiáng)學(xué)習(xí)的思想來源于Boutilier等人在2000年發(fā)表在《Artificial Intelligence》上的論文，該論文指出采用可分解表示方法可以將高維狀態(tài)空間壓縮為低維可求解空間，并詳細(xì)介紹可分解的理論和方法，以及結(jié)構(gòu)化動態(tài)規(guī)劃（Structured Dynamic Programming，簡稱SDP）算法，為可分解增強(qiáng)學(xué)習(xí)奠定了理論基礎(chǔ)．更進(jìn)一步，Guestrin等人[11]提出結(jié)構(gòu)化線性規(guī)劃（Structured Linear Programming，簡稱SLP）算法和可分解增強(qiáng)學(xué)習(xí)算法，實現(xiàn)了求解240～250規(guī)模的問題．

由于FRL極大地降低求解問題的規(guī)模，提供學(xué)習(xí)算法收斂速度，成為近年來的研究熱點．例如，Degris等人提出的SDYNA算法，Kroon等人提出的KWIK算法[12]，Kozloval等人提出的IMPSPITI算法和 TeXDYNA 算法[13]，Hester等人提出的RL-DT算法[14]，Szita等人提出的 FOIM 算法[15]，Vigorito等人針對狀態(tài)和動作連續(xù)情況下提出的OISL算法[16]0．

以上FRL算法相同之處是首先采用監(jiān)督學(xué)習(xí)方法建立狀態(tài)轉(zhuǎn)移函數(shù)和報酬函數(shù)的可分解表示，然后根據(jù)觀察結(jié)果，采用不同的方法來更新狀態(tài)轉(zhuǎn)移函數(shù)模型和報酬函數(shù)模型．因此，如何建立應(yīng)用對象的可分解泛化表示，減少學(xué)習(xí)的參數(shù)個數(shù)，提高在后驗分布采樣算法的性能是目前研究的難點．

3 分層增強(qiáng)學(xué)習(xí)

分層增強(qiáng)學(xué)習(xí)（Hierarchical Reinforcement Learning，簡稱HRL）實質(zhì)上也是一種任務(wù)分層方法，其核心思想是將一個大規(guī)模難于求解的問題分解成若干個較小規(guī)模易于求解的問題[10]．該算法可以有效解決學(xué)習(xí)參數(shù)數(shù)量隨狀態(tài)變量維數(shù)成指數(shù)級增長這一“維數(shù)災(zāi)”問題[17]．HRL任務(wù)分層方法可分為手工分層和自動分層，手工分層方法是根據(jù)智能體先驗知識采用手工方式來分解，自動任務(wù)分層方法是通過自動探索，自動發(fā)現(xiàn)和構(gòu)造某種形式的層次結(jié)構(gòu)．根據(jù)先驗知識，采用自動任務(wù)分層方法是目前HRL領(lǐng)域的研究熱點．HRL原理如圖3所示．

圖3 分層原理示意圖

由于HRL能夠有效降低求解問題的規(guī)模，成為當(dāng)前增強(qiáng)學(xué)習(xí)研究的熱點和難點．在當(dāng)前研究成果中，具有里程牌意義的算法為Option算法、HAMs算法和MAXQ算法．Option算法的任務(wù)分層其實是在大數(shù)據(jù)空間上探索子目標(biāo)并構(gòu)造Option的過程．HAMs算法通過引入有限狀態(tài)機(jī)概念，使之用于表達(dá)大數(shù)據(jù)空間中的區(qū)域策略．MAXQ算法的任務(wù)分層是在任務(wù)空間上構(gòu)造多個子任務(wù)的過程，它直接從任務(wù)分層的角度來處理大數(shù)據(jù)模型，所有子任務(wù)構(gòu)成一個任務(wù)圖．

近年來，國內(nèi)外研究人員針對以上三個算法缺點，提出不少改進(jìn)型 HRL算法．例如，Subramanian等人提出的 Human-Options方法[18]，Joshi等人[19]采用面向?qū)ο蟊硎痉椒▉順?gòu)造HRL模型，利用特定領(lǐng)域知識進(jìn)行動作選擇，以提高學(xué)習(xí)效果．Jong等人結(jié)合 Rmax算法和MAXQ算法的優(yōu)點，提出一種混合型RMAXQ算法[20]．

以上算法在特定的實驗平臺和應(yīng)用領(lǐng)域有效，但是面對如何劃分層次來保證HRL算法收斂的實時性和策略求解的最優(yōu)性是目前的難題．

4 關(guān)系增強(qiáng)學(xué)習(xí)

人們在處理復(fù)雜領(lǐng)域的問題的時候，會很自然的使用關(guān)系的方法．關(guān)系增強(qiáng)學(xué)習(xí)（Relational Reinforcement Learning，簡稱RRL）是采用關(guān)系邏輯或圖結(jié)構(gòu)等表示方法來描述環(huán)境[21]．當(dāng)前RRL的研究主要以關(guān)系表示為基礎(chǔ)，考慮在關(guān)系表示上如何把握環(huán)境的不同狀態(tài)[22]．RRL在的優(yōu)點在于：首先，它可以將在相似環(huán)境中的對象和已經(jīng)學(xué)習(xí)到的知識泛化到不同的任務(wù)中；其次，使用關(guān)系表示也是一種比較自然的利用先驗知識（背景知識）的方式．目前比較常用的方法就是用一階邏輯形式擴(kuò)展成關(guān)系先驗，或者擴(kuò)展成能表達(dá)概率和效用的擴(kuò)展邏輯行為語言[23,24]．

RRL利用關(guān)系邏輯的形式來描述復(fù)雜問題，利用先驗知識進(jìn)行邏輯推理，符合人類的思維習(xí)慣．但是，從目前應(yīng)用來看，RRL只在小規(guī)模特定問題有效，例如積木世界、十五子棋和一些小游戲中．如何實現(xiàn)RRL的泛化，如何在大規(guī)模動態(tài)不確定環(huán)境下進(jìn)行邏輯推理是RRL領(lǐng)域中的難題．

5 貝葉斯增強(qiáng)學(xué)習(xí)

貝葉斯增強(qiáng)學(xué)習(xí)（Bayesian Reinforcement Learning，簡稱 BRL）利用模型先驗知識對未知模型參數(shù)建模，然后根據(jù)觀察數(shù)據(jù)對未知模型參數(shù)的后驗分布進(jìn)行更新，最后根據(jù)后驗分布進(jìn)行規(guī)劃，以期最大化期望報酬值[25]．由于 BRL為最優(yōu)化探索和利用之間的平衡提供一種完美的解決方案，得到廣泛關(guān)注，成為當(dāng)前RL領(lǐng)域研究的熱點．RRL原理如圖4所示．

BRL可分為模型自由[26]和基于模型[27]兩類．模型自由增強(qiáng)學(xué)習(xí)算法直接學(xué)習(xí)最優(yōu)策略和最優(yōu)值函數(shù)，需求太多的探索，造成算法收斂速度慢，無法實現(xiàn)在線學(xué)習(xí)．同時，在實際的應(yīng)用領(lǐng)域狀態(tài)轉(zhuǎn)移函數(shù)往往會丟失數(shù)據(jù)，造成算法的失真．基于模型的增強(qiáng)學(xué)習(xí)利用先驗知識緩和數(shù)據(jù)丟失，加速算法收斂，減少探索次數(shù)，能夠最優(yōu)化平衡探索和利用二者之間的關(guān)系．但是，基于模型的增強(qiáng)學(xué)習(xí)計算量大，使其無法實現(xiàn)在線學(xué)習(xí)．為此，如何有效降低未知參數(shù)個數(shù)，提高在高維后驗概率分布上規(guī)劃的效率是目前增強(qiáng)學(xué)習(xí)的難題．

圖4 貝葉斯增強(qiáng)學(xué)習(xí)原理示意圖

6 結(jié) 論

在大數(shù)據(jù)中進(jìn)行機(jī)器學(xué)習(xí)，特別是增強(qiáng)學(xué)習(xí)，是當(dāng)前大數(shù)據(jù)基礎(chǔ)研究的熱點和難點，也是推進(jìn)大數(shù)據(jù)應(yīng)用的關(guān)鍵．規(guī)模巨大的數(shù)據(jù)是增強(qiáng)學(xué)習(xí)的瓶頸，針對于此，本文研究了當(dāng)前五類增強(qiáng)學(xué)習(xí)方法，并指出它們的優(yōu)勢和缺點．大數(shù)據(jù)的關(guān)鍵在于應(yīng)用，選用何種增強(qiáng)學(xué)習(xí)方法需要根據(jù)特定的應(yīng)用而定．當(dāng)前，在大數(shù)據(jù)應(yīng)用領(lǐng)域，將監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)與增強(qiáng)學(xué)習(xí)相結(jié)合是一條有效的方法．

[1] Silver D, Sutton R, Müller M. Temporal-difference search in computer Go[J]．Machine Learning, 2012，87：183-219．

[2] 徐昕，沈棟，高巖青，等．基于馬氏決策過程模型的動態(tài)系統(tǒng)學(xué)習(xí)控制：研究前沿與展望[J]．自動化學(xué)報，2012，38（5）：673-687．

[3] Wang F Y, Jin N, Liu D R, et al. Adaptive dynamic programming for finite horizon optimal control of discrete time nonlinear systems with ?-error bound[J]．IEEE Transactions on Neural Networks,2011，22（1）：24-36．

[4] Hafner R, Riedmiller M. Reinforcement learning in feedback control: challenges and benchmarks from technical process control[J]．Machine Learning,2011，84：137-169．

[5] Choi J, Kim K E. Inverse reinforcement learning in partially observable environments[J]．Journal of Machine Learning Research, 2011，12：691-730．

[6] Meltzoff, A N, Kuhl, P K, Movellan J, et al. Foundations for a new science of learning[J]．Science, 2009，325：284-288．

[7] Kovacs T, Egginton R. On the analysis and design of software for reinforcement learning with a survey of existing systems[J]．Machine Learning, 2011，84：7-49．

[8] Doshi-Velez F, Pineau J, Roy N. Reinforcement learning with limited reinforcement: Using Bayes risk for active learning in POMDPs[J]．Artificial Intelligence,2012，1870-188：115-132．

[9] Frommberger L, Wolter D. Structural knowledge transfer by spatial abstraction for reinforcement learning agents[J]．Adaptive Behavior, 2010，18（6）：531-539．

[10] Kozlova O. Hierarchical & Factored reinforcement learning[D]．Paris: Université Pierre et Marie Curie, 2010．

[11] Guestrin C, Koller D, Parr R, et al. Efficient solution algorithms for factored MDPs[J]．Journal of Artificial Intelligence Research, 2003，19：399-468．

[12] Kroon M, Whiteson S. Automatic feature selection for model-based reinforcement learning in factored MDPs[C]//Wani M A, Kantardzic M M, Palade V, et al.Proceedings of 2009 International Conference on Machine Learning and Applications. Washington, DC:IEEE Press, 2009：324-330．

[13] Kozloval O, Sigaud O, Wuillemin P H, et al. Considering unseen states as impossible in factored reinforcement learning[C]//Buntine W. In Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases: Part I. Berlin:Springer-Verlag, 2009：721-735．

[14] Hester T, Stone P. Generalized model learning for reinforcement learning in factored domains[C]//Decker K, Sichman J, Sierra C, et al. The Eighth International Conference on Autonomous Agents and Multiagent Systems. Richland, SC: IFAAMS, 2009：10-15．

[15] Szita I, Lorincz A. Optimistic initialization and greediness lead to polynomial time learning in factored MDPs[C]//Wani M A, Kantardzic M M, Palade V, et al.Proceedings of 2009 International Conference on Machine Learning and Applications. Washington, DC:IEEE Press, 2009：1001-1008．

[16] Vigorito C M, Barto A G. Incremental structure learning in factored MDPs with continuous states and actions[R]．Amherst: University of Massachusetts Amherst,2009．

[17] 杜小勤，李慶華，韓建軍．HAMs體系中的同態(tài)變換方法研究[J]．小型微型計算機(jī)系統(tǒng)，2008，29（11）：2075-2082．

[18] Subramanian K, Isbell C, Thomaz A. Learning options through human interaction[C]//Beal J, Knox W B.Proceedings of 2011 IJCAI Workshop on Agents Learning Interactively from Human Teachers. Palo Alto: AAAI Press, 2011：39-45．

[19] Joshi M, Khobragade R, Sarda S. Hierarchical action selection for reinforcement learning in infinite Mario[C]//Kersting K, Toussaint M. The Sixth Starting Artificial Intelligence Research Symposium.Lansdale, PA: IOS Press, 2012：162-167．

[20] Jong N K, Stone P. Hierarchical model-based reinforcement learning: Rmax+MAXQ[C]//McCallum A, Roweis S. Proceedings of the Twenty-Fifth International Conference on Machine Learning. Madison, Wisconsin: ACM Press, 2008：432-439．

[21] Liu Q，Gao Y，Chen D X，et al. A Heuristic Contour Prolog List Method Used in Logical Reinforcement Learning[J]．Journal of Information & Computational Science, 2008，5（5）：2001-2007．

[22] Song Z W, Chen X P, Cong S. Agent learning in relational domains based on logical MDPs with negation[J]．Journal of Computers, 2008，3（9）：29-38．

[23] Sanner S, Kersting K. Symbolic Dynamic Programming for First-order POMDPs[C]//Fox M, Poole D.Proceeding of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10). Atlanta: AAAI Press,2010：1140-1146．

[24] 劉全，周文云，李志濤．關(guān)系強(qiáng)化學(xué)習(xí)方法的初步研究[J]．計算機(jī)應(yīng)用與軟件，2010，27（2）：40-43．

[25] Ghavamzadeh M, Engel Y. Bayesian actor-critic algorithms[C]//Ghahramani, Z. Proceedings of the 24thInternational Conference on Machine Learning. New York: ACM Press, 2007：297-304．

[26] Poupart P, Vlassis N. Model-based Bayesian reinforcement learning in partially observable domains [C] //Padgham L, ParkesD. Proceedings of the International Joint Conference on Autonomous Agents and Multi Agent Systems. New York: ACM Press, 2008：1025-1032．

[27] Ross S, Pineau J, Chaib-draa B, et al. A Bayesian approach for learning and planning in partially observable Markov decision processes[J]．Journal of Machine Learning Research, 2011，12：1729-1770．

猜你喜歡

先驗分層狀態(tài)

基于無噪圖像塊先驗的MRI低秩分解去噪算法研究

成都信息工程大學(xué)學(xué)報(2019年3期)2019-09-25

一種沉降環(huán)可準(zhǔn)確就位的分層沉降儀

工程與建設(shè)(2019年2期)2019-09-02

狀態(tài)聯(lián)想

小學(xué)生作文(低年級適用)(2019年5期)2019-07-26

雨林的分層

動漫星空(興趣百科)(2018年4期)2018-10-26

生命的另一種狀態(tài)

讀友·少年文學(xué)(清雅版)(2018年12期)2018-04-04

有趣的分層

中學(xué)生數(shù)理化·八年級物理人教版(2017年3期)2017-11-09

基于自適應(yīng)塊組割先驗的噪聲圖像超分辨率重建

自動化學(xué)報(2017年5期)2017-05-14

堅持是成功前的狀態(tài)

山東青年(2016年3期)2016-02-28

基于平滑先驗法的被動聲信號趨勢項消除

探測與控制學(xué)報(2015年4期)2015-12-15

先驗的廢話與功能的進(jìn)路

東南法學(xué)(2015年2期)2015-06-05

深圳職業(yè)技術(shù)學(xué)院學(xué)報2014年3期

深圳職業(yè)技術(shù)學(xué)院學(xué)報的其它文章: 基于Hadoop平臺的海量文件存儲策略研究*; 基于FPGA的SDH設(shè)備時鐘芯片技術(shù); 基于Intranet三網(wǎng)融合的探討*; 常壓干燥制備塊狀SiO2氣凝膠*; 漸開線圓柱齒輪參數(shù)化三維實體建模系統(tǒng)研究*; 一種新型的細(xì)孔磨料流加工機(jī)床及其加工原理分析*

尼玛县| 成安县| 泸水县| 湘西| 汾阳市| 金昌市| 新化县| 张家港市| 临泽县| 无锡市| 班戈县| 盖州市| 龙川县| 石阡县| 阿坝| 柳河县| 邵东县| 连平县| 内乡县| 太湖县| 襄樊市| 北碚区| 阳江市| 新干县| 和林格尔县| 株洲县| 通许县| 新巴尔虎右旗| 调兵山市| 金昌市| 菏泽市| 横山县| 通榆县| 宜宾市| 家居| 沁阳市| 瓦房店市| 义马市| 德安县| 石城县| 嘉定区|

<strike id="4sooo"><nav id="4sooo"></nav></strike>

<samp id="4sooo"><tfoot id="4sooo"></tfoot></samp>