基于離線強(qiáng)化學(xué)習(xí)的研究綜述

2024-10-18 00:00:00陳鍶奇耿婕汪云飛余偉馳趙佳寧王仕超

無線電通信技術(shù) 2024年5期

摘要：離線強(qiáng)化學(xué)習(xí)作為一種新興范式，憑借其無需與環(huán)境交互即可利用大量離線數(shù)據(jù)進(jìn)行策略學(xué)習(xí)的特性，展現(xiàn)出了很高的應(yīng)用潛力和價值，特別是在醫(yī)療、自動駕駛等高風(fēng)險領(lǐng)域中具有顯著優(yōu)勢。從離線強(qiáng)化學(xué)習(xí)的基本概念、核心問題、主要方法依次展開，重點介紹多種緩解主要問題的方法：分布偏移的策略，包括約束目標(biāo)策略與行為策略對齊、價值函數(shù)約束、模型不確定性量化以及基于模型的離線強(qiáng)化學(xué)習(xí)方法。討論了目前離線強(qiáng)化學(xué)習(xí)的模擬環(huán)境以及重要應(yīng)用場景。

關(guān)鍵詞：強(qiáng)化學(xué)習(xí)；離線強(qiáng)化學(xué)習(xí)；自動決策；外推誤差

中圖分類號：ＴＮ９１９．２３文獻(xiàn)標(biāo)志碼：Ａ

文章編號：１００３－３１１４（２０２４）０５－０８３１－１２

０引言

強(qiáng)化學(xué)習(xí)（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＲＬ）［１］是機(jī)器通過與環(huán)境交互來實現(xiàn)目標(biāo)的一種計算方法。智能體（Ａｇｅｎｔ）通過在環(huán)境（Ｅｎｖｉｒｏｎｍｅｎｔ）進(jìn)行迭代交互進(jìn)行決策，并通過環(huán)境中獲得的獎勵來不斷調(diào)整自身的策略。智能體通過在環(huán)境中不斷試錯，逐步學(xué)習(xí)到最優(yōu)的策略，最大化其累計獎勵的期望。監(jiān)督學(xué)習(xí)通過帶標(biāo)簽的數(shù)據(jù)集來擬合模型，而強(qiáng)化學(xué)習(xí)可以直接在環(huán)境中進(jìn)行訓(xùn)練，智能體不但可以感知周圍的環(huán)境信息，還可以通過做決策來改變環(huán)境的狀態(tài)，并學(xué)習(xí)到更強(qiáng)的策略。

近年來，深度強(qiáng)化學(xué)習(xí)［１］發(fā)展勢頭正盛，在諸多領(lǐng)域的成功展示了其在動態(tài)環(huán)境下超強(qiáng)的決策能力，例如圍棋［２］、電子游戲［３］等。深度強(qiáng)化學(xué)習(xí)算法通常需要很多的訓(xùn)練樣本。在同策略范式（ＯｎｐｏｌｉｃｙＲＬ）［１］中，智能體可以自由與環(huán)境交互，并在一輪交互結(jié)束之后進(jìn)行更新策略。而異策略范式（ＯｆｆｐｏｌｉｃｙＲＬ）［１］中，智能體直接與環(huán)境交互，但同時也使用任意策略收集的經(jīng)驗數(shù)據(jù)來更新策略。這都需要與在線環(huán)境大量交互，導(dǎo)致樣本量很高，并且隨著策略更新，又需要重新交互獲取新的數(shù)據(jù)。因此，將深度強(qiáng)化學(xué)習(xí)算法應(yīng)用于現(xiàn)實任務(wù)中是困難的，其中交互的成本可能十分昂貴甚至在某些場景下存在危險，例如在醫(yī)療診斷［４］、自動駕駛［５］等領(lǐng)域。研究人員很難在真實環(huán)境中通過在線交互方式，不斷試錯來訓(xùn)練手術(shù)機(jī)器人［４］或者自動駕駛汽車［５］。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于離線強(qiáng)化學(xué)習(xí)的研究綜述