摘 要:離線強(qiáng)化學(xué)習(xí)作為一種新興范式,憑借其無需與環(huán)境交互即可利用大量離線數(shù)據(jù)進(jìn)行策略學(xué)習(xí)的特性,展現(xiàn)出了很高的應(yīng)用潛力和價值,特別是在醫(yī)療、自動駕駛等高風(fēng)險領(lǐng)域中具有顯著優(yōu)勢。從離線強(qiáng)化學(xué)習(xí)的基本概念、核心問題、主要方法依次展開,重點介紹多種緩解主要問題的方法:分布偏移的策略,包括約束目標(biāo)策略與行為策略對齊、價值函數(shù)約束、模型不確定性量化以及基于模型的離線強(qiáng)化學(xué)習(xí)方法。討論了目前離線強(qiáng)化學(xué)習(xí)的模擬環(huán)境以及重要應(yīng)用場景。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí);離線強(qiáng)化學(xué)習(xí);自動決策;外推誤差
中圖分類號:TN919. 23 文獻(xiàn)標(biāo)志碼:A
文章編號:1003-3114(2024)05-0831-12
0 引言
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)[1]是機(jī)器通過與環(huán)境交互來實現(xiàn)目標(biāo)的一種計算方法。智能體(Agent)通過在環(huán)境(Environment)進(jìn)行迭代交互進(jìn)行決策,并通過環(huán)境中獲得的獎勵來不斷調(diào)整自身的策略。智能體通過在環(huán)境中不斷試錯,逐步學(xué)習(xí)到最優(yōu)的策略,最大化其累計獎勵的期望。監(jiān)督學(xué)習(xí)通過帶標(biāo)簽的數(shù)據(jù)集來擬合模型,而強(qiáng)化學(xué)習(xí)可以直接在環(huán)境中進(jìn)行訓(xùn)練,智能體不但可以感知周圍的環(huán)境信息,還可以通過做決策來改變環(huán)境的狀態(tài),并學(xué)習(xí)到更強(qiáng)的策略。
近年來,深度強(qiáng)化學(xué)習(xí)[1]發(fā)展勢頭正盛,在諸多領(lǐng)域的成功展示了其在動態(tài)環(huán)境下超強(qiáng)的決策能力,例如圍棋[2]、電子游戲[3]等。深度強(qiáng)化學(xué)習(xí)算法通常需要很多的訓(xùn)練樣本。在同策略范式(OnpolicyRL)[1]中,智能體可以自由與環(huán)境交互,并在一輪交互結(jié)束之后進(jìn)行更新策略。而異策略范式(OffpolicyRL)[1]中,智能體直接與環(huán)境交互,但同時也使用任意策略收集的經(jīng)驗數(shù)據(jù)來更新策略。這都需要與在線環(huán)境大量交互,導(dǎo)致樣本量很高,并且隨著策略更新,又需要重新交互獲取新的數(shù)據(jù)。因此,將深度強(qiáng)化學(xué)習(xí)算法應(yīng)用于現(xiàn)實任務(wù)中是困難的,其中交互的成本可能十分昂貴甚至在某些場景下存在危險,例如在醫(yī)療診斷[4]、自動駕駛[5]等領(lǐng)域。研究人員很難在真實環(huán)境中通過在線交互方式,不斷試錯來訓(xùn)練手術(shù)機(jī)器人[4]或者自動駕駛汽車[5]。