国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于離線強(qiáng)化學(xué)習(xí)的研究綜述

2024-10-18 00:00:00陳鍶奇耿婕汪云飛余偉馳趙佳寧王仕超
無線電通信技術(shù) 2024年5期
關(guān)鍵詞:強(qiáng)化學(xué)習(xí)

摘 要:離線強(qiáng)化學(xué)習(xí)作為一種新興范式,憑借其無需與環(huán)境交互即可利用大量離線數(shù)據(jù)進(jìn)行策略學(xué)習(xí)的特性,展現(xiàn)出了很高的應(yīng)用潛力和價值,特別是在醫(yī)療、自動駕駛等高風(fēng)險領(lǐng)域中具有顯著優(yōu)勢。從離線強(qiáng)化學(xué)習(xí)的基本概念、核心問題、主要方法依次展開,重點介紹多種緩解主要問題的方法:分布偏移的策略,包括約束目標(biāo)策略與行為策略對齊、價值函數(shù)約束、模型不確定性量化以及基于模型的離線強(qiáng)化學(xué)習(xí)方法。討論了目前離線強(qiáng)化學(xué)習(xí)的模擬環(huán)境以及重要應(yīng)用場景。

關(guān)鍵詞:強(qiáng)化學(xué)習(xí);離線強(qiáng)化學(xué)習(xí);自動決策;外推誤差

中圖分類號:TN919. 23 文獻(xiàn)標(biāo)志碼:A

文章編號:1003-3114(2024)05-0831-12

0 引言

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)[1]是機(jī)器通過與環(huán)境交互來實現(xiàn)目標(biāo)的一種計算方法。智能體(Agent)通過在環(huán)境(Environment)進(jìn)行迭代交互進(jìn)行決策,并通過環(huán)境中獲得的獎勵來不斷調(diào)整自身的策略。智能體通過在環(huán)境中不斷試錯,逐步學(xué)習(xí)到最優(yōu)的策略,最大化其累計獎勵的期望。監(jiān)督學(xué)習(xí)通過帶標(biāo)簽的數(shù)據(jù)集來擬合模型,而強(qiáng)化學(xué)習(xí)可以直接在環(huán)境中進(jìn)行訓(xùn)練,智能體不但可以感知周圍的環(huán)境信息,還可以通過做決策來改變環(huán)境的狀態(tài),并學(xué)習(xí)到更強(qiáng)的策略。

近年來,深度強(qiáng)化學(xué)習(xí)[1]發(fā)展勢頭正盛,在諸多領(lǐng)域的成功展示了其在動態(tài)環(huán)境下超強(qiáng)的決策能力,例如圍棋[2]、電子游戲[3]等。深度強(qiáng)化學(xué)習(xí)算法通常需要很多的訓(xùn)練樣本。在同策略范式(OnpolicyRL)[1]中,智能體可以自由與環(huán)境交互,并在一輪交互結(jié)束之后進(jìn)行更新策略。而異策略范式(OffpolicyRL)[1]中,智能體直接與環(huán)境交互,但同時也使用任意策略收集的經(jīng)驗數(shù)據(jù)來更新策略。這都需要與在線環(huán)境大量交互,導(dǎo)致樣本量很高,并且隨著策略更新,又需要重新交互獲取新的數(shù)據(jù)。因此,將深度強(qiáng)化學(xué)習(xí)算法應(yīng)用于現(xiàn)實任務(wù)中是困難的,其中交互的成本可能十分昂貴甚至在某些場景下存在危險,例如在醫(yī)療診斷[4]、自動駕駛[5]等領(lǐng)域。研究人員很難在真實環(huán)境中通過在線交互方式,不斷試錯來訓(xùn)練手術(shù)機(jī)器人[4]或者自動駕駛汽車[5]。

猜你喜歡
強(qiáng)化學(xué)習(xí)
基于強(qiáng)化學(xué)習(xí)的無線網(wǎng)絡(luò)智能接入控制技術(shù)
機(jī)器學(xué)習(xí)發(fā)展現(xiàn)狀及應(yīng)用的研究
未來人工智能自主學(xué)習(xí)網(wǎng)絡(luò)的構(gòu)建
轉(zhuǎn)觀念 強(qiáng)服務(wù) 樹立用電檢查新價值
智能車自主避障路徑規(guī)劃研究綜述
一種記憶可修剪型仿生機(jī)器人的速度跟蹤算法研究
基于強(qiáng)化學(xué)習(xí)的在線訂單配送時隙運能分配
論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
智能交通車流自動導(dǎo)引系統(tǒng)
分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
嘉义县| 城口县| 宝山区| 鄂州市| 汝阳县| 永和县| 扶风县| 阜南县| 定安县| 科技| 长垣县| 华阴市| 清水河县| 沅陵县| 炉霍县| 大港区| 永丰县| 上栗县| 鱼台县| 沂水县| 宁津县| 密山市| 铜山县| 花莲县| 陆良县| 宁化县| 辉南县| 舒兰市| 大方县| 阿拉善左旗| 开鲁县| 陇西县| 巨野县| 犍为县| 闸北区| 谷城县| 景宁| 长汀县| 武城县| 海阳市| 商城县|