Actor-Critic強(qiáng)化學(xué)習(xí)方法及其在開(kāi)發(fā)基于計(jì)算機(jī)視覺(jué)的界面跟蹤中的應(yīng)用

2021-03-17 02:54OguzhanDogruKirubakaranVelswamy黃彪

工程 2021年9期

Oguzhan Dogru , Kirubakaran Velswamy , 黃彪*

Department of Chemical and Materials Engineering, University of Alberta, Edmonton,AB T6G 1H9, Canada

1.引言

油砂礦石含有瀝青、水和礦物質(zhì)。瀝青是一種高黏度的烴混合物，可以通過(guò)多種化學(xué)和物理過(guò)程進(jìn)行提取。該產(chǎn)品在后處理裝置或煉油廠[1]中進(jìn)行進(jìn)一步處理，以獲得更有價(jià)值的副產(chǎn)品（如汽油、航空燃料）。油砂是從露天礦坑中開(kāi)采出來(lái)的，再通過(guò)卡車被運(yùn)送入破碎機(jī)[2]。此后，用熱水處理混合物，并通過(guò)水力將混合物輸送到萃取廠。曝氣和幾種化學(xué)品被引入這一過(guò)程以加強(qiáng)效果。在萃取廠中，混合物在初級(jí)分離容器（PSV）中沉淀。圖1總結(jié)了水基油砂分離過(guò)程。

在PSV 內(nèi)部的分離過(guò)程中，會(huì)形成三層：泡沫層、中礦層和尾礦層（圖2）。在泡沫層和中礦層之間形成一個(gè)界面[以下稱為泡沫-中礦層界面（FMI）]。其水平參照PSV單元影響萃取的質(zhì)量。

為了控制FMI水平，關(guān)鍵是需要有可靠的傳感器。傳統(tǒng)上，差壓（DP）單元、電容探頭或核子密度剖面儀被用于監(jiān)測(cè)FMI。然而，這些檢測(cè)結(jié)果要么不準(zhǔn)確，要么不可靠[3]。視鏡被用于人工監(jiān)視界面是否存在任何過(guò)程異常。為了在閉環(huán)控制中使用這一觀察方法，參考文獻(xiàn)[3]建議將相機(jī)用作傳感器。該方案利用邊緣檢測(cè)模型和圖像粒子濾波來(lái)獲得FMI；然后使用該模型建立反饋控制。最近，參考文獻(xiàn)[4]結(jié)合邊緣檢測(cè)和動(dòng)態(tài)幀差分來(lái)檢測(cè)界面。該方法直接使用邊緣檢測(cè)技術(shù)來(lái)檢測(cè)界面，并且使用了估計(jì)測(cè)量質(zhì)量的幀比較機(jī)制；此外，該方法還可以檢測(cè)故障。參考文獻(xiàn)[5]使用混合高斯分布對(duì)泡沫、界面和中間體的外觀進(jìn)行建模，并使用時(shí)空馬爾可夫隨機(jī)場(chǎng)來(lái)預(yù)測(cè)界面。盡管利用基于界面外觀或行為的模型解決了一些難題，但這些技術(shù)未能解決在環(huán)境條件不確定情況下的敏感性問(wèn)題，如遮擋和過(guò)度/非高斯噪聲。

圖1.水基油砂分離過(guò)程的簡(jiǎn)化圖解。PSV位于提取單元中。

圖2.PSV示意圖。在分離過(guò)程中，形成三層分層。相機(jī)用于監(jiān)控中礦層和泡沫層之間的界面，以控制FMI處于最佳水平。

監(jiān)督學(xué)習(xí)（SL）方法嘗試通過(guò)最小化代價(jià)（或損失）函數(shù)來(lái)構(gòu)建從輸入（即圖像，x）到輸出（即標(biāo)簽，y）數(shù)據(jù)的映射。通常，代價(jià)函數(shù)是凸函數(shù)，最優(yōu)參數(shù)是通過(guò)對(duì)代價(jià)函數(shù)應(yīng)用隨機(jī)梯度下降算法[6?7]來(lái)計(jì)算得到的。另外，無(wú)監(jiān)督學(xué)習(xí)（UL）方法被用于查找未標(biāo)記數(shù)據(jù)中的隱藏特征（即僅使用x）[8]。目標(biāo)通常是壓縮數(shù)據(jù)或在數(shù)據(jù)中找到相似之處。盡管如此，即使輸入與輸出之間確實(shí)存在著因果關(guān)系，UL 技術(shù)并未考慮輸入對(duì)輸出的影響。在計(jì)算機(jī)視覺(jué)中，這些方法是使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）實(shí)現(xiàn)。CNN 是對(duì)輸入應(yīng)用卷積運(yùn)算的參數(shù)函數(shù)。它不僅可以對(duì)一個(gè)像素進(jìn)行處理，還可以對(duì)它的相鄰像素進(jìn)行處理來(lái)提取抽象特征，用于分類、回歸、降維等[9?12]。盡管CNN已經(jīng)被使用了幾十年[13?16]，但直到最近它才在不同領(lǐng)域得到廣泛普及[17?20]，這是由于硬件技術(shù)[21]和數(shù)據(jù)可用性[22]的發(fā)展導(dǎo)致的。與計(jì)算機(jī)視覺(jué)的發(fā)展并行，循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）被用于預(yù)測(cè)時(shí)間序列，其中網(wǎng)絡(luò)先前的輸出以遞歸矩陣乘法的形式反饋到自身[23]。然而，vanilla RNN[24]會(huì)受到梯度減小或爆炸的影響，因?yàn)樗磸?fù)將先前的信息反饋給自身，導(dǎo)致隱藏層之間反向傳播數(shù)據(jù)的共享不均勻。因此，當(dāng)數(shù)據(jù)序列任意長(zhǎng)時(shí)，它往往會(huì)失敗。為了克服這個(gè)問(wèn)題，研究人員已經(jīng)提出了更復(fù)雜的網(wǎng)絡(luò)，如長(zhǎng)短期記憶（LSTM）[25]和門(mén)控循環(huán)單元[26]。這些網(wǎng)絡(luò)促進(jìn)了隱藏層之間的數(shù)據(jù)傳輸，從而提高了學(xué)習(xí)效率。最近，研究人員提出了卷積LSTM(Conv‐LSTM)[27]，它是LSTM的一種變體，可以通過(guò)用卷積運(yùn)算替換矩陣乘法來(lái)提高LSTM 性能。與全連接LSTM 不同，ConvLSTM接收的是一個(gè)圖像而不是一維數(shù)據(jù)；它利用輸入數(shù)據(jù)中存在的空間連接提高估計(jì)的性能。具有多層的網(wǎng)絡(luò)被認(rèn)為是深層結(jié)構(gòu)[28]。為了進(jìn)一步提高預(yù)測(cè)準(zhǔn)確度，研究人員已經(jīng)提出了各種深度架構(gòu)[29?33]。然而，這些結(jié)構(gòu)存在過(guò)度參數(shù)化的問(wèn)題（即訓(xùn)練數(shù)據(jù)點(diǎn)的數(shù)量少于參數(shù)的數(shù)量）。研究人員試圖從幾種正則化技術(shù)（如dropout、L2）[17]和遷移學(xué)習(xí)[也稱為微調(diào)（FT）]方法[34?35]中找到解決方法，以提高網(wǎng)絡(luò)的性能。然而，傳輸?shù)男畔ⅲㄈ缇W(wǎng)絡(luò)參數(shù)）對(duì)于目標(biāo)域可能不具有普適性。這一問(wèn)題非常關(guān)鍵，特別是當(dāng)訓(xùn)練數(shù)據(jù)不足，或它們的統(tǒng)計(jì)數(shù)據(jù)與目標(biāo)域中的數(shù)據(jù)明顯不同時(shí)。此外，目前循環(huán)網(wǎng)絡(luò)的有效遷移學(xué)習(xí)問(wèn)題仍然需要進(jìn)一步研究。

強(qiáng)化學(xué)習(xí)（RL）[36]結(jié)合了SL和UL技術(shù)的優(yōu)點(diǎn)，并將學(xué)習(xí)過(guò)程形式化為馬爾可夫決策過(guò)程（MDP）。受動(dòng)物心理學(xué)[37]和最優(yōu)控制[38?43]的啟發(fā)，該學(xué)習(xí)方案涉及智能體（即控制器）。與SL或UL方法不同，RL不依賴于離線或批處理數(shù)據(jù)集，而是通過(guò)與環(huán)境交互生成自己的數(shù)據(jù)。它通過(guò)考慮直接后果來(lái)評(píng)估其操作的影響，并通過(guò)推導(dǎo)來(lái)預(yù)測(cè)其價(jià)值。因此，它更適用于涉及復(fù)雜系統(tǒng)決策的真實(shí)或連續(xù)過(guò)程。然而，在基于采樣數(shù)據(jù)的方案中，訓(xùn)練階段的數(shù)據(jù)分布可能會(huì)有顯著差異，這可能會(huì)導(dǎo)致估計(jì)的方差較高[36]。為了結(jié)合價(jià)值估計(jì)和策略梯度的優(yōu)點(diǎn)，研究人員提出了actor-critic方法[44?46]。這種方法將智能體分為兩部分：actor 決定采取哪個(gè)動(dòng)作，而critic 使用動(dòng)作值[47]或狀態(tài)值[48]函數(shù)估計(jì)該動(dòng)作的好壞。這些方法不依賴任何標(biāo)簽或系統(tǒng)模型。因此，對(duì)狀態(tài)或動(dòng)作空間的探索是影響智能體性能的重要因素。在系統(tǒng)辨識(shí)[49?51]中，這被稱為辨識(shí)問(wèn)題。研究人員已開(kāi)發(fā)出來(lái)多種方法來(lái)解決勘探問(wèn)題[36,48,52?58]。作為機(jī)器學(xué)習(xí)[59?61]的一個(gè)子領(lǐng)域，RL被用于（但不限于）過(guò)程控制[2,42,61?68]、游戲行業(yè)[69?77]、機(jī)器人和自動(dòng)駕駛汽車等領(lǐng)域[78?81]。

FMI跟蹤可以被表述為一個(gè)對(duì)象跟蹤問(wèn)題，它可以分別使用無(wú)檢測(cè)或基于檢測(cè)的跟蹤方法通過(guò)一個(gè)或兩個(gè)步驟來(lái)解決。先前的工作[82?84]已將RL 用于對(duì)象檢測(cè)或定位，因此它可以與跟蹤算法相結(jié)合。在這種組合的情況下，跟蹤算法也需要可靠和快速的實(shí)時(shí)實(shí)現(xiàn)。一些對(duì)象跟蹤算法已被提出，包括使用RL[85?90]的多個(gè)對(duì)象跟蹤算法。研究人員所提出的方案將預(yù)訓(xùn)練的對(duì)象檢測(cè)與基于RL 的跟蹤或監(jiān)督跟蹤解決方案相結(jié)合。這些模擬是在理想條件下進(jìn)行的[91?92]?；趯?duì)象檢測(cè)的方法的性能通常取決于檢測(cè)準(zhǔn)確度。即使智能體根據(jù)明確定義的獎(jiǎng)勵(lì)信號(hào)去學(xué)習(xí)跟蹤，研究人員也應(yīng)確保感官信息（或感官信息的特征）準(zhǔn)確?；谀Ｐ偷乃惴ㄍǔ＜僭O(shè)感興趣的對(duì)象具有剛性或非剛性形狀[4]，并且噪聲或運(yùn)動(dòng)方式具有特定模式[3]。當(dāng)意外事件發(fā)生時(shí)，這些假設(shè)可能不成立。因此，無(wú)模型方法可能會(huì)提供更通用的解決方案。

由于CNN 可能會(huì)提取抽象特征，因此在訓(xùn)練后對(duì)其進(jìn)行分析很重要。常見(jiàn)的分析技術(shù)利用激活函數(shù)、內(nèi)核、中間層、顯著性映射等信息[30,93?95]。在RL情境中，一種流行的方法是使用t-分布隨機(jī)鄰居嵌入（t-SNE）[96]來(lái)降低觀察到的特征的維度，以可視化處于不同狀態(tài)的智能體[72,97?98]。這有助于根據(jù)智能體遇到的不同情況，對(duì)行為進(jìn)行聚類。另一種降維技術(shù)，即一致流形逼近與投影（UMAP）[99]，將高維輸入（在歐幾里德空間中可能沒(méi)有意義）投影到黎曼空間。這樣可以降低非線性特征的維度。

圖3展示了過(guò)程工業(yè)中的一般控制層次結(jié)構(gòu)。在一個(gè)連續(xù)的過(guò)程中，層次結(jié)構(gòu)中的每一層都以不同的采樣頻率相互交互。交互從設(shè)備層開(kāi)始，這會(huì)對(duì)上層產(chǎn)生顯著影響。最近，參考文獻(xiàn)[2]提出了執(zhí)行層面的解決方案。然而，解決其他層面的問(wèn)題仍然具有挑戰(zhàn)性。

本文提出了一種基于RL的新型界面跟蹤方案，該方案針對(duì)無(wú)模型順序決策智能體進(jìn)行了訓(xùn)練。這項(xiàng)工作包括：

?詳細(xì)回顧了actor-critic算法；

?聚焦設(shè)備層，以提高層次結(jié)構(gòu)的整體性能；

?將界面跟蹤表述為無(wú)模型的順序決策過(guò)程；

圖3.過(guò)程工業(yè)中的一般控制層次結(jié)構(gòu)。RTO：實(shí)時(shí)優(yōu)化；MPC：模型預(yù)測(cè)控制；PID：比例積分微分控制器。

?結(jié)合CNN和LSTM以提取時(shí)空特征，無(wú)需任何顯式模型或不切實(shí)際的假設(shè)；

?在獎(jiǎng)勵(lì)函數(shù)中利用DP 單元測(cè)量值，無(wú)需任何標(biāo)簽或人工干預(yù)；

?使用時(shí)間差學(xué)習(xí)訓(xùn)練智能體，允許智能體在閉環(huán)控制設(shè)置中持續(xù)學(xué)習(xí)；

?在開(kāi)環(huán)設(shè)置的不確定性中驗(yàn)證魯棒性；

?在簡(jiǎn)化的特征空間中分析智能體的可信度。

本文的結(jié)構(gòu)如下：第2 節(jié)回顧了actor-critic 算法和基本信息；第3節(jié)闡述了界面檢測(cè)；第4節(jié)詳細(xì)介紹了訓(xùn)練和測(cè)試結(jié)果；第5 和第6 節(jié)分別給出了結(jié)論及未來(lái)研究展望。

2.Actor-critic強(qiáng)化學(xué)習(xí)研究綜述

RL是一個(gè)嚴(yán)格的數(shù)學(xué)概念[36,39,42]，其中的智能體學(xué)習(xí)是一種在動(dòng)態(tài)環(huán)境中使整體回報(bào)最大化的行為。與人類類似，智能體學(xué)習(xí)通過(guò)考慮未來(lái)的獎(jiǎng)勵(lì)學(xué)習(xí)如何做出明智的決策。這與簡(jiǎn)單分類或回歸等方法不同，它意味著觀察的時(shí)間維度將被納入考量。此外，這種能力允許強(qiáng)化學(xué)習(xí)在具有不規(guī)則采樣率的條件[40]下得到應(yīng)用。其通用性使得強(qiáng)化學(xué)習(xí)能夠適應(yīng)不同的環(huán)境條件，并能從模擬環(huán)境轉(zhuǎn)移到實(shí)際的應(yīng)用過(guò)程中[80]。

2.1.馬爾可夫決策過(guò)程（MDP）

MDP 通過(guò)元組M形式化離散的順序決策過(guò)程，M由〈X,U,R,P,γ〉組成，其中x?X,u?U,r?R?R，分別表示狀態(tài)、動(dòng)作以及獎(jiǎng)勵(lì)。P(x′,r|x,u)表示確定或隨機(jī)的系統(tǒng)動(dòng)力學(xué)或狀態(tài)轉(zhuǎn)移概率。MDP 滿足馬爾可夫性質(zhì)[100]，即未來(lái)狀態(tài)僅依賴于當(dāng)前而非之前的狀態(tài)。在該過(guò)程中，系統(tǒng)動(dòng)力學(xué)對(duì)于智能體而言是未知的，這使得該方法更為通用。折扣因子γ?[0,1)是未來(lái)獎(jiǎng)勵(lì)的權(quán)重，以使其總和有界。隨機(jī)策略π(u|x)是從觀察到的系統(tǒng)狀態(tài)到動(dòng)作的映射。

在MDP 中，智能體觀察狀態(tài)x0～σ0，其中σ0表示初始狀態(tài)的分布。隨后，它選擇一個(gè)動(dòng)作u～π(u|x)，智能體被帶入下一個(gè) 狀態(tài)x'～P(x',r|x,u)，并獲得獎(jiǎng) 勵(lì)r～P(x',r|x,u)。通過(guò)利用序列（即x,u,r,x?），智能體學(xué)習(xí)了策略π，它將會(huì)產(chǎn)生最大折現(xiàn)收益G，如式（1）中所定義[36]：

式中，t和k表示離散時(shí)間步長(zhǎng)。狀態(tài)值vπ(x)和動(dòng)作值qπ(x,u)使用貝爾曼（Bellman）方程[式（2）和式（3）]計(jì)算：

式中，E是隨機(jī)變量的期望。在為每個(gè)狀態(tài)估計(jì)值函數(shù)之后，可以使用式（4）和式（5）求解最優(yōu)值（和）函數(shù)：

隨后，最優(yōu)策略π*可由下式求得：

對(duì)于大規(guī)模問(wèn)題，可以使用線性或非線性函數(shù)逼近法來(lái)分別或同時(shí)找到逼近值函數(shù)Q(x,u|ω),V(x|ω)，其中，ω表示逼近函數(shù)的參數(shù)。該結(jié)構(gòu)也被稱為critics。此項(xiàng)工作側(cè)重于狀態(tài)值估計(jì)并將其符號(hào)簡(jiǎn)化為V(?)。

2.2.Actor-critic算法綜述

早期的方法使用基于值（僅critic）的RL[71,101]來(lái)解決控制問(wèn)題。在這些方法中，動(dòng)作直接來(lái)自值函數(shù)，據(jù)研究報(bào)道，該值函數(shù)對(duì)于大規(guī)模問(wèn)題是發(fā)散的[45,102]?；诓呗裕▋Hactor）的方法[103?105]解決了這個(gè)問(wèn)題，它可以通過(guò)直接從參數(shù)化函數(shù)生成策略學(xué)習(xí)隨機(jī)行為，然后使用性能指標(biāo)直接優(yōu)化此函數(shù)。然而，估計(jì)的方差和延長(zhǎng)的學(xué)習(xí)時(shí)間使得策略梯度無(wú)法實(shí)現(xiàn)。類似于利用生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)的生成式對(duì)抗網(wǎng)絡(luò)（GAN）[106]，actor-critic算法無(wú)需任何標(biāo)簽即可進(jìn)行自我監(jiān)督[44?45,107?108]。這些技術(shù)分別通過(guò)actor和critic將策略與基于值的方法結(jié)合起來(lái)。這有助于大幅降低估計(jì)的方差和學(xué)習(xí)最優(yōu)策略[36,55]。Actor 和critic 可以分別表示為兩個(gè)神經(jīng)網(wǎng)絡(luò)；π(u|x,θ)（其中，θ表示actor 網(wǎng)絡(luò)的參數(shù)）和V(x|ω)[或Q(x,u|ω)]。

雖然已有研究提出了一些基于模型的actor-critic方案[109?110]，但本文將重點(diǎn)介紹最常用的無(wú)模型算法，如表1所示。其中一些方法使用熵正則化，而另一些則利用啟發(fā)式算法。上述方法中，一個(gè)常見(jiàn)的示例為ε-貪婪策略，其中智能體以概率ε?[0,1)進(jìn)行隨機(jī)動(dòng)作。其他研究技術(shù)包括但不限于向動(dòng)作空間引入加性噪聲、向參數(shù)空間引入噪聲，以及利用置信上限等。感興趣的讀者可以參閱參考文獻(xiàn)[67]了解更多細(xì)節(jié)。

表1 基于動(dòng)作空間類型和探索方法的actor-critic算法的比較。對(duì)于所有算法而言，狀態(tài)空間可離散或連續(xù)

將Actor-critic算法總結(jié)如下。

2.2.1.深度確定性策略梯度

已有研究提出，該算法可用于將離散的、基于低維值的方法[71]推廣至連續(xù)動(dòng)作空間。深度確定性策略梯度（DDPG）[47]采用actor和critic（Q）以及目標(biāo)critic（Q′）網(wǎng)絡(luò)，后者是critic 網(wǎng)絡(luò)的副本。在觀察到一個(gè)狀態(tài)后，該方法將從actor 網(wǎng)絡(luò)中采樣實(shí)值動(dòng)作，并與隨機(jī)過(guò)程（如Ornstein-Uhlenbeck過(guò)程）[111]混合，以鼓勵(lì)探索。智能體將狀態(tài)、動(dòng)作與獎(jiǎng)勵(lì)的樣本存儲(chǔ)在經(jīng)驗(yàn)回放池中，以打破連續(xù)樣本之間的相關(guān)性，從而優(yōu)化學(xué)習(xí)。它使損失函數(shù)L的均方誤差最小化，以優(yōu)化critic，如式（7）所示。

該方案利用策略梯度來(lái)改進(jìn)actor 網(wǎng)絡(luò)。由于值函數(shù)是經(jīng)基于不同行為策略的目標(biāo)策略所學(xué)習(xí)得到的，因此DDPG是一種新策略（off-policy）方法。

2.2.2.異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)算法

異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)算法（A2C/A3C）[48]沒(méi)有將經(jīng)驗(yàn)存儲(chǔ)在需要內(nèi)存的回放池中，而是讓本地線程與環(huán)境交互并異步更新至公共網(wǎng)絡(luò)，這從本質(zhì)上增加了探索過(guò)程。

與最小化基于Q函數(shù)的誤差不同，該方法會(huì)最小化critic 更新的優(yōu)勢(shì)函數(shù)（A或δ）的均方誤差，如等式（8）所示。

在該方案中，公共網(wǎng)絡(luò)通過(guò)式（9）更新，此外，策略的熵則被用于actor 損失函數(shù)中的正則化以增加探索，如式（10）所示：

式中，初始dθG=dωG=0。左箭頭(←)表示更新操作；αc和αa分別是critic 與actor 的學(xué)習(xí)率；?是關(guān)于其下標(biāo)的導(dǎo)數(shù)；β是一個(gè)固定的熵項(xiàng)，用于激勵(lì)探索。下標(biāo)L和G分別表示本地與公共網(wǎng)絡(luò)。多線程網(wǎng)絡(luò)（A3C）可以離線運(yùn)算，且該方案可被簡(jiǎn)化為單線程（A2C）在線運(yùn)行。盡管線程間相互獨(dú)立，但他們會(huì)根據(jù)公共網(wǎng)絡(luò)的行為策略來(lái)預(yù)測(cè)值函數(shù)，這使得A3C成為一種既定策略（on-policy）的方法。該項(xiàng)目使用A3C算法來(lái)跟蹤界面。

2.2.3.有經(jīng)驗(yàn)回放的actor-critic方法

具有經(jīng)驗(yàn)回放的actor-critic（ACER）方法[112]利用Retrace 算法[113]解決了A3C 采樣低效問(wèn)題，該算法可估得式（11）：

式中，截斷的重要性權(quán) 重ηˉt=min{c,ηt},ηt=[μ1(Ut|Xt)]/[μ2(Ut|Xt)]，c是一個(gè)裁剪常數(shù)，μ1和μ2分別是目標(biāo)和行為策略。此外，該方案利用隨機(jī)競(jìng)爭(zhēng)網(wǎng)絡(luò)架構(gòu)（stochastic dueling networks，以一致的方式估計(jì)V 和Q）和比先前方法更有效的信賴域策略優(yōu)化（TRPO）方法[114]。由于其Retrace算法，ACER是一種新策略（offpolicy）方法。

2.2.4.近端策略優(yōu)化

近端策略優(yōu)化（PPO）方法[115]通過(guò)裁剪替代目標(biāo)函數(shù)來(lái)改進(jìn)TRPO[114]，如式（12）所示：

式中，θ表示策略參數(shù)（即θold表示舊的策略參數(shù)）；r(θ) =[πθ(u|x)]/[πθold(u|x)]和ε表示裁剪常數(shù)；A是表示智能體動(dòng)作好處的優(yōu)勢(shì)估計(jì)，如式（8）所示。

2.2.5.Kronecker因子化置信區(qū)間的actor-critic算法

與使用梯度下降算法[6]來(lái)優(yōu)化不同，使用Kronecker因子化置信區(qū)間的actor-critic算法是通過(guò)利用二階優(yōu)化來(lái)提供更多信息。它通過(guò)使用Kronecker 因子近似值來(lái)逼近費(fèi)歇爾信息矩陣（FIM）的逆，以克服計(jì)算的復(fù)雜性，否則，該矩陣相對(duì)于近似的參數(shù)呈指數(shù)級(jí)縮放。此外，它還可以跟蹤費(fèi)歇爾統(tǒng)計(jì)，從而得到更好的曲率估計(jì)。

2.2.6.柔性actor-critic算法

與使用策略熵?fù)p失正則化的方法不同[48,114?115,119]，SAC（soft actor-critic，柔性actor-critic）算法[55,120]使用熵項(xiàng)[如式（13）所示]增加獎(jiǎng)勵(lì)函數(shù)以鼓勵(lì)探索。相關(guān)研究[120]報(bào)道可以將這種方法用于提高策略對(duì)模型錯(cuò)誤的魯棒性。

式中，θ表示策略的參數(shù)；α代表用戶自定義的（固定或時(shí)變）權(quán)重，用于調(diào)整熵的貢獻(xiàn)；H=E[?lgπ(?)]。該方案同時(shí)依賴于Q和V函數(shù)來(lái)利用柔性策略迭代。與DDPG和ACER類似，SAC將狀態(tài)轉(zhuǎn)移存儲(chǔ)在回放池中以解決采樣效率的問(wèn)題。除了增強(qiáng)探索外，熵最大化還可以補(bǔ)償由引入新策略方法而引起的穩(wěn)定性損失。

2.2.7.雙延遲深度確定性策略梯度算法

雙延遲深度確定性策略梯度算法（TD3）[121]解決了由于函數(shù)逼近（approximation）和自展（bootstrapping）（即在更新過(guò)程中使用估計(jì)值，而不是精確值）而導(dǎo)致的錯(cuò)誤傳播（propagation）（這在統(tǒng)計(jì)和控制中是一項(xiàng)非常重要的挑戰(zhàn)）[122]。為了實(shí)現(xiàn)這一目標(biāo)，該算法會(huì)預(yù)測(cè)兩個(gè)獨(dú)立的動(dòng)作值，并偏好悲觀值；因此，它避免了次優(yōu)策略。TD3利用目標(biāo)網(wǎng)絡(luò)，延遲策略函數(shù)的更新，并從回放池中采樣N個(gè)狀態(tài)轉(zhuǎn)移來(lái)使用平均目標(biāo)值估計(jì)，以減少學(xué)習(xí)過(guò)程中的方差。該算法向采樣動(dòng)作添加高斯噪聲，以此引入探索，并使用確定性策略梯度方法執(zhí)行策略更新[104]。

盡管上述算法提供了控制問(wèn)題的一般解決方案，但它們可能仍然不能勝任某些更復(fù)雜或特定的任務(wù)。目前，研究者提出了許多其他的算法來(lái)彌補(bǔ)這些缺憾。例如，參考文獻(xiàn)[123]通過(guò)哈密頓-雅可比-貝爾曼（HJB）方程[39,124]，將參考文獻(xiàn)[44]提出的離散的actor-critic 算法擴(kuò)展到連續(xù)時(shí)間和空間問(wèn)題中。隨后，該算法在一個(gè)約束動(dòng)作的鐘擺問(wèn)題和小車撐桿問(wèn)題（cart-pole swing up）中得到了測(cè)試。參考文獻(xiàn)[125]在有約束的MDP 上采用了actorcritic算法，并進(jìn)行了詳細(xì)的收斂性分析。參考文獻(xiàn)[46]展示了四種基于正則和自然梯度估計(jì)的增量actor-critic 算法。參考文獻(xiàn)[126]介紹了一種自然actor-critic算法（natu‐ral actor-critic,NAC），并展示了其在小車撐桿問(wèn)題（cartpole）以及棒球揮桿任務(wù)中的表現(xiàn)。參考文獻(xiàn)[127]通過(guò)反向HJB方程提出了一個(gè)連續(xù)時(shí)間actor-critic算法，并在兩個(gè)非線性仿真環(huán)境中測(cè)試了其收斂性。參考文獻(xiàn)[128]提出了一種適用于無(wú)限范圍（infinite horizon）、連續(xù)時(shí)間問(wèn)題和嚴(yán)格收斂性分析的在線actor-critic算法，并提供了線性與非線性模擬示例。參考文獻(xiàn)[129]提出了一種增量的在線新策略actor-critic 算法。該算法定性地分析了收斂性，并用實(shí)證結(jié)果予以支持。此外，該研究還將時(shí)間差分算法（TD）與梯度-TD方法進(jìn)行了比較，梯度-TD方法可以最大限度地減小預(yù)測(cè)的貝爾曼誤差[36]。參考文獻(xiàn)[130]提出了一種actor-critic標(biāo)識(shí)符，理論表明，它可以在系統(tǒng)動(dòng)力學(xué)未知的情況下逼近HJB方程。學(xué)習(xí)完成后，該方案會(huì)表現(xiàn)出過(guò)程穩(wěn)定性。然而，該方案需要輸入增益矩陣相關(guān)信息作為已知條件。參考文獻(xiàn)[131]使用名義控制器作為監(jiān)督者來(lái)指導(dǎo)actor，并在模擬巡航控制系統(tǒng)中實(shí)現(xiàn)更安全的控制。參考文獻(xiàn)[132]提出了在保持穩(wěn)定性的同時(shí)，在沒(méi)有持續(xù)激勵(lì)條件的情況下，學(xué)習(xí)部分未知輸入約束系統(tǒng)的HJB方程的解。參考文獻(xiàn)[133]考慮李雅普諾夫（Ly‐apunov）理論，設(shè)計(jì)了一種容錯(cuò)的actor-critic 算法，并在范德波爾系統(tǒng)（Van der Pol system）中對(duì)其穩(wěn)定性進(jìn)行了測(cè)試。參考文獻(xiàn)[134]通過(guò)使用HJB 方程和二次成本函數(shù)來(lái)定義值函數(shù)，提出了一個(gè)輸入有約束非線性跟蹤問(wèn)題。該方案可以通過(guò)actor-critic算法獲得近似值函數(shù)。參考文獻(xiàn)[135]結(jié)合分類和時(shí)間序列預(yù)測(cè)技術(shù)來(lái)解決最優(yōu)控制問(wèn)題，并在模擬連續(xù)釜式反應(yīng)器（CSTR）和模擬非線性振蕩器中演示了該方法。參考文獻(xiàn)[136]提出了平均actorcritic(mean actor-critic)算法，該算法通過(guò)使用平滑Q函數(shù)來(lái)估計(jì)策略梯度，并用函數(shù)對(duì)動(dòng)作求平均以減少方差；其結(jié)果在雅達(dá)利（Atari）游戲中得到了驗(yàn)證。參考文獻(xiàn)[137]使用事件觸發(fā)的actor-critic方案來(lái)控制供暖、通風(fēng)和空調(diào)（HVAC）系統(tǒng)。除此之外，正如參考文獻(xiàn)[2,62,67,138,145]中所述，研究者最近還對(duì)不同的actor-critic 算法及其應(yīng)用進(jìn)行了研究。

在強(qiáng)化學(xué)習(xí)（RL）中，已有研究提出了一些改進(jìn)值估計(jì)的方法[146,148]，這些方法均可用于actor-critic 算法。此外，還有研究提出了不同的技術(shù)[112,149]，以提高采樣效率（即減少學(xué)習(xí)最優(yōu)策略所需的數(shù)據(jù)量）。與利用經(jīng)驗(yàn)回放[70]或數(shù)據(jù)監(jiān)督學(xué)習(xí)[150]的技術(shù)不同，并行學(xué)習(xí)（parallel learning）利用多個(gè)隨機(jī)的初始化的線程（本地網(wǎng)絡(luò)），這些線程獨(dú)立地與環(huán)境的不同實(shí)例交互，以減少學(xué)習(xí)期間策略的差異。這些本地網(wǎng)絡(luò)擁有與公共網(wǎng)絡(luò)相同的基礎(chǔ)設(shè)施，其所采集的k個(gè)樣本將被用于公共網(wǎng)絡(luò)的參數(shù)更新。由于各線程間的軌跡彼此獨(dú)立，這將減少內(nèi)存的使用并提高探索能力。任務(wù)分配可以通過(guò)多臺(tái)機(jī)器[151]或一臺(tái)計(jì)算機(jī)的多個(gè)中央處理器（CPU）線程執(zhí)行[48]。

最優(yōu)策略和最優(yōu)評(píng)論在每個(gè)過(guò)程中都不同，并且它們往往是先驗(yàn)未知的。若使用蒙特卡羅類型的方法計(jì)算過(guò)程（或一個(gè)回合）結(jié)束時(shí)的經(jīng)驗(yàn)回報(bào)[見(jiàn)式（1）]，其結(jié)果往往會(huì)冗余且嘈雜。與心理學(xué)中的巴甫洛夫條件反射[152]類似，TD學(xué)習(xí)可以預(yù)測(cè)當(dāng)前狀態(tài)的值。與蒙特卡羅方法不同的是，它只在小范圍下進(jìn)行了低至一步的預(yù)測(cè)。這將無(wú)限范圍問(wèn)題轉(zhuǎn)換為有限范圍預(yù)測(cè)問(wèn)題。與計(jì)算預(yù)期回報(bào)[如式（2）]不同，我們可以使用TD 誤差δ的k步超前估計(jì)來(lái)更新critic 網(wǎng)絡(luò)，如式（14）所示。這被稱為策略評(píng)估。

式中，δ是離散采樣t瞬間狀態(tài)x的TD 誤差，給定本地網(wǎng)絡(luò)的critic 參數(shù)ωL，k表示范圍長(zhǎng)度。如果k接近無(wú)窮大，求和項(xiàng)收斂于式（1）中給出的經(jīng)驗(yàn)回報(bào)。與策略梯度算法[36]相比，基線V(xt|ωL)用于減少方差。

在k個(gè)步驟結(jié)束時(shí)，可以使用式（9）和式（10）更新公共網(wǎng)絡(luò)的參數(shù)（即θG和ωG）。

3.將界面跟蹤制定為一個(gè)順序決策過(guò)程

3.1.界面跟蹤

模型是描述過(guò)程動(dòng)力學(xué)的數(shù)學(xué)方法，這些過(guò)程動(dòng)態(tài)可以發(fā)生在物理/化學(xué)/生物系統(tǒng)[153]或視頻[154]中。當(dāng)出現(xiàn)意外事件（如遮擋）時(shí)，導(dǎo)出圖像的模型通常會(huì)出現(xiàn)不準(zhǔn)確的情況。為了克服這個(gè)問(wèn)題，通常將上次有效觀察的信息用于下一次觀察[4]，或重建圖像[154]。盡管這些解決方案可能會(huì)在短時(shí)間內(nèi)替代實(shí)際測(cè)量，但長(zhǎng)時(shí)間暴露會(huì)降低閉環(huán)穩(wěn)定性。因此，如果FMI太低，泡沫層中的瀝青會(huì)流入尾礦。這會(huì)降低產(chǎn)品質(zhì)量并產(chǎn)生環(huán)境足跡。相反，如果其水平更接近提取點(diǎn)，則被提取的泡沫中的固體顆粒會(huì)使下游操作復(fù)雜化[3]。由于FMI的偏差會(huì)影響下游過(guò)程，因此在最優(yōu)點(diǎn)調(diào)節(jié)FMI非常重要。

RL 可以解決遮擋和過(guò)度噪聲期間的不準(zhǔn)確性。這可以通過(guò)將DP單元測(cè)量或來(lái)自任何其他可靠設(shè)備的測(cè)量與智能體的當(dāng)前FMI預(yù)測(cè)相結(jié)合來(lái)完成，以在訓(xùn)練階段提供獎(jiǎng)勵(lì)函數(shù)中所需的準(zhǔn)確成本，而無(wú)需外部標(biāo)簽，如邊界框。消除對(duì)此類標(biāo)簽的依賴可以最大限度地減少人為誤差。為此，智能體可以在PSV 視鏡上方的垂直軸上移動(dòng)裁剪框，并將其中心與DP單元測(cè)量值進(jìn)行比較?；诖似?，智能體可以將框移動(dòng)到最優(yōu)位置，即框的中心與FMI的中心相匹配。這種偏差最小化反饋機(jī)制的靈感來(lái)自控制理論，它可以使用從實(shí)際過(guò)程中獲得的測(cè)量值來(lái)增強(qiáng)基于圖像的估計(jì)。

考慮從視頻流中采樣的灰度圖像I?RH×W，具有任意寬度W、高度H，它可以捕獲整個(gè)PSV?？紤]一個(gè)矩形裁剪框B?RN×M，具有任意寬度M、高度N，其中，{N:N=-1,>1 ?N}，是矩形的中心。示例圖像和裁剪框如圖4（a）所示。這個(gè)矩形在將I裁剪成尺寸為N×M。為了完整起見(jiàn)，H>N，W=M。此外，將在時(shí)間t從DP 單元獲得的界面測(cè)量值作為z。需要注意的是，DP單元僅用于RL 智能體的離線訓(xùn)練，并可以替換為其他界面測(cè)量傳感器，這在離線實(shí)驗(yàn)室環(huán)境中是準(zhǔn)確的。

這一問(wèn)題的MDP組件可以定義如下：

狀態(tài)：矩形內(nèi)的像素，x?B?X?I。這些像素可以被看做N×M個(gè)獨(dú)立的傳感器。

操作：將裁剪框的中心向上或向下移動(dòng)1個(gè)像素，或凍結(jié)；u?U={-1,0,1}。

獎(jiǎng)勵(lì)：在每個(gè)時(shí)間步長(zhǎng)t，DP單元測(cè)量值與框中心位置（參考PSV底部）之間的差異見(jiàn)式(15)。

ut和之間的關(guān)系見(jiàn)式（16）。

圖4.使用相機(jī)獲得的幀（I）。（a）圖像尺寸（H×W）和裁剪框（N×W）；（b）裁剪框的尺寸（N×M）和初始裁剪框位置；（c）一個(gè)比值為ρ的遮擋示例。

式中，是一個(gè)任意的初始點(diǎn)，求和項(xiàng)表示直到第t個(gè)時(shí)刻采取的動(dòng)作（ui=+1表示向上，ui=?1表示向下）。

折扣因子：γ=0.99。

該智能體的目標(biāo)是生成一系列操作，將裁剪框B覆蓋在PSV的垂直軸上，界面位于其中心。為了實(shí)現(xiàn)這一點(diǎn)，智能體需要執(zhí)行長(zhǎng)期規(guī)劃并保留其動(dòng)作與從DP單元測(cè)量中獲得的信息之間的關(guān)聯(lián)。擬議方案的流程圖如圖5 所示。此外，圖6 和表2 詳細(xì)展示了網(wǎng)絡(luò)。關(guān)于ConvLSTM層的更多細(xì)節(jié)，請(qǐng)參見(jiàn)參考文獻(xiàn)[27]。

表2 全球網(wǎng)絡(luò)的結(jié)構(gòu)（與工作器的結(jié)構(gòu)相同）

與之前在狀態(tài)空間中進(jìn)行預(yù)測(cè)的工作[4?5]不同，這種方法通過(guò)分別使用式（9）、式（10）和式（14）來(lái)優(yōu)化值和策略空間。此外，CNN 和ConvLSTM 層通過(guò)使用式（17）進(jìn)行更新。

式中，Ψ=[ψCNN,ψConvLSTM]表示CNN 和ConvLSTM 層的參數(shù)。該方案僅使用TD 誤差對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行端到端的訓(xùn)練。在不同點(diǎn)[圖4（b）]初始化的多個(gè)工作器[48]可用于改進(jìn)探索，從而提高泛化能力。

在找到次優(yōu)策略后，智能體保證在有限的時(shí)間步k內(nèi)找到界面，這與初始點(diǎn)無(wú)關(guān)，如引理3.1所示。

圖5.本文提出的學(xué)習(xí)過(guò)程的流程圖。更新機(jī)制如式（9）和式（10）所示，其k步策略評(píng)估如式（14）所示。

圖6.CNN、ConvLSTM、actor和critic網(wǎng)絡(luò)的詳細(xì)結(jié)構(gòu)。

引理3.1：在任何時(shí)刻t，對(duì)于一個(gè)常數(shù)zt，同時(shí)P=如k→N，對(duì)于(k≤N<|X|?∞)^(?z0,zt?Z≡|X|)。

證明.假設(shè)并且次優(yōu)參數(shù)θ*和ω*是使用連續(xù)策略函數(shù)π(?|θ*)上的迭代隨機(jī)梯度下降獲得的。V(?|ω*)是Lipschitz 連續(xù)critic 網(wǎng)絡(luò)，由ω參數(shù)化，并估計(jì)給定狀態(tài)的策略π(?)的值。

這可以被擴(kuò)展到變量zt?Z。

3.2.通過(guò)訓(xùn)練對(duì)遮擋的魯棒性

CNN 通過(guò)考慮像素的連通性來(lái)解釋空間信息，這在一定程度上提高了魯棒性。但是，它并不能保證對(duì)遮擋的魯棒性，即使在正常條件下獲得了好的策略，智能體也可能會(huì)失敗。為了克服這個(gè)問(wèn)題，可以在訓(xùn)練階段使用合成遮擋的圖像來(lái)訓(xùn)練智能體。另一種方法是使用遮擋圖像重新校準(zhǔn)策略（使用無(wú)遮擋圖像進(jìn)行訓(xùn)練）。

具有任意像素強(qiáng)度κ?[0,255]的遮擋物體Ω可以定義為{Ω:Ω?RH×(N×ρ)}，其中E[Ω]=κ。ρ?[0,100%]表示遮擋的比率，如圖4（c）所示。如果ρ=1，則智能體僅觀察該視頻幀中的遮擋（即，如果ρ=100%，則xt=Ω）。通過(guò)定義其尺寸后，可以從任意概率分布（即連續(xù)或離散，如高斯、均勻、泊松）中采樣遮擋率。在訓(xùn)練過(guò)程中，可以任意調(diào)整出現(xiàn)遮擋的實(shí)例的持續(xù)時(shí)間。這些可以是隨機(jī)或確定的。即，遮擋可以在隨機(jī)（或特定）時(shí)間出現(xiàn)，并持續(xù)一段隨機(jī)（或特定）時(shí)間。如果使用多個(gè)工作器（如第2.2節(jié)所述），則可能會(huì)在不同時(shí)間實(shí)例中為每個(gè)工作器引入不同的遮擋率。因?yàn)橹悄荏w不需要等待很長(zhǎng)時(shí)間來(lái)觀察不同類型的遮擋，所以這提高了訓(xùn)練數(shù)據(jù)的多樣性，并且使得處理時(shí)間更加高效。

4.結(jié)果和討論

4.1.實(shí)驗(yàn)裝置

模擬工業(yè)PSV 的實(shí)驗(yàn)室規(guī)模設(shè)置用于提出的方案。這種設(shè)置允許使用泵將界面移動(dòng)到所需的水平，如圖7所示。兩個(gè)DP單元用于根據(jù)液體密度測(cè)量界面水平，如參考文獻(xiàn)[5]中所述。

圖7.實(shí)驗(yàn)裝置。

使用D-Link DCS-8525LH相機(jī)以每秒15幀（FPS）的速度獲取圖像。從15FPS的鏡頭中，可以獲得每秒的代表性圖像。因此，通過(guò)必要的下采樣獲得了來(lái)自連續(xù)80 s的80 張圖像。這些圖像經(jīng)過(guò)處理以展示PSV 部分，沒(méi)有不必要的背景。然后將它們轉(zhuǎn)換為灰度圖像。DP 單元相對(duì)于進(jìn)水處的FMI高度測(cè)量值（與圖像相同的連續(xù)時(shí)間段）可以轉(zhuǎn)換為像素位置，如參考文獻(xiàn)[4]所示。執(zhí)行每個(gè)動(dòng)作后，視頻幀會(huì)發(fā)生變化。智能體采取的每一個(gè)動(dòng)作都會(huì)產(chǎn)生一個(gè)標(biāo)量獎(jiǎng)勵(lì)[式（15）]，之后用于計(jì)算訓(xùn)練智能體參數(shù)[式（9）和式（10）]時(shí)使用的TD誤差[式（14）]。

4.2.實(shí)施細(xì)節(jié)

4.2.1.軟件和網(wǎng)絡(luò)詳細(xì)信息

訓(xùn)練和測(cè)試階段均使用Intel Core i7-7500U CPU，工作頻率為2.90 GHz（兩核四線程），8 GB 的RAM，工作頻率為2133 MHz，配有Tensorflow 1.15.0 的64 位Win‐dows系統(tǒng)。與更深層次的網(wǎng)絡(luò)（如參考文獻(xiàn)[32]中包含數(shù)千萬(wàn)個(gè)參數(shù)的網(wǎng)絡(luò)）不同，該智能體包含的參數(shù)較少，如表2 所示。這可以防止過(guò)度參數(shù)化，并顯著減少計(jì)算時(shí)間，但其缺點(diǎn)是無(wú)法提取更高層次的特征[155]。

執(zhí)行每個(gè)操作后，裁剪框的尺寸將調(diào)整為84像素×84像素。之后使用學(xué)習(xí)速率為0.0001的Adam優(yōu)化器，以基于樣本的方式對(duì)智能體的參數(shù)進(jìn)行優(yōu)化（包括CNN、CONVLSM、actor和critic）。相關(guān)研究顯示這種基于動(dòng)量的隨機(jī)優(yōu)化方法計(jì)算效率很高[156]。

4.2.2.無(wú)遮擋訓(xùn)練

實(shí)驗(yàn)中使用了A3C 算法以減少訓(xùn)練時(shí)間，提高探索度，并在學(xué)習(xí)過(guò)程中收斂到次優(yōu)策略[48]。所有初始網(wǎng)絡(luò)參數(shù)都是從均值和單位方差為零的高斯分布中隨機(jī)抽樣獲得的。如圖8所示，通過(guò)手動(dòng)排序80幅圖像創(chuàng)建界面級(jí)連續(xù)軌跡后，進(jìn)行離線訓(xùn)練。

圖8.訓(xùn)練結(jié)束時(shí)的訓(xùn)練結(jié)果（2650回合）和FT（3380回合）。BFT：微調(diào)前；AFT：微調(diào)后。

然后，在470 步，共2650 回合（episode，一回合包含470 步）中，向智能體重復(fù)顯示這一軌跡。無(wú)論何時(shí)，智能體都只觀察裁剪框內(nèi)的像素。每個(gè)智能體的裁剪框在四個(gè)不同的位置初始化，如圖4（b）所示。智能體的目標(biāo)是在最大速度為每步1像素的情況下，使裁剪框中心相對(duì)于DP單元測(cè)量值的偏差最小化。該智能體在訓(xùn)練階段沒(méi)有被遮擋，能夠?yàn)? 個(gè)線程處理20 幀?s?1圖片（即計(jì)算執(zhí)行時(shí)間）。

4.2.3.無(wú)遮擋微調(diào)

在沒(méi)有遮擋的情況下，利用訓(xùn)練結(jié)束時(shí)獲得的參數(shù)初始化全局網(wǎng)絡(luò)參數(shù)。本地網(wǎng)絡(luò)最初與全球網(wǎng)絡(luò)共享相同的參數(shù)。所有訓(xùn)練超參數(shù)（如學(xué)習(xí)率、界面軌跡）保持不變。前一個(gè)訓(xùn)練階段使用的圖像被遮擋，其比率ρ從泊松分布中采樣獲得，如式（18）所示。分布情況Pois(x,λ)的計(jì)算如式（19）所示。

每回合開(kāi)始時(shí)，式（18）限定ρ的范圍處于0~80%（ρmax）之間。形狀因子可任意定義為λ=1。在每一回合中，遮擋發(fā)生在第200步到接下來(lái)的200步之間，概率為1。微調(diào)（FT）的目的是確保智能體對(duì)遮擋具有魯棒性。該智能體與四個(gè)線程接受了730回合任意的訓(xùn)練，直到情景累積獎(jiǎng)勵(lì)得到改善。

4.2.4.界面跟蹤測(cè)試

對(duì)于一個(gè)1000 步的回合，使用一個(gè)不連續(xù)的軌跡測(cè)試該智能體，該軌跡包含以前未看到過(guò)的圖像，這些圖像通常沒(méi)有噪聲或充滿高斯噪聲，ν?RH×W～N(0,1)，如表3所示，測(cè)試以三種方式進(jìn)行。這些圖像也使用合成遮擋，其恒定強(qiáng)度被任意選擇為圖像的平均值（即κ=128），而遮擋率ρ在20%~80%之間線性變化。4.2.5.特征分析

表3 基于圖像身份的噪聲圖像定義

為了說(shuō)明該網(wǎng)絡(luò)的有效性，本實(shí)驗(yàn)從PSV 的頂部到底部手動(dòng)裁剪了以前未看到的PSV 圖像。這些手動(dòng)裁剪的圖像在訓(xùn)練前通過(guò)CNN逐一傳遞，CNN按照第4.2.2節(jié)所述的方式進(jìn)行訓(xùn)練，同時(shí)按照第4.2.3 節(jié)所討論的進(jìn)行微調(diào)，以提取圖像特征。然后將這些空間特征?s收集到一個(gè)尺寸為9 × 9 × 32 × 440 的緩沖區(qū)中，并使用UMAP[99]從中獲得降維（2×440）特征。這些低維特征將在第4.6節(jié)中進(jìn)行概述。

4.3.訓(xùn)練

最佳策略是在訓(xùn)練和FT 結(jié)束后獲得的，此時(shí)連續(xù)500 回合的累積獎(jiǎng)勵(lì)沒(méi)有得到改善。圖8 顯示了使用這些策略留下的軌跡。裁剪框的位置被初始化，其中心位于PSV 最大高度的60%處。在該階段結(jié)束時(shí)，智能體跟蹤界面的偏移量可以忽略不計(jì)。圖9（a）中顯示了從第80步獲得的示例。綠色星形表示智能體認(rèn)為界面在當(dāng)前幀所處的位置。

圖9.（a）第80幀的訓(xùn)練結(jié)果；（b）在第950步，80%遮擋和過(guò)度噪聲的情況下進(jìn)行AFT后的測(cè)試結(jié)果。白色框表示智能體控制的裁剪框，星形代表裁剪框的中心，圓形表示精確的界面水平，五邊形是看似FMI的遮擋的底部。.

4.4.重新校準(zhǔn)微調(diào)解決遮擋問(wèn)題

如表4 所示，F(xiàn)T 將逐層的平均誤差（MAE）降低了0.51%，提高了智能體的整體性能，包括無(wú)遮擋圖像。這表明智能體不需要丟棄前置條件就能適應(yīng)新的環(huán)境條件。這是因?yàn)閺慕鼉?yōu)點(diǎn)出發(fā)，改進(jìn)了智能體的估值能力和策略。需要注意的是，平均誤差的最小值受裁剪框初始位置的限制，如圖8所示。

表4 訓(xùn)練和FT結(jié)束階段逐像素和逐層的平均誤差

圖10 以實(shí)線和點(diǎn)線分別表示了訓(xùn)練過(guò)程中和微調(diào)后（AFT）的累積獎(jiǎng)勵(lì)。

需要注意的是，F(xiàn)T期間的初始下降是由遮擋導(dǎo)致的，因?yàn)橹悄荏w在發(fā)生遮擋時(shí)無(wú)法跟蹤到界面層。這個(gè)新特征是通過(guò)400 回合內(nèi)閉環(huán)獎(jiǎng)勵(lì)機(jī)制學(xué)習(xí)得到。FT 結(jié)束時(shí)得到的最終累積獎(jiǎng)勵(lì)與訓(xùn)練結(jié)束時(shí)獲得的基本相同。這是因?yàn)槔鄯e獎(jiǎng)勵(lì)僅表示訓(xùn)練階段的跟蹤性能，它取決于裁剪框的初始位置，如圖8 所示。只有當(dāng)框的中心和DP 單元測(cè)量在初始回合完全重疊，并且在此期間智能體無(wú)偏差地跟蹤界面時(shí)，該值為零。如第4.5節(jié)所述，當(dāng)智能體暴露在不可見(jiàn)的環(huán)境條件中時(shí)，例如，過(guò)度噪聲和過(guò)度遮擋的情況，F(xiàn)T的必要性更為明顯。

圖10.累積獎(jiǎng)勵(lì)。圖中顯示了智能體可以學(xué)習(xí)遮蓋理論并成功跟蹤界面。

4.5.檢測(cè)

4.5.1.微調(diào)前階段

在初始訓(xùn)練結(jié)束階段（即第2650 個(gè)回合，如圖10 所示）進(jìn)行初始前微調(diào)（BFT）測(cè)試。需要注意的是，測(cè)試階段（在線應(yīng)用）沒(méi)用采用DP 單元信息，并且RL 智能體獨(dú)立運(yùn)行。事實(shí)上，即使DP單元可以使用，它在現(xiàn)場(chǎng)應(yīng)用環(huán)境下也無(wú)法準(zhǔn)確運(yùn)用。圖11 顯示，微調(diào)前，智能體對(duì)50%的遮擋和附加噪聲具有魯棒性。這極大改進(jìn)了現(xiàn)有方案未能解決的遮擋問(wèn)題。改進(jìn)方案的原理是，卷積消除了干擾并提高了智能體的整體性能，神經(jīng)網(wǎng)絡(luò)在空間域和時(shí)間域中提取了比邊緣和直方圖信息更多的抽象特征[157]。另外，任何增加遮擋率的操作行為都會(huì)導(dǎo)致跟蹤界面失敗。由于遮擋的強(qiáng)度較輕，策略會(huì)傾向于移向PSV的底部（此處存在大量較高強(qiáng)度的像素）以尋找界面。

圖11.展示了檢測(cè)結(jié)果，ρ 代表遮擋率（例如，ρ=0.8 表示圖像被遮蓋了80%）。

4.5.2.微調(diào)后階段

在AFT 階段中，重新校準(zhǔn)作用于遮擋問(wèn)題的智能體后，其性能得到顯著提高，如圖11 所示，智能體跟蹤界面的準(zhǔn)確率有所提高。當(dāng)連續(xù)幀之間的界面偏移量約為5%時(shí)，附加的噪聲會(huì)降低智能體的性能。然而，當(dāng)界面偏移量減少到2.5%時(shí)，智能體可以成功運(yùn)行，如圖11所示。這是因?yàn)檫^(guò)多的噪聲會(huì)嚴(yán)重破壞圖像，導(dǎo)致智能體無(wú)法定位界面。在第950 幀處獲得的示例幀如圖9（b）所示。需要注意的是，80%的遮擋率附帶著噪聲，這給跟蹤帶來(lái)了挑戰(zhàn)。智能體從圖像中提取的有用信息量顯著減少，此時(shí)圖像中只剩下20%的像素可用于定位界面。這種性能歸功于CNN 和ConvLSTM 的組合。如圖12 所示，從隨機(jī)網(wǎng)絡(luò)（實(shí)線）、訓(xùn)練后（虛線）和AFT（點(diǎn)）獲得的參數(shù)顯示了智能體對(duì)從不可見(jiàn)畫(huà)面中獲得的狀態(tài)的值（critic 預(yù)測(cè)）。根據(jù)式（2），這個(gè)圖像定義了一個(gè)狀態(tài)的值，它假設(shè)策略會(huì)生成到達(dá)界面層的最佳軌跡。

圖12.值函數(shù)的測(cè)試結(jié)果與界面偏差的關(guān)系圖。

圖12 顯示，在訓(xùn)練開(kāi)始之前，任何狀態(tài)的預(yù)測(cè)值都是相似的。但是，在訓(xùn)練階段，智能體不安于處于劣勢(shì)狀態(tài)中，并且DP單元讀數(shù)強(qiáng)調(diào)將裁剪框向界面移近（即垂直實(shí)線）得到的值比遠(yuǎn)離界面得到的值更優(yōu)。在FT 結(jié)束階段，隨著數(shù)據(jù)的增加，智能體進(jìn)一步改進(jìn)自身的參數(shù)和行為，移動(dòng)裁剪框，因此提高了準(zhǔn)確度。結(jié)果表明，智能體嘗試通過(guò)不斷變化的值來(lái)改進(jìn)其行為。需要注意的是，在偏差值為200后，AFT階段的增加對(duì)應(yīng)于圖9中的黃色五邊形。黃色五邊形的外形與界面相似，并增大了值函數(shù)，但是從這個(gè)部分獲取的值比界面的值低，這表明智能體靠近星星時(shí)比靠近五邊形時(shí)更可信。

4.6.理解網(wǎng)絡(luò)：特征分析

訓(xùn)練和測(cè)試結(jié)果集中于智能體學(xué)習(xí)和控制能力的進(jìn)步。單憑這些可能不足以解釋在以圖像形式觀察到的情況下，智能體的決定是否有意義。

圖13 顯示了二維圖的降維結(jié)果，顏色的漸變強(qiáng)度表示對(duì)應(yīng)裁剪圖像（在第4.2.5 節(jié)中獲得）的值。曲線（從左到右）對(duì)應(yīng)于PSV 箱側(cè)玻璃從上到下的裁剪圖像，如第4.2.5節(jié)所述。

圖13（a）~（c）中的有色五邊形對(duì)應(yīng)圖13（d）中的三個(gè)點(diǎn)。結(jié)果表明，訓(xùn)練前從網(wǎng)絡(luò)中得到的特征在沒(méi)有特殊安排的情況下是相似的。然而，隨著訓(xùn)練的推進(jìn)，具有相似值的特征越來(lái)越接近。結(jié)合圖12、圖13可以推斷，在RL 方法的幫助下，CNN 在未標(biāo)記數(shù)據(jù)的無(wú)模型環(huán)境中，也能以有意義的方式提取特征，因?yàn)樵诓捎肅NNConvLSTM組合模型時(shí)，每個(gè)裁剪圖像的紋理和像素強(qiáng)度模式可以成功轉(zhuǎn)換為值和策略函數(shù)。此外，從DP單元獲得的獎(jiǎng)勵(lì)信號(hào)（用作反饋機(jī)制）訓(xùn)練了智能體的行為。

圖13.降維方法被應(yīng)用于從不可見(jiàn)圖像中獲得的狀態(tài)特征中。這些特征的來(lái)源于隨機(jī)（a）、訓(xùn)練（b）和微調(diào)（c）網(wǎng)絡(luò)獲得的參數(shù)。根據(jù)相應(yīng)的值對(duì)數(shù)據(jù)點(diǎn)著色。（d）三個(gè)區(qū)域?qū)?yīng)于箱體頂部和底部，并在不可見(jiàn)的圖像上突出標(biāo)記FMI。智能體訓(xùn)練過(guò)程中，從相似區(qū)域提取的特征在黎曼空間中聚集得更為緊密。

5.結(jié)論

本文全面回顧了actor-critic算法，并提出了一種新穎的RL方案。該方案把控制層次的設(shè)備層作為目標(biāo)，提高了整個(gè)結(jié)構(gòu)的性能。為此，本文把界面跟蹤制定為一個(gè)需要長(zhǎng)期規(guī)劃的順序決策過(guò)程。智能體由CNN和ConvLSTM共同組合而成，不需要任何形狀或運(yùn)動(dòng)模型，因此對(duì)過(guò)程中的不確定性更具魯棒性。受控制理論中使用的反饋機(jī)制的啟發(fā)，智能體采用DP單元的讀數(shù)來(lái)改進(jìn)其行為。該方法不再依賴于SL 方案所需的顯式標(biāo)簽。在使用遮擋和噪聲下未經(jīng)訓(xùn)練的圖像進(jìn)行驗(yàn)證時(shí)，智能體的性能表明，它可以在低于80%的遮擋和過(guò)度噪聲的情況下實(shí)現(xiàn)對(duì)界面的跟蹤。本文通過(guò)對(duì)高維特征的分析，驗(yàn)證了智能體對(duì)其觀測(cè)值的概括能力。

6.未來(lái)研究

本文成功采用一種最先進(jìn)的RL技術(shù)演示了跟蹤液體界面的過(guò)程。本文利用由深度CNN 結(jié)構(gòu)組成的智能體處理遮擋問(wèn)題，并采用FT 策略提高了容限，這展示了該技術(shù)的自適應(yīng)性。此外，本文認(rèn)為能夠重建遮擋圖像的智能體可能是未來(lái)可行的替代方法。

Acknowledgements

The authors thank Dr.Fadi Ibrahim for his help in the laboratory to initiate this research and Dr.Artin Afacan for the lab-scale PSV setup.The authors also acknowledge the Natural Sciences Engineering Research Council of Canada(NSERC), and its Industrial Research Chair (IRC) Program for financial support.

Compliance with ethics guidelines

Oguzhan Dogru, Kirubakaran Velswamy, and Biao Huang declare that they have no conflict of interest or fi‐nancial conflicts to disclose.

Nomenclature

Abbreviations

A2C advantage actor-critic

A3C asynchronous advantage actor-critic

ACER actor-critic with experience replay

ACKTR actor-critic using Kronecker-factored trust re gion

AFT after fine-tuning

BFT before fine-tuning

CNN convolutional neural network

ConvLSTM convolutional long short-term memory

CSTR continuous stirred-tank reactor

DDPG deep deterministic policy gradient

DP differential pressure

FIM Fisher information matrix

FMI froth-middlings interface

FPS frames per second

FT fine-tuning

GAN generative adversarial network

HJB Hamiltonian-Jacobi-Bellman

HVAC heating,ventilation,air conditioning

LSTM long short-term memory

MAE mean average error

MDP Markov decision process

NAC natural actor-critic

PPO proximal policy optimization

PSV primary separation vessel

RL reinforcement learning

RNN recurrent neural network

SAC soft actor-critic

SL supervised learning

TD temporal difference

TD3 twindelayeddeepdeterministicpolicygradient

TRPO trust region policy optimization

t-SNEt-distributed stochastic neighbor embedding

UL unsupervised learning

UMAP uniformmanifoldapproximationandprojection

Symbols

E[ ? ]expectation

?s(?) spatial features

?t(?) temporal features

δtemporal difference error

σ0distribution of initial states

νgaussian noise with zero mean unit variance

(?)*optimum value for the variable,e.g.,q*

ln(?) natural logarithm

R,Gempirical reward,return

q,r,vexpected action-value,reward,state-value

x,x'∈XStates ∈State space

u∈UActions ∈Action space

π(?) policy of the agent,also known as the actor

δ(xt|ωL)temporal difference error

V(?) estimate of state-value,also known as the critic

Q(?) estimate of action-value,also known as the critic

Ω occlusion

Parameters

αa,αclearning rates for the actor and critic:0.0001

γdiscount factor:0.99

κintensity of occlusion:128/256

λshape parameter of a Poisson distribution:1

ρocclusion ratio:%

ζmagnitude of noise:0.2

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡