周東陽,曹軍,畢勝山,邵壯,司風(fēng)琪
(1.西安交通大學(xué)熱流科學(xué)與工程教育部重點實驗室,710049,西安;2.西安熱工研究院有限公司,710054,西安;3.東南大學(xué)能源熱轉(zhuǎn)換及其過程測控教育部重點實驗室,210096,南京)
電力行業(yè)在持續(xù)發(fā)展過程中對火電機組的生產(chǎn)技術(shù)提出更高的要求,除了最基本的運行穩(wěn)定之外,還要求過程的高效與智能[1]。傳統(tǒng)控制理論中較為成熟的控制器算法,通常將大多數(shù)控制任務(wù)都簡化為設(shè)定點跟蹤問題,從而通過將輸出調(diào)節(jié)到設(shè)定值來確保閉環(huán)過程的穩(wěn)定性。在大多數(shù)情況下,這些設(shè)定值是根據(jù)經(jīng)驗手動設(shè)置的,但是現(xiàn)代復(fù)雜的火電機組發(fā)電過程還需要對設(shè)備的性能指標(biāo)進行優(yōu)化,使其在運行工況不斷變化的過程中保持最優(yōu),此時單一不變的設(shè)定值往往難以滿足需求。現(xiàn)代控制理論在自動控制技術(shù)的發(fā)展中起著積極的作用,并衍生了最優(yōu)控制[2]、自適應(yīng)控制[3]、魯棒控制[4]和模型預(yù)測控制(MPC)[5]等先進控制算法,可以在控制過程中同時實現(xiàn)系統(tǒng)性能優(yōu)化,但是它們通常依賴對象的動態(tài)特性模型,因此對于某些動態(tài)特性難以辨識或存在時變的對象[6],這些基于模型的方法往往難以達到預(yù)期的效果。
凝結(jié)式給水加熱器水位控制是火電機組的一項經(jīng)典控制任務(wù),目前使用最廣泛的是比例-積分-微分(PID)控制器??刂破鞲鶕?jù)實時水位與目標(biāo)水位的偏差,通過調(diào)節(jié)疏水閥,保持水位在目標(biāo)水位附近。然而,機組負荷在運行過程中持續(xù)變化,會改變加熱器的邊界參數(shù)和系統(tǒng)的動態(tài)特性。作為設(shè)定點跟蹤問題,控制器的目標(biāo)是在不斷變化的邊界參數(shù)下保持水位穩(wěn)定,但是無法考慮諸如加熱器端差和給水溫升之類的性能指標(biāo)。為此,學(xué)者們圍繞水位與加熱器性能的關(guān)系開展了研究。Hossienalipour等[7]建立了一個數(shù)學(xué)模型來評估加熱器的性能,定量分析表明,在某些工況下水位對加熱器的換熱性能影響很大,給定的水位設(shè)定值在大多數(shù)情況下都會使加熱器偏離其最佳運行狀態(tài)。Xu等[8]通過建立一個變工況特性模型,針對性能指標(biāo)分析了變工況下的最佳水位設(shè)定曲線。但是,建立一個精確的數(shù)學(xué)模型來描述高壓蒸汽在復(fù)雜物理結(jié)構(gòu)中的凝結(jié)過程是非常困難的,其中有大量的換熱特性參數(shù)需要通過實驗手段獲取。此外,文獻[9]中還分析了的熱交換器表面存在的劣化現(xiàn)象,這進一步阻礙了基于模型的優(yōu)化控制方法的應(yīng)用。
近些年,學(xué)者們提出了許多方法來滿足運行優(yōu)化控制的需求[10],包括基于模型的方法(如MPC[5]和實時優(yōu)化(RTO)[11])和無模型的方法(如數(shù)據(jù)驅(qū)動的優(yōu)化(DDO)[12-13]和強化學(xué)習(xí)[12,14-15])?;趶娀瘜W(xué)習(xí)的無模型最優(yōu)控制方法可以直接利用觀測數(shù)據(jù)求解控制器,而無需建立描述系統(tǒng)的解析表達式。由于計算能力的飛速發(fā)展,強化學(xué)習(xí)近年來受到了極大的關(guān)注,并顯示出其在許多領(lǐng)域中解決廣義控制問題的能力,如國際象棋[16]、跳棋[17]、網(wǎng)絡(luò)資源分配[18]、視頻游戲[19]、圍棋[20]等。強化學(xué)習(xí)結(jié)合了動態(tài)規(guī)劃和機器學(xué)習(xí)兩種理論,用于求解序列決策問題的最優(yōu)策略,在面對維度詛咒和模型不確定性的問題時具有一定優(yōu)勢[21]。通過觀察控制器與對象交互的狀態(tài)轉(zhuǎn)移和相應(yīng)的獎勵信號,強化學(xué)習(xí)在累積獎勵最大化的方向上更新狀態(tài)、狀態(tài)-動作組合的價值估計或直接更新控制器參數(shù)[22-23],以逐步改進控制器作用于對象的控制品質(zhì)。目前,強化學(xué)習(xí)已在諸如電力系統(tǒng)控制[24]、飛行控制[25]、動態(tài)功率管理[26]、無人機[27]和機器人控制[28]等領(lǐng)域?qū)崿F(xiàn)了應(yīng)用。在過程控制領(lǐng)域,Jiang等[29]以浮選工藝為例,設(shè)計了基于強化學(xué)習(xí)的最優(yōu)控制方法,使用過程生產(chǎn)效率的性能指標(biāo)取代原有的設(shè)定點跟蹤目標(biāo),證明了強化學(xué)習(xí)有助于提高過程控制品質(zhì)和生產(chǎn)效益。
本文以高壓給水加熱器的水位控制為研究對象,首先介紹高壓給水加熱器的物理系統(tǒng),并對最優(yōu)控制的數(shù)學(xué)問題進行形式化,然后介紹基于強化學(xué)習(xí)的性能最優(yōu)控制框架,最后利用某600 MW機組高壓加熱器的仿真模型對本文提出的方法進行驗證。
目前,火電機組給水加熱器主要使用PID控制器將水位控制在一個固定設(shè)定值附近[1]。然而,持續(xù)波動的機組負荷導(dǎo)致加熱器的運行工況也在不斷變化,而不同工況下最佳水位設(shè)定值卻是不同的[8]。因此,如果水位設(shè)定值固定,則會使加熱器偏離其最佳運行狀態(tài)[7]??紤]到加熱器凝結(jié)過程較為復(fù)雜,難以利用模型來確定不同工況的最佳水位設(shè)定值,本文采用基于強化學(xué)習(xí)的性能最優(yōu)控制框架來解決高加水位控制問題。
圖1給出了加熱器的物理結(jié)構(gòu),其中給水從右下側(cè)流入底部水室,平行地流經(jīng)U型管,同時從管壁吸收熱量,最終進入頂部水室并流向下一級的加熱器。蒸汽側(cè)分為蒸汽冷卻段、凝結(jié)段和疏水冷卻段共3個區(qū)域。過熱蒸汽首先進入蒸汽冷卻段,與管壁進行交叉對流換熱,冷卻至飽和狀態(tài)后進入冷凝區(qū),在U型管表面冷凝成水滴,并流入加熱器底部形成疏水,隨后通過水封進入疏水冷卻區(qū),與管壁進行交叉對流換熱。過冷的疏水最終從加熱器排出,通過控制閥,流入下一級加熱器,控制閥通過調(diào)節(jié)疏水流量,使加熱器水位達到給定的目標(biāo)值水位。
圖1 典型高壓加熱器的物理結(jié)構(gòu)
疏水水位隨液滴凝結(jié)量的增加而升高,隨疏水流量的增加而降低,其中液滴凝結(jié)量主要取決于冷凝區(qū)的換熱量,它同時與管側(cè)的給水流量、溫度以及殼側(cè)的蒸汽壓力、溫度等有關(guān),疏水流量則取決于疏水調(diào)節(jié)閥的開度、當(dāng)前水位及加熱器壓力??梢?給水的流量和溫度、蒸汽的壓力和溫度是加熱器的4個邊界條件,影響加熱器的動態(tài)平衡。水位的動態(tài)變化與上述邊界條件之間的關(guān)系可描述為
(1)
式中:A(l)為水位為l時的橫截面積;Qs為凝結(jié)液滴的總質(zhì)量流量;Ps為蒸汽入口壓力;Ts為蒸汽入口溫度;Qw為給水入口質(zhì)量流量;Tw為給水入口溫度;Qd為疏水質(zhì)量流量;Ps為當(dāng)前抽汽級壓力;l為水位;V為疏水閥開度;G(V,a)為執(zhí)行器的動態(tài)特性;a為閥門開度變化率的控制信號。
為了保持加熱器的熱交換過程穩(wěn)定且高效,在運行過程中應(yīng)始終保持合適的水位。當(dāng)水位太高時,疏水會浸沒U型管,從而減少凝結(jié)段的傳熱面積;當(dāng)水位太低時,疏水管中會混有蒸汽,降低蒸汽的利用率,還影響下一級加熱器的換熱過程。加熱器的運行性能指標(biāo)包括給水溫升ΔTw、給水端差ΔTttd和疏水端差ΔTdtd。ΔTw是給水出口溫度與給水入口溫度之差,ΔTw越高則熱力系統(tǒng)效率越高;ΔTttd是蒸汽入口壓力對應(yīng)的飽和溫度與給水出口溫度之差,ΔTttd越小則說明凝結(jié)段的傳熱性能越好;ΔTdtd是疏水溫度和給水入口溫度之差,ΔTdtd越小則說明疏水冷卻段的傳熱性能越好。因此,給定蒸汽和給水的入口參數(shù),好的加熱器的運行狀態(tài)所對應(yīng)的ΔTw大、ΔTttd小、ΔTdtd小。邊界條件和水位都會對ΔTw、ΔTttd和ΔTdtd造成影響[30],因此水位控制需要考慮在滿足安全性與穩(wěn)定性的同時優(yōu)化上述性能指標(biāo)。
將式(1)連續(xù)時間狀態(tài)空間方程轉(zhuǎn)化為離散形式
(2)
式中:F(·)為水位動態(tài)特性的差分方程;G(·)為執(zhí)行器動態(tài)特性的差分方程。
高壓給水加熱器的離散時間性能最優(yōu)控制問題的優(yōu)化目標(biāo)為
(3)
式中:γ∈(0,1]為折扣因子;[ω1,ω2,ω3,ω4]T∈4為3個性能指標(biāo)和水位變化率的平方的權(quán)重向量;Pl,t為水位超限懲罰函數(shù);Pa,t為避免疏水閥全開或全關(guān)的軟約束函數(shù);λl和λa分別為懲罰的權(quán)重;π(·)為控制策略函數(shù);在限值之外的二次項形式是為了保證優(yōu)化目標(biāo)的一階導(dǎo)數(shù)連續(xù);Pl,t和Pa,t均為不等式約束,利用拉格朗日乘子將其引入到目標(biāo)函數(shù)中,公式為
(4)
其中,lmax和lmin分別為水位上下限,Vmax和Vmin分別為閥位的上下限。
為了使用異策略連續(xù)動作強化學(xué)習(xí)算法解決式(3)所示的優(yōu)化問題,同時避免性能較差的初始策略函數(shù)參與真實物理系統(tǒng)的運行。本文首先提出了基于強化學(xué)習(xí)的性能最優(yōu)控制框架,然后重點介紹其中數(shù)據(jù)緩沖區(qū)的數(shù)據(jù)處理算法和用于求解策略函數(shù)的強化學(xué)習(xí)算法,最后利用兩個算例對框架的性能進行驗證。
圖2給出了基于強化學(xué)習(xí)的性能最優(yōu)控制框架。由圖可知,基于強化學(xué)習(xí)的性能最優(yōu)控制框架包括在線控制、數(shù)據(jù)預(yù)處理和策略函數(shù)求解共3個主要環(huán)節(jié)。首先通過在線控制環(huán)節(jié)生成大量歷史運行數(shù)據(jù),然后在數(shù)據(jù)預(yù)處理環(huán)節(jié),利用均勻化網(wǎng)格算法(homogenization grid algorithm,HGA)算法對訓(xùn)練樣本進行整理,最后在策略函數(shù)求解環(huán)節(jié),利用基于粒子群優(yōu)化的連續(xù)批量Q學(xué)習(xí)算法(particle swarm optimization continues batchQ-learning algorithm,PSO-CBQ)算法訓(xùn)練控制策略函數(shù)。最終得到的控制策略函數(shù)在通過性能測試之后,可以替代現(xiàn)有控制器,以改善系統(tǒng)的運行水平。
圖2 基于強化學(xué)習(xí)的性能最優(yōu)控制框架
圖2中的在線控制環(huán)節(jié)描述了真實物理系統(tǒng)受外部擾動和控制動作的共同影響而持續(xù)地進行狀態(tài)轉(zhuǎn)移的過程。真實物理系統(tǒng)在時刻t的內(nèi)部狀態(tài)為si,t,它在外部擾動sd,t和控制動作at的影響下,于t+1時刻轉(zhuǎn)變?yōu)閟i,t+1,由t到t+1的狀態(tài)變化稱為一組狀態(tài)轉(zhuǎn)移樣本。
為了提高狀態(tài)轉(zhuǎn)移樣本的多樣性,本文在現(xiàn)有控制器的輸出上疊加了少量隨機噪聲,最終作用在真實物理系統(tǒng)的控制動作at滿足以現(xiàn)有控制器實際輸出為均值的正態(tài)分布
at~N(aonline,t,σ)
(5)
式中:aonline,t為現(xiàn)有控制器的輸出;σ為擾動的方差。
圖2中的數(shù)據(jù)預(yù)處理環(huán)節(jié)從時間序列中采集狀態(tài)轉(zhuǎn)移樣本并生成用于訓(xùn)練策略函數(shù)的數(shù)據(jù)集。在樣本采集過程中,需要將時間序列數(shù)據(jù)構(gòu)造成st,at,st+1元組的形式,其中st=[si,t,sd,t]T而st+1=[si,t+1,sd,t]T。這里需要注意的是,st+1所包含的外部擾動是sd,t而不是sd,t+1,這是因為t+1時刻的外部擾動sd,t+1與t時刻的外部擾動sd,t無關(guān)且不由at決定,這樣的設(shè)置隱含著外部擾動不會變化的假設(shè),從而使策略函數(shù)傾向于將系統(tǒng)調(diào)節(jié)至穩(wěn)定狀態(tài)。
考慮到訓(xùn)練數(shù)據(jù)集中樣本分布不均勻容易導(dǎo)致策略函數(shù)訓(xùn)練發(fā)散,本文提出了均勻化網(wǎng)格算法,其偽代碼如下。
算法均勻化網(wǎng)格算法
1 初始化:結(jié)構(gòu)為ds×da×Nmax的數(shù)組B,其中Nmax是單個網(wǎng)格中的最大樣本數(shù)量,下邊界向量Bl=[smin,amin]T,上邊界向量Bu=[smax,amax]T,網(wǎng)格數(shù)量向量nc=[nc,s,nc,a]T
2 重復(fù):
3 對于每一個從時間序列數(shù)據(jù)庫采集的新元組st,at,st+1:
4 定義工況向量vc=[st,at]T
5 如果vc∈[Bl,Bu]:
6 計算網(wǎng)格索引向量vi=floor(((vc-
Bl)./[(Bu-Bl)./nc])),floor(·)為逐元素向下取整
7 將st,at,st+1插入網(wǎng)格B[vi]尾部
8 如果網(wǎng)格B[vi]長度大于Nmax:
9 將網(wǎng)格B[vi]的頭部元素刪除
HGA首先在st-at空間劃分網(wǎng)格,建立數(shù)組結(jié)構(gòu)的數(shù)據(jù)緩沖區(qū)B,處理時間序列數(shù)據(jù)時把st,at,st+1元組依次插入網(wǎng)格中,通過平衡各網(wǎng)格的元組數(shù)量,保證歷史數(shù)據(jù)集在st-at空間分布均勻。HGA中的數(shù)據(jù)緩沖區(qū)B具有3個特性:①B中數(shù)據(jù)總量有限,可以避免冗余數(shù)據(jù)無限積累;②B中所有網(wǎng)格的數(shù)據(jù)量均處于同一數(shù)量級;③存儲在每個網(wǎng)格中的數(shù)據(jù)會不斷更新,更新速度取決于時間序列中該狀態(tài)動作對出現(xiàn)的頻率。相較于其他均勻化算法,HGA算法盡管不適合處理狀態(tài)空間維度過高的問題,但是其計算量更小,因此在面對采樣周期較短的連續(xù)動態(tài)優(yōu)化問題時,可以有效地降低計算負載。
圖2中的策略函數(shù)求解環(huán)節(jié)利用從數(shù)據(jù)緩沖區(qū)采集的樣本,使用異策略連續(xù)動作強化學(xué)習(xí)算法離線地求解控制策略函數(shù)。需要注意的是,當(dāng)狀態(tài)st為連續(xù)變量時,要使用參數(shù)化Q值函數(shù)Q(s,a|ωQ)∈來近似Q值函數(shù),其中ωQ為Q值函數(shù)的參數(shù)。當(dāng)狀態(tài)st和動作at同時為連續(xù)變量時,還要使用參數(shù)化策略函數(shù)π(s|θ),其中θ為策略函數(shù)的參數(shù),此時關(guān)于Q(s,a|ωQ)的最大化運算maxa、arg maxa求解效率較低,因此有必要對算法進行改進。
考慮到火電廠連續(xù)動態(tài)優(yōu)化問題通常具有動作空間維度低的特點,本文使用粒子群優(yōu)化[31-32]算法來求解最大化運算,即對于給定狀態(tài)st和Q值函數(shù),以Q(st,·|ωQ)為粒子群優(yōu)化的適應(yīng)度函數(shù),通過在動作空間隨機搜索,找到使適應(yīng)度最大的動作,即為arg maxa的解,對應(yīng)的適應(yīng)度為maxa的解。
結(jié)合粒子群優(yōu)化算法和Q學(xué)習(xí)算法,本文提出了基于粒子群優(yōu)化的連續(xù)批量Q學(xué)習(xí)算法算法,其偽代碼如下。
算法基于粒子群優(yōu)化的連續(xù)批量Q學(xué)習(xí)算法
1 已知:數(shù)據(jù)緩沖區(qū)B
2 初始化:Q值函數(shù)Q(s,a|ωQ),?(s,a),Q(s,a|ωQ)=0,目標(biāo)Q值函數(shù)Qd(s,a|ωQd),其中,ωQd為目標(biāo)Q值函數(shù)的參數(shù),ωQd←ωQ,隨機參數(shù)初始化的策略函數(shù)π(s|θ),給定Q值函數(shù)學(xué)習(xí)率α、策略函數(shù)學(xué)習(xí)率αθ
3 重復(fù)直到ωQ穩(wěn)定:
4 從B中采集N個狀態(tài)轉(zhuǎn)移樣本
5 對于第j個樣本st,j,at,j,st+1,j:
7rj=R(st,j,at,j,st+1,j)
8qj=Q(st,j,at,j|ωQ)+α[rj+γqmax-
Q(st,j,at,j|ωQ)]
10 更新ωQd←(ωQ+ωQd)/2
11重復(fù)直到θ穩(wěn)定:
12 從狀態(tài)空間均勻采集M個樣本,利用Q值函數(shù)和采樣策略梯度對θ進行一步更新:
首先從數(shù)據(jù)緩沖區(qū)B中收集單步狀態(tài)轉(zhuǎn)移樣本,然后根據(jù)初始Q值函數(shù)Q(s,a|ωQ),結(jié)合粒子群優(yōu)化算法計算樣本集中所有狀態(tài)-動作對的損失函數(shù),并使用梯度下降更新Q值函數(shù)的參數(shù)ωQ[33],隨后重復(fù)該過程直到ωQ收斂,最后計算策略函數(shù)π(s|θ)的策略梯度θJ,并使用梯度上升更新策略函數(shù)的參數(shù)θ直至收斂。
本文在Python-3.7環(huán)境下,在TensorFlow-2.0.0深度學(xué)習(xí)庫的基礎(chǔ)上實現(xiàn)了強化學(xué)習(xí)性能最優(yōu)控制框架,并基于仿真運行數(shù)據(jù)來求解式(3)所示優(yōu)化問題,以獲得水位控制策略函數(shù)。首先,使用APROS-6.04仿真軟件[34],以某600 MW機組#1高壓加熱器為研究對象建立了仿真模型,將其作為真實物理系統(tǒng)生成運行數(shù)據(jù)。該高壓加熱器模型的結(jié)構(gòu)與參數(shù)如圖3所示,該模型穩(wěn)定狀態(tài)在機組THA工況附近。
圖3 APROS高壓加熱器仿真模型
采用基于強化學(xué)習(xí)的性能最優(yōu)控制框架求解策略函數(shù)的超參數(shù)如表1所示,其中加熱器運行工況范圍等效于在500~600 MW之間。
表1 高壓加熱器水位性能最優(yōu)控制算例的超參數(shù)
實驗發(fā)現(xiàn),策略函數(shù)采用淺層網(wǎng)絡(luò)效果不佳,Q值網(wǎng)絡(luò)采用深層網(wǎng)絡(luò)的效果不佳??赡艿脑蛟谟谑?3)所示的優(yōu)化目標(biāo)較為復(fù)雜,策略函數(shù)需要具備足夠的特征變換能力,才能具備較好的控制效果,但又為了避免訓(xùn)練過程不穩(wěn)定,因此適合選擇多層少節(jié)點的網(wǎng)絡(luò)結(jié)構(gòu)。Q值網(wǎng)絡(luò)需要具備較強的泛化能力,以防止對價值估計的過擬合,綜合考慮適合選擇少層而多節(jié)點的網(wǎng)絡(luò)結(jié)構(gòu)。獎勵函數(shù)中的性能指標(biāo)ΔTw,t、ΔTttd,t、ΔTdtd,t為
(6)
式中Tsat(·)為飽和蒸汽溫度關(guān)于蒸汽壓力的函數(shù),根據(jù)IAPWS-IF97標(biāo)準公式計算。
圖4給出了Q值神經(jīng)網(wǎng)絡(luò)及其策略神經(jīng)網(wǎng)絡(luò)參數(shù)的平均絕對變化率的變化趨勢。圖中,藍色陰影為10輪不同訓(xùn)練過程中95%置信水平對應(yīng)的置信區(qū)間??梢钥闯?學(xué)習(xí)過程是不穩(wěn)定的,網(wǎng)絡(luò)參數(shù)的平均絕對變化率沒有單調(diào)下降,且在300次迭代之前均存在較大的方差,不過在300次迭代之后逐漸穩(wěn)定收斂。由此可知,使用神經(jīng)網(wǎng)絡(luò)逼近器的性能最優(yōu)控制框架可以使學(xué)習(xí)過程收斂至局部最優(yōu)解。
(a)Q值神經(jīng)網(wǎng)絡(luò)
為了驗證基于強化學(xué)習(xí)的性能最優(yōu)控制框架得到的策略函數(shù)的性能,使用某一個收斂的策略神經(jīng)網(wǎng)絡(luò)在設(shè)計工況附近進行階躍實驗,表2給出了設(shè)計工況穩(wěn)定狀態(tài)下系統(tǒng)的過程參數(shù)。
表2 設(shè)計工況穩(wěn)定狀態(tài)下的過程參數(shù)
在穩(wěn)定狀態(tài)下,將加熱器水位設(shè)置為1,觀察水位lt、閥位Vt、疏水出口溫度Tdo,t和給水出口溫度Two,t的響應(yīng)曲線,如圖5所示??梢钥闯?水位可以快速地被調(diào)節(jié)至初始狀態(tài),且過程中閥門開度被限制在的軟約束之內(nèi)。在穩(wěn)定狀態(tài)下,分別將蒸汽壓力從5.95 MPa升至6.45 MPa、將蒸汽溫度從396 ℃升至400 ℃、將給水質(zhì)量流量從417.5 kg/s升至422.5 kg/s、將給水入口溫度從249.5 ℃升至251.5℃,觀察各參數(shù)的響應(yīng)曲線,如圖6所示??梢钥闯?各邊界條件不僅影響疏水和給水的出口溫度,還改變了新穩(wěn)態(tài)下的水位值,變化過程較快且沒有出現(xiàn)超調(diào)。
(a)水位和閥位的響應(yīng)曲線
(a)Ps,t從5.95 MPa階躍至6.45 MPa
從249.5 ℃階躍至251.5 ℃為了進一步說明基于強化學(xué)習(xí)的性能最優(yōu)控制框架得到的策略函數(shù)的合理性,將策略函數(shù)在對應(yīng)工況下的穩(wěn)定水位與試驗最優(yōu)水位進行對比。試驗最優(yōu)水位來自于APROS仿真模型的設(shè)定值試驗優(yōu)化[34],它是一種經(jīng)典的工程優(yōu)化方法,通過在試驗中手動調(diào)整控制系統(tǒng)的設(shè)定值,以確定各邊界條件下以性能指標(biāo)為目標(biāo)的最優(yōu)設(shè)定值,并擬合最優(yōu)設(shè)定值與各邊界條件的關(guān)系曲線以參與控制。
圖7給出了強化學(xué)習(xí)策略函數(shù)穩(wěn)定水位與試驗最優(yōu)水位關(guān)于每個邊界條件的特性對比情況。可以看出,基于強化學(xué)習(xí)的性能最優(yōu)控制框架得到的策略函數(shù)在各工況下的穩(wěn)定水位與設(shè)定值試驗優(yōu)化得到的最優(yōu)水位比較接近,相對于邊界條件的趨勢也相似。在變蒸汽壓力條件下,策略函數(shù)穩(wěn)定水位和試驗最優(yōu)水位趨勢存在差異??梢钥闯?試驗最優(yōu)水位的趨勢比較平滑,而策略函數(shù)穩(wěn)定水位的曲線在5.9 MPa附近存在一個拐點,可能的原因是策略函數(shù)采用了ReLU的隱層激活函數(shù),導(dǎo)致其函數(shù)曲面不連續(xù)??赡艿母倪M方法是減少策略函數(shù)層數(shù),并使用平滑連續(xù)的激活函數(shù)。考慮到相關(guān)控制策略學(xué)習(xí)算法的特性,一般訓(xùn)練控制策略所使用數(shù)據(jù)的工況范圍與其適用的工況范圍是相近的,因此不建議在訓(xùn)練數(shù)據(jù)所在范圍之外使用得到的控制策略。本文選擇在THA穩(wěn)定工況附近對模型的有效性進行了驗證,而在范圍外的實驗效果不佳。
(a)不同Ps,t下策略函數(shù)穩(wěn)定水位與試驗最優(yōu)水位對比
在實際應(yīng)用中,設(shè)定值試驗優(yōu)化在面對多邊界條件的場景時,需要進行大量的組合試驗以確定各工況下邊界條件與最優(yōu)設(shè)定值的關(guān)系,而采用基于強化學(xué)習(xí)的性能最優(yōu)控制框架可以直接利用歷史運行數(shù)據(jù)求解控制策略函數(shù),不僅在動態(tài)過程中可以達到較好的控制品質(zhì),穩(wěn)態(tài)下也能使系統(tǒng)維持在性能較優(yōu)的狀態(tài),相當(dāng)于同時實現(xiàn)了設(shè)定值優(yōu)化與設(shè)定點跟蹤控制。然而,Q值函數(shù)存在近似誤差,框架得到的策略函數(shù)尚達不到理論最優(yōu)的控制品質(zhì)。這是由于Q值本身是對單步狀態(tài)轉(zhuǎn)移的獎勵估計,而優(yōu)化目標(biāo)是最大化多步累積獎勵。采用機器學(xué)習(xí)算法擬合單步獎勵必然會存在誤差,在常規(guī)的監(jiān)督學(xué)習(xí)任務(wù)中,這種誤差的影響不大,而在強化學(xué)習(xí)任務(wù)中,單步誤差的多步累積,可能導(dǎo)致多步優(yōu)化目標(biāo)存在較為明顯的差異,因此得到的控制策略與解析法相比往往是次優(yōu)的,但是其優(yōu)勢在于可以處理解析法無法解決的問題,對于解決包含復(fù)雜目標(biāo)的過程控制任務(wù)具有較大的潛力。
考慮到火電廠對象特性復(fù)雜、動作空間維度較低、策略函數(shù)在訓(xùn)練期間無法與物理系統(tǒng)交互等特點,本文提出了基于強化學(xué)習(xí)的性能最優(yōu)控制框架。在框架的數(shù)據(jù)預(yù)處理環(huán)節(jié)提出了HGA算法,以較低的計算負載解決了數(shù)據(jù)不平衡問題。在策略函數(shù)求解環(huán)節(jié)提出了PSO-CBQ算法,使用粒子群優(yōu)化準確快速地實現(xiàn)了動作值迭代計算中的最大化運算,解決了連續(xù)動作強化學(xué)習(xí)求解效率低的問題。在高壓給水加熱器性能最優(yōu)控制算例中,將基于強化學(xué)習(xí)的性能最優(yōu)控制框架訓(xùn)練得到的策略函數(shù)與試驗最優(yōu)水位設(shè)定值控制器進行了對比。結(jié)果表明,基于強化學(xué)習(xí)的性能最優(yōu)控制框架不需要建立系統(tǒng)模型,可以直接利用歷史運行數(shù)據(jù)求解以累積性能最優(yōu)為目標(biāo)的控制策略函數(shù),不僅在動態(tài)過程中可以達到較好的控制品質(zhì),穩(wěn)態(tài)下也能使系統(tǒng)維持在性能較優(yōu)的狀態(tài),相當(dāng)于同時實現(xiàn)了設(shè)定值優(yōu)化與設(shè)定點跟蹤控制。