趙春領(lǐng),吳化騰
(重慶交通大學 機電與車輛工程學院,重慶 400074)
插電式混合動力汽車(Plug-in Hybrid Electric Vehicle,PHEV)被認為是平衡長久里程和低能耗的可行性技術(shù)途徑[1],而插電式柴電混合動力汽車因為頻繁的啟動和停止發(fā)動機運行,會引起發(fā)動機排氣的溫度變化大,而在插電式柴電混合動力汽車的后處理系統(tǒng)中選擇性催化還原(Selective Catalytic Reduction,SCR)技術(shù)對排氣溫度比較敏感,因此會使得NOX排放惡劣[2].所以在插電式柴電混合動力汽車上制定既保證盡量低的油耗又保證盡量低的NOX排放的控制策略,具有很重要的意義.
目前PHEV的整車控制策略研究得到了成熟的發(fā)展[3].基于規(guī)則的策略在工程中被大量應用,其簡單,有很高的實時性[4][5],但策略需要根據(jù)大量實驗和專家經(jīng)驗來制定.基于優(yōu)化的控制策略的分為瞬時優(yōu)化和全局優(yōu)化,其利用優(yōu)化算法最小化目標函數(shù)實現(xiàn)整車能量的最佳分配[6],但其效率和實時性不高.基于學習的策略利用歷史數(shù)據(jù)或?qū)崟r數(shù)據(jù)進行學習和應用[7],可以適應不同的工況,但依賴精確的車輛系統(tǒng)模型和專家經(jīng)驗.近年來大量學者將強化學習應用到混合動力控制策略的開發(fā)中,如LIU T[8-9]等人提出基于Q-learning和DYNA算法的混合動力車輛能量管理策略,并且證明了其可行性.但在傳統(tǒng)強化學習中面對高維或者連續(xù)狀態(tài)會導致維度災難,難以收斂,深度強化學習可以靈活的解決復雜控制情況,很好的解決了這些問題.如王勇[10]等人提出基于深度強化學習DDPG算法的PHEV能量管理策略,并證明了其優(yōu)越性,有效的降低了油耗.
本文提出了基于TD3算法的PHEV經(jīng)濟性和排放性的綜合優(yōu)化控制策略,采用行動-評價算法(Actor-Critic,AC)的架構(gòu)和經(jīng)驗回放機制,解決車輛復雜的動作空間和連續(xù)動作空間的問題,最后將結(jié)果與DP策略進行比對分析,證明其策略有很好的效果.
如圖1所示的單軸并聯(lián)式插電式柴電混合動力汽車為本文的研究對象,其動力系統(tǒng)的各部件以及相關(guān)參數(shù)如表1所示:
圖1 PHEV動力系統(tǒng)結(jié)構(gòu)
表1 整車各部件相關(guān)參數(shù)
在建立發(fā)動機模型時只考慮發(fā)動機的輸入與輸出的映射關(guān)系,發(fā)動機轉(zhuǎn)矩、轉(zhuǎn)速和燃油消耗量之間的關(guān)系,以及發(fā)動機轉(zhuǎn)矩、轉(zhuǎn)速和NOX的排放量之間的關(guān)系,由發(fā)動機臺架實驗得到,然后通過插值實驗穩(wěn)態(tài)數(shù)據(jù)建立發(fā)動機油耗和NOX排放數(shù)值模型如圖2、圖3所示.
圖2 發(fā)動機燃油消耗
圖3 發(fā)動機NOX排放
數(shù)值模型表達式為:
(1)
(2)
式中:ge、gNOx、mfuel、mNOx分別為發(fā)動機瞬時燃油消耗率、發(fā)動機出口瞬時NOX排放率、發(fā)動機燃油消耗質(zhì)量和發(fā)動機出口NOX排放質(zhì)量;ωe為發(fā)動機轉(zhuǎn)速;Te為發(fā)動機轉(zhuǎn)矩;
本文不考慮溫度對電池內(nèi)部特性的影響,建立如圖4所示的電池模型:
圖4 電池內(nèi)阻模型
電池輸出電壓:
Ub=V(SOC)-R(SOC)Ib
(3)
電池電流:
(4)
電池SOC:
(5)
式中:V為開路電壓,R為電池內(nèi)阻
SCR后處理技術(shù)的作用原理是利用催化劑在富氧的環(huán)境下作用在還原劑上將氮氧化物選擇性還原成N2和H2O,是降低柴油機NOX排放的有效手段之一[11].將復雜的SCR反應簡化,假設廢氣不能壓縮并且流動為等熵流動,建立SCR溫度的模型為:
(6)
式中:TSCR為SCR催化器溫度,k;
Mexh為發(fā)動機出口廢氣流速,kg/s;
CSCR為催化層比熱容;h為熱傳遞系數(shù);
Tamb為發(fā)動機環(huán)境溫度,k;
Teng為發(fā)動機出口溫度,k;
Cexh為廢氣比熱容.
在建立整車縱向動力學模型時,首先側(cè)向動力學因素的影響忽略不計,然后假設整車質(zhì)量集中在重心上,建立驅(qū)動力平衡方程為:
(7)
式中:Fj為加速阻力;Ff為滾動阻力;Fj為加速阻力;Fw為空氣阻力;M為汽車質(zhì)量;g為重力加速度;f為滾動阻力系數(shù);α為道路坡度;CD為空阻系數(shù);A為汽車迎風面積;v為車速;σ為汽車旋轉(zhuǎn)質(zhì)量換算系數(shù).
不考慮坡度因素的情況下,即α=0,給定車速v,根據(jù)上述方程計算出車輛需求功率和車輪需求轉(zhuǎn)速分別為:
(8)
(9)
強化學習的目標就是通過智能體與環(huán)境之間的試錯學習,找到最優(yōu)策略π*,使得累積回報的期望最大[12],其原理如圖5所示:
圖5 強化學習示意圖
其中智能體是學習者和決策者,在每個時間步長采用策略π的智能體根據(jù)觀測環(huán)境的狀態(tài)st(st∈S),選擇對應動作at(at∈A),然后動作作用到環(huán)境中,得到對應的回報rt+1和下一步的狀態(tài)st+1,智能體根據(jù)rt+1的大小不斷學習改進其行為策略,以便獲得最大累積回報.
定義t時刻開始的累積回報為:
R(st,at)+γR(st+1,at+1)+γ2R(st+2,at+2)+…
(10)
簡化為:
Rt+γRt+1+γ2Rt+2+…
(11)
式中:Rt為獎勵回報函數(shù),γ為獎勵衰減因子.
最大期望累積回報為:
Ε[Rt+γRt+1+γ2Rt+2+…]
(12)
定義基于策略π的狀態(tài)-動作值函數(shù):
(13)
簡化為:
(14)
基于Q(s,a)定義強化學習的目標為找到最優(yōu)的策略π*,使每一個狀態(tài)的價值最大化,即:
π*=argmaxπQ(s,a),?s,a
(15)
深度強化學習將深度學習和強化學習相結(jié)合,具備解決復雜控制問題的能力[13].深度強化學習TD3算法網(wǎng)絡框架如圖6所示.TD3算法是一種針對連續(xù)行為動作的策略學習方法,采用了行動-評價算法(Actor-Critic,AC)的架構(gòu),用深度神經(jīng)網(wǎng)絡去擬合最優(yōu)狀態(tài)-動作值函數(shù)Q(s,a),其是以DDPG算法為基礎的算法[14],具有6個網(wǎng)絡.
圖6 TD3算法架構(gòu)
與DDPG相比TD3算法具有的優(yōu)點:
(1)采用雙Critic網(wǎng)絡去估算Q值,相對較小的作為更新的目標,防止Q值的過估計;
(2)延遲Actor網(wǎng)絡更新,本文中增加了算法的穩(wěn)定性;
(3)并且在用于計算目標動作值函數(shù)的目標動作上添加基于正太分布的噪聲,增加了算法的魯棒性.
基于上述理論基礎,選取的控制動作變量為電機的輸出功率Pm,狀態(tài)變量為需求功率Preq、SCR的溫度和SOC,目標函數(shù)定義為帶獎勵衰減的累積回報:
(16)
式中:γ為獎勵衰減因子用來保證函數(shù)收斂,γ∈[0,1];R(t)為獎勵回報函數(shù).
強化學習中,獎勵回報函數(shù)在指導智能體的學習方向上發(fā)揮著重要作用,本文中策略的目標是整車油耗和排放的綜合指標最小化,因此獎勵回報函數(shù)定義如下:
R(t)=ω1R1(t)+ω2R2(t)+ω3(SOC-0.4)
(17)
(18)
(19)
系統(tǒng)控制變量為:
U(t)=Pm(t)
(20)
系統(tǒng)狀態(tài)變量為:
S(t)=[Preq(t),SOC(t),TSCR(t)]
(21)
系統(tǒng)物理約束條件為:
(22)
系統(tǒng)的邊界條件為:
(23)
基于上述理論將整車的綜合優(yōu)化問題轉(zhuǎn)化為尋找最優(yōu)的控制策略π*對應的控制動作序列,將最優(yōu)狀態(tài)-動作值函數(shù)定義為:
Q*(s,a)=maxπΕ[Jt|st=s,at=a]
(24)
可簡化為:
(25)
本文提出的基于TD3算法的PHEV綜合優(yōu)化控制策略原理如圖7所示:
基于TD3算法的控制策略的核心是采用深度神經(jīng)網(wǎng)絡來擬合策略函數(shù)和動作值函數(shù),分別對應圖中的6個網(wǎng)絡,即Actor估計網(wǎng)絡πω、Actor目標網(wǎng)絡πω*、Critic估計網(wǎng)絡Qθ1、Critic估計網(wǎng)絡Qθ2、Critic目標網(wǎng)絡Qθ1*、Critic目標網(wǎng)絡Qθ2*,每個網(wǎng)絡的作用和更新規(guī)則如下:
Actor估計網(wǎng)絡πω:負責迭代更新參數(shù)ω,根據(jù)當前狀態(tài)St選擇當前最優(yōu)動作At,用于和環(huán)境進行交互產(chǎn)生下一時刻狀態(tài)St+1和立即獎勵R;
Actor目標網(wǎng)絡πω*:根據(jù)下一時刻狀態(tài)St+1選擇最優(yōu)下一動作At+1;
Critic估計網(wǎng)絡Qθ1、Qθ2:根據(jù)狀態(tài)St和Actor估計網(wǎng)絡選取的動作At計算動作值函數(shù)Q(st,at|θi),并計算出當前Q值梯度傳遞給Actor估計網(wǎng)絡指導最優(yōu)動作的選?。瑫r,還負責估計網(wǎng)絡參數(shù)θi的迭代更新,i=1,2.
Critic目標網(wǎng)絡Qθ1*、Qθ2*:根據(jù)下一時刻車輛環(huán)境動態(tài)St+1和最優(yōu)動作At+1計算目標Q值中的Q(st+1,at+1|θi*)部分,θi*為Critic目標網(wǎng)絡的網(wǎng)絡參數(shù).
Actor目標網(wǎng)絡πω*和兩個Critic目標網(wǎng)絡的參數(shù)更新采用軟更新,即每次參數(shù)更新都以微小量變化逼近估計網(wǎng)絡參數(shù),其表達式為:
(26)
式中:τ為更新系數(shù),且τ<<1,這里取0.001.
Critic估計網(wǎng)絡Qθ1、Qθ2通過最小化損失函數(shù)來進行參數(shù)的迭代更新,損失函數(shù)定義為目標Q值與估計Q值的誤差平方,表達式如下:
(27)
L(θi)=Ε[(yt-Q(st,at|θi))2]
(28)
其中y(t)為目標Q值,Q(st+1,at+1|θi*)為兩個Critic目標網(wǎng)絡的輸出,選取其中更小的來計算目標Q值,Q(st,at|θi)為兩個Critic估計網(wǎng)絡的輸出,采用自適應矩估計(Adaptive Moment Estimation,Adam)優(yōu)化算法來最小化損失函數(shù)實現(xiàn)值網(wǎng)絡參數(shù)的更新.
Actor估計網(wǎng)絡πω參數(shù)的更新需要依據(jù)Critic估計網(wǎng)絡提供的Q值梯度,其損失梯度定義為:
(29)
式中:?aQ(s,a|θi)為Critic估計網(wǎng)絡的Q值梯度,表示Actor估計網(wǎng)絡的動作選取要朝著獲得更大的Q值方向移動;?ωμ′(s|ω)為Actor估計網(wǎng)絡的梯度,表示Actor估計網(wǎng)絡參數(shù)更新要向著加大這個動作執(zhí)行概率的方向調(diào)整.
將Actor估計網(wǎng)絡的損失簡化為得到的反饋Q值越大損失越小,因此Actor估計網(wǎng)絡的損失函數(shù)定義為:
(30)
為了提高算法的魯棒性,在Actor目標網(wǎng)絡選擇出的下一動作At+1上添加基于正太分布的噪聲,同時在Actor估計網(wǎng)絡輸出的控制動作A上加上隨機噪聲ε,來保證在訓練過程中能學習到更加優(yōu)化的算法,即:
(31)
μ′(st)=μ(st|ωt)+ε
(32)
其中,ε是添加的隨機噪聲,服從截斷正太分布clip(N(0,σ),-c,c),c>0.
搭建的Actor策略網(wǎng)絡和Critic價值網(wǎng)絡均采用5層全連接層神經(jīng)網(wǎng)絡,其具體參數(shù)如表2所示:
表2 Actor策略網(wǎng)絡和Critic價值網(wǎng)絡參數(shù)
其中Actor策略網(wǎng)絡和Critic價值網(wǎng)絡的輸入層神經(jīng)元個數(shù)分別為3和4,對應系統(tǒng)狀態(tài)和控制動作.
兩個網(wǎng)絡的隱含層神經(jīng)元個數(shù)都為30,100,30,使用ReLU激活函數(shù),其輸出層的神經(jīng)元個數(shù)都為1,分別對應策略函數(shù)μ(st|ωt)的動作輸出和動作值函數(shù)Q(st,at|θi).
基于TD3算法的綜合優(yōu)化控制策略算法流程如表3所示:
表3 基于TD3算法的綜合優(yōu)化控制策略算法
本文將TD3算法應用到PHEV的能量管理控制策略問題中,進行PHEV性能的綜合優(yōu)化控制策略.在NEDC工況下對TD3算法進行訓練評估分析,相關(guān)參數(shù)如表4所示:
表4 TD3算法參數(shù)
圖8所示為回合累積回報變化曲線,其回報值越大,學習效果越好,可以看出回報值曲線震蕩變化,總體呈上升趨勢,說明智能體不斷調(diào)整策略以獲得最大的回合累積回報.
圖8 回合累積回報值
圖9、圖10所示為TD3和DP策略下的SOC變化曲線和電機功率分配曲線,可以看出兩種策略在相同工況下SOC的軌跡曲線變化和電機功率分配曲線變化都基本保持一致,說明TD3能得到DP全局最優(yōu)解的近似解.
圖9 TD3和DP控制策略的SOC曲線
圖10 TD3和DP控制策略的電機功率分配
圖11、圖12所示為在油耗和NOX排放MAP圖上發(fā)動機工作點的分布狀況,可以看出在本文策略下發(fā)動機主要工作在中等負荷區(qū)域,比較穩(wěn)定,所以發(fā)動機燃油消耗量和NOX排放量相對較低,對應發(fā)動機燃油消耗量和NOX排放量為2.477 L/100 km、0.202 8 g/km,分別達到DP控制的94.1%和89.4%.
圖11 發(fā)動機工作點在油耗MAP圖分布
圖12 發(fā)動機工作點在NOX排放MAP圖分布
表5為DP和TD3策略的效果對比,可以看出,提出的基于TD3算法的PHEV控制策略取得了很好的效果.
表5 TD3和DP控制策略仿真結(jié)果對比
本文為實現(xiàn)PHEV的油耗與排放綜合優(yōu)化的目標,提出并構(gòu)建了基于深度強化學習TD3算法的控制策略,在NEDC工況下進行離線訓練得到最優(yōu)的電機功率分配情況.仿真結(jié)果表明,策略取得了較好的節(jié)油和減排效果,其燃油消耗為 2.477 L/100 km,達到DP策略94.1%的效果,SCR催化器出口NOX的排放量為0.202 8 g/km,達到DP策略89.4%的效果,相對DP控制策略具有實時在線應用的潛力.