付主木,龔慧賢,宋書中,陶發(fā)展,孫昊琛
(河南科技大學 a.信息工程學院; b.河南省機器人與智能系統(tǒng)重點實驗室, 河南 洛陽 471023)
與傳統(tǒng)燃料電池汽車相比,配置鋰電池、超級電容等輔助儲能裝置的燃料電池混合動力汽車(fuel cell hybrid electric vehicle, FCHEV)可以更好地改善整車動態(tài)性能[1-3]。為協(xié)調(diào)優(yōu)化各能量源的功率分配,選擇合適的能量管理策略至關(guān)重要[4-5]。目前,根據(jù)實現(xiàn)原理不同,能量管理策略大致可分為基于規(guī)則[6-7]、基于優(yōu)化[8-10]和基于學習[11]3類。其中,基于規(guī)則的控制策略設計簡單,計算成本低,但預設規(guī)則常依賴專家經(jīng)驗,難以保證策略最優(yōu)[12]?;趦?yōu)化的控制策略可分為全局優(yōu)化和局部優(yōu)化。全局優(yōu)化以動態(tài)規(guī)劃為代表[13],需要提前獲取工況信息且計算時間較長,難以實時應用。局部優(yōu)化如等效消耗最小策略[14],可實現(xiàn)車輛實時控制,但只能求解當前時刻最優(yōu)解,無法確保策略全局最優(yōu)。
為在計算復雜度和計算精度之間找到權(quán)衡,近年來,將基于學習的控制方法,特別是強化學習,應用到混合動力汽車能量管理中已成為新的研究方向[15-17]。文獻[18]提出基于Q-學習的混合動力履帶車輛能量管理方法,在實時應用的同時具有更好的燃油經(jīng)濟性。但由于Q-學習以表格形式存儲每對狀態(tài)-動作值,這意味著處理的狀態(tài)和動作空間都是離散的,隨著離散化程度不斷增加,數(shù)據(jù)維數(shù)及算法復雜度急劇上升將導致“維數(shù)災難”[19]。為此,一些能量管理研究引入深度強化學習(deep reinforcement learning, DRL)方法,利用神經(jīng)網(wǎng)絡非線性逼近最優(yōu)值函數(shù)或者策略函數(shù),避免對連續(xù)狀態(tài)-動作問題離散化處理[20]。文獻[21]將可處理連續(xù)狀態(tài)空間問題的深度Q-學習方法用于混合動力公交車能量管理中,結(jié)果表明該方法在學習能力和優(yōu)化效果方面均優(yōu)于Q-學習。文獻[22]針對燃料電池混合動力汽車,提出一種基于深度Q-學習的能量管理方法,采用啟發(fā)式動作剪切方法,提升了網(wǎng)絡的學習能力。文獻[23]提出一種基于雙深度Q-網(wǎng)絡學習的插電式混合動力汽車能量管理方法,緩解了由深度Q-學習中值函數(shù)過高估計帶來的偏差過大和策略次優(yōu)問題。盡管上述基于值函數(shù)的DRL方法在車輛能量管理中取得了不錯效果,但其只能解決具有連續(xù)狀態(tài)空間的能量管理問題,所處理的動作空間仍是離散的,這將導致車輛動力系統(tǒng)運行不穩(wěn)定,影響各能量源使用壽命,從而難以獲取最優(yōu)功率分配策略[24]。
為此,本文針對FCHEV提出一種基于深度確定性策略梯度(deep deterministic policy gradient, DDPG)的能量管理策略。首先,利用基于模糊規(guī)則控制的自適應低通濾波器對功率進行解耦處理。其次,以總氫耗、燃料電池工作效率以及鋰電池荷電狀態(tài)(state of charge,SoC)維持為優(yōu)化目標,建立基于等效消耗最小策略的自適應優(yōu)化函數(shù),并將其作為Reward函數(shù)嵌入到DDPG的能量管理框架中,實現(xiàn)能量源的最優(yōu)功率分配。此外,引入動態(tài)規(guī)劃輔助網(wǎng)絡訓練,提升算法學習能力。最后,在典型工況和試驗工況下對所提策略進行仿真驗證分析。
本文研究對象為配置有燃料電池、鋰電池和超級電容三能量源的混合動力汽車。FCHEV的整車拓撲結(jié)構(gòu)框圖如圖1所示。其中燃料電池與直流(direct current, DC)母線通過單向DC/DC變換器進行連接,輸出持續(xù)穩(wěn)定功率,為車輛提供主要動力。鋰電池和超級電容分別通過雙向DC/DC變換器連接到DC母線,用于回收制動能量并補償瞬態(tài)功率,輔助燃料電池滿足車輛行駛總的功率需求。各能量源系統(tǒng)模型的詳細介紹可在文獻[16]中獲得。
圖1 三能量源燃料電池混合動力汽車的拓撲結(jié)構(gòu)
本文將車輛總功率需求在給定行駛狀態(tài)下的變化視為連續(xù)狀態(tài)馬爾可夫鏈問題,能量管理主要控制三能量源功率最優(yōu)分配,是典型的馬爾可夫決策過程,可以用DRL來求解??紤]到車輛各能量源的不同特性和較多動作空間需要處理,采用功率分層與DDPG的能量管理策略,總框圖如圖2所示。首先利用基于模糊濾波的功率分層設計將高頻功率分給超級電容,之后建立基于DDPG的能量管理框架,并在離線訓練過程中采用動態(tài)規(guī)劃輔助網(wǎng)絡訓練,獲得燃料電池和鋰電池的連續(xù)最優(yōu)功率分配策略。
圖2 功率分層與DDPG能量管理策略總框圖
表1 模糊規(guī)則
為獲得連續(xù)的功率分配策略,本文利用DDPG算法處理功率分層后的能量管理問題?;跉v史數(shù)據(jù),采用最近鄰法和最大似然估計法獲得需求功率在不同車速下的轉(zhuǎn)移概率矩陣。此外,由于本文優(yōu)化目標為最低氫消耗、最佳燃料電池效率及鋰電池SoC維持,利用等效消耗最小策略的思想構(gòu)建獎懲評價機制,并在優(yōu)化過程中考慮SoC和鋰電池荷電偏差,具體表示為:
(1)
(2)
其中:minCtotal(t)為最小瞬時總氫消耗量,由燃料電池氫消耗量CFC(t)、鋰電池等效氫耗量CBAT(t)和超級電容等效氫消耗量CUC(t)組成,L/100 km;kFC為確保燃料電池工作在高效率區(qū)間(0.6~0.7)的懲罰系數(shù);kBAT和kUC分別為根據(jù)鋰電池當前SoC即SoCBAT和超級電容當前SoC即SoCUC求得的等效因子;ΔSoCBAT為鋰電池當前SoC與參考值SoCref的偏差??紤]實車平臺上各能量源物理特性,式(2)給出了一些參數(shù)邊界約束條件。其中,SoCBAT,chg和SoCBAT,dis分別為鋰電池充放電效率;PFC(t)min和PFC(t)max分別為燃料電池在高效區(qū)間運行的最小和最大輸出功率,W。所有邊界約束均由實車試驗平臺所得。
考慮到DDPG強化學習的目標是最大化累積獎勵,因此獎勵值可表示為:
r=-[Ctotal+χ(ΔSoCBAT)2],
(3)
其中:χ為確保(ΔSoCBAT)2值盡量小的懲罰系數(shù)。此外,由于極端狀態(tài)-動作對的存在,獎勵值之間可能會產(chǎn)生巨大數(shù)量級差異。因此,采用最小-最大歸一化方法處理獎勵值,以提高算法收斂速度。
DDPG是一種基于確定性策略的優(yōu)化算法。算法的離線學習過程如下:首先將從車輛行駛過程中觀測到的狀態(tài)變量s(包括需求功率、車速、鋰電池電荷狀態(tài)、超級電容電荷狀態(tài)和超級電容輸出功率)送入DDPG策略網(wǎng)絡中,直接得到初始動作a(即鋰電池和燃料電池的功率配比),然后再利用以等效消耗最小策略思想建立的獎懲函數(shù)獲得對應的獎勵/懲罰值r,同時得到基于當前狀態(tài)下的下一時刻狀態(tài)。根據(jù)所得狀態(tài)、動作值、獎勵值以及下一時刻狀態(tài)s′,更新網(wǎng)絡參數(shù),式子如下:
(4)
?θμQ≈E[?aQ(s,aθQ)a=μ(s)·?θμμ(sθμ)],
(5)
在傳統(tǒng)DDPG訓練過程中,通常引入奧恩斯坦-烏倫貝克(Ornstein-Uhlenbeck,OU)噪聲來解決智能體探索性不足問題。但由于OU噪聲的時序相關(guān)性,通過噪聲探索得到的動作常常會出現(xiàn)邊界值,這會使獎勵值很稀疏,甚至出現(xiàn)梯度消失現(xiàn)象[25],從而導致網(wǎng)絡學習速度非常緩慢,甚至無法正常收斂。
為此,本文采用了動態(tài)規(guī)劃最優(yōu)解輔助訓練的方法。在訓練過程開始前,利用動態(tài)規(guī)劃算法求解訓練周期的全局最優(yōu)解,并獲得最優(yōu)動作序列。在最初幾輪訓練中,網(wǎng)絡不僅僅依靠噪聲探索后的動作進行訓練,還依靠最優(yōu)動作序列進行訓練。通常獎勵值是對所選動作好壞的評價,獎勵值越大代表所選動作越優(yōu),因此選用上述兩種動作中對應獎勵值最大的動作用于網(wǎng)絡訓練。同時,為了考慮策略的魯棒性,在網(wǎng)絡平均損失下降速率減緩之后,停止動態(tài)規(guī)劃的輔助訓練,僅依靠噪聲探索后的動作繼續(xù)訓練直至收斂,其中添加噪聲的幅度也隨訓練次數(shù)逐漸降低。這種利用動態(tài)規(guī)劃輔助訓練的方法可以更好地引導訓練初期平均損失的快速下降,大大縮短訓練時間,保證策略的魯棒性和最優(yōu)性。在整個離線訓練過程中,用于網(wǎng)絡訓練的動作a可以由下式選擇。
(6)
其中:ann為網(wǎng)絡輸出動作;adp為由動態(tài)規(guī)劃獲得的動作;n為當前訓練次數(shù);nset為當網(wǎng)絡平均損失下降速率減緩時的訓練步數(shù)。
為驗證基于動態(tài)規(guī)劃輔助訓練的改進DDPG在離線學習方面的優(yōu)勢,將傳統(tǒng)DDPG作為對比項,比較各自算法在網(wǎng)絡離線訓練過程中平均損失值和獎勵值變化情況,分別如圖3a和3b所示。從圖3a中可以看出:引入動態(tài)規(guī)劃輔助訓練的改進DDPG的平均損失值收斂速率更快,可以優(yōu)先實現(xiàn)算法收斂,并且最終的收斂效果更好。從圖3b中可以看到:由于不合理噪聲動作的存在,傳統(tǒng)DDPG下的獎勵值波動比較明顯,并且獎勵值上升速度較慢。引入動態(tài)規(guī)劃輔助訓練后的獎勵值更為平穩(wěn),上升速度更快,并且絕大部分值高于傳統(tǒng)DDPG的獎勵值。通常來說,在相同的約束條件下,獎勵值越高,代表所獲得策略的優(yōu)化性越好。綜上所述,引入動態(tài)規(guī)劃來輔助網(wǎng)絡離線訓練將更好地提升DDPG的收斂速度和學習能力。
(a) 平均損失值的變化結(jié)果
將所提的能量管理策略在城市測功機行駛計劃(urban dynamometer driving schedule,UDDS)、世界輕型車輛試驗程序(world light vehicle test procedure,WLTP)、高速公路燃油經(jīng)濟測試(highway fuel economy test,HWFET)3種測試工況下進行仿真,并將基于動態(tài)規(guī)劃和傳統(tǒng)DDPG策略作為對比項,驗證所提策略的優(yōu)化性。為更好地進行對比試驗,輔助能量源的初始SoC值均被設置為0.7。
圖4為所提能量管理策略在UDDS工況下的仿真結(jié)果。其中圖4a表示UDDS工況信息,整段工況時長約1 400 s。圖4b和4c分別表示所提策略下各能量源的功率分配情況和鋰電池、超級電容SoC變化結(jié)果。從圖4b和圖4c中可以看出:在基于功率分級控制結(jié)構(gòu)的基礎下,車輛因急加/減速產(chǎn)生的峰值功率主要由超級電容提供/吸收;燃料電池作為主能量源,工作在相對平穩(wěn)的功率環(huán)境下;鋰電池作為緩沖能量源,協(xié)助燃料電池滿足車輛瞬態(tài)功率需求,其SoC消耗約為8%/500 s。
圖4d~圖4f分別表示所提策略與基于動態(tài)規(guī)劃和傳統(tǒng)DDPG策略的鋰電池SoC、燃料電池效率以及氫消耗對比圖。由圖4d~4f可以看到:在UDDS工況下,所提策略的電池SoC最后下降到0.59,而基于傳統(tǒng)DDPG策略的最終SoC為0.56,這表明所提出的策略可以減少鋰電池SoC消耗,有效保護其使用壽命。與傳統(tǒng)DDPG策略相比,所提策略的燃料電池效率更高,平均效率達68%,可提升約2%。此外,可以發(fā)現(xiàn)具有全局最優(yōu)性能的動態(tài)規(guī)劃策略的SoC變化穩(wěn)定,燃料電池始終工作在高效率區(qū),并且可以實現(xiàn)最低的燃料消耗,因此這里將其作為燃料經(jīng)濟性對比的基準。與基于傳統(tǒng)DDPG策略相比,所提出策略的等效氫消耗更小,并且更接近于動態(tài)規(guī)劃策略的結(jié)果。
(a) UDDS工況信息
以上結(jié)果表明,本文策略可以在UDDS工況下實現(xiàn)FCHEV的能量管理,有效提高燃料電池效率,維持鋰電池SoC并降低氫消耗。表2為3種策略在不同循環(huán)工況下的燃料經(jīng)濟性對比,可以進一步發(fā)現(xiàn),將動態(tài)規(guī)劃策略下的等效氫耗作為基準,所提策略與其在UDDS、WLTP和HWFET工況下的燃料經(jīng)濟性差異分別達到15.15%、17.86%和18.64%。在基于傳統(tǒng)DDPG策略基礎上,燃料經(jīng)濟性分別提升了16.67%、21.43%和21.19%。這表明基于動態(tài)規(guī)劃輔助訓練的DDPG策略對各種工況都有著較好的適應性,且優(yōu)于傳統(tǒng)的DDPG策略。
表2 3種策略下的循環(huán)工況燃料經(jīng)濟性比較
為進一步驗證所提策略的實時控制性,采用配置有測功機、集控系統(tǒng)、超級電容、鋰電池以及燃料電池系統(tǒng)的試驗平臺進行臺架試驗。所采用的試驗平臺實物圖如圖5所示。平臺主要基于EV160純電動汽車,首先在集控系統(tǒng)中輸入所提策略的控制程序,然后利用集控系統(tǒng)中的剎車和油門踏板模擬真實場景中的駕駛行為對車速進行控制,測功機用來模擬車輛行駛中的地面阻力,集控系統(tǒng)會根據(jù)所輸入的程序,車輛狀態(tài)信息以及動力源部件的參數(shù)實時地顯示3能量源的功率分配情況。試驗平臺中各部件的參數(shù)如表3所示。
圖5 試驗平臺實物圖
表3 試驗平臺中各部件的參數(shù)
圖6為所提策略在試驗工況下的仿真結(jié)果。圖6a為試驗工況信息圖,全程時間約920 s。圖6b和6c分別為所提策略下各能量源的功率變化和鋰電池、超級電容SoC變化情況,可以看到:燃料電池輸出的功率相對較低且穩(wěn)定,更好地保護了其使用壽命;超級電容提供/吸收大部分峰值功率,導致其SoC變化較大,特別是在370 s左右,由于速度急劇降低,超級電池吸收大量峰值功率,從而使其SoC在短時間突然增加;鋰電池主要補償車輛行駛所需的剩余功率,其功率在可接受的范圍內(nèi)波動,并且SoC消耗約為2.9%/200 s。此外,從表2中還可以看到:與傳統(tǒng)DDPG策略相比,所提策略下鋰電池的最終SoC值更大,燃料電池的平均效率更高,并且與動態(tài)規(guī)劃之間的燃料經(jīng)濟差異性更少,這些充分表明了基于動態(tài)規(guī)劃輔助訓練的改進DDPG策略在維持鋰電池SoC,提高燃料電池效率和燃料經(jīng)濟性方面具有明顯的效果。
(a) 試驗工況信息
(1)根據(jù)FCHEV中3能量源的不同物理特性,設計基于功率分層和連續(xù)控制的DDPG能量管理策略,利用等效消耗最小策略思想建立多目標優(yōu)化函數(shù),并采用動態(tài)規(guī)劃最優(yōu)解輔助網(wǎng)絡離線訓練提升DDPG的收斂速度和學習能力。
(2)與基于傳統(tǒng)DDPG能量管理策略相比,所提策略可更好地維持鋰電池SoC,有效提高燃料電池的工作效率,并顯著降低等效氫燃料消耗,使燃料經(jīng)濟性提升19%,更接近動態(tài)規(guī)劃最優(yōu)結(jié)果。
然而, 本文僅對車輛在平直道路上的能量管理進行研究,沒有考慮車輛行駛過程中復雜的道路特征,特別是坡度信息,這將是下一步研究工作的重點。