王浩聰,付主木,b,孫昊琛,陶發(fā)展,b,宋書中,b
(河南科技大學(xué) a.信息工程學(xué)院; b.河南省機(jī)器人與智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室, 河南 洛陽(yáng) 471023)
傳統(tǒng)內(nèi)燃機(jī)汽車造成的空氣污染和能源危機(jī)問(wèn)題引起人們對(duì)新能源汽車的關(guān)注,燃料電池混合動(dòng)力汽車以其零污染、低噪音、續(xù)航能力強(qiáng)等優(yōu)點(diǎn)被認(rèn)為是最具廣闊前景的新能源汽車[1-2]。能量管理對(duì)混合動(dòng)力汽車的燃料經(jīng)濟(jì)性、能量源使用壽命以及整車動(dòng)力性起著至關(guān)重要的作用[3-5]。近年來(lái),在混合動(dòng)力汽車研究領(lǐng)域中,多種能量管理系統(tǒng)被提出并應(yīng)用[6-7],在實(shí)施方法上可分為基于規(guī)則[8-10]、基于優(yōu)化和基于學(xué)習(xí)的能量管理策略[11]?;谝?guī)則的能量管理策略計(jì)算量小,魯棒性強(qiáng),但很難獲得最優(yōu)功率分配。為此,基于優(yōu)化的能量管理策略被提出[12-15],其中,全局優(yōu)化可以探索全局最優(yōu)策略,但所需計(jì)算量大,不適合處理具有實(shí)時(shí)性的問(wèn)題;局部?jī)?yōu)化具有實(shí)時(shí)性,但會(huì)受到精確車輛模型的準(zhǔn)確性或未來(lái)行駛條件預(yù)測(cè)的影響。為解決上述能量管理策略存在的問(wèn)題,基于學(xué)習(xí)的方法受到廣泛關(guān)注。其中,強(qiáng)化學(xué)習(xí)作為一種無(wú)模型方法,被相關(guān)研究證明為適用于探索燃料電池混合動(dòng)力汽車能量管理的最優(yōu)策略,具有學(xué)習(xí)能力強(qiáng)、適應(yīng)性強(qiáng)、計(jì)算資源消耗少的特點(diǎn)[16]。
在以三能量源燃料電池混合動(dòng)力汽車為對(duì)象的研究中,文獻(xiàn)[17]提出基于強(qiáng)化學(xué)習(xí)的分層能量管理策略,采用基于Q-學(xué)習(xí)與等效消耗最小策略的方法,兼顧全局優(yōu)化與局部?jī)?yōu)化,在提高計(jì)算效率的同時(shí)獲得更高的燃料經(jīng)濟(jì)性。Q-學(xué)習(xí)依賴查表矩陣存儲(chǔ)每個(gè)狀態(tài)-動(dòng)作對(duì)的Q值,然而實(shí)際應(yīng)用中通常需要連續(xù)或多維的狀態(tài)變量,這導(dǎo)致矩陣的迭代計(jì)算量急劇增加,這種由高維數(shù)據(jù)引發(fā)的“維數(shù)災(zāi)難”成為Q-學(xué)習(xí)在復(fù)雜混合動(dòng)力汽車能量管理優(yōu)化中亟待解決的問(wèn)題[18]。
針對(duì)上述問(wèn)題,相關(guān)研究人員將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與強(qiáng)化學(xué)習(xí)相結(jié)合,利用其強(qiáng)大的非線性逼近能力來(lái)擬合Q值,解決了高位數(shù)據(jù)帶來(lái)的嚴(yán)重計(jì)算負(fù)擔(dān)[19-20],然而深度強(qiáng)化學(xué)習(xí)在訓(xùn)練過(guò)程中的收斂性與學(xué)習(xí)效率通常難以保證。因此,本文提出一種基于功率分層與改進(jìn)深度Q學(xué)習(xí)的能量管理方法,針對(duì)車輛急加減速時(shí)的峰值功率,首先采用基于模糊控制的自適應(yīng)低通濾波器將峰值功率分離,并由超級(jí)電容提供或吸收;其次,設(shè)計(jì)基于深度Q學(xué)習(xí)的下層能量管理策略,采用等效消耗最小策略設(shè)計(jì)優(yōu)化目標(biāo)函數(shù),為解決深度Q學(xué)習(xí)收斂性差的問(wèn)題,引入基于求和樹(shù)結(jié)構(gòu)的優(yōu)先經(jīng)驗(yàn)回放法,提高對(duì)經(jīng)驗(yàn)樣本的學(xué)習(xí)效率;最后,進(jìn)行仿真與試驗(yàn)驗(yàn)證。
在本次燃料電池混合動(dòng)力汽車試驗(yàn)平臺(tái)中,燃料電池作為主要能量源,用于承擔(dān)車輛的主要功率負(fù)載,超級(jí)電容與鋰電池作為功率支持裝置與儲(chǔ)能裝置,用于補(bǔ)償瞬態(tài)輸出功率并恢復(fù)制動(dòng)能量,提升車輛的整體動(dòng)力性,能量管理系統(tǒng)的拓?fù)浣Y(jié)構(gòu)如圖1所示。
圖1 三能量源燃料電池混合動(dòng)力汽車的拓?fù)浣Y(jié)構(gòu)
燃料電池與直流母線通過(guò)單向直流/直流(direct current/direct current,DC/DC)變換器相連,保證燃料電池工作在高效率范圍內(nèi),超級(jí)電容與鋰電池經(jīng)過(guò)雙向DC/DC變換器與直流母線連接,輔助燃料電池為車輛提供需求功率。母線與DC/交流(alternating current,AC)逆變器連接,為電機(jī)提供所需功率。
對(duì)燃料電池混合動(dòng)力汽車能量管理策略的優(yōu)化可以被視為對(duì)馬爾科夫決策過(guò)程的求解,深度強(qiáng)化學(xué)習(xí)作為一種適于求解馬爾科夫問(wèn)題的無(wú)模型方法,通過(guò)探索與試錯(cuò)的方式來(lái)最大化累積報(bào)酬,從而搜尋在所有潛在狀態(tài)下的最優(yōu)動(dòng)作。在完成離線優(yōu)化后,生成最優(yōu)策略集,可依據(jù)當(dāng)前車輛狀態(tài)的輸入獲得能量管理策略的輸出。
質(zhì)子交換膜燃料電池具有高能量密度的優(yōu)點(diǎn),但功率密度較低,更適合工作在相對(duì)穩(wěn)定的輸出條件下。為減少瞬時(shí)峰值功率的頻率,延長(zhǎng)燃料電池的使用壽命,提高其動(dòng)態(tài)性能,本文采用功率分層結(jié)構(gòu)分離車輛峰值功率,由具有高功率密度特性的超級(jí)電容來(lái)提供。
表1 模糊規(guī)則
利用基于模糊控制的自適應(yīng)低通濾波器對(duì)燃料電池混合動(dòng)力汽車所需功率進(jìn)行分層處理,模糊推理系統(tǒng)的輸入為車輛當(dāng)前的需求功率Pdemand,以及綜合電荷狀態(tài)(state of charge, SoC)系數(shù)SoCESS[17]。模糊規(guī)則如表1所示,其中,fs為調(diào)節(jié)頻率,通過(guò)模糊推理系統(tǒng)所得,N, P, S, M, B, Z分別代表(負(fù),正,小,中,大,零)。
本文采用深度Q學(xué)習(xí)算法優(yōu)化功率分層后的能量管理策略,在訓(xùn)練階段采用數(shù)據(jù)驅(qū)動(dòng)的方法對(duì)能量管理策略進(jìn)行訓(xùn)練。車輛狀態(tài)的數(shù)據(jù)通過(guò)汽車電控試驗(yàn)平臺(tái)進(jìn)行采集,并通過(guò)馬爾可夫鏈將需求功率建模為具有已知概率密度函數(shù)的隨機(jī)變量,采用最近鄰法和最大似然估計(jì)法計(jì)算轉(zhuǎn)移概率,根據(jù)當(dāng)前時(shí)刻的功率和下一時(shí)刻的功率來(lái)構(gòu)造需求功率的轉(zhuǎn)移概率矩陣,轉(zhuǎn)移概率由以下公式得出:
(1)
為了避免多目標(biāo)優(yōu)化帶來(lái)的復(fù)雜計(jì)算問(wèn)題,提出了一種基于等效消耗最小策略的獎(jiǎng)勵(lì)評(píng)價(jià)機(jī)制,以等效氫耗最小為優(yōu)化目標(biāo)構(gòu)建獎(jiǎng)勵(lì)函數(shù),等效消耗最小策略將鋰電池和超級(jí)電容的瞬時(shí)電量消耗等效為燃料電池的化學(xué)能耗,具體表示如下[21]:
minCtotal(t)=kFCCFC(t)+kBATCBAT(t)+kUCCUC(t),
(2)
其中:minCtotal(t)為總瞬時(shí)最小氫消耗量,包括燃料電池的直接氫消耗量CFC(t)、鋰電池的等效氫消耗量CBAT(t)和超級(jí)電容的等效氫消耗量CUC(t);kFC為使燃料電池以高效率水平運(yùn)行的燃料電池效率懲罰系數(shù);kBAT和kUC是根據(jù)鋰電池和超級(jí)電容SoC計(jì)算的等效因子。考慮實(shí)際能量源的參數(shù),等效消耗最小策略的具體約束如下[17]:
SoC與功率的約束:
(3)
其中:SoCref為鋰電池的參考SoC;SoCBAT.ch與SoCBAT.disch為鋰電池的充放電效率;PFC.min與PFC.max為燃料電池的最小與最大輸出功率;-PBAT與PBAT為鋰電池輸出功率范圍,所有約束邊界均由燃料電池混合動(dòng)力汽車試驗(yàn)平臺(tái)所得[17]。
在以燃料電池混合動(dòng)力汽車的燃料經(jīng)濟(jì)性與鋰電池使用壽命為共同優(yōu)化目標(biāo)的前提下,所提出深度Q學(xué)習(xí)算法的獎(jiǎng)勵(lì)值r通過(guò)以下公式計(jì)算:
r=Ctotal(t)+κ×(ΔSoC)2,
(4)
其中:Ctotal(t)為瞬時(shí)的氫消耗量;ΔSoC為當(dāng)前鋰電池SoC與基準(zhǔn)SoC的偏差;κ為調(diào)整系數(shù),目的是使Ctotal(t)與(ΔSoC)2處于同一量級(jí)。
深度Q學(xué)習(xí)是一種離線訓(xùn)練-在線決策的算法,所提出能量管理策略的離線訓(xùn)練過(guò)程如下。
通過(guò)在所有潛在的車輛狀態(tài)s下(包括:需求功率Pdemand,車速,鋰電池與超級(jí)電容SoC,超級(jí)電容輸出功率)利用貪婪策略ε-greedy選取動(dòng)作(即能量源的功率分配),再以等效消耗最小策略為主體的獎(jiǎng)懲機(jī)制中獲得相應(yīng)狀態(tài)-動(dòng)作下的獎(jiǎng)勵(lì)值r,并采用概率轉(zhuǎn)移矩陣預(yù)測(cè)下一狀態(tài)。
深度Q學(xué)習(xí)中Q值的更新方式如下:
Q(st,a;θ)←Q(st,a;θ)+α[TargetQt-Q(st,a;θ)];
(5)
(6)
L(θ)=E[(TargetQt-Q(st,a;θ))2],
(7)
其中:θ為深度Q學(xué)習(xí)的網(wǎng)絡(luò)參數(shù),Q(st,a;θ)為通過(guò)神經(jīng)網(wǎng)絡(luò)逼近的當(dāng)前Q值;TargetQt為目標(biāo)網(wǎng)絡(luò)的Q值;α為學(xué)習(xí)率;γ∈[0,1]為折扣因子;估計(jì)網(wǎng)絡(luò)的結(jié)構(gòu)與目標(biāo)網(wǎng)絡(luò)的結(jié)構(gòu)相同,且初始化權(quán)重相同,L(θ)為均方誤差函數(shù)。在完成離線訓(xùn)練后,生成決策集,可實(shí)現(xiàn)對(duì)燃料電池混合動(dòng)力汽車的實(shí)時(shí)能量管理。
針對(duì)深度Q學(xué)習(xí)中傳統(tǒng)經(jīng)驗(yàn)回放方法存在抽樣隨機(jī)性較大、學(xué)習(xí)效率低、大部分樣本獎(jiǎng)勵(lì)值為0的缺點(diǎn),采用了一種更有效的經(jīng)驗(yàn)提取方法,通過(guò)引入求和樹(shù)結(jié)構(gòu)的優(yōu)先經(jīng)驗(yàn)回放機(jī)制,將每個(gè)經(jīng)驗(yàn)的優(yōu)先級(jí)值視為一個(gè)葉節(jié)點(diǎn),兩個(gè)節(jié)點(diǎn)作為一個(gè)組,向上疊加,樹(shù)根的值是所有經(jīng)驗(yàn)的優(yōu)先級(jí)值之和。采樣時(shí),首先劃分批次大小區(qū)間,從每個(gè)區(qū)間中隨機(jī)采樣,然后逐節(jié)點(diǎn)搜索采樣的經(jīng)驗(yàn)值,確定最終采樣數(shù)據(jù)。這種采樣方法可以在無(wú)需遍歷經(jīng)驗(yàn)池的情況下提取優(yōu)先級(jí)高的樣本,減少計(jì)算資源的消耗,提高模型的訓(xùn)練速度。經(jīng)驗(yàn)樣本(st,a,r,st+1)的優(yōu)先級(jí)值由TD-error來(lái)表示,TD-error與經(jīng)驗(yàn)樣本提取概率pi由以下公式計(jì)算得出:
(8)
(9)
當(dāng)|TD-error|較大時(shí),意味著當(dāng)前Q函數(shù)距離目標(biāo)Q函數(shù)較遠(yuǎn),應(yīng)進(jìn)行更多更新。同時(shí)采用概率的方式提取經(jīng)驗(yàn),確保即使TD-error為0的經(jīng)驗(yàn)也能被提取,避免網(wǎng)絡(luò)出現(xiàn)過(guò)擬合現(xiàn)象。
引入優(yōu)先經(jīng)驗(yàn)回放后,改進(jìn)深度Q學(xué)習(xí)的離線優(yōu)化過(guò)程如下:首先,對(duì)經(jīng)驗(yàn)池容量、估計(jì)網(wǎng)絡(luò)Q和目標(biāo)網(wǎng)絡(luò)QTarget的權(quán)重θ進(jìn)行初始化;在迭代訓(xùn)練時(shí),通過(guò)貪婪策略進(jìn)行動(dòng)作選擇,并計(jì)算TD-error來(lái)更新估計(jì)網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)的權(quán)重;對(duì)于歷史樣本數(shù)據(jù),采用基于求和樹(shù)的方式處理,優(yōu)先采樣高概率的樣本。
圖2 Q值變化趨勢(shì)對(duì)比
本節(jié)中,將基于優(yōu)先經(jīng)驗(yàn)回放深度Q學(xué)習(xí)與傳統(tǒng)深度Q學(xué)習(xí)進(jìn)行比較,通過(guò)在Q值變化趨勢(shì)上的對(duì)比,表明所提出能量管理策略在離線優(yōu)化過(guò)程中的優(yōu)勢(shì)。圖2為兩種算法下Q值的變化趨勢(shì)對(duì)比圖。由圖2可以看出:在相同的訓(xùn)練步數(shù)下,傳統(tǒng)深度Q學(xué)習(xí)算法下Q值的初始訓(xùn)練點(diǎn)較高,且收斂速率較為緩慢,引入優(yōu)先經(jīng)驗(yàn)回放機(jī)制后Q值的初始訓(xùn)練點(diǎn)降低,且收斂程度出現(xiàn)顯著提高,經(jīng)過(guò)10×104次迭代后趨近理想結(jié)果。這表明引入優(yōu)先經(jīng)驗(yàn)回放機(jī)制將提升深度Q學(xué)習(xí)的收斂性。
在本節(jié)當(dāng)中,所提出的能量管理策略在世界輕型車輛試驗(yàn)程序(world light vehicle test procedure,WLTP)、城市測(cè)功機(jī)行駛計(jì)劃(urban dynamometer driving schedule,UDDS)、新標(biāo)歐洲循環(huán)測(cè)試 (new European driving cycle,NEDC)、西弗吉尼亞郊區(qū)循環(huán)工況(West Virginia university suburban cycle,WVUSUB)4類典型工況下進(jìn)行仿真,并與傳統(tǒng)深度Q學(xué)習(xí)進(jìn)行對(duì)比以驗(yàn)證其有效性。在仿真中,鋰電池和超級(jí)電容的初始值SoC被設(shè)計(jì)為0.7。
圖3為WLTP能量管理策略下燃料電池、鋰電池和超級(jí)電容的輸出功率,以及鋰電池和超級(jí)電容的SoC變化趨勢(shì)。圖3a是WLTP工況的速度變化圖,整段工況約1 800 s。圖3b為功率分配圖,從圖3b中可以看出:燃料電池工作于相對(duì)平穩(wěn)的輸出環(huán)境下,輸出功率隨著車速的提升而逐漸增加。當(dāng)車輛的需求功率因急加減速而出現(xiàn)劇烈波動(dòng)時(shí),由超級(jí)電容主要承擔(dān)或吸收這部分峰值功率,鋰電池作為燃料電池與超級(jí)電容之間的緩沖能量源,其功率波動(dòng)在可接受范圍內(nèi)。從圖3c可以看出:每600 s鋰電池的電量消耗約為5%。圖3d為所提出能量管理策略與基于傳統(tǒng)深度Q學(xué)習(xí)策略的燃料電池輸出功率對(duì)比圖,從圖3d中可以看出:所提出策略可有效提升燃料電池的工作效率。
圖4 UDDS工況下的鋰電池SoC比較
此外,為驗(yàn)證所提出能量管理策略在延長(zhǎng)鋰電池使用壽命上的有效性,本文以基于傳統(tǒng)深度Q學(xué)習(xí)的策略為對(duì)比。仿真結(jié)果如圖4所示。在UDDS循環(huán)工況中,本文所提出能量管理策略的SoC變化更為穩(wěn)定,在初始SoC為0.7時(shí),最終SoC下降到0.26,平均電量消耗為每600 s消耗6.4%,而基于傳統(tǒng)深度Q學(xué)習(xí)的策略最終SoC為0.16,平均電量消耗為每600 s消耗7.8%,所提出策略減少了電量消耗,有效延長(zhǎng)了鋰電池的使用壽命。
上述仿真結(jié)果充分表明,所提出的能量管理策略能夠?qū)崿F(xiàn)燃料電池混合動(dòng)力汽車的能量管理,提高燃料電池工作效率,減少鋰電池電量消耗。本文將傳統(tǒng)深度Q學(xué)習(xí)策略作為對(duì)比方法,通過(guò)比較不同循環(huán)工況下的等效氫消耗,證明所提出方法在燃料經(jīng)濟(jì)性方面的提升。
表2 燃料經(jīng)濟(jì)性比較
燃料經(jīng)濟(jì)性比較見(jiàn)表2。由表2可知:在WLTP工況條件下,本文所提出能量管理策略在燃料經(jīng)濟(jì)性上與基于深度Q學(xué)習(xí)方法相比提升3.6%,在UDDS、NEDC和WVUSUB這3種典型工況下平均提升5.1%,在NEDC工況下的提升最為明顯,達(dá)到8.3%,表明本文的策略對(duì)各種工況條件都具有較好的適應(yīng)性且優(yōu)于傳統(tǒng)深度Q學(xué)習(xí)的策略。
為了進(jìn)一步證明本文能量管理策略的實(shí)用性和實(shí)時(shí)控制性能,本次研究采用以工控機(jī)、三相交流電機(jī)、燃料電池、鋰電池、超級(jí)電容、測(cè)功機(jī)等構(gòu)成的試驗(yàn)平臺(tái)進(jìn)行臺(tái)架試驗(yàn)。在基于LabVIEW的開(kāi)發(fā)環(huán)境下,本文的能量管理策略設(shè)置在集控系統(tǒng)上。本次試驗(yàn)平臺(tái)使用測(cè)功機(jī)模擬路面阻力,忽略空氣阻力,通過(guò)油門和剎車踏板對(duì)車速進(jìn)行控制。
圖5 試驗(yàn)工況的車速
圖5為試驗(yàn)工況的車速。圖6為3種能量源功率分配及SoC變化圖。圖6a為燃料電池、鋰電池與超級(jí)電容的功率分配,由圖6a可以看出:在所提出策略的指導(dǎo)下,燃料電池混合動(dòng)力汽車大部分峰值功率由超級(jí)電容提供,燃料電池的輸出平穩(wěn),且長(zhǎng)時(shí)間工作于高效區(qū)間。而鋰電池功率波動(dòng)較超級(jí)電容相對(duì)平穩(wěn),負(fù)責(zé)補(bǔ)償車輛剩余需求功率。圖6b為所提出策略下鋰電池與超級(jí)電容的SoC變化,其中,超級(jí)電容因提供或吸收峰值功率的緣故,導(dǎo)致SoC波動(dòng)較大,而鋰電池的SoC呈緩慢下降趨勢(shì),其電量消耗為每600 s消耗8.4%。
(a) 功率分配 (b) 鋰電池與超級(jí)電容SoC變化
(1)考慮到燃料電池、鋰電池及超級(jí)電容3種能量源各自工作特性的不同,設(shè)計(jì)基于功率分層與深度Q學(xué)習(xí)方法的能量管理策略,以等效消耗最小策略為基礎(chǔ)構(gòu)建多目標(biāo)優(yōu)化函數(shù),并引入基于求和樹(shù)結(jié)構(gòu)的優(yōu)先經(jīng)驗(yàn)回放機(jī)制用于提升深度Q學(xué)習(xí)的離線學(xué)習(xí)效率與收斂性。
(2)與基于傳統(tǒng)深度Q學(xué)習(xí)的能量管理策略相比,所提出的能量管理策略可提高燃料電池混合動(dòng)力汽車的整車動(dòng)力性,并有效延長(zhǎng)鋰電池使用壽命,使燃料經(jīng)濟(jì)性平均提升5.1%。
然而,本文設(shè)計(jì)的能量管理策略旨在滿足車輛動(dòng)態(tài)性能要求和提升燃料經(jīng)濟(jì)性的前提下,對(duì)3種能量源進(jìn)行功率分配優(yōu)化,但對(duì)能量源退化問(wèn)題沒(méi)有深入研究,這將是下一步工作的重點(diǎn)。