張家金,林歆悠
(福州大學(xué)機械工程及自動化學(xué)院,福建 福州 350108)
不當?shù)哪芰抗芾矸峙淇赡軙哟髣恿﹄姵氐氖褂贸杀?,加速電池壽命衰退,從而增加插電式混合動力汽?plug-in hybrid electric vehicle, PHEV)生命周期成本. 因此,開發(fā)針對PHEV的兼顧整車綜合油耗和電池壽命的能量管理系統(tǒng),對降低PHEV的全生命周期成本具有重要意義. 混合動力汽車的能量管理策略主要分為兩類: 基于規(guī)則的能量管理策略[1]和基于優(yōu)化的能量管理策略[2-3]. 隨著機器學(xué)習(xí)的發(fā)展,強化學(xué)習(xí)也被越來越多地應(yīng)用于能量管理策略[4-5]. Cao等[6]針對PHEV提出基于強化學(xué)習(xí)的實時能量管理策略,并且通過K-L (Kullback-Leibler)散度來確定狀態(tài)轉(zhuǎn)移矩陣的更新. 為實現(xiàn)混合動力履帶式車輛發(fā)動機和電池的能量最優(yōu)分配,Liu等[7]使用雙層控制框架制定了一個預(yù)測的、 實時的能量管理策略,上層基于馬爾科夫鏈預(yù)測HEV的功率需求,下層基于更新的概率轉(zhuǎn)移矩陣和增強學(xué)習(xí)算法實現(xiàn)實時控制.
為了降低電池老化所帶來的成本,國內(nèi)外學(xué)者將電池老化模型融入到能量管理中. Suri等[8]構(gòu)建一個關(guān)于鋰離子電池的半經(jīng)驗?zāi)P?,引入嚴重程度因子來表征電池在不同環(huán)境下的老化速率. Lin等[9]為提高燃料電池混合動力汽車的經(jīng)濟性和燃料電池耐久性,將燃料電池開路電壓衰退轉(zhuǎn)化成等效的氫氣消耗加入到目標價值函數(shù)之中,制定了等效氫氣消耗最小的反饋優(yōu)化控制策略. Du等[10]針對并聯(lián)式混合動力汽車,提出一種電池老化和溫度感知的預(yù)測能量管理策略. 該方法以模型預(yù)測控制為基礎(chǔ),在預(yù)測域內(nèi)使用極小值原理進行求解. Xie等[11]考慮電池放電深度對電池壽命的影響,提出使用極小值原理求解出不同初始電荷狀態(tài)下最優(yōu)的電池放電深度.
當前國內(nèi)外針對PHEV的能量管理策略進行了廣泛研究,但是仍然存在一些不足: 1) 實時優(yōu)化控制策略對工況的適應(yīng)性不強; 2) 上述能量管理策略中忽略了溫度對高昂的電池老化成本的影響,過高的溫度將加速單體電池的不一致性,并引發(fā)熱失控的風(fēng)險. 與其他優(yōu)化方法相比,強化學(xué)習(xí)具有較好的實時性和魯棒性. 鑒于此,本研究針對一款插電式混合動力汽車,構(gòu)建考慮電池溫度和電池壽命的基于深度強化學(xué)習(xí)的能量管理策略.
所研究的插電式混合動力汽車為同軸并聯(lián)式混合動力汽車. 整車的動力總成系統(tǒng)由發(fā)動機系統(tǒng). 主驅(qū)電機系統(tǒng)和電源等組成,發(fā)動機和電機均可獨立驅(qū)動車輛,亦可共同驅(qū)動汽車運行. 基于數(shù)學(xué)建模方法建立發(fā)動機模型、 電機模型、 電池模型和車輛縱向動力學(xué)模型.
由汽車功率平衡方程,可得:
(1)
式中:Tm和Te分別為電動機和發(fā)動機扭矩, N·m;ig和i0分別為CVT和主減速器的傳動比;η為傳動系傳動效率;v為車輛行駛速度, km·h-1;r為車輪半徑,m;m為整車質(zhì)量,kg;g為重力加速度,m·s-2;f為滾動阻力系數(shù);Cd為風(fēng)阻系數(shù);A為車輛迎風(fēng)面積,m2;δ為旋轉(zhuǎn)質(zhì)量換算系數(shù).
將LiFePO4電池應(yīng)用于PHEV上,其性能已經(jīng)被廣泛驗證[12]. 為簡化研究,假設(shè)單體電池具有高度一致性. 以等效電路作為電池模型,基于歐姆定律,電池電流可以表示為:
(2)
式中:Voc為電池輸出電壓,V;R0為電池內(nèi)阻, Ω;Pb(t)為電池輸出功率,W;nm為電動機轉(zhuǎn)速, rad·s-1;ηm為電動機傳動效率.
電池電荷狀態(tài)(state of charge, SOC)方程可以表示為:
(3)
式中:Qb為電池容量, A·h.
針對所選用的圓柱形電池,利用徑向分布熱力學(xué)模型方法進行建模[13]. 該模型假設(shè)電池的產(chǎn)熱集中于內(nèi)芯,并假設(shè)在該中心不存在熱流,而電池內(nèi)部其余部分具有的熱量集中于外殼上一點. 該模型的數(shù)學(xué)表達式為:
(4)
電池的老化來源于復(fù)雜的機理,本研究主要考慮的是車輛工作時的電池循環(huán)老化. 根據(jù)文獻[8] ,電池的老化模型可以表示為:
(5)
式中:Ea為電池活化能,J·mol-1;η為補償系數(shù);z為冪律因子;Ic為放電倍率,h-1;Rgas為氣體常數(shù),J·(mol·K)-1;α和β為擬合常數(shù);θb為電池溫度, ℃.
當電池容量損失達到20%時,其壽命到達終點. 因此,電池生命周期中可通過的總安時量可表示為:
(6)
式中:Inom為在標定條件下的電池電流,A; EOL為電池到達壽命的時間, h.
設(shè)電池的標準工作條件為:Ic, nom=2.5 C,SOCnom=0.35,θb, nom=25 ℃. EOL 為電池達到其壽命終止的時間,定義為在標稱條件下容量損失達到20%的時間. 根據(jù)電池SOC、Ic、θb, 實際電池壽命表示為:
(7)
電池實際工況是復(fù)雜的,為了量化復(fù)雜工況對電池壽命的影響,引入嚴重因子, 即:
(8)
式中:Γ為實際的安時通過量.
考慮到電池有效壽命的損失,有效安時通過量表示為:
(9)
可見,電池有效安時通過量的大小與電池壽命直接相關(guān),故可用于評價電池老化程度.
由上述分析,嚴重因子為電流、 溫度和SOC的函數(shù),根據(jù)式(5)~(8),可得嚴重因子關(guān)于SOC與放電倍率的函數(shù)關(guān)系,如圖1所示.
圖1 電池嚴重因子數(shù)值模型
強化學(xué)習(xí)是一種機器學(xué)習(xí)方法,它通過智能體與環(huán)境的交互調(diào)整其策略,通過試錯做出最優(yōu)決策,以實現(xiàn)最大的累積回報值. 環(huán)境包括行駛工況和PHEV模型,智能體由Q神經(jīng)網(wǎng)路和目標神經(jīng)網(wǎng)絡(luò)組成. Q神經(jīng)網(wǎng)絡(luò)根據(jù)當前的策略和環(huán)境提供的狀態(tài)變量計算得到當前Q值,并與目標神經(jīng)網(wǎng)絡(luò)計算得到的最大的Q值計算損失函數(shù),從而更新Q網(wǎng)絡(luò)權(quán)值,并進一步通過貪心算法選擇控制動作作用于仿真環(huán)境. 目標神經(jīng)網(wǎng)絡(luò)每隔一段時間從Q神經(jīng)網(wǎng)絡(luò)拷貝權(quán)值來更新自身網(wǎng)絡(luò).
能源管理策略目標是降低等效燃油消耗和鋰電池老化成本,避免電池過熱,可將目標函數(shù)定義為:
(10)
傳統(tǒng)Q-Learning只能處理有限狀態(tài)動作集,也就意味著當遇到連續(xù)狀態(tài)空間,或者狀態(tài)空間維數(shù)過大時,會產(chǎn)生“維數(shù)爆炸”的問題. 因此,本研究采用深度神經(jīng)網(wǎng)絡(luò)代替Q-table處理連續(xù)狀態(tài)空間問題.
強化學(xué)習(xí)的目標是根據(jù)策略選擇動作使累積的回報值最大,其中動作的價值定義為:
(11)
式中:γ∈[0, 1]為折扣因子;rt是時刻為t時的獎勵.
根據(jù)時序差分算法,最優(yōu)狀態(tài)值函數(shù)的迭代方程為:
(12)
因此,最優(yōu)策略π*可表示為:
(13)
動作值函數(shù)Q(s,a)和最優(yōu)值函數(shù)可表示為:
(14)
在Q-learning 算法中,Q值的更新規(guī)則為:
(15)
式中:α∈[0, 1]為學(xué)習(xí)率.
強化學(xué)習(xí)探索環(huán)境時所獲得的狀態(tài)前后之間具有關(guān)聯(lián)性,這種相關(guān)性打破了神經(jīng)網(wǎng)絡(luò)訓(xùn)練穩(wěn)定的獨立同分布條件. 通過采用經(jīng)驗回放將經(jīng)驗存儲到經(jīng)驗池中可以解決上述問題. 經(jīng)驗池存放的數(shù)據(jù)為(St,At,Rt,St+1)四元組.從經(jīng)驗池中隨機挑取M條數(shù)據(jù)作為學(xué)習(xí)樣本,基于Q網(wǎng)絡(luò)和目標網(wǎng)絡(luò)利用隨機梯度下降法最小化損失函數(shù),實現(xiàn)對深度Q網(wǎng)絡(luò)的訓(xùn)練進而完成對網(wǎng)絡(luò)參數(shù)的更新.
采用電池SOC、 汽車速度v、 汽車加速度acc和發(fā)動機功率Pe作為狀態(tài)變量,S={SOC,Pe,v, acc}. 動作變量離散化為Te=[0:4:140]. 為了解決2.1節(jié)所描述的問題,獎勵函數(shù)設(shè)為:
(16)
(17)
式中:vn為原始的循環(huán)工況, km·h-1; wgn為生成高斯白噪聲樣本的函數(shù);n為樣本容量; power為功率譜密度,dB·W,代表工況的變化程度.
(18)
式中: smooth為平滑數(shù)據(jù)的函數(shù);m為平滑速度的窗口寬度,代表不同的駕駛風(fēng)格.
以4個連續(xù)US06工況和2個連續(xù)WLTC工況為訓(xùn)練工況,圖2顯示了DQN在2種不同工況下的收斂過程. 在前50次迭代中,智能體由于對環(huán)境未知,不斷探索每個狀態(tài)的獎勵信息,因此累積獎勵值是波動的. 在迭代到200次后,平均累積獎勵值趨于穩(wěn)定. 之后,盡管因智能體仍在探索新動作,累積獎勵值仍有波動,但不影響智能體的穩(wěn)定性. 在US06工況和WLTC工況的基礎(chǔ)上生成4個隨機工況,如圖3所示.
圖2 DQN在不同工況下的訓(xùn)練收斂結(jié)果
圖3 由白噪聲產(chǎn)生的隨機工況
將動力電池初始SOC設(shè)為0.8,為了充分利用電池電能,將目標SOC設(shè)為0.3. 在Matlab/Simulink環(huán)境下,加載工況1~4,驗證3種策略的有效性. 以PMP和規(guī)則控制策略為對照,驗證DQN策略在單次駕駛?cè)蝿?wù)中電池溫度和電池老化的性能表現(xiàn). PHEV在工況1、 工況3不同控制策略下電池溫度和電池有效安時量的對比如圖4、 5所示,兩種工況結(jié)果類似.
以工況1為例進行說明. 圖4(a)給出3種策略下電池電芯的溫度變化曲線. 其中,CD-CS策略下電池最高溫度超過30 ℃,這使電池的溫差變化較大,增加電池的不安全性. 究其原因為在電力消耗階段,電池需提供汽車全部所需能量,導(dǎo)致電流過大. 而PMP策略的電池溫度曲線比較相似,其最高溫度分別為27.90和26.26 ℃. 圖4(b)為3種策略下電池通過的有效安時量. 其中,CD-CS策略的有效安時通過量遠高于其他兩種策略,特別是在CD階段,電池有效安時通過量迅速上升. DQN和PMP策略由于考慮了電池壽命和電池溫度的影響,因此有效安時通過量較低,分別為49.21和46.27 A·h.
圖4 工況1下的3種控制策略結(jié)果圖
圖5 工況3下的3種控制策略結(jié)果圖
為了解釋上述現(xiàn)象,圖6為PHEV在工況1和工況3不同策略下電池為25 ℃時的嚴重因子分布圖. 由圖6(a)可見,CD-CS策略電池操作點較多地分布在高放電倍率區(qū),導(dǎo)致其嚴重因子較大. 工況1為高速工況,在規(guī)則控制策略下,由于未考慮電池老化壽命,會出現(xiàn)電池大功率放電情況,其中電池有9.23%的工作點分布在放電倍率4.0 C以上的工作區(qū). 考慮電池壽命的控制策略下(PMP和RL),電池操作點分布較為相似,其中電池的放電倍率分布在4.0 C以上的占比分別為1.58%和1.83%. 工況3為綜合工況,因此RL和PMP策略下的電池工作點分布在嚴重因子1.5以下的區(qū)域. 具體見圖6(b).
圖6 電池工作點在25 ℃的嚴重因子圖分布
PHEV行駛總成本是衡量能量管理策略性能最重要的指標. 表1為4個隨機工況下不同策略PHEV運行總成本.
表1 不同策略下總成本比較
以隨機工況1為例,說明PHEV行駛總成本驗證情況. 由表1可知,CD-CS策略燃油消耗最高,PMP策略燃油消耗最少. 相較于CD-CS策略,PMP策略和RL策略的燃油消耗分別降低了16.65%和15.18%. 其中,RL策略和PMP策略在工況1下發(fā)動機操作點分布如圖7所示. RL策略下,雖然發(fā)動機部分運行點主要分布在低燃油消耗區(qū),但與PMP策略相比,仍有部分發(fā)動機操作點分布在高燃油消耗區(qū). 工況1不同策略下的油耗和SOC比較, 如圖8所示.
圖7 工況1的不同策略發(fā)動機工作點分布圖
圖8(a)為PHEV在工況1、 3種策略下SOC曲線圖. RL策略和PMP策略SOC能隨時間緩慢下降,并在里程終點接近目標SOC. 圖8(b)為3種策略下油耗曲線圖. 由圖中可知,強化學(xué)習(xí)能量管理策略與PMP策略油耗大致相同,CD-CS策略油耗在CS階段迅速上升,最終油耗遠大于其他兩種策略下的油耗.
圖8 工況1的不同策略電池SOC和油耗對比圖
由于CD-CS策略考慮電池老化影響,其老化成本遠高于另外兩種策略. 從總成本角度分析,PMP策略的總成本相較于CD-CS策略降低了10.67%. RL策略總成本相較于CD-CS策略降低了10.36%, 而與PMP策略相比,總成本只提高了2.87%.
為了最小化燃油消耗和電池老化,同時考慮電池溫度,制定融合電池壽命和電池溫度的深度強化學(xué)習(xí)能量管理策略. 通過仿真對所制定的策略進行驗證,得到如下主要結(jié)論.
1) 融合了電池老化和電池溫度的能量管理策略能夠有效抑制電池溫度的提高. 在4種隨機工況仿真結(jié)果中,環(huán)境溫度為25 ℃時,PMP和RL策略下電池最高溫度均不超過28 ℃. 而CD-CS策略的電池溫度變化較大,最大溫差達到5.92 ℃.
2) 在能量策略設(shè)計中考慮電池壽命可有效減少電池的有效安時通過量,從而降低等效電池老化成本. 基于深度強化學(xué)習(xí)的能量策略總成本相較于CD-CS策略最大可降低10.36%,并產(chǎn)生與PMP策略相近的效果.
在利用DRL對能量管理策略進行優(yōu)化時,本研究未將CVT速比融入能量管理策略中,后續(xù)考慮將CVT速比作為額外的自由度融入到能量管理策略中,以進一步提高PHEV的燃油經(jīng)濟性.