混合動力系統(tǒng)偏好強(qiáng)化學(xué)習(xí)能量管理策略研究

2024-07-05 14:48唐香蕉，滿興家，羅少華，邵杰

車用發(fā)動機(jī) 2024年3期

唐香蕉，滿興家，羅少華，邵杰

摘要：為實(shí)現(xiàn)混合動力系統(tǒng)在電池荷電狀態(tài)（state of charge，SOC）平衡以及動力性約束下的經(jīng)濟(jì)性提升，提出了基于偏好強(qiáng)化學(xué)習(xí)的混合動力能量管理策略，該策略將能量管理問題建模為馬爾科夫決策過程，采用深度神經(jīng)網(wǎng)絡(luò)建立輸入狀態(tài)值到最優(yōu)動作控制輸出的函數(shù)映射關(guān)系。與傳統(tǒng)的強(qiáng)化學(xué)習(xí)控制算法相比，偏好強(qiáng)化學(xué)習(xí)算法無需設(shè)定回報(bào)函數(shù)，只需對多動作進(jìn)行偏好判斷即可實(shí)現(xiàn)網(wǎng)絡(luò)訓(xùn)練收斂，克服了傳統(tǒng)強(qiáng)化學(xué)習(xí)方法中回報(bào)函數(shù)加權(quán)歸一化設(shè)計(jì)難題。通過仿真試驗(yàn)和硬件在環(huán)驗(yàn)證了所提出能量管理策略的有效性和可行性。結(jié)果表明，與傳統(tǒng)強(qiáng)化學(xué)習(xí)能量管理策略相比，該策略能夠在滿足混合動力車輛SOC平衡和動力性約束下，提升經(jīng)濟(jì)性4.6%～10.6%。

關(guān)鍵詞：混合動力汽車；能量管理；偏好強(qiáng)化學(xué)習(xí)；優(yōu)化控制；電池荷電狀態(tài)（SOC）；控制策略

DOI： 10.3969/j.issn.1001-2222.2024.03.010

中圖分類號：U469.72文獻(xiàn)標(biāo)志碼： B文章編號： 1001-２２２２（２０24）０3-００58-０8

混合動力能量管理策略通過對發(fā)動機(jī)和動力電池功率的調(diào)控及分配，可以優(yōu)化能源利用，提高系統(tǒng)的燃油經(jīng)濟(jì)性，是混合動力汽車（hybrid electric vehicle，HEV）的核心關(guān)鍵技術(shù)［1-3］。

基于規(guī)則的控制是HEV最常用的能量管理策略，該控制方法具有運(yùn)算量低、易于實(shí)現(xiàn)的優(yōu)點(diǎn)［4］。但其規(guī)則及邏輯的設(shè)計(jì)極度依賴工程經(jīng)驗(yàn)，且設(shè)計(jì)出的控制策略通常僅針對某一具體工況（如NEDC/WLTC等），缺乏對實(shí)車復(fù)雜工況的自適應(yīng)能力。另外，因?yàn)橐?guī)則控制沒有將整車能量管理轉(zhuǎn)化為規(guī)范的最優(yōu)控制問題，策略不具有最優(yōu)性。

由于HEV的能量管理問題隸屬于優(yōu)化問題范疇，近年來各種優(yōu)化算法在能量管理策略研究中得到廣泛應(yīng)用，如動態(tài)規(guī)劃算法［5］、粒子群算法［6］、遺傳算法［7］、凸優(yōu)化算法［8］等。但上述優(yōu)化方法均缺乏自學(xué)習(xí)能力，一定程度削弱了求解控制策略的最優(yōu)性和自適應(yīng)性。近年來，基于強(qiáng)化學(xué)習(xí)的方法在能量管理領(lǐng)域日益受到重視［9-11］。C.Liu等［12］運(yùn)用強(qiáng)化學(xué)習(xí)Q-Learning算法為某一插電式HEV設(shè)計(jì)了功率分配策略。T.Liu等［13］針對混合動力履帶車輛提出了一種基于深度確定性策略梯度（deep deterministic policy gradient，DDPG）強(qiáng)化學(xué)習(xí)的控制策略，并論證了策略的自適應(yīng)性、最優(yōu)性以及學(xué)習(xí)能力。但上述傳統(tǒng)強(qiáng)化學(xué)習(xí)的控制效果嚴(yán)重依賴于回報(bào)函數(shù)的設(shè)計(jì)，而回報(bào)函數(shù)的設(shè)計(jì)需要兼顧系統(tǒng)經(jīng)濟(jì)性、動力性約束以及動力電池荷電狀態(tài)（state of charge，SOC）平衡，傳統(tǒng)方法需要依賴經(jīng)驗(yàn)對不同性能函數(shù)進(jìn)行加權(quán)，一定程度增大了強(qiáng)化學(xué)習(xí)回報(bào)函數(shù)的設(shè)計(jì)難度。而近年來提出的偏好強(qiáng)化學(xué)習(xí)［14］不依賴于回報(bào)函數(shù)的設(shè)計(jì)，通過在備選動作集合中根據(jù)偏好（即控制目標(biāo)）選擇推薦動作，即可對控制參數(shù)進(jìn)行反饋調(diào)整，已經(jīng)在機(jī)器人控制［15］、金融管理［16］等領(lǐng)域取得一定成功應(yīng)用。

基于偏好強(qiáng)化學(xué)習(xí)已經(jīng)在控制領(lǐng)域表現(xiàn)出的強(qiáng)大應(yīng)用潛力，本研究提出一種基于偏好強(qiáng)化學(xué)習(xí)的混合動力系統(tǒng)能量管理策略，以需求扭矩、車速、動力電池SOC為輸入，發(fā)動機(jī)扭矩為控制輸出，通過偏好強(qiáng)化學(xué)習(xí)調(diào)整控制策略參數(shù)，建立狀態(tài)輸入到控制輸出的最優(yōu)映射，并通過與傳統(tǒng)深度強(qiáng)化學(xué)習(xí)（Q-Learning和DDPG）算法進(jìn)行對比，驗(yàn)證算法的有效性。

1混合動力車輛建模

研究對象是一款單軸并聯(lián)式混合動力客車，其混合動力系統(tǒng)如圖1所示，主要硬件組成包括發(fā)動機(jī)、離合器、電機(jī)、動力電池和變速系統(tǒng)。電機(jī)直接連接在自動離合器的輸出和變速器的輸入之間，從而實(shí)現(xiàn)了減速時的再生制動和高效的電動機(jī)輔助操作。另外，發(fā)動機(jī)可以通過自動離合器與傳動系統(tǒng)分離實(shí)現(xiàn)純電動驅(qū)動。表1列出了該車輛的部分關(guān)鍵參數(shù)。

下面從需求輸出端出發(fā)，通過向動力源輸入端倒推的方式建立整車驅(qū)動力平衡模型。根據(jù)車輛動力學(xué)，車輪的角速度ωw和車輪處的需求扭矩Tw可以表示為

ωw=vrw，（1）

Tw=rwρ2Afcdv2+frmgcosα+mgsinα+

Jtotrwdvdt。（2）

式中：v為車速；rw為車輪半徑；ρ為空氣密度；Af為迎風(fēng)面積；cd為空氣阻力系數(shù)；fr為滾動阻力系數(shù)；m為汽車整備質(zhì)量；g為重力常數(shù)；α為道路坡度；Jtot為車輛總慣性矩。

從車軸倒推至變速箱可得變速箱輸入處的角速度ωin和需求扭矩Tin：

ωin=ωwRg，（3）

Tin=Tw+Tloss（ωw，ge）R（ge）η（ge）（Tw+Tloss≥0）

Tw+Tloss（ωw，ge）R（ge）η（ge）（Tw+Tloss<0）。（4）

式中：Tloss為由摩擦引起的額外損失；R（ge）為從變速箱輸入到車輪的總傳動比；η（ge）為從變速箱輸入到車輪處的總傳輸效率。相應(yīng)的變速箱擋位ge可以通過如下?lián)Q擋進(jìn)程計(jì)算：

ge（k+1）=5ge（k）+q（k）>5

1ge（k）+q（k）<1

ge（k）+q（k）otherwise。（5）

式中：q（k）為變速箱擋位控制指令，只能取離散值1，0和-1，分別代表降擋、保持不變和升擋。

根據(jù)驅(qū)動力平衡條件，可得：

Tin=Te+Tm。（6）

式中：Te和Tm分別表示發(fā)動機(jī)和電機(jī)的扭矩。

另外，由于驅(qū)動電機(jī)的功率來自于動力電池，因此滿足如下功率平衡方程：

Pm=PbηDC/ACsgn（Pm）。（7）

式中：Pm為驅(qū)動電機(jī)的輸入功率；Pb為動力電池的輸出功率；ηDC/AC為逆變器的效率；sgn為符號函數(shù)，sgn（+）=1，sgn（-）=-1。

1.1發(fā)動機(jī)模型

發(fā)動機(jī)模型重點(diǎn)關(guān)注發(fā)動機(jī)的燃油消耗率fuel，如圖2所示，發(fā)動機(jī)燃油消耗率是發(fā)動機(jī)轉(zhuǎn)速ne和發(fā)動機(jī)扭矩Te的函數(shù)，通過在圖2中插值，可以根據(jù)發(fā)動機(jī)的轉(zhuǎn)速和扭矩來計(jì)算發(fā)動機(jī)的瞬時油耗。

1.2電機(jī)模型

本研究采用的電機(jī)模型如下［17］：

Em=RmIm+LmdImdt+Eb。（8）

式中：Em，Im分別為電機(jī)的電壓和電流；Eb，Rm，Lm分別為反電動勢、電樞電阻和電樞電感，并且

Eb=Kvnm，（9）

Tm=KTIm。（10）

式中：Kv，KT均為電機(jī)常數(shù)；nm為電機(jī)轉(zhuǎn)速；Tm為電機(jī)扭矩。

進(jìn)一步，電機(jī)的輸入功率Pm可以表示為

Pm=Tmnmη（Tm，nm），驅(qū)動狀態(tài)

TmnmηTm，nm，制動狀態(tài)。（11）

式中：η為電機(jī)效率。電機(jī)效率MAP如圖3所示，效率可由電機(jī)扭矩和轉(zhuǎn)速通過插值獲得。

1.3動力電池模型

本研究針對動力電池采用二階RC等效電路模型［18］，如圖4所示。該模型由3個模塊組成：開路電壓（open circuit voltage，OCV）模塊、內(nèi)部電阻R0模塊和RC網(wǎng)絡(luò)模塊，其中Vt為端電壓，VOCV為開路電壓，V1和V2分別表示RC網(wǎng)絡(luò)1和RC網(wǎng)絡(luò)2的電壓，I為電流（充電為正，放電為負(fù)），R0為歐姆內(nèi)阻，R1和R2為極化內(nèi)阻，C1和C2為極化電容。

根據(jù)基爾霍夫電壓和電流定律，電壓V1和V2滿足以下規(guī)則：

V·i=-ViRiCi+ICi。（12）

端電壓Vt如式（13）所示：

Vt=VOCV+R0I+V1+V2。（13）

動力電池的輸出功率可表示為

Pb=IVt。（14）

在10%～100%SOC范圍內(nèi)，以10%SOC為間隔，在間隔點(diǎn)SOC位置進(jìn)行脈沖電流放電試驗(yàn)，獲得脈沖放電電壓，從而對二階動力電池模型參數(shù)進(jìn)行標(biāo)定，標(biāo)定結(jié)果如圖5所示。

電池SOC取決于可用容量和電流，可以表示為

SOCt=SOCt0+∫tt0βIτQdt。（15）

式中：SOC（t）和SOC（t0）分別為在時間t和t0的SOC值；β為充電/放電效率；Q為最大可用容量。假設(shè)采樣時間為ΔT，通過離散化式（13）、式（14）以及式（15）得到以下結(jié)果：

V1k=exp-ΔTR1C1V1k-1+

R1Ik1-exp-ΔTR1C1，（16）

V2k=exp-ΔTR2C2V2k-1+

R2Ik1-exp-ΔTR2C2，（17）

SOCk=SOCk-1+βtQIk。（18）

式（16）至式（18）構(gòu)成了動力電池二階RC模型的數(shù)學(xué)表示，描述了動力電池的動態(tài)響應(yīng)特性。

2基于偏好強(qiáng)化學(xué)習(xí)的能量管理策略設(shè)計(jì)

偏好強(qiáng)化學(xué)習(xí)是一種先進(jìn)的強(qiáng)化學(xué)習(xí)算法，它使用人類或機(jī)器學(xué)習(xí)模型提供的偏好信息來指導(dǎo)智能體的學(xué)習(xí)過程。相比于傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法，偏好強(qiáng)化學(xué)習(xí)可以在復(fù)雜的環(huán)境下更高效地學(xué)習(xí)［19］。

偏好強(qiáng)化學(xué)習(xí)的基本組成包括（S，A，μ，δ，γ，ρ），其中S為狀態(tài)空間，A為動作空間，μ（S）為初始狀態(tài)分布，δ為馬爾科夫狀態(tài)概率轉(zhuǎn)移模型δ（s′|s，a），γ為折扣因子，ρ為偏好概率。

偏好強(qiáng)化學(xué)習(xí)的目標(biāo)是從一個偏好關(guān)系的集合中學(xué)習(xí)一個最優(yōu)策略。偏好關(guān)系可以表示為一個偏序關(guān)系，即一個優(yōu)于關(guān)系（“”），它表示一個狀態(tài)或行為比另一個狀態(tài)或行為更受歡迎。在偏好強(qiáng)化學(xué)習(xí)中，偏序關(guān)系可以表示為一個偏好函數(shù)。具體地，假設(shè)一條采樣的軌跡可以表示為

τ=s0，a0，s1，a1，…sn-1，an-1，sn。（19）

ρ（τiτj）定義為給定軌跡（τiτj）下，τiτj的概率，智能體可以接收到一個偏好集合：

ζ=ζi=τi1τi2i=1，2，…N。（20）

并且假設(shè)偏好是嚴(yán)格偏好，即有

ρτiτj=1-ρτjτi。（21）

對于強(qiáng)化學(xué)習(xí)智能體而言，目標(biāo)是在一個給定的集合ζ中找到一個策略π*，能夠最大化偏好選擇。因此τ1τ2∈ζ需要滿足的條件是：

τ1τ2Prτ1>Prπτ2。（22）

其中：

Prπτ=μs0∏τt=0πat∣stδst+1∣st，at。（23）

基于軌跡的最大化偏好問題可以描述為

τ1τ2π*=

argmaxπPrπτ1-Prπτ2。（24）

可以定義一個最小化偏好損失函數(shù)：

Lπ，τ1τ2=-Prπτ1-Prπτ2。（25）

在有多個偏好相互比較的關(guān)系下，損失函數(shù)可以表示為

Lπ，ζ=Lπ，ζ0，Lπ，ζ1，…Lπ，ζn。（26）

權(quán)重加和的方式則為

π，ζ=∑Ni=1αiLπ，ζi。（27）

本研究采用近似策略分布來獲得能夠最大化軌跡偏好的策略，策略流程如表2所示。

基于偏好強(qiáng)化學(xué)習(xí)的混合動力能量管理策略框架如圖6所示，具體施流程如下。

1）確定偏好強(qiáng)化學(xué)習(xí)的狀態(tài)空間S和動作空間A。本研究以駕駛員處獲取的需求扭矩Tw、動力系統(tǒng)狀態(tài)車速v和動力電池SOC作為強(qiáng)化學(xué)習(xí)狀態(tài)變量，構(gòu)成狀態(tài)空間S=［Tw，v，SOC］，以發(fā)動機(jī)扭矩Te作為動作變量，構(gòu)成動作空間A=Te。

2）確定偏好強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu)。本研究采用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建以系統(tǒng)狀態(tài)s為輸入、以動作變量發(fā)動機(jī)扭矩Te的概率分布為輸出的策略模型。

3）基于獎勵偏好對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。系統(tǒng)根據(jù)深度神經(jīng)網(wǎng)絡(luò)輸出的動作變量概率分布，隨機(jī)采樣獲得執(zhí)行動作，將其輸入到混合動力系統(tǒng)模型獲得下一時刻狀態(tài)參數(shù)，然后通過將采樣動作值與動態(tài)規(guī)劃（dynamic programming，DP）確定的最優(yōu)動作序列（在DP算法中以燃油經(jīng)濟(jì)性為目標(biāo)生成最優(yōu)動作序列，同時加入SOC終止值與目標(biāo)平衡SOC相等的約束，保證動力電池工作在最佳SOC區(qū)間）進(jìn)行相似度比較，生成偏好排序，最后將偏好選擇反饋給強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò)，以實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)的最優(yōu)化迭代更新。

3仿真驗(yàn)證

模型的正確性是能量管理策略開發(fā)的前提條件。為了驗(yàn)證模型的正確性，將采集的車輛實(shí)際車速作為目標(biāo)工況輸入建立的混合動力車輛模型進(jìn)行仿真，比對仿真數(shù)據(jù)和實(shí)際數(shù)據(jù)以判斷模型的準(zhǔn)確性。圖7示出了車速跟隨和動力電池電壓的仿真數(shù)據(jù)與實(shí)車數(shù)據(jù)的對比結(jié)果。由圖可知在目標(biāo)工況跟隨方面，所建立的車輛模型可以很好地跟隨實(shí)車速度，平均誤差為0.12 km/h，模型精度較高；在動力電池電壓跟隨方面，由于實(shí)車環(huán)境存在多種環(huán)境噪聲影響，且動力電池表現(xiàn)出高動態(tài)性特征，仿真數(shù)據(jù)與實(shí)車數(shù)據(jù)存在一定的誤差，但總體的變化趨勢相同，平均誤差為3.13 V。故所建模型可以作為能量管理策略開發(fā)和硬件在環(huán)試驗(yàn)的模型基礎(chǔ)。

為了驗(yàn)證所提出方法的有效性，根據(jù)圖7a所示采集的車速工況曲線對偏好強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練。為了保證策略的泛化性能，需要設(shè)定不同的SOC初始值。因?yàn)楸狙芯康幕旌蟿恿囕v在訓(xùn)練中加入了SOC終止值與目標(biāo)平衡SOC（這里取0.6）相等的約束，較少工作在較高SOC和較低SOC區(qū)間，所以選擇在0.55，0.60和0.65 3種靠近平衡SOC值的情況下進(jìn)行仿真。為了驗(yàn)證所提出能量管理策略的優(yōu)越性，將其與傳統(tǒng)強(qiáng)化學(xué)習(xí)Q-Learning和DDPG控制策略進(jìn)行對比。Q-Learning和DDPG采用和偏好強(qiáng)化學(xué)習(xí)相同的狀態(tài)空間、動作空間以及馬爾科夫狀態(tài)概率轉(zhuǎn)移模型，但需要設(shè)計(jì)回報(bào)函數(shù)。由于本研究以經(jīng)濟(jì)性為目標(biāo)，因此在Q-Learning和DDPG中采用的回報(bào)函數(shù)r為

r（st，a（t））=fuelt+φSOCt-SOCsust2。（28）

式中：SOCsust為期望維持的平衡SOC；φ為折算系數(shù)，其值通過等效能量法確定，用于將每一時刻SOC與SOCsust的偏離值折算到等效油耗，從而保證動力電池工作在最佳區(qū)間。傳統(tǒng)強(qiáng)化學(xué)習(xí)的目標(biāo)是通過最大化累計(jì)回報(bào)獲得最優(yōu)策略，即

πEMS=argmaxa（t）∈A∑N-1t=0r（s（t），a（t））Ts。（29）

式中：N為訓(xùn)練工況的總步長；Ts為采樣周期（本研究中為1 s）。

表3列出了偏好強(qiáng)化學(xué)習(xí)與傳統(tǒng)強(qiáng)化學(xué)習(xí)策略的對比結(jié)果，其中油耗Fuelc的計(jì)算方法如下：

Fuelc=∑N-1t=0fueltTs+φSOCend-SOCsust。（30）

式中：SOCend為測試工況結(jié)束時的電池SOC；折算系數(shù)φ用于將工況結(jié)束時SOC與平衡值的偏移量折算至等效油耗，使不同算法的比較更加公平。

從表3中的等效油耗Fuelc可以看出，偏好強(qiáng)化學(xué)習(xí)的燃油消耗最少，說明所提出的策略具有良好的節(jié)能效果，與另外兩種常用的強(qiáng)化學(xué)習(xí)算法相比，節(jié)能率提升4.6%～10.6%。

為了進(jìn)一步比較不同算法的差異，圖8示出了不同初始SOC下，不同算法的SOC變化曲線。由于傳統(tǒng)強(qiáng)化學(xué)習(xí)在回報(bào)函數(shù)中增加了SOC平衡約束，結(jié)束時刻的SOC與平衡值偏離較小。偏好強(qiáng)化學(xué)習(xí)通過在動態(tài)規(guī)劃算法中考慮SOC的平衡偏好，同樣可以實(shí)現(xiàn)SOC平衡性約束，并且在結(jié)束時刻偏好強(qiáng)化學(xué)習(xí)的SOC與平衡SOC值偏離更?。◤谋?可以看出，3種不同初始SOC狀態(tài)下，結(jié)束時刻偏好強(qiáng)化學(xué)習(xí)的SOC偏離目標(biāo)平衡值均為0.01，而Q-Learning和DDPG偏離值為0.02～0.03），說明了偏好強(qiáng)化學(xué)習(xí)訓(xùn)練過程的有效性。

另外，從圖8中可以看出，Q-Learning算法與另外兩種強(qiáng)化學(xué)習(xí)算法的SOC變化差異較大，這是由于Q-Learning算法需要對能量管理中的狀態(tài)量和控制量進(jìn)行離散化處理，導(dǎo)致引入了離散化精度誤差，而偏好強(qiáng)化學(xué)習(xí)和DDPG通過深度神經(jīng)網(wǎng)絡(luò)直接構(gòu)建從連續(xù)狀態(tài)量到連續(xù)控制量的非線性映射，避免了離散化誤差，因此優(yōu)化效果更好。從表3還可以看出，Q-Learning算法在3種初始SOC下的等效油耗均為最高。

為了進(jìn)一步說明控制策略的最優(yōu)性，圖9示出了DP和偏好強(qiáng)化學(xué)習(xí)兩種策略下發(fā)動機(jī)的工作點(diǎn)分布（起始SOC為60%）。從圖9可以看出，兩者的工作點(diǎn)均主要分布在燃油消耗率曲線的最優(yōu)等高線上，DP和偏好強(qiáng)化學(xué)習(xí)的平均燃油消耗率分別為221 g/（kW·h）和226 g/（kW·h）。特別地，由于DP獲得的是全局最優(yōu)解，因此DP的工作點(diǎn)均沿著最優(yōu)等高線分布，偏好強(qiáng)化學(xué)習(xí)對應(yīng)的發(fā)動機(jī)工作點(diǎn)分布主要也沿最優(yōu)等高線分布，同時也存在部分沿次優(yōu)等高線分布的情況。

4硬件在環(huán)驗(yàn)證

基于混合動力系統(tǒng)的RTLab模型以及MotoTron控制器，建立完整的硬件在環(huán)仿真平臺，如圖10所示。在該硬件在環(huán)平臺中，采用偏好強(qiáng)化學(xué)習(xí)策略作為控制策略，MotoTron控制器接受RT-LAB傳遞的需求扭矩、車速以及電池SOC信號，根據(jù)控制策略輸出最優(yōu)發(fā)動機(jī)扭矩。RT-LAB接受MotoTron控制器發(fā)送的發(fā)動機(jī)扭矩控制信號，同時輸出系統(tǒng)狀態(tài)信號。

圖11示出了硬件在環(huán)仿真工況下發(fā)動機(jī)工作點(diǎn)的分布。從圖11可以看出，絕大部分發(fā)動機(jī)工作點(diǎn)仍沿著最優(yōu)等高線方向的最佳位置分布。計(jì)算表明，該工況下的平均燃油消耗為229 g/（kW·h），略高于仿真工況下的結(jié)果。

表4對比了硬件在環(huán)試驗(yàn)中3種強(qiáng)化學(xué)習(xí)控制策略的平均燃油消耗，可以看出，偏好強(qiáng)化學(xué)習(xí)在硬件在環(huán)試驗(yàn)中仍然具有最佳的燃油經(jīng)濟(jì)性。

5結(jié)束語

面向混合動力車輛，提出了基于偏好強(qiáng)化學(xué)習(xí)的能量管理策略。該策略在保證車輛動力性及SOC平衡的約束范圍內(nèi)，以最小化燃油消耗率為目標(biāo)，獲得了混合動力系統(tǒng)的最佳控制策略。驗(yàn)證表明：在仿真工況下，相比于傳統(tǒng)的能量管理控制策略（即DDPG和Q-Learning），所提出的控制策略可以實(shí)現(xiàn)4.6%～10.6%經(jīng)濟(jì)性的提高；在硬件在環(huán)試驗(yàn)中，所提出的控制策略仍然取得了較為理想的性能表現(xiàn)。

參考文獻(xiàn)：

［1］楊亞聯(lián)，石小峰.混聯(lián)式混合動力汽車工況預(yù)測能量管理研究［J］.機(jī)械設(shè)計(jì)與制造，2020，10：276-280.

［2］嚴(yán)陳希，耿文冉，黃明宇，等.基于工況識別的混合動力汽車能量管理策略［J］.機(jī)械設(shè)計(jì)與制造，2022，3：24-29.

［3］Hu B，Li J.A deployment-efficient energy management strategy for connected hybrid electric vehicle based on offline reinforcement learning［J］.IEEE Transactions on Industrial Electronics，2021，69（9）：9644-9654.

［4］羅勇，褚清國，隋毅，等.P0+P3構(gòu)型插電式混合動力汽車能量管理策略［J］.車用發(fā)動機(jī)，2023（3）：73-81.

［5］Lee H，Song C，Kim N，et al.Comparative analysis of energy management strategies for HEV：Dynamic programming and reinforcement learning［J］.IEEE Access，2020，8：67112-67123.

［6］Chen S Y，Hung Y H，Wu C H，et al.Optimal energy management of a hybrid electric powertrain system using improved particle swarm optimization［J］.Applied Energy，2015，160：132-145.

［7］Min D，Song Z，Chen H，et al.Genetic algorithm optimized neural network based fuel cell hybrid electric vehicle energy management strategy under start-stop condition［J］.Applied Energy，2022，306：118036.

［8］Hadj-Said S，Colin G，Ketfi-Cherif A，et al.Convex Optimization for Energy Management of Parallel Hybrid Electric Vehicles［J］.Ifac Papersonline，2016，49（11）：271-276.

［9］Cao J，Xiong R.Reinforcement Learning-based Real-time Energy Management for Plug-in Hybrid Electric Vehicle with Hybrid Energy Storage System［J］.Energy Procedia，2017，142：1896-1901.

［10］Zhou J，Xue Y，Xu D，et al.Self-learning energy management strategy for hybrid electric vehicle via curiosity-inspired asynchronous deep reinforcement learning［J］.Energy，2022，242：122548.

［11］Hu D，Zhang Y.Deep Reinforcement Learning Based on Driver Experience Embedding for Energy Management Strategies in Hybrid Electric Vehicles［J］.Energy Technology：Generation，Conversion，Storage，Distribution，2022（6）：10.

［12］Liu C，Murphey Y L.Power management for plug-in hybrid electric vehicles using reinforcement learning with trip information［C］//2014 IEEE Transportation Electrification Conference and Expo.New York：IEEE Computer Society，2014.

［13］Liu T，Hu X，Li S E，et al.Reinforcement learning optimized look-ahead energy management of a parallel hybrid electric vehicle［J］.IEEE/ASME transactions on mechatronics，2017，22（4）：1497-1507.

［14］Liu Y，Datta G，Novoseller E，et al.Efficient Preference-Based Reinforcement Learning Using Learned Dynamics Models［J］.arXiv preprint arXiv：2301.04741，2023.

［15］Lee K，Smith L，Dragan A，et al.B-pref：Benchmarking preference-based reinforcement learning［J］.arXiv preprint arXiv：2111.03026，2021.

［16］Xu N，Kamra N，Liu Y.Treatment recommendation with preference-based reinforcement learning［C］//2021 IEEE international conference on big knowledge （ICBK）.New York：IEEE Computer Society，2021：1-8.

［17］孔澤慧，樊杰.基于深度強(qiáng)化學(xué)習(xí)的分布式電驅(qū)動車輛扭矩分配策略［J］.汽車技術(shù)，2022（2）：36-42.

［18］Xie Y，Wang S，F(xiàn)ernandez C，et al.Improved gray wolf particle filtering and high-fidelity second-order autoregressive equivalent modeling for intelligent state of charge prediction of lithium-ion batteries［J］.International journal of energy research，2021，45（13）：19203-19214.

［19］Zhang G，Kashima H.Learning state importance for preference-based reinforcement learning［J］.Machine Learning，2023，113：1885-1901.

Hybrid Power Energy Management Strategy Based on Preferring?Reinforcement Learning

TANG Xiangjiao1，MAN Xingjia1，LUO Shaohua2，SHAO Jie1

（1.Shanghai General Motors Wuling，Liuzhou545000，China;2.China Automotive Engineering Research Institute Co.，Ltd.，Chongqing401122，China）

Abstract： To enhance the economy of hybrid power system under SOC balance and power constraints， a hybrid power energy management strategy was proposed based on the preferring reinforcement learning. The strategy treated the energy management problem as a Markov decision process and adopted a deep neural network to learn and build the nonlinear mapping from the input states to the optimal control inputs. Compared with the traditional reinforcement learning algorithm， the preferring reinforcement learning did not require the setting of a reward function and only needed to make preference judgments on multiple actions to achieve the convergence of network training， which overcame the design difficulty of weighting normalization in reward function. The effectiveness and feasibility of the proposed energy management strategy were verified through simulation experiments and hardware-in-the-loop tests. The results show that compared with traditional reinforcement learning energy management strategies， the proposed strategy can improve the economy by 4.6% to 10.6% while maintaining the SOC balance and power constraints of hybrid power vehicle.

Key words： hybrid electric vehicle;energy management;preferring reinforcement learning;optimal control;SOC;control strategy

［編輯：姜曉博］

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

混合動力系統(tǒng)偏好強(qiáng)化學(xué)習(xí)能量管理策略研究