殷國棟 朱 侗 任祖平 李廣民 金賢建
東南大學(xué)機械工程學(xué)院,南京,211189
四輪獨立驅(qū)動純電動汽車通過輪轂電機直接驅(qū)動車輪,大大增加了底盤的可利用空間,減少了差速器、變速器等機械傳動裝置,提高了傳動效率,并且可以通過對各個電機的單獨控制來實現(xiàn)各種主動控制策略,使汽車適應(yīng)不同工況下的行駛環(huán)境[1],然而耦合強、不確定參數(shù)多和隨機工作環(huán)境下的動態(tài)非線性一直以來都是車輛系統(tǒng)動力學(xué)的研究難點。國內(nèi)外眾多機構(gòu)對汽車子系統(tǒng)之間的控制進行了研究。目前常見的控制方案以分層集成控制為主,這種方式在子系統(tǒng)數(shù)目較少時相對容易實現(xiàn),但是隨著子系統(tǒng)數(shù)目的增加,各基本控制單元功能沖突干涉逐漸明顯,不僅設(shè)計難度急劇增大,而且也使得系統(tǒng)缺乏柔性,不利于系統(tǒng)的擴展,此外,傳統(tǒng)汽車底盤控制系統(tǒng)并不完全適用于新型的四輪獨立驅(qū)動純電動汽車。在汽車控制功能不斷豐富,控制目標(biāo)不斷增多,對環(huán)境動態(tài)適應(yīng)性要求不斷嚴(yán)苛的現(xiàn)實情況下,合理統(tǒng)一的電動汽車底盤綜合控制系統(tǒng)的缺乏已經(jīng)限制了汽車智能化水平的提高。
本文提出基于多Agent的智能動態(tài)綜合控制系統(tǒng)框架,將每個車輛控制子系統(tǒng)從功能上進行劃定,優(yōu)化各個子系統(tǒng)的控制目標(biāo),以此建立總體的協(xié)調(diào)決策機制,滿足車輛在不同情況下多目標(biāo)在線優(yōu)化調(diào)節(jié)的需求。
Agent個體能夠通過環(huán)境感知獲取外部環(huán)境信息,并及時作用于環(huán)境,以滿足其設(shè)計目標(biāo)的計算實體或程序,并可以通過通信模塊與其他Agent進行信息交流,具有良好的反應(yīng)性、自治性和靈活性[2]。多Agent系統(tǒng)指由多個Agent組成的系統(tǒng),是分布式人工智能的重要分支[3-4],能夠解決單個Agent由于能力或其他原因不能解決的問題,具有很高的智能性,在汽車領(lǐng)域得到了廣泛應(yīng)用[5-6]。牛禮民等[7]利用分層遞階控制結(jié)合多Agent理論的方法,解決了半主動懸架和電動助力轉(zhuǎn)向的匹配和協(xié)調(diào)控制問題。由此可見,多Agent系統(tǒng)可解決四輪獨立驅(qū)動純電動汽車強非線性、系統(tǒng)耦合等問題,加之其良好的框架拓展能力,特別適用于四輪獨立驅(qū)動純電動汽車底盤這樣具有多層次需求的系統(tǒng)。
本文提出基于多Agent的四輪獨立驅(qū)動純電動汽車底盤智能動態(tài)綜合控制系統(tǒng),其框架見圖1。系統(tǒng)分為環(huán)境層、信息融合層、協(xié)調(diào)決策層、底層控制層和執(zhí)行層。在智能協(xié)調(diào)決策控制的基礎(chǔ)之上,盡可能全面地考慮系統(tǒng)各級控制目標(biāo),通過多Agent系統(tǒng)實現(xiàn)四輪獨立驅(qū)動電動汽車的綜合控制。本文構(gòu)建的多Agent系統(tǒng)是一種以子Agent單元為基本節(jié)點的全局思維框架。這里需要說明的是,圖中環(huán)境層和信息融合層以及執(zhí)行層中四輪獨立驅(qū)動電動汽車模型因位置限制而在兩處分別表示,其實為同一模型。
圖1 控制系統(tǒng)框架示意圖Fig.1 Diagram of control system framework
Agent之間的交互和協(xié)調(diào)是多Agent系統(tǒng)解決問題的關(guān)鍵,而被控對象狀態(tài)參數(shù)的精確獲取是能夠?qū)崿F(xiàn)底盤快速有效控制的前提,也是制定Agent之間協(xié)調(diào)控制規(guī)則的重要依據(jù)[8-9]。信息融合處理主要是對四輪獨立驅(qū)動電動汽車的各類傳感器測量信號進行處理,實現(xiàn)對車輛狀態(tài)參數(shù)的估計。汽車自身參數(shù)包括整車質(zhì)量、質(zhì)心位置與橫擺轉(zhuǎn)動慣量等,環(huán)境參數(shù)主要包括路面坡度和路面附著系數(shù)等。車輛狀態(tài)估計的對象主要包括車輛的質(zhì)心側(cè)偏角、側(cè)向速度和縱向速度這類難以直接測量的變量。通過對狀態(tài)參數(shù)的估計,一方面能夠保證多Agent系統(tǒng)對某些狀態(tài)和參數(shù)的需求,另一方面,能準(zhǔn)確獲取車輛的狀態(tài)參數(shù)信息,為車輛故障診斷和檢測系統(tǒng)的實時檢測與預(yù)警提供準(zhǔn)確的信息[10]。
協(xié)調(diào)決策層是控制框架最重要的部分,包括決策推理Agent和協(xié)調(diào)控制Agent,旨在滿足不同情況下車輛底盤操縱穩(wěn)定性、行駛安全性和乘坐舒適性等多目標(biāo)在線優(yōu)化調(diào)節(jié)的需求。
1.2.1 決策推理Agent
為了使車輛適應(yīng)復(fù)雜的工況,Agent的智能性要不斷增強,這要求Agent必須具有學(xué)習(xí)能力。強化學(xué)習(xí)可使智能Agent具有在線學(xué)習(xí)的能力,通過與動態(tài)環(huán)境不斷交互進行學(xué)習(xí)來達到期望的目標(biāo)[11]?;驹頌椋喝绻鸄gent執(zhí)行某個行為策略得到環(huán)境正的獎賞,則Agent以后產(chǎn)生這個行為策略的趨勢就會加強。本文認為決策推理Agent可以采用強化學(xué)習(xí)的方法使底盤Agent進行學(xué)習(xí),實現(xiàn)Agent的性能指標(biāo)最優(yōu)。強化學(xué)習(xí)模型見圖2。
圖2 強化學(xué)習(xí)模型Fig.2 Model of reinforcement learning
強化學(xué)習(xí)問題可以采用馬爾可夫決策過程(Markov decision process,MDP)的 形 式[12]。MDP可由五元組定義:
〈S,A(s),p(s,a,s′),r(s,a),V|s,s′∈ S,a ∈ A(s)〉式中,S為全局狀態(tài)變量集,包含系統(tǒng)所有可能的狀態(tài);s′為下一時刻系統(tǒng)可能的狀態(tài);A(s)為狀態(tài)s下所有可能執(zhí)行動作的集合;p(s,a,s′)為在時刻t處于狀態(tài)s、采用動作a后在下一個時刻點t+1轉(zhuǎn)移到狀態(tài)s′的概率;r(s,a)為在時刻t處于狀態(tài)s、采用動作a后所獲得的回報;V為目標(biāo)函數(shù)。
定義狀態(tài)-動作對的估計為Q,可得方程[13]:
式中,(s,a)為t時刻的狀態(tài)-行為對;η為折扣因子。
在p和r已知的情況下,可以得到最終的Q值。而Q學(xué)習(xí)算法作為強化學(xué)習(xí)的一種,無需知道環(huán)境模型,可直接根據(jù)Agent實際經(jīng)歷的狀態(tài)進行學(xué)習(xí),只需要考慮當(dāng)前的狀態(tài)和可選擇的動作,無需知道狀態(tài)轉(zhuǎn)移函數(shù),所以本文認為決策推理Agent可以采用Q學(xué)習(xí)算法。Q學(xué)習(xí)算法行為值函數(shù)迭代公式如下[14]:
式中,α為學(xué)習(xí)因子。
1.2.2 協(xié)調(diào)控制Agent
博弈論為多Agent系統(tǒng)的協(xié)調(diào)控制提供了良好的解決方法[15-16]。與靜態(tài)博弈不同,本文底盤多Agent系統(tǒng)是在連續(xù)且動態(tài)變化的環(huán)境中工作,博弈中局中人即各控制子Agent的行為策略本質(zhì)上是控制行為。
微分博弈(對策)是一種連續(xù)時間域的動態(tài)博弈[11],是指在微分方程描述的運動系統(tǒng)中,各個Agent試圖最優(yōu)化各自的控制指標(biāo)并持續(xù)進行博弈,最終到達利益均衡狀態(tài)。本文協(xié)調(diào)控制Agent采用微分博弈的方法,對底盤控制Agent之間存在耦合和相互影響的地方,針對不同工況下車輛底盤對于操縱穩(wěn)定性、行駛安全性和乘坐舒適性的多目標(biāo)在線調(diào)節(jié)要求,進行動態(tài)協(xié)調(diào)控制。
本節(jié)對整個底盤的控制子系統(tǒng)進行功能劃定。由于輪胎復(fù)雜的非線性特征,底盤在縱向、橫向和垂向有著嚴(yán)重的耦合關(guān)系,見圖3[17]。按照不同的主要控制目標(biāo)劃分,底盤主動控制子系統(tǒng)可分為縱向控制、橫向控制、垂向控制三大類,各自主要對應(yīng)行駛安全性、操縱穩(wěn)定性和乘坐舒適性三大主要控制指標(biāo)。
本文以縱向、橫向和垂向三大控制系統(tǒng)建立控制器Agent??v向控制方面可拓展為防抱死控制Agent和驅(qū)動防滑Agent等;橫向控制方面可拓展為主動轉(zhuǎn)向Agent和直接橫擺力矩控制Agent等;垂向控制方面主要可擴展為主動懸架Agent和半主動懸架Agent[18]。以底盤能量管理為Agent,建立純電動汽車底盤能量最優(yōu)控制。
圖3 底層控制層示意圖Fig.3 Diagram of underlying control layer
如圖1所示,執(zhí)行層是系統(tǒng)框架的最底層,將車輪轉(zhuǎn)向角δ、制動力矩Tb、驅(qū)動力矩Td、懸架控制力F等信號,具體作用于電動汽車底盤各執(zhí)行機構(gòu),實現(xiàn)對車輛底盤的控制。
操縱穩(wěn)定性是汽車主動安全性能中極其重要的性能指標(biāo),對底盤控制的重要性不言而喻,一直是車輛領(lǐng)域重要的研究方向,也是本文框架橫向、縱向和垂向控制對應(yīng)的極其重要的控制指標(biāo)。直接橫擺力矩控制系統(tǒng)是應(yīng)用最廣泛的汽車主動安全控制系統(tǒng)之一,也是本文框架底層控制層中不可或缺的重要組成部分,它可以在惡劣的行車環(huán)境中提高車輛的操縱穩(wěn)定性。
本文在搭建基于多Agent的底盤智能綜合控制系統(tǒng)框架的基礎(chǔ)上,設(shè)計搭建直接橫擺力矩控制(direct yaw-moment control,DYC)Agent的控制器模型,并在MATLAB/Simulink和Carsim聯(lián)合仿真環(huán)境中進行仿真試驗。以框架底層控制層橫向控制中能夠改善車輛操縱穩(wěn)定性的DYC Agent為例,進行以子Agent為基本節(jié)點的控制單元的搭建以及控制指標(biāo)的優(yōu)化研究。
本文采用車輛線性二自由度模型作為參考模型,設(shè)計基于模糊控制的上層控制器和下層扭矩分配器。
根據(jù)上文闡述,DYC Agent主要研究車輛的操縱穩(wěn)定性,因此采用線性二自由度參考模型。
線性二自由度模型方程為
式中,m為汽車質(zhì)量;vx為汽車縱向速度;vy為汽車側(cè)向速度;Cf、Cr分別為前軸、后軸等效側(cè)偏剛度;lf、lr分別為前軸距、后軸距;Iz為車輛繞z軸轉(zhuǎn)動慣量;δ為前輪轉(zhuǎn)角;β為質(zhì)心側(cè)偏角;γ為橫擺角速度。
根據(jù)二自由度模型,車輛的理想橫擺角速度
式中,L為汽車軸距;Ks為穩(wěn)定性因數(shù)[19-20]。
為使車輛轉(zhuǎn)向瞬態(tài)響應(yīng)較為柔和,對式(3)串聯(lián)低通濾波環(huán)節(jié),車輛的期望橫擺角速度
式中,τ0為一階慣性環(huán)節(jié)時間常數(shù),一般取經(jīng)驗值0.1。
橫擺角速度上限
式中,μ為路面附著系數(shù);?為經(jīng)驗常數(shù),一般取0.15;g為重力加速度。
一般情況下,質(zhì)心側(cè)偏角都很小,為了簡化計算,本文取理想質(zhì)心側(cè)偏角為0。
根據(jù)經(jīng)驗公式,質(zhì)心側(cè)偏角的上限
上層控制器采用模糊控制的方法對附加橫擺力矩進行控制。輸入變量為橫擺角速度和質(zhì)心側(cè)偏角的偏差量eγ、eβ,輸出變量為附加橫擺力矩Mz。采用NB(負大)、NM(負中)、NS(負?。?、ZE(零)、PS(正?。?、PM(正中)、PB(正大)7個語言變量描述輸入輸出量。輸入輸出量模糊論域均為[-1,1],輸入量對應(yīng)語言變量為{NB、NS、ZE、PS、PB}5個等級;輸出量對應(yīng)語言變量為{NB、NM、NS、ZE、PS、PM、PB}7個等級。輸入輸出量隸屬度函數(shù)采用三角形函數(shù)作為基本隸屬函數(shù),邊界采用梯形函數(shù),見圖4~圖6。
本文中模糊控制規(guī)則遵循以下原則[22]:如果eγ為正,那么當(dāng)實際橫擺角速度γ和期望橫擺角速度γd都為正且 ||γ > ||γd時,產(chǎn)生與γd反向的Mz使γ減小,當(dāng)γ和γd都為負且 ||γ < ||γd時,產(chǎn)生與γd同向的Mz使γ增大;如果eγ為負,那么當(dāng)γ和γd都為正且 ||γ < ||γd時,產(chǎn)生與γd同向的Mz使γ增大,當(dāng)γ和γd都為負且 ||γ > ||γd時,產(chǎn)生與γd反向的Mz使γ減小;γ與γd相差越大,產(chǎn)生的Mz越大,同時根據(jù)質(zhì)心側(cè)偏角β的大小對Mz進行調(diào)整。具體的模糊控制規(guī)則見表1[23]。
輸入變量的實際偏差稱為物理論域。將清晰值eγ、eβ變換到模糊論域的變換系數(shù)稱之為量化因
圖4 eγ隸屬度函數(shù)Fig.4 Membership function ofeγ
圖5 eβ隸屬度函數(shù)Fig.5 Membership function ofeβ
圖6 Mz隸屬度函數(shù)Fig.6 Membership function ofMz
表1 模糊控制規(guī)則Tab.1 Fuzzy control rules
綜上所述,車輛目標(biāo)橫擺角速度應(yīng)修正為[21]子,其作用就是將輸入信號放大或縮小,使其適應(yīng)模糊論域的要求[23]。設(shè)置量化因子后,若輸入變量的物理論域發(fā)生變化時,只需要調(diào)整量化因子就可以使輸入變量依然落在原先的模糊論域里。同樣經(jīng)過模糊推理以及清晰化的變量的取值范圍是由模糊論域確定的,將其變換到物理論域的變化系數(shù)稱之為比例因子。
量化因子和比例因子對系統(tǒng)有著重要的調(diào)節(jié)作用。在控制器參數(shù)設(shè)置相同的情況下,增大量化因子意味著輸入控制器的模糊量變大,會使系統(tǒng)上升過快,產(chǎn)生振蕩和超調(diào)。減小量化因子則會使系統(tǒng)上升變慢,降低控制精度,影響系統(tǒng)的穩(wěn)態(tài)性能。比例因子相當(dāng)于控制系統(tǒng)的總放大倍數(shù),它的增大與減小也有著類似的作用,增大會加快系統(tǒng)的響應(yīng)速度,過快會使系統(tǒng)產(chǎn)生振蕩,過小則會降低系統(tǒng)的控制精度。
本文采用上述模糊控制規(guī)則對eγ和eβ進行模糊推理,然后進行清晰化,得到模糊控制器的輸出Mz。下層扭矩分配器采用各軸垂向載荷之比作為比例系數(shù)來分配附加橫擺力矩。
為驗證DYC Agent控制器搭建的效果,利用MATLAB/Simulink和Carsim聯(lián)合仿真環(huán)境對搭建的DYC Agent進行仿真試驗。仿真過程中DYC Agent通過控制輪轂電機轉(zhuǎn)矩、施加附加橫擺力矩來改善車輛的橫向操縱穩(wěn)定性。Carsim中車輛的主要參數(shù)見表2。
表2 車輛主要參數(shù)Tab.2 Main parameters of vehicle
在前輪轉(zhuǎn)向角階躍輸入工況下對搭建的DYC Agent控制算法進行仿真實驗。仿真條件設(shè)置如下:駕駛員在0.3 s內(nèi)迅速將轉(zhuǎn)向盤轉(zhuǎn)至80°后保持恒定,初始速度為80 km/h,駕駛員不踩加速踏板和制動踏板,路面附著系數(shù)μ=0.85。DYC Agent量化因子k1=50,比例因子k2=3 000,仿真結(jié)果見圖7。
由圖7a可以看出,無DYC Agent控制的車輛橫擺角速度存在明顯的超調(diào),最大值超過了0.4 rad/s,而有DYC Agent控制的車輛能夠有效地跟蹤期望的橫擺角速度,整個過程幾乎沒有超調(diào)和振蕩,0.5 s時就進入了穩(wěn)態(tài),系統(tǒng)很快趨于穩(wěn)定。由圖7b可以看出,無DYC Agent控制的車輛質(zhì)心側(cè)偏角最大值超過了0.06 rad,而有DYC Agent控制的車輛質(zhì)心側(cè)偏角始終被限制在0.027 rad以內(nèi),最大值大大減小,車輛底盤穩(wěn)定性能更好。綜上所述,采用DYC Agent控制提高了車輛在前輪轉(zhuǎn)向角階躍輸入工況下的操縱穩(wěn)定性。
圖7 前輪轉(zhuǎn)向角階躍輸入工況仿真結(jié)果Fig.7 Simulation results of front wheel steering angle step input
本文提出基于多Agent的四輪獨立驅(qū)動純電動汽車底盤智能動態(tài)綜合控制系統(tǒng)框架,將框架分為環(huán)境層、信息融合層、協(xié)調(diào)決策層、底層控制層和執(zhí)行層進行描述,分析各個層次的功能和相互關(guān)系,以此建立總體的底盤控制機制,滿足車輛在不同情況下多目標(biāo)在線優(yōu)化調(diào)節(jié)需求。搭建了底層控制層中直接橫擺力矩控制Agent,在MATLAB/Simulink和Carsim聯(lián)合仿真平臺進行仿真試驗。仿真結(jié)果表明搭建的控制器Agent能夠滿足預(yù)期的動力學(xué)控制目標(biāo),有效改善車輛的橫向操縱穩(wěn)定性能。
下一步工作將對決策推理Agent強化學(xué)習(xí)和Q學(xué)習(xí)方法、協(xié)調(diào)控制Agent微分博弈方法以及狀態(tài)參數(shù)估計方法等在完善理論基礎(chǔ)上進行仿真試驗,進一步驗證本文提出框架的正確性和可行性。