江 洪,王鵬程,李仲興
(江蘇大學 a.機械工程學院; b.汽車與交通工程學院, 江蘇 鎮(zhèn)江 202013)
懸架作為底盤系統(tǒng)的主要部件之一,對行車過程中行駛平順性與操縱穩(wěn)定性有著重要影響??諝鈶壹苡捎谄涔逃蓄l率低,變剛度等優(yōu)良特性,已經(jīng)普遍使用在大型客車、高檔轎車上[1]。高度調節(jié)功能作為空氣懸架的特色功能之一,對車輛行駛過程中的平順性、操穩(wěn)性以及通過性具有重要的意義,這使得車身高度調節(jié)成為研究熱點。國內外學者在車身高度調節(jié)系統(tǒng)非線性建模,系統(tǒng)的設計與完善等方面做了大量的工作,取得了豐富的研究成果。2008年,漢江大學的鮑衛(wèi)寧等[2]以機械式高度閥控制的空氣懸架系統(tǒng)為研究對象,建立了模塊化耦合空氣懸架模型。2010年江蘇大學徐興[3]基于微分幾何理論以及變結構控制理論,提出了三點測量的ECAS車身高度獨立變結構控制以及耦合變結構控制策略,同時以該控制策略為核心設計了ECAS客車車身高度控制系統(tǒng),取得了良好的控制效果。2011年,韓國漢陽大學Kim等[4]以小型轎車車身高度控制系統(tǒng)為研究對象,提出了一種容錯控制算法,進一步提升車身高度控制系統(tǒng)的安全性和可靠性。2017年,江蘇大學的孫曉強等[5]將模糊理論以及變結構控制理論相結合,提出模糊滑模變結構控制算法,該算法可以有效地抑制滑??刂破鞫墩竦挠绊懀岣哕嚿砀叨瓤刂破鞯倪m應性。
目前,國內外學者已經(jīng)提出了諸多提升車身高度調節(jié)系統(tǒng)的調節(jié)品質與系統(tǒng)穩(wěn)定性的方法。但是從提高車身高度調節(jié)系統(tǒng)適應性這一角度出發(fā)的研究卻很少。在傳統(tǒng)的懸架設計中,為了滿足行駛要求,常常需要保證足夠大的限位行程。利用空氣懸架高度可調的特性,輔以合適的方法,可以實現(xiàn)車身高度隨工況變化,并能自適應調節(jié)。這樣可以充分利用懸架行程,不僅能獲得良好的乘坐舒適性,而且能得到更好的空氣動力學特性以及更低的重心[6]。智能體理論與技術的發(fā)展為此項研究提供了新的研究途徑與方法。智能體理論作為人工智能和計算機科學的前沿領域,一直是國內外學者研究的熱點[7]。智能體相關理論的研究一般涉及領域廣泛,重視多學科、多領域間的橫向聯(lián)系與合作運用。針對智能體系統(tǒng)的開發(fā)通常會涉及智能體的體系結構、學習機制等問題。BDI模型[8]是由Bratman在1987年提出的,是一種被廣泛使用的慎思型智能體模型。該模型將理性主體分為信念(belief)、愿望(desire)以及意圖(intention)3個部分,能夠較為清晰地描述理性主體的邏輯思維過程。基于BDI模型的研究一般分為理論與應用兩個層面,理論層面主要研究如何使用邏輯方法對BDI模型進行形式化的描述。應用層面主要涉及智能體系統(tǒng)結構設計以及編程實現(xiàn)方法。強化學習是一種在不知道正確方案的外部指導存在的情況下基于“嘗試—評價”循環(huán)的學習行為[9]。強化學習已經(jīng)廣泛使用在交通規(guī)劃、智能機器人、無人駕駛等領域。
本文首先建立了空氣懸架7自由度模型以及空氣懸架高度調節(jié)模型,并通過試驗驗證了空氣懸架7自由度模型的準確性。在此基礎上基于BDI模型以及強化學習算法設計了目標車身高度控制智能體,并構建空氣懸架車身高度智能控制系統(tǒng)。其中,目標車身高度控制智能體通過評價指標來更新自身信念,產(chǎn)生相應的愿望,并通過學習行為來完善知識庫,最終依靠自身信念、愿望、知識做出決策確定智能體意圖,獲得目標車身高度,從而可以自適應地調節(jié)車身高度,獲得良好的綜合性能。
根據(jù)研究的需求建立了包含車身側傾、俯仰、質心位置處的垂向運動以及4個車輪垂向運動的7自由度整車模型,由式(1) (2)來描述。
(1)
(2)
式中:Mb為簧上質量;Zs為簧上質量質心的垂向位移;θ、φ分別為車身的側傾角和俯仰角;d為車輪1/2輪距;a、b分別為簧上質量質心到前后軸水平方向的距離;Ix、Iy分別為側傾轉動慣量與俯仰轉動慣量;F1、F2、F3、F4分別對應4個懸架作用于車身的懸架力;P1、P2、P3、P4、Pa分別為4個空氣彈簧實際氣壓與初始氣壓;A1、A2、A3、A4分別為4個空氣彈簧的有效面積;c1、c2、c3、c4為4個減振器的阻尼系數(shù);fd1、fd2、fd3、fd4為4個懸架動行程;Kθgf、Kθgr分別為前后橫向穩(wěn)定桿的側傾角剛度;Mt為車輪質量;Kt為車輪等效垂向剛度;Zt1、Zt2、Zt3、Zt4為4個車輪垂向位移;q1、q2、q3、q4為4個車輪受到的路面垂向激勵。
空氣懸架高度調節(jié)系統(tǒng)是一個高度復雜的非線性時滯系統(tǒng)。該系統(tǒng)主要由電磁閥、管路、儲氣罐以及空氣彈簧組成。忽略電磁閥的動態(tài)特性,電磁閥模型可以抽象地等效為一個節(jié)流小孔,通過電磁閥的質量流量與電磁閥上下游的氣壓有關。通過電磁閥的質量流量可用式(3)來描述。
(3)
式中:Ae為電磁閥的有效流通面積;pu為電磁閥上游絕對氣壓;pd為電磁閥下游絕對氣壓;Tu為電磁閥上游的氣體溫度;R為理想氣體常數(shù);k為多變指數(shù)。
空氣彈簧作為一個可變氣體質量系統(tǒng),其體積、高度會隨著車身高度調節(jié)過程實時變化??諝鈴椈傻膭討B(tài)特性可以通過式(4)來描述。
(4)
式中:TSP為空氣彈簧內的溫度;qm為流入或者流出空氣彈簧的質量流量;PSP為空氣彈簧內的氣壓;VSP為空氣彈簧的體積。
空氣彈簧體積變化近似看成容積變化率和垂直位移變化率的乘積,空氣彈簧的體積變化可以用式(5)來描述。
(5)
儲氣罐為容積不變的氣罐,由于氣體交換速度很快,可以忽略儲氣罐放氣過程中的熱交換。根據(jù)熱力學第一定律可得儲氣罐模型,由式(6)來描述。
(6)
式中:Ttk為儲氣罐內氣體溫度;Vtk為儲氣罐的容積;Ptk儲氣罐內的絕對氣壓。
車身高度調節(jié)系統(tǒng)內各部件由管路進行連接,連接管路不同位置處氣體質量流量隨時間變化的函數(shù)[10]由式(7)來描述。
(7)
式中:L為管路長度;Pdn為管路末端氣壓;Tdn為管路末端溫度;c為聲速;Rt為連接管路內壁阻力系數(shù)。
為了驗證所建立的仿真模型的準確性,搭建了如圖1所示的空氣懸架整車試驗平臺。通過MTS320四通道道路模擬機向四輪施加激勵。圖2表示通過不平衡載荷模擬汽車轉彎工況得到的車身側傾角隨側向加速度的變化規(guī)律。表1表示模擬車輛以70 km/h的車速行駛在路面不平度系數(shù)為256×10-6m3的道路上時,簧上質量各位置處的振動情況。
圖1 空氣懸架車身高度調節(jié)系統(tǒng)試驗臺架
圖2 空氣懸架側傾特性仿真與試驗結果對比
參數(shù)簧上質量加速度均方根值(m·s-2)前左前右后左后右仿真1.2901.3221.2351.312試驗1.3091.3261.2161.368誤差/%-1.45-0.311.56-4.09
由圖2和表1可以看出:試驗結果和仿真結果吻合度較高,仿真結果準確可靠,可以以此模型為基礎展開后續(xù)研究工作。
車身高度智能控制系統(tǒng)主要由目標車身高度控制智能體以及車身高度調節(jié)系統(tǒng)組成。智能體一般被認為是具有一定計算能力的軟硬件實體,能夠感知周圍的環(huán)境,可自治地運行,并通過自身動作來適應環(huán)境變化[11-12]。目標車身高度控制智能體通過傳感器感知行車環(huán)境,產(chǎn)生適應相應環(huán)境的目標車身高度,再通過車身高度調節(jié)系統(tǒng)的調節(jié),達到目標車身高度,從而提升車輛行駛過程中的綜合性能。在BDI框架下構建如圖3所示的空氣懸架車身高度智能控制系統(tǒng)。
圖3 空氣懸架車身高度智能控制系統(tǒng)
從圖3可以看出:目標車身高度控制智能體包含感知、推理、決策、學習4個智能體行為以及信念、愿望、意圖、知識4個內部狀態(tài)。目標車身高度控制智能體在行車過程中不斷通過自身行為來完善自身狀態(tài)。
信念:包含智能體獲取的環(huán)境信息與自身信息的集合。目標車身高度智能體將通過信息感知獲得的環(huán)境信息與自身信息存儲到智能體的信念庫中。知識作為經(jīng)過處理的信念,通過智能體的學習行為,將信念庫中存儲的信息轉化為智能體知識,并存儲到知識庫中。
愿望:代表智能體希望達到的狀態(tài)。目標車身高度智能體將整車狀態(tài)評價存入愿望庫中,并根據(jù)評價來確定自身愿望。
意圖:代表承諾的愿望,實現(xiàn)自身愿望的動作、方法。目標車身高度智能體以自身愿望與知識為依據(jù),通過決策行為確定目標車身高度。
信息感知:目標車身高度控制智能體通過傳感器獲取車速信息v、簧下質量加速度信息ati(i=1,2,3,4)、車身側傾角θ、簧上質量加速度信息ax、ay、az以及車身高度信息H。通過簧下質量加速度以及車速可以精確快速地辨識路面不平度[13]。車速、路面不平度與車身側向加速度作為行駛工況信息,代表車輛可以獲取的環(huán)境信息。車身側傾角、簧上質量加速度以及車身高度作為可以獲取的自身狀態(tài)信息,確定目標車身高度作為智能體可以采取的動作??紤]到行車過程中行駛工況信息難以時刻保持恒定以及學習行為建模的需要,因此要將行駛工況信息以及智能體動作進行離散化。由于遍歷一個N維空間的復雜程度將隨著N呈指數(shù)增長[14],考慮計算量以及車輛實際行駛狀況,將車速分為(0,30]、(30,60]、(60,90]、(90,120]、(120,+∞)5個等級區(qū)間。參考國標GB7031—2005《機械振動 道路路面譜測量數(shù)據(jù)報告》,將路面分為A、B、C、D以及其他路面共5個等級;將側向加速度分為(0,0.1g]、(0.1g,0.2g]、(0.2g,0.3g]、(0.3g,+∞)共4個等級區(qū)間。將智能體的動作分為15個等級:從初始平衡位置開始,每隔5 mm,向上或者向下可以調節(jié)7個車身高度等級。
推理過程:行車過程中,智能體通過指標來評價車輛目前的行駛狀態(tài)。參考國標GB/T4971—2009《汽車平順性試驗方法》,通過車身質心處簧上質量x、y、z三個方向的加權加速度均方根值來評價行駛平順性,計算公式見式(8)。
(8)
式中axw、ayw、azw表示通過頻譜分析獲得的單軸加權加速度均方根值。
采用側傾因子[15]來衡量車輛的側傾運動,計算公式為
(9)
式中:hR為車身側傾中心到地面的距離;hs車身質心到側傾中心的距離;ays車身y方向的加速度。
目標車身高度控制智能體根據(jù)綜合評價指標來判斷當前車身高度是否滿足自身愿望。綜合評價指標采用加權的方式:
J=α·aw_nor+(1-α)·Rnor
(10)
式中:aw_nor、Rnor分別為歸一化處理后的加權加速度均方根值以及側傾因子;α為加權系數(shù),α∈[0,1]。
學習過程:目標車身高度控制智能體根據(jù)信念庫中的信息,通過“嘗試—評價—再嘗試”這一循環(huán)往復的動作來進行動態(tài)學習,完善自身知識庫。由于路面激勵的存在,即使車輛行駛工況以及車身高度沒有發(fā)生變化,車輛綜合評價指標的數(shù)值也在不斷變化,因此一個工況下的最優(yōu)車身高度必須從長期意義來考慮。汽車的振動過程無法用確定函數(shù)來描述,但是具有一定的統(tǒng)計規(guī)律,可以通過統(tǒng)計概率的方法來研究。湯普森抽樣算法是一種基于貝葉斯理論的強化學習算法[16-17],在有限次嘗試的過程中不僅可以減少智能體選擇較差動作的次數(shù),而且可以高效快速地找到該工況下的最優(yōu)選擇,最重要的是該方法能實現(xiàn)智能體在線學習行為,可以克服由于建模不準確而造成學習結果不準確的問題?;跍丈闃拥哪繕塑嚿砀叨瓤刂浦悄荏w強化學習過程主要可以用圖4來描述。
如圖4所示,目標車身高度控制智能體按行駛工況,通過抽樣、篩選、執(zhí)行、更新的步驟進行學習,根據(jù)抽樣結果來預測可以獲得最大回報的動作,并通過執(zhí)行動作的實際回報來更新知識庫。在智能體學習之前,需要根據(jù)車輛行駛的實際情況來確定先驗分布。
1) 確定初始先驗分布
先驗分布影響著智能體學習速度與最終的學習結果。大量的文獻和試驗結果表明路面不平度激勵是一個各態(tài)歷經(jīng)的平穩(wěn)隨機過程[18],同時近似服從正態(tài)分布。利用仿真模型,分別在“16×10-6/m3路面不平度系數(shù)、30 km/h車速”,“16×10-6/m3路面不平度系數(shù)、70 km/h車速”,“16×10-6/m3路面不平度系數(shù)、70 km/h車速、0.2g側向加速度”和“256×10-6/m3路面不平度系數(shù)、70 km/h車速”4種工況下,計算了加權加速度均方根值和側傾因子的數(shù)值,并進行統(tǒng)計分析。統(tǒng)計分布如圖5、圖6所示,其中工況1~4與上文表述順序一致。
圖4 目標車身高度控制智能體強化學習過程
圖5 不同工況下加權加速度均方根值的統(tǒng)計分布
圖6 不同工況下側傾因子的統(tǒng)計分布
由圖5、6可以看出,在不同車速、路面以及側向加速度下,加權加速度均方根值和側傾因子均近似服從正態(tài)分布,因此學習算法的初始先驗分布選擇均值為0、方差為1的正態(tài)分布。
2) 目標高度控制智能體的學習模型
定義:N(μi,1/(ki+1))為每個離散動作i的先驗分布;xi(n)為第n次學習從第i個先驗分布N(μi,1/(ki+1))中獲取的隨機樣本;J(n)表示第n次學習所獲得的綜合評價;r(n)為第n次學習獲得的實際回報。動作選擇如式(11)所示。
i(n)=argmax(xi(n))
(11)
目標車身高度控制智能體執(zhí)行完動作后,通過綜合評價指標來表示動作回報,如式(12)所示。
(12)
通過實際回報來更新相應動作的先驗分布,如式(13)(14)所示。
(13)
ki(n+1)=ki(n)+1
(14)
決策過程:表示目標車身高度控制智能體根據(jù)知識庫以及愿望庫中信息確定目標車身高度的過程。采用后驗分布均值μ最大的動作作為智能體的輸出。
為了驗證目標車身高度控制智能體學習行為的有效性,利用車身高度智能控制系統(tǒng)仿真模型,在“256×10-6/m3路面不平度系數(shù)、60 km/h車速”的工況下進行仿真??紤]實際條件與計算精度,設置仿真步長為1 ms,進行50 000次學習。圖7是對整個學習過程中每個動作的執(zhí)行次數(shù)的統(tǒng)計。圖9 表示在不同算法構成智能體學習行為下,積累遺憾[19]隨著學習次數(shù)增長的變化情況,其中“Rt值”由式(15)計算。
(15)
式中:Rt代表累計的遺憾值;wopt代表學習過程中獲得的最大回報;wB(i)每次動作執(zhí)行所獲得的真實回報。
圖7 智能體動作選擇統(tǒng)計
從圖7中可以看出:在整個學習過程中,動作5被智能體執(zhí)行的次數(shù)最多,即動作5為該工況下的最優(yōu)動作。從圖8中可以看出:通過湯普森抽樣算法構建的智能體學習行為,在相同學習次數(shù)下,積累遺憾值更低,在提高學習效率、節(jié)省學習時間的同時可以避免車輛在學習過程中過多選擇較差動作,從而減少了車輛損傷。
圖8 目標車身高度智能體學習曲線
為了進一步確定智能體的學習結果的適用性,在同樣工況以及智能體選擇的最優(yōu)動作下進行仿真,設置仿真步長為1 ms,仿真時間3 000 s。仿真結果如圖9、10所示。
圖9 撞擊限位緩沖塊頻率圖
圖10 限位緩沖塊作用力分布圖
從圖9和圖10中可以看出:在智能體選擇的動作下,前左、前右、后左、后右懸架撞擊懸架限位緩沖塊的概率均小于0.1%,簧上質量受到的限位緩沖塊的作用力主要集中在0~650 N的范圍。在該工況下,目標車身高度控制智能體通過學習行為所確定的最優(yōu)動作滿足懸架動行程需求,具有一定適用性。
為了驗證車身高度智能控制系統(tǒng)的控制效果,在混合工況下進行仿真,比較傳統(tǒng)空氣懸架車輛以及裝有車身高度智能控制系統(tǒng)車輛的性能指標。圖11為所采用的混合工況下路面激勵、車速以及側向加速度隨時間的變化情況。圖12表示在圖11所示工況中,在智能系統(tǒng)控制下車身高度變化情況。圖13、14為仿真后20 s兩種車輛性能指標對比。圖15、16分別表示在混合工況內的不同工況下各性能指標的平均改善率。表2、3為整個仿真過程中,兩種車輛性能指標對比。
圖11 混合工況
圖12 混合工況下車身高度變化
圖13 加權加速度均方根值對比
圖14 側傾因子對比
圖15 不同工況下aw的平均改善率
圖16 不同工況下R的平均改善率
平順性評價指標加權加速度均方根值aw/(m·s-2)傳統(tǒng)空氣懸架車輛aw0.580 7智能系統(tǒng)控制下空氣懸架車輛aw0.583 3改善率/%0.45
表3 混合工況下操縱穩(wěn)定性性的評價指標
操穩(wěn)性評價指標側傾因子R傳統(tǒng)空氣懸架車輛R0.213 4智能系統(tǒng)控制下空氣懸架車輛R0.164 7改善率/%-22.82
根據(jù)圖13、14可知:與傳統(tǒng)空氣懸架車輛相比,在智能系統(tǒng)控制下的車輛加權加速度均方根值的改善率在-0.4%~0.6%,側傾因子的改善率在-20%~-45%。由圖15、16可知:各個工況下的加權加速度均方根值的平均改善率在-1%~2%,側傾因子的平均改善率在-10%~-50%。從表2、3可知:在整個仿真過程中,在智能系統(tǒng)控制下的車輛行駛平順性略有降低,加權加速度均方根值升高了0.45%,操縱穩(wěn)定性提升較大,側傾因子下降了22.82%。結果表明:在車身高度智能控制系統(tǒng)的控制下,可以在不惡化行駛平順性的同時提高車輛的操縱穩(wěn)定性。
基于智能體理論,結合傳統(tǒng)車身高度調節(jié)系統(tǒng)設計了車身高度智能控制系統(tǒng)。該系統(tǒng)可以通過感知行車過程中獲得的外界信息,通過在線學習完善自身知識庫,并基于知識庫以及行駛工況信息自適應地調整車身高度。
單一工況下的學習結果證明了智能體學習行為的有效性與適用性。通過不同學習算法間的仿真對比,證明了通過湯普森抽樣算法構建的智能體學習行為更加高效實用。在混合工況下進行仿真,驗證了車身高度智能控制系統(tǒng)的控制效果,與傳統(tǒng)空氣懸架車輛相比,簧載質量加權加速度均方根值上升了0.45%,側傾因子下降了22.82%。
下一步的研究將考慮車身高度與阻尼、互聯(lián)狀態(tài)的協(xié)同控制,使得空氣懸架車輛可以獲得更好的動態(tài)性能。