張 淼 張 琦 劉文韜 周博淵
(1.中國鐵道科學(xué)研究院集團(tuán)有限公司 研究生部,北京 100081;
2.中國鐵道科學(xué)研究院集團(tuán)有限公司 通信信號(hào)研究所,北京 100081;3.國家鐵路智能運(yùn)輸系統(tǒng)工程技術(shù)研究中心,北京 100081;4.北京交通大學(xué) 軌道交通控制與安全國家重點(diǎn)實(shí)驗(yàn)室,北京 100044)
盡管城市軌道交通被稱為“綠色交通”方式,具有快速、便捷、運(yùn)量大等特點(diǎn),但大規(guī)模及高密度的運(yùn)營使得城軌系統(tǒng)的能耗急劇增長。其中取決于列車站間控制策略的牽引能耗約占系統(tǒng)總能耗的50%。因此為減小系統(tǒng)能耗、削減運(yùn)營成本,列車節(jié)能運(yùn)行成為近年來的研究熱點(diǎn)。
為減小列車的牽引能耗,國內(nèi)外諸多學(xué)者對列車控制策略的優(yōu)化方法進(jìn)行了大量研究。其中龐德里亞金極大值原理在早期的研究中得到了廣泛應(yīng)用。Asnis等[1]分析了列車最優(yōu)控制問題,得到了最優(yōu)速度曲線的必要條件。徐凱等[2]針對城軌列車控制系統(tǒng)運(yùn)行模式曲線的設(shè)計(jì)需求,在滿足安全、精確停車及各種約束條件下,以運(yùn)行時(shí)間和能耗為目標(biāo),建立列車運(yùn)行的多目標(biāo)優(yōu)化模型,并將粒子群優(yōu)化PSO算法與布谷鳥搜索CS相結(jié)合,即多種群分層PSO-CS聯(lián)合優(yōu)化算法。Albrecht等[3]考慮了信號(hào)顯示對列車運(yùn)行的安全約束,利用經(jīng)典的有約束優(yōu)化方法,研究了在非水平軌道上同向而行的兩列車在滿足運(yùn)行時(shí)分條件下的列車節(jié)能駕駛問題,得到了最小化總牽引能耗的必要條件,證明了每列車的最佳駕駛策略由每個(gè)區(qū)段上的最佳駕駛速度唯一確定??紤]到變化的坡度和限速條件,Khmelnitsky[4]利用極大值原理分析了最優(yōu)解的解析性質(zhì),并提出了一個(gè)數(shù)值算法求解列車節(jié)能速度曲線。Liu等[5]應(yīng)用極大值原理來求解節(jié)能駕駛策略,并給出最優(yōu)工況序列和切換點(diǎn)的解析解。除此之外,Albrecht等[6-7]研究了列車在陡坡線路條件下運(yùn)行的節(jié)能駕駛策略,得到了最佳切換點(diǎn)的必要條件,并通過擾動(dòng)分析證明了最佳切換點(diǎn)的唯一性。Ke等[8]利用“最大-最小”蟻群算法求解了地鐵列車在區(qū)間的節(jié)能運(yùn)行速度曲線,并有效提高了算法的計(jì)算效率。Su等[9-10]構(gòu)建了牽引效率可變條件下的城軌列車節(jié)能控制優(yōu)化模型,并提出了一種基于能量分配的數(shù)值算法求解列車節(jié)能駕駛策略。
另外,還有許多學(xué)者利用智能控制方法研究了列車運(yùn)行優(yōu)化控制問題。Cheng等[11]以安全、準(zhǔn)點(diǎn)、節(jié)能和舒適度為優(yōu)化目標(biāo),設(shè)計(jì)了包括專家系統(tǒng)和在線優(yōu)化算法在內(nèi)的高速列車智能駕駛方法(iDMS)。在不利用精確的列車模型和離線目標(biāo)速度曲線的情況下,Yin等[12-14]基于專家知識(shí),分別利用梯度下降法、強(qiáng)化學(xué)習(xí)和數(shù)據(jù)挖掘方法,提出了列車智能駕駛算法。另外,Zhang等[15]將數(shù)據(jù)挖掘算法與專家知識(shí)結(jié)合構(gòu)建了3個(gè)數(shù)據(jù)驅(qū)動(dòng)的列車運(yùn)行模型(DTO),并通過一個(gè)啟發(fā)式的列車停車算法改進(jìn)這些模型,從而保證停車精度。為了估計(jì)城軌列車的停車誤差,Chen等[16]引入軟計(jì)算方法構(gòu)建了新的列車模型,并通過調(diào)整模型的參數(shù)有效地減少停車誤差。為解決列車自動(dòng)停車控制問題,Chen等[17]利用強(qiáng)化學(xué)習(xí)方法,基于應(yīng)答器提供的精確位置數(shù)據(jù)提出了一種在線學(xué)習(xí)控制策略。針對重載列車在長大下坡區(qū)段運(yùn)行情景,Huang等[18]利用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的列車駕駛曲線生成方法,得到列車在循環(huán)制動(dòng)時(shí)的減壓量,從而有效保障列車的運(yùn)行安全。Wang等[19]提出了一種基于迭代學(xué)習(xí)控制的算法,該算法通過充分利用歷史運(yùn)行數(shù)據(jù)中的可用信息來調(diào)整列車當(dāng)前的駕駛策略。李誠等[20]提出一種基于粒子群算法的列車節(jié)能控制算法。
在實(shí)際中,列車牽引能耗取決于車載列車自動(dòng)駕駛系統(tǒng)ATO中采用的控制策略。傳統(tǒng)ATO系統(tǒng)的控制方法包含兩層,其中上層為規(guī)劃層,旨在根據(jù)給定的站間運(yùn)行時(shí)間設(shè)計(jì)一條目標(biāo)速度曲線;下層則負(fù)責(zé)控制跟蹤該目標(biāo)速度曲線。這種控制方式可以精確跟蹤目標(biāo)速度,保證列車在站間的準(zhǔn)點(diǎn)運(yùn)行,但也會(huì)使得列車頻繁切換控制工況,導(dǎo)致乘客舒適度下降和運(yùn)行能耗的增加。
現(xiàn)有ATO系統(tǒng)通過結(jié)合優(yōu)秀司機(jī)的駕駛經(jīng)驗(yàn)來調(diào)整下層的控制方法,在目標(biāo)速度vtarget附近進(jìn)行牽引-惰行控制模擬司機(jī)的駕駛操縱過程。該控制方法可描述為“減a減b”策略,即當(dāng)速度值達(dá)到目標(biāo)速度減a時(shí),列車采用惰行工況減速運(yùn)行;當(dāng)速度值降至目標(biāo)速度減b時(shí),列車切換為牽引工況加速運(yùn)行,見圖1。這種控制方式能增大列車的惰行距離,從而減少列車牽引能耗,能夠有效減少工況切換次數(shù),提高乘客舒適度。然而其站間運(yùn)行時(shí)間可能會(huì)和列車時(shí)刻表中的計(jì)劃運(yùn)行時(shí)間有一定偏差。特別是異常條件下,系統(tǒng)參數(shù)呈現(xiàn)出非線性和時(shí)變的特性,使得這種基于確定模型的控制策略將不再適用。
圖1 現(xiàn)有ATO系統(tǒng)的控制原理
綜上所述,當(dāng)前列車控制問題的挑戰(zhàn)之一是如何得到一種靈活的控制策略,既能提高列車的準(zhǔn)時(shí)性和節(jié)能性,還可以處理參數(shù)的不確定性?;趶?qiáng)化學(xué)習(xí)的智能控制是當(dāng)前人工智能領(lǐng)域的重要發(fā)展方向,由于其不需要精確的模型信息,使之成為解決列車最優(yōu)控制問題的有效方法之一[21]。因此,在現(xiàn)有的ATO控制原理和優(yōu)秀司機(jī)的駕駛經(jīng)驗(yàn)的基礎(chǔ)上,本文提出了一種基于策略強(qiáng)化學(xué)習(xí)的列車智能控制算法,該算法在減少列車能耗的同時(shí),可保證良好的準(zhǔn)時(shí)性和乘客舒適度。相較于現(xiàn)有控制算法,本文提出的智能控制算法特點(diǎn)是:
(1)不依賴具體的列車動(dòng)態(tài)模型,控制過程不需要參考速度曲線,可以利用歷史運(yùn)行數(shù)據(jù)來訓(xùn)練得到一個(gè)性能良好的控制器,使其適應(yīng)系統(tǒng)參數(shù)的非線性和時(shí)變性。
(2)可以利用智能控制器生成的列車運(yùn)行數(shù)據(jù)進(jìn)行再訓(xùn)練,不斷優(yōu)化自身性能,從而實(shí)現(xiàn)控制器的自學(xué)習(xí)過程。
城市軌道交通線路的站間距短,且列車的牽引和制動(dòng)性能良好。一般城軌列車的站間控制過程分為出站啟動(dòng)、站間速度保持和進(jìn)站停車3個(gè)階段。在啟動(dòng)階段,列車獲得在短時(shí)間內(nèi)達(dá)到高速的牽引力,增加城軌系統(tǒng)的平均運(yùn)行速度;在速度保持階段,列車?yán)脿恳?惰行來保持速度;在停車過程中,列車減速并在站臺(tái)上精確停車。對于城軌交通系統(tǒng)列車的運(yùn)行安全由列車自動(dòng)防護(hù)系統(tǒng)ATP 防護(hù)。ATO系統(tǒng)旨在提高城市軌道交通系統(tǒng)的效率??紤]到ATO系統(tǒng)的控制策略,城市軌道交通的運(yùn)行效率側(cè)重于提高運(yùn)行準(zhǔn)時(shí)性、節(jié)能性和乘客舒適度。這3個(gè)性能指標(biāo)的定義分別為:
(1)準(zhǔn)時(shí)性是城軌系統(tǒng)運(yùn)營的一個(gè)重要指標(biāo)。尤其是在高峰時(shí)段,相鄰兩列車的追蹤間隔短且行駛路徑有限。某列車發(fā)生的小延誤很容易傳播到其他多列車,甚至影響整個(gè)系統(tǒng)。此外大的延誤可能影響乘客對其他線路或其他運(yùn)輸方式的換乘效率。列車的準(zhǔn)時(shí)性可用列車計(jì)劃運(yùn)行時(shí)間T和實(shí)際運(yùn)行時(shí)間T′的時(shí)間誤差et來衡量
(2)舒適度 ATO系統(tǒng)決定了列車的控制策略。在慣性的作用下,車內(nèi)乘客隨著車輛移動(dòng)。在本研究中,用加速度和其變化率來量化車體運(yùn)動(dòng)對乘客舒適度的影響。在城軌系統(tǒng)中,基礎(chǔ)設(shè)施較為簡單且站間距短,因此本文不考慮曲線舒適度和連續(xù)的乘客舒適度,只考慮離散的乘客舒適度PDE,具體的評價(jià)方法將在2.1節(jié)中給出。
(3)節(jié)能性 隨著能源價(jià)格上漲和人們對環(huán)境問題的關(guān)注,列車運(yùn)行中的能效顯得日益重要,這也是研發(fā)所提出的智能控制算法的主要考慮因素。列車在站間運(yùn)行的牽引能耗[22]表示為
式中:F為列車牽引力;S為站間距離;v為列車速度;x為列車位置。
專家系統(tǒng)包括從文獻(xiàn)、司機(jī)經(jīng)驗(yàn)和運(yùn)行數(shù)據(jù)中總結(jié)出來的節(jié)能控制工況,以及為滿足乘客舒適度而構(gòu)建的列車控制規(guī)則。
考慮城軌列車的牽引效率,文獻(xiàn)[8]證明了列車的節(jié)能運(yùn)行工況由最大牽引、惰行和最大制動(dòng)構(gòu)成,并對這種節(jié)能運(yùn)行工況的描述為:
(1)最大牽引和最大制動(dòng) 列車加速或制動(dòng)的速度越慢,站間運(yùn)行所需的時(shí)間就越長。為了以較低的加速度或制動(dòng)速率獲得相同的運(yùn)行時(shí)間,列車應(yīng)該加速到更高的速度,而這將會(huì)消耗更多的能量。因此在啟動(dòng)加速和制動(dòng)停車階段,分別采用最大牽引和最大制動(dòng)工況是最節(jié)能的控制方式。
(2)惰行 在不施加牽引力和制動(dòng)力的惰行階段,列車依靠慣性向前運(yùn)行且不消耗能量。因此,列車惰行越早,能耗越低。
具體操作時(shí)列車在啟動(dòng)出站階段應(yīng)施加最大牽引,加速至較高的速度;在途中運(yùn)行時(shí),列車采用最大牽引和惰行工況來節(jié)省能量,且為了滿足運(yùn)行時(shí)分的要求,需在加速和惰行工況之間進(jìn)行切換,在進(jìn)站階段,列車采用最大制動(dòng)停車。
(3)舒適度 基于文獻(xiàn)[23],本文將乘客舒適度簡化定義為與三維加速度相關(guān)的PDE。對于城軌系統(tǒng),橫向和垂向加速度主要由基礎(chǔ)設(shè)施和車輛決定,縱向加速度則與ATO控制策略密切相關(guān)。通過分析列車啟動(dòng)過程的運(yùn)行數(shù)據(jù)可知,實(shí)際運(yùn)營中的列車加速度符合乘客舒適度標(biāo)準(zhǔn)中的約束。因此啟動(dòng)過程的控制策略可以直接用作專家系統(tǒng)的一部分。
綜上所述,構(gòu)建了保障乘客舒適度的專家系統(tǒng),利用該專家系統(tǒng)能產(chǎn)生列車啟動(dòng)過程的控制策略和途中運(yùn)行的“牽引-惰行”切換策略。用于列車控制的專家系統(tǒng)推理機(jī)制為:
①如果vt=0且F>0,則啟動(dòng)階段的控制序列為F1。
②如果vt=vtarget-b且Ft+1>0,則惰行轉(zhuǎn)牽引的控制序列為F2。
③如果vt>0且x>xb,xb為停車位置,則制動(dòng)階段的控制序列為B1,直到減速至0。
④如果vt=vtarget-a,則牽引轉(zhuǎn)惰行的控制序列為F3。
在專家系統(tǒng)中,所有控制序列均滿足舒適度的約束,并集成了特殊區(qū)段和場景下的節(jié)能駕駛經(jīng)驗(yàn),即
本文提出的基于策略的強(qiáng)化學(xué)習(xí)算法PBRL(Policy-Based Reinforcement Learning),確定在每1個(gè)小區(qū)間內(nèi)的最佳的a和b值,從而優(yōu)化ATO系統(tǒng)的控制策略,算法主要包括:
(1)定義列車控制器
PBRL算法中將神經(jīng)網(wǎng)絡(luò)作為列車控制器,并利用歷史運(yùn)行數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的輸入是列車當(dāng)前的狀態(tài),包括列車當(dāng)前速度、列車位置和剩余運(yùn)行時(shí)間。輸出為下一對牽引-惰行組合工況的控制策略,即下一次采取牽引-惰行時(shí),采用某個(gè)a和某個(gè)b值的概率。定義列車控制器的神經(jīng)網(wǎng)絡(luò)一般結(jié)構(gòu)示意見圖2。其中上標(biāo)1,2,…,J分別代表輸出層的節(jié)點(diǎn)。
圖2 神經(jīng)網(wǎng)絡(luò)一般結(jié)構(gòu)示意
(2)評估控制器性能
評估當(dāng)前控制器的性能也是產(chǎn)生控制器參數(shù)更新值的基礎(chǔ)。其中,控制策略的累計(jì)獎(jiǎng)賞值反映了每個(gè)控制動(dòng)作對控制器性能的影響。本文定義動(dòng)作ai為1個(gè)相應(yīng)牽引-惰行準(zhǔn)確的a和b值。
因此列車在站間的控制策略軌跡τ可表示成
式中:si為策略軌跡中第i步時(shí)的列車運(yùn)行狀態(tài);ai為第i步時(shí)列車的控制動(dòng)作;ri為在第i步采取動(dòng)作ai后所得獎(jiǎng)賞值。
該控制策略軌跡的累積獎(jiǎng)賞值為
每一步的獎(jiǎng)賞值ri為
式中:Ei為每一步能耗,可用式(2)計(jì)算得到;λ為權(quán)重系數(shù)。需注意的是,由于專家系統(tǒng)保證了ATO系統(tǒng)的乘客舒適度,因此在獎(jiǎng)賞函數(shù)中僅考慮能耗和準(zhǔn)時(shí)性。為計(jì)算累計(jì)獎(jiǎng)賞的期望值,利用當(dāng)前控制器控制列車運(yùn)行N次,通過求N次控制策略軌跡的平均累計(jì)獎(jiǎng)賞來近似期望累積獎(jiǎng)賞,即
(3)更新參數(shù),獲得最佳控制器
訓(xùn)練神經(jīng)網(wǎng)絡(luò)的目的是得到一組最大化期望累積獎(jiǎng)賞參數(shù)
PBRL算法利用策略梯度法來更新神經(jīng)網(wǎng)絡(luò)的參數(shù)θ,以優(yōu)化列車控制器。期望累積獎(jiǎng)賞的梯度為
將列車站間的控制策略視為k步?jīng)Q策過程,其條件概率項(xiàng)為
由于式(10)中的p(s1)和p(rt,st+1|st,at)與控制器參數(shù)無關(guān),對式(10)求梯度可得
將式(11)代入式(9)可得
式中:snt、ant分別為控制策略軌跡τn中第t步的狀態(tài)和控制動(dòng)作。
最后,根據(jù)策略梯度法的更新規(guī)則對神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行更新
式中:θold、θnew分別為更新前、后的參數(shù)。
綜上,PBRL算法的具體步驟為:
Step1給定神經(jīng)網(wǎng)絡(luò)參數(shù)θ,將其作為列車控制器,控制列車運(yùn)行N次,產(chǎn)生N條控制策略軌跡。
Step2采集這N條軌跡中每一步的運(yùn)行數(shù)據(jù)。
Step3利用式(6)計(jì)算每條控制軌策略的累積獎(jiǎng)賞。
Step4利用式(13)更新控制器參數(shù),產(chǎn)生一個(gè)新的控制器。
Step5返回Step1,重復(fù)上述步驟,終止?jié)M足收斂條件。
結(jié)合北京地鐵亦莊線的基礎(chǔ)數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn),驗(yàn)證列車節(jié)能控制方法的有效性。亦莊線的列車為6節(jié)車廂,采用3動(dòng)3拖的編組形式,總長114 m,凈質(zhì)量為192 t。列車的牽引制動(dòng)特性和運(yùn)行阻力特性見文獻(xiàn)[24]。
在本仿真實(shí)驗(yàn)中,通過將PBRL算法計(jì)算得到的能耗與現(xiàn)有ATO控制算法進(jìn)行比較,驗(yàn)證PBRL算法的節(jié)能效果。將兩種算法的列車計(jì)劃運(yùn)行時(shí)間均設(shè)為125 s,PBRL算法和現(xiàn)有ATO算法計(jì)算得到的列車運(yùn)行速度曲線見圖3。從圖3可見,現(xiàn)有ATO算法使用的是“減2減5”的控制策略,即:限速為80km/h,當(dāng)列車速度達(dá)到78km/h時(shí),列車惰行;當(dāng)減速至75km/h時(shí),列車實(shí)施牽引工況加速運(yùn)行。根據(jù)在仿真中列車運(yùn)行時(shí)間的計(jì)時(shí),其實(shí)際運(yùn)行時(shí)間為125.07 s,根據(jù)公式(2)計(jì)算,列車牽引能耗為24.98 k W·h。利用PBRL算法得到的控制策略則更加靈活,其實(shí)際運(yùn)行時(shí)間為124.99 s,能耗為23.27 k W·h。結(jié)果顯示PBRL算法比現(xiàn)有ATO算法節(jié)能6.85%。
圖3 PBRL算法與現(xiàn)有ATO算法的運(yùn)行速度曲線
在不同計(jì)劃運(yùn)行時(shí)間下,比較了PBRL 與現(xiàn)有ATO算法和傳統(tǒng)ATO算法的準(zhǔn)時(shí)性、能耗和舒適度性能。仿真結(jié)果見表1,為了對表中數(shù)據(jù)進(jìn)行更直觀地比較,可用(100-PDE)×100%表示乘客舒適滿意度,(et/T)×100%表示列車運(yùn)行誤點(diǎn)率。由表1第4列數(shù)據(jù)計(jì)算,傳統(tǒng)ATO算法在125、129、132 s三個(gè)計(jì)劃運(yùn)行時(shí)間下平均的乘客舒適滿意度為75.3%,而PBRL方法和現(xiàn)有ATO算法的平均乘客舒適滿意度分別為100%和99.3%。因此與傳統(tǒng)的ATO控制算法相比,PBRL 方法和現(xiàn)有ATO算法在乘客舒適度方面有了很大的改進(jìn)。更進(jìn)一步,由表1第2列數(shù)據(jù)計(jì)算,現(xiàn)有ATO算法在125、129、132 s三個(gè)計(jì)劃運(yùn)行時(shí)間下根據(jù)列車運(yùn)行誤點(diǎn)率公式計(jì)算,平均的列車運(yùn)行誤點(diǎn)率為0.1%,而PBRL 方法的平均列車誤點(diǎn)率為(0.01/3)%。相較于現(xiàn)有ATO算法,PBRL方法的誤點(diǎn)率降低了30倍,列車運(yùn)行的準(zhǔn)時(shí)性大大提高。綜上所述,PBRL方法在舒適度和準(zhǔn)時(shí)性兩方面具有明顯的性能優(yōu)勢。
表1 PBRL算法與現(xiàn)有/傳統(tǒng)ATO算法的性能比較
本仿真實(shí)驗(yàn)在不改變其他條件的情況下,將仿真實(shí)驗(yàn)1中的運(yùn)行阻力增大50%,驗(yàn)證PBRL算法在處理可變參數(shù)方面的魯棒性。利用PBRL算法和現(xiàn)有ATO算法求解得到的列車運(yùn)行速度曲線見圖4。由圖4可見,現(xiàn)有ATO算法仍然采用“減2減5”的控制策略,但由于運(yùn)行阻力增大,列車平均運(yùn)行速度變小,因此,根據(jù)在仿真中列車運(yùn)行時(shí)間的計(jì)時(shí),其實(shí)際運(yùn)行時(shí)間增加到125.67 s,根據(jù)式(2)計(jì)算,運(yùn)行能耗為25.43 k W·h。而PBRL算法的實(shí)際運(yùn)行時(shí)間為125 s,能耗為23.37 k W·h。實(shí)驗(yàn)結(jié)果表明:PBRL算法可以根據(jù)列車的運(yùn)行狀態(tài)來調(diào)整控制策略,而不是使用固定的控制策略。即使在隨機(jī)場景中,依然可以使列車按照計(jì)劃時(shí)間運(yùn)行,并盡可能地降低牽引能耗。
圖4 增大運(yùn)行阻力后兩種算法的節(jié)能控制策略
本次仿真實(shí)驗(yàn)通過改變PBRL算法中神經(jīng)網(wǎng)絡(luò)隱藏層的神經(jīng)元個(gè)數(shù)和式(6)中權(quán)重系數(shù)λ,分別研究了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)變化和獎(jiǎng)賞函數(shù)中權(quán)重系數(shù)對智能控制器性能的影響。本實(shí)驗(yàn)給定的列車計(jì)劃運(yùn)行時(shí)間為120 s,當(dāng)隱藏層神經(jīng)元個(gè)數(shù)num_h分別為16、32、48和λ取50、100、300時(shí),列車運(yùn)行的準(zhǔn)時(shí)性和列車牽引能耗E的結(jié)果見表2。由表2可見,當(dāng)λ取值一定,隱藏層神經(jīng)元個(gè)數(shù)num_h=16時(shí),控制器在準(zhǔn)時(shí)和節(jié)能兩方面的性能最優(yōu)。例如,當(dāng)λ=300時(shí),num_h=16控制器比num_h=48控制器的準(zhǔn)時(shí)性提高了近1 s,能耗則降低了1.1 k W·h。當(dāng)λ取值越小,則控制器的平均準(zhǔn)時(shí)性越好。原因是當(dāng)獎(jiǎng)賞函數(shù)中λ越小,在控制器的學(xué)習(xí)訓(xùn)練過程中會(huì)越注重減小列車實(shí)際運(yùn)行時(shí)間與計(jì)劃運(yùn)行時(shí)間的誤差,從而保證了列車運(yùn)行控制過程中的準(zhǔn)時(shí)性,所以表2中準(zhǔn)時(shí)性最好的參數(shù)設(shè)置為λ=50,num_h=16。而當(dāng)λ越大時(shí),會(huì)更注重控制器的節(jié)能效果,因此表中牽引能耗最小的參數(shù)設(shè)置為λ=300,num_h=16。
表2 不同num_h和λ 取值時(shí)的性能比較
本文建立了列車控制的專家系統(tǒng),在此基礎(chǔ)上提出了基于策略強(qiáng)化學(xué)習(xí)的列車智能控制算法。一方面,該控制算法能在滿足準(zhǔn)時(shí)性和乘客舒適度的前提下,有效地減少列車牽引能耗,仿真結(jié)果表明該算法比現(xiàn)有ATO算法節(jié)能6.85%;另一方面,當(dāng)模型參數(shù)發(fā)生變化時(shí),該算法仍能保證列車準(zhǔn)點(diǎn)運(yùn)行,具備良好的魯棒性能。本文所提出的列車智能控制算法集成了現(xiàn)有ATO系統(tǒng)的控制原理和先進(jìn)的人工智能方法,在實(shí)際列車運(yùn)行控制系統(tǒng)中具有相當(dāng)?shù)膽?yīng)用潛力。