国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

并行深度強(qiáng)化學(xué)習(xí)的柴油機(jī)動力系統(tǒng)VGT智能控制

2022-07-22 14:09:50賴晨光伍朝兵李家曦孫友長
關(guān)鍵詞:線程智能網(wǎng)云端

賴晨光,伍朝兵,李家曦,孫友長,胡 博

(1.重慶理工大學(xué) 汽車零部件制造及檢測技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室, 重慶 400054;2.重慶理工大學(xué) 車輛工程學(xué)院, 重慶 400054)

0 引言

隨著人工智能和物聯(lián)網(wǎng)技術(shù)逐漸應(yīng)用于汽車,智能網(wǎng)聯(lián)汽車作為新興車種逐漸改變了傳統(tǒng)汽車行業(yè)的發(fā)展。在新四化(智能化、網(wǎng)聯(lián)化、共享化、電氣化)的浪潮下,汽車技術(shù)迎來巨大變革[1]。智能網(wǎng)聯(lián)汽車包含感知、決策、互聯(lián)、控制等技術(shù), 每一部分都是一個(gè)復(fù)雜系統(tǒng),目前這些系統(tǒng)大都整合在純電汽車上,純電汽車有相對簡單的動力系統(tǒng),在純電動平臺安裝各個(gè)子系統(tǒng)比燃油車簡單[2]。傳統(tǒng)燃油汽車有復(fù)雜的動力系統(tǒng),將其融合到自動駕駛難度大,所以目前燃油車主要搭載一些駕駛輔助系統(tǒng)。隨著智能網(wǎng)聯(lián)技術(shù)的發(fā)展,汽車實(shí)時(shí)獲取路況信息的能力越來越強(qiáng),傳統(tǒng)汽車可以根據(jù)獲取的信息實(shí)現(xiàn)發(fā)動機(jī)智能控制。智能網(wǎng)聯(lián)是智能汽車和網(wǎng)聯(lián)技術(shù)的結(jié)合,最終目標(biāo)是實(shí)現(xiàn)無人駕駛,當(dāng)前各大廠商都在積極探索相關(guān)技術(shù)[3-4]。目前,Google研發(fā)的無人駕駛汽車?yán)塾?jì)已經(jīng)行駛超過70萬英里[5],百度、美團(tuán)、一汽等都推出了無人駕駛概念車,應(yīng)用于載客、無人配送、運(yùn)輸?shù)炔煌瑘鼍埃艺谶M(jìn)行大規(guī)模路測,它們大部分都是基于純電動平臺。目前的智能駕駛系統(tǒng)沒有與汽車動力系統(tǒng)相連,發(fā)動機(jī)控制仍采用傳統(tǒng)控制方法,不能做到智能控制。將汽車動力控制系統(tǒng)整合到智能網(wǎng)聯(lián)系統(tǒng),打破傳統(tǒng)控制技術(shù)的限制是目前的研究重點(diǎn)。

傳統(tǒng)汽車動力系統(tǒng)控制通過標(biāo)定加入簡單PID控制,并不能對參數(shù)進(jìn)行動態(tài)調(diào)節(jié)。以增壓控制為列,Eltag等[6]在傳統(tǒng)PID控制方法上加以優(yōu)化改進(jìn),采用模糊PID控制,利用模糊控制理論控制參數(shù)方式可以在一定范圍內(nèi)進(jìn)行自動調(diào)節(jié)。Karamanakos等[7]采用MPC控制,控制精度有很好的提升,但其取決于模型精度,建立精確的控制模型比較困難。Sun等[4]采用神經(jīng)網(wǎng)絡(luò)去擬合模型節(jié)約建模時(shí)間,提升效率。這些基于規(guī)則的控制策略并不適應(yīng)智能網(wǎng)聯(lián)汽車,特別是應(yīng)對最新的排放法規(guī),傳統(tǒng)控制方法捉襟見肘。在智能網(wǎng)聯(lián)時(shí)代,需要能夠自適應(yīng)、自調(diào)節(jié)、搭建簡單,還能和整車進(jìn)行網(wǎng)聯(lián)的新一代控制策略[8-10]。

深度強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)鄰域的重要分支,是實(shí)現(xiàn)人工智能的重要方法。強(qiáng)化學(xué)習(xí)采用反饋學(xué)習(xí)的方式解決序貫決策問題,智能體通過對環(huán)境的觀察做出應(yīng)對環(huán)境的動作,然后評估改變環(huán)境后的效果得出一個(gè)獎勵,不斷迭代可以得出一個(gè)較好的策略[11]。強(qiáng)化學(xué)習(xí)的目標(biāo)是讓智能體學(xué)會獨(dú)立自主地處理復(fù)雜問題,因此首先需要把問題抽象為模型,在模型中進(jìn)行實(shí)驗(yàn)和探索,再把結(jié)果應(yīng)用于實(shí)際[12]。強(qiáng)化學(xué)習(xí)研究目前在游戲、圍棋等領(lǐng)域取得巨大成功,例如,著名的人工智能Alphago被認(rèn)為是第一個(gè)擊敗人類選手的程序。Alphago采用的強(qiáng)化學(xué)習(xí)原理是DQN,它是第一個(gè)將強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)結(jié)合的算法。深度神經(jīng)網(wǎng)絡(luò)可以擬合圍棋的復(fù)雜狀態(tài)空間,能夠更好地處理決策問題[13]。

王者榮耀作為目前最火的手游之一,在個(gè)人操作、團(tuán)隊(duì)配合、整體決策等方面都有極大可操作性和挑戰(zhàn)性。2018年12月,騰訊天美工作室首次推出基于監(jiān)督學(xué)習(xí)模型的人工智能,智能體通過不斷學(xué)習(xí)達(dá)到業(yè)余頂尖水平[14-15]。2019年5月,騰訊用強(qiáng)化學(xué)習(xí)替代原監(jiān)督學(xué)習(xí)模型,游戲性能得到巨大提升,在1V1對戰(zhàn)模式中達(dá)到職業(yè)選手水平[16](職業(yè)選手代表人類頂尖玩家)。2019年8月,騰訊在原有算法基礎(chǔ)上加入多智能體,將1V1對站模式擴(kuò)展為5V5模式,其狀態(tài)和動作空間成指數(shù)級增長,智能體要做出較好的策略變得非常困難,但經(jīng)過不斷調(diào)整和學(xué)習(xí)之后,游戲效果已經(jīng)達(dá)到職業(yè)戰(zhàn)隊(duì)水平。2020年,經(jīng)過1 a的學(xué)習(xí),“絕悟”算法的性能已經(jīng)超過職業(yè)戰(zhàn)隊(duì)水平,在BP(游戲開始的禁用角色和角色選擇)、線上能力(開始階段都會在特定區(qū)域?qū)?zhàn))和團(tuán)戰(zhàn)決策、資源搶奪(除了線上可以額外獲取經(jīng)濟(jì)和經(jīng)驗(yàn)的方式)方面都能完美應(yīng)對挑戰(zhàn)[17]。圖1展示了王者榮耀“絕悟”算法的框架。

圖1 王者榮耀“絕悟”算法框圖

將該方法應(yīng)用于汽車領(lǐng)域,以期獲得更好的控制效果。傳統(tǒng)動力總成控制基于穩(wěn)態(tài)工況標(biāo)定的數(shù)據(jù),這些數(shù)據(jù)會存儲在ECU中。汽車在行駛過程中的工況是瞬時(shí)變化的,傳統(tǒng)控制策略并不能根據(jù)實(shí)際情況做出調(diào)整,而強(qiáng)化學(xué)習(xí)則能很好地處理上述問題。

傳統(tǒng)汽車的增壓系統(tǒng)與EGR是強(qiáng)耦合非線性,增壓系統(tǒng)控制一直是研究難點(diǎn)??紤]到強(qiáng)化學(xué)習(xí)算法具有自適應(yīng)、自學(xué)習(xí)的特點(diǎn)[18-22],故本研究的主要目的是構(gòu)建基于深度強(qiáng)化學(xué)習(xí)的增壓系統(tǒng)智能控制。

1) 基于極端近似策略優(yōu)化建立基于無模型端對端的控制算法,從零開始學(xué)習(xí),力求得到更好的瞬態(tài)控制策略。

2) 本算法與其他算法最大的不同在于,邊緣設(shè)備與環(huán)境交互產(chǎn)生的數(shù)據(jù)直接傳輸?shù)皆贫耍贫私邮杖繑?shù)據(jù),然后計(jì)算最優(yōu)策略傳給邊緣設(shè)備,邊緣設(shè)備以最優(yōu)策略和環(huán)境交互。

1 并行深度強(qiáng)化學(xué)習(xí)理論

1.1 多線程并行強(qiáng)化學(xué)習(xí)

2002年,并行強(qiáng)化學(xué)習(xí)概念被首次提出。并行強(qiáng)化學(xué)習(xí)可以通過多個(gè)智能體同時(shí)學(xué)習(xí)一個(gè)任務(wù)并共享經(jīng)驗(yàn)。通過多臂賭博機(jī)來測試算法,結(jié)果表明,每增加一個(gè)智能體,都相應(yīng)地提高了訓(xùn)練效率。目前,實(shí)現(xiàn)并行主要有2種辦法:一種是通過智能體收集數(shù)據(jù)直接上傳云端,通過云端計(jì)算出最優(yōu)策略后分享給智能體;另外一種就是智能體通過本身策略與環(huán)境交互,將訓(xùn)練好的參數(shù)共享給其他智能體,以此達(dá)到并行學(xué)習(xí)的目的[23-24]。

并行強(qiáng)化學(xué)習(xí)采用ROLLING和UPDATE兩個(gè)不同的線程分別進(jìn)行數(shù)據(jù)采集和策略更新的計(jì)算,必須等待其他線程工作完成后再繼續(xù)進(jìn)行。2個(gè)線程不能同時(shí)進(jìn)行,線程之間停止時(shí)采用event.wait(),線程之間能否繼續(xù)要根據(jù)具體條件判定,當(dāng)條件為event.clear()表示不能進(jìn)行運(yùn)算,當(dāng)條件為event.set()表示可進(jìn)行運(yùn)算[25-27]。Actor部分被用來和環(huán)境進(jìn)行交互,產(chǎn)生S、a、r、S′經(jīng)驗(yàn)數(shù)據(jù)并存儲,到達(dá)一定數(shù)量時(shí)傳送給云端。在實(shí)際運(yùn)行過程中,Actor的策略會同步云端計(jì)算出的最新策略,并用最新策略不斷和環(huán)境進(jìn)行交互。Global Server云端網(wǎng)絡(luò)負(fù)責(zé)接收所有worker傳來的數(shù)據(jù),并整合這些數(shù)據(jù)計(jì)算出最優(yōu)策略,然后推送給每個(gè)worker。DPPO算法結(jié)合云計(jì)算和并行多線程技術(shù)后能夠極大提高訓(xùn)練效率,縮短訓(xùn)練時(shí)間。仿真代碼采用DPPO代碼,算法整體框架如下:

DPPO Distributed Proximal Policy Optimization (chief)1.初始化各個(gè)參數(shù),啟動每個(gè)worker2.worker與模型進(jìn)行交互并收集數(shù)據(jù)3.當(dāng)收集的數(shù)據(jù)達(dá)到一定數(shù)量時(shí),線程停止,云端網(wǎng)絡(luò)開始更新,ROLLING_EVENT.wait(),UPDATE_EVENT.set()4.云端網(wǎng)絡(luò)更新完成,局部網(wǎng)絡(luò)接收新的策略,繼續(xù)和環(huán)境交互。ROLLING_EVENT.clear(),UPDATE_EVENT.set()5.在云端和局部網(wǎng)絡(luò)之間切換時(shí),需要協(xié)調(diào)個(gè)線程之間開啟和關(guān)閉時(shí)間:COORD.request_stop()

1.2 VGT被控模型

將MCC和MEC結(jié)合是未來智能網(wǎng)聯(lián)汽車的一個(gè)發(fā)展趨勢。目前,汽車動力系統(tǒng)既不智能也不網(wǎng)聯(lián),基于以上討論,將車云計(jì)算網(wǎng)絡(luò)運(yùn)用在發(fā)動機(jī)增壓瞬時(shí)控制領(lǐng)域,多線程算法框架說明如圖2所示。控制模型為在GT-power建立的6缸3升增壓直噴柴油機(jī),使用1個(gè)控制器控制VGT閥門開閉,使其在瞬態(tài)工況下能達(dá)到目標(biāo)增壓。VGT閥門結(jié)構(gòu)如圖3所示。

圖2 多線程算法框圖

圖3 VGT閥門結(jié)構(gòu)

傳統(tǒng)增壓控制方法使用1個(gè)微調(diào)PID控制器控制VGT閥門開度來控制進(jìn)氣壓力。P參數(shù)和I參數(shù)均采用負(fù)荷的映射,參數(shù)更加準(zhǔn)確。將VGT葉片開度作為控制動作,將實(shí)際增壓、目標(biāo)增壓、發(fā)動機(jī)轉(zhuǎn)速和葉片開度作為四維狀態(tài)空間。研究目標(biāo)是通過算法實(shí)現(xiàn)瞬態(tài)工況下實(shí)際壓力和目標(biāo)壓力的跟隨。獎勵函數(shù)設(shè)置為壓力跟隨和動作變化率,見式(1)所示。

(1)

采用DPPO算法。云計(jì)算框架整體更新過程見1.1節(jié),展示worker與環(huán)境進(jìn)行交互并收集數(shù)據(jù)過程的算法更新結(jié)構(gòu)流程偽代碼如下:

DPPO Distributed Proximal Policy Optimization (worker)1:隨機(jī)初始化評價(jià)網(wǎng)絡(luò) Q(s,a|θQ) 和演員網(wǎng)絡(luò)μ(s|θμ) 的權(quán)重2:初始化神經(jīng)網(wǎng)絡(luò) Q* and μ'3:初始化 Target、test、reward、buffer(s,a,r)4:從回合1開始到M5:觀察環(huán)境初始狀態(tài)s,并根據(jù)狀態(tài)計(jì)算出均值和方差,根據(jù)正態(tài)分布選出一個(gè)動作, a=tf.squeeze(pi.sample(1),axis=0)[0]6:將智能體選擇的動作施加給環(huán)境并獲取新的狀態(tài),根據(jù)狀態(tài)和動作計(jì)算出實(shí)時(shí)獎勵值r7:將動作、狀態(tài)和獎勵值收集到buffer,每收集N步之后進(jìn)行策略更新8:計(jì)算advantage = r+GAMMA * v_s_9:在updata函數(shù)中,我們把準(zhǔn)備好的數(shù)據(jù)賦值給s,a,r,執(zhí)行update_old_pi JPPO(θ)=∑Tt=1πθ(atst)πold(atst)A ^t-λKL[πoldπθ]-ξmax(0,KL[πoldπθ]-2KLtarget)210:Critic更新10次,計(jì)算出TD-error=gamma* V(s')+r-V(s)11:Actor利用TD-error更新10次

2 仿真與結(jié)果

仿真計(jì)算通過Windows操作系統(tǒng)、16G內(nèi)存、CPU:Intel I5、GPU:GTX1050TI來完成。Python、GT-power經(jīng)Simulink連接來進(jìn)行聯(lián)合仿真實(shí)驗(yàn)。在GT-power中搭建仿真模型,在Python中構(gòu)建控制算法,通過 Python端的 matlab.engine庫調(diào)用 Matlab中編寫的 m文件,達(dá)到控制 GT-power仿真模型運(yùn)行的目的。將GT-power端仿真模型產(chǎn)生的數(shù)據(jù)再以 m文件形式返回 Python,以此循環(huán)完成仿真實(shí)驗(yàn)。

圖4 算法更新圖

驗(yàn)證基于車云計(jì)算算法,將其與傳統(tǒng)PID控制方法進(jìn)行對比。驗(yàn)證工況選擇美國FTP-72(圖5)。該工況模擬1條12.07 km的城市線路,并經(jīng)常進(jìn)行急加速和急減速,最高時(shí)速為91.25 km/h,平均時(shí)速為31.5 km/h。選擇該工況是因?yàn)槠淠M了具有大滯后、強(qiáng)耦合和非線性的真實(shí)VGT工作環(huán)境。若能在該類復(fù)雜環(huán)境中訓(xùn)練出較好的控制策略,則認(rèn)為算法在其他穩(wěn)定區(qū)域(如歐洲NEDC)能夠表現(xiàn)得更好。

圖5 FTP72工況車速

2.1 增壓控制跟隨

根據(jù)FTP-72工況車速和發(fā)動機(jī)轉(zhuǎn)速可以得出瞬態(tài)下的目標(biāo)增壓,并將該目標(biāo)增壓作為控制目標(biāo),驗(yàn)證DPPO算法在瞬態(tài)下的控制效果,即壓力跟隨。采用傳統(tǒng)PID控制結(jié)果作為對比,發(fā)現(xiàn)該控制結(jié)果滿足要求,但在某些局部區(qū)域容易出現(xiàn)超調(diào),采用深度強(qiáng)化學(xué)習(xí)算法能顯著改善上述問題。由于整個(gè)工況數(shù)據(jù)過多,故無法清楚了解全部具體細(xì)節(jié),如圖6 FTP75工況壓力跟隨圖,因此選取901~945 s區(qū)間與PID控制進(jìn)行對比。45 s 對比結(jié)果如圖7 FTP75局部45 s壓力跟隨圖所示,表明采用DPPO算法的瞬態(tài)控制結(jié)果明顯好于PID控制。

圖6 FTP75工況壓力跟隨圖

圖7 FTP75局部45 s壓力跟隨圖

PID控制算法45 s的絕對誤差(IAE)為 0.622 9,并行深度強(qiáng)化學(xué)習(xí)算法4線程和8線程控制的絕對誤差分別為0.387 0和0.356 8(表1)。造成跟隨誤差較大的區(qū)域是由于渦輪遲滯引起的,無法通過控制本身來改善。

表1 絕對誤差

2.2 并行強(qiáng)化學(xué)習(xí)結(jié)果分析

Reward是評價(jià)算法是否收斂的一個(gè)重要值,獎勵函數(shù)前面詳細(xì)說過,采用同樣的方法計(jì)算出基準(zhǔn)獎勵值,其結(jié)果如圖。基準(zhǔn)獎勵值最終收斂在-22,強(qiáng)化學(xué)習(xí)從零開始學(xué)習(xí),經(jīng)過不斷探索獎勵值逐漸上升,在第28個(gè)回合就超過基準(zhǔn),在80個(gè)回合達(dá)到收斂,收斂之后獎勵值任然有小范圍波動,原因是設(shè)置有極小的動作探索并且仍在根據(jù)參數(shù)調(diào)整網(wǎng)絡(luò),對策略穩(wěn)定性基本沒有影響。采用智能算法控制的獎勵最終收斂在-5左右,要遠(yuǎn)遠(yuǎn)好于基準(zhǔn)控制算法。

為了研究多線程并行對訓(xùn)練結(jié)果的影響,分別進(jìn)行了1個(gè)worker、2個(gè)worker、4個(gè)worker和8個(gè)worker的仿真計(jì)算,其結(jié)果如圖8所示。在其他參數(shù)條件設(shè)置相同下,1和2個(gè)worker在開始變化范圍較大且結(jié)果不能收斂,4個(gè)和8個(gè)worker能夠很好的收斂。隨著worker的增加數(shù)量增加,收集數(shù)據(jù)的效率增加,打亂數(shù)據(jù)之間的相關(guān)性,能夠達(dá)到控制目標(biāo)。但是并不是worker越多越好,4個(gè)和8個(gè)worker的學(xué)習(xí)效果和速度之間差別極小,其中8個(gè)worker需要占用極大的計(jì)算資源。采用云計(jì)算框架的并行深度強(qiáng)化學(xué)習(xí)需要數(shù)量合適的worker,來滿足數(shù)據(jù)的無關(guān)性以及所需求的計(jì)算效率。

圖8 不同線程數(shù)reward結(jié)果

3 結(jié)論

1) 采用PID和深度強(qiáng)化學(xué)習(xí)方法對柴油發(fā)動機(jī)的可變幾何截面渦輪的葉片角度進(jìn)行控制。通過不斷調(diào)節(jié)P、I2個(gè)參數(shù)使發(fā)動機(jī)瞬態(tài)進(jìn)氣達(dá)到較好的控制效果,將其作為并行深度強(qiáng)化學(xué)習(xí)控制的對比基準(zhǔn)。

2) 在不改變其他參數(shù)的情況下,1線程和2線程控制效果差沒有達(dá)到收斂效果,4線程和8線程控制效果好,達(dá)到收斂要求;這說明在同等參數(shù)條件下,合適的并行運(yùn)算能夠收集更多的數(shù)據(jù),并很快學(xué)習(xí)到較好的控制方法,節(jié)約時(shí)間成本。但并不是線程越多越好,4個(gè)線程和8個(gè)線程的控制跟隨效果相差不大,且最終收斂的獎勵值都在6左右,更多線程會消耗更多的計(jì)算資源,增加硬件成本。

猜你喜歡
線程智能網(wǎng)云端
云端之城
5G賦能智能網(wǎng)聯(lián)汽車
智能網(wǎng)聯(lián)硬實(shí)力趨強(qiáng)
汽車觀察(2018年12期)2018-12-26 01:05:26
迎戰(zhàn)智能網(wǎng)聯(lián)大爆發(fā)
汽車觀察(2018年10期)2018-11-06 07:05:20
美人如畫隔云端
淺談linux多線程協(xié)作
行走在云端
初中生(2017年3期)2017-02-21 09:17:43
云端創(chuàng)意
基于SJA1000的CAN總線智能網(wǎng)橋設(shè)計(jì)
Linux線程實(shí)現(xiàn)技術(shù)研究
黄梅县| 东港市| 富平县| 瓦房店市| 敦化市| 延吉市| 方山县| 华宁县| 浦城县| 吉林市| 兴宁市| 镇平县| 余姚市| 长岛县| 涿鹿县| 汨罗市| 唐海县| 花垣县| 大英县| 绥江县| 潞西市| 辽宁省| 威远县| 邵阳县| 建宁县| 霍邱县| 宜阳县| 昌乐县| 墨江| 梓潼县| 武义县| 新巴尔虎右旗| 余江县| 介休市| 柳州市| 磐安县| 贡觉县| 张北县| 沭阳县| 临安市| 鸡西市|