国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多Agent強(qiáng)化學(xué)習(xí)的危險(xiǎn)車輛預(yù)警算法

2020-08-30 06:19:10王澤學(xué)萬(wàn)啟東秦楊梅樊森清肖澤儀
電子科技 2020年9期
關(guān)鍵詞:行人權(quán)重危險(xiǎn)

王澤學(xué),萬(wàn)啟東,秦楊梅,樊森清,肖澤儀

(四川大學(xué) 化學(xué)工程學(xué)院,四川 成都 610065)

在道路交通系統(tǒng)中,行人作為慢行交通參與者,由于缺乏相關(guān)的保護(hù)措施,易受到道路事故的傷害。通過(guò)為行人設(shè)計(jì)一套主動(dòng)保護(hù)的危險(xiǎn)車輛警報(bào)系統(tǒng)來(lái)使行人避免碰撞傷害已成為出行安全研究的熱點(diǎn)之一。

目前廣泛使用的防撞系統(tǒng)適用對(duì)象為車輛及其駕駛員[1-5],針對(duì)行人防撞系統(tǒng)研究仍有很大空白。從行人的角度來(lái)看,主動(dòng)保護(hù)系統(tǒng)的理念是行人自己掌握避免危險(xiǎn)的主動(dòng)權(quán)。行人可以提前預(yù)知危險(xiǎn),并決定如何避免危險(xiǎn),而不是被動(dòng)地通過(guò)汽車避碰系統(tǒng)或駕駛員的安全駕駛意識(shí)來(lái)規(guī)避危險(xiǎn)。毫無(wú)疑問(wèn),在車輛及其駕駛員的避碰系統(tǒng)之上,一個(gè)主動(dòng)的行人保護(hù)系統(tǒng)可以更有效地保護(hù)人們免受車輛碰撞。所以本研究旨在開(kāi)發(fā)一種智能可穿戴設(shè)備為行人提供主動(dòng)保護(hù)。微型毫米波雷達(dá)等傳感器技術(shù)的小型化趨勢(shì)[6-7]為本系統(tǒng)硬件架構(gòu)的實(shí)現(xiàn)奠定了基礎(chǔ),智能可穿戴設(shè)備工作示意圖如圖1所示。因此,如何利用雷達(dá)等傳感器獲取的數(shù)據(jù)對(duì)機(jī)動(dòng)車威脅進(jìn)行評(píng)估成為實(shí)現(xiàn)主動(dòng)保護(hù)的關(guān)鍵。

道路交通是一個(gè)復(fù)雜的系統(tǒng),其內(nèi)容包括行人狀態(tài)、天氣、道路情況、周圍車輛的運(yùn)行狀態(tài)、視線在內(nèi)的多種因素。本文從本質(zhì)安全(人-機(jī)-環(huán)境)的角度出發(fā),設(shè)計(jì)了一個(gè)智能可穿戴設(shè)備來(lái)實(shí)施某種程度的主動(dòng)保護(hù)以使行人免受車輛的沖擊。這個(gè)設(shè)備內(nèi)置了關(guān)鍵的安全算法,采用模糊綜合評(píng)價(jià)法[8]作為基礎(chǔ)架構(gòu)。圖2是這個(gè)架構(gòu)的指標(biāo)體系。

本文的主要工作是如何優(yōu)化各指標(biāo)的權(quán)重。各指標(biāo)權(quán)重是模糊綜合評(píng)價(jià)法的“靈魂”,在已經(jīng)得到各指標(biāo)危險(xiǎn)度后,指標(biāo)權(quán)重的設(shè)置很大程度上決定著這個(gè)危險(xiǎn)評(píng)價(jià)是否會(huì)出現(xiàn)虛警或危險(xiǎn)漏報(bào)。因此,合理分配各指標(biāo)的權(quán)重關(guān)系到系統(tǒng)危險(xiǎn)度的準(zhǔn)確性。

不同于一般的危險(xiǎn)評(píng)價(jià)體系,交通系統(tǒng)是一個(gè)動(dòng)態(tài)、暫態(tài)的體系。隨著交通系統(tǒng)內(nèi)每個(gè)指標(biāo)的危險(xiǎn)值變化,權(quán)重也應(yīng)該隨著變化。因此只有針對(duì)每個(gè)指標(biāo)目前的危險(xiǎn)程度“量身訂制”一套指標(biāo)權(quán)重方案才可以保證評(píng)價(jià)不會(huì)出現(xiàn)危險(xiǎn)隱患被掩蓋或被過(guò)分凸顯的情況。針對(duì)這個(gè)問(wèn)題,本文采用BP神經(jīng)網(wǎng)絡(luò)[9]的方法為指標(biāo)設(shè)置動(dòng)態(tài)權(quán)重。BP神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)在于只需要輸入有限的學(xué)習(xí)樣本,就可以使系統(tǒng)在實(shí)際應(yīng)用中遇到類似學(xué)習(xí)樣本的情景時(shí),得到類似的指標(biāo)權(quán)重方案,以保證評(píng)價(jià)的準(zhǔn)確性和可靠性[10]。前期工作證明BP神經(jīng)網(wǎng)絡(luò)設(shè)置的動(dòng)態(tài)權(quán)重算法的危險(xiǎn)預(yù)警結(jié)果遠(yuǎn)大于由AHP或熵權(quán)法確定權(quán)重的結(jié)果,但仍存在一些錯(cuò)誤報(bào)警。這是由于BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)樣本中的權(quán)重方案是依據(jù)專家經(jīng)驗(yàn)和作者經(jīng)驗(yàn)得到。其中存在的問(wèn)題包括:(1)經(jīng)驗(yàn)可能并不完全準(zhǔn)確,因此輸入的學(xué)習(xí)樣本存在問(wèn)題;(2)學(xué)習(xí)樣本數(shù)量少、不全面,因此訓(xùn)練出來(lái)的神經(jīng)網(wǎng)絡(luò)存在缺陷,造成算法的預(yù)警失敗。

強(qiáng)化學(xué)習(xí)采用了人類和動(dòng)物學(xué)習(xí)中的“嘗試與失敗”機(jī)制,強(qiáng)調(diào)在與環(huán)境的交互中學(xué)習(xí),利用評(píng)價(jià)性的反饋信號(hào)實(shí)現(xiàn)決策的優(yōu)化。其中,智能體(Agent)在感知完環(huán)境的狀態(tài)后,采取了一個(gè)動(dòng)作使得環(huán)境轉(zhuǎn)移到下一個(gè)狀態(tài),并得到一個(gè)評(píng)價(jià)這次動(dòng)作好壞的反饋。因此,強(qiáng)化學(xué)習(xí)可以被利用來(lái)得到神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)樣本,并且強(qiáng)化學(xué)習(xí)得到的學(xué)習(xí)樣本的數(shù)量和質(zhì)量都可以得到保障,最終得到報(bào)警準(zhǔn)確率更高的危險(xiǎn)車輛預(yù)警算法。

多智能體系統(tǒng)由一群有自主性的、可互相交互的實(shí)體組成,它們共享一個(gè)相同的環(huán)境,通過(guò)感知器感知環(huán)境并通過(guò)執(zhí)行器采取行動(dòng)[11-12]。由于智能體間通過(guò)共享經(jīng)驗(yàn),因此多智能體強(qiáng)化學(xué)習(xí)較單智能體,可以更快更好地完成任務(wù)。多智能體系統(tǒng)根據(jù)任務(wù)類型可以分成如下3大類:完全合作、完全競(jìng)爭(zhēng)、混合任務(wù)[13]。通過(guò)智能體間的博弈或者合作,最終實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)結(jié)果的優(yōu)化,獲得更多準(zhǔn)確的BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)樣本。

本文試圖從行人的角度來(lái)設(shè)計(jì)可預(yù)測(cè)和預(yù)警碰撞的主動(dòng)保護(hù)算法。文中以模糊綜合評(píng)價(jià)法作為基礎(chǔ),針對(duì)車輛撞擊行人的復(fù)雜暫態(tài)系統(tǒng),提出利用BP神經(jīng)網(wǎng)絡(luò)分配天氣、道路、行人狀態(tài)、車輛參數(shù)等指標(biāo)的權(quán)重。通過(guò)強(qiáng)化學(xué)習(xí)獲取大量準(zhǔn)確可靠的數(shù)據(jù)作為BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)樣本。最后,針對(duì)強(qiáng)化學(xué)習(xí)學(xué)習(xí)效率不足的問(wèn)題,證明結(jié)合多Agent強(qiáng)化學(xué)習(xí)的方法可以提高學(xué)習(xí)效率。

1 多智能體強(qiáng)化學(xué)習(xí)

1.1 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)采用人類學(xué)習(xí)中的“失敗與嘗試”的機(jī)制[14],強(qiáng)調(diào)在與環(huán)境的交互中學(xué)習(xí),利用評(píng)價(jià)性的反饋信號(hào)來(lái)實(shí)現(xiàn)決策的優(yōu)化。強(qiáng)化學(xué)習(xí)用馬爾科夫決策過(guò)程表征[15],有限馬爾科夫決策過(guò)程是一個(gè)四元組。其中,S是智能體的狀態(tài)空間;A是智能體的動(dòng)作空間;P為S×A×S→[0,1],是狀態(tài)轉(zhuǎn)移概率函數(shù);R為S×A×S→R,是獎(jiǎng)勵(lì)函數(shù)。具體過(guò)程為:智能體在狀態(tài)sk∈S下時(shí),采取了一個(gè)動(dòng)作ak∈A,根據(jù)狀態(tài)轉(zhuǎn)移矩概率函數(shù)p(sk,ak,sk+1)轉(zhuǎn)移到下一個(gè)狀態(tài)sk+1∈S,此時(shí)得到環(huán)境的獎(jiǎng)勵(lì)回報(bào)值rk+1。

依據(jù)馬爾科夫決策過(guò)程,狀態(tài)空間和動(dòng)作空間要求是離散的,且動(dòng)作空間的是有限的。因此將本算法中的狀態(tài)空間和動(dòng)作空間進(jìn)行離散化處理。本模型中,狀態(tài)空間是值各指標(biāo)的危險(xiǎn)度,共涉及車輛速度、天氣、道路、撞擊可能性、行人狀態(tài)5個(gè)大的指標(biāo),每個(gè)指標(biāo)危險(xiǎn)度在0~1之間,劃分跨度為0.05,所以共有3200000個(gè)狀態(tài)。動(dòng)作空間是指各指標(biāo)權(quán)重的分配方案,每個(gè)權(quán)重也在0~1之間,劃分跨度為0.1。因?yàn)楦髦笜?biāo)權(quán)重之和為1,所以共有126個(gè)選擇方案。

Q學(xué)習(xí)是強(qiáng)化學(xué)習(xí)中最具代表性的算法,Q學(xué)習(xí)算法已經(jīng)被證明是收斂的[16],并且該算法極大地簡(jiǎn)化了強(qiáng)化學(xué)習(xí)在實(shí)際問(wèn)題中的應(yīng)用問(wèn)題。在現(xiàn)實(shí)的強(qiáng)化學(xué)習(xí)應(yīng)用中,智能體所處環(huán)境是未知的,所以在這些情況下無(wú)法通過(guò)動(dòng)態(tài)規(guī)劃算法計(jì)算最優(yōu)策略。Q學(xué)習(xí)是一種完全無(wú)需了解環(huán)境中狀態(tài)轉(zhuǎn)換概率就可以得到最優(yōu)策略函數(shù)的方法[17],如式(1)所示

Qt+1(st,at)=Qt(st,at)+α×(Ra,t(st,st+1)
+γmaxaQt(st+1,at)-Qt(st,at))

(1)

其中,α與γ為參數(shù),用來(lái)調(diào)節(jié)學(xué)習(xí)率;R為獎(jiǎng)勵(lì)值;maxaQt(st+1,at)是指下一時(shí)刻所處環(huán)境下的Q值最高的動(dòng)作的Q值,以此來(lái)加快迭代的收斂速度。

1.2 多智能體強(qiáng)化學(xué)習(xí)

在單智能體模型中,利用特殊的編程模擬車輛撞擊行人。所模擬車輛的運(yùn)動(dòng)軌跡是在道路上隨機(jī)方向前進(jìn)的,該方法的優(yōu)點(diǎn)是編程簡(jiǎn)單且計(jì)算時(shí)間短。但是該方法沒(méi)有自己“思想”地隨機(jī)前進(jìn)會(huì)造成很多路徑過(guò)訓(xùn)練或訓(xùn)練不足,導(dǎo)致最終獲取的合格學(xué)習(xí)樣本較少,所以需要建立車輛Agent,使其有策略地行進(jìn)以便加快行人Agent的訓(xùn)練速度。車輛Agent的狀態(tài)空間和動(dòng)作空間的離散化如下:狀態(tài)空間即為車輛在道路上的位置,將道路進(jìn)行橫向0.1 m,縱向0.11 m的網(wǎng)格劃分,網(wǎng)格的坐標(biāo)就是車輛的狀態(tài)。動(dòng)作空間為車輛每次前進(jìn)到面前的5個(gè)網(wǎng)格位置的選擇。

車輛智能體與行人智能體之間是撞擊與躲避的關(guān)系,屬于一種特殊的競(jìng)爭(zhēng)關(guān)系,可以采用多智能體強(qiáng)化學(xué)習(xí)中的完全競(jìng)爭(zhēng)模型。在完全競(jìng)爭(zhēng)的隨機(jī)博弈中,是選用最小最大化(min-max)原則,即在假定對(duì)手一定會(huì)選取使自己收益最小化的動(dòng)作的前提下,智能體選取使自己收益最大的動(dòng)作(即用最壞的惡意來(lái)揣測(cè)對(duì)手)[13],如式(2)所示

Qt+1(st,a1,t,a2,t)=Qt(st,a1,t,a2,t)+α×
(Rt+γMp(Qt,at+1)-Qt(st,a1,ta2,t))

(2)

其中,Mp是行人Agent的最小最大值,完全競(jìng)爭(zhēng)的算法是對(duì)手獨(dú)立的,不管對(duì)手如何選擇,自己總能取得不低于min-max函數(shù)回報(bào)值。但如果對(duì)手不是采取最優(yōu)策略(即使自己的收益最小化的策略),就會(huì)使學(xué)習(xí)速度降低。所以如果能對(duì)對(duì)手建模,預(yù)判對(duì)手最可能選取的動(dòng)作,那么自己就可以選取更優(yōu)的動(dòng)作[13],如式(3)所示

(3)

2 結(jié)果與對(duì)比

本文工作目前處于驗(yàn)證階段,為了提高模擬實(shí)驗(yàn)的效率,所有模擬做出如下簡(jiǎn)化假設(shè):(1)車輛速度固定為80 km·h-1,道路為一條直道(不考慮彎道、坡度),長(zhǎng)330 m,寬18 m;(2)道路上不考慮有固定障礙物,例如柵欄、橋墩、數(shù)、故障車輛等;(3)道路上僅一臺(tái)車輛。隨著該創(chuàng)新今后的推廣應(yīng)用,考慮后續(xù)進(jìn)行更多、更完善的模擬以保證算法的全面性和可靠性。

2.1 原型機(jī)驗(yàn)證

通過(guò)原型機(jī)驗(yàn)證了智能可穿戴設(shè)備的可行性。原型機(jī)包括一個(gè)雷達(dá)傳感器和一臺(tái)計(jì)算機(jī)。樣機(jī)采用了獨(dú)立操作系統(tǒng)、基帶處理設(shè)計(jì)和帶有模數(shù)轉(zhuǎn)換器的CAR28F毫米波雷達(dá)。雷達(dá)工作波段為24 GHz-ISM,通信速率為500 kbit·s-1,能探測(cè)30 m范圍內(nèi)的運(yùn)動(dòng)物體,并能獲得距離、速度和角度等參數(shù)。雷達(dá)數(shù)據(jù)刷新頻率為200 ms,將通過(guò)USBCAN適配器以十六進(jìn)制形式進(jìn)行信號(hào)轉(zhuǎn)換。雷達(dá)數(shù)據(jù)傳輸?shù)接?jì)算機(jī)上,通過(guò)筆者編寫(xiě)在MATLAB軟件上的特殊的安全算法程序進(jìn)行危險(xiǎn)車輛安全性計(jì)算,并且通過(guò)編程在MATLAB上實(shí)現(xiàn)了可視化實(shí)時(shí)顯示。顯示的內(nèi)容包括:根據(jù)雷達(dá)數(shù)據(jù)實(shí)時(shí)顯示目標(biāo)車輛相較于行人的位置、車輛速度、行進(jìn)方向等數(shù)據(jù),以及系統(tǒng)危險(xiǎn)度計(jì)算結(jié)果。原本通信模塊獲取的天氣和道路等數(shù)據(jù)在原型機(jī)上簡(jiǎn)化為在計(jì)算機(jī)上預(yù)先設(shè)置,如圖3所示。

2.2 強(qiáng)化學(xué)習(xí)與其他方法結(jié)果對(duì)比

通過(guò)4組模擬實(shí)驗(yàn),以單智能體強(qiáng)化學(xué)習(xí)結(jié)果為學(xué)習(xí)樣本的BP神經(jīng)網(wǎng)絡(luò)確定各指標(biāo)權(quán)重的方法來(lái)對(duì)比以下3種方法:權(quán)重固定的AHP法[18]、權(quán)重固定的熵權(quán)法[19]、動(dòng)態(tài)權(quán)重的以經(jīng)驗(yàn)為學(xué)習(xí)樣本的BP神經(jīng)網(wǎng)絡(luò)法。模擬實(shí)驗(yàn)中,隨機(jī)天氣和道路情況(雨、雪、霧、晴、大橋等),車輛在道路一端,起始位置隨機(jī),并以80 km·h-1的速度隨機(jī)前進(jìn),最終撞向行人。行人位置固定在另一端道路中間,始終開(kāi)啟穿戴設(shè)備。利用上述4種方法得到的算法實(shí)時(shí)計(jì)算車輛安全值,并對(duì)是否發(fā)出警報(bào)做出相應(yīng)的判斷。為了給行人留出安全的躲避距離,在報(bào)警后首先計(jì)算車輛要撞擊到行人所需的時(shí)間t。在此情景下,根據(jù)行人的生理狀態(tài),利用模糊數(shù)學(xué)計(jì)算行人可能的移動(dòng)速度v(0.5~3.5 m·s-1)和所需的反應(yīng)時(shí)間d(0.75~1.5 s) ,最終計(jì)算行人逃離危險(xiǎn)車輛的移動(dòng)距離。筆者認(rèn)為取2.5~7.5 m的合理范圍,如式(4)所示

(4)

模擬實(shí)驗(yàn)一共進(jìn)行50次,對(duì)比和結(jié)果如圖4和表1所示。

表1 強(qiáng)化訓(xùn)練與其他方法合格率對(duì)比Table 1. Comparisons of qualified rate between intensive training and other methods

由于固定權(quán)重的AHP法將權(quán)重過(guò)多地分配給車速指標(biāo)和撞擊可能性指標(biāo),而模擬中車速固定為80 km·h-1,危險(xiǎn)度較高。如果分配過(guò)多在車速指標(biāo)上就會(huì)導(dǎo)致出現(xiàn)了大量的“虛警”。熵權(quán)法將過(guò)多的權(quán)重分配給了天氣、道路指標(biāo),當(dāng)遇到良好的天氣、道路環(huán)境時(shí),環(huán)境指標(biāo)的危險(xiǎn)度會(huì)很低。如果其分配過(guò)多權(quán)重,就可能會(huì)導(dǎo)致出現(xiàn)車輛撞擊到行人而沒(méi)有報(bào)警的嚴(yán)重錯(cuò)誤。以經(jīng)驗(yàn)為學(xué)習(xí)樣本的BP神經(jīng)網(wǎng)絡(luò)的方法合格率確實(shí)大于兩個(gè)固定權(quán)重的方法,但是其優(yōu)勢(shì)并不明顯。主要原因是操作人能力有限,在考慮問(wèn)題的全面性方面會(huì)存在缺陷。另外從圖中可知其同樣導(dǎo)致了較多虛警的出現(xiàn),由此分析此法可能學(xué)習(xí)了人類的認(rèn)知,同樣過(guò)多地側(cè)重于車速指標(biāo)和撞擊可能性指標(biāo),導(dǎo)致報(bào)警準(zhǔn)確率較低。以強(qiáng)化學(xué)習(xí)訓(xùn)練結(jié)果為學(xué)習(xí)樣本的BP神經(jīng)網(wǎng)絡(luò)的方法的合格率相比其他3個(gè)方法有明顯優(yōu)勢(shì),相較于AHP法、熵權(quán)法、以經(jīng)驗(yàn)為學(xué)習(xí)樣本的BP神經(jīng)網(wǎng)絡(luò)的方法,其準(zhǔn)確率分別提高了100%、75%、56%,這是由于學(xué)習(xí)樣本的準(zhǔn)確性得到了保證。但由于存在學(xué)習(xí)樣本不全面的問(wèn)題,出現(xiàn)車輛撞擊到行人而沒(méi)有報(bào)警的情況發(fā)生。綜上,可以考慮增加更多強(qiáng)化學(xué)習(xí)的結(jié)果作為BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)樣本以提高算法的準(zhǔn)確性。

2.3 多智能體與單智能體強(qiáng)化學(xué)習(xí)過(guò)程對(duì)比

提高強(qiáng)化學(xué)習(xí)的效率來(lái)得到更多學(xué)習(xí)樣本可能是目前優(yōu)化算法的唯一途徑。本多智能體模型相較于單Agent模型,增加了車輛Agent。在強(qiáng)化學(xué)習(xí)開(kāi)始后,經(jīng)過(guò)初期迭代,車輛智能體自己探索得到了如圖5所示的一個(gè)類似的行駛軌跡圖。途中淺色為Q值高的位置,深色為Q值低的位置,車輛會(huì)選擇Q值大的位置前進(jìn),而不是隨機(jī)前進(jìn)。從圖5中可以觀察到車輛智能體起初會(huì)選擇最直接的最快速的方式撞向行人。

隨著行人Agent的學(xué)習(xí),車輛Agent還按照該路徑撞向行人時(shí),行人Agent可以預(yù)先警報(bào)。此時(shí),根據(jù)多智能體完全對(duì)抗模型,車輛Agent的該位置的Q值(評(píng)分值)大幅下降,隨著后續(xù)模擬,該位置的Q值下降的趨勢(shì)向前傳遞,最終導(dǎo)致了該路徑的Q值低于周圍,車輛將另外選擇其他路徑去撞擊行人。此方法的好處是可以讓每個(gè)位置都得到充分的訓(xùn)練,不會(huì)出現(xiàn)個(gè)別位置訓(xùn)練不足或者過(guò)訓(xùn)練的現(xiàn)象出現(xiàn)。該過(guò)程示意如圖6所示。

兩個(gè)模型學(xué)習(xí)過(guò)程對(duì)比如圖7所示,斜率反映了兩個(gè)模型的訓(xùn)練效率。此方法相較于單Agent,其訓(xùn)練效率有了極大地提升,同樣條件下可以獲得更多的學(xué)習(xí)樣本。單智能體在訓(xùn)練16億次的情況下僅得到了2 017個(gè)有效學(xué)習(xí)樣本,而多智能體模型訓(xùn)練2×107次得到了得到了725個(gè)有效學(xué)習(xí)樣本,訓(xùn)練效率提高了28倍。所以應(yīng)用多智能體模型可以獲得更多學(xué)習(xí)樣本,從而實(shí)現(xiàn)算法優(yōu)化。

3 結(jié)束語(yǔ)

本文基于本質(zhì)安全和主動(dòng)防護(hù)的思想,為防車輛撞擊早期預(yù)警智能可穿戴設(shè)備,提出了模糊綜合評(píng)價(jià)法作為基礎(chǔ)架構(gòu)和多Agent強(qiáng)化學(xué)習(xí)的智能算法。文中從行人的角度出發(fā),在收集車輛和環(huán)境數(shù)據(jù)的基礎(chǔ)上,建立了車輛影響風(fēng)險(xiǎn)評(píng)價(jià)體系。本研究結(jié)合沖擊可能性仿真,采用模糊評(píng)價(jià)方法獲取各指標(biāo)的風(fēng)險(xiǎn),并采用BP神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)結(jié)合的方式獲取各指標(biāo)的動(dòng)態(tài)權(quán)重。文中基于以強(qiáng)化學(xué)習(xí)為學(xué)習(xí)樣本訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò),對(duì)不同情況下的車輛碰撞進(jìn)行了分析計(jì)算,并與以經(jīng)驗(yàn)為學(xué)習(xí)樣本訓(xùn)的BP神經(jīng)網(wǎng)絡(luò)、層次分析法和熵權(quán)法進(jìn)行了對(duì)比,證明了強(qiáng)化學(xué)習(xí)模型具有更高的預(yù)警精度。最后,本文針對(duì)單智能體強(qiáng)化學(xué)習(xí)效率低的問(wèn)題,利用多智能體強(qiáng)化學(xué)習(xí)提高學(xué)習(xí)效率。綜上可知,將模型和算法嵌入智能穿戴設(shè)備中,可以建立預(yù)警系統(tǒng),使行人收到預(yù)警信號(hào),及時(shí)脫離碰撞危險(xiǎn)。

猜你喜歡
行人權(quán)重危險(xiǎn)
毒舌出沒(méi),行人避讓
意林(2021年5期)2021-04-18 12:21:17
權(quán)重常思“浮名輕”
路不為尋找者而設(shè)
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
喝水也會(huì)有危險(xiǎn)
基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
我是行人
擁擠的危險(xiǎn)(三)
新少年(2015年6期)2015-06-16 10:28:21
層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型
河南科技(2014年15期)2014-02-27 14:12:51
話“危險(xiǎn)”
本溪市| 贞丰县| 商都县| 湖口县| 辽中县| 旬邑县| 克山县| 松潘县| 阿城市| 弥渡县| 泗阳县| 开封市| 鲁甸县| 门源| 邵武市| 合山市| 江门市| 通山县| 当阳市| 连城县| 黄石市| 明光市| 卫辉市| 逊克县| 玛曲县| 灵宝市| 台北市| 元谋县| 陆川县| 霍邱县| 若羌县| 望江县| 汝南县| 英德市| 林西县| 平顶山市| 昔阳县| 治县。| 龙川县| 淮阳县| 建湖县|