国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自然駕駛場景大數(shù)據(jù)的駕駛風格研究

2022-09-22 10:45劉迪鄭建明覃斌張宇飛張建軍
汽車技術(shù) 2022年9期
關(guān)鍵詞:高斯聚類均值

劉迪 鄭建明 覃斌 張宇飛 張建軍

(1.中國第一汽車股份有限公司 研發(fā)總院,長春 130013;2.汽車振動噪聲與安全控制綜合技術(shù)國家重點實驗室,長春 130013)

主題詞:駕駛風格辨識 大數(shù)據(jù) 主成分分析 高斯混合模型 隨機森林

1 前言

作為駕駛員長期駕駛方式的綜合評價指標,駕駛風格標簽的確定成為汽車智能算法實現(xiàn)個性化的先決條件。

在駕駛風格識別領(lǐng)域,國內(nèi)外學者開展了大量研究。在數(shù)據(jù)采集方面,一般采取填寫主觀問卷、在駕駛模擬器上模擬駕駛、在自然公開道路上駕駛等方式。主觀評價嚴重依賴歷史結(jié)果,駕駛模擬雖然簡單快速且不受天氣約束,但是難以預測并復現(xiàn)全部自然駕駛場景。

由于數(shù)據(jù)來源廣泛,許多學者對場景進行了切片,開展了更為細致的分析。在評價指標選取方面,文獻[5]考慮了車流密度的影響,文獻[6]對分時租賃展開了研究,文獻[7]以營運車輛的駕駛速度為評價指標進行聚類。在數(shù)據(jù)處理方面:Constantinescu 等應用主成分分析、信度和效度檢驗相結(jié)合的方法提取駕駛標簽并進行分類;M.Gys 認為諸如無監(jiān)督式學習、循環(huán)神經(jīng)網(wǎng)絡(luò)、支持向量機(Support Vector Machine,SVM)等人工智能算法具有更好的分類效果;文獻[10]設(shè)計了一套基于標準化駕駛表現(xiàn)和像空間重構(gòu)的定性評估方法;文獻[11]構(gòu)建多棵決策樹,引入隨機模型建立了辨識策略;蘇琛應用最大期望算法進行模型訓練,提出識別準確率和置信度的概念,計算了基于縱向激勵駕駛識別模型的最優(yōu)參數(shù)。

然而,已有研究往往依賴主客觀對標的方法,難以獲得統(tǒng)一的樣本標簽和聚類標準,且評價指標維度很高,模型復雜,同時,聚類結(jié)果較為剛性,難以識別邊緣數(shù)據(jù)。為了全方位分析大數(shù)據(jù)信息,獲取更為柔性的聚類結(jié)果,建立準確有效的聚類器,本文搭建自然駕駛場景數(shù)據(jù)采集平臺,進行數(shù)據(jù)清洗和行列篩選,采取主成分分析和因子旋轉(zhuǎn)的方法實現(xiàn)評價指標降維,分析駕駛員的自然駕駛工況和超速及極端工況數(shù)據(jù),分別建立聚類模型和辨識模型用于聚類多名駕駛員風格和辨識新樣本。利用無監(jiān)督學習方法,訓練基于K-均值聚類結(jié)果的高斯混合模型,通過迭代的方法尋找模型最佳參數(shù),獲得聚類結(jié)果。最后利用監(jiān)督學習方法,訓練隨機森林模型并交叉驗證其有效性,實現(xiàn)駕駛風格辨識。

2 自然駕駛場景數(shù)據(jù)采集平臺及數(shù)據(jù)提取方法

本文選取某車型作為場景采集車,將GPS和慣性測量單元(Inertial Measurement Unit,IMU)組合成慣性導航系統(tǒng),用來獲取時間信息、本車狀態(tài)和本車定位信息;搭載高清攝像頭、感知攝像頭、激光雷達、毫米波雷達獲取視頻數(shù)據(jù)、點云數(shù)據(jù)、目標種類及相對位置,如圖1所示。同時,以實時經(jīng)緯度坐標作為輸入,匹配開源地圖數(shù)據(jù)庫(Open Street Map,OSM),獲取實時道路類型信息。

圖1 傳感器的分布情況

基于該采集平臺,選擇33 名駕駛員在全國開放道路上行駛并完成數(shù)據(jù)采集。數(shù)據(jù)采集耗時6個月,總里程5×10km,長時間的駕駛數(shù)據(jù)幾乎能覆蓋駕駛員在各種情況下的行為表現(xiàn),具有很強的代表意義。采集過程中,可通過CAN總線和傳感器獲取80余類信號,數(shù)據(jù)采集結(jié)果可轉(zhuǎn)化為“4 億行×80 余列”的大型矩陣,供有效數(shù)據(jù)提取。

2.1 篩選數(shù)據(jù)行

為了激發(fā)駕駛員的差異化表現(xiàn),并清洗數(shù)據(jù),建立如下數(shù)據(jù)提取規(guī)則:

a.速度區(qū)間為30~120 km/h,避免低速情況下城市道路頻繁起停、倒車的場景;

b.提取本車正前方有目標車的場景,且碰撞時間(Time to Collision,TTC)在(0,10)s范圍內(nèi);

c.提取道路類型包括城市(主要道路、次要道路、居住區(qū))、快速路(高架、機場進站、過江隧道、橋上)、高速公路。

2.2 篩選數(shù)據(jù)列

從原始數(shù)據(jù)的80余個字段中初選與駕駛風格有關(guān)的10個評價指標,包括3類信息:

a.本車狀態(tài):速度、加速度、超速比例;

b.駕駛員輸入:制動踏板激活狀態(tài)、節(jié)氣門開度、最大節(jié)氣門開度;

c.與前車相對關(guān)系:相對速度、最大相對速度、相對距離(前車車尾與本車車頭的距離)、碰撞時間。

和產(chǎn)生的條件較為苛刻,且距離大部分樣本較遠,即使同一駕駛員也很難復現(xiàn),缺少代表性。本文選擇第90 分位點作為最大值,以剔除明顯不符合實際情況的或發(fā)生次數(shù)過少的樣本。

設(shè)城市道路、快速路、高速公路限速分別為70 km/h、80 km/h、120 km/h,超速比例表示車速超過當前道路限速90%所持續(xù)的時長占總駕駛時長的比例:

式中,、、分別為城市道路、快速路、高速公路上的超速時長;、、分別為城市道路、快速路、高速公路上的總時長。

此步驟輸出“千萬行×10列”的矩陣。

2.3 以速度為區(qū)段的分布式聚合方法

以每10 km/h 為一個區(qū)段,將30~120 km/h 分為9段。在每段區(qū)間內(nèi),取各評價指標的眾數(shù),即出現(xiàn)次數(shù)最多的值,再將9 組數(shù)據(jù)加權(quán)平均,得到單駕駛員有效數(shù)據(jù):

式中,C、d分別為每段區(qū)間的計數(shù)和眾數(shù)。

重復此步驟33 次,得到33 名駕駛員的有效數(shù)據(jù)矩陣。

以30~40 km/h為例,繪制、、、、分布情況(作為示例,此時未區(qū)分駕駛員),如圖2所示。

圖2 30 km/h≤v<40 km/h車速范圍內(nèi)各參數(shù)分布情況

此步驟輸出“33行×10列”的矩陣。

2.4 評價指標降維和標準化

矩陣仍包含10 個列字段。數(shù)據(jù)集不帶標簽,且存在線性結(jié)構(gòu),故采用主成分分析(Principal Compo?nent Analysis,PCA)方法降維。PCA 能降低數(shù)據(jù)空間的維度,識別最重要的指標,保證信息損失最小化,解決多重共線問題,防止過擬合,并加快算法迭代速度。

主成分的計算原理為:

式中,D為第個主成分;X為第個原始數(shù)據(jù);=1,2,…,;k為權(quán)重系數(shù)。

任意2 個主成分的協(xié)方差為零,方向正交,相互獨立。

經(jīng)分析,該樣本的主成分分析效度檢驗指標KMO為0.718>0.6,Bartlett 檢驗對應值=0,比較適合進行主成分分析。表1所示為主成分提取情況。前3個主成分的特征根值均大于1,且累積方差解釋率為78.856%。一般認為累計解釋率達70%~80%即為有效,因此取3個主成分代表全部主成分。

表1 主成分特征根矩陣

因子旋轉(zhuǎn)可使載荷矩陣值向0 或1 靠近,使每個因子具有較高或較低的載荷。因此旋轉(zhuǎn)因子能代表的駕駛行為信息比主成分更為明確,本文采用最大方差旋轉(zhuǎn)法。

主成分分析和因子旋轉(zhuǎn)后的載荷矩陣如表2 所示。如果載荷系數(shù)絕對值大于0.4,則說明該項與主成分有對應關(guān)系,且載荷系數(shù)越大,相關(guān)性越強。

表2 載荷系數(shù)表格

主成分PC1、PC2、PC3 能代表78.856%的原始數(shù)據(jù)。旋轉(zhuǎn)因子RC1 多與車輛自然狀態(tài)的平均值有關(guān),RC2 代表駕駛過程最基本屬性(速度和節(jié)氣門開度),RC3與發(fā)生超速及碰撞等極端工況有關(guān)。因此,以RC1和RC2為研究對象分析駕駛員在自然工況下的駕駛風格,以RC2 和RC3 為研究對象分析駕駛員超速并接近前車的傾向。

此步驟輸出“33 行×3 列”的矩陣。將其標準化,得到旋轉(zhuǎn)矩陣的成分得分,應用其進行聚類。

3 無監(jiān)督學習聚類

數(shù)據(jù)集不帶標簽,因此本次聚類屬于典型的無監(jiān)督學習。為提高準確度,本文綜合K-均值和基于K-均值結(jié)果的高斯混合模型作為最終聚類結(jié)果。

3.1 K-均值聚類

K-均值聚類具有方便快捷、魯棒性佳、適應性好的優(yōu)點。對于給定數(shù)據(jù)集=[…],K-均值聚類首先確定聚類數(shù)量,然后隨機選取聚類中心δ=(=1,2,…,),最后通過迭代計算使x與其最近的δ的歐氏距離之和最小:

本文將駕駛風格分為3 類,因此取=3。代表了聚類結(jié)果的緊密程度,結(jié)果越小,聚合效果越好。

然而,K-均值聚類結(jié)果只有“是”或“否”,僅根據(jù)到簇中心點的距離劃分數(shù)據(jù),聚類結(jié)果沒有邊界值。如果數(shù)據(jù)維度較低,操作者可以觀察邊緣數(shù)據(jù),但如果數(shù)據(jù)維度較高,則無法可視化,強行聚類可能得不到預期結(jié)果。因此,以K-均值聚類結(jié)果為基礎(chǔ),構(gòu)建高斯混合模型(Gaussian Mixture Modeling,GMM)。

3.2 基于K-均值結(jié)果的高斯混合模型聚類

GMM 的本質(zhì)是密度估計算法,它的擬合結(jié)果是描述數(shù)據(jù)分布的概率模型。GMM由多個單高斯模型組合而成,輸出結(jié)果是樣本占據(jù)某一聚類的概率。正如均值和方差能確定單高斯模型,均值向量和協(xié)方差矩陣能確定高維度的GMM,它的概率分布可表示為:

然而,GMM僅提供概率,如某個樣本所屬單高斯分布的概率接近,或者與K-均值聚類結(jié)果不統(tǒng)一,說明該樣本處于簇邊緣。對于此類樣本,應采取主客觀結(jié)合的方式進一步處理。

正因如此,在本文中GMM 不能用于辨識新的未知駕駛員的駕駛風格,其意義在于識別邊緣數(shù)據(jù)。

3.3 2種聚類結(jié)果對比

3.3.1 自然駕駛工況

選取旋轉(zhuǎn)因子RC1 和RC2 為研究對象,因此能可視化表達二維聚類結(jié)果,如圖3~圖5所示。

圖3 自然工況中K-均值和高斯混合聚類結(jié)果比對

圖4 自然工況中高斯模型等高線

圖5 自然工況中高斯模型曲面

由圖3可以看出,2種方法的聚類結(jié)果大致相同,僅有2 個樣本標簽出現(xiàn)了偏差。由圖4 可知,3 種標簽等高線迭代結(jié)果與樣本數(shù)據(jù)相符,數(shù)據(jù)均勻地分布在等高線周圍。2 個出現(xiàn)偏差的樣本恰好都在2 類等高線邊緣,而且概率相差不大。如果可獲取更多已知數(shù)據(jù)外的信息,則完全可以綜合考慮聚類結(jié)果,GMM 僅提供參考。圖5 在三維坐標系中直觀地刻畫了概率密度分布情況。

表3 所示為混淆矩陣,可以看出高斯模型將1 個謹慎型數(shù)據(jù)分類為激進型,將1個激進型數(shù)據(jù)分類為一般型,與上述定性分析結(jié)果一致。表4所示為33名駕駛員最終聚類結(jié)果。

表3 2種聚類方法的混淆矩陣

表4 駕駛員聚類結(jié)果

3.3.2 超速及極端工況

與3.3.1 節(jié)研究方法類似,選取旋轉(zhuǎn)因子RC2 和RC3 為研究對象,依次繪制K-均值和高斯混合聚類結(jié)果比對圖、高斯模型等高線圖、高斯模型曲面圖,如圖6~圖8所示。

圖6 極端工況K-均值和高斯混合聚類結(jié)果比對

圖7 極端工況高斯模型等高線

圖8 極端工況高斯模型曲面

由圖6~圖8可知,一般型和激進型的概率密度產(chǎn)生了部分重疊。激進型由于有極端值存在,導致方差較大,概率密度三維圖較為平緩。與3.3.1 節(jié)中的聚類結(jié)果類似,也有2個樣本標簽出現(xiàn)了偏差。最終聚類結(jié)果如表5所示。

表5 駕駛員標簽集

3.3.3 樣本集聚類結(jié)果

比較3.3.1和3.3.2節(jié)聚類結(jié)果,匯總至表6。有64%的駕駛員風格不變,36%的駕駛員在一般和激進間跳變。謹慎型駕駛員群體特別穩(wěn)定,從未發(fā)生變化,說明謹慎型駕駛員始終表現(xiàn)保守,與其他2種表現(xiàn)行為差異明顯。一般型和激進型之間存在差異,但無明顯閾值,部分駕駛員在遇到危險時,會因個體原因發(fā)生風格的變化。

表6 2種工況下駕駛員標簽綜合分析

4 利用監(jiān)督學習實現(xiàn)辨識

聚類結(jié)果包含數(shù)據(jù)和標簽信息,因此可利用監(jiān)督學習構(gòu)建機器學習模型,辨識未知駕駛員的駕駛風格。本文擬采用隨機森林模型作為分類器實現(xiàn)此功能。

每棵樹的訓練特征集合是從全部特征中抽取的,因此適合處理高維數(shù)據(jù)。特征較少的樣本隨機性降低,可能得不到最佳辨識結(jié)果。同時,隨機森林能檢測特征間的作用,解決共線問題。因此在訓練模型時,樣本集為矩陣及對應標簽。

4.1 訓練隨機森林模型

隨機森林是升級版決策樹,每棵樹對訓練樣本進行投票,最后取最高票對應的標簽作為分類結(jié)果。圖9所示為隨機森林模型建立過程。

圖9 隨機森林模型建立過程

具體實現(xiàn)流程如下:

a.隨機抽樣,訓練決策樹。有放回地隨機抽取多個樣本(即可存在重復樣本),形成樣本數(shù)據(jù)集1;

b.隨機選取屬性作為節(jié)點分類屬性。假設(shè)訓練樣本集包含個屬性,隨機在每個分裂節(jié)點處選擇個屬性,并且<,節(jié)點分裂屬性不可重復;

c.重復步驟b,直到不能再分裂為止;

d.重復步驟a~步驟c,建立多棵決策樹,形成森林。

4.2 交叉驗證隨機森林模型

采用留一法評估隨機森林模型的有效性。將33名駕駛員樣本組成的測試集劃分為訓練集和驗證集,訓練集包含32份樣本,驗證集包含1份樣本。更換不同的驗證集,進行33次交叉驗證,得到組驗證結(jié)果。比對聚類結(jié)果和辨識結(jié)果,分別計算3 種標簽的辨識率,進而得出隨機森林模型的綜合辨識率。原理如圖10所示。

圖10 交叉驗證法示意

表7、表8所示為2種工況交叉驗證結(jié)果。經(jīng)評估,基于隨機森林模型的辨識策略能正確識別100%自然工況的駕駛風格標簽,正確識別90.9%超速及極端工況的駕駛風格標簽。

表7 隨機森林模型交叉驗證結(jié)果

表8 隨機森林模型交叉驗證結(jié)果

5 結(jié)束語

本文建立了基于大數(shù)據(jù)的駕駛風格分類及辨識體系,構(gòu)建了自然駕駛數(shù)據(jù)采集平臺,選取評價指標并利用主成分分析實現(xiàn)降維,利用無監(jiān)督學習方法設(shè)計K-均值聚類方法,同時訓練基于K-均值聚類結(jié)果的高斯混合模型,以此獲得更為柔性的分類結(jié)果。最后訓練隨機森林模型,用來快速辨識未知駕駛員的風格標簽。當數(shù)據(jù)量不斷擴大,對于這些不可預知的工況和風格標簽,本文提出的方法仍具有普適性。

在實際駕駛中,不同場景(如起步、加速、減速、跟停)所表現(xiàn)出的風格可能不同,進一步細分場景得到多種標簽應作為下一步研究的課題。

猜你喜歡
高斯聚類均值
基于數(shù)據(jù)降維與聚類的車聯(lián)網(wǎng)數(shù)據(jù)分析應用
基于模糊聚類和支持向量回歸的成績預測
數(shù)學王子高斯
均值—方差分析及CAPM模型的運用
均值—方差分析及CAPM模型的運用
動腦算算題
均值不等式的小應用
基于密度的自適應搜索增量聚類法
應用均值定理“四”注意
如何使“等號”成立
咸丰县| 商丘市| 林芝县| 昆明市| 巴中市| 江口县| 克什克腾旗| 五台县| 五莲县| 达尔| 蓝山县| 衡水市| 磐石市| 东源县| 斗六市| 怀宁县| 临洮县| 大丰市| 邓州市| 进贤县| 阿拉善右旗| 湛江市| 甘肃省| 安化县| 荆州市| 新民市| 宾川县| 荣成市| 裕民县| 项城市| 靖远县| 益阳市| 商洛市| 乌兰察布市| 保山市| 隆化县| 驻马店市| 江油市| 阳朔县| 云浮市| 衡南县|