羅雲(yún)瀟 張海瑞 張振京 宋業(yè)棟 屈亞祥
摘 要:本文以車輛歷史運(yùn)行物理參數(shù)為研究對(duì)象,使用SOM-Kmeans聚類模型識(shí)別出司機(jī)的駕駛風(fēng)格,為發(fā)動(dòng)機(jī)經(jīng)濟(jì)優(yōu)化提供實(shí)際指導(dǎo)意義。首先基于K-means聚類優(yōu)先識(shí)別出了九種行駛工況,從中選取加速行為對(duì)應(yīng)的三類標(biāo)簽以駕駛循環(huán)為單位做特征統(tǒng)計(jì);隨后利用因子分析對(duì)數(shù)據(jù)降維,并通過SOM-Kmeans模型進(jìn)行聚類,得到溫和型、普通型和激進(jìn)型三種類別的駕駛風(fēng)格。
關(guān)鍵詞:行駛工況 駕駛風(fēng)格 因子分析 SOM-Kmeans
Study on Driving Style of Drivers based on SOM-Kmeans Algorithm
Luo Yunxiao Zhang Hairui Zhang Zhenjin Song Yedong Qu Yaxiang
Abstract:This paper takes the physical parameters of vehicle historical operation as the research object, and uses the SOM-Kmeans clustering model to identify the driving style of drivers, providing practical guidance for engine economic optimization. Firstly, nine driving cycles were identified preferentially based on K-means clustering, and three types of tags corresponding to acceleration behaviors were selected to make feature statistics in driving cycles. Then factor analysis was used to reduce the dimension of the data, and the SOM-Kmeans model was used for clustering, and three types of driving styles, mild, ordinary and radical, were obtained.
Key words:driving cycles, driving style, factor analysis, SOM-Kmeans
1 引言
卡車、工程車等大型車的高耗油量使眾多企業(yè)運(yùn)營成本居高不下,且鑒于能源危機(jī)與全球變暖愈發(fā)嚴(yán)重,節(jié)省燃油已成為全球共識(shí)[1]。本文通過對(duì)司機(jī)在駕駛過程中的加速行為進(jìn)行分析,辨識(shí)不同司機(jī)駕駛風(fēng)格,針對(duì)不同駕駛風(fēng)格優(yōu)化油門踏板MAP,為節(jié)省油耗提供方法支持。汪益純等[2]從交通安全出發(fā),根據(jù)實(shí)際案例構(gòu)建出影響初駕者的駕駛行為類別及其差異性;黃斐等[3]采用問卷調(diào)查的方式,按照因子分析與AHP相結(jié)合的模型對(duì)駕駛員傾向性進(jìn)行建立評(píng)價(jià)體系進(jìn)行辨識(shí);呂明等[4]從對(duì)車輛的性能要求出發(fā),使用SOM神經(jīng)網(wǎng)絡(luò)對(duì)起步工況進(jìn)行聚類得到三種風(fēng)格標(biāo)簽:溫和型、普通型和激進(jìn)型;王科銀等[5]使用SVM駕駛風(fēng)格識(shí)別模型方法與ANN模型進(jìn)行了對(duì)比,得到SVM模型識(shí)別精度更高;姚柳成等[6]先使用相關(guān)分析與主成分分析對(duì)數(shù)據(jù)進(jìn)行篩選與降維,再根據(jù)K-means算法對(duì)駕駛行為進(jìn)行分類辨識(shí),也得到三種駕駛行為風(fēng)格。本文從節(jié)省油耗出發(fā),使用SOM-Kmeans分類方法有效了解數(shù)據(jù)內(nèi)部所隱藏類別,構(gòu)建行駛工況聚類模型與駕駛風(fēng)格識(shí)別模型,將司機(jī)駕駛風(fēng)格分為三類,其中具體技術(shù)路線如圖1所示。
2 數(shù)據(jù)的采集及預(yù)處理
2.1 數(shù)據(jù)采集
本文選取某車輛(路線:許昌-上海)2021年6月至2021年12月的行駛數(shù)據(jù),采集頻率為1s,共計(jì)300多萬條。數(shù)據(jù)集共包含有車速、加速度、油門踏板開度、踏板需求扭矩、瞬時(shí)油耗、剎車等變量。
2.2 數(shù)據(jù)預(yù)處理
2.2.1 異常值處理
車輛在行駛過程中可能因?yàn)樾盘?hào)不穩(wěn)定使得數(shù)據(jù)傳輸產(chǎn)生錯(cuò)誤和偏差,從而導(dǎo)致異常。依據(jù)參數(shù)的物理意義,對(duì)于異常數(shù)據(jù)使用前三個(gè)相鄰的數(shù)據(jù)均值進(jìn)行替換。對(duì)于數(shù)據(jù)原本的缺失值同樣以上述方式進(jìn)行填補(bǔ)。由于本文研究側(cè)重駕駛過程中的司機(jī)行為,故排除速度為0的樣本點(diǎn)。
2.2.2 加速度濾波
加速度傳感器在采集數(shù)據(jù)過程中,可能由于人為、技術(shù)以及環(huán)境等因素的不確定性,使得原始數(shù)據(jù)產(chǎn)生各種噪聲,為了得到平衡有效的頻帶幅度,利用巴特沃斯低通濾波算法來抑制噪聲。
2.2.3 巴特沃斯低通濾波算法
巴特沃斯濾波器其幅度平方函數(shù)的表達(dá)式為
式中:為濾波器階數(shù),為3dB低通濾波器截止頻率。該濾波器在通帶和阻帶內(nèi)的幅度響應(yīng)隨截止頻率的增加而減小,且下降速度與濾波器階數(shù)有關(guān),階數(shù)越大,幅度下降就越快,過渡帶就越窄。故巴特沃斯低通濾波器的特性完全由階數(shù)和3dB截止頻率決定[7]。通過對(duì)比不同參數(shù)模型,選取3dB截止頻率為0.2,階數(shù)為4。相關(guān)結(jié)果如圖2所示。
3 行駛工況聚類模型
3.1 歸一化
不同變量間量綱不同,使得模型訓(xùn)練過程中對(duì)數(shù)值大的變量學(xué)習(xí)過多,而對(duì)數(shù)值小的變量訓(xùn)練不夠充分,最終模型表現(xiàn)不好,為消除量綱影響,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
最大最小歸一化,是利用數(shù)據(jù)列中最大值和最小值進(jìn)行標(biāo)準(zhǔn)化處理,將原始數(shù)據(jù)線性化地轉(zhuǎn)換到[0,1]之間,具體公式為
式中:為樣本數(shù)據(jù)的最小值,為樣本數(shù)據(jù)的最大值。本文使用最大最小歸一化的方法對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
3.2 k-means聚類
3.2.1 K-means聚類原理
K-means屬于無監(jiān)督聚類算法[8],其基本思想為對(duì)于給定的數(shù)據(jù)集,按照樣本間的距離大小將樣本集劃分為K個(gè)簇,使簇內(nèi)的點(diǎn)盡量緊密相連,而簇間的距離盡可能大。我們的學(xué)習(xí)目標(biāo)就是讓平均誤差最小化,即
式中:是簇的均值向量,也稱為質(zhì)心,表達(dá)式為
K-means算法流程:
輸入:樣本集,聚類類型數(shù)量值;
輸出:簇劃分;
1)從數(shù)據(jù)集中隨機(jī)選取個(gè)點(diǎn),作為初始化的中心點(diǎn):;
2)計(jì)算剩余每個(gè)樣本到中心點(diǎn)的距離:,將歸屬到距離最小的中心點(diǎn)簇上;
3)對(duì)重新計(jì)算簇中心;
4)如果簇中心改變,則返回步驟2,如果簇中心保持不變,則算法結(jié)束。
3.2.2 K-means聚類及合并
對(duì)于聚類數(shù)量的選擇,本文主要考慮兩方面。一是聚類數(shù)量是否能夠完整劃分駕駛員的數(shù)據(jù)分布空間,二是要保證聚類類別盡可能少,使得模型復(fù)雜度降低,減少運(yùn)行時(shí)間。為保證最終分類邊界合理且便于后續(xù)模型使用,采取從少到多的逐步搜索方法選定k值,選定k=50進(jìn)行建模,最終聚類效果見圖3。
為簡(jiǎn)化模型,盡可能減少標(biāo)簽數(shù)量,將速度按照(0,30]、(30,60]、(60,],同時(shí)加速度按照(,-0.1]、(-0.1,0.1]、(0.1,]區(qū)間進(jìn)行劃分,兩兩組合后合并聚類中心,最終得到低速減速、低速巡航、低速加速、中速減速、中速巡航、中速加速、高速減速、高速巡航、高速加速這9類行駛工況,合并結(jié)果如圖4所示。
4 駕駛風(fēng)格識(shí)別
4.1 特征統(tǒng)計(jì)和因子分析
4.1.1 特征統(tǒng)計(jì)
為更好識(shí)別駕駛風(fēng)格,本文將數(shù)據(jù)按照駕駛循環(huán)(從點(diǎn)火開始至熄火結(jié)束)劃分為若干子集,并對(duì)其進(jìn)行相應(yīng)的特征統(tǒng)計(jì)。駕駛風(fēng)格可以體現(xiàn)在很多具有統(tǒng)計(jì)意義的特征數(shù)據(jù)上,比如速度和加速度的分布區(qū)間能夠體現(xiàn)出駕駛員某種駕駛偏好、加速度和踏板開度的均值和眾數(shù)可反應(yīng)駕駛員對(duì)車輛動(dòng)力性需求、速度和加速度的方差又可體現(xiàn)駕駛員的操作穩(wěn)定性等等。在行駛工況合理分類情況下,駕駛員的駕駛行為具有統(tǒng)計(jì)意義上的規(guī)律性。由于本文數(shù)據(jù)采集于上海至許昌往返線路中的某臺(tái)快遞車,其在固定條件下體現(xiàn)出的規(guī)律性將更加明顯,具有較強(qiáng)的工程意義。
鑒于本文著眼于加速狀態(tài),故選取低速加速、中速加速與中速巡航三類行駛工況進(jìn)行特征統(tǒng)計(jì)。首先統(tǒng)計(jì)車速和加速度分布情況,并對(duì)不同行駛工況下的車速、加速度、踏板開度和扭矩分別計(jì)算其均值、方差和眾數(shù),隨后統(tǒng)計(jì)不同駕駛循環(huán)下的平均油耗以及踩剎車的總次數(shù)。
4.1.2 因子分析
因子分析是一種成熟的指標(biāo)體系構(gòu)建方法,其主要目的是找出不可觀測(cè)的潛在變量作為公共因子,并解釋公共因子含義來探討數(shù)據(jù)內(nèi)部結(jié)構(gòu)。該模型可將觀測(cè)變量分解為公共因子、特殊因子與誤差項(xiàng)三部分[2]。假設(shè)有個(gè)樣品,個(gè)變量,是隨機(jī)向量,是要找尋的公共因子。
最終的因子分析模型為:
其中,為公共因子,即各觀測(cè)變量所共有的因子,解釋變量間的關(guān)系;為特殊因子,表示變量不能被公共因子解釋的部分;為第i個(gè)變量在第個(gè)公共因子上的因子荷載。
由于所統(tǒng)計(jì)的特征較多,且不同特征間相關(guān)性較大,故利用該方法進(jìn)行降維以探討結(jié)構(gòu)。同時(shí)計(jì)算KMO統(tǒng)計(jì)量,并進(jìn)行Bartlett’s test來觀察變量間的相關(guān)程度。根據(jù)計(jì)算,KMO=0.827>0.8,表明變量間信息重疊度較高,適合因子分析[5]。由Bartlett’s test看出,P <0.01,應(yīng)拒絕原假設(shè),即認(rèn)為變量間存在相關(guān)性。對(duì)于因子數(shù)量的選擇,本文先使用Kaiser準(zhǔn)則進(jìn)行初步計(jì)算,再根據(jù)具體試驗(yàn)分析,最終選定5個(gè)公共因子。
圖5為所得的因子載荷情況,可以看出第一公因子在速度相關(guān)變量具有高負(fù)載,將其稱為速度因子;第二公因子與踏板開度和油耗相關(guān),則稱其為油門因子;第三公因子、第四公因子和第五公因子分別于加速度、踏板開度扭矩、剎車強(qiáng)相關(guān),故稱它們?yōu)榧铀僖蜃?、踏板因子和剎車因子。
4.2 駕駛風(fēng)格聚類分析
4.2.1 SOM-Kmeans模型
自組織映射神經(jīng)網(wǎng)絡(luò)(SOM)屬于無監(jiān)督學(xué)習(xí),由Helsink大學(xué)的T.Kohonen教授在1981年提出。該模型具有良好的自組織性和可視化等特性,其結(jié)構(gòu)包括輸入層和競(jìng)爭(zhēng)層,輸入層負(fù)責(zé)接收數(shù)據(jù),競(jìng)爭(zhēng)層負(fù)責(zé)對(duì)輸入進(jìn)行比較分類。該網(wǎng)絡(luò)主要利用迭代方法計(jì)算各輸入向量與競(jìng)爭(zhēng)層處理單元間的連接權(quán)值向量,通過競(jìng)爭(zhēng)學(xué)習(xí)算法來不斷調(diào)整連接權(quán)重值使其越來越接近原輸入向量的值,直到輸入向量與連接權(quán)值之間總距離為最小或最大學(xué)習(xí)循環(huán)時(shí),停止訓(xùn)練。[4,9]
SOM-Kmeans模型基本思想為使用SOM算法進(jìn)行初步聚類,隨后在此基礎(chǔ)上進(jìn)行二次聚類來獲取標(biāo)簽。其主要思路共兩步:第一步,先利用SOM算法進(jìn)行聚類,獲得其聚類中心和中心個(gè)數(shù);第二步,將SOM訓(xùn)練得到的聚類中心使用K-means算法再聚類,從而得到想要的聚類數(shù)量。
4.2.2 聚類結(jié)果驗(yàn)證
利用SOM-Kmeans模型對(duì)駕駛風(fēng)格進(jìn)行識(shí)別,最終將其劃分為溫和型、普通型和激進(jìn)型三種類型。隨后通過GMM模型進(jìn)行驗(yàn)證,將兩種模型產(chǎn)生的駕駛風(fēng)格進(jìn)行輸出對(duì)比。如表1所示,左邊是GMM模型產(chǎn)生的風(fēng)格標(biāo)簽,右邊是SOM-Kmeans模型產(chǎn)生的風(fēng)格標(biāo)簽,兩個(gè)模型的辨識(shí)結(jié)果吻合度達(dá)到91.3%,因此可認(rèn)為駕駛風(fēng)格的識(shí)別有效。
根據(jù)SOM-Kmeans模型得到的標(biāo)簽進(jìn)行分析,將各個(gè)標(biāo)簽中的速度、加速度、噴油量相關(guān)統(tǒng)計(jì)量取其均值進(jìn)行比較,得到如圖7所示的結(jié)果,顯而易見,激進(jìn)型風(fēng)格的速度、加速度和噴油量都是最高的,所成結(jié)果符合預(yù)期效果。
5 結(jié)論
本文基于固定路線研究駕駛員駕駛風(fēng)格。通過SOM-Kmeans聚類劃分出了溫和型、普通型和激進(jìn)型三種駕駛風(fēng)格。利用GMM模型對(duì)其進(jìn)行驗(yàn)證,根據(jù)對(duì)照模型吻合度達(dá)80%以上認(rèn)為該模型有效。當(dāng)前建立的駕駛風(fēng)格識(shí)別模型為油門踏板MAP優(yōu)化提供一個(gè)新的參數(shù),根據(jù)不同的駕駛風(fēng)格進(jìn)行優(yōu)化,以減少燃油消耗,降低運(yùn)營成本。
參考文獻(xiàn):
[1]張賢彪.汽車駕駛油耗影響因素及節(jié)油策略分析[J].時(shí)代汽車,2020,(09):18-19.
[2]汪益純,陳川.基于因子分析法的初駕者駕駛行為研究[J].武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版),2012,36(05):1064-1068.
[3]黃斐,鄒忠義,謝光旺. 基于AHP和因子分析法的駕駛傾向性評(píng)價(jià)體系研究[J]. 中國市場(chǎng),2018,(21):67-75.
[4]呂明,張瀅,馮先澤. 基于SOM神經(jīng)網(wǎng)絡(luò)的多工況駕駛風(fēng)格識(shí)別[J]. 汽車實(shí)用技術(shù),2021,46(02):108-112.
[5]王科銀,楊亞會(huì),王思山,等. 駕駛風(fēng)格聚類與識(shí)別研究[J]. 湖北汽車工業(yè)學(xué)院學(xué)報(bào),2021,35(03):1-6.
[6]姚柳成,鄒智宏. 基于數(shù)據(jù)降維與聚類的車聯(lián)網(wǎng)數(shù)據(jù)分析應(yīng)用[J]. 汽車實(shí)用技術(shù). 2022,47(04):24-28.
[7]張斐,劉志杰. 加速度傳感器信號(hào)數(shù)據(jù)處理中濾波算法的應(yīng)用[J]. 電腦與信息技術(shù),2018,26(03):1-4.
[8]易茹. 基于K均值聚類算法的數(shù)字媒體推薦方法研究[J].長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2020,21(04):99-102.
[9]趙文均.基于SOM和BP網(wǎng)絡(luò)的K均值聚類算法分析[J]. 電腦知識(shí)與技術(shù),2020,16(09):24-26.