收稿日期:2023-09-13
DOI:10.19850/j.cnki.2096-4706.2024.07.020
摘? 要:駕駛員駕駛平穩(wěn)性分析對(duì)研究交通安全影響因素起著至關(guān)重要的作用。為此提出基于車(chē)載自動(dòng)診斷系統(tǒng)(OBD)采集數(shù)據(jù),利用多項(xiàng)式回歸進(jìn)行短時(shí)間內(nèi)車(chē)輛速度預(yù)測(cè)研究。首先分析影響車(chē)輛駕駛速度的客觀因素,如地勢(shì)、天氣、行駛路徑等。其次通過(guò)控制客觀因素不變,整合有效駕駛速度數(shù)據(jù)進(jìn)行多項(xiàng)式回歸預(yù)測(cè),得到模型的參數(shù)。通過(guò)真實(shí)值與預(yù)測(cè)值的比對(duì),得到均方差MSE與擬合優(yōu)度,進(jìn)而得到最優(yōu)參數(shù)。最后通過(guò)大量的實(shí)驗(yàn)數(shù)據(jù),驗(yàn)證了該模型在此次研究中取得了很好的預(yù)測(cè)結(jié)果。
關(guān)鍵詞:多項(xiàng)式回歸;駕駛行為;OBD;統(tǒng)計(jì)分析;時(shí)間序列分析;ARIMA
中圖分類(lèi)號(hào):TP391? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2024)07-0091-04
The Analysis of Driver Driving Stability Based on OBD Data Acquisition
LI Wenting
(Qiming Information Technology Co., Ltd., Changchun? 130122, China)
Abstract: The analysis of driver driving stability plays a crucial role in studying the factors affecting traffic safety. To this end, it is proposed to use polynomial regression to predict vehicle speed in a short period of time based on data collected by an on-board automatic diagnostic system (OBD). Firstly, it analyzes the objective factors that affect the driving speed of vehicles, such as terrain, weather, driving path, etc. Secondly, by controlling objective factors to remain unchanged and integrating effective driving speed data for polynomial regression prediction, the parameters of the model are obtained. By comparing the true value with the predicted value, the mean squared error (MSE) and goodness of fit are obtained, thereby obtaining the optimal parameters. Finally, through a large amount of experimental data, it is verified that the model has achieved good prediction results in this study.
Keywords: polynomial regression; driving behavior; OBD; statistical analysis; time series analysis; ARIMA
0? 引? 言
隨著汽車(chē)行業(yè)的發(fā)展與人們生活水平的提高,汽車(chē)的普及率在逐年上升,交通事故的發(fā)生也越來(lái)越多,而造成交通事故的一個(gè)主要原因就是不良駕駛行為,分析駕駛員的不良駕駛行為既可以輔助減少交通事故,又能夠?yàn)檐?chē)險(xiǎn)提供強(qiáng)有力的依據(jù),因此越來(lái)越多人關(guān)注不良駕駛行為的研究,此項(xiàng)研究具有重大意義。
因大數(shù)據(jù)技術(shù)的急速發(fā)展,越來(lái)越多的學(xué)者運(yùn)用大數(shù)據(jù)對(duì)駕駛?cè)藛T的不良駕駛行為進(jìn)行分析,并取得了一定的研究成果。梁陳磊[1]等人以O(shè)BD獲取的汽車(chē)行駛CAN數(shù)據(jù)流為基礎(chǔ),運(yùn)用關(guān)聯(lián)分析的方法研究不良駕駛行為之間的內(nèi)在聯(lián)系,為個(gè)性化駕駛提供相應(yīng)的理論依據(jù)。雷財(cái)林[2]等人針對(duì)駕駛行為評(píng)價(jià)指標(biāo)大多通過(guò)主觀方法確定的局限,基于人工智能領(lǐng)域粗糙集理論,提出考慮天氣情況、道路條件等道路安全評(píng)價(jià)體系構(gòu)建思路。鄭美容[3]分析與評(píng)估駕駛行為,建立行車(chē)安全評(píng)估模型,為智能交通系統(tǒng)建設(shè)提供參考??梢钥吹侥壳搬槍?duì)個(gè)人不良駕駛行為研究較少[4-6]。
本文通過(guò)OBD獲取大量個(gè)人駕駛信息數(shù)據(jù)流,嚴(yán)格控制天氣、路段與車(chē)輛基本情況等外部信息影響,通過(guò)時(shí)間序列、回歸等方法,對(duì)駕駛?cè)藛T的駕駛平穩(wěn)性進(jìn)行分析,輔助較少因不良駕駛行為導(dǎo)致的交通事故發(fā)生,同時(shí)為車(chē)輛保險(xiǎn)提供更強(qiáng)有力的支持。
1? 有關(guān)數(shù)據(jù)介紹
1.1? 數(shù)據(jù)來(lái)源
OBD是車(chē)載自動(dòng)診斷系統(tǒng),從外觀上看是一個(gè)小盒子,插在車(chē)上可讀取車(chē)輛的數(shù)據(jù)參數(shù)和相關(guān)信息,可以實(shí)時(shí)記錄和監(jiān)測(cè)發(fā)動(dòng)機(jī)的運(yùn)行情況和尾氣后處理裝置的工作狀態(tài)。同時(shí)可將采集到的數(shù)據(jù)實(shí)時(shí)傳到監(jiān)測(cè)平臺(tái)上。業(yè)內(nèi)俗稱(chēng)“T-Box”。
1.2? 數(shù)據(jù)ETL
常規(guī)OBD采集的信號(hào)量(特征)數(shù)量在500+,常用的信號(hào)量數(shù)量在100+。由于特征數(shù)量較多,需要從中篩選出與本次研究相關(guān)的特征。與張鵬[7]等人研究基于CNN-LSTM的QAR數(shù)據(jù)特征提取方法不同,本文通過(guò)基于業(yè)務(wù)理解,數(shù)據(jù)表現(xiàn)等多方因素提取特征。特征主要分為以下幾類(lèi):
1)天氣信息。獲取天氣信息主要是基于設(shè)備經(jīng)緯度識(shí)別行政區(qū)劃代碼,后訪(fǎng)問(wèn)百度地圖API得到該地區(qū)當(dāng)前天氣數(shù)據(jù);包括溫度、濕度、風(fēng)力等。在惡劣的天氣條件下,如降雨強(qiáng)度的增加,導(dǎo)致能見(jiàn)度減小,會(huì)對(duì)駕駛?cè)藛T的駕駛速度產(chǎn)生嚴(yán)重的影響。在車(chē)輛速度預(yù)測(cè)過(guò)程中,為了減少天氣原因的干擾,在選取訓(xùn)練測(cè)試數(shù)據(jù)時(shí),保證車(chē)輛行駛過(guò)程中溫度,濕度(浮動(dòng)±5),風(fēng)力等級(jí)相同。
2)地理位置信息。用于描述車(chē)輛位置,包括省市縣及該地區(qū)地勢(shì)類(lèi)別(平原、高原、盆地等)在入模型的數(shù)據(jù)中。
3)車(chē)輛基本信息。主要包括車(chē)輛的底盤(pán)號(hào)、車(chē)輛類(lèi)型及用途、注冊(cè)地址等。
4)車(chē)輛運(yùn)行信息。用于描述車(chē)輛當(dāng)前運(yùn)行情況,包括行駛里程、故障信息、車(chē)速、油門(mén)開(kāi)合角度、加速度等。
1.3? 數(shù)據(jù)整合
1)有效駕駛切割。通過(guò)OBD采集的駕駛數(shù)據(jù)是零散的,在做速度預(yù)測(cè)時(shí),為了保證預(yù)測(cè)的結(jié)果準(zhǔn)確度高。需要將駕駛數(shù)據(jù)分為N次有效駕駛,在每一次有效駕駛數(shù)據(jù)中分別建立預(yù)測(cè)模型。分段的標(biāo)準(zhǔn)如下在駕駛員的一天駕駛數(shù)據(jù)中,速度為0,發(fā)動(dòng)機(jī)轉(zhuǎn)速為0判定車(chē)輛處于停止?fàn)顟B(tài)。同時(shí)行駛距離大于1 km且與下一次駕駛間隔一分鐘判定為一次有效駕駛。
2)環(huán)境數(shù)據(jù)匹配。提取某一用戶(hù)A一年的駕駛數(shù)據(jù),根據(jù)經(jīng)緯度及日期時(shí)間匹配當(dāng)天當(dāng)?shù)氐牡乩硇畔⒓碍h(huán)境信息。保證入模型的行駛數(shù)據(jù)地勢(shì)類(lèi)別相同,經(jīng)緯度距離在50 km以?xún)?nèi)。同時(shí)溫度及濕度相差±5°,當(dāng)天天氣晴朗。
此行為是為了減少環(huán)境對(duì)速度預(yù)測(cè)的干擾。提升速度預(yù)測(cè)的準(zhǔn)確度。以每10秒鐘數(shù)據(jù)為一個(gè)節(jié)點(diǎn),用前10秒的數(shù)據(jù)預(yù)測(cè)第11秒的速度。
1.4? 數(shù)據(jù)處理
速度數(shù)據(jù)的有效處理,通過(guò)識(shí)別車(chē)輛經(jīng)緯度信息,篩選經(jīng)常在市區(qū)內(nèi)行駛的車(chē)輛。這部分車(chē)輛的速度應(yīng)在0~80 km/h之間。隨機(jī)抽取一段車(chē)輛駕駛速度數(shù)據(jù),如圖1所示,車(chē)輛一次行駛速度分布情況。發(fā)現(xiàn)車(chē)輛速度會(huì)出現(xiàn)負(fù)值或超速(大于100 km/h)的情況。同時(shí)通過(guò)箱線(xiàn)圖尋找數(shù)據(jù)的異常點(diǎn),箱線(xiàn)圖能夠明確的展示離群點(diǎn)的信息,同時(shí)能夠讓我們了解數(shù)據(jù)是否對(duì)稱(chēng),數(shù)據(jù)如何分組、數(shù)據(jù)的峰度。后剔除包含異常點(diǎn)的駕駛數(shù)據(jù)。
圖1? 車(chē)輛一次行駛速度分布情況
2? 基于多項(xiàng)式回歸的速度預(yù)測(cè)
2.1? 整體思路
與董紅召[8]等人研究OBD支持下公交車(chē)到達(dá)時(shí)間的回歸預(yù)測(cè)方法不同,本文借助曲線(xiàn)擬合回歸算法中的多元多項(xiàng)式擬合算法??紤]到前10秒駕駛速度和下一秒駕駛速度不一定呈線(xiàn)性關(guān)系,因此,借助一個(gè)非線(xiàn)性模型進(jìn)行訓(xùn)練是較為合理的。多元多項(xiàng)式擬合算法用平方誤差和作為損失函數(shù),以方差最小作為擬合標(biāo)準(zhǔn),采用最小二乘法。最小二乘法通過(guò)最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配,這與我們?cè)u(píng)價(jià)的參考指標(biāo)也能很好地契合。最終,我們通過(guò)擬合優(yōu)度從不同冪次的模型中選出最優(yōu)模型。
2.1.1? 原始數(shù)據(jù)
抽取一次有效行駛數(shù)據(jù),車(chē)輛行駛速度隨時(shí)間的變化數(shù)據(jù)。樣例數(shù)據(jù)如表1所示。
2.1.2? 數(shù)據(jù)多項(xiàng)式擬合
將原始數(shù)據(jù)帶入學(xué)習(xí)模型進(jìn)行學(xué)習(xí),使其損失函數(shù)最小化,推導(dǎo)出不同的冪次和系數(shù)。給定一個(gè)最小擬合優(yōu)度R2 = 0.99,直至訓(xùn)練模型達(dá)到的擬合優(yōu)度0.99即認(rèn)為其擬合情況滿(mǎn)足要求,此時(shí)的冪次和系數(shù)即為我們所求。擬合結(jié)果參數(shù)如表2所示。
2.1.3? 擬合方程優(yōu)化
可以看出1到4次多元多項(xiàng)式的擬合優(yōu)度都大于0.99,但是均方差MSE越來(lái)越大,說(shuō)明出現(xiàn)了過(guò)擬合情況。因此,我們選擇1次多元多項(xiàng)式。同時(shí)選取多組數(shù)據(jù)進(jìn)行預(yù)測(cè),觀察其誤差、均方差以及誤差圖像,判斷駕駛員的駕駛平穩(wěn)性。
2.1.4? 預(yù)測(cè)結(jié)果
經(jīng)過(guò)多次訓(xùn)練,得到預(yù)測(cè)誤差、均方差如表3所示。表中誤差大多數(shù)都在[0,1],均方差位于[0,1]可以借此評(píng)判駕駛員的駕駛平穩(wěn)性;也可根據(jù)最終的誤差曲線(xiàn)來(lái)評(píng)判駕駛員的駕駛平穩(wěn)性,繪制速度擬合趨勢(shì)曲線(xiàn),如圖2所示,圖像顯示誤差曲線(xiàn)在零線(xiàn)浮動(dòng),說(shuō)明此駕駛員的駕駛是較為平穩(wěn)的。
2.2? 術(shù)語(yǔ)介紹
以下為部分術(shù)語(yǔ)介紹[9,10]:
1)學(xué)習(xí)模型。m是每一次參與擬合的數(shù)據(jù)量,n是每次學(xué)習(xí)的最高次冪。 是擬合的下一秒速度,xi,xj是前i,j秒速度。
a是多元多項(xiàng)式的系數(shù),也是我們曲線(xiàn)擬合需要求得的未知數(shù)。
n次多元多項(xiàng)式有a0000到ammk(n-k)(0≤k≤n)這
(n + 1) (n + 2) / 2個(gè)未知的擬合系數(shù),我們要做的就是求出這最佳的n值和(n + 1) (n + 2) / 2個(gè)擬合系數(shù)。
2)損失函數(shù)。 是第i個(gè)下一秒擬合速度,yi是第i個(gè)下一秒實(shí)際速度,平方誤差和作為損失函數(shù),使其最小化為模型的優(yōu)化目標(biāo)。
3)目標(biāo)函數(shù)。根據(jù)目標(biāo)函數(shù)所推導(dǎo)出的a0000到ammk(n-l)(0≤k≤n)便是n次冪時(shí)最佳的(n+1) (n + 2) / 2個(gè)擬合系數(shù)。
4)擬合優(yōu)度。擬合優(yōu)度R2越接近于1,說(shuō)明曲線(xiàn)的擬合效果越好,可以提供一個(gè)值,當(dāng)R2大于這個(gè)值時(shí),我們便判定其達(dá)到了我們預(yù)期的擬合效果,確定其為最終模型。
5)均方差。均方差表示進(jìn)行預(yù)測(cè)的實(shí)際速度和擬合速度的誤差平方和均值,用于評(píng)判駕駛員駕駛的平穩(wěn)性。MSE越小說(shuō)明駕駛員駕駛得越平穩(wěn)。
6)訓(xùn)練集。表示用于模型訓(xùn)練的已知數(shù)據(jù)集。
3? 基于時(shí)間序列的速度預(yù)測(cè)
3.1 整體思路
在此應(yīng)用場(chǎng)景下,速度的變化受多種因素影響,有些影響因素的數(shù)據(jù)難以收集,以至于用回歸模型來(lái)發(fā)現(xiàn)其變化發(fā)展規(guī)律會(huì)產(chǎn)生偏差,此時(shí),時(shí)間序列分析模型也許會(huì)更好,因?yàn)椴恍杞⒁蚬P(guān)系模型,僅需要通過(guò)自身數(shù)據(jù)就可以建模。時(shí)間序列分析是按照時(shí)間順序取得的一系列觀測(cè)值,通過(guò)對(duì)相鄰時(shí)間的相互作用進(jìn)行分析,進(jìn)而達(dá)到預(yù)測(cè)未來(lái)事件的目的。本次車(chē)輛行駛速度的預(yù)測(cè)就是按照時(shí)間順序取得的一系列觀測(cè)值,利用速度序列觀測(cè)值之間的依賴(lài)關(guān)系和相關(guān)性,進(jìn)行動(dòng)態(tài)預(yù)測(cè)。
3.1.1? 序列平穩(wěn)性檢驗(yàn)
時(shí)間序列模型要求序列是平穩(wěn)的,通過(guò)數(shù)據(jù)得到擬合曲線(xiàn),在短時(shí)間內(nèi)能順著現(xiàn)有的形態(tài)延續(xù)下去??衫每梢暬瘮?shù)據(jù)的方式查看序列平穩(wěn),同時(shí)利用ADF檢驗(yàn)。檢驗(yàn)結(jié)果P-value小于0.05,拒絕原假設(shè),故為趨勢(shì)項(xiàng)平穩(wěn),故不需要再進(jìn)行差分,使得序列平穩(wěn)化。
3.1.2? 白噪聲檢驗(yàn)
白噪聲是嚴(yán)平穩(wěn)中的一種,是完全隨機(jī)的序列,通俗講過(guò)去的行為與未來(lái)毫無(wú)關(guān)系,無(wú)法從中得到有用的結(jié)果。利用Ljung-Box進(jìn)行白噪聲檢驗(yàn),p值小于0.05,所以在95%的置信水平下認(rèn)為序列為非白噪聲。
3.1.3? 確定p,q值
利用自相關(guān)圖和偏自相關(guān)圖確定q,p值,通過(guò)測(cè)試數(shù)據(jù)得到下圖,圖3為測(cè)試數(shù)據(jù)的偏自相關(guān)圖;自相關(guān)圖中出現(xiàn)拖尾,圖3中的數(shù)據(jù)在4處出現(xiàn)截尾。由此確定,p值為4,q值為0。同時(shí)利用BIC進(jìn)行校驗(yàn),選取bic值最小的p,q組合。
圖3? 測(cè)試數(shù)據(jù)的偏自相關(guān)圖
3.1.4? 訓(xùn)練模型及預(yù)測(cè)
得到ARIMA模型的參數(shù)后,利用訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練。測(cè)試數(shù)據(jù)進(jìn)行模型驗(yàn)證。發(fā)現(xiàn)預(yù)測(cè)的時(shí)長(zhǎng)越長(zhǎng),模型效果越差。該模型的MSE與多項(xiàng)式回歸模型的值大致相同,兩個(gè)模型在當(dāng)前這份訓(xùn)練數(shù)據(jù)及測(cè)試數(shù)據(jù)中表現(xiàn)能力相差不多。預(yù)測(cè)值與實(shí)際值對(duì)比如圖4所示。
3.2? 術(shù)語(yǔ)介紹
1)自相關(guān)函數(shù)(ACF)。自相關(guān)函數(shù)反映了同一序列在不同時(shí)序的取值之間的相關(guān)性。
2)偏自相關(guān)函數(shù)(PACF)。PACF剔除了中間k-1個(gè)隨機(jī)變量x(t-1),x(t-2),…,x(t-k+1)的干擾之后,x(t-k)對(duì)x(t)影響的相關(guān)程度。
3)貝葉斯信息準(zhǔn)則(BIC)。K是模型參數(shù)個(gè)數(shù),n是樣本數(shù)量,L是似然函數(shù)。
4? 結(jié)? 論
基于OBD數(shù)據(jù)采集的多項(xiàng)式回歸速度預(yù)測(cè)中,減少了天氣,地勢(shì),路徑對(duì)車(chē)輛速度的影響因素。同時(shí)對(duì)速度數(shù)據(jù)進(jìn)行了細(xì)致分析,通過(guò)速度分布以及圖形展示,去除了速度的異常數(shù)據(jù)。基于多項(xiàng)式回歸算法,通過(guò)前幾秒速度對(duì)未來(lái)幾秒速度進(jìn)行回歸擬合。針對(duì)每一位駕駛員均進(jìn)行速度預(yù)測(cè),如預(yù)測(cè)數(shù)據(jù)與實(shí)際數(shù)據(jù)相差較小,則認(rèn)為在該段時(shí)間內(nèi),駕駛員駕駛平穩(wěn)。可對(duì)評(píng)價(jià)駕駛員駕駛習(xí)慣有一定的借鑒意義。通過(guò)大量的訓(xùn)練數(shù)據(jù)及測(cè)試數(shù)據(jù)(數(shù)據(jù)量在千萬(wàn)級(jí)),得到速度預(yù)測(cè)模型的最優(yōu)參數(shù)。通過(guò)利用兩種方法進(jìn)行速度擬合發(fā)現(xiàn),對(duì)于短時(shí)的速度預(yù)測(cè),ARIMA的方法擬合能力會(huì)更強(qiáng)一些,但是該方法需要對(duì)時(shí)間序列都單獨(dú)擬合和預(yù)測(cè),且速度數(shù)據(jù)都是毫秒級(jí)別的,序列的數(shù)據(jù)會(huì)非常大,同樣執(zhí)行時(shí)間也會(huì)變長(zhǎng)。相同的數(shù)據(jù)多項(xiàng)式的執(zhí)行時(shí)間就會(huì)縮短很多。兩種方法各有利弊,需要通過(guò)業(yè)務(wù)需求來(lái)抉擇。
為了進(jìn)一步研究駕駛平穩(wěn)性,接下來(lái)可增加路況信息,如剔除較為擁堵的路段進(jìn)行進(jìn)一步的改進(jìn)研究,使其對(duì)速度的預(yù)測(cè)更加具有優(yōu)勢(shì)。同時(shí)增加平穩(wěn)性評(píng)價(jià)指標(biāo),不單單從速度擬合方向。
參考文獻(xiàn):
[1] 梁陳磊,儲(chǔ)江偉,李紅.基于OBD數(shù)據(jù)挖掘的不良駕駛行為關(guān)聯(lián)分析 [J].現(xiàn)代電子技術(shù),2022,45(21):145-150.
[2] 雷財(cái)林,鐘添翼,蔡曉禹,等.基于車(chē)聯(lián)網(wǎng)OBD數(shù)據(jù)的道路安全評(píng)價(jià)方法 [J].公路與汽運(yùn),2019(1):30-36.
[3] 鄭美容.基于聚類(lèi)分析的駕駛行為安全評(píng)估模型 [J].黃河科技學(xué)院學(xué)報(bào),2023,25(2):80-87.
[4] 柳鵬飛,陸見(jiàn)光,徐磊,等.公路貨運(yùn)危險(xiǎn)駕駛行為智能預(yù)測(cè)技術(shù)研究 [J].汽車(chē)技術(shù),2024(3):56-62.
[5] 盧建濤.惡劣天氣下高速公路風(fēng)險(xiǎn)評(píng)估與預(yù)警研究 [D].上海:同濟(jì)大學(xué),2019.
[6] 張俊.基于車(chē)聯(lián)網(wǎng)數(shù)據(jù)的駕駛行為識(shí)別與風(fēng)險(xiǎn)評(píng)估方法研究 [D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2020.
[7] 張鵬,楊濤,劉亞楠,等.基于CNN-LSTM的QAR數(shù)據(jù)特征提取與預(yù)測(cè) [J].計(jì)算機(jī)應(yīng)用研究,2019,36(10):2958-2961.
[8] 董紅召,趙龍鋼,趙晨馨,等.OBD支持下公交車(chē)到達(dá)時(shí)間的回歸預(yù)測(cè)方法 [J].高技術(shù)通訊,2021,31(4):425-434.
[9] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2017.
[10] 李航.統(tǒng)計(jì)學(xué)習(xí)方法 [M].北京:清華大學(xué)出版社,2019.
作者簡(jiǎn)介:李文婷(1993—),女,漢族,吉林長(zhǎng)春人,中級(jí)工程師,本科,研究方向:汽車(chē)診斷故障數(shù)據(jù)的統(tǒng)計(jì)與建模分析與方法。