羅紅梅 周逸凡
摘 要:針對電動汽車行駛里程預(yù)測問題,采用人工智能與大數(shù)據(jù)的分析方法對電動汽車的續(xù)駛里程進(jìn)行預(yù)測。首先,通過對北京市某款電動汽車的實(shí)際運(yùn)行數(shù)據(jù)進(jìn)行預(yù)處理分析,篩選出有效的放電小片段,進(jìn)行特征工程分析;然后,利用微分思想構(gòu)造出模型的輸入與輸出,建立分類與回歸樹預(yù)測模型;為了進(jìn)一步提高預(yù)測精確度,采用隨機(jī)森林與梯度提升迭代決策樹兩種不同的模型融合算法對模型進(jìn)行優(yōu)化。結(jié)果表明,模型融合算法能顯著減少預(yù)測結(jié)果的均方誤差,能夠很好的預(yù)測電動汽車行駛里程。
關(guān)鍵詞:行駛里程;放電小片段;決策樹;模型融合
中圖分類號:U469.7? 文獻(xiàn)標(biāo)識碼:A? 文章編號:1671-7988(2020)13-01-04
Research on the Prediction Method of Electric Vehicle Mileage Based
on Big Data Analysis
Luo Hongmei, Zhou Yifan
( School of Automobile, Changan University, Shaanxi Xian 710064 )
Abstract: In order to solve the problem of electric vehicle mileage prediction, artificial intelligence and big data analysis method are used to predict the driving mileage of electric vehicle. First of all, through preprocessing and analyzing the actual operation data of an electric vehicle in Beijing, the effective small discharge segments are screened out, and the characteristic engineering analysis is carried out. Then, the Classification And Regression Tree (CART) model is proposed by using differential thought. To further improve the performance of the model, a fusion algorithm based on random forest and Gradient Boosting Decision Tree (GBDT) algorithm are proposed, which are used to optimize the model. The results show that the model fusion algorithm can significantly reduce the mean-square error of the prediction results, and can predict the driving mileage of electric vehicles well.
Keywords: Mileage; Discharge fragment; Decision tree; Model fusion
CLC NO.: U469.7? Document Code: A? Article ID: 1671-7988(2020)13-01-04
前言
行駛里程作為電動汽車重要的性能參數(shù)之一,近年來引起了廣泛關(guān)注。電動汽車某段時(shí)間內(nèi)的實(shí)際行駛里程與動力電池衰退情況、行駛過程的特征以及環(huán)境因素相關(guān)。準(zhǔn)確預(yù)測電動汽車某一工況下的行駛里程,可以增強(qiáng)駕駛者對車輛續(xù)駛里程的信心,提高能量利用率,在能量管理,出行決策制定等方面具有重要意義。
近年來,國內(nèi)外眾多學(xué)者提出了多種方法對行駛里程進(jìn)行預(yù)測。高航[1]從電池物理性能和行車環(huán)境入手,基于SOC、最低單體溫度和行駛里程創(chuàng)建多元線性回歸模型,并且增加變量間潛在的非線性關(guān)系來優(yōu)化模型,以此來達(dá)到提升模型預(yù)測精度的目的,最終建立了更適用于實(shí)際工況的梯度提升算法。劉光明等[2]創(chuàng)建電池狀態(tài)估計(jì)模型來預(yù)測電池的剩余電量,使用剩余電量、車輛能耗以及行駛工況來預(yù)測續(xù)駛里程。陳燎等學(xué)者[3]提出了優(yōu)化的模糊能耗與卡爾曼濾波結(jié)合算法,優(yōu)化后,續(xù)航里程的估算精度提高了77%。張憧[4]定性分析出電池剩余可用能量和車輛能耗是影響電動汽車?yán)m(xù)航里程的主要因素,然后提出一種較為準(zhǔn)確地實(shí)時(shí)預(yù)測續(xù)航里程的模型。Bolovinou A等[5]將神經(jīng)網(wǎng)絡(luò)、遺傳算法和模糊控制融合到傳統(tǒng)的回歸方法(線性回歸和支持向量回歸)中,而且還在能量消耗模型中加入了時(shí)間和位置屬性。Zhang C W等[6]采用改進(jìn)BP神經(jīng)網(wǎng)絡(luò)估算得到的電池SOC預(yù)測精度提高了2%。
現(xiàn)有的研究方法可以歸為兩類,一類是從電池屬性入手,使用傳統(tǒng)的回歸模型對行駛里程進(jìn)行預(yù)測;一類是結(jié)合實(shí)時(shí)環(huán)境和電池屬性,使用人工智能方法進(jìn)行建模預(yù)測。本文綜合考慮兩種研究方法,用微分思想構(gòu)造出模型的輸入與輸出,然后使用 CART(Classification And Regression Tree)、隨機(jī)森林和GBDT(Gradient Boosting Decision Tree)等三種模型來進(jìn)行行駛里程的預(yù)測。
1 數(shù)據(jù)預(yù)處理
本文根據(jù)新能源汽車國家大數(shù)據(jù)聯(lián)盟發(fā)布的北京市某款電動汽車的實(shí)際運(yùn)行數(shù)據(jù),電動汽車采集的數(shù)據(jù)包含了以下類型:實(shí)時(shí)數(shù)據(jù)時(shí)間,總電壓,總電流,荷電狀態(tài),最高單體溫度值,最低單體溫度值,電機(jī)控制器輸入電壓,電機(jī)控制器直流母線電流和累計(jì)里程。訓(xùn)練集數(shù)據(jù)屬性如表1所示。
由于設(shè)備與行駛環(huán)境的影響,采集的數(shù)據(jù)存在一定異常與無用數(shù)據(jù),需要進(jìn)行數(shù)據(jù)預(yù)處理。步驟如下:
(1)異常數(shù)據(jù)的刪除。異常數(shù)據(jù)主要包括缺失值、離群值和邏輯異常值。對于缺失值采用極大似然填補(bǔ),對不可填補(bǔ)數(shù)據(jù)刪除,最后運(yùn)用3σ法則剔除離群點(diǎn)。處理后的部分?jǐn)?shù)據(jù)如表2所示。
(2)放電大片段的劃分。由于原始數(shù)據(jù)中包括電動汽車充電和放電的數(shù)據(jù),可以綜合分析一段數(shù)據(jù)時(shí)間內(nèi)總電流正負(fù)與SOC的增減,即可從原始數(shù)據(jù)中劃分出放電過程的大片段。
(3)放電小片段的劃分。本文數(shù)據(jù)的標(biāo)準(zhǔn)采樣間隔為10s,實(shí)際的采樣間隔會因?yàn)榈缆窢顩r及設(shè)備的原因,出現(xiàn)大于標(biāo)準(zhǔn)采樣間隔的情況。為提高預(yù)測精度,相鄰數(shù)據(jù)之間的采樣間隔若大于240s,則將其劃分為兩個(gè)單獨(dú)放電片段。
2 數(shù)據(jù)挖掘與分析
本文采集的實(shí)際運(yùn)行數(shù)據(jù)共34萬條,經(jīng)過數(shù)據(jù)預(yù)處理后,訓(xùn)練集數(shù)據(jù)剩余8.4萬條。
以上變量與行駛里程的散點(diǎn)圖如圖1所示。
由圖1可知,電動汽車的行駛里程與電池的荷電狀態(tài)和行駛時(shí)長具有明顯的線性關(guān)系。但采集到的車輛實(shí)時(shí)soc的精度為1,而需要預(yù)測的行駛里程的精度為0.1km,因此無法通過電池的soc精確預(yù)測行駛里程;而其他變量與行駛里程之間的關(guān)系較為復(fù)雜,需要進(jìn)一步分析。
本文通過Pearson相關(guān)系數(shù)來度量上述散點(diǎn)圖中各變量與行駛里程的相關(guān)程度。相關(guān)系數(shù)計(jì)算公式如式(1)所示。
(1)
式中n為樣本數(shù),xi和yi分別為兩變量的值, 和 分別為x和y對應(yīng)的均值。若|r|>0.6,則認(rèn)為其與行駛里程呈強(qiáng)相關(guān)關(guān)系;若0.4<|r|≤0.6,則認(rèn)為其與行駛里程呈中等相關(guān);其余呈弱相關(guān)或無相關(guān)。各采集量與行駛里程的相關(guān)系數(shù)如圖2所示。
由圖2可知,time、total_voltage、SOC、motor_voltage與mileage呈強(qiáng)相關(guān)關(guān)系,其他采集量與mileage的pearson的相關(guān)系數(shù)均較小。因此,僅將以上4個(gè)變量作為特征參數(shù)來預(yù)測行駛里程是不夠的,需要進(jìn)行特征工程挖掘更多特征。
根據(jù)微分思想,一段時(shí)間內(nèi)電動汽車行駛里程應(yīng)等于各個(gè)采樣點(diǎn)之間的行駛里程之和。對于采用時(shí)間間隔小于240s的行駛小片段,將其進(jìn)行“微分”,通過確定各采樣點(diǎn)之間的數(shù)據(jù)的變化量,從而構(gòu)建出新的特征。
將第i采樣時(shí)刻的time、total_voltage、total_current、temp_max、temp_min、motor_voltage分別記為ti , Vti , Iti , Tbi , Tsi , Vmi。
將i采樣時(shí)刻到i+1采樣時(shí)刻的采集量作差,得到的變量分別記為:△ti, △Vti, △Iti, △Tbi, △Tsi, △Vmi。以上變量作為模型的輸入記為:
(2)
模型的輸出為第i時(shí)刻至第i+1時(shí)刻行駛里程的變化量,記為△mi。對于第j個(gè)行駛小片段,通過預(yù)測i 采樣時(shí)刻到i+1采樣時(shí)刻的里程變化量,對其求和,得到第j個(gè)行駛小片段的里程變化量Mj ( j=1,2,3,…k ),如式3所示。
(3)
再對行駛小片段的里程變化量求和,即得到行駛大片段的行駛里程Mtotal,如式4所示。
(4)
3 行駛里程預(yù)測模型的建立
對于采樣間隔小于240s的放電小片段,本文采用CART決策樹算法預(yù)測行駛里程。通過計(jì)算平均平方誤差來將輸入的特征劃分為不同的空間,最后生成決策樹。
相比于神經(jīng)網(wǎng)絡(luò),決策樹算法邏輯更加清晰,也較為簡單直觀。將上文中處理后的行駛小片段按照8:2的比例劃分為訓(xùn)練集與測試集,通過最小二乘準(zhǔn)則,使訓(xùn)練集輸入與輸出的總均方誤差最小化,得到訓(xùn)練模型,最后通過測試集驗(yàn)證精度。采用測試集的相對誤差與均方誤差來表征訓(xùn)練集模型的精度,如式(5)和式(6)所示。其中M為實(shí)際行駛里程和,△m*i為實(shí)際行駛里程變化量。
(5)
(6)
采用CART決策樹算法預(yù)測的預(yù)測結(jié)果如表3所示。
由表3可知,采用CART決策樹算法預(yù)測的行駛里程相對誤差較小,能基本實(shí)現(xiàn)行駛里程的預(yù)測。
由于CART決策樹屬于貪心算法,會導(dǎo)致過擬合問題,此外上文中采用的單一決策樹,不能很好糾正樣本中偏差及方差,從而導(dǎo)致預(yù)測精度的降低。為了進(jìn)一步提高預(yù)測的精度、降低預(yù)測偏差,本文分別采用隨機(jī)森林與GBDT算法來進(jìn)行優(yōu)化。隨機(jī)森林算法可以通過對數(shù)據(jù)集有放回的抽樣,降低單一決策樹的均方誤差,并且能夠減少過擬合現(xiàn)象。而GBDT算法則將決策樹作為弱學(xué)習(xí)器并分配了權(quán)值,從而減少的預(yù)測的偏差。采用不同模型的各放電小片段的行駛里程值相對于準(zhǔn)確里程值的誤差結(jié)果如圖3和圖4所示。
對上文各行駛小片段行駛里程預(yù)測結(jié)果進(jìn)行求和,得到采用隨機(jī)森林與GBDT算法的總行駛里程預(yù)測結(jié)果Mtotal如表4所示。
由表4可知,采用隨機(jī)森林與GBDT兩種模型融合算法能對單一決策樹預(yù)測的行駛里程進(jìn)行一定優(yōu)化。兩種算法將均方誤差減少了50%以上,采用GBDT算法的預(yù)測結(jié)果的相對誤差顯著減少。
4 結(jié)論
本文首先通過對北京市某款電動汽車的實(shí)際運(yùn)行數(shù)據(jù)進(jìn)行預(yù)處理分析,篩選出有效的放電小片段。然后,利用微分
思想構(gòu)造出模型的輸入與輸出,并采用單一CART決策樹算法建立了預(yù)測模型。為了提高預(yù)測精度,又采用了隨機(jī)森林與GBDT算法兩種不同的模型融合算法。結(jié)果表明:
(1)單一CART算法預(yù)測的行駛里程值相較于行駛里程的準(zhǔn)確值相對誤差達(dá)1.4%;
(2)在CART,隨機(jī)森林和GBDT算法中,CART的預(yù)測精確度最低,隨機(jī)森林次之,預(yù)測精準(zhǔn)度最高的是GBDT模型;
(3)模型融合算法能顯著減少預(yù)測結(jié)果的均分誤差。其中GBDT算法的相對誤差達(dá)0.3%,能夠很好的預(yù)測電動汽車行駛里程。
參考文獻(xiàn)
[1] 高航.基于機(jī)器學(xué)習(xí)的純電動汽車的行駛里程預(yù)測研究[D].北京: 北京交通大學(xué),2018.
[2] 劉光明.面向電動汽車?yán)m(xù)駛里程估計(jì)的電池剩余放電能量預(yù)測研究[D].北京:清華大學(xué),2015.
[3] 陳燎,謝明維,盤朝奉.模糊能耗及卡爾曼濾波的電動汽車剩余續(xù)駛里程估算[J].河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,38(01): 28- 33+5.
[4] 張憧.電動汽車?yán)m(xù)駛里程影響因素及預(yù)測研究[D].合肥:合肥工業(yè)大學(xué),2018.
[5] Bolovinou A, Bakas I, Amditis A, et al., Online Prediction of an Electric Vehicle Remaining Range based on Regression Analysis[J]. 2014 IEEE International Electric Vehicle Conference (IEVC), 2014, 616-623.
[6] Zhang C W; Chen S R, Gao H B, et al. State of Charge Estimation of Power Battery Using Improved Back Propagation Neural Network [J]. Batteries-Basel, 2018, 4(4), 1-12.