任 超
(長安大學(xué) 汽車學(xué)院,陜西 西安 710064)
隨著我國大力推廣新能源汽車,以及出臺補(bǔ)貼、牌照豁免和購買稅等優(yōu)惠政策,我國新能源汽車數(shù)量迅速增長。到2019年6月為止,我國新能源汽車數(shù)量已達(dá)到344萬輛。純電動(dòng)汽車約281萬輛,占新能源汽車的81.74%。它們是新能源汽車的主要組成部分,也是本文的研究對象。但是,由于制造商在銷售電動(dòng)汽車時(shí)宣傳的標(biāo)準(zhǔn)行駛里程與實(shí)際巡航范圍相去甚遠(yuǎn),以及汽車報(bào)警信息的不完善,導(dǎo)致了車主的在行駛過程中,會(huì)長時(shí)間以一個(gè)低電量行駛。電動(dòng)汽車長時(shí)間低電量行駛會(huì)降低電池的壽命,加快電池的損壞。這樣對動(dòng)力電池是一個(gè)很大的損害,會(huì)間接造成對環(huán)境的污染。為了解決上述問題,基于國家新能源汽車大數(shù)據(jù)聯(lián)盟提供的真實(shí)行車數(shù)據(jù),本文采用基于數(shù)據(jù)的方法建立時(shí)變模型、行駛距離、電池電壓、電池電流來從多個(gè)角度反映動(dòng)力電池當(dāng)前剩余電量荷電狀態(tài)(State Of Charge, SOC)的工作狀況。通過比對分析,電動(dòng)汽車上應(yīng)用最多的是磷酸鐵鋰電池,因此,本文選擇磷酸鐵鋰電池為研究對象。
目前,動(dòng)力電池SOC的估計(jì)方法可分為安培小時(shí)法、開路電壓法、內(nèi)阻法、線性模型法、卡爾曼濾波法,以及使用神經(jīng)網(wǎng)絡(luò)支持向量機(jī)智能算法估計(jì)動(dòng)力電池的SOC[1]。李靖建立了二階戴維南等效電路模型,通過實(shí)驗(yàn)數(shù)據(jù)復(fù)現(xiàn)出了電池的開路電壓-電池的荷電狀態(tài)(Open Circuit Voltage-State Of Charge, OCV-SOC)關(guān)系,結(jié)合其他估計(jì)算法,對單體磷酸鐵鋰電池的SOC進(jìn)行了估計(jì)[2]。
上述文獻(xiàn)主要基于在諸如實(shí)驗(yàn)或仿真工具的理想條件下獲得的單電池的充電和放電數(shù)據(jù)來估計(jì)SOC。對車輛動(dòng)力蓄電池SOC的實(shí)際運(yùn)行結(jié)果估計(jì)提供的指導(dǎo)很少。
一些學(xué)者研究新歐洲駕駛循環(huán)周期(New European Driving Cycle, NEDC)固定模擬條件下單體電池的SOC估計(jì),獲得的估計(jì)精度是較好的,但這忽視了實(shí)際駕駛條件的復(fù)雜性和可變性,很難將研究結(jié)果應(yīng)用于實(shí)踐[3]。
此外,上述研究均基于單動(dòng)力電池的SOC估計(jì),對于單體電池的SOC估計(jì)在應(yīng)用于整個(gè)電池組的SOC估算時(shí)無效[4]。
本文從動(dòng)力電池系統(tǒng)整體和實(shí)際應(yīng)用的角度出發(fā),脫離理想的實(shí)驗(yàn)環(huán)境,根據(jù)新能源汽車國家大數(shù)據(jù)聯(lián)盟采集的實(shí)車運(yùn)行數(shù)據(jù),采用大數(shù)據(jù)的分析方法。這種方法優(yōu)點(diǎn)在于,只關(guān)注動(dòng)力電池組系統(tǒng)的整體行為,使用主成分分析法(Principal Component Analysis, PCA),分析出來表征低SOC的特征參數(shù)。使用邏輯回歸算法,總結(jié)出來動(dòng)力電池低SOC時(shí)各個(gè)特征參數(shù)的規(guī)律,并用總結(jié)出來的規(guī)律對實(shí)車進(jìn)行預(yù)測。使用該方法,無需對單電池的復(fù)雜非線性特性、電池組的物理結(jié)構(gòu)和電化學(xué)知識等進(jìn)行考慮,該算法適合于實(shí)際運(yùn)行的整個(gè)電池組,充分考慮了汽車真實(shí)的行駛時(shí)各環(huán)境因素的影響。
新能源汽車大數(shù)據(jù)聯(lián)盟所提供的數(shù)據(jù)特征值較多,達(dá)到34個(gè),每個(gè)特征都用來分析不現(xiàn)實(shí),也會(huì)加大工作量,所以要進(jìn)行數(shù)據(jù)的降維處理,篩選出相關(guān)性不高的幾個(gè)特征參數(shù)進(jìn)行分析。因此,選用PCA進(jìn)行數(shù)據(jù)的降維處理。
PCA即主成分分析方法,是一種使用最廣泛的數(shù)據(jù)降維算法。主成分分析的基本思想是在盡可能表示原特征的條件下,將原始特征經(jīng)過一定的算法變化映射到低緯度空間。PCA源于通信理論的K-L變換。其問題可以描述為對于d維空間中的n個(gè)樣本,考慮如何能在低維空間中更好地表示它們。
任何形式的變化在數(shù)學(xué)上都可以抽象成一個(gè)映射,或者函數(shù)。構(gòu)建一個(gè)函數(shù)f(Xm×n)使得這個(gè)函數(shù)可以將矩陣Xm×n降維,矩陣Xm×n中有m個(gè)樣本,每個(gè)樣本有n個(gè)特征值。所以,所謂的降維,其實(shí)是減少n的數(shù)量。假設(shè)降維后的結(jié)構(gòu)Zm×k,其中k<n。那么PCA的數(shù)學(xué)表達(dá)可以表示為
為了找到上面說的f(x),需要做一些工作,在線性空間中,矩陣可以表示為一種映射,所以上面的問題可以轉(zhuǎn)化為尋找這樣一個(gè)矩陣W,該矩陣可以實(shí)現(xiàn)上面的映射目的:
假設(shè)要把矩陣的維數(shù)降為1,也就是最后每個(gè)樣本只有一個(gè)屬性,即k=1。目標(biāo)是使降維后的數(shù)據(jù)在那個(gè)坐標(biāo)軸中的分布盡可能分散,數(shù)據(jù)分布的離散程度我們用方差來衡量?,F(xiàn)在的目標(biāo):
最大化新坐標(biāo)軸上的方差,就是讓數(shù)據(jù)更加分散:
將問題轉(zhuǎn)換為
最終目標(biāo)轉(zhuǎn)化為
通過求解Lagrange函數(shù),得到結(jié)果為Cov(x)ω-αω=0。
令Cov(x)ω=S,Sω-αω=0正好是特征值的定義,也就是α是矩陣S的特征值,ω是矩陣S的特征向量。但是特征值很多,ω到底是哪一個(gè)特征值。
同樣道理,如果是需要將數(shù)據(jù)映射為2維數(shù)據(jù),還是求解上述的最大化方差。
原始數(shù)據(jù)包含34個(gè)特征參數(shù),降維后的特征參數(shù)只有12個(gè),如表1所示,極大地提高了分析的速度。
表1 降維后的特征參數(shù)
皮爾遜相關(guān)也稱為積差相關(guān)(或積矩相關(guān))是英國統(tǒng)計(jì)學(xué)家皮爾遜于20世紀(jì)提出的一種計(jì)算直線相關(guān)的方法。
如果兩組數(shù)據(jù)X:{X1,X2,…,Xn}和Y{Y1,Y2,…,Yn}是總體數(shù)據(jù)(例如普查結(jié)果)那么最后均值為
協(xié)方差:
皮爾遜相關(guān)系數(shù):
σx是X的標(biāo)準(zhǔn)差,σY是Y的標(biāo)準(zhǔn)差。觀察皮爾遜相關(guān)系數(shù)的公式:我們發(fā)現(xiàn)皮爾遜相關(guān)系數(shù)可以看成消除了兩個(gè)變量量綱影響,即將X和Y標(biāo)準(zhǔn)化后的協(xié)方差。因此,兩個(gè)變量相關(guān)的程度可以使用皮爾遜相關(guān)系數(shù)來衡量。
皮爾遜相關(guān)系數(shù)在為-1到1之間波動(dòng)。系數(shù)值1表示變量間呈現(xiàn)正相關(guān);系數(shù)值為-1表示變量間呈現(xiàn)負(fù)相關(guān)。系數(shù)值為0意味著兩個(gè)變量之間沒有關(guān)系。
皮爾遜相關(guān)系數(shù)的使用條件是變量之間服從正態(tài)分布。因?yàn)樗杉臄?shù)據(jù)量極大,所以可近似地認(rèn)為變量之間的分布服從正態(tài)分布,可以使用皮爾遜相關(guān)系數(shù)進(jìn)行分析。
如下所示為相關(guān)系數(shù)分析結(jié)果:系數(shù)值為0意味著兩個(gè)變量之間沒有關(guān)系。
0.8~1.0,極強(qiáng)相關(guān);0.4~0.6,強(qiáng)相關(guān);
0.2~0.4,弱相關(guān);0.0~0.2,極弱相關(guān)。
邏輯回歸算法使用對數(shù)概率比線函數(shù)進(jìn)行擬合變量間的關(guān)系[5]。如下所示:
激活函數(shù):sigmoid函數(shù),表達(dá)式為
回歸的結(jié)果輸入到sigmoid函數(shù)中,最終的輸出結(jié)果為[0,1]區(qū)間的一個(gè)概率值,默認(rèn)0.5為閾值。
步驟1:將收集到的原始數(shù)據(jù)進(jìn)行清洗后,用PCA隨數(shù)據(jù)的特征進(jìn)行降維,以減少特征參數(shù)的個(gè)數(shù);
步驟2;對降維后的數(shù)據(jù)再次進(jìn)行皮爾遜相關(guān)系數(shù)的分析,分析出低SOC值時(shí)的影響因素,進(jìn)一步達(dá)到降維的目的;
步驟3:按照8:2比例隨機(jī)分開初步篩選后的數(shù)據(jù),其中一部分作為訓(xùn)練集,另一部分則為測試集;
步驟4:利用邏輯回歸算法,建立可以識別動(dòng)力電池低SOC的模型。
為了驗(yàn)證和檢驗(yàn)算法的可行性和區(qū)分效果,文中提取了低SOC報(bào)警車輛的信息,并進(jìn)行了相應(yīng)的特征提取。然后隨機(jī)抽取數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
單獨(dú)使用邏輯回歸算法對選取的數(shù)據(jù)進(jìn)行求解,對報(bào)警的信息進(jìn)行分類。
通過SOC的信息已與各個(gè)特征參數(shù)之間的相關(guān)系數(shù)比較分析,選擇最高電壓,最低電壓與電池溫度作為描述電池低SOC值的特征參數(shù)。
對報(bào)警車輛的最大電壓值做散點(diǎn)記錄,從這半年左右的數(shù)據(jù)記錄中發(fā)現(xiàn),電池電壓最大值普遍集中在3.475 V量離群點(diǎn)分析在3.500 V之上。電壓最小值及其于3.45 V離散點(diǎn)分布在眾數(shù)之下。同樣的,我們描述了電池最大溫度與最小溫度的數(shù)據(jù)分布,電池溫度最大值分布比較零散,在一小段時(shí)間內(nèi)變化平穩(wěn),七月后,電池溫度最大值呈現(xiàn)線性上升趨勢,而在進(jìn)入秋季,九月左右出現(xiàn)非線性波動(dòng)下降情況。
首先需要數(shù)據(jù)歸一化,將特征參量轉(zhuǎn)換為無量綱的數(shù)據(jù),然后數(shù)據(jù)按照8:2的比例分組。訓(xùn)練組用于算法參數(shù)的訓(xùn)練,數(shù)據(jù)量有5 074行;測試組用于算法的檢驗(yàn),數(shù)據(jù)量有1 269行。模型在訓(xùn)練過程的損失曲線如圖2所示,可以發(fā)現(xiàn),隨著訓(xùn)練時(shí)間的延長,訓(xùn)練過程中的損失逐漸下降。
圖2 Loss曲線
邏輯回歸輸入:
式中,x1,x2,x3分別表示最大電壓值、最大溫度值、最小電壓值,將5 076組訓(xùn)練組數(shù)據(jù)輸入模型中,得到模型的權(quán)重和偏置:
得到輸入函數(shù):
將得到的輸入函數(shù)h(ω)代入到sigmoid函數(shù)g(ω)中。
若g(ω)>0.5,輸出1,表示報(bào)警;
若g(ω)<0.5,輸出0,不報(bào)警。
用訓(xùn)練好的模型應(yīng)用在測試集上,在1 269組測試集中,有兩組預(yù)測結(jié)果出錯(cuò)。
精確率和召回率是兩個(gè)評估模型好壞的重要標(biāo)準(zhǔn)。
精確率(precision):預(yù)測正確的個(gè)數(shù)占總的正類預(yù)測個(gè)數(shù)的比例。
召回率(recall):真實(shí)為正例的樣本中預(yù)測結(jié)果為正例的比例。
該模型的精確率和召回率分別達(dá)到了99%和99.8%高的水平,表示該模型可以應(yīng)用到實(shí)際中。
本文基于國家新能源汽車大數(shù)據(jù)平臺的大量數(shù)據(jù),基于邏輯回歸算法,對實(shí)際復(fù)雜多變工況下動(dòng)力電池的運(yùn)行過程進(jìn)行低SOC值下的特征參數(shù)統(tǒng)計(jì),并建立了模型。該模型可以用來預(yù)測汽車在真實(shí)行駛工況下是否出現(xiàn)低SOC的情況,并進(jìn)行報(bào)警。防止汽車在行駛過程中處在一個(gè)低SOC狀態(tài)行駛,對電池造成潛在的傷害。
雖然本文模型的估計(jì)結(jié)果良好,但仍存在一些局限性和需要改進(jìn)的地方。對于數(shù)據(jù)質(zhì)量好壞的確定沒有理想的參考標(biāo)準(zhǔn)。連接到大數(shù)據(jù)聯(lián)盟的汽車數(shù)量已達(dá)百萬級別。汽車本身的行駛使得車內(nèi)硬件質(zhì)量下降將導(dǎo)致收集數(shù)據(jù)的誤差是不可避免的事,這也是與實(shí)驗(yàn)室條件的差異。盡管本文進(jìn)行了數(shù)據(jù)清理工作,但是原始數(shù)據(jù)的質(zhì)量是模型結(jié)果準(zhǔn)確性的根本保證。未來,作者希望通過單車行駛試驗(yàn),收集高質(zhì)量數(shù)據(jù)將誤差控制在較小的范圍內(nèi),從而克服這一問題。