謝楊 溫華 張潔
摘 要:目前,我國每年乘用車二手車市場交易規(guī)模已經(jīng)高達300萬輛以上,二手車交易中如何對車輛進行合理的估值已經(jīng)成為消費者和經(jīng)銷商最為關(guān)注的問題。通過利用數(shù)據(jù)挖掘技術(shù)并結(jié)合評估師經(jīng)驗,建立了一種新的二手車價格評估模型,該模型在高達百萬樣本數(shù)據(jù)的基礎(chǔ)上利用機器學習中的聚類、多元回歸等方法將車輛的上牌時間、表征里程、所屬地區(qū)等因子作為自變量,成新率(保值率)作為因變量而建立。通過實際的評估驗證,該模型具有較好的評估效果。
關(guān)鍵詞:二手車評估;二手車保值率;機器學習;多元回歸
中圖分類號:F406.4 文獻標識碼:A 文章編號:1006-8937(2015)11-0116-03
1 背景概述
我國汽車保有量近年來也實現(xiàn)了快速的增長,截止2014年底,我國乘用車保有量達到了8 307萬輛,并且以每年近10%的速度快速增長。2014年乘用車銷量達到了1 970.06萬輛,連續(xù)六年銷量全球第一。同年全國共交易二手乘用車351.43萬輛,同比增長15.25%。我國二手車增速接近于新車市場增速的兩倍。二手汽車取代新車市場地位、成為汽車消費市場的主體是汽車產(chǎn)業(yè)發(fā)展的必然趨勢。美國二手車是新車交易量的3.3倍,德國為2.3倍。保守預(yù)測,如果我國二手車與新車交易量達到1:1的水平,市場規(guī)模也在千萬輛以上。
目前二手車的評估還主要是由評估師根據(jù)自己的經(jīng)驗進行,通過數(shù)據(jù)挖掘技術(shù)、經(jīng)驗或其他方法來建立二手車評估模型的研究才興起不久,目前還沒有一種能夠具有高準確度,可操作性好的評估模型。不同的車型、配置、車主使用習慣與保養(yǎng)水平、使用年限、地區(qū)限購等因素,二手車的價格會有較大的不同。
本文基于高達百萬的樣本數(shù)據(jù),并綜合了主流觀點和評估理論中所要考慮的因素,對二手車價格評估有主要影響的眾多變量進行了分析,最后得到對二手車價格影響最大的多個變量,建立起能夠較為合理清晰的反映和解釋二手車交易價格的多元回歸統(tǒng)計模型。在該模型的基礎(chǔ)上,利用傳統(tǒng)方法或經(jīng)驗值對其進行參數(shù)修正,使其能夠較為準確的對大多數(shù)情況的二手車進行評估。
2 特征變量與關(guān)系模型
2.1 實驗數(shù)據(jù)
實驗采用的數(shù)據(jù)包含:車型,車系,車型配置,車身顏色,車輛用途,行駛里程,所屬地區(qū),使用年限,新車價,交易價等,總量在100萬行左右。
2.1.1 數(shù)據(jù)分析
交易數(shù)據(jù)是對二手車市場交易最為直接的反映,通過數(shù)據(jù)分析可知:在二手車市場上交易比較活躍的車系有A6、寶馬5系、凱越、凱美瑞、雅閣、A4L、??怂?、寶馬3系、寶來、君威、銳志、邁騰、科魯茲、朗逸、天籟、速騰等。可以看出B級車在二手車市場上較受歡迎,其次是A級車。在交易量中約50%集中在30個車系上,在我們統(tǒng)計的1 000個車系占3%;交易量的75%集中在約115個車系上,約占車系總量的11.5%;交易量的90%集中在約225個車系上,約占車系總量的22.5%。除去準新車(指還未上牌或車齡極小的車輛),交易量的70%都集中在車齡5年內(nèi)的車輛上,車齡活躍程度排名依次為3,2,4,5,1年。車輛交易最為活躍的地區(qū)為華東區(qū)(江蘇省和浙江省),其約占整個市場的30%。
2.1.2 建模思路
通過數(shù)據(jù)分析可知,市場交易的絕大部分車輛都集中在少部分的車系上,所以如果能夠評估好這一百多個車系,便能滿足市場評估的大部分需求。在交易集中的這部分車型或車系上,可以利用其豐富的樣本數(shù)據(jù),挖掘出一個合理的評估模型。對于車型樣本數(shù)據(jù)足夠的車型,可以為每個車型建立一個評估模型;然后再為樣本數(shù)據(jù)足夠的車系建立評估模型;最后結(jié)合數(shù)據(jù)挖掘和評估師經(jīng)驗為剩余約大部分車系建立評估模型。
2.2 特征變量分析
現(xiàn)行的二手車價格評估方法有多種,如現(xiàn)行市價法,重置成本法和清算價格等。這些方法大都是通過經(jīng)驗來進行評估,不能很好的反映市場因素對車價的影響,而二手車價格受到市場因素影響最大。影響二手車價格的主要變量有:車型(配置、排放、油耗等)、使用年限、車況、有無事故、行駛里程、車身顏色、交易地區(qū)(地方政策法規(guī)、消費者對不同品牌喜好度等)、新車市場情況(新車銷量、后續(xù)車型折扣率)、車輛用途等。樣本數(shù)據(jù)并未含所有上訴特征變量,其主要包含:車型及其配置與新車價等、后續(xù)車型新車價、車身顏色、車輛用途、交易地區(qū)、上牌時間、交易時間、交易價格。
從經(jīng)驗上講,這些變量對二手車價格都有影響,但是并沒有一個科學嚴謹?shù)淖C明說明這一點。我們從統(tǒng)計意義上的“相關(guān)性”角度來分析。
統(tǒng)計學上的相關(guān)性是指兩個變量因素的相關(guān)密切程度,兩個變量的關(guān)系可以直觀地用散點圖表示,當其緊密地群聚于一條直線的周圍時,變量間存在強相關(guān)性。
2.2.1 使用年限
二手車價格的最大影響因子便是使用年限,為便于利用散點圖分析,令差價率=(新車價-二手車價)/新車價,得到的差價率與使用年限的散點圖如圖1所示,通過散點圖分析可得到結(jié)論:二手車保值率與使用年限強相關(guān),可通過二次多項式曲線進行關(guān)系擬合。
2.2.2 行駛里程
基于經(jīng)驗考慮,車齡和行駛里程一般存在很強的正相關(guān)性,而我們要建立的數(shù)學模型需要盡量避免這樣的相關(guān)性(即多重共線性),因此對行駛里程做如下變換:年均里程=里程數(shù)/使用時間,再對年均里程和車齡進行檢驗,可知年均里程對于使用時間來說,kendall系數(shù)較小,可以認為二者無顯著相關(guān)關(guān)系,可將年均里程加入模型中。
2.2.3 車身顏色
對其進行方差(ANOVA)分析,得到的Sig>0.05,認為不同顏色之間二手車交易價格沒有顯著差異。這個結(jié)論和我們的經(jīng)驗相悖,說明可能樣本數(shù)據(jù)中不能提取出顏色對交易價格影響的因素。在二手車市場上大眾色系(銀、黑、灰、白)相對最為保值,這主要因為其受眾群體最高。同時在每個車系推出時都會有一種主打色,主打色系車型的保值率通常高于其他顏色款。因此將顏色分為3類,第一類為某車系主打色A,第二類為大眾色B,第三類為其他色C。在評估出了一輛車的保值率(0~1小數(shù)表示)后根據(jù)其顏色歸類將A、B、C類分別乘以102%,100%,98%,對其進行修正。
2.2.4 車輛用途
通過樣本數(shù)據(jù)的方差分析同樣不能得出車輛用途對價格有明顯的影響,因此同樣利用經(jīng)驗值對保值率進行修正。車輛用途分為非營運(保值率不變)、營運(按1~10 a保值率乘以90%~80%遞減)、其他(按1~10 a保值率乘以95%值85%遞減)。
2.2.5 交易地區(qū)
通過對交易地區(qū)進行散點圖與方差分析,Sig<0.001,可知地區(qū)對交易價格有顯著的影響。交易地區(qū)的值屬于屬性變量,在模型中可轉(zhuǎn)換為虛擬變量,便于做回歸分析。
2.2.6 新車價格
對于建立在車系上的一個具體的評估模型,其可適用該車車系下所有車型。根據(jù)經(jīng)驗,即使是同車系的車型,其保值率率也會存在細微的差異。如一兩年車齡的同車系的低配和高配車型,新車價差價部分為10萬,在二手車交易時這部分的差價往往低于5萬,所以建立車系模型時也需將其作為特征變量加入。
2.3 建立關(guān)系模型
通過以上的數(shù)據(jù)和特征變量分析,可以根據(jù)不同車型在市場交易的活躍度建立起3個層次化的評估模型。
2.3.1 基于車型的評估模型
對于樣本數(shù)據(jù)量達到200個以上單個車型,建立起以保值率r為因變量,使用年限cl1,使用年限的平方cl2,交易地區(qū)dq,年均使用里程lc作為自變量的多元線性回歸模型。其中因為車輛的保值率和使用年限是二次項關(guān)系,所以通過引入自變量cl2使模型更加準確。交易地區(qū)屬于定性數(shù)據(jù),通過轉(zhuǎn)換為虛擬變量引入多元回歸模型:
Dj=1 地區(qū)取值為j0 其他 j=1,2...,9
其中,地區(qū)取值為9(即最后一個地區(qū))時,用D1~D9都取值為0來表示。到保值率后,引入車輛用途修正系數(shù)a,車身顏色修正系數(shù)b對保值率進行修正,模型用數(shù)學公式表述為:
r=ab(b0+b1cl1+b2cl2+b3D1+b4D2+b5D3+b6D4+b7D5+b8D6+b9D7+
b10D8+b11D9+b12lC)
2.3.2 基于車系的評估模型
利用同樣的方法為樣本數(shù)據(jù)量達到500個以上的單個車系建立評估模型,與車型唯一不同的是,在車系模型中,新增車型的新車價xcj作為自變量。車型的新車價能夠反映一個車系里不同配置的車型二手車價格的不同。同樣也利用車輛用途和車身顏色修正系數(shù)a、b對模型進行修正。模型用數(shù)學公式表述為:
r=ab(b0+b1cl1+b2cl2+b3D1+b4D2+b5D3+b6D4+b7D5+b8D6+b9D7+
b10D8+b11D9+b12lC+b13xcj)
2.3.3 通用評估模型
通過將車型分為11類,從樣本數(shù)據(jù)中提取出一個能夠覆蓋大部分車型通用評估模型,具體的分類方法見表1,根據(jù)分類分別為每個類別建立一個評估模型,模型用數(shù)學公式與基于車型的評估模型相同。
3 多元線性回歸
在建立的模型中,存在不同量綱的變量,量綱不同,也會造成模型各變量的系數(shù)缺乏直接的含義,不能直觀反映每個變量的重要性,即對因變量的解釋能力。為了消除量綱影響和變量自身變異大小和數(shù)值大小的影響,故將數(shù)據(jù)標準化。對于評估模型中的使用年限采用離差標準化,將因變量中的觀察值減去該變量的最小值,然后除以該變量的極差,其數(shù)學公式表述為:
xik'=[xik-Min(xk)]/Rk,
使用年限:
cl1'=(cl-0.5)/9.5,
對于年均行駛里程,新車價采用標準差標準化,將某變量中的觀察值減去該變量的平均數(shù),然后除以該變量的標準差,數(shù)學公式為:
xik'=[xik-uk)]/Sk,
年均行駛里程:
lC'=(lc-1.51)/0.79,
新車價:
xcj'=(xcj-29.41)/30.82。
3.1 基于車型的評估模型
單個車型樣本數(shù)據(jù)在200個以上的有1 200個左右,通過多元線性回歸,可得到每個模型的參數(shù),選取其中一個車型“A4L2013款35TFSI無級變速舒適型三廂”,其回歸后的模型為:
r=ab(0.814-0.679cl1'+0.097cl2'-0.07lc'-0.011D華東區(qū)
-0.006D華南區(qū)-0.015D上海區(qū)-0.017D西北區(qū)-0.007D西南區(qū)
-0.019D華北區(qū)-0.015D東北區(qū)-0.006D華南區(qū)-0.007D華中區(qū))
3.2 基于車系的評估模型
單個車系樣本數(shù)據(jù)在500個以上的有280個左右,通過多元線性回歸,可得到每個模型的參數(shù),選取其中一個車系“別克凱越”,其回歸后的模型為:
r=ab(0.365-0.658cl1'+0.151cl2'-0.06lc'-0.0654xcj'
-0.009D華東區(qū)+0.012D華南區(qū)-0.019D上海區(qū)-0.005D西北區(qū)
-0.001D西南區(qū)-0.004D華北區(qū)+0.002D東北區(qū)-0.015D華南區(qū)
-0.008D華中區(qū))
3.3 通用評估模型
對分類后的11個類別多元線性回歸運算,可得到每個分類模型的參數(shù),選取第6個分類,進口品牌并且新車價介于15~35萬,其回歸后的模型為:
r=ab(0.796-0.739cl1'+0.136cl2'-0.02lc'-0.022xcj'
-0.015D華東區(qū)+0.003D華南區(qū)-0.019D上海區(qū)-0.009D西北區(qū)
-0.011D西南區(qū)-0.018D華北區(qū)+0.008D東北區(qū)-0.011D華南區(qū)
-0.016D華中區(qū))
衡量回歸模型優(yōu)劣的統(tǒng)計量見表2。R為復(fù)相關(guān)系數(shù),它表示模型中的所有變量與因變量之間的線性回歸關(guān)系的密切程度大小。它的取值介于0~1之間,R越大說明線性回歸關(guān)系越密切。調(diào)整R2為重點關(guān)注的統(tǒng)計量,它的值越大,模型擬合效果越好,表中調(diào)整的R2分別為0.752,0.926,0.883。最后給出標準估計的誤差,它的大小反映了建立模型預(yù)測因變量的精度,值越小說明所建模型越好。模型方差分析結(jié)果中概率P值0.000<0.001,所以該模型是有統(tǒng)計意義的。
4 結(jié) 語
建立一個精確的二手車評估模型是一項非常困難的工作,因為每一二手車輛車的價格除了受其具體的車況、車主使用習慣等之外,還很大程度上受市場供求關(guān)系,品牌知名度以及國家政策等因素的影響。本文利用機器學習的方法,通過挖掘歷史交易數(shù)據(jù)建立了一個能夠覆蓋大部分車型的評估模型,能夠較準確的評估出一輛普通車況的二手車價格,具有較好的使用價值。
參考文獻:
[1] 國家統(tǒng)計局.2014年國民經(jīng)濟和社會發(fā)展統(tǒng)計公報[EB/OL].http://soc-
iety.people.com.cn/n/2015/0226/c1008-26599463.html,2015-02-26.
[2] 中國報告大廳.2014年1-11月中國二手車銷量分析:增長率近新車三倍[EB/OL].http://www.chinabgao.com/stat/stats/39670.html,2014-12-23.
[3] 侯江麗,趙飛.基于AHP算法的二手車評估方法的研究[J].邢臺職業(yè)技術(shù)學院學報,2013,(3).
[4] 郭振江.舊機動車評價方法的建立與體系研究[D].西安:長安大學,2011.