周寶建 林佳慧 廈門大學(xué)嘉庚學(xué)院
2020年1月,新冠疫情席卷全球,我國疫情在第二季度得到較好的控制,疊加產(chǎn)業(yè)刺激政策和廠商促銷,汽車消費需求得到了回補,乘用車市場也已呈現(xiàn)“V”型反轉(zhuǎn)。[2]作為中國汽車市場的重要組成部分——二手車市場恢復(fù)較為迅速,1-7月累計交易759萬輛,同比增長3.5%。雖然交易增速不及前幾年水平,但整體市場規(guī)模穩(wěn)步擴張,我國二手車市場已進(jìn)入一個新發(fā)展階段,行業(yè)持續(xù)向好的態(tài)勢十分明朗,2020全年交易量有望達(dá)到1400萬輛的歷史高位。[3]
二手車的自由交易和流通使得二手車市場逐漸活躍起來,二手車交易也越來越受到人們的青睞。[4]此時,二手車保值率成為衡量二手車市場的重要指標(biāo)。其中,汽車的上牌時間、行駛里程、排量、變速類型、品牌及有無過戶等,是影響二手車保值率高低的重要指標(biāo)。瓜子二手車是近年來較為熱門的二手車交易網(wǎng)站,本文通過分析其2020年4月6000條二手車交易信息并使用多元線性回歸進(jìn)行分析,使數(shù)據(jù)更加清晰易懂,讓行業(yè)參與者明晰二手車保值率的影響因素,優(yōu)化決策。
近二十年來,我國二手車交易數(shù)量急劇增加,截至2019年上半年,二手車的交易量達(dá)到了1382萬輛,但是隨著交易量的增多,二手車的交易市場也開始出現(xiàn)一系列的問題。這些問題的原因是因為買賣雙方的信息不對稱,導(dǎo)致二手車的價格不明確,車輛信息存在不準(zhǔn)確或者不清晰的情況。對于二手車的買家來說,如何利用賣家提供的車輛信息準(zhǔn)確地評估,了解目標(biāo)車輛的詳盡狀況,掌握更多的不同品牌不同車況在資料,更加接近買家的需求。只有這樣,買家才有機會用合適的價格買到心儀的車輛。
二手車常用的評估方式,有現(xiàn)行市場法、重置成本法,神經(jīng)網(wǎng)絡(luò)、基于特征價格理論分析等等算法。其中重置成本法應(yīng)用較為廣泛,它具有實用性強,應(yīng)用廣,技術(shù)發(fā)展成熟等優(yōu)點,但是同時也有著工作量大,計算時考慮因素單一,缺乏規(guī)?;涂陀^性以及信息不對稱等缺點。本文則利用多元線性回歸方程,試圖給二手車買家提供更多的可行的建議。
對爬取的二手車數(shù)據(jù)進(jìn)行清洗,對其中的缺失值以及噪聲數(shù)據(jù)等進(jìn)行處理,進(jìn)而得到干凈的數(shù)據(jù),并對部分?jǐn)?shù)據(jù)進(jìn)行轉(zhuǎn)換,使其成為可以適應(yīng)數(shù)據(jù)挖掘需求的形式。通過可視化展示,對數(shù)據(jù)的分布情況有一個初步的了解。
瓜子二手車直賣網(wǎng)于2015年 9月27日正式上線。實時在售個人車源量超過15 萬臺,業(yè)務(wù)覆蓋面廣,增長速度蟬聯(lián)數(shù)年行業(yè)第一,并于2015年11 月,斬獲“2015中國汽車金引擎獎之最佳C2C二手車電商平臺”。[5]
本文收集了來自瓜子二手車直賣網(wǎng)交易平臺截至2020年4月16日的6000輛二手車數(shù)據(jù),經(jīng)過清洗后,最終剩余5478條數(shù)據(jù)。其中包含的樣本量n=5478輛車。因變量由汽車的原價和報價兩個部分構(gòu)成,定義保值率=車主報價/新車指導(dǎo)價,將自變量分為五個部分,即車齡、使用里程、動力情況、品牌和過戶情況。
數(shù)據(jù)挖掘中所使用的數(shù)據(jù)基本都是來自日常的生產(chǎn)、生活以及商業(yè)上的實際數(shù)據(jù),并且這些數(shù)據(jù)通常情況下是不完整的、含噪聲的、存在上下不一致的狀況,因此,使用這樣的數(shù)據(jù)之前,需要對數(shù)據(jù)進(jìn)行預(yù)處理,剔除數(shù)據(jù)中的噪聲,恢復(fù)其完整性和一致性。本文主要利用刪除法和插補法處理數(shù)據(jù)集中的空缺值,插補法利用了均值插補和回歸插補。在噪聲數(shù)據(jù)處理上則主要利用離群點分析和小波去噪去除了數(shù)據(jù)集中的異常值,在合理的范圍內(nèi)盡可能的降低分析中會造成的誤差。
其中離群點分析,是剔除所有數(shù)據(jù)中與其他數(shù)據(jù)一般的行為和特征不一致的離群點,這些離群點往往是測量或者執(zhí)行誤差以及數(shù)據(jù)本身的可變性、彈性所導(dǎo)致的。將其剔除可以避免其對后續(xù)數(shù)據(jù)分析的干擾。
對于收集到的數(shù)據(jù),通常使用統(tǒng)計圖表來探索其規(guī)律。在對二手車保值率的影響因素進(jìn)行建模之前,首先對各變量進(jìn)行描述性統(tǒng)計分析,以初步判斷二手車保值率。
數(shù)據(jù)集中,主要涉及30個品牌,數(shù)目最多的品牌是大眾,有867輛二手車在售,超過100輛在售的品牌有13個,其中位于前五的分別是:大眾、奔馳、本田、別克、寶馬。
車輛過戶即變更車輛所屬人名稱,汽車戶口主要登記汽車所有者和住址,以及相關(guān)的一些汽車參數(shù),成功過戶的汽車證明此輛汽車沒有肇事和違章,這是購買二手車輛的必經(jīng)環(huán)節(jié)。而0過戶車輛表示該車屬于個人一手車,一般而言車況會好于有過戶次數(shù)的車輛,所以在二手市場上也相對更為受到歡迎。該數(shù)據(jù)集中非0過戶車輛占比57.2%平均保值率58.91%,而0過戶占比42.7%,平均保值率為61.75%.
大多數(shù)情況是,購買年限稱為車齡,是在購買二手車首要參考的要素之一。由數(shù)據(jù)可視化結(jié)果可知,在二手車市場中,在售車輛的購買年限以4-6年為主,且由中位數(shù)和平均數(shù)結(jié)果可知,主要集中在5年左右。
接下來要探索的是汽車的動力情況與保值率高低之間的關(guān)系,動力情況主要由排放標(biāo)準(zhǔn)、汽車排量、最大馬力和動力類型組成,具體情況由下圖4二手車動力情況分布圖所示。通過描述性統(tǒng)計分析可以發(fā)現(xiàn),汽油車保值率要高于電動汽車等其他二手車的保值率,擁有國五排放標(biāo)準(zhǔn)的二手車保值率高于其他排放標(biāo)準(zhǔn)的二手車,這大概是由于國五排放標(biāo)準(zhǔn)的車輛更容易外遷入其他省市,同時國五排放標(biāo)準(zhǔn)的汽車也更加環(huán)保,這也體現(xiàn)了人們對環(huán)保問題的重視。
事實上,一種現(xiàn)象常常是與多個因素相聯(lián)系的,由多個自變量的最優(yōu)組合共同來預(yù)測或者估計因變量,比只用一個自變量進(jìn)行預(yù)測和估計更有效更符合實際。[6]
在二手車市場,一輛二手車的保值率可能與多個因素相關(guān),假設(shè)保值率與二手車車齡、使用歷程、變速方式品牌、上牌時間等因素有關(guān),就需要用多元線性回歸對保值率進(jìn)行相關(guān)分析與預(yù)測。
通常用普通最小二乘法求解回歸系數(shù),其原理是使各個觀測點處的偏差平方和達(dá)到最小,即:
解之可得
將數(shù)據(jù)集分為訓(xùn)練集和測試集,按80%和20%的比例進(jìn)行劃分。并通過python多元線性回歸模型,運行代碼得到圖5以及系數(shù)與截距:
系數(shù):[[-1.39006833e-03 4.48794761e+00-6.87926757e-01-4.49983546e+00]]
截距:[82.94606317]
對多元線性回歸模型進(jìn)行顯著性F檢驗,以此來判斷全體自變量是否在總體上對因變量產(chǎn)生顯著的影響。構(gòu)造F檢驗統(tǒng)計量對總體進(jìn)行顯著性檢驗。
結(jié)果顯示,該線性回歸模型的擬合優(yōu)度為。0.778,說明擬合的該模型擬合效果較好,模型中各個變量均通過了顯著性檢驗,并且變量的系數(shù)也與經(jīng)濟意義相符,其中上牌時間、行駛里程、過戶次數(shù)等變量的系數(shù)為負(fù),說明這幾個變量與二手車保值率之間是負(fù)相關(guān)的,二手車保值率隨上述幾個變量的增加而降低。
車輛的變速器主要分為自動和手動,購車的首要考慮的是個人喜好問題,另外還要從維修角度考慮,如果是手動變速器且質(zhì)量好一點的汽車,十年之內(nèi)變速器一般不會壞,只要定期更換變速器油即可。[8]但自動變速器車除了更換自動變速器油,可能其內(nèi)部零件已磨損嚴(yán)重,所以購買以前一定要了解清楚維修情況。
一般情況下,使用3年左右的汽車已經(jīng)度過了磨合期,[9]且較大部分的汽車已經(jīng)做了保養(yǎng),適宜購買。
一般暢銷和口碑較好的汽車保值率較高,如德系里的大眾,日系里的豐田,韓系里的現(xiàn)代等。
一般來說,行駛里程數(shù)與車況成反比,一年行駛2萬千米是較為正常的。
汽車的排量與油耗直接相關(guān),一般情況下購買二手車時性價比是重要參考因素,因此選擇排量較小的車更為合適,且汽車的排量越大則車船稅務(wù)就會越大,這也需要考慮在內(nèi)。[10]
近十年來,隨著國民生活水平不斷提高,家用汽車更新?lián)Q代頻率顯著提高,二手車市場交易非?;钴S,合理科學(xué)地確定二手車的保值率對購買二手汽車的客戶來說意義重大。[7]本文從大數(shù)據(jù)角度出發(fā),以瓜子二手車直賣網(wǎng)上的在售二手車作為研究對象,利用描述性統(tǒng)計與多元線性的方法對二手車保值率的影響因素進(jìn)行了深入研究,得到如下結(jié)論:
從使用狀況層面上來看,車齡和行駛里程對二手車保值率的高低有著重要的影響,車齡1-5年的二手車和里程數(shù)九萬公里以下的二手車擁有較好的保值率。從基本屬性層面來看,汽車品牌、是否過戶都會對保值率的高低產(chǎn)生一定的影響,例如汽車品牌變量,人們對品牌的偏愛會促使人們買特定品牌的汽車。從動力情況,排放標(biāo)準(zhǔn)、汽車排量、最大馬力、動力類型、變速等對保值率的高低有著一定的影響,人們更樂意購買排放標(biāo)準(zhǔn)更高的二手車。排量決定了汽車的油耗,這也是普通家庭在購車中需要考慮的因素。