摘要 為應對ETC行業(yè)從發(fā)展階段向運營階段轉變的需求,精準挖掘潛在客戶的價值,文章采用關聯(lián)分析和聚類分析等數(shù)據(jù)分析方法,基于ETC用戶基礎數(shù)據(jù),對用戶群體進行了多方面的特征及閾值分析,并構建了轎車通勤群體和轎車旅游群體的劃分方法流程體系。研究結果表明,所采用的分析方法能夠準確挖掘轎車通勤和旅游群體的潛力和價值,為ETC企業(yè)的業(yè)務拓展提供理論支持,同時也為其他行業(yè)的精細化運營提供了參考。文章對轎車通勤群體和轎車旅游群體進行了詳細分析,驗證了劃分方法的有效性,為提高ETC企業(yè)的市場競爭力和客戶滿意度提供了理論依據(jù),有助于該行業(yè)的可持續(xù)發(fā)展。
關鍵詞 ETC數(shù)據(jù);轎車通勤群體;轎車旅游群體;群體劃分方法
中圖分類號 U293 文獻標識碼 A 文章編號 2096-8949(2024)17-0028-05
0 引言
隨著數(shù)字和信息技術的飛速發(fā)展,大數(shù)據(jù)技術在眾多領域中成為研究熱點,其中包括智慧交通[1]。ETC是全球最大的電子收費系統(tǒng)之一,擁有豐富的車輛行駛信息。在國外,ETC技術已非常成熟,如美國的E-Zpass、葡萄牙的ViaVarde和意大利的Telepass等。在亞洲,日本政府從2000年開始推廣ETC系統(tǒng),在名古屋和大阪等地建立了首批收費站[2]。自二十世紀進入我國以來,ETC系統(tǒng)逐步融入我國高速交通系統(tǒng),近年來得到了廣泛應用,提高了高速公路收費效率,降低了收費難度。我國ETC聯(lián)網(wǎng)系統(tǒng)已成為全球里程最長、站點最多、客戶規(guī)模和交易增長最快的高速公路智能化收費系統(tǒng)。目前,ETC已進入后期階段,全國各地均在積極推廣應用。截至2018年年底,全國聯(lián)網(wǎng)收費站達9 322個,覆蓋率達98.9%等[3]。截至2021年,ETC已發(fā)行用戶1.23億,總數(shù)達2.04億。交通運輸部也在2021年2月發(fā)布通知,重慶等27個城市將作為ETC智慧停車城市建設試點城市。重慶將率先進行“ETC+車生活服務”主題試點。截至2022年年底,全市民用車輛擁有量890.52萬輛,民用轎車擁有量289.70萬輛,民用轎車占民用車輛的32.53%,由此可見轎車出行在人們出行方式中的占比非常高。而轎車通勤和旅游群體是現(xiàn)代社會兩個重要的交通出行類別,它們的行駛特征和消費行為不同,對出行方式的依賴程度也有所差異。而隨著ETC系統(tǒng)的不斷發(fā)展和普及,更多的ETC用戶信息被積累并儲存,為轎車通勤和旅游群體的劃分提供了新的研究途徑和空間。制定合理、準確的劃分方法,對ETC業(yè)務的拓展和市場份額的提升具有重要意義。
國內外許多學者基于大量的ETC數(shù)據(jù)開展了一系列的研究。Klodzinski J等[4]通過建立模型對高速公路的通行效率進行了評價;王旭[5]用模糊綜合評價分析ETC全國聯(lián)網(wǎng)數(shù)據(jù)對高速公路運營產生的影響;馬春平[6]針對ETC運營數(shù)據(jù)與大數(shù)據(jù)相結合的商業(yè)模式進行了調研與分析,通過大量研究表明了基于ETC數(shù)據(jù)開展高速公路ETC業(yè)務的可行性,同時對比于其他數(shù)據(jù),ETC的數(shù)據(jù)覆蓋面更加廣泛,能夠全面地反映全國高速轎車的運營水平。在用戶出行特征方面,針對軌跡數(shù)據(jù)的分割技術和車輛行為分析,Sini Guo等[7]提出了一種高效的數(shù)據(jù)值算法;Zun Wang等[8]使用GPS數(shù)據(jù)中瞬時速度分布的變化系數(shù)衡量行程時間的可靠性,并提出了旅行時間可靠性與道路密度的模型;國內學者董宏輝等[9]則利用GPS數(shù)據(jù)開發(fā)了兩種轉換點的識別方法,并將其應用于四種識別算法中,結果表明采用SVM能夠取得最好的結果;徐海玲等[10]提出了用戶自然屬性、用戶行為特征和用戶需求偏好的用戶標簽體系;楊雙亮[11]提出了原始數(shù)據(jù)層、事實數(shù)據(jù)層、特征偏好層以及模型預測層的用戶畫像模型。
該文旨在基于ETC用戶基礎數(shù)據(jù),通過大數(shù)據(jù)技術和數(shù)據(jù)分析方法,探究轎車通勤和旅游群體的劃分方法,并深入揭示不同群體的特征和需求,為ETC業(yè)務拓展和智慧出行建設提供理論支持。通過關聯(lián)分析和聚類分析等數(shù)據(jù)分析方法,該文將精確地揭示ETC潛在客戶的市場空間,為推進ETC業(yè)務的管理和實踐提供重要的實用價值。
1 轎車群體劃分方法
通過對重慶高速ETC系統(tǒng)數(shù)據(jù)庫中多源異構的數(shù)據(jù)類型、格式和質量的梳理,包括對收費站過車數(shù)據(jù)、用戶數(shù)據(jù)、車輛信息、交易數(shù)據(jù)、門架數(shù)據(jù)、用戶操作日志、會員數(shù)據(jù)等進行了詳細說明。接著進行數(shù)據(jù)清洗處理,主要用于檢查數(shù)據(jù)的一致性,處理無效值和缺失值,替換、修改或刪除不合格數(shù)據(jù),方便后續(xù)數(shù)據(jù)關聯(lián)和整個數(shù)據(jù)的挖掘過程,將對后續(xù)關鍵特征分析產生重要影響。該文采用關聯(lián)規(guī)則,結合業(yè)務實戰(zhàn)需要對現(xiàn)階段接入的多源異構數(shù)據(jù)表進行定制化數(shù)據(jù)的關聯(lián)融合處理,構建轎車通勤群體的數(shù)據(jù)關聯(lián)表。
ETC數(shù)據(jù)關聯(lián)處理是決定ETC企業(yè)是否成功的重要因素之一。通過關聯(lián)規(guī)則對不同信息的數(shù)據(jù)表進行關聯(lián),可以發(fā)現(xiàn)不同數(shù)據(jù)表之間的關系。數(shù)據(jù)關聯(lián)主要是通過這種方法實現(xiàn)。ETC企業(yè)所接入的各種數(shù)據(jù),包括ETC通行數(shù)據(jù)、結算中心數(shù)據(jù)、移動支付數(shù)據(jù)、用戶信息和車架數(shù)據(jù)、站名編碼映射表等多源異構數(shù)據(jù)表,需要通過定制化數(shù)據(jù)的關聯(lián)融合處理進行數(shù)據(jù)關聯(lián)。這些數(shù)據(jù)不僅可以幫助企業(yè)挖掘出不同用戶群體的特征和需求,還為ETC企業(yè)推送定制化服務信息,以提升用戶服務水平,為提高市場競爭力和客戶滿意度打好基礎。
定制化數(shù)據(jù)關聯(lián)表主要包括轎車群體數(shù)據(jù)關聯(lián)表、客車群體數(shù)據(jù)關聯(lián)表、貨車群體數(shù)據(jù)關聯(lián)表和消費數(shù)據(jù)關聯(lián)表。這些數(shù)據(jù)關聯(lián)表包含了ETC企業(yè)業(yè)務所需的關鍵特征,可以幫助企業(yè)深入了解用戶的需求和偏好。ETC企業(yè)可以利用這些數(shù)據(jù)關聯(lián)表將ETC用戶與其對應的車輛關聯(lián)在一起,為每個用戶提供有針對性的產品和服務。
1.1 轎車通勤群體劃分方法
1.1.1 群體刻畫指標
經過數(shù)據(jù)清洗、關聯(lián),在數(shù)據(jù)關聯(lián)匯總表的基礎上,提取轎車通勤群體識別指標,針對各指標制定分類標準,并以3個月的數(shù)據(jù)作為識別模型樣本容量開展群體的識別與分類工作。
考慮通勤行為的特點,梳理出轎車通勤群體的刻畫指標,主要包括:車輛類型識別號、用戶類型識別號、月出行頻次、通行時間、入口/出口站名(OD分布)。
(1)車輛類型識別號
車輛類型識別號對應關聯(lián)匯總表中的“veh_cust_class”字段,該字段僅包含數(shù)字1與數(shù)字2。數(shù)字1表示該車為客車,而數(shù)字2表示該車為非客車。
(2)用戶類型識別號
用戶類型識別號對應關聯(lián)匯總表中的“usertype”字段,該字段僅包含數(shù)字1與數(shù)字2。數(shù)字1表示為個人用戶,而數(shù)字2表示為單位用戶。
(3)月出行頻次
月出行頻次是指車輛單月內在高速路網(wǎng)上的通行天數(shù)。該次研究統(tǒng)計所有車輛的月出行頻次,即先利用“platenum”和“entime”獲取車輛每天出現(xiàn)的次數(shù),然后通過“entime”對“platenum”計次,最終得到車輛的月出現(xiàn)頻次。其中“platenum”表示車輛車牌,“entime”表示車輛進入高速路網(wǎng)的時刻,并基于車輛的月出行頻次對通勤群體進行初步篩選。
(4)通行時間
該次研究將篩選通行時間在工作日的早晚高峰(早上6:30~9:00,晚上17:00~19:30)時段的車輛,且車輛在非工作日無此規(guī)律。
(5)入口/出口站名(OD分布)
通勤群體在工作日車輛入口/出口站名相對固定。該次研究將對車輛入口/出口站名進行重復性統(tǒng)計。
統(tǒng)計結果顯示,符合條件的車輛月出行天數(shù)主要集中在12~25次之間,轎車在通勤日的出行頻次占比如圖1所示:
通常情況下,一個月有30 d,其中工作日約為22 d,因此通勤者一個月內至少會出行22 d。但不能排除一些特殊情況的存在,因此需要確定通勤行為中出行天數(shù)的閾值,并通過樣本驗證和檢測進行確定。
從1個月的早晚高峰均出現(xiàn)車輛月出行次數(shù)統(tǒng)計圖中可以發(fā)現(xiàn),出行天數(shù)大多集中在12~25次之間,對每一天數(shù)選取20輛車作為實驗樣本,通過對比起點、終點的重復情況,判斷其中具體通勤行為車輛的占比,最后得到如圖2所示的車輛出行占比統(tǒng)計圖,圖中天數(shù)為16 d時有一個顯著的斷層現(xiàn)象(分界點),從而可以以此作為判斷通勤車輛出行的特征條件之一,即月早晚高峰均出現(xiàn)天數(shù)應大于等于16 d。
1.1.2 群體指標標準構建
經過數(shù)據(jù)清洗和關聯(lián),并結合前期基礎信息采集得到的通勤標簽性質的收費站點,在數(shù)據(jù)關聯(lián)匯總表的基礎上,依據(jù)轎車通勤群體分類指標,對大量ETC過車數(shù)據(jù)進行了分類篩選,并為所需指標制定了分類標準,具體內容見表1所示。
基于前面梳理的轎車通勤群體分類指標,分別對車輛類型識別號、用戶類型識別號、月出行頻次、通行時間、OD分布等5個指標制定標準,轎車通勤群體分類標準如表1所示:
1.1.3 群體辨識結果
根據(jù)重慶市9月份的數(shù)據(jù),依照轎車通勤群體用戶的分類指標及劃分方法,共識別出9月份高速ETC轎車通勤車輛的個體數(shù)為2 020輛,通行數(shù)據(jù)共計70 455條。
1.2 轎車旅游群體劃分方法
1.2.1 群體刻畫指標
基于轎車車輛的特征(刻畫指標)對轎車群體進一步細化,同時考慮旅游行為的特點,梳理出轎車旅游群體刻畫指標,主要包括以下內容:(1)車輛品牌:非客車品牌、非貨運品牌;(2)用戶類型:個人;(3)車輛類型:客車;(4)通行時間:主要在周末或節(jié)假日時段;(5)入口/出口站名(OD分布):主要為帶有旅游景點標簽的站名;(6)通行頻次:歷史上通過單個旅游標簽站點的頻次低;(7)歷史上在周末、節(jié)假日期間通過多個旅游標簽站點、帶有旅游標簽的收費站。劃分流程如圖3所示,統(tǒng)計到重慶市內收費站共331個,其中劃分為帶有旅游標簽的收費站共計63個。
1.2.2 群體指標標準構建
對經過數(shù)據(jù)清洗和關聯(lián)的收費站點進行了進一步分析,結合前期基礎信息采集得出了旅游標簽性質。在此基礎上,提取了轎車旅游群體的識別指標,并為每個指標制定了分類標準。最終,運用這些指標對大量ETC過車數(shù)據(jù)進行分類篩選,具體分類標準如表2所示:
(1)群體分類標準
面對梳理的轎車旅游群體分類指標,分別對車輛類型識別號、用戶類型識別號、是否通過旅游標簽站點、通行時間、通行頻次等5個指標制定標準,通過對以上5個指標進行轎車旅游群體識別,得出旅游群體,具體識別步驟如圖4所示:
1.2.3 群體劃分結果
以重慶市10月份的數(shù)據(jù)作為識別模型的樣本容量,開展群體識別與分類工作,按照轎車旅游群體劃分指標及標準進行篩選,依照分類指標及其對應標準,識別出10月份高速ETC轎車旅游車輛的個體數(shù)為224 833輛。
2 轎車群體驗證
2.1 轎車通勤群體驗證
基于前期所做的大量數(shù)據(jù)分析處理工作,對轎車ETC用戶進行了群體劃分,并對群體相應特征進行了分析。為保障群體劃分的準確性以及特征分析的有效性,需對劃分的用戶群體進行驗證。
隨機挑選該群體車輛,分析其通行規(guī)律,判斷是否屬于轎車通勤群體。以渝C7E**2為例,對其通行頻次以及OD分布進行統(tǒng)計,如表3所示:
通過對其通行特征規(guī)律的觀察分析以及對其OD分布的探究,所選車輛符合轎車通勤群體分類依據(jù),其通行特征充分體現(xiàn)了轎車通勤群體的運行規(guī)律。基于此,斷定所選車輛歸屬轎車通勤群體,渝C7E**2的OD分布如圖5所示。
2.2 轎車旅途群體驗證
基于前期所做的大量數(shù)據(jù)分析處理工作,對轎車ETC用戶進行了群體劃分,并對群體相應特征進行了分析。為保障群體劃分的準確性以及特征分析的有效性,需對劃分的用戶群體進行驗證。隨機挑選該群體車輛,分析其通行規(guī)律,判斷是否屬于轎車旅游群體。以渝GDG**7為例,對其通行頻次以及OD分布進行統(tǒng)計,如表4所示:
通過對其通行特征規(guī)律的觀察分析以及對其OD分布的探究,所選車輛符合轎車旅游群體分類依據(jù),其通行特征充分體現(xiàn)轎車旅游群體的運行規(guī)律。基于此,斷定所選車輛歸屬轎車旅游群體,渝GDG**7的 OD分布如圖6所示。
3 總結
基于ETC用戶基礎數(shù)據(jù),通過關聯(lián)分析、聚類分析等數(shù)據(jù)分析方法,針對ETC用戶群體出行方式、消費行為等多特征及閾值進行轎車通勤用戶畫像的指標體系構建,該方法已經群體驗證,證實了該方法的準確性和有效性?;贓TC數(shù)據(jù)的轎車通勤群體和轎車旅游群體的劃分方法,有助于ETC運營業(yè)務的延伸和拓展,為其提供理論支撐。
參考文獻
[1]曹景揚.ETC用戶精準畫像系統(tǒng)的研究與設計[D].長春:長春工業(yè)大學,2019.
[2]嚴鈺.高速公路收費站車輛尾氣排放預測模型研究[D].南京:東南大學,2018.
[3]夏陸然,高薪.ETC聯(lián)網(wǎng)運營與典型區(qū)域社會經濟關系初探——以“一帶一路”重點區(qū)域京津冀和長三角為例[J].中國交通信息化,2019(12):42-44.
[4] Klodzinski J, AI-Deek H M.New Methodology for Ddfining Level of Service at Toll Plazes[J]. Journal of Transportation Engineering, 2002(2): 173-181.
[5]王旭.高速公路電子不停車收費系統(tǒng)效益評價及營銷推廣[D].廣州:華南理工大學,2016.
[6]馬春平.基于全國聯(lián)網(wǎng)ETC運營數(shù)據(jù)的應用研究[D].北京:北京郵電大學,2018:10-45.
[7]Sini Guo, Xiang Li, Wai-Ki Ching, etal.GPS trajectory data segmentation based on probabilistic logic[J]. International Journal of Approximate Reasoning, 2018(12): 227-247.
[8]Zun Wang, Anne Goodchild, Edward McCormack. A methodology for forecasting freeway travel time reliability using GPS data[J]. Transportation Research Procedia, 2017: 842-852.
[9]董宏輝,孫曉亮,賈利民,等.多模態(tài)的交通流量預測模型[J].吉林大學學報(工學版),2011(3):645-649.
[10]徐海玲,張海濤,魏明珠,等.社交媒體用戶畫像的構建及資源聚合模型研究[J].圖書情報工作,2019(9):109-115.
[11]楊雙亮.用戶畫像在內容推送的研究與應用[D].北京:北京工業(yè)大學,2017:8-9.