楊迎卯
(溫州市鐵路與軌道交通投資集團(tuán)有限公司,溫州 325000)
城市軌道交通行為分析與數(shù)據(jù)挖掘決策系統(tǒng)研究
楊迎卯
(溫州市鐵路與軌道交通投資集團(tuán)有限公司,溫州 325000)
本文對(duì)智慧城市軌道交通行為分析與數(shù)據(jù)挖掘系統(tǒng)進(jìn)行探討,從系統(tǒng)需求分析入手,對(duì)系統(tǒng)功能、運(yùn)行流程進(jìn)行設(shè)計(jì),并結(jié)合城市軌道交通實(shí)際應(yīng)用場(chǎng)景進(jìn)行分析。
城市軌道交通;行為分析;數(shù)據(jù)挖掘;輔助決策
隨著我國(guó)城市軌道交通的飛速發(fā)展、智慧城市理念的深化和實(shí)施,智慧軌道交通建設(shè)提上日程。智慧軌道交通是以未來(lái)人類社會(huì)為理想目標(biāo),以信息化的人類智慧為指導(dǎo),以軌道交通的規(guī)劃設(shè)計(jì)、建設(shè)運(yùn)營(yíng)、控制管理為指導(dǎo),集“人、事、物”為一體的物聯(lián)網(wǎng)為信息采集、交換與服務(wù)的基礎(chǔ)支撐平臺(tái);以智能的信息化決策和處理技術(shù)為基本手段,通過(guò)對(duì)海量軌道交通信息的梳理、過(guò)濾、挖掘和利用,構(gòu)建“高效、便捷、安全、可視、環(huán)保和可預(yù)測(cè)”的現(xiàn)代軌道交通運(yùn)輸系統(tǒng)。
本文就智慧軌道交通中“如何通過(guò)對(duì)乘客的行為分析和數(shù)據(jù)挖掘,實(shí)現(xiàn)對(duì)地鐵商業(yè)和地鐵廣告業(yè)務(wù)的拉動(dòng),達(dá)到便利乘客消費(fèi)、增加地鐵商業(yè)開發(fā)收入”的議題展開討論。
為了使地鐵附加銷售額增長(zhǎng),根據(jù)地鐵業(yè)務(wù)的現(xiàn)實(shí)情況,提出兩個(gè)系統(tǒng)對(duì)營(yíng)銷策略進(jìn)行支持與決策:(1)行為分析與數(shù)據(jù)挖掘決策系統(tǒng);(2)個(gè)性化及廣告推薦精準(zhǔn)營(yíng)銷系統(tǒng)。本文主要介紹行為分析與數(shù)據(jù)挖掘決策系統(tǒng)。該系統(tǒng)是從運(yùn)營(yíng)者及商家的角度,對(duì)客戶的宏觀行為進(jìn)行統(tǒng)計(jì)與決策,制定相應(yīng)的營(yíng)銷政策、預(yù)警客戶流失、推動(dòng)銷售額增長(zhǎng),從而對(duì)傳統(tǒng)業(yè)務(wù)與新業(yè)務(wù)經(jīng)營(yíng)進(jìn)行分析和決策支持、優(yōu)化成本。
1.1 地鐵業(yè)務(wù)相關(guān)系統(tǒng)的需求
1.1.1 數(shù)據(jù)信息挖掘內(nèi)容
(1)出行信息。各車站進(jìn)出客流量實(shí)時(shí)數(shù)據(jù)信息,各車站客流量歷史數(shù)據(jù)信息;
(2)電子商務(wù)物流配送信息;
(3)消費(fèi)偏好信息;
(4)生活需求、服務(wù)需求信息。
1.1.2 大數(shù)據(jù)挖掘目的
(1)挖掘市民的出行信息,為地鐵公司列車開行方案、行車組織提供決策支持;為城市軌道交通規(guī)劃提供決策支持。
(2)調(diào)整地鐵商業(yè)服務(wù)內(nèi)容,便于商業(yè)服務(wù)更貼近用戶。
(3)精準(zhǔn)推送地鐵公益信息、商業(yè)廣告等內(nèi)容。
1.2 地鐵業(yè)務(wù)大數(shù)據(jù)獲取途徑
根據(jù)地鐵業(yè)務(wù)的場(chǎng)景和特點(diǎn),地鐵運(yùn)營(yíng)過(guò)程中數(shù)據(jù)的采集主要為乘客使用的市民卡。除了乘坐地鐵閘機(jī)刷卡外,市民卡還可以在以下的服務(wù)中使用市民卡:
(1)地鐵商鋪消費(fèi);
(2)地鐵站提供的物流服務(wù)(快遞自提點(diǎn)等);
(3)互動(dòng)型廣告、自動(dòng)售賣機(jī)、報(bào)刊售賣、生活費(fèi)用繳納;
(4)手機(jī)充電、雨傘借用、針線包、急救藥箱等便民服務(wù);
(5)綜合查詢機(jī)(賓館預(yù)訂信息、景點(diǎn)信息、文化場(chǎng)所信息、消費(fèi)場(chǎng)所信息、旅游線路信息、交通出行信息、火車票飛機(jī)票預(yù)訂信息等)。
除市民卡(閘機(jī)、消費(fèi))以外,還可以考慮引入以下數(shù)據(jù)采集方式:
(1)WIFI上網(wǎng)熱點(diǎn);
(2)手機(jī)NFC技術(shù);
(3)移動(dòng)通信天線、手機(jī)定位;
(4)攝像頭視頻數(shù)據(jù)分析;
(5)拾音器;
(6)與地鐵相關(guān)的智能穿戴設(shè)備;
(7)地鐵里其他信息數(shù)據(jù)采集裝置。
(1)客戶細(xì)分。
(2)客戶流失預(yù)警。
(3)增量銷售。銷售策略制定與決策,提高營(yíng)銷活動(dòng)利潤(rùn)。
(4)營(yíng)銷效果統(tǒng)計(jì)。根據(jù)主要收益來(lái)源,統(tǒng)計(jì)新產(chǎn)品營(yíng)銷效果,分析如何激活沉默用戶;學(xué)習(xí)數(shù)據(jù),對(duì)下一步營(yíng)銷策略進(jìn)行預(yù)測(cè)。
(5)高價(jià)值客戶維系。通過(guò)數(shù)據(jù)學(xué)習(xí),完善高價(jià)值差異化服務(wù)。比如設(shè)立VIP、積分卡進(jìn)行促銷,回饋利潤(rùn)。
(6)地鐵站客流量統(tǒng)計(jì)。
(7)商家及運(yùn)營(yíng)者盈利模型制定,財(cái)務(wù)經(jīng)營(yíng)狀況預(yù)測(cè)。
(8)商家及運(yùn)營(yíng)者內(nèi)部企業(yè)投資及新業(yè)務(wù)數(shù)據(jù)推薦。通過(guò)不斷學(xué)習(xí)數(shù)據(jù),及數(shù)據(jù)走向預(yù)測(cè),制定新的投資策略,開發(fā)新的業(yè)務(wù),以數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù),增加企業(yè)收入及可持續(xù)科學(xué)發(fā)展。
(9)其他相關(guān)傳統(tǒng)的商業(yè)智能功能。
基于上述系統(tǒng)需求分析和功能設(shè)計(jì),城市軌道交通行為分析與數(shù)據(jù)挖掘決策系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 系統(tǒng)結(jié)構(gòu)圖
城市軌道交通行為分析與數(shù)據(jù)挖掘決策系統(tǒng)的實(shí)現(xiàn)過(guò)程分為6個(gè)階段,如圖2所示。
圖2 行為分析與數(shù)據(jù)挖掘過(guò)程
(1)業(yè)務(wù)理解:商業(yè)理解,項(xiàng)目目的。確定從數(shù)據(jù)中獲得支持決策的信息。業(yè)務(wù)理解階段是了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清要求。在確定需求后,應(yīng)對(duì)現(xiàn)有資源如已有的歷史數(shù)據(jù)進(jìn)行評(píng)估,確定是否能夠通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)確定需求,進(jìn)一步確定數(shù)據(jù)挖掘的目標(biāo)和制定數(shù)據(jù)挖掘計(jì)劃。
(2)數(shù)據(jù)理解:通過(guò)數(shù)據(jù)發(fā)現(xiàn)經(jīng)營(yíng)狀況。理解數(shù)據(jù)的統(tǒng)計(jì)學(xué)規(guī)律,根據(jù)具體的商業(yè)理解確定決策方向,進(jìn)行數(shù)據(jù)分析。
(3)數(shù)據(jù)準(zhǔn)備:根據(jù)數(shù)據(jù)理解(分析),進(jìn)行數(shù)據(jù)準(zhǔn)備,從數(shù)據(jù)集、數(shù)據(jù)倉(cāng)庫(kù)等數(shù)據(jù)存儲(chǔ)系統(tǒng)中獲取需要進(jìn)行數(shù)據(jù)分析的數(shù)據(jù)。數(shù)據(jù)挖掘所處理的數(shù)據(jù)集通常不僅是海量數(shù)據(jù),而且可能存在大量的噪聲數(shù)據(jù)、冗余數(shù)據(jù)、稀疏數(shù)據(jù)或不完全數(shù)據(jù)等。數(shù)據(jù)準(zhǔn)備包括數(shù)據(jù)抽取、清洗、轉(zhuǎn)換和加載,具體包括數(shù)據(jù)的清洗、集成、選擇、變換、規(guī)約,以及數(shù)據(jù)的質(zhì)量分析等步驟。
(4)建立模型:數(shù)據(jù)挖掘中的建模實(shí)際是利用己知的數(shù)據(jù)和知識(shí)建立一種模型,并能將該模型有效地應(yīng)用到未知的數(shù)據(jù)或相似情況中。在數(shù)據(jù)挖掘中,可以使用多種不同的模型:關(guān)聯(lián)規(guī)則模型、決策樹模型、神經(jīng)網(wǎng)絡(luò)模型、粗糙集模型、數(shù)理統(tǒng)計(jì)模型、時(shí)間序列分析模型等。
(5)模型評(píng)估:根據(jù)商業(yè)需求、模型數(shù)據(jù)學(xué)習(xí)后的結(jié)果,及數(shù)據(jù)命中率,修改完善模型,達(dá)到更加接近想要得到的數(shù)據(jù)訓(xùn)練結(jié)果。數(shù)據(jù)挖掘得到的模式有可能沒(méi)有實(shí)際意義或沒(méi)有實(shí)用價(jià)值,也可能不能準(zhǔn)確反映數(shù)據(jù)真實(shí)意義,甚至在某些情況下是與事實(shí)相反的,因此對(duì)于數(shù)據(jù)挖掘的結(jié)果需要進(jìn)行評(píng)估,確定數(shù)據(jù)挖掘是否存在偏差,挖掘結(jié)果是否正確,哪些是有效的、有用的模式,能夠滿足需求。
(6)模型發(fā)布:將評(píng)估后的數(shù)據(jù)模型發(fā)布,供商業(yè)、決策人員使用,為公司進(jìn)行客戶行為分析和決策支持。
城市軌道交通行為分析與數(shù)據(jù)挖掘決策系統(tǒng)的整體應(yīng)用如下。
5.1 業(yè)務(wù)理解
根據(jù)地鐵各站點(diǎn)客流量及用戶在地鐵站內(nèi)消費(fèi)數(shù)據(jù),商家應(yīng)進(jìn)行產(chǎn)品銷售策略的變動(dòng),對(duì)高價(jià)值客戶進(jìn)行維系。產(chǎn)品銷售策略如圖3所示。
5.2 數(shù)據(jù)理解
圖3 大數(shù)據(jù)整體應(yīng)用場(chǎng)景
(1)客戶消費(fèi)傾向度分析如圖4所示。
圖4 客戶消費(fèi)傾向度分析示意圖
(2)高價(jià)值客戶數(shù)據(jù)分析如圖5所示。
圖5 高價(jià)值客戶數(shù)據(jù)分析示意圖
(3)客戶消費(fèi)傾向度因素分析。
時(shí)間階段:上班、下班時(shí)間;
地鐵站:幾號(hào)線、是否為換乘站;
商品:品牌、價(jià)格。
(4)高價(jià)值客戶傾向度因素分析。
服務(wù)質(zhì)量;
商品價(jià)格。
5.3 數(shù)據(jù)準(zhǔn)備
從數(shù)據(jù)倉(cāng)庫(kù),或者其他數(shù)據(jù)存儲(chǔ)系統(tǒng)中,獲取數(shù)據(jù)理解中需要的數(shù)據(jù),如圖6所示。
5.4 建立模型
客戶消費(fèi)傾向度可采用分類模型,K-mean算法,如圖7所示。
圖6 數(shù)據(jù)準(zhǔn)備示意圖
圖7 K-mean算法示意圖
5.5 模型評(píng)估
K-mean算法對(duì)歷史數(shù)據(jù)進(jìn)行模型校驗(yàn),得出是否可以刷卡這個(gè)選項(xiàng)對(duì)客戶消費(fèi)傾向度有較大影響,因此在分組中需加入此分組。
5.6 模型發(fā)布
以圖、表形式展現(xiàn)數(shù)據(jù)學(xué)習(xí)結(jié)果,并向相關(guān)關(guān)系者提供分析數(shù)據(jù)。
6.1 并行數(shù)據(jù)挖掘技術(shù)
當(dāng)數(shù)據(jù)挖掘?qū)ο笫且粋€(gè)龐大的數(shù)據(jù)集或是許多廣泛分布的數(shù)據(jù)源時(shí),效率就成為數(shù)據(jù)挖掘的瓶頸。隨著并行處理技術(shù)的快速發(fā)展,用并行處理的方法來(lái)提高數(shù)據(jù)挖掘效率的需求越來(lái)越大。
并行數(shù)據(jù)挖掘涉及到了一系列體系結(jié)構(gòu)和算法方面的技術(shù),如硬件平臺(tái)的選擇(共享內(nèi)存或分布式)、并行的策略(任務(wù)并行、數(shù)據(jù)并行或任務(wù)并行與數(shù)據(jù)并行結(jié)合)、負(fù)載平衡的策略(靜態(tài)負(fù)載平衡或動(dòng)態(tài)負(fù)載平衡)、數(shù)據(jù)劃分的方式(橫向的或縱向的)等。處理并行數(shù)據(jù)挖掘的策略主要涉及3種算法:并行關(guān)聯(lián)規(guī)則挖掘算法、并行聚類算法和并行分類算法。
6.2 數(shù)據(jù)挖掘隱私保護(hù)技術(shù)
數(shù)據(jù)挖掘在產(chǎn)生社會(huì)、經(jīng)濟(jì)效益的同時(shí)也出現(xiàn)了乘客隱私泄露的問(wèn)題。如何在防止乘客隱私泄露的前提下進(jìn)行數(shù)據(jù)挖掘,是系統(tǒng)迫切需解決的問(wèn)題。
基于隱私保護(hù)的數(shù)據(jù)挖掘是指采用數(shù)據(jù)擾亂、數(shù)據(jù)重構(gòu)、密碼學(xué)等技術(shù)手段,能夠在保證足夠精度和準(zhǔn)確度的前提下,使數(shù)據(jù)挖掘者在不觸及實(shí)際隱私數(shù)據(jù)的同時(shí),仍能進(jìn)行有效的數(shù)據(jù)挖掘。
受數(shù)據(jù)挖掘技術(shù)多樣性的影響,隱私保護(hù)的數(shù)據(jù)挖掘方法呈多樣性?;陔[私保護(hù)的數(shù)據(jù)挖掘技術(shù)可從4個(gè)層面進(jìn)行分類:從數(shù)據(jù)分布情況,分為原始數(shù)據(jù)集中式和分布式;從數(shù)據(jù)隱藏情況,分為對(duì)原始數(shù)據(jù)進(jìn)行擾動(dòng)、替換和匿名隱藏等;從數(shù)據(jù)挖掘技術(shù)層面,分為分類挖掘、聚類挖掘、關(guān)聯(lián)規(guī)則挖掘;從數(shù)據(jù)隱藏內(nèi)容層面,分為原始數(shù)據(jù)隱藏和模式隱藏。
6.3 上網(wǎng)行為分析技術(shù)
乘客在地鐵范圍內(nèi)的行為信息,除了地鐵商鋪消費(fèi)、物流服務(wù)、出行OD信息、便民服務(wù)使用、綜合查詢服務(wù)和NFC、無(wú)線定位、視頻分析、智能穿戴等技術(shù)手段采集到的數(shù)據(jù)信息外,通過(guò)地鐵站內(nèi)公共WIFI采集到乘客上網(wǎng)行為也是非常重要的。因此,采用先進(jìn)的上網(wǎng)行為分析技術(shù)非常必要。
上網(wǎng)行為分析技術(shù)包括Web頁(yè)面內(nèi)容識(shí)別技術(shù)和業(yè)務(wù)識(shí)別技術(shù)。
Web頁(yè)面識(shí)別技術(shù)包括無(wú)效頁(yè)面過(guò)濾、內(nèi)容清洗、文本切詞、無(wú)效關(guān)鍵詞過(guò)濾、文檔語(yǔ)義識(shí)別等。
常用的業(yè)務(wù)識(shí)別技術(shù)主要有端口識(shí)別技術(shù)、流量特征識(shí)別技術(shù)、深度包檢測(cè)(DPI,DeepPaket Inspection)識(shí)別技術(shù)、IP地址識(shí)別技術(shù)、會(huì)話判別技術(shù)、拓?fù)涮卣髯R(shí)別技術(shù)等。
6.4 內(nèi)容推薦技術(shù)方法
城市軌道交通行為分析與數(shù)據(jù)挖掘決策系統(tǒng)的主要目標(biāo)之一就是廣告等內(nèi)容的精準(zhǔn)推送。因此,如何通過(guò)行為分析和數(shù)據(jù)挖掘,實(shí)現(xiàn)精準(zhǔn)的內(nèi)容推薦是系統(tǒng)的重要目標(biāo)之一。
目前,內(nèi)容推薦的方法主要有:基于分類TOP排名直接推薦,基于用戶喜好的個(gè)性化推薦,基于用戶行為進(jìn)行關(guān)聯(lián)推薦等。其中,行為關(guān)聯(lián)推薦法是通過(guò)對(duì)大量乘客的數(shù)據(jù)進(jìn)行分析挖掘,找出乘客的身份、特征、出行、消費(fèi)等不同行為之間的關(guān)聯(lián)關(guān)系,根據(jù)乘客已有的行為,與分析出的不同行為之間的關(guān)系進(jìn)行比較,從而確定用戶下一步的可能行為。行為關(guān)聯(lián)推薦法需要大量數(shù)據(jù)支持,對(duì)數(shù)據(jù)分析挖掘的要求較高,但這種方法在進(jìn)行內(nèi)容推薦時(shí)往往成功率較高。
隨著智慧城市和城市軌道交通的發(fā)展,智慧軌道交通將進(jìn)入快速發(fā)展的時(shí)期。數(shù)據(jù)挖掘決策在智慧軌道交通的數(shù)據(jù)智慧采集—數(shù)據(jù)智慧融合—數(shù)據(jù)智慧挖掘—智慧決策的鏈條中處于關(guān)鍵位置。隨著網(wǎng)絡(luò)技術(shù)和智能穿戴等數(shù)據(jù)采集技術(shù)的發(fā)展,智慧軌道交通系統(tǒng)所需要的數(shù)據(jù)將越來(lái)越豐富,而系統(tǒng)的數(shù)據(jù)挖掘和輔助決策將成為系統(tǒng)的核心。
[1]維克托·邁爾·舍恩伯格.大數(shù)據(jù)時(shí)代[M].杭州:浙江人民出版社,2012.
[2]馬安華.基于用戶行為分析的精確營(yíng)銷系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].南京:南京郵電大學(xué),2013.
[3]楊 燕,朱 焱,戴 齊,等.智慧軌道交通—實(shí)現(xiàn)更深入的智能化[J].計(jì)算機(jī)應(yīng)用,2012(5).
[4]竇 軍,曾華燊,譚獻(xiàn)海,等.智慧軌道交通全聯(lián)網(wǎng)(SRTIoT)—更廣泛的互聯(lián)互通[J].計(jì)算機(jī)應(yīng)用,2012(5).
責(zé)任編輯 王 浩
圖2 室內(nèi)輔助設(shè)計(jì)軟件流程示意圖
參考文獻(xiàn):
[1]肖彩霞.ZPW-2000R無(wú)絕緣移頻軌道電路系統(tǒng)技術(shù)說(shuō)明書—系統(tǒng)描述[R].黑龍江:黑龍江瑞興科技股份有限公司,2012.
責(zé)任編輯 陳 蓉
Behavior analysis and Data Mining Decision Support System for Urban Transit
YANG Yingmao
( Wenzhou Mass Transit Railway Investment Group Co.LTD., Wenzhou 325000,China)
This article discussed the behavior analysis and Data Mining Decision Support System for the Urban Transit of smart city,designed the System from the system requirements,function and running process,combined with the practical application scenarios of Urban Transit to analyze them.
Urban Transit;behavior analysis;data mining;decision support
U231.92∶TP39
A
1005-8451(2016)06-0065-05
2015-11-10
楊迎卯,工程師 。