国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的市民出行公交線路預測研究

2017-04-22 10:11:14張聰聰李擁軍
現(xiàn)代計算機 2017年8期
關(guān)鍵詞:公交線路數(shù)據(jù)挖掘公交

張聰聰,李擁軍

(1.華南理工大學數(shù)學學院,廣州 510006;2.華南理工大學計算機科學與工程學院,廣州 510006)

基于數(shù)據(jù)挖掘的市民出行公交線路預測研究

張聰聰1,李擁軍2

(1.華南理工大學數(shù)學學院,廣州 510006;2.華南理工大學計算機科學與工程學院,廣州 510006)

近年來一些學者大多利用海量公交卡信息對整體客流進行預測,并無針對具體乘客在公交線路上的出行做出預測。基于數(shù)據(jù)挖掘技術(shù),以廣東省部分公交線路上的歷史公交卡交易數(shù)據(jù)為基礎(chǔ),采用滑動窗口模型構(gòu)造訓練樣本和測試樣本,借助隨機森林算法,對市民在公交線路上的出行進行預測研究,并用精度、召回率以及F1值進行評估,證明模型的可行性。

數(shù)據(jù)挖掘;公交卡信息;隨機森林;市民出行預測

0 引言

隨著我國經(jīng)濟增長以及城鎮(zhèn)化率的不斷增加,市民出行需求不斷增長,同時交通擁堵也越來越嚴重。公交卡歷史交易數(shù)據(jù)中存在大量乘客出行的模式和規(guī)律,對固定乘客的歷史出行行為進行分析和挖掘,預測乘客在固定線路上的未來出行方式,為廣大乘客提供信息對稱和安全出行環(huán)境具有重要的指導意義。目前投入使用的公交卡多用于公交企業(yè)的收費管理上,其中蘊藏的很多信息都未被發(fā)掘。本文將數(shù)據(jù)挖掘技術(shù)運用于公交卡信息庫,以廣東省部分公交線路的歷史公交卡交易數(shù)據(jù)為建模數(shù)據(jù),將市民出行線路選乘問題轉(zhuǎn)化為數(shù)據(jù)挖掘中二分類問題,對市民出行公交線路進行預測。

1 公交卡數(shù)據(jù)倉庫

擁有大量的可用數(shù)據(jù)是進行數(shù)據(jù)挖掘的前提,因此必須建立數(shù)據(jù)倉庫,數(shù)據(jù)倉庫與數(shù)據(jù)庫不同,它是面向主題、集成的、與時間相關(guān)的可修改的數(shù)據(jù)集合,將采集的公交信息經(jīng)過清理、整合和轉(zhuǎn)換后匯總,將這些數(shù)據(jù)分類存儲在不同的主題數(shù)據(jù)庫中形成公交卡信息數(shù)據(jù)挖掘的數(shù)據(jù)倉庫,其數(shù)據(jù)表如表1、表2所示。

表1 乘客刷卡交易數(shù)據(jù)表

表2 公交線路信息表

2 公交卡信息庫數(shù)據(jù)挖掘過程

實驗數(shù)據(jù)為廣東省五個月部分公交線路公交卡用戶歷史數(shù)據(jù),將市民出行線路選乘問題轉(zhuǎn)化為數(shù)據(jù)挖掘中二分類問題,采用一種滑動窗口的模型樣本構(gòu)造方法構(gòu)造特征屬性,進一步對模型做出訓練等。

2.1 基于滑動窗口的樣本構(gòu)造

在對公交卡交易數(shù)據(jù)處理建模的實際問題中,為了避免構(gòu)造的訓練集和測試集的數(shù)據(jù)分布不一致的問題,受經(jīng)典數(shù)據(jù)流處理模型滑動窗口的啟發(fā),本文提出采用一種基于固定大小的滑動窗口的樣本特征集抽取方式,實驗數(shù)據(jù)為2014年8月1日至2014年12月31日五個月廣東省部分公交線路公交卡用戶歷史交易數(shù)據(jù),使用139天固定時間窗口內(nèi)乘客歷史行為記錄構(gòu)造樣本的特征屬性,未來7天乘客固定公交線路上的出行情況確定樣本的類別標簽,通過多次滑動窗口,覆蓋不同的時間區(qū)間來構(gòu)造多份訓練樣本。滑動窗口設(shè)計如圖1。

圖1 滑動窗口樣本設(shè)計方法

每個時間窗口內(nèi),從乘客歷史出行行為特點的特征屬性類、不同線路特點的特征屬性類、乘客在具體公交線路上的交互特征屬性類、乘客公交卡不同類型特點的特征屬性類、不同乘客類型在具體公交線路上的行為規(guī)律的交互特征屬性類、乘客公交卡發(fā)卡地點的特征屬性類等幾個方面設(shè)計特征屬性。

(1)在每個窗口的樣本特征屬性,從以下幾個方面進行具體設(shè)計:

設(shè)計乘客(每一個card_id)歷史出行行為特點的特征屬性類:

①所有公交線路上乘客行為的時序類特征:針對乘客最近在所有線路上的乘車情況的統(tǒng)計,對乘客乘車規(guī)律進行描述,距離時間越短,對未來出行的影響越大,隨著歷史交易時間距離越長,影響作用越來越小,提取的區(qū)間粒度越來越大,統(tǒng)計每個乘客最近12小時內(nèi)、最近1、3、7、14、28、56、84、112、139天內(nèi)在所有公交線路上乘車總次數(shù)。

②乘客時間類特征:給定時間窗口內(nèi)乘客活躍程度的描述。乘客平均乘車間隔天數(shù),乘客最近公交刷卡交易時間、用戶的活躍小時數(shù)、出行次數(shù)大于1次的周數(shù)、行為次數(shù)大于2次的周數(shù)、平均刷卡時間間隔天數(shù)、平均每周刷卡次數(shù)。

③乘客出行變化的比值趨勢類特征:考慮到乘客歷史行為的變化趨勢影響,乘客行為次數(shù)大于2次的周數(shù)占比、乘客最近1、2、4次刷卡數(shù)在最近2、4、8次刷卡數(shù)占比、周末行為次數(shù)在總行為次數(shù)占比、工作日行為次數(shù)在總刷卡行為次數(shù)占比等,此類特征能對乘客的乘車規(guī)律進行刻畫。

④乘客不同類別屬性的特征:不同類別的乘客對未來出行有影響,上班族出行有時間規(guī)律,老人出行受其他因素影響較大,將7種不同公交卡類型映射為不同的特征。

(2)設(shè)計不同線路特點的特征屬性類:

①線路時序類統(tǒng)計特征:不同線路的歷史客流量對乘客的出行存在影響,對每條線路分別在最近12小時、最近1、3、7、14、28、56、84、112、139天的客流量進行統(tǒng)計,給定的時間窗口內(nèi)周末、工作日乘客總客流量統(tǒng)計,周末及工作日平均、歷史最大客流量統(tǒng)計。

②線路歷史乘坐量的變化趨勢類特征:歷史客流量變化對乘客的出行存在影響,對各線路最近1、2、4周在最近2、4、8周內(nèi)客流量的比值構(gòu)造特征。

③公交線路編碼特征:不同線路所在地以及每天線路的站點數(shù)對乘客選擇未來出行線路存在影響,主要有不同線路特征、每條線路站點數(shù)特征。

(3)設(shè)計乘客在具體公交線路上的交互特征屬性類:

①乘客對有歷史乘坐行為的每條線路的時序統(tǒng)計類特征:對乘客在每條具體線路上的歷史乘坐的活躍度進行刻畫,固定時間窗口內(nèi)對乘客在有歷史乘坐行為線路上最近12小時內(nèi)、最近1、3、7、14、28、56、84、112、139天中的公交交易行為進行統(tǒng)計,記錄乘客乘坐最大次數(shù)、周末乘坐次數(shù)、工作日乘坐次數(shù)。

②乘客對有歷史乘坐行為的每天各線路的時間類特征:乘客在有歷史乘坐行為上最近的乘坐時間間隔、給定時間窗口內(nèi)乘客有乘坐行為的時間間隔、乘客有乘車行為記錄的天數(shù)(活躍天數(shù))以及活躍小時數(shù)、返乘最小天數(shù)、平均返乘天數(shù)等特征。

③乘客對歷史乘坐線路乘坐行為比值趨勢類特征:最近1周乘客搭乘具體線路次數(shù)在最近2周內(nèi)搭乘行為數(shù)占比、乘客在線路子集中活躍小時數(shù)在線路全集中活躍小時總數(shù)占比、乘客在周末乘坐次數(shù)在總乘坐次數(shù)中占比、工作日乘坐次數(shù)在總乘坐次數(shù)中占比等特征。

(4)設(shè)計乘客公交卡不同類型特點的特征屬性類:

①不同類型乘客時序統(tǒng)計類特征:不同群體乘客出行規(guī)律不同,對不同乘客類型的出行規(guī)律進行刻畫,將不同乘客類型在所有線路上最近12小時、最近1、3、7、14、28、56、84、112、139天內(nèi)的周末和工作日的行為次數(shù)作為特征。

②不同類型乘客趨勢類特征:反映不同群體行為變化趨勢,如老年群體會隨著季節(jié)變化出行規(guī)律而發(fā)生變化、學生群體會隨著寒暑假的變化出行規(guī)律發(fā)生變化,對不同群體人群最近1、2、4周在最近2、4、8周內(nèi)出行量占比進行統(tǒng)計。

(5)設(shè)計乘客公交卡發(fā)卡地點的特征屬性類:

①不同地點乘客時序類統(tǒng)計特征:不同地點乘客的出行規(guī)律存在差別,分別對各地點乘客在最近12小時、最近1、3、7、14、28、56、84、112、139天內(nèi)行為總次數(shù)進行統(tǒng)計(按周末和工作日分別統(tǒng)計)。

②不同發(fā)卡地乘客的出行趨勢類特征:不同地點乘客在最近1、2、4周在最近2、4、8周內(nèi)出行量占比統(tǒng)計,周末出行次數(shù)在總次數(shù)占比。

③不同地點乘客編碼類特征:不同公交卡發(fā)卡地的乘車規(guī)律以及存在的線路都不同,為了在樣本中體現(xiàn)這些信息,將20個不同的公交卡發(fā)卡地點映射為特征。

具體的樣本特征框架圖,如圖2所示。

2.2 隨機森林算法預測

隨機森林(Random Forest)是由統(tǒng)計學大師Breiman在2001年提出的一種基于Bagging(Bootstrap Aggregating)思想的分類樹算法[1],其基分類器是決策樹,它利用Bootstrap重采樣的方法從原始樣本中抽取多個樣本生成森林中的每棵決策樹,最后通過對組合森林中每棵樹的預測結(jié)果采用多數(shù)投票的方式得出最終的分類結(jié)果。隨機森林模型的訓練過程中,通過在樣本的選擇以及決策樹內(nèi)部結(jié)點分裂的特征屬性的選擇兩個方面引入隨機性來降低單棵樹分類器存在較高方差的問題,能對噪聲和異常值有很好的容忍度,同時能夠很好地對特征屬性的多重共線性進行處理,不容易出現(xiàn)過擬合的情況。

構(gòu)造的樣本存在正負類不均衡的情況,負類樣本(乘客在未來固定時間段內(nèi)在固定公交線路上無出行行為)過多,處理問題的策略包括過抽樣、欠抽樣、閾值移動和組合技術(shù)等[2],我們采用對負樣本進行欠抽樣的方法。在后續(xù)的試驗中,采用正負樣本比1:3的抽樣方式來生成模型的訓練樣本。

圖2 樣本特征框架圖

隨機森林能夠?qū)颖镜拿總€特征重要性進行評估[3],通過按重要性排行,過濾低重要性的特征屬性,對top20特征屬性的重要性展示如圖3。樣本對應特征屬性的說明如表3所示。

圖3 隨機森林特征重要性展示

表3 前20重要性特征

根據(jù)選取的特征,用隨機森林算法來進行初步訓練。

2.3 數(shù)據(jù)挖掘結(jié)果分析

根據(jù)建立的模型,我們來分析乘客出行行為命中的時間分布,結(jié)果如圖4所示,可以看出,乘客在某條公交線路上的最后乘坐時間在56天內(nèi)時,對乘客未來的出行有較大的影響力,所以在模型建立時,為了獲得更高效的精簡數(shù)據(jù),我們嘗試過濾掉過去56天沒有出行行為的樣本。過濾后總訓練樣本個數(shù)為11879368,其中正樣本個數(shù)為1631236,正負樣本比為1:7.3,我們對負樣本抽樣構(gòu)造正負樣本比為1:3的訓練樣本。對構(gòu)造后的樣本和特征屬性進行選擇后,我們嘗試對隨機森林模型的參數(shù)進行探究,生成魯棒性好的模型。

隨機森林要調(diào)節(jié)的主要控制兩個參數(shù):

(1)森林中樹的數(shù)量n_trees

(2)訓練每棵樹抽取的特征數(shù)目M

圖4 乘客行為命中時間分布圖

圖5 樣本OOB錯誤率

由于隨機森林在訓練模型時的隨機性,為了避免偶然性的發(fā)生,在模型構(gòu)造中,對樣本隨機抽樣時我們隨機構(gòu)造了多份樣本,采用抽樣后存在差異的訓練樣本訓練多個隨機森林模型分別在測試集合上進行試驗,最終采用多數(shù)投票的方式來得出最終的預測結(jié)果,得到最優(yōu)試驗結(jié)果如表4。

表4 隨機森林試驗結(jié)果

可以看出,預測的結(jié)果比較可觀,這對為廣大乘客提供信息對稱和安全的出行環(huán)境具有重要的指導意義。

[1]Breiman,L.Random Forests[J].Manchine Learning,2001,45(1).

[2]Han J,Kamber M著.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰譯.北京:機械工業(yè)出版社,2004.

[3]Genuer R,Poggi J M,Tuleau-Malot C.Variable Selection Using Random Forests[J].Pattern Recognition Letters,2010,31(14):2225-2236.

[4]李航.統(tǒng)計學習方法[M].北京:清華大學出版社,2012.

[5]戴霄,陳學武,李文勇.公交IC卡信息處理的數(shù)據(jù)挖掘技術(shù)研究[J].交通與計算機,2006,01:40-42.

[6]胡郁蔥,梁杰榮,梁楓明.基于IC卡數(shù)據(jù)挖掘獲取公交OD矩陣的方法[J].交通信息與安全,2012,04:66-70.

Research on Public Transit Route Forecast Based on Data Mining

ZHANG Cong-cong1,LI Yong-jun2
(1.School of Mathematics,South China University of Technology,Guangzhou 510006;
2.School of Computer Science&Engineering,South China University of Technology,Guangzhou 510006)

In recent years,some scholars mostly use mass transit card information to forecast the overall passenger flow,but there is no prediction about specific passenger who travels in the bus line.Based on the data mining technology,explores and predicts the travel patterns of the citizens on the basis of historical bus card transaction data of some bus lines in Guangdong Province,and uses the sliding window model to construct the training and test samples.Moreover,uses random forest algorithm,proves the feasibility of the model by the precision,recall rate and F1 value.

Data Mining;Bus Card Information;Random Forests;Prediction of Public Travel

1007-1423(2017)08-0003-05

10.3969/j.issn.1007-1423.2017.08.001

張聰聰(1989-),女,河北石家莊人,碩士,研究方向為大數(shù)據(jù)分析與云計算環(huán)境

2016-12-27

2017-03-10

國家自然科學基金(No.61370228)、廣東省重點科技項目(No.2014B090903008、No.2015B010109006、No.2015B0101280 08)

李擁軍(1968-),男,湖南人,教授,博士生導師,研究方向為計算機網(wǎng)絡(luò)協(xié)議、云計算等

猜你喜歡
公交線路數(shù)據(jù)挖掘公交
一元公交開進太行深處
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
等公交
等公交
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
青島至萊西全國首條純電動城際公交線路開通 移動的環(huán)?!跋洹?綠色出行有保障
城市軌道交通車站聯(lián)合配置短駁道路公交線路的方法
桂林市公交線路優(yōu)化的調(diào)查研究分析
最美公交線路上的“最美司機”
浙江人大(2014年6期)2014-03-20 16:20:43
阿拉善盟| 吴旗县| 四川省| 秦安县| 长垣县| 广西| 上饶市| 锦屏县| 阜新市| 贵港市| 嵊州市| 贵定县| 白沙| 龙江县| 永安市| 光泽县| 海宁市| 广西| 博白县| 会同县| 武宁县| 鸡西市| 克拉玛依市| 玉屏| 昌江| 沙洋县| 庆安县| 长寿区| 龙胜| 宝清县| 泸水县| 静乐县| 巨野县| 马关县| 扎囊县| 南郑县| 静海县| 扎赉特旗| 丹东市| 宁夏| 富民县|