張衛(wèi)榮 王英存 王金鳳
摘? 要:該項目依托濰坊市科技發(fā)展計劃項目,對該市部分運營公共汽車連續(xù)一個月的用戶消費記錄和車輛GPS數(shù)據(jù)進行研究,并充分考慮了節(jié)假日、天氣變化等因素對客流量的影響,旨在建立一套公交站點客流量預(yù)測模型并將其應(yīng)用于智能公交管理系統(tǒng),從而有效預(yù)測客流量爆發(fā)點和未來各個時段客流量走勢,為線路網(wǎng)絡(luò)規(guī)劃和公交車站的設(shè)置提供科學(xué)依據(jù),其應(yīng)用價值尤其體現(xiàn)在提高乘客出行體驗和優(yōu)化公交管理流程方面。
關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò);公共交通;客流量;預(yù)測
中圖分類號:TP18? ? ? ? ? 文獻標(biāo)識碼:A文章編號:2096-4706(2022)03-0067-04
Research and Application of Short-Term Passenger Flow Prediction of Bus Stations Based on BP Neural Network
ZHANG Weirong, WANG Yingcun, WANG Jinfeng
(Weifang Vocational College, Weifang? 262737, China)
Abstract: Relying on Weifang City science and technology development plan project, this project studies the user consumption records and vehicle GPS data of some operating buses in the city for one month in a row, and fully considers the impact of holidays, weather changes and other factors on passenger flow, aiming to establish a set of passenger flow prediction model of bus stations and apply it to intelligent public transportation management system, so as to effectively predict the breakout point of passenger flow and the trend of passenger flow in various periods in the future, and provide scientific basis for line network planning and the setting of bus stations. Its application value is especially reflected in the aspects of improving passenger travel experience and optimizing the public transportation management process.
Keywords: BP neural network; public transportation; passenger flow; prediction
0? 引? 言
傳統(tǒng)公交系統(tǒng)核心功能在于公交信息管理,制定公交調(diào)度策略時常根據(jù)人工調(diào)查方式。人工調(diào)查耗費成本較大且樣本有限,無法全面準(zhǔn)確地掌握公交乘客出行規(guī)律。隨著物聯(lián)網(wǎng)、大數(shù)據(jù)等新一代信息技術(shù)的發(fā)展,大量車載終端、路邊檢測設(shè)備源源不斷的自動反饋海量實時動態(tài)公交數(shù)據(jù)。公交企業(yè)僅僅利用傳統(tǒng)數(shù)據(jù)處理方法對這些變化快、覆蓋面廣、隱藏價值高的海量公交數(shù)據(jù)進行淺層挖掘是不能真正實現(xiàn)公交線路優(yōu)化和客流量引導(dǎo)的。
本項目設(shè)計和改進的BP神經(jīng)網(wǎng)絡(luò)算法對未來客流量進行預(yù)測,有效預(yù)測客流量爆發(fā)點和未來各個時段客流量的走勢,為公交運力分配策略提供數(shù)據(jù)支持。系統(tǒng)充分考慮了節(jié)假日、天氣變化等因素對客流量的影響,能夠提高對于特殊節(jié)日和天氣影響下的客流預(yù)測精度。以期實現(xiàn)公交企業(yè)對公共交通資源的科學(xué)調(diào)度和客流量引導(dǎo)進而為乘客提供個性化服務(wù)。
1? 相關(guān)理論基礎(chǔ)
1.1? 特征工程
雖然特征工程既耗時又費力,但也是整個機器學(xué)習(xí)系列任務(wù)中最不可缺失的。原始數(shù)據(jù)必然包括大量噪聲和冗余,特征工程的目的就是在最大限度保留原始數(shù)據(jù)內(nèi)在規(guī)律的前提下通過更高效的特征表示減少數(shù)據(jù)不確定因素,便于后續(xù)計算。具體的特征工程實現(xiàn)步驟為:首先,數(shù)據(jù)清洗是將原始數(shù)據(jù)的異常數(shù)據(jù)進行清除,對于可以通過觀察就能發(fā)現(xiàn)的異常值可以直接舍棄,另外還有一些算法和公式可以對異常值進行判斷。其次,數(shù)據(jù)預(yù)處理是缺失值處理、歸一化、特征編碼等過程的總稱,能夠簡化冗余信息。再次,特征選擇能夠保證機器學(xué)習(xí)的算法輸入是有意義,進而保證模型訓(xùn)練的有效性。最后,如果特征選擇產(chǎn)生的特征矩陣過大,需要進行降維處理以減少計算量,降低計算時間。常用的降維方法有主成分分析法(PCA)和線性判別分析(LDA)等。
1.2? 神經(jīng)網(wǎng)絡(luò)
從人工智能的角度看,具有非線性激活函數(shù)的神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本單元,將大量神經(jīng)元進行連接就形成了一個高度非線性的模型,神經(jīng)元之間的連接需要進行加權(quán),權(quán)重的確定可以通過梯度下降等方法不斷訓(xùn)練。神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程就是根據(jù)數(shù)據(jù)確定權(quán)重和每個神經(jīng)元閾值的過程。
設(shè)a表示神經(jīng)元的活性值,z表示神經(jīng)元輸入,f(·)為激活函數(shù),是一個簡單的連續(xù)可導(dǎo)的非線性函數(shù),可以增強神經(jīng)網(wǎng)絡(luò)的表示能力和學(xué)習(xí)能力。則,
設(shè)神經(jīng)元接收輸入個數(shù)為d,表示輸入,表示權(quán)重,b為常量。則,
很多結(jié)構(gòu)簡單的神經(jīng)元通過協(xié)作連接形成一個神經(jīng)網(wǎng)絡(luò),可以實現(xiàn)復(fù)雜的功能。前饋網(wǎng)絡(luò)由輸入層、隱藏層、輸出層組成,神經(jīng)元之間不存在同層連接和跨層連接。輸入層接收由向量或者向量序列表示的外界輸入,隱藏層可以有多層并實現(xiàn)信息加工,輸出層輸出結(jié)果。前饋網(wǎng)絡(luò)是一個有向無環(huán)路圖,前饋網(wǎng)絡(luò)信息向前朝一個方向傳播,可以通過簡單的非線性函數(shù)多次擬合實現(xiàn),其結(jié)構(gòu)單一,比較容易實現(xiàn),包括全連接前饋網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)等。
2? 實現(xiàn)過程
2.1? 數(shù)據(jù)采集
目前,濰坊市共有公交線路99條,其中市區(qū)線路80條,郊區(qū)線路13條,城際線路(指濰坊市轄縣級市間線路)6條。濰坊市主城區(qū)共有公交車1 497輛,公交年客運量11 653.4萬人次。本項目通過公交車輛的GPS監(jiān)控設(shè)備和刷卡支付設(shè)備實現(xiàn)對部分運營公交車輛連續(xù)一個月的車輛GPS數(shù)據(jù)和用戶消費數(shù)據(jù)的自動采集,共計1 400萬余條記錄。
獲取數(shù)據(jù)后首先進行數(shù)據(jù)清洗去除異常值,在數(shù)據(jù)清洗后,通過車輛GPS數(shù)據(jù)與用戶刷卡數(shù)據(jù)的線路編號、車輛編號和時間等字段進行關(guān)聯(lián)匹配,將用戶數(shù)據(jù)補充了上車站點名稱、站點編號、線路方向等相關(guān)信息。由于公交車只采取乘客上車單次刷卡模式,為判斷出下車站點的位置,項目組主要利用了刷卡人公交出行對稱特征。對于多次刷卡的乘客則假設(shè)在連續(xù)的兩次刷卡記錄中,后一次刷卡記錄的上車站點是上一次出行的下車站點。數(shù)據(jù)采集篩選策略如圖1所示。
濰坊市全天公交出行總次數(shù)約為14萬人次,常規(guī)人工調(diào)查抽樣率一般為3%。而基于上述有效數(shù)據(jù)篩選策略,項目組獲取的有效用戶公交出行OD記錄約3萬條,數(shù)據(jù)采集手段采樣率大于20%并遠高于常規(guī)手段。
2.2? 特征選擇
原始數(shù)據(jù)清洗后,需要整理公交線路信息、站點信息、乘客消費信息。對缺失值進行填充并除去重復(fù)值,如站點名稱可以用站點編號代替,那我們僅保留站點編號即可,然后使用pandas和matplotlib查看各類數(shù)據(jù)及其特征。根據(jù)生活經(jīng)驗可以歸納出,節(jié)假日、天氣、線路類型、卡類型可能影響客流量,而這些因素又會影響短時公交站點客流量預(yù)測結(jié)果,進一步我們可以進行實際分析。設(shè)計日統(tǒng)計和小時算法,按每日和每小時統(tǒng)計客流量,可以肯定,工作日大致相同,每天早晚各有一個客流量高峰,周末客流量有所下降,且周末早晚高峰不明顯。
分析天氣特征對客流量產(chǎn)生的影響。為了方便后續(xù)計算,使用天氣特征。首先對降雨狀況、風(fēng)向、風(fēng)力、氣溫進行數(shù)據(jù)標(biāo)注,計算各個特征與客流量的相關(guān)系數(shù),即特定數(shù)據(jù)與客流量的協(xié)方差與特定數(shù)據(jù)標(biāo)準(zhǔn)差*客流量標(biāo)準(zhǔn)差的商。結(jié)果表明,氣溫與客流量呈負相關(guān);風(fēng)力與客流量呈正相關(guān);風(fēng)向與客流量不相關(guān);在不考慮節(jié)假日和出行人群類型的情況下,降雨狀況與客流量相關(guān)性不大,但我們還是將降雨狀況作為一種輸入特征進行后續(xù)計算。
根據(jù)給定的輸入?yún)?shù):INPUT[日期(eg:20200901),時段(eg:8),節(jié)假日情況(周末or其他節(jié)假日)天氣情況(降雨),最高溫度,風(fēng)力]。輸出未來客流量的預(yù)測值:OUTPUT[Passenger_flow/h]。數(shù)據(jù)包括客流量歷史數(shù)據(jù)、天氣數(shù)據(jù)、節(jié)假日數(shù)據(jù)。提取7維特征值。
2.3? 模型搭建
我們選用BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Network)即誤差反向傳播神經(jīng)網(wǎng)絡(luò)作為模型。BP算法可以優(yōu)化多層前向神經(jīng)網(wǎng)絡(luò)的權(quán)系數(shù),其本質(zhì)是按照誤差函數(shù)的負梯度方向采用非線性規(guī)劃的快速下降方法修改權(quán)系數(shù),BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
給定訓(xùn)練集,,d為輸入層數(shù)據(jù)特征個數(shù),l為輸出層神經(jīng)元個數(shù),隱層神經(jīng)元個數(shù)為q,輸出層第j個神經(jīng)元閾值為θj,隱層第h個神經(jīng)元閾值為γh,xi與bh之間的連接權(quán)值為vih,bh與yj之間的連接權(quán)值為ωhj。設(shè)bh輸入為,yj輸入為。
假設(shè)隱層和輸出層激活函數(shù)為Sigmoid函數(shù),則:
函數(shù)兩側(cè)求導(dǎo),則:
f′(x)=f(x)(1-f(x))
假設(shè)訓(xùn)練例(xk,yk)的輸出為,則:
均方誤差為:
對上式求βj的偏導(dǎo)數(shù)即為輸出層神經(jīng)元的梯度項,設(shè)為gj,則:
類似可得隱層神經(jīng)元的梯度項eh:
基于梯度下降策略的BP算法調(diào)整參數(shù)是以目標(biāo)負梯度為方向,對于誤差Ek,設(shè)學(xué)習(xí)率為μ,則有ωhj的更新:
,,
最后得到:
同理可得
,
BP算法具體流程為:
輸入:訓(xùn)練集,驗證集Ⅴ,學(xué)習(xí)率μ,正則化系數(shù)λ,網(wǎng)絡(luò)層數(shù)L,神經(jīng)元數(shù)量m(1),1≤l≤L.
隨機初始化權(quán)值W,閾值b;
repeat
對訓(xùn)練集D中的樣本隨機重排序;
for n=1……N do
從訓(xùn)練集D中選取樣本;
前饋計算每層凈輸入直到最后一層;
計算輸出層神經(jīng)元的梯度項gj;
計算隱層神經(jīng)元的梯度項eh;
反向傳播計算每層的誤差,更新連接權(quán)ωhj與閾值θj,?γh;
end
until 神經(jīng)網(wǎng)絡(luò)模型在驗證集Ⅴ上的錯誤率不再下降;
輸出:連接權(quán)與閾值確定的多層前饋神經(jīng)網(wǎng)絡(luò)
模型網(wǎng)絡(luò)采用7維的特征值向量作為輸入?yún)?shù),兩層64節(jié)點的隱含層,隱含層采用“sigmod”激活函數(shù),輸出層是1維的客流量數(shù)值。
將數(shù)據(jù)分為n個集合,其中測試集1個,訓(xùn)練集n-1個。為防止一次訓(xùn)練產(chǎn)生的過擬合,通過構(gòu)造交叉檢驗的模型計算模型平均得分,評價模型綜合情況。
2.4? 預(yù)測效果
使用訓(xùn)練集訓(xùn)練模型,并可以定義輸出每小時客流量的訓(xùn)練值與實際值,輸出單條線路節(jié)假日每小時客流量預(yù)測數(shù)據(jù),輸出單條線路工作日每小時客流量預(yù)測數(shù)據(jù)。
通過對濰坊市公交客流量數(shù)據(jù)分析發(fā)現(xiàn),客流量受到節(jié)假日、天氣等因素的影響。本項目綜合考慮上述因素,建立公交客流量預(yù)測模型。結(jié)果表明,本預(yù)測模型能夠有效地應(yīng)用于公交站點的客流量預(yù)測情景。
3? 應(yīng)用效果
JeeSite是基于多個優(yōu)秀開源項目的高性能JavaEE快速開發(fā)平臺,后端整合了Spring框架和MyBatis/Hibernate框架,實現(xiàn)了系統(tǒng)業(yè)務(wù)邏輯和數(shù)據(jù)持久層訪問操作;前端以BootStrap為基礎(chǔ)。本項目設(shè)計實現(xiàn)了公交站點客流量短時預(yù)測并基于JeeSite進行模型部署,用戶輸入線路、時間、天氣、溫度系統(tǒng)就可以直觀的展示客流量預(yù)測曲線,如圖3所示。
客流量可視化界面能夠?qū)Σ煌军c和系統(tǒng)總體客流量進行分析,更主要的是針對不同公交線路實現(xiàn)了日客流量統(tǒng)計折線圖。用戶輸入或選擇日期、天氣、氣溫等影響客流量預(yù)測的條件,系統(tǒng)后臺根據(jù)輸入的條件進行計算,進而能夠準(zhǔn)確實現(xiàn)對不同線路和站點客流量的短時預(yù)測。
4? 結(jié)? 論
本項目利用大數(shù)據(jù)平臺和物聯(lián)網(wǎng)技術(shù)實現(xiàn)數(shù)據(jù)采集和存儲,研究分析了利用公交數(shù)據(jù)和天氣數(shù)據(jù)抽取影響公交客流的數(shù)據(jù)特征并形成特征集;通過設(shè)計和改進的BP神經(jīng)網(wǎng)絡(luò)等算法實現(xiàn)對公交站點未來客流量的預(yù)測;基于JeeSite實現(xiàn)系統(tǒng)應(yīng)用層的數(shù)據(jù)訪問和展示。項目旨在為公交運力分配策略提供數(shù)據(jù)支持,以提升城市公交系統(tǒng)綜合發(fā)展水平為基點,落實“公交優(yōu)先”的城市發(fā)展戰(zhàn)略,促進城市科學(xué)規(guī)劃和現(xiàn)代化建設(shè)水平。本項目的實現(xiàn),節(jié)省了人工調(diào)研成本,提高了公共交通系統(tǒng)的運營效率和系統(tǒng)可靠性,進而提升了公共交通相對于私家車和網(wǎng)約車的總體競爭力和吸引力。
本項目雖然在提升公共交通現(xiàn)狀方面取得了一定的效果,但因?qū)嶋H條件限制,還存在很多需要更加深入研究的工作待后續(xù)進行改進和擴展。
參考文獻:
[1] 姚望.蘇州市道路交通擁堵問題與對策研究 [D].蘇州:蘇州大學(xué),2019.
[2] 陳家蓉.基于大數(shù)據(jù)的城市智能公交管理系統(tǒng)的設(shè)計與實現(xiàn) [D].西安:長安大學(xué),2017.
[3] 梅珊.基于數(shù)據(jù)挖掘的城市公共交通客流分析及應(yīng)用研究 [D].武漢:武漢郵電科學(xué)研究院,2017.
[4] 李震宇.機器學(xué)習(xí)對相變和臨界指數(shù)的研究 [D].杭州:浙江大學(xué),2019.
[5] 胡志新,王濤.改進遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的雙目相機標(biāo)定 [J].電光與控制,2022,29(1):75-79.
[6] 孫璐.基于多源數(shù)據(jù)的海灣型城市公共交通出行需求與空間結(jié)構(gòu)關(guān)系研究 [D].青島:山東科技大學(xué),2020.
[7] 李艾玲,張鳳荔,高強,等.基于自適應(yīng)時間戳與多尺度特征提取的軌跡下一足跡預(yù)測模型 [J].計算機科學(xué),2021,48(S2):191-197.
[8] 喬儼.基于JEESITE平臺的醫(yī)療設(shè)備信息管理系統(tǒng)的設(shè)計與實現(xiàn) [D].濟南:山東大學(xué),2020.
[9] 李美,楊培,楊冬梅.城市智能公共交通服務(wù)系統(tǒng)發(fā)展現(xiàn)狀研究 [J].藝術(shù)品鑒,2018(6):102-103.
作者簡介:張衛(wèi)榮(1989.03—),男,漢族,山東萊蕪人,大數(shù)據(jù)專任教師初級,碩士研究生,研究方向:云計算與大數(shù)據(jù)技術(shù)。