国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)聯(lián)分析的乘客公共交通依賴度識(shí)別方法

2020-09-01 02:33翁劍成林鵬飛
關(guān)鍵詞:依賴度公共交通聚類

胡 松,翁劍成*,周 偉,林鵬飛,孔 寧

(1.北京工業(yè)大學(xué)北京市交通工程重點(diǎn)實(shí)驗(yàn)室,北京100124;2.中華人民共和國(guó)交通運(yùn)輸部,北京100736)

0 引 言

近年來(lái),隨著智能卡、乘車二維碼和虛擬卡等支付方式的出現(xiàn)及數(shù)據(jù)處理技術(shù)的日漸成熟,為挖掘長(zhǎng)時(shí)、連續(xù)的公共交通海量數(shù)據(jù)中的隱含信息,以及個(gè)體出行行為多元化分類提供支撐.考慮乘客公共交通依賴度具有異質(zhì)性特征,從依賴度視角研究乘客出行模式和出行行為等特征,有助于精確探究不同類別乘客對(duì)公共交通的使用情況,提高城市公共交通系統(tǒng)的吸引力.

近年來(lái),國(guó)內(nèi)外學(xué)者在交通大數(shù)據(jù)的背景下對(duì)公共交通出行行為識(shí)別展開(kāi)研究,主要包括Kmeans++算法[1]、DBSCAN算法[2]等聚類方法,以及空間關(guān)系學(xué)[3]等理論范式;部分研究結(jié)合調(diào)查問(wèn)卷中的身份類別信息(通勤者/非通勤者),利用樸素貝葉斯分類器[4]、決策樹(shù)和隨機(jī)森林等[5]監(jiān)督學(xué)習(xí)方法辨識(shí)乘客行為類別.此外,在出行依賴度方面,主要采用出行目的、建成環(huán)境和社會(huì)經(jīng)濟(jì)屬性等指標(biāo)刻畫(huà)居民對(duì)汽車依賴度并解析內(nèi)在關(guān)聯(lián)關(guān)系[6-7].

綜上所述,前期基于依賴度視角的研究主要聚焦在小汽車模式,缺乏以公共交通為對(duì)象的研究;多數(shù)研究?jī)H利用單一智能感知大數(shù)據(jù)或調(diào)查小數(shù)據(jù),缺乏利用多維度、完備性個(gè)體出行信息和特征變量;Pelletier等[8]指出,利用交通大數(shù)據(jù)對(duì)出行群體劃分會(huì)因缺乏刷卡者的個(gè)體屬性等信息導(dǎo)致結(jié)果存在一定問(wèn)題.本文關(guān)聯(lián)融合智能卡交易數(shù)據(jù)和出行調(diào)查數(shù)據(jù),提取全量的個(gè)體出行鏈數(shù)據(jù),提出基于出行行為和個(gè)體屬性等多維特征指標(biāo)的公共交通出行依賴度識(shí)別方法,實(shí)現(xiàn)從特殊視角對(duì)公共交通出行群體進(jìn)行分類分析,有助于針對(duì)性地改善公共交通服務(wù)質(zhì)量.

1 數(shù)據(jù)基礎(chǔ)

研究通過(guò)對(duì)多源公共交通大數(shù)據(jù)的獲取、預(yù)處理和匹配,提取表征個(gè)體出行全過(guò)程的出行鏈信息,并關(guān)聯(lián)出行調(diào)查小數(shù)據(jù),形成公共交通個(gè)體出行鏈數(shù)據(jù).

1.1 公共交通出行鏈數(shù)據(jù)

(1)數(shù)據(jù)采集與預(yù)處理.

依托北京市公交都市平臺(tái)獲取智能卡交易數(shù)據(jù)、移動(dòng)定位數(shù)據(jù)、公共交通線站數(shù)據(jù)等多源數(shù)據(jù).提取與出行特性相關(guān)的有效字段,利用公交GPS和線站數(shù)據(jù)對(duì)刷卡時(shí)間和站點(diǎn)位置等進(jìn)行校準(zhǔn),對(duì)缺失站點(diǎn)進(jìn)行數(shù)據(jù)彌補(bǔ),數(shù)據(jù)預(yù)處理流程如圖1所示.

(2)個(gè)體出行鏈生成.

為整合同一持卡者的公共交通動(dòng)態(tài)刷卡數(shù)據(jù),以天為時(shí)間粒度,以用戶卡號(hào)、首次刷卡時(shí)間為關(guān)鍵字段,將公交和軌道交通相關(guān)數(shù)據(jù)進(jìn)行融合與排序,確定乘客的公共交通出行鏈結(jié)構(gòu);在確定8種換乘類型(包含一票制與分段計(jì)價(jià)制)的交易時(shí)間差閾值等基礎(chǔ)上[5],將用戶刷卡數(shù)據(jù)進(jìn)行交叉鏈接,形成個(gè)體公共交通出行鏈信息.

1.2 個(gè)體出行調(diào)查數(shù)據(jù)

為精準(zhǔn)刻畫(huà)乘客公共交通出行依賴度,結(jié)合調(diào)查問(wèn)卷進(jìn)一步獲取主觀個(gè)體出行信息.具體調(diào)查方案如下:

(1)調(diào)查內(nèi)容.

調(diào)查內(nèi)容涵蓋公共交通出行行為和個(gè)體屬性等信息,如表1所示.

(2)調(diào)查方式.

考慮到居民出行時(shí)防范心理較強(qiáng),采用線上問(wèn)卷調(diào)查形式,利用社交媒體、軟件等平臺(tái)向北京市出行者發(fā)布問(wèn)卷信息.

(3)問(wèn)卷回收與質(zhì)量檢驗(yàn).

于2018年9月開(kāi)展個(gè)體出行在線調(diào)查,共收回問(wèn)卷317份.利用SPSS Modeler軟件對(duì)問(wèn)卷信息的可靠性進(jìn)行評(píng)估.基于Alpha模型在95%置信水平和4%最大允許絕對(duì)誤差下,得到調(diào)查數(shù)據(jù)的Cronbach's Alpha值為0.866,滿足不小于0.7的條件,表明問(wèn)卷可靠性較好.

圖1 數(shù)據(jù)預(yù)處理流程圖Fig.1 Data preprocessing flow chart

表1 調(diào)查問(wèn)卷的主要內(nèi)容Table1 Key content of questionnaires

1.3 個(gè)體出行鏈的關(guān)聯(lián)

獲取2018年9月共1 760萬(wàn)張公交卡出行信息,基于問(wèn)卷獲取的公交卡ID,從中篩選出被調(diào)查者對(duì)應(yīng)的出行數(shù)據(jù),并與問(wèn)卷調(diào)查信息進(jìn)行匹配鏈接,成功匹配239名被調(diào)查者的公共交通出行鏈信息,占比75.4%,示例內(nèi)容如表2所示.

2 公共交通出行依賴度

2.1 定義

公共交通依賴度是由乘客在較長(zhǎng)歷史時(shí)期內(nèi)出行完成某些活動(dòng)而多次采用公共交通形成的一種包含習(xí)慣性與客觀性的行為現(xiàn)象,主要反映出行者在特定外部環(huán)境和內(nèi)在因素條件下,為實(shí)現(xiàn)空間位移而使用公共交通的依賴程度.其中,外部環(huán)境包含交通設(shè)施、交通環(huán)境、交通政策和運(yùn)營(yíng)特性等,內(nèi)在因素涵蓋乘客的性別、年齡、職業(yè)、收入和車輛擁有量等.

2.2 度量指標(biāo)

基于個(gè)體出行鏈分析,乘客公共交通使用行為在出行頻次、出行模式、出行起訖點(diǎn)及個(gè)體屬性等方面具有明顯的異質(zhì)性特征.選取出行天數(shù)占比、日均出行次數(shù)、出行模式往返性、年齡、職業(yè)、教育水平、收入和車輛擁有量8個(gè)指標(biāo)度量乘客公共交通依賴度,如表3所示.

表2 關(guān)聯(lián)個(gè)體屬性的公共交通出行鏈?zhǔn)纠齌able2 Examples of public transport travel chains associated with individual atrributes

表3 公共交通出行依賴度度量指標(biāo)示例Table3 Examples of traveling dependence indictors on public transportation

2.3 識(shí)別模型

由于公共交通出行依賴性度量指標(biāo)包含類別變量和連續(xù)變量,采用可同時(shí)處理多類型變量的二階聚類算法,建立公共交通出行依賴度識(shí)別模型.二階聚類算法為BIRCH層次聚類算法的改進(jìn)模型,可自動(dòng)確定最佳簇?cái)?shù)量,排除異常值對(duì)聚類結(jié)果的干擾.

二階聚類算法分為預(yù)聚類與聚類兩個(gè)階段.其中,預(yù)聚類階段采用BIRCH算法中聚類特征(CF)樹(shù)生長(zhǎng)的理念,生成CF 樹(shù)過(guò)程中可剔除離群點(diǎn),并在數(shù)據(jù)集中區(qū)預(yù)聚類形成子簇.在預(yù)聚類時(shí)為處理混合型數(shù)據(jù),需要根據(jù)對(duì)數(shù)似然距離進(jìn)行層次聚類.簇i和簇j之間的對(duì)數(shù)似然距離為

其中,

式中:ζi為簇i的對(duì)數(shù)似然距離;索引<i,j >為簇i和j合并成的新簇;K1為連續(xù)變量數(shù);K2為類別變量數(shù);為簇s中第t類型屬性的信息熵;Lt為第t個(gè)類別變量數(shù);NS是S簇中數(shù)據(jù)總量;NStl為S簇中類別變量t分為l個(gè)組為對(duì)連續(xù)變量k的方差估計(jì);為根據(jù)簇s數(shù)據(jù)對(duì)連續(xù)變量k的方差估計(jì).

聚類階段以上階段獲取的子簇?cái)?shù)據(jù)為輸入,采用聚合層次聚類算法自下而上地合并距離最近的簇,直到獲得最佳簇?cái)?shù)量J*.J*值需要結(jié)合貝葉斯信息準(zhǔn)則與最近簇距離的比值r(J)進(jìn)行確定,計(jì)算公式為

式中:J1、J2為r(J)集合中最大兩個(gè)子集所對(duì)應(yīng)的簇?cái)?shù).

3 實(shí)證分析

為進(jìn)一步說(shuō)明出行個(gè)體對(duì)公共交通出行的依賴度,以及選取度量指標(biāo)的準(zhǔn)確性和模型構(gòu)建的有效性,以北京為例進(jìn)行實(shí)證分析.

3.1 公共交通出行行為數(shù)據(jù)分析

基于調(diào)查數(shù)據(jù)關(guān)聯(lián)匹配調(diào)查當(dāng)月的公共交通刷卡數(shù)據(jù),計(jì)算受訪者的3個(gè)公共交通出行行為指標(biāo),進(jìn)行四分位數(shù)分組,結(jié)果如圖2所示.其中,各指標(biāo)間的特性分布情況差異明顯,反映調(diào)查數(shù)據(jù)的多樣性與覆蓋性較好.

3.2 群體公共交通出行依賴度識(shí)別

基于已有文獻(xiàn)成果及多次模型調(diào)參后迭代運(yùn)行結(jié)果,設(shè)置模型CF樹(shù)最大分枝數(shù)為8,最大樹(shù)深度為3,以及聚類最大數(shù)為5,此時(shí)聚類結(jié)果最合理,按公共交通出行依賴度高低聚為4類,聚類結(jié)果如圖3所示.結(jié)果采用相對(duì)分布形式,縱坐標(biāo)單位為計(jì)數(shù)/頻數(shù),取值范圍為[0.0,100.0%],個(gè)體屬性結(jié)果的橫坐標(biāo)對(duì)應(yīng)表1問(wèn)卷中設(shè)置的題項(xiàng)序號(hào).

結(jié)合調(diào)查數(shù)據(jù)與識(shí)別結(jié)果可知,類簇A、B、C、D 群體的公共交通出行依賴度依次降低,即高、較高、較低和低依賴度,占比分別為50.6%、16.8%、14.5%和18.1%.類別A和類別B中超過(guò)2/3的乘客主要以通勤出行為主,反映穩(wěn)定的公共交通通勤者對(duì)公共交通的依賴度較高[9].

圖2 乘客出行習(xí)慣行為指標(biāo)統(tǒng)計(jì)情況Fig.2 Statistics of passenger's travel behavior indicators

圖3 出行者公共交通依賴度識(shí)別結(jié)果Fig.3 Identification results of traveler's dependence level of public transportation

圖3中基于單元格色度深淺對(duì)公共交通出行依賴度指標(biāo)的重要性從上至下依次排序.可以得出,出行習(xí)慣行為指標(biāo)對(duì)識(shí)別結(jié)果重要性更大,說(shuō)明乘客的出行習(xí)慣行為更能影響其對(duì)公共交通的依賴度.

從相對(duì)角度分析,高依賴度群體的年齡和車輛擁有量偏低,通常具有中、高等收入和教育水平.較高依賴度群體個(gè)體特征明顯,收入、家庭車輛擁有量和年齡均偏低,多為學(xué)生或進(jìn)入職場(chǎng)年限較短的青年群體.較低和低依賴度群體的個(gè)體屬性特征相類似,家庭車輛擁有量較高,但教育水平偏低,收入兩極分化現(xiàn)象較明顯.

從整體視角分析,6.0%、47.6%的高依賴度群體及50%、28.6%較高依賴度群體在出行決策時(shí),分別顯著受限于收入和家庭車輛擁有量,若此類群體隨著財(cái)富積累或車牌獲得等因素使其車輛擁有量上升,則存在向私家車轉(zhuǎn)移而降低公共交通依賴度的可能性.在較低和低依賴度群體中,分別為68.3%和63.3%擁有私家車,可以推斷這兩類人群以追求出行質(zhì)量的私家車通勤者為主,僅在車輛限行或道路管制等情況下采用公共交通出行,但并不排斥公共交通出行.因此,從不同角度關(guān)注不同出行群體的需求,有針對(duì)地改善公共交通服務(wù)質(zhì)量,以提升各簇類群體公共交通依賴度水平.

為進(jìn)一步研究個(gè)體屬性指標(biāo)對(duì)識(shí)別結(jié)果的影響,本文通過(guò)移除部分個(gè)體屬性指標(biāo)對(duì)比分析模型識(shí)別結(jié)果.如表4所示.

表4 移除部分個(gè)體屬性指標(biāo)后的識(shí)別結(jié)果Table4 Identification results after removing some individual attribute indexes (%)

基于混淆矩陣思想,利用模型的平均命中率AHR和平均覆蓋率ACR 來(lái)度量移除部分個(gè)體屬性指標(biāo)后的模型辨識(shí)準(zhǔn)確度,指標(biāo)計(jì)算公式為

式中:Ntn為實(shí)際屬于第n類且模型識(shí)別正確的樣本數(shù),Nfn1為實(shí)際不屬于第n類但模型將其歸為該類的樣本數(shù),Nfn2為實(shí)際屬于第n類但模型識(shí)別錯(cuò)誤的樣本數(shù).計(jì)算結(jié)果如表5所示.

表5 移除部分個(gè)體屬性指標(biāo)后的模型AHR與ACRTable5 The AHR and ACR of model after removing some individual attribute indexes (%)

由表5可知,個(gè)體屬性指標(biāo)對(duì)識(shí)別結(jié)果具有較大影響,尤其當(dāng)移除“教育水平”指標(biāo)時(shí),最大影響率達(dá)14.91%.相對(duì)而言,當(dāng)減少教育水平和年齡指標(biāo)時(shí),AHR和ACR 指標(biāo)值均達(dá)95%以上,顯著高于另外兩種情況結(jié)果.因此,個(gè)體屬性指標(biāo)間存在耦合關(guān)系,個(gè)體屬性信息缺失量與結(jié)果誤差呈非線性關(guān)系;在進(jìn)行出行群體分類研究時(shí),若個(gè)體屬性信息不完整或進(jìn)行大樣本數(shù)據(jù)調(diào)查、計(jì)算,可選用收入、職業(yè)和車輛擁有量表征個(gè)體屬性,可以在保證模型結(jié)果精度的前提下提高調(diào)查和計(jì)算效率.

4 結(jié) 論

本文關(guān)聯(lián)多源公交大數(shù)據(jù)提取個(gè)體公共交通出行鏈,篩選個(gè)體出行特征和個(gè)體屬性兩方面8個(gè)指標(biāo),建立乘客公共交通出行依賴度識(shí)別模型,發(fā)現(xiàn)出行天數(shù)占比、日均出行次數(shù)和出行模式往返性指標(biāo)對(duì)依賴度識(shí)別模型結(jié)果的影響大于年齡、職業(yè)、教育水平、收入和車輛擁有量等個(gè)體屬性指標(biāo),乘客的出行習(xí)慣行為更能影響其對(duì)公共交通的依賴度;并且,6.0%、47.6%的高依賴度群體以及50%、28.6%較高依賴度群體分別因其較低的收入、家庭車輛擁有量而選擇公共交通出行,并具有向私家車出行轉(zhuǎn)移的趨勢(shì);而68.3%和63.3%的較低和低依賴度人群以私家車通勤為主,但并不排斥使用公共交通.此外,本文進(jìn)一步分析了個(gè)體屬性對(duì)依賴度識(shí)別模型結(jié)果的影響,結(jié)果表明個(gè)體屬性指標(biāo)間具有耦合關(guān)系,指標(biāo)信息缺失量與模型誤差存在非線性關(guān)系,在探究出行群體類別劃分時(shí)可選用收入、職業(yè)和車輛擁有量代表個(gè)體屬性指標(biāo).

本文雖然分析刻畫(huà)了不同乘客公共交通依賴度的異質(zhì)性,加深了解乘客的公共交通使用行為特征,但對(duì)不同依賴度生成機(jī)理的解析還有待進(jìn)一步深入,并針對(duì)低依賴度群體提出靶向改善措施.

猜你喜歡
依賴度公共交通聚類
基于K-means聚類的車-地?zé)o線通信場(chǎng)強(qiáng)研究
虛擬現(xiàn)實(shí)技術(shù)在裝備培訓(xùn)中的應(yīng)用研究
基于NB-IOT技術(shù)的公共交通顯示牌設(shè)計(jì)
在未來(lái),我們不需要路
基于要素報(bào)酬的農(nóng)戶自然資源依賴度評(píng)價(jià)研究
基于高斯混合聚類的陣列干涉SAR三維成像
基于計(jì)算實(shí)驗(yàn)的公共交通需求預(yù)測(cè)方法
公共交通一卡通TSM平臺(tái)研究
基于Spark平臺(tái)的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
基于改進(jìn)的遺傳算法的模糊聚類算法