李林波,姜 嶼,王 婧,吳 兵
(1.同濟(jì)大學(xué)道路與交通工程教育部重點(diǎn)實(shí)驗(yàn)室,上海201804;2.濟(jì)南市規(guī)劃設(shè)計(jì)研究院,山東濟(jì)南250101)
基于數(shù)據(jù)融合的公交客流規(guī)模測算方法
李林波1,姜 嶼1,王 婧2,吳 兵1
(1.同濟(jì)大學(xué)道路與交通工程教育部重點(diǎn)實(shí)驗(yàn)室,上海201804;2.濟(jì)南市規(guī)劃設(shè)計(jì)研究院,山東濟(jì)南250101)
公交客流規(guī)模測算往往存在調(diào)查成本受限和準(zhǔn)確度要求較高的矛盾。提出基于公交IC卡歷史數(shù)據(jù)與人工補(bǔ)充調(diào)查數(shù)據(jù)的數(shù)據(jù)融合測算方法,以準(zhǔn)確推算公交客流規(guī)模。首先根據(jù)公交線路的基本屬性,采用聚類分析方法劃分線路類型,從每一類中選擇具有代表性的線路。基于IC卡數(shù)據(jù)分析公交客流時(shí)變特征,運(yùn)用有序樣本聚類Fisher算法將線路小時(shí)刷卡量進(jìn)行聚類分析。劃分刷卡量相似時(shí)段,進(jìn)而采用優(yōu)化方法確定調(diào)查抽樣率,確定相應(yīng)的調(diào)查車輛進(jìn)行人工補(bǔ)充調(diào)查,最終經(jīng)過數(shù)據(jù)融合計(jì)算獲得公交客流規(guī)模?;谏虾J心齿爡^(qū)IC卡數(shù)據(jù)進(jìn)行案例分析,測算得到三類公交線路的日均客流量。
公共交通;客流規(guī)模;聚類分析;數(shù)據(jù)融合;公交IC卡;上海市
優(yōu)先發(fā)展公共交通往往需要通過財(cái)政扶持的形式激勵(lì)公交企業(yè)提升服務(wù)質(zhì)量,因此需要對(duì)公交線路的實(shí)際客流規(guī)模進(jìn)行評(píng)估。目前,政府獲取公交客流規(guī)模的主要方法有兩種:1)利用公交企業(yè)年報(bào),但由于企業(yè)數(shù)據(jù)管理不健全,導(dǎo)致年報(bào)數(shù)據(jù)往往存在很大的誤差;2)利用公交IC卡(以下簡稱“IC卡”)數(shù)據(jù),但是該數(shù)據(jù)只能反映持卡者的客流信息,無法反映總體公交客流情況,簡單地使用IC卡刷卡比例推算總體客流情況也無法精準(zhǔn)地反映公共交通的實(shí)際服務(wù)情況。人工調(diào)查方法是獲取公交客流規(guī)模最為直接有效的方法,但由于調(diào)查費(fèi)用太高而不現(xiàn)實(shí)。面對(duì)這一困境,基于IC卡客流數(shù)據(jù),如何通過人工補(bǔ)充調(diào)查并采用數(shù)據(jù)融合技術(shù)對(duì)公交客流規(guī)模進(jìn)行準(zhǔn)確推算就顯得很有意義。
隨著信息技術(shù)的發(fā)展,越來越多的城市開始使用IC卡。各城市的IC卡系統(tǒng)發(fā)展的不統(tǒng)一導(dǎo)致信息研究方法的差異,主要包括上客車站判斷[1-2]、下客車站判斷[3-4]以及換乘判斷[5-6]三個(gè)內(nèi)容。文獻(xiàn)[7]從數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)分析與應(yīng)用等方面詳細(xì)闡述利用IC卡系統(tǒng)進(jìn)行公交客流調(diào)查的方法。文獻(xiàn)[8]對(duì)出行調(diào)查和IC卡信息利用進(jìn)行對(duì)比分析,并探討兩者融合的可行性。文獻(xiàn)[1]和文獻(xiàn)[9]提出如何將IC卡記錄的原始信息轉(zhuǎn)化為可直接運(yùn)用于城市交通規(guī)劃及公交運(yùn)營調(diào)度的基本信息。文獻(xiàn)[10]對(duì)IC卡數(shù)據(jù)的采集方法和數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析總結(jié),確定IC卡數(shù)據(jù)分析的具體目標(biāo)。這些研究成果為人工調(diào)查數(shù)據(jù)和IC卡數(shù)據(jù)的融合處理提供了借鑒。
本文提出一種公交客流規(guī)模測算方法,即通過分時(shí)段人工抽樣調(diào)查實(shí)際公交客流情況,并基于數(shù)據(jù)融合理念對(duì)IC卡數(shù)據(jù)進(jìn)行總體擴(kuò)樣。首先,考慮到調(diào)查成本的限制,將所有公交線路進(jìn)行分類,選出可以代表該類型公交客流情況的公交線路。其次,分析公交客流的時(shí)變特征,提出線路小時(shí)刷卡量聚類分析方法,從調(diào)查成本和結(jié)果精度兩方面,借鑒最優(yōu)化思想提出調(diào)查最佳抽樣率的計(jì)算方法,并根據(jù)IC卡數(shù)據(jù)分析所對(duì)應(yīng)的刷卡時(shí)段,詳細(xì)梳理公交線路的運(yùn)營調(diào)度計(jì)劃,確定具體被調(diào)查的公共汽車,制定調(diào)查方案。最后,基于數(shù)據(jù)融合理念對(duì)IC卡客流數(shù)據(jù)進(jìn)行擴(kuò)樣分析,測算公交客流總體規(guī)模。
在公交客流調(diào)查中,通過一條或幾條線路調(diào)查獲得的IC卡數(shù)據(jù)擴(kuò)樣系數(shù),以此對(duì)所有線路的IC卡客流進(jìn)行總體客流規(guī)模估計(jì)的方法存在以下問題:1)由于不同線路客流情況不一樣,采用同樣的擴(kuò)樣系數(shù)會(huì)造成較大誤差;2)同一線路在一天中的客流也存在顯著的時(shí)變特征,采用同一擴(kuò)樣系數(shù)會(huì)放大或縮小客流總體規(guī)模。當(dāng)然,增加調(diào)查線路是提高數(shù)據(jù)準(zhǔn)確度的有效方法,但在實(shí)際過程中,受限于成本投入,其可操作性不強(qiáng)。
通過對(duì)不同線路客流情況的觀測發(fā)現(xiàn),在公交線路走向、車型配置和運(yùn)營方式等方面相似的線路,其客流特征具有相似性[11]。因此,可以考慮在進(jìn)行公交客流規(guī)模測算時(shí),先將線路進(jìn)行聚類分析[10],進(jìn)而抽取每一類線路中的部分車輛為代表進(jìn)行調(diào)查分析,最終獲得反映該類線路的客流特征信息。這樣可以有效減小不同線路采用相同擴(kuò)樣系數(shù)帶來的誤差,同時(shí),對(duì)不同類型線路的具體劃分可以提高數(shù)據(jù)的有效性和結(jié)果的準(zhǔn)確性。
此外,由于居民出行會(huì)隨時(shí)間呈現(xiàn)周期性變化,因而公交客流的總體特征也會(huì)呈現(xiàn)周變、日變和時(shí)變特性。通過對(duì)公交線路IC卡刷卡量的分析發(fā)現(xiàn),任何公交線路的客流情況在某一時(shí)段里總是呈現(xiàn)相似的時(shí)變特征,主要表現(xiàn)為一天中各個(gè)小時(shí)的流量在某些相鄰時(shí)段內(nèi)IC卡刷卡量的相似性[11]。鑒于這種相對(duì)穩(wěn)定的特征,可以根據(jù)現(xiàn)有的小樣本數(shù)據(jù)將性質(zhì)相似時(shí)段的IC卡數(shù)據(jù)進(jìn)行歸類分析,這種按照時(shí)間順序來分析客流特征的過程在統(tǒng)計(jì)學(xué)中被歸為有序樣本聚類問題。
為了對(duì)數(shù)條信息完整的公交線路進(jìn)行合理分類,需要選取聚類指標(biāo),聚類指標(biāo)應(yīng)能夠比較客觀、全面地反映每一類型線路刷卡量的變異特征。線路長度、車站數(shù)量為線路的自身屬性,會(huì)直接影響公交運(yùn)營的實(shí)際情況,進(jìn)而影響整條線路的客流量級(jí)、客流構(gòu)成和IC卡刷卡比例等。線路類型是規(guī)劃者對(duì)公交線路屬性的劃分,不同類型線路的客流量及服務(wù)對(duì)象不同,每種交通對(duì)象群體都有不同的持卡比例,從而影響整條線路的刷卡情況。而平均發(fā)車間隔和線路擁擠程度則會(huì)影響乘客是否選擇乘坐該線路,不同社會(huì)地位、經(jīng)濟(jì)條件對(duì)象的接受程度各不相同,進(jìn)而反映的不同群體使用IC卡的比例也會(huì)相應(yīng)受到影響[12]。
線路長度(LoR)、車站數(shù)量(NoBS)、線路類型(RT)、平均發(fā)車間隔(ADI)以及線路擁擠程度(CD)5個(gè)指標(biāo)分別從總體、個(gè)體的角度影響線路的客流總量,能在一定程度上反映線路客流的變異性。因此,選擇這五個(gè)指標(biāo)作為公交線路的聚類屬性構(gòu)造樣本矩陣,并利用SPSS18.0軟件實(shí)現(xiàn)聚類過程。
相似小時(shí)聚類分析通常應(yīng)用有序樣本聚類Fisher算法[13-14],可以有效劃分公交客流的相似時(shí)段,對(duì)于抽樣時(shí)間的選取具有重要的現(xiàn)實(shí)意義。
設(shè)有序變量依次為x1,x2,…,xn,其中每個(gè)變量代表公交客流小時(shí)刷卡數(shù)據(jù),是一維向量。如果出最小誤差函數(shù)e隨分段數(shù)k變化的曲線,取該曲線拐彎處或開始變平處對(duì)應(yīng)的分段數(shù)作為最適宜的分段數(shù)。
4)求解最優(yōu)分段。確定分段數(shù)k后,在所有可能的分段方案表示對(duì)樣本x1,x2,…,xn的最優(yōu)k分割,則一定是在某一個(gè)截尾子段的最優(yōu)k-1分割之后再添加一段形成的。這樣就可以從各個(gè)截尾子段的最優(yōu)二分段出發(fā),建立一種遞推公式求出各種k值下的最優(yōu)分割,從而使得求最優(yōu)分割的精確解得以實(shí)現(xiàn)。具體步驟如下:
1)定義類直徑。設(shè)變量x1,x2,…,xn的某一歸類為其均值向量
則類直徑
2)定義誤差函數(shù)。將n個(gè)樣本劃分為k個(gè)區(qū)間段,為記號(hào)簡單,變量xi用下標(biāo)i表示,用表示某一種分法,即
其中1=i1<i2<…<ik≤n,定義這一分類的誤差函數(shù)
當(dāng)n和k給定時(shí),總離差平方和一定,當(dāng)類內(nèi)平方和越小,則類間平方和越大,分類越合理。因此,聚類的目的是要找到一種分法使誤差函數(shù)達(dá)到最小。
3)確定區(qū)間劃分個(gè)數(shù)。有序聚類法本身并未給出合適的劃分段數(shù)。本研究通過做中找出使達(dá)到極小值的最優(yōu)k分段,記為若要將樣本劃成k段,首先確定jk使得達(dá)到極小值,即滿足
調(diào)查成本及調(diào)查精度是抽樣調(diào)查的主要關(guān)注點(diǎn)。因此,在保證一定精度的條件下減少費(fèi)用或在限定費(fèi)用的條件下盡量提高精度十分重要。若不考慮非抽樣誤差,調(diào)查精度與樣本量在一定范圍內(nèi)直接正相關(guān)。當(dāng)抽樣樣本超過一定數(shù)量后,單位樣本量的增加對(duì)于精度的提高效果不再明顯。同時(shí),調(diào)查成本與樣本量基本呈線性正相關(guān)關(guān)系。應(yīng)該存在一個(gè)合適的抽樣率,使得調(diào)查精度與調(diào)查成本達(dá)到均衡最優(yōu)。這可以被歸結(jié)為一個(gè)多目標(biāo)最優(yōu)化問題:抽樣率f為決策變量,兩個(gè)目標(biāo)分別為調(diào)查成本最低及調(diào)查精度最高。
在公交客流跟車調(diào)查過程中,調(diào)查成本C調(diào)主要包括兩個(gè)部分:固定成本C固和變動(dòng)成本C變。前者指與樣本量大小無關(guān)的成本,包括宣傳費(fèi)用、調(diào)查組織協(xié)調(diào)費(fèi)用等;后者是隨樣本量增加而增加的成本。如果單位樣本量的調(diào)查成本(包括人工費(fèi)和材料費(fèi)等)為C單,實(shí)際運(yùn)營車輛數(shù)為N,抽樣率為f,則調(diào)查成本
在統(tǒng)計(jì)學(xué)中,通常以允許相對(duì)誤差r來表示要求的精度。由簡單隨機(jī)抽樣的樣本量計(jì)算公式
式中:n為樣本量;n0為重復(fù)抽樣樣本量??梢杂?jì)算得到樣本的允許相對(duì)誤差r相對(duì)于抽樣率f的公式為
式中:t為對(duì)于一定置信度的百分位限值,當(dāng)置信度為95%時(shí)t=1.96;s為總體標(biāo)準(zhǔn)差;為總體均值;C為總體變異系數(shù),
由上可知,調(diào)查成本與調(diào)查精度兩個(gè)指標(biāo)衡量量綱不同,需要對(duì)兩個(gè)指標(biāo)進(jìn)行量綱統(tǒng)一化處理。本研究從成本角度出發(fā),提出調(diào)查精度成本折算系數(shù)Cr,將調(diào)查精度轉(zhuǎn)換為成本進(jìn)行分析。值得一提的是,在不同調(diào)查過程中實(shí)施者對(duì)成本和精度的關(guān)注度不同,借鑒多目標(biāo)規(guī)劃求解中加權(quán)求和的基本思想:決策者和分析者事先交換意見,根據(jù)p個(gè)目標(biāo)的重要程度不同,分別乘以一組權(quán)系數(shù)然后相加作為目標(biāo)函數(shù),將多目標(biāo)規(guī)劃問題轉(zhuǎn)換為單目標(biāo)規(guī)劃問題求解,即
研究中根據(jù)具體調(diào)查情況,對(duì)調(diào)查成本和調(diào)查精度折算成本賦予權(quán)重。根據(jù)實(shí)際情況對(duì)二者的重視程度和限制要求賦予權(quán)重,兩權(quán)重之和為1。由此得到兩個(gè)指標(biāo)的總成本與抽樣率的關(guān)系
式中:λ1,λ2分別為調(diào)查成本和調(diào)查精度折算成本的權(quán)重,且λ1+λ2=1。當(dāng)r=1時(shí),即調(diào)查允許相對(duì)誤差為1,調(diào)查精度最差,則認(rèn)為花費(fèi)在此次調(diào)查中的變動(dòng)成本全部無效;在調(diào)查線路的全部車輛時(shí),成本最大,則Cr=NC單。那么,調(diào)查精度轉(zhuǎn)化的成本rCr越小,得到的調(diào)查精度越高。因此,計(jì)算合適的調(diào)查率,使得調(diào)查成本與調(diào)查精度達(dá)到均衡最優(yōu),即求得C總的最小值。對(duì)公式(14)關(guān)于f求導(dǎo),令導(dǎo)數(shù)為零,即可得到合適的抽樣率取值。
通常情況下,公交客流量在一天中的不同時(shí)段有高有低,持卡乘客比例也不盡一致(如通勤時(shí)段乘客使用IC卡比例較高),但在所劃分的客流時(shí)段內(nèi)具有一定的穩(wěn)定性。因此,在獲得代表線路不同時(shí)段內(nèi)的IC卡比例和客流特征后,可作為同類型中其他線路的參考值測算各條線路的公交客流量。車輛抽樣應(yīng)遵循以下原則:確保抽樣車輛在一天內(nèi)的班次盡可能多,并且運(yùn)營班次覆蓋每一類客流時(shí)段。被選中車輛的首班發(fā)車時(shí)間定為抽樣調(diào)查開始時(shí)間。此外,為避免按照優(yōu)化計(jì)算確定的抽樣車輛總量較少而不能覆蓋聚類后的時(shí)段,需適當(dāng)增加抽樣車輛數(shù)量。
車輛抽樣方法包含四個(gè)步驟:
1)從調(diào)查成本和結(jié)果精度兩個(gè)角度出發(fā),根據(jù)抽樣率計(jì)算公式,考慮實(shí)際情況賦予調(diào)查成本和調(diào)查精度相應(yīng)的權(quán)重,計(jì)算得到調(diào)查的最佳抽樣率,并結(jié)合具體線路的車輛數(shù),得到代表線路抽樣調(diào)查的樣本量(車輛數(shù));
2)提前對(duì)公交線路的基本調(diào)度信息進(jìn)行詳細(xì)梳理,了解所選調(diào)查日期的調(diào)度計(jì)劃安排,明確各運(yùn)營車輛當(dāng)天的運(yùn)營班次總數(shù)及具體運(yùn)營時(shí)間;
3)根據(jù)有序樣本聚類算法,利用代表線路歷史時(shí)期的IC卡數(shù)據(jù),對(duì)該線路一天的客流時(shí)段進(jìn)行聚類劃分;
4)比較該線路各運(yùn)營車輛具體班次運(yùn)營時(shí)間與聚類得到的公交客流時(shí)段,遵循車輛抽樣原則和計(jì)算所得抽樣車輛總量對(duì)車輛進(jìn)行抽樣。
本文使用的IC卡數(shù)據(jù)均來自于上海市某轄區(qū)IC卡系統(tǒng)終端,日期為2011年10月1日—2012年9月30日以及2012年11月20日,研究時(shí)段為5:00—20:00。該區(qū)現(xiàn)有公共汽車運(yùn)營企業(yè)兩家,公共汽車場站管理公司一家,停車場四家,公共汽車運(yùn)營線路56條(包括市通郊線路14條、跨區(qū)線路10條、區(qū)內(nèi)線路32條),運(yùn)營車輛518輛,從業(yè)人員1 850余人,每車日均運(yùn)營380 km,日均發(fā)送47班次。人工補(bǔ)充調(diào)查日期為2012年11月20日(星期二),補(bǔ)充調(diào)查日期的選擇充分考慮了代表線路的客流波動(dòng)情況和天氣變化情況[11]。
利用SPSS18.0軟件對(duì)該區(qū)33條信息完整的公交線路進(jìn)行聚類分析。設(shè)置最小聚類數(shù)為2,最大聚類數(shù)為4。聚類方法選擇Ward法(離差平方和法),轉(zhuǎn)換值標(biāo)準(zhǔn)化選擇按照個(gè)案Z得分,其余均選擇默認(rèn)值。最終選擇將線路聚為三類:類型一發(fā)車間隔較小、線路相對(duì)擁擠;類型二屬于長距離線路、發(fā)車間隔中等;類型三屬于短距離、不擁擠線路,平均發(fā)車間隔較長(見表1)。此時(shí)每類線路特征較明顯且分類結(jié)果更加符合實(shí)際情況。
綜合考慮三種類型線路的屬性特征,各選取一條典型線路作為研究對(duì)象,分別為XN專線、SF專線和NQ7路,并以XN專線為例說明計(jì)算過程。
在線路相似小時(shí)聚類分析時(shí),考慮到后續(xù)分析涉及逐小時(shí)的公交客流特征,所用數(shù)據(jù)應(yīng)為每天每小時(shí)的完整數(shù)據(jù)。由于公共汽車在5:00前及20:00后客流量較少,且不是本研究重點(diǎn)關(guān)注的時(shí)段,因此選擇5:00—20:00作為研究時(shí)段。
以XN專線的IC卡刷卡記錄為基礎(chǔ)數(shù)據(jù),由于人工補(bǔ)充調(diào)查日期是星期二,因此在剔除異樣數(shù)據(jù)后,取XN專線2011年10月1日—2012年9月30日期間所有星期二客流數(shù)據(jù)進(jìn)行平均,以小時(shí)為單位進(jìn)行統(tǒng)計(jì),得到15個(gè)樣本數(shù)據(jù)(見圖1)。
為簡化計(jì)算,以每小時(shí)客流量占全天客流量的比值作為聚類屬性,得到有序聚類樣本:X={5.59,11.54,10.32,5.82,4.45,4.07,4.48,4.42,4.57,5.48,6.74,9.39,8.93,7.88,5.87}。采用Fisher算法,可以做出最小誤差函數(shù)e隨分段數(shù)k變化的曲線(見圖2)。曲線開始變平處對(duì)應(yīng)的分段數(shù)為6,因此,將15個(gè)數(shù)據(jù)樣本分為6段較為適宜(見表2)。
表1 公交線路聚類結(jié)果Tab.1 Bus routes clustering
圖1 XN專線星期二小時(shí)客流量均值Fig.1 Average hour-flow of XN special line on Tuesday
圖2 分段數(shù)k與最小誤差函數(shù)的關(guān)系Fig.2 Relationship between classification numberkand the minimum error function
表2 研究線路時(shí)段劃分結(jié)果Tab.2 Time period classification of selected lines
XN專線實(shí)際運(yùn)營車輛17輛,調(diào)查選擇95%的置信度,則t的取值為1.96。根據(jù)上海市歷史數(shù)據(jù)計(jì)算得到總體變異系數(shù)C為0.26。從總體調(diào)查角度看,平均每條線路固定成本為500元,單輛車的調(diào)查成本為800元,則線路的調(diào)查精度折算成本為13 600元。本次調(diào)查沒有明確強(qiáng)調(diào)成本、精度的重要性,故取λ1=λ2=0.5,據(jù)此可以得到線路不同抽樣率下調(diào)查成本變化情況(見圖3)。
在整個(gè)抽樣調(diào)查中,調(diào)查精度與樣本量在一定范圍內(nèi)直接正相關(guān)(圖3中表現(xiàn)為調(diào)查精度折算成本與抽樣率負(fù)相關(guān)),然而,當(dāng)樣本量超過一定值后,單位樣本量的增加對(duì)于精度的提高效果不再明顯(在抽樣率較高時(shí),調(diào)查精度折算成本下降速度放緩)。
將線路數(shù)據(jù)代入公式(14),對(duì)抽樣率f求導(dǎo),令導(dǎo)數(shù)為0,得到最佳抽樣率為17%。因此,XN專線應(yīng)抽樣3輛車。采用類似方法,得到SF專線和NQ7路最佳抽樣率分別為16%和22%,抽樣量分別為3輛和2輛。
圖3 XN專線調(diào)查成本曲線Fig.3 Curve of investigation cost of XN special line
根據(jù)XN專線調(diào)度表可知,該線路首班車5:00從南橋汽車站發(fā)出,末班車22:35從莘莊地鐵站發(fā)出,全日共74班次,包括XN專線上行方向36班次,下行方向38班次。為保證所選車輛運(yùn)行時(shí)間在上、下行兩個(gè)方向覆蓋各個(gè)客流時(shí)段,最終選取3號(hào)、7號(hào)及12號(hào)車作為調(diào)查對(duì)象(見圖4)。采用類似方法,得到SF專線調(diào)查開始時(shí)間依次為5:20,6:10及7:00;NQ7路調(diào)查開始時(shí)間依次為5:25和6:34。
IC卡數(shù)據(jù)結(jié)構(gòu)多樣,首先應(yīng)篩選分析所需的四個(gè)字段:線路代碼、設(shè)備代碼、交易發(fā)生日期及交易發(fā)生時(shí)刻。然后根據(jù)線路代碼對(duì)照表篩選出調(diào)查線路,根據(jù)設(shè)備代碼對(duì)照表篩選出調(diào)查車輛。如果沒有設(shè)備代碼對(duì)照表,可根據(jù)跟車調(diào)查記錄的到站時(shí)間匹配相同時(shí)間的刷卡記錄,在整條數(shù)據(jù)中即可查詢對(duì)應(yīng)的設(shè)備代碼。將三組人工補(bǔ)充調(diào)查數(shù)據(jù)按時(shí)間進(jìn)行加和匯總,將整合后的上客數(shù)及刷卡人數(shù)統(tǒng)計(jì)表格轉(zhuǎn)化為以30 min為單位的統(tǒng)計(jì)表,根據(jù)客流時(shí)段劃分結(jié)果將IC卡數(shù)據(jù)比例分別取平均值,得到各客流時(shí)段IC卡刷卡量占客流總量的比例(見表3)。
顯然,IC卡比例在不同類型線路間以及各個(gè)時(shí)間段內(nèi)均有很大差異??傮w而言,類型三線路(以NQ7路為代表)的持卡比例整體較高,主要因?yàn)轭愋腿€路基本均為區(qū)內(nèi)線路,線路長度較短,乘客類型同質(zhì)性較強(qiáng)。分時(shí)段對(duì)比,類型一線路(以XN專線為代表)在早晚高峰時(shí)段的持卡比例明顯高于其他時(shí)段,主要因?yàn)轭愋鸵痪€路發(fā)車間隔較小,線路相對(duì)擁擠,屬于典型的通勤線路;類型二線路(以SF專線為代表)屬于跨區(qū)線路,距離長,發(fā)車間隔長,因此在9:00—16:00的非高峰時(shí)段持卡比例最高,與居民進(jìn)出市中心的情況比較吻合。
圖4 XN專線調(diào)查車輛運(yùn)營時(shí)間對(duì)應(yīng)的研究時(shí)段Fig.4 Time periods corresponding to operational time of surveyed vehicles of XN special line
使用MySQL軟件中的SQL語句編寫該線路客流總量的代碼,將人工補(bǔ)充調(diào)查日期當(dāng)天的IC卡數(shù)據(jù)導(dǎo)入程序內(nèi),經(jīng)過擴(kuò)樣運(yùn)算得到各線路的日均客流量(見表4)。
本文基于調(diào)查成本與調(diào)查精度的綜合考慮,在對(duì)不同線路IC卡流量特征的觀測基礎(chǔ)上,提出采用通過聚類分析獲取補(bǔ)充調(diào)查的代表線路,并基于代表線路客流時(shí)段特征的差異,采用Fisher算法對(duì)代表線路的調(diào)查時(shí)段進(jìn)行劃分,從而對(duì)同一線路獲取多個(gè)時(shí)段的IC卡數(shù)據(jù)擴(kuò)樣系數(shù),并將之應(yīng)用于同類型其他線路的IC卡客流擴(kuò)樣,從而獲得公交日客流量。這對(duì)于城市公共交通規(guī)劃和公交補(bǔ)貼政策的執(zhí)行具有一定的參考價(jià)值,也在實(shí)際過程中得到很好的應(yīng)用。此外,補(bǔ)充調(diào)查日期的選取非常關(guān)鍵,目前一般的方法是基于經(jīng)驗(yàn)。本研究采用的補(bǔ)充調(diào)查日期嚴(yán)格考慮了客流波動(dòng)情況和天氣影響情況,盡量選擇能夠代表客流年日均值的時(shí)間進(jìn)行調(diào)查[11],這是進(jìn)行公交客流規(guī)模測算時(shí)需要注意的方面。
表3 研究線路各時(shí)段IC卡比例Tab.3 IC card using rate of selected lines in each time period
表4 各線路類型客流總量統(tǒng)計(jì)結(jié)果Tab.4 Total volume for each type of bus lines人次·d-1
[1]陳學(xué)武,戴霄,陳茜.公交IC卡信息采集、分析與應(yīng)用研究[J].土木工程學(xué)報(bào),2004,37(2):105-110.Chen Xuewu,Dai Xiao,Chen Qian.Approach on the Information Collection,Analysis and Application of Bus Intelligent Card[J].China Civil Engineering Journal,2004,37(2):105-110.
[2]陳紹輝,陳艷艷,賴見輝.基于GPS與IC卡數(shù)據(jù)的公交站點(diǎn)匹配方法[J].公路交通科技,2012,29(5):102-108.Chen Shaohui,Chen Yanyan,Lai Jianhui.An Approach on Station ID and Trade Record Match Based on GPS and IC Card Data[J].Journal of Highway and Transportation Research and Development,2012,29(5):102-108.
[3]Barry J,Newhouser R,Rahbee A,et al.Origin and Destination Estimation in New York City with Automated Fare System Data[J].Transportation Research Record,2002,1817(02-1045):183-187.
[4]郭婕.公交IC卡通勤乘客OD確定方法研究[D].南京:東南大學(xué),2006.Guo Jie.The Method of Determining the OD of Bus IC Commuter[D].Nanjing:Southeast University,2006.
[5]陳君.基于IC卡數(shù)據(jù)的城市公共交通需求分析理論與方法[D].上海:同濟(jì)大學(xué),2009.Chen Jun.Research on the Travel Demand AnalysisofUrban PublicTransportation Based on Smart Card Data[D].Shanghai:Tongji University,2009.
[6]Chu K A,Chapleau R.Enriching Archived Smart Card Transaction Data for Transit Demand Modeling[J].Transportation Research Record,2008,2063:63-72.
[7]Chu K A,Chapleau R,Trépanier M.Driver-as-sisted Bus Interview:Passive Transit Travel Survey with Smart Card Automatic Fare Collection System and Applications[J].Transportation Research Record,2009,45(2105):1-10.
[8]Trepanier M,Morency C,Blanchette C.Enhancing Household TravelSurveysUsing Smart Card Data[C]//Transportation Research Board.Transportation Research Board 88th Meeting Compendium of Papers DVD.Washington DC:Transportation Research Board,2009(09-1229):1-15.
[9]陳學(xué)武,戴霄,楊敏.先進(jìn)的公交出行數(shù)據(jù)采集分析方法[C]//交通系統(tǒng)工程與智能交通運(yùn)輸系統(tǒng)及智慧城市研究組.2005年海峽兩岸智能交通運(yùn)輸系統(tǒng)學(xué)術(shù)研討會(huì)暨第二屆同舟交通論壇.智能交通運(yùn)輸系統(tǒng)研究與實(shí)踐.上海:同濟(jì)大學(xué),2005:595-603.
[10]戴霄.基于公交IC信息的公交數(shù)據(jù)分析方法研究[D].南京:東南大學(xué),2006.Dai Xiao.Approach on the Information Analysis of Urban Public Traffic Base on the Data of Bus Intelligent Card[D].Nanjing:Southeast University,2006.
[11]王婧.公交客流調(diào)查與數(shù)據(jù)分析方法研究[D].上海:同濟(jì)大學(xué),2015.Wang Jing.Research on Methods of Bus Ridership Survey and Data Analysis[D].Shanghai:Tongji University,2015.
[12]姜平,石琴,陳無畏,張衛(wèi)華.公交客流預(yù)測的神經(jīng)網(wǎng)絡(luò)模型[J].武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版),2009,33(3):414-417.Jiang Ping,Shi Qin,Chen Wuwei,Zhang Weihua.ForecastofPassengerVolume Based on Neutral Network[J].Journal of Wuhan University of Technology(Transportation Science&Engineering),2009,33(3):414-417.
[13]方開泰.有序樣品的一些聚類方法[J].應(yīng)用數(shù)學(xué)學(xué)報(bào),1982,5(1):94-101.Fang Kaitai.Some Clustering Methods for the Order Sample[J].Acta Mathematicae Applicatae Sinica,1982,5(1):94-101.
[14]Fisher W D.On Grouping for Maximum Homogeneity[J].Journal of the American StatisticalAssociation,1958,53(284):789-798.
Passenger Volume Estimation Based on Data Fusion
Li Linbo1,Jiang Yu1,Wang Jing2,Wu Bing1
(1.The Key Laboratory of Road and Traffic Engineering of the Ministry of Education,Tongji University,Shanghai 201804,China;2.Ji'nan City Planning and Design Institute,Ji'nan Shandong 250101,China)
Accurate passenger flow estimation through surveys does not come without costs.This paper proposes a data fusion method based on the data from public transit IC card and supplementary surveys to accurately estimate passenger flow information.This paper first divides bus service routes into groups by their characteristics using cluster analysis method,and then selects one representative route from each group.Based on the temporary variation of bus passenger flow extracted from IC cards data,the paper categorizes IC card charging records per hour using Fisher algorithm of ordered sample cluster.By grouping time periods with similar IC card charging volumes,the paper determines the optimized sample rate and corresponding buses for the supplementary surveys.Consequently,bus passenger flows are estimated by data fusion method.Taking one district in Shanghai as an example,the paper demonstrates how to estimates daily passenger volumes of three types of bus routes using the above method.
public transit;passenger volume;cluster analysis;data fusion;public transit IC card;Shanghai
1672-5328(2016)01-0043-08
U491.1+7
A
10.13813/j.cn11-5141/u.2016.0107
2015-09-15
國家自然科學(xué)基金面上項(xiàng)目“基于出行服務(wù)鏈的城鎮(zhèn)群交通模式發(fā)展研究”(51178346)
李林波(1974—),男,湖南岳陽人,副教授,主要研究方向:交通規(guī)劃與管理。
E-mail:llinbo@#edu.cn