李 軍,鄧育新
(中山大學(xué) 智能工程學(xué)院,廣東 廣州 510006)
出租車是人們出行的重要交通方式之一,它能提供快捷、舒適、便利和靈活的運(yùn)輸服務(wù)。據(jù)統(tǒng)計,在廣州、上海等大城市中,出租車日均客運(yùn)量約占市內(nèi)公共交通客運(yùn)的9%。為了滿足人們?nèi)粘3鲂行枨螅鲎廛囋诔鞘械缆分羞M(jìn)行巡游并載客,在長期的運(yùn)營過程中積累了大量的經(jīng)驗,結(jié)合經(jīng)驗和實際情況采取不同的服務(wù)策略,如早晚高峰選擇在城郊區(qū)巡游,選擇合適的載客路線以避開擁堵路段等[1-2]。盡管在相同的道路網(wǎng)中巡游,但是對路網(wǎng)的認(rèn)知程度以及選擇的服務(wù)策略有所不同,使得司機(jī)間的收入存在差異[3-5]。為了方便管理,出租車裝載了GPS設(shè)備,能實時獲取出租車的位置以及狀態(tài),由此產(chǎn)生了大量的出行軌跡數(shù)據(jù)。GPS軌跡數(shù)據(jù)隱含著出租車的行為特征,如時空選擇行為,載客路線選擇行為等,這也使得通過大量GPS數(shù)據(jù)挖掘出租車的時空行為模式成為可能[6-7]。研究出租車的時空行為有助于理解出租車行為與城市空間結(jié)構(gòu)、城市出行活動的聯(lián)系,對出租車以及城市的管理和發(fā)展具有參考意義。
近年來,學(xué)者們基于出租車GPS數(shù)據(jù)對城市人群的出行模式進(jìn)行了研究,并涌現(xiàn)出大量的研究成果,相關(guān)研究可分為出行需求和出行供給兩部分。
在出行需求方面,出行OD的時空模式是研究熱點之一[8-10]。學(xué)者采用非負(fù)矩陣分解法研究居民出行模式,根據(jù)時空差異性將出行需求劃分為家與工作地、工作地間和其它出行3類,區(qū)域間的OD流可視為3類基本出行流的線性組合[11]。在此基礎(chǔ)上,有學(xué)者比較了出租車和順風(fēng)車,發(fā)現(xiàn)后者主要服務(wù)于家與工作地間的出行需求[12]。在這樣的出行需求模式下,出租車在道路網(wǎng)中巡游,為居民提供出行服務(wù),在服務(wù)過程中積累經(jīng)驗并逐漸形成特定的行為習(xí)慣。因此,出租車可能也存在特定的供給模式,即時空行為模式。
在出行供給方面,學(xué)者們從多個角度對出租車的供給行為進(jìn)行了研究,包括路徑選擇行為、運(yùn)營區(qū)域選擇行為,并提出了熱點區(qū)域、載客路徑、尋客路徑等多種推薦算法[13-14]。為了了解出租車的供給行為及司機(jī)收入情況,有學(xué)者根據(jù)收入對司機(jī)分類,并分析了不同收入司機(jī)的上下客點的時空分布特征[15-16]。ZHANG Sihai等[3]則引入熵的概念,計算出租車的上、下客網(wǎng)格的多樣性,發(fā)現(xiàn)高收入司機(jī)的上下客區(qū)域比較集中,并由此推斷高收入司機(jī)可能存在拒載行為。但是,以上研究都只對早晚高峰等特殊時段進(jìn)行了定性描述,未能分析出租車在全時段多區(qū)域之間的行為差異。KANG Chaogui等[17]將武漢市劃分成多個交通小區(qū),采用非負(fù)矩陣分解算法研究了城市出租車的供需關(guān)系,但是忽略了出租車在不同時段的行為差異。
因此,筆者基于出租車的GPS數(shù)據(jù),考慮了出租車在時間維度上的行為差異,同時從時間和空間兩個維度對出租車行為進(jìn)行研究。首先基于GPS數(shù)據(jù)進(jìn)行出租車時空行為矩陣構(gòu)建,然后采用非負(fù)矩陣分解進(jìn)行時空行為聚類,最后以廣州市為例,探討廣州市出租車的時空行為特征。
出租車運(yùn)營是一個循環(huán)往復(fù)的過程,一個運(yùn)營周期可以劃分為尋客、上客、載客和下客4個部分。在尋客過程,出租車根據(jù)當(dāng)前位置和時間,結(jié)合經(jīng)驗選擇合適的尋客策略,如在候車點等待乘客或在熟悉的路段上巡游。尋客策略的選擇一定程度決定或直接影響上客點的時刻和位置,上客點的時空分布可認(rèn)為是出租車司機(jī)主觀選擇行為的結(jié)果,即其包含了司機(jī)運(yùn)營行為模式的信息。在載客過程,不管出租車采取哪條路徑,最終目的都是將乘客送至目的地,下客點的分布是由出行需求本身決定的。因此,筆者考慮到出租車行為在時間和空間維度的差異性,將時間和空間劃分成多個時空單元,基于出租車的GPS數(shù)據(jù)以上客點的時空分布特征表征出租車時空行為,構(gòu)建時空行為矩陣,最后采用非負(fù)矩陣分解法進(jìn)行聚類。
為了研究出租車的時空行為,第一步是對時空單元進(jìn)行劃分。在空間上,按照一定的空間劃分方式將研究范圍劃分成i個空間單元,常用的劃分方法包括行政區(qū)、交通小區(qū)、網(wǎng)格等。在時間上,按照一定的時間間隔將研究時間段劃分為j個時間單元,經(jīng)過劃分共可得到N=i×j個時空單元。
出租車GPS數(shù)據(jù)記錄了車輛的ID、當(dāng)前時刻、經(jīng)緯度和狀態(tài)等信息,根據(jù)狀態(tài)變化可識別并提取出每次載客的上客點和下客點。如圖1,狀態(tài)4為空載,狀態(tài)5為重載,當(dāng)狀態(tài)從空載變?yōu)橹剌d時則為上客點(點A),相反則為下客點(點B),將上下客點及其之間的一系列GPS點順序連接可得到載客軌跡。根據(jù)上客點的時刻和位置,將其分配至劃分好的時空單元。
圖1 提取上客點
統(tǒng)計每輛出租車在已劃分好的N個時空單元的上客點數(shù)量,當(dāng)有M輛出租車時,則可構(gòu)建出一個M×N的出租車時空行為矩陣V,然后采用非負(fù)矩陣分解法(nonnegative matrix factorization,NMF)對矩陣V進(jìn)行分解。構(gòu)建的時空行為矩陣中的元素均為非負(fù),滿足算法約束條件,算法對該問題也具有較強(qiáng)適用性。另一方面,NMF能有效實現(xiàn)模式識別并且對其聚類,可解釋性強(qiáng),現(xiàn)已被廣泛應(yīng)用于生物醫(yī)學(xué)工程、計算機(jī)視覺等領(lǐng)域,在交通領(lǐng)域已被應(yīng)用到路網(wǎng)狀態(tài)、出行量時空分布模式的識別及聚類中[18-19]。
如圖2,給定矩陣V和一個參數(shù)K,NMF算法將高維的出租車時空行為矩陣分解成一個系數(shù)矩陣W和一個基矩陣H。在基矩陣中,hkn為第k類行為在第n個時空單元的上客點數(shù)量。在系數(shù)矩陣中,wmk為第m輛出租車中第k類行為的權(quán)重系數(shù),則上客點時空分布可視為出租車多種行為線性加權(quán)的結(jié)果。同時,該算法可根據(jù)權(quán)重系數(shù)進(jìn)行聚類,當(dāng)?shù)趉類行為的權(quán)重系數(shù)最大時,則認(rèn)為該輛出租車屬于第k類,因此K也是聚類個數(shù)。
圖2 出租車時空行為矩陣分解
在算法中,最關(guān)鍵的參數(shù)是矩陣分解的秩K,常用度量標(biāo)準(zhǔn)包括同表象相關(guān)系數(shù)[20]、殘差平方和等[21]。筆者采用同表象相關(guān)系數(shù)c作為度量標(biāo)準(zhǔn),用于評價聚類結(jié)果。當(dāng)該系數(shù)明顯下降的最小K值即為最優(yōu)值,計算公式為:
(1)
式中:dij為樣本i和j的歐式距離;tij為層次聚類樹中樣本i和樣本j的同表象距離;d和t為兩種距離的平均值。
本研究的對象區(qū)域為廣州市的5個行政區(qū),包括海珠區(qū)、荔灣區(qū)、越秀區(qū)、天河區(qū)和白云區(qū)南側(cè),共有3 123條路段,研究范圍和道路路網(wǎng)如圖3。本研究采用廣州市13 754輛出租車的GPS記錄作為數(shù)據(jù)源進(jìn)行研究,時間范圍為2014年2月24日至3月21日的每天7點至24點,約4.5億條數(shù)據(jù)。在時空單元劃分中,筆者以現(xiàn)有的行政區(qū)域邊界將研究范圍劃分成5個空間單元,以1小時的時間間隔將研究時間段劃分成17個時間單元,則共有85個時空單元。經(jīng)過數(shù)據(jù)預(yù)處理、上客點提取和時空單元匹配得到上客點對應(yīng)的時空單元編號,統(tǒng)計一個月內(nèi)13 754輛出租車在85個時空單元的上客點數(shù)量,可構(gòu)建出一個13 754×85維的矩陣V,并采用NMF算法進(jìn)行分解。
圖3 研究范圍
如圖4,在K=2,3,4時,同表象相關(guān)系數(shù)均為1.0,表明在多次運(yùn)行算法后,樣本聚類的結(jié)果一致。當(dāng)K=5時,同表象相關(guān)系數(shù)開始明顯下降,即樣本在多次聚類過程中,出現(xiàn)聚類結(jié)果不一致。因此,在本研究中選擇K=4作為非負(fù)矩陣分解的秩,對出租車時空行為矩陣V進(jìn)行分解。
圖4 參數(shù)K的確定
2.3.1 基矩陣H
經(jīng)過非負(fù)矩陣分解后,可得到4×85維的基矩陣H,每一行代表一種時空行為(B1、B2、B3、B4)。為了方便比較,將其重新整合成4個5×17維的時空矩陣。總體上看,每種行為在空間上都表現(xiàn)為有一個主運(yùn)營區(qū)域,在時間上則表現(xiàn)為一變一不變。變化的是主運(yùn)營區(qū)域的上客量隨著時間推移表現(xiàn)為先減少,再增大,后減少的趨勢,在中午、下午及晚間時段出現(xiàn)明顯轉(zhuǎn)折,但主運(yùn)營區(qū)域不會改變。
如圖5,B1的主運(yùn)營區(qū)為天河區(qū),而在荔灣區(qū)和白云區(qū)的上客量較少。由于出行活動本身存在距離衰減特性,加之出租車司機(jī)會在熟悉及有限范圍內(nèi)巡游,因此其它區(qū)域的上客量與它們和主運(yùn)營區(qū)域的距離呈現(xiàn)出負(fù)相關(guān)性。在時間上,該行為模式在7點至8點以及17點至18點在主運(yùn)營區(qū)的上客量出現(xiàn)高峰,分別為換班后和換班前的時段,出租車司機(jī)會圍繞換班地點及居住地進(jìn)行運(yùn)營,且出行量較大。在11點至13點以及18點至19點出現(xiàn)低峰,分別為吃飯和換班時間段,出租車司機(jī)服務(wù)時間較短,且出行量相對較小。與B1不同,B2的主運(yùn)營區(qū)為越秀區(qū),且其它區(qū)域上客量占有一定的比例,主要是越秀區(qū)是廣州市的中心區(qū)域,與其它4個區(qū)域均相鄰。在時間上,高峰延后至9點至10點,且下午時段的主運(yùn)營區(qū)上客量不斷減少。B3的主運(yùn)營區(qū)為海珠區(qū),時間上與B1相似。B4的主運(yùn)營區(qū)為白云區(qū),時間上與其他行為有較大不同,10點至12點主運(yùn)營區(qū)和次運(yùn)營區(qū)的上客量差別較小。
圖5 4種時空行為
2.3.2 系數(shù)矩陣W
W是一個13 754×4維的系數(shù)矩陣,矩陣中的元素為每輛出租車每種時空行為(B1、B2、B3、B4)的權(quán)重系數(shù),由權(quán)重系數(shù)最大值將出租車分為4類(C1、C2、C3、C4),結(jié)果如表1。4類出租車主要時空行為模式的權(quán)重系數(shù)為0.60~0.68,次要的為0.15~0.24,第1、3、4類出租車的次要時空行為均為B2,第2類出租車中B3和B4的權(quán)重系數(shù)基本相同。在數(shù)量上,第1類出租車最多,占了30.13%,第3類最少,占16.58%。
表1 出租車聚類
由基矩陣和系數(shù)矩陣可知,出租車司機(jī)形成了特定的時空行為模式,即一般圍繞主運(yùn)營區(qū)域進(jìn)行載客,且不隨時間的變化而變化,同時會在不同時間段服務(wù)其它相鄰區(qū)域的出行。
為了進(jìn)一步理解每類出租車的時空行為,采用核密度分析法研究各類出租車的上客點的時空分布特征及挖掘熱點上客區(qū)域。
如圖6,第1類主要服務(wù)天河區(qū)的出行,熱點區(qū)域為天河中央商務(wù)區(qū)、廣州東站等。其中,天河中央商務(wù)區(qū)是經(jīng)濟(jì)、金融和商務(wù)等高端產(chǎn)業(yè)的集聚區(qū),承擔(dān)了商務(wù)、商業(yè)和居住等多種功能。第2類服務(wù)越秀區(qū)及荔灣區(qū)的出行,熱點區(qū)域是北京路、淘金地鐵和廣州火車站等。北京路是一條集文化、娛樂、商業(yè)于一體的街道,是最繁華的商業(yè)集散地,淘金地鐵站附近有花園酒店和白云賓館兩家大型酒店,廣州火車站臨近省、市客運(yùn)站、流花車站等多個交通樞紐,且有諸多服裝批發(fā)市場。第3類主要服務(wù)海珠區(qū)及越秀區(qū)的出行,海珠區(qū)的熱點區(qū)域為客村及昌崗,均為大型商業(yè)樓群的聚集地。第4類的熱點服務(wù)區(qū)域為三元里、新市墟等,三元里是國內(nèi)中非國際貿(mào)易最為發(fā)達(dá)的地區(qū),新市墟是一個吸引巨大人流、車流的商業(yè)商圈。強(qiáng)烈的商務(wù)商業(yè)活動使得這些區(qū)域都聚集了大量人流,并且產(chǎn)生了大量的出行需求。因此,在空間上,出租車表現(xiàn)出有明顯的主運(yùn)營區(qū)域,且是圍繞區(qū)域商業(yè)活動中心集中運(yùn)營的空間分布模式。城市中心區(qū)的出行由4類出租車共同服務(wù),其它4個區(qū)域的出行主要由各類出租車服務(wù)。這也反映了出租車的空間行為模式與出行活動、城市空間特征存在緊密的相互關(guān)聯(lián)性。
圖6 4類出租車的熱點服務(wù)區(qū)域
如圖7,在時間上,出租車運(yùn)營范圍大小及聚集程度會隨各時段的出行活動差異而有明顯不同。以第1類出租車為例,在早晚高峰時段,該類出租車集中在天河區(qū)外圍進(jìn)行巡游載客,在中午及晚間時段則集中在天河中央商務(wù)區(qū)。出租車在早高峰前完成換班,且換班地點會靠近居住地,因此早高峰時段出租車司機(jī)會集中在城市外圍進(jìn)行巡游,且該時段出行以通勤類出行及商務(wù)辦公類出行為主,出行方向多為從城市外圍至中心,運(yùn)營范圍也相對集中在主運(yùn)營區(qū)域。在晚高峰時段,出租車司機(jī)為了方便換班以及吃飯,會選擇在換班地點或吃飯地點的一定范圍內(nèi)運(yùn)營,運(yùn)營范圍相對較小,并且可能因此出現(xiàn)拒載行為。在中午時段,出行多為偶發(fā)性出行,出行量相對較少且比較分散,出租車為了減少空載率,會擴(kuò)大運(yùn)營范圍,而且廣州東站和廣州火車站兩個重要交通樞紐也成為了出租車運(yùn)營的熱門選擇。在晚間時段,部分地鐵線路停運(yùn),公交班次減少,出租車的快捷靈活優(yōu)勢逐漸凸顯,且該時段出行主要是由于加班、休閑娛樂等活動的返家出行,出行量較大且集中在商業(yè)辦公區(qū),出租車則會圍繞這些活動中心運(yùn)營。這也表明出租車在時間上的行為模式與城市出行活動是相適應(yīng)的,他們能自適應(yīng)調(diào)整運(yùn)營范圍以滿足不同時段的出行活動需求。
圖7 C1的上客點時空分布
總體上看,出租車聚類結(jié)果主要體現(xiàn)空間維度上的差異,這與廣州市的空間結(jié)構(gòu)特征是相關(guān)的。珠江、白云山等自然障礙物將廣州市分割成了多個行政區(qū),區(qū)域內(nèi)又建成了各自商業(yè)活動中心或是交通樞紐,并形成了出行活動中心,從而將出租車劃分成明顯不同的4類空間運(yùn)營行為。雖然時間維度對聚類結(jié)果影響小,但出租車不同時段的行為也是有明顯差異的,他們能根據(jù)時間自適應(yīng)調(diào)整空間運(yùn)營行為,從而滿足不同時段不同區(qū)域的出行需求。
基于出租車GPS數(shù)據(jù)和非負(fù)矩陣分解法對出租車的時空行為進(jìn)行了聚類分析。研究發(fā)現(xiàn):出租車形成了特定的時空行為模式,并形成多個服務(wù)群體,以服務(wù)于人們在不同區(qū)域不同時段的出行需求。在空間上表現(xiàn)為有主運(yùn)營區(qū)域,且呈現(xiàn)出明顯的圍繞區(qū)域商業(yè)活動中心集中運(yùn)營的空間行為模式,在時間上表現(xiàn)為調(diào)整運(yùn)營范圍以適應(yīng)不同時段出行活動的行為模式。筆者有效識別了出租車的時空行為模式,研究了其與城市空間結(jié)構(gòu)、城市出行活動的關(guān)系,它能為出租車運(yùn)營管理以及城市管理發(fā)展提供一定的參考作用。在未來的工作中,將考慮結(jié)合人們的出行需求模式和出租車的時空行為模式研究出租車市場的供需關(guān)系,并研究出租車時空行為與收入的關(guān)系。