聶琦
(北京交通大學(xué)交通運(yùn)輸學(xué)院,北京 100044)
基于微博簽到數(shù)據(jù)的出行行為分析
聶琦
(北京交通大學(xué)交通運(yùn)輸學(xué)院,北京 100044)
應(yīng)用Python爬蟲程序,通過新浪API端口爬取了新浪微博2012年的地點(diǎn)簽到數(shù)據(jù),共計(jì)5 028 980條。將這些數(shù)據(jù)按城市劃分,共分為340個(gè)地級(jí)以上的城市或地區(qū)。通過統(tǒng)計(jì)發(fā)現(xiàn),簽到次數(shù)最多的3個(gè)城市為北京、上海和廣州,說明微博用戶更多地活躍在這三個(gè)城市。進(jìn)一步通過相關(guān)性分析發(fā)現(xiàn),這些城市的微博用戶簽到流量和當(dāng)?shù)谿DP呈一定的相關(guān)性,說明經(jīng)濟(jì)發(fā)展水平會(huì)影響用戶的旅行行為。此外,本文還按照用戶的出行流量對(duì)各大城市進(jìn)行了聚類劃分,進(jìn)一步印證了經(jīng)濟(jì)發(fā)達(dá)城市對(duì)微博用戶簽到的吸引會(huì)高于其他經(jīng)濟(jì)欠發(fā)達(dá)的城市。
微博簽到;經(jīng)濟(jì)水平;聚類劃分;相關(guān)性
隨著互聯(lián)網(wǎng)的高速發(fā)展,中國(guó)的網(wǎng)民數(shù)量持續(xù)增長(zhǎng)。尤其是最近幾年智能手機(jī)的普及,更促進(jìn)了網(wǎng)民數(shù)量的激增。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的報(bào)告,中國(guó)網(wǎng)民規(guī)模逾七億,其中手機(jī)網(wǎng)民占比達(dá)95.1%。網(wǎng)民在利用網(wǎng)絡(luò)的同時(shí),其活動(dòng)也會(huì)被記錄,尤其是其出行行為。這些用戶出行數(shù)據(jù),已在國(guó)外得到有效的利用。例如,Mok等[1]使用Twitter的數(shù)據(jù),研究了社交和用戶空間位置的相互關(guān)系。Goldenberg等[2]利用Facebook的用戶簽到數(shù)據(jù),研究了社交和空間移動(dòng)行為之間的相互影響。Dhar等[3]利用Gowalla和Brightkite的用戶簽到數(shù)據(jù),研究了用戶的社交關(guān)系對(duì)用戶出行距離的影響。這些研究充分說明了社交簽到數(shù)據(jù)的重要性,同時(shí)深化了人們對(duì)于人類出行行為的理解。
除了對(duì)簽到數(shù)據(jù)的處理和運(yùn)用,研究人員也使用了其他類型的數(shù)據(jù),并做出了不少有價(jià)值的研究。Jiang等[4]利用出租車的GPS定位數(shù)據(jù),研究了人類整體流量分布的影響因素。González等[5]利用手機(jī)通訊數(shù)據(jù),研究了個(gè)人移動(dòng)模式下基于位置跟蹤的時(shí)間分辨方式,并描述了一個(gè)普遍的流動(dòng)模式,這對(duì)城市規(guī)劃和交通預(yù)測(cè)具有十分重要的理論意義。Ni等[6]利用SIR傳染病模型模擬了人類旅行行為在時(shí)空上的標(biāo)度律分布。這些研究均對(duì)人類出行行為做出了扎實(shí)的基礎(chǔ)理論驗(yàn)證。韓華瑞等[7]利用微博簽到數(shù)據(jù)研究了湖北省各地區(qū)的空間差異,發(fā)現(xiàn)武漢市的簽到占比超過七成。王明等[8]提出了一種根據(jù)簽到屬性顯著度差異來提取城市分層地標(biāo)的方法,并以北京市的位置簽到數(shù)據(jù)為例對(duì)該方法進(jìn)行了進(jìn)一步的論證。除了對(duì)實(shí)際出行位置的研究之外,也有人站在傳播學(xué)的角度對(duì)微博進(jìn)行了分析,例如,曹玖新等[9]分析了新浪微博的信息轉(zhuǎn)發(fā)與傳播特征。目前,對(duì)微博位置數(shù)據(jù)的使用多局限于小區(qū)域內(nèi)的移動(dòng)研究,微博用戶在全國(guó)范圍內(nèi)的移動(dòng)行為研究相對(duì)較少。本文在中國(guó)大陸這一空間尺度上,對(duì)微博用戶在不同城市之間的出行行為進(jìn)行了研究。
本文使用Python爬蟲程序,通過新浪提供的API中微博地理位置信息接口[10],爬取新浪微博用戶2012年1月—12月的簽到數(shù)據(jù)。該數(shù)據(jù)包含用戶出行的起訖點(diǎn)位置編號(hào)和經(jīng)緯度等信息,如表1所示。經(jīng)過匿名化處理,提取出本文所需的OD量及地點(diǎn)信息。再利用百度地圖提供的API,將各用戶的簽到地點(diǎn)按照不同的城市地區(qū)(地級(jí)及以上)進(jìn)行劃分,于是得到不同城市間的OD量數(shù)據(jù)。
表1 數(shù)據(jù)樣本
由于微博的用戶量較大,且簽到數(shù)據(jù)帶有位置信息,所以使用微博數(shù)據(jù)來反映人的空間出行行為是比較可靠的。圖1顯示的是微博用戶在340個(gè)城市里有簽到記錄的OD出行圖,圖中連線表示OD的遷移,連線的粗細(xì)表示OD量的多少。由圖1可以看出,北京、上海、廣州三地之間的出行流量巨大,可以形成一個(gè)明顯的三角形。另外,成都和重慶對(duì)于這三地的出行流量貢獻(xiàn)也很大??紤]到以上幾個(gè)城市的人口和經(jīng)濟(jì)量,本文猜測(cè)用戶在遠(yuǎn)距離出行行為中的地點(diǎn)選擇可能與當(dāng)?shù)氐娜丝诤徒?jīng)濟(jì)有關(guān)。
為了更好地說明用戶遷移的OD量分布密度,本文將用戶出行某地的OD量相加,然后以密度圓的形式標(biāo)度在地圖上,如圖2所示,圖中圓圈的大小和顏色代表該地的流量多少??梢院苊黠@地看出,用戶出行多集中于北京、上海、廣州這些大型城市之中。另外,各省省會(huì)城市的用戶出行流量一般多于其他城市的出行流量。
圖1 微博用戶出行行為OD圖Fig.1 OD diagram of Weibo users' travel behavior
圖2 微博用戶出行OD密度圖Fig.2 OD density map of Weibo users
圖3 微博用戶出行雙對(duì)數(shù)分布Fig.3 Log-log distribution of Weibo users
本文將微博用戶的出行量數(shù)據(jù)放到雙對(duì)數(shù)坐標(biāo)上,橫軸表示流量,縱軸表示概率??梢院苊黠@地看到,用戶出行量在雙對(duì)數(shù)坐標(biāo)系下存在肥尾分布(圖3),這說明大多數(shù)的用戶都集中出沒于少數(shù)幾個(gè)地點(diǎn),而剩余的大多數(shù)地點(diǎn)都只吸引了小部分人的出行。實(shí)際上,經(jīng)過統(tǒng)計(jì)可以發(fā)現(xiàn),北京、上海、廣州等大城市對(duì)微博用戶的吸引明顯更大一些,所以短時(shí)的旅行行為發(fā)生在這些大城市里也不足為奇。
貢獻(xiàn)度分析又稱為帕累托分析,其原理是帕累托法則(Pareto principle),由意大利經(jīng)濟(jì)學(xué)家維弗雷多·帕累托(Vilfredo Pareto)于1897年在觀察19世紀(jì)英國(guó)人財(cái)富收益模式時(shí)發(fā)現(xiàn)。這一法則又稱二八定律(The 80/20 Rule),揭示了生活中的不平衡現(xiàn)象。本文將不同的地點(diǎn)表示在橫軸上,將不同區(qū)域的流入量及其累計(jì)概率表示在縱軸上,作出微博用戶出行行為的流量吸引帕累托圖,如圖4所示??梢钥吹?,在人類出行行為中,這種不平衡關(guān)系依然存在。具體地說,前十幾個(gè)省份地區(qū)吸引了百分之八十以上的微博用戶,其中廣東、北京、上海、江蘇和浙江位于微博用戶吸引量前五的省市,這幾個(gè)省市除了是GDP比較靠前的省市外,同時(shí)也是網(wǎng)絡(luò)普及率較高的幾個(gè)省市。于是,有理由考慮網(wǎng)絡(luò)普及率(微博簽到率)和GDP之間的相關(guān)關(guān)系是否為正相關(guān)的關(guān)系。
圖中長(zhǎng)條表示流入量的頻數(shù),圓點(diǎn)表示累積概率圖4 微博用戶出行行為的帕累托圖Fig.4 Pareto diagram of Weibo users' travel behavior
聚類分析是在沒有給定任何劃分類別的條件下,按照數(shù)據(jù)相似度對(duì)樣本分組的一種方法,是一種無監(jiān)督學(xué)習(xí)方法[11-12]。K-means聚類是一種典型的空間聚類方法,是將研究對(duì)象的空間距離指標(biāo)依照某種相似性準(zhǔn)則劃分到若干組中去,然后使組內(nèi)的距離最小化,同時(shí)使組間的距離最大化。通常來說,空間聚類算法是建立在各種距離上的,如歐幾里得距離、曼哈頓距離、閔可夫斯基距離等。
其中,閔可夫斯基距離為:
(1)
式中,i=(xi1,xi2,…,xin)和j=(xj1,xj2,…,xjn)為兩個(gè)n維的數(shù)據(jù)對(duì)象;q為正整數(shù),q=1時(shí)d(i,j)即為曼哈頓距離,q=2時(shí)d(i,j)則是歐幾里得距離。
簇Ei的聚類中心ei計(jì)算公式為:
(2)
式中,Ei表示第i個(gè)簇;x表示樣本;ei為第i個(gè)簇的聚類中心;ni為第i個(gè)簇中樣本的個(gè)數(shù)。
目標(biāo)函數(shù)為:
(3)
式中,K表示聚類簇的個(gè)數(shù)。
算法流程:
(1)首先從N個(gè)樣本數(shù)據(jù)中隨機(jī)抽取K個(gè)對(duì)象作為初始聚類的中心;
(2)依次計(jì)算樣本到各聚類中心的距離(由于涉及與經(jīng)緯度相關(guān)的實(shí)際坐標(biāo),故本文采用歐幾里得距離進(jìn)行計(jì)算),然后使各個(gè)對(duì)象劃分至歐氏距離最近的聚類當(dāng)中;
(3)當(dāng)所有的對(duì)象完成之后,再次計(jì)算K個(gè)聚類的中心;
(4)和上一次計(jì)算得到的K個(gè)聚類中心作比較,若聚類中心發(fā)生變化,則返回(2)步,否則進(jìn)入(5)步;
(5)當(dāng)質(zhì)心不再發(fā)生移動(dòng)時(shí),停止迭代,然后輸出聚類的結(jié)果。
K-means算法最核心的思想就是通過迭代,將數(shù)據(jù)對(duì)象劃分到不同的簇中,以期目標(biāo)函數(shù)(3)最小化。
本文以各城市的吸引量為聚類指標(biāo),將新浪微博用戶在各城市的簽到地點(diǎn)進(jìn)行聚類分析。考慮到分類數(shù)(如果分類太少則無法區(qū)分開來,如果分類太多則會(huì)無意義),所以最終決定按照各城市的吸引量將各城市分為五類。其中,第I類和第II類表示了微博簽到中絕大多數(shù)吸引力較小的城市,對(duì)微博用戶吸引力較大的城市都集中在第V類。如圖5所示,這五類城市正好區(qū)分了對(duì)出行用戶的吸引力大小。圖中可以看出,北京、上海、廣州等地被劃為同一類,和圖1中直觀的出行流量相呼應(yīng),同時(shí)也驗(yàn)證了簽到用戶流量很大一部分集中在這三地之間流動(dòng)。
圖5 微博用戶出行數(shù)據(jù)聚類結(jié)果Fig.5 Clustering results of Weibo users' travel data
輪廓系數(shù)是用來評(píng)價(jià)聚類效果好壞的參數(shù)。對(duì)于任意數(shù)據(jù)對(duì)象i,其輪廓指標(biāo)s(i)定義為
(4)
式中,a(i)是同一簇中數(shù)據(jù)對(duì)象i的平均差異,即向量i到同簇內(nèi)所有其他點(diǎn)的“距離”(不相似程度)的平均;b(i)是i對(duì)其他簇的最小平均差異,即向量i到其他簇中所有點(diǎn)平均“距離”的最小值。
(4)式也可以更直觀地寫成
(5)
從上面的定義式可以清楚地看到,輪廓系數(shù)s(i)的值是-1~1之間的某個(gè)數(shù),即s(i)∈[-1,1]。s(i)越大,說明聚類效果越好,反之越差。s(i)的值越趨近于1,則說明內(nèi)聚度和分離度都相對(duì)比較好;當(dāng)s(i)的值小于0時(shí),說明與其簇內(nèi)元素的平均距離間隔小于最近其余的簇,這說明此時(shí)的聚類效果還有待提高。
根據(jù)以上定義,本文將上面聚類的結(jié)果帶入進(jìn)行計(jì)算,求得此類情況下的輪廓系數(shù)值為0.879 158 192 628。該值較為接近1,這說明內(nèi)聚度、分離度都相對(duì)比較好,也就是說聚類效果良好。
相關(guān)性分析是對(duì)兩個(gè)或兩個(gè)以上的變量元素進(jìn)行分析計(jì)算,最后得出衡量這兩個(gè)變量因素的相關(guān)密切程度,從而對(duì)這些變量進(jìn)行評(píng)價(jià)分析的方法。由上述的聚類分析結(jié)果可以看出,大多數(shù)經(jīng)濟(jì)較為發(fā)達(dá)的城市被聚為了一類,而經(jīng)濟(jì)量較低的一些城市也被聚成一類。于是,本文推斷經(jīng)濟(jì)量可能是影響城市吸引量的重要因素。
本文利用微博用戶遷入數(shù)據(jù),對(duì)各城市的用戶流入量與該地的GDP做了相關(guān)性分析。相關(guān)系數(shù)的絕對(duì)值越大,相關(guān)性越強(qiáng)。通常認(rèn)為,相關(guān)系數(shù)越接近于1或-1,相關(guān)度越強(qiáng);相關(guān)系數(shù)越接近于0,相關(guān)度越弱。
如表2所示,本文將微博用戶的簽到數(shù)據(jù)和各城市GDP數(shù)據(jù)導(dǎo)入SPSS軟件進(jìn)行皮爾森相關(guān)性檢驗(yàn),在0.01的置信水平下算出其Pearson相關(guān)系數(shù)為0.79。通常情況下,Pearson相關(guān)系數(shù)取值區(qū)間在0~0.2之間時(shí),可認(rèn)為變量之間極弱相關(guān)或無相關(guān);當(dāng)取值在0.2~0.4之間時(shí),可認(rèn)為變量之間弱相關(guān);當(dāng)取值在0.4~0.6之間時(shí),可認(rèn)為變量之間中等程度相關(guān);當(dāng)取值在0.6~0.8之間時(shí),可認(rèn)為變量之間強(qiáng)相關(guān);當(dāng)取值在0.8~1.0之間時(shí),可認(rèn)為變量之間極強(qiáng)相關(guān)。綜上,本文認(rèn)為GDP和微博用戶的流入量具有強(qiáng)相關(guān)性,即目的地的經(jīng)濟(jì)水平能夠影響用戶的出行。
表2 微博用戶流入量和GDP的皮爾森相關(guān)性分析
注:**表示在0.01水平(雙側(cè))上顯著相關(guān)。
本文利用微博用戶2012年的簽到數(shù)據(jù),先進(jìn)行初步的統(tǒng)計(jì)分析,發(fā)現(xiàn)大部分移動(dòng)的流量集中于少數(shù)幾個(gè)特定的城市之間,這說明微博用戶的旅行行為在空間上呈現(xiàn)出一定的聚集性,表明這幾個(gè)特定的城市比其他城市的吸引力要大。實(shí)際上,在中國(guó)三十多個(gè)省級(jí)地區(qū)中,微博用戶的旅行行為基本集中在廣東、北京、上海、江蘇等省市地區(qū)內(nèi)。為了更直觀地觀察,本文按照吸引量對(duì)各城市進(jìn)行K-means聚類,發(fā)現(xiàn)北京、上海、廣州、深圳等地被劃分到同一類型當(dāng)中,這進(jìn)一步印證了微博用戶的這種空間聚集性跟城市的發(fā)展有一定聯(lián)系。通過進(jìn)一步對(duì)各城市的GDP和吸引量做相關(guān)性分析,發(fā)現(xiàn)這兩個(gè)變量的Pearson相關(guān)性系數(shù)為0.79,在強(qiáng)相關(guān)的范圍內(nèi),因而可以認(rèn)為城市的吸引量和當(dāng)?shù)氐慕?jīng)濟(jì)發(fā)展存在著強(qiáng)相關(guān)關(guān)系。之前已有的研究多是在較小的空間尺度下進(jìn)行的,且都是基于距離的出行行為分析,本文重點(diǎn)分析經(jīng)濟(jì)量對(duì)人類移動(dòng)行為的影響,發(fā)現(xiàn)在大空間尺度下的旅行行為中,人們的出行所受到的吸引和經(jīng)濟(jì)水平具有強(qiáng)相關(guān)關(guān)系。一般來說,城市的吸引力除了經(jīng)濟(jì)因素之外,還有其他很多的影響因素。由于數(shù)據(jù)來源的局限,同時(shí)也為了簡(jiǎn)便,本文單獨(dú)選擇了經(jīng)濟(jì)量進(jìn)行分析。未來如果能夠獲取更多樣化的數(shù)據(jù)集,可以結(jié)合經(jīng)濟(jì)水平、教育水平、基礎(chǔ)設(shè)施水平等指標(biāo)進(jìn)行更全面的分析。
[1]MOK D, WELLMAN B, CARRASCO J. Does distance matter in the age of theInternet?[J]. Urban Studies, 2010, 47(13):17-20.
[2]GOLDENBERG J, LEVY M. Distance is not dead: Social interaction and geographical distance in the Internet Era[EB/OL]. [2017-03-02].http://api.ning.com/files/4SGMTw61ZJMWGCZrfDfIcbVhygzhq1TMfCWF2-IuyyK2svuoxwOk9P8zY8eTi8MGpXkwBwuTOCagp3jP1OCHanpbC0cpA8-E/0906.3202.pdf.
[3]DHAR S, VARSHNEY U. Challenges and business models for mobile location-based services and advertising[J]. Communications of the ACM, 2011, 54(5):121-128.
[4]JIANG B, YIN J, ZHAO S. Characterizing the human mobility pattern in a large street network[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2009, 80(2):021136.
[6]NI S, WENG W. Impact of travel patterns on epidemic dynamics in heterogeneous spatialmetapopulation networks[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2009, 79(1):016111.
[7]韓華瑞, 代偵勇. 湖北省微博簽到活動(dòng)空間差異分析——以新浪微博為例[J]. 測(cè)繪與空間地理信息, 2016,39(10):159-162.
[8]王明, 胡慶武, 李清泉,等. 基于位置簽到數(shù)據(jù)的城市分層地標(biāo)提取[J]. 計(jì)算機(jī)學(xué)報(bào), 2016, 39(2):405-413.
[9]曹玖新, 吳江林, 石偉,等. 新浪微博網(wǎng)信息傳播分析與預(yù)測(cè)[J]. 計(jì)算機(jī)學(xué)報(bào), 2014,37(4):779-790.
[10]張晶. 網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為數(shù)據(jù)獲取與分析研究[D]. 鄭州:解放軍信息工程大學(xué), 2015.
[11]王駿, 王士同, 鄧趙紅. 聚類分析研究中的若干問題[J]. 控制與決策, 2012, 27(3):321-328.
[12]白雪. 聚類分析中的相似性度量及其應(yīng)用研究[D]. 北京:北京交通大學(xué), 2012.
TravelbehavioranalysisbasedonWeibocheck-indata
NIEQi
(SchoolofTrafficandTransportation,BeijingJiaotongUniversity,Beijing100044,China)
∶Using Python crawler, the location check-in data of Sina Weibo in the year of 2012 were crawled through the Sina API port. The data set consisted of 5,028,980 records. These data were divided into 340 cities or regions above prefecture level. Data statistics showed that there was the largest number of check-in in 3 cities: Beijing, Shanghai and Guangzhou, which revealed that Weibo users were more active there. Furthermore, through correlation analysis, it was found that the Weibo users′ attendance flow in these cities was related to the local GDP, indicating that the level of city economic development would affect the users′ travel behavior. In addition, this paper also divided the major cities into clusters according to the users' trip volume, further confirming that the developed cities were more attractive to Weibo users than other economically underdeveloped cities.
∶Weibo check-in; economic level; clustering; correlation
10.3976/j.issn.1002-4026.2017.06.014
2017-05-17
國(guó)家自然科學(xué)基金(71525002)
聶琦(1992—),男,碩士研究生,研究方向?yàn)榻煌ㄟ\(yùn)輸系統(tǒng)科學(xué)、人類移動(dòng)性。E-mail: nie_qi@bjtu.edu.cn
U491
A
1002-4026(2017)06-0087-07