鐘 斌 青,劉 湘 南
基于空間化PageRank算法的人口流動(dòng)空間集聚性分析
鐘 斌 青,劉 湘 南*
(中國(guó)地質(zhì)大學(xué)(北京)信息工程學(xué)院,北京 100083)
提出了一種基于空間化PageRank算法的人口流動(dòng)空間集聚性分析方法。在PageRank算法的基礎(chǔ)上增加空間節(jié)點(diǎn)間要素流量大?。‵)的加權(quán)作用以及距離因子(Dst)所引起的流動(dòng)成本和阻力效應(yīng),使該算法具備針對(duì)空間網(wǎng)絡(luò)模型的分析能力,通過對(duì)人口流動(dòng)網(wǎng)絡(luò)模型中的節(jié)點(diǎn)進(jìn)行集聚性排序,描述人口流動(dòng)的空間特征。以華東六省一市人口流動(dòng)狀況為例,PR值、區(qū)域人口總流入量(RTI)和流動(dòng)人口密度區(qū)位商(MLQ)的計(jì)算結(jié)果對(duì)比表明:空間化PageRank算法可以客觀地評(píng)估空間節(jié)點(diǎn)吸引力,并彌補(bǔ)了總流入量等簡(jiǎn)單人口學(xué)統(tǒng)計(jì)指標(biāo)對(duì)于現(xiàn)象背后驅(qū)動(dòng)機(jī)制表達(dá)不足的缺點(diǎn)。
空間化PageRank算法;人口流動(dòng);空間網(wǎng)絡(luò)模型;空間集聚性
根據(jù)國(guó)家統(tǒng)計(jì)局發(fā)布的《2010年第六次全國(guó)人口普查主要數(shù)據(jù)公報(bào)(第1號(hào))》,截至2010年,我國(guó)人口流動(dòng)規(guī)模達(dá)2.61億人,占人口總數(shù)的19.04%,即在我國(guó)每5個(gè)人中就有1人屬于流動(dòng)人口。而在未來二三十年內(nèi),根據(jù)預(yù)測(cè),流動(dòng)人口的總量仍將不斷增加。如此巨量的流動(dòng)人口群體,緣于經(jīng)濟(jì)增長(zhǎng)大環(huán)境下區(qū)域間市場(chǎng)化改革程度、市場(chǎng)發(fā)育的空間不平衡性和我國(guó)二元分割的戶籍制度,而這種勞動(dòng)力資源的大尺度空間流動(dòng),又會(huì)不斷地反作用于區(qū)域經(jīng)濟(jì)發(fā)展及社會(huì)生活的各個(gè)層面,影響深遠(yuǎn)。
關(guān)于人口流動(dòng)空間特征描述的研究,早在1885年Ravenstein就曾繪制12幅地圖分析英國(guó)人口的各種空間流動(dòng)特征[1]。近年來Rae等研究了借助于GIS的人口流動(dòng)空間表達(dá)技術(shù)[2,3],李薇等分別采用人口遷移選擇指數(shù)法、GIS空間相關(guān)性分析及綜合考慮凈遷移率和總遷移率的復(fù)合型指標(biāo)進(jìn)行中國(guó)人口流動(dòng)的空間特征分析[4-6]。這些研究多選取傳統(tǒng)的人口學(xué)統(tǒng)計(jì)口徑,如流入人口、流出人口、凈流動(dòng)人口或總流動(dòng)人口等,亦有采用簡(jiǎn)單指數(shù)的分析,如遷移率和人口遷移指數(shù)等。以上方法雖各具優(yōu)勢(shì),但對(duì)人口流動(dòng)空間特征的深入挖掘及其驅(qū)動(dòng)機(jī)制的分析尚有不足。特別是缺乏綜合表達(dá)人口流動(dòng)在特定區(qū)域集聚特性的能力,不能客觀全面地比較人口集聚性的空間差異。
PageRank算法作為網(wǎng)頁排序算法,提供了一種解決此類問題獨(dú)辟蹊徑的可能思路。1998年,Google的創(chuàng)始人Sergey Brin和Lawren Page在斯坦福大學(xué)發(fā)明了PR算法[7],對(duì)互聯(lián)網(wǎng)信息檢索產(chǎn)生了革命性的影響,并成為延續(xù)至今的搜索引擎核心技術(shù)。該算法在其他領(lǐng)域,如科技文獻(xiàn)質(zhì)量評(píng)價(jià)[8]、生物學(xué)中蛋白質(zhì)相互作用網(wǎng)絡(luò)的分析[9]等研究中亦有應(yīng)用,但針對(duì)空間分析的研究則鮮見報(bào)道。Jiang把PR算法應(yīng)用到城市空間的人口移動(dòng)預(yù)測(cè),卻未深入討論P(yáng)R算法的空間化問題[10]。
PR算法的特征和關(guān)鍵優(yōu)勢(shì)在于通過網(wǎng)頁間的“投票”機(jī)制,對(duì)網(wǎng)絡(luò)中海量的網(wǎng)頁進(jìn)行排序,挖掘出最具價(jià)值的信息。這種“投票”機(jī)制同樣存在于人口流動(dòng)現(xiàn)象中。人口學(xué)的眾多研究表明,人口流動(dòng)背后的驅(qū)動(dòng)機(jī)制主要是區(qū)域間的經(jīng)濟(jì)發(fā)展不均衡所導(dǎo)致的推力與拉力作用。從另一個(gè)角度,人口是在用自己的遷移行為給區(qū)域“投票”。但網(wǎng)頁的排序與空間節(jié)點(diǎn)的排序之間存在一個(gè)巨大差異——空間性,即PR算法僅能分析網(wǎng)頁鏈接模型,而不具備對(duì)于空間網(wǎng)絡(luò)模型的分析能力。因此,本文主要探討PR算法應(yīng)用于人口流動(dòng)空間分析所需進(jìn)行的空間化改進(jìn)和擴(kuò)展,并通過華東地區(qū)人口流動(dòng)空間集聚性的分析,實(shí)際檢驗(yàn)該算法效果。
PR算法在網(wǎng)頁排序過程中通過超鏈接關(guān)系確定一個(gè)頁面的等級(jí)[11]。把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,根據(jù)投票來源和投票目標(biāo)的等級(jí)決定新的等級(jí),簡(jiǎn)言之,一個(gè)高等級(jí)的頁面可以提升其他低等級(jí)頁面的等級(jí)??梢约僭O(shè)一個(gè)由4個(gè)頁面組成的集合:A、B、C和D[12](圖1a),如果所有的頁面都將網(wǎng)絡(luò)鏈接指向A,則A的PR值將是B、C及D的和。
圖1 PR算法中的網(wǎng)頁節(jié)點(diǎn)結(jié)構(gòu)Fig.1 The structure of the Web pages in the PR algorithm
繼續(xù)假設(shè)B也與C有鏈接,并且D也有鏈接到包括A的3個(gè)頁面(圖1b)。一個(gè)頁面不能投票2次,所以B給每個(gè)頁面半票。以同樣的邏輯,D投出的票只有1/3算到了A的PR值上。
最后,所有的這些PR值被換算為一個(gè)百分比再乘以一個(gè)系數(shù)q。由于沒有頁面的PR值會(huì)是0,所以算法給每個(gè)頁面一個(gè)最小初始化值1-q。
所以一個(gè)頁面的PR值是由其他頁面的PR值計(jì)算得到的。算法不斷地重復(fù)計(jì)算每個(gè)頁面的PR值,如果在初始時(shí)給每個(gè)頁面分配一個(gè)隨機(jī)的PR值(非0),則經(jīng)過不斷地重復(fù)計(jì)算,這些頁面的PR值會(huì)趨于正常和穩(wěn)定,數(shù)學(xué)上可證明其收斂。
PR算法所針對(duì)的網(wǎng)頁鏈接模型(圖2)與人口流動(dòng)的空間網(wǎng)絡(luò)模型(圖3)存在共性而又有細(xì)節(jié)上的差異??臻g中各區(qū)域節(jié)點(diǎn)類同于網(wǎng)絡(luò)中的網(wǎng)頁,而從某個(gè)空間節(jié)點(diǎn)向另一個(gè)空間節(jié)點(diǎn)的人口流動(dòng)又與網(wǎng)頁間的超鏈接類似。因而,可以套用PR算法分析空間節(jié)點(diǎn)間人口流動(dòng)的集聚特性,即把區(qū)域節(jié)點(diǎn)間人口流動(dòng)視為對(duì)節(jié)點(diǎn)的“投票”,觀察節(jié)點(diǎn)得分的多寡,分析空間節(jié)點(diǎn)在整個(gè)節(jié)點(diǎn)集合中對(duì)流動(dòng)要素吸引力的強(qiáng)弱。但空間網(wǎng)絡(luò)模型相對(duì)網(wǎng)頁鏈接模型更為復(fù)雜,在把PR算法應(yīng)用到空間網(wǎng)絡(luò)模型分析前,需克服原算法不具備空間性的缺陷,對(duì)其加入空間影響因子(如流量、距離等),使其空間化[13]。
空間化關(guān)鍵因子:1)流量。網(wǎng)頁鏈接模型中的超鏈接沒有流量概念,是純粹的布爾量,有鏈接為1,無鏈接則為0。但人口流動(dòng)空間模型中,兩個(gè)空間節(jié)點(diǎn)間的人口流動(dòng)具有量的大小,即從A地到B地具體有多少人進(jìn)行了空間遷移。在算法“投票”過程中須考慮這一量值。具體的解決思路類似于普通PR算法中根據(jù)鏈接出度均分上一次計(jì)算的PR值。在此則根據(jù)流出節(jié)點(diǎn)的人口數(shù)按比例配給相應(yīng)的PR值。2)距離。網(wǎng)頁鏈接模型存在于虛擬的互聯(lián)網(wǎng)中,不存在距離問題,但在人口流動(dòng)環(huán)境下,距離直接構(gòu)成對(duì)于流動(dòng)最主要的成本和阻力。已有研究表明,人口在流動(dòng)過程中由于經(jīng)濟(jì)成本和思想觀念等原因,更趨于選擇較近的目的地進(jìn)行空間遷移[14]。因此,在PR算法“投票”過程中,距離與“投票分值”呈正相關(guān),即流動(dòng)距離越大,其“投票分值”越高。
同樣假設(shè)4個(gè)空間節(jié)點(diǎn)A、B、C和D,以此為例對(duì)空間化改進(jìn)后的PR算法進(jìn)行逐步說明(圖4),算法中的各變量說明見表1。
圖4 空間化PageRank算法運(yùn)算流程Fig.4 The process of spatialized PageRank algorithm
表1 算法變量說明Table 1 The algorithm variables
(1)初始化所有空間節(jié)點(diǎn)PR值,此處每個(gè)空間節(jié)點(diǎn)的PR值被初始化為1/4(圖2a)。
(2)目標(biāo)節(jié)點(diǎn)的小分計(jì)算。以人口流出節(jié)點(diǎn)PR值為基礎(chǔ),以該節(jié)點(diǎn)的流出人口總數(shù)均分其PR值,得到該節(jié)點(diǎn)每個(gè)流動(dòng)單位實(shí)際持有的“投票能力”;然后,視流動(dòng)到目標(biāo)節(jié)點(diǎn)的流量FB-A為“流動(dòng)單位
1
個(gè)數(shù)”計(jì)算投票;經(jīng)由距離因子DstBk-A加權(quán)得到“投票分值”,同理計(jì)算SB-A、SC-A、SD-A(圖2b)。
(3)目標(biāo)節(jié)點(diǎn)的總分計(jì)算??臻g節(jié)點(diǎn)A的總得分S(A)即節(jié)點(diǎn)SB-A、SC-A和SD-A對(duì)其“投票”的總和?;卣{(diào)第2步,同理可得SB、SC、SD(圖2c)。
(4)對(duì)得分進(jìn)行歸一化處理。計(jì)算單個(gè)節(jié)點(diǎn)得分占全部節(jié)點(diǎn)總分的比值,得到該節(jié)點(diǎn)的新PR值,此處理保證了在計(jì)算過程中,空間節(jié)點(diǎn)PR值介于0~1區(qū)間內(nèi),且所有節(jié)點(diǎn)PR值的和為1(圖2d)。
(5)進(jìn)行邏輯判斷,該組PR值是否已達(dá)到穩(wěn)定水平。如判斷為是,則得到結(jié)果;反之則以該組PR值為基礎(chǔ)繼續(xù)從步驟1開始循環(huán),直至達(dá)到穩(wěn)定條件為止。
以華東地區(qū)六省一市(山東、江蘇、安徽、浙江、江西、福建和上海)為樣本,應(yīng)用空間化PR算法分析這7個(gè)空間節(jié)點(diǎn)間的人口流動(dòng)數(shù)據(jù),并與傳統(tǒng)統(tǒng)計(jì)方法中普遍應(yīng)用的兩個(gè)集聚性分析指數(shù)(區(qū)域人口總流入量和流動(dòng)人口密度區(qū)位商)進(jìn)行對(duì)比分析。
人口流動(dòng)數(shù)據(jù)源于《第五次全國(guó)人口普查數(shù)據(jù)(2000年)》,各空間節(jié)點(diǎn)間距離數(shù)據(jù)取自鐵道部公布的六省會(huì)城市與上海市之間的鐵路旅程,各省市面積數(shù)據(jù)源于《2000年中國(guó)統(tǒng)計(jì)年鑒》。表2和表3分別為整理后的空間節(jié)點(diǎn)間人口流動(dòng)數(shù)據(jù)和空間節(jié)點(diǎn)間距離數(shù)據(jù)。
表2 空間節(jié)點(diǎn)間人口流動(dòng)量Table 2 Migration between the spatial nodes 人
表3 空間節(jié)點(diǎn)間距離Table 3 Distance between the spatial nodes km
PR算法的實(shí)現(xiàn)選擇Microsoft Visual Studio 2005下的C#開發(fā)環(huán)境。建立二維數(shù)組變量,存儲(chǔ)人口流量和空間距離原始數(shù)據(jù),之后應(yīng)用多層循環(huán)迭代方法,對(duì)數(shù)據(jù)進(jìn)行空間化PR算法的運(yùn)算處理。計(jì)算結(jié)果如表4所示,從第10次迭代運(yùn)算開始,整個(gè)PR數(shù)組 開 始分 別 收 斂 于0.1031、0.2421、0.0517、0.1723、0.0516、0.1097和0.2694,且其總和為1。
表4 空間化PageRank算法的計(jì)算結(jié)果Table 4 The results of spatialized PageRank algorithm
作為對(duì)比指數(shù),各空間節(jié)點(diǎn)流動(dòng)人口總流入值根據(jù)表2按列求和得到,公式如下:
另一對(duì)比指數(shù)密度區(qū)位商計(jì)算公式如下:
式中:Qi為區(qū)域的密度區(qū)位商指數(shù),Pi為區(qū)域的流動(dòng)人口數(shù),P為所有參與計(jì)算區(qū)域的流動(dòng)人口數(shù)總和,ai為區(qū)域的面積,A為所有參與計(jì)算區(qū)域的總面積。
總流入與密度區(qū)位商的計(jì)算結(jié)果如表5所示。
3種指數(shù)在空間上基本反映出了大體一致的客觀事實(shí),但在細(xì)節(jié)上又存在差異。圖5作為3種指數(shù)的空間映射比較了這些差異,圖5a中連線的長(zhǎng)短、粗細(xì)分別代表空間化PR算法所考慮的距離與流量因素,圖5c中深色填充表示區(qū)位商所計(jì)算的面積因素。
表5 區(qū)域總流入與密度區(qū)位商Table 5 RTI and MLQ results
圖5 PR、總流入與密度區(qū)位商的空間映射Fig.5 Space mapping of PR,RTI and MLQ
PR值與總流入值的比較(圖6):二者的空間分布極其近似,都是以東部的上海市為中心向西深入內(nèi)陸呈階梯狀遞減:上海為第一級(jí)階梯,江蘇和浙江次之,山東和福建構(gòu)成第三級(jí),安徽和江西為最后一級(jí)。這一結(jié)果符合勞動(dòng)力資源對(duì)于經(jīng)濟(jì)環(huán)境的選擇規(guī)律[15],同時(shí)也證明了PR值作為空間集聚性分析指數(shù)的有效性。從圖5無法直接分辨PR值與總流入值的差別,但實(shí)際在同級(jí)階梯內(nèi)部排名上卻存在差異。江蘇和浙江同為第二級(jí)階梯,在PR值方面,前者比后者要高,但其總流入值大小卻相反。同樣的情況還存在于山東和福建。這主要是由于PR值的計(jì)算不單純考慮人口流動(dòng)量的大小,同時(shí)考慮了人口流動(dòng)時(shí)距離成本和節(jié)點(diǎn)權(quán)重因子的緣故。
PR值與密度區(qū)位商的比較(圖7):上海相對(duì)于其他空間節(jié)點(diǎn)具有絕對(duì)的高密度區(qū)位商值。因?yàn)槊芏葏^(qū)位商在計(jì)算時(shí)考慮區(qū)域面積因子,放大了最具空間集聚性的空間節(jié)點(diǎn)。圖7給出了PR值與其折線對(duì)比,密度區(qū)位商具有與PR值大體一致的空間節(jié)點(diǎn)相對(duì)趨勢(shì),但明顯壓制了低值區(qū)域,凸顯高值。
此處空間化PR算法并未考慮區(qū)域面積,因此與密度區(qū)位商結(jié)果形成了較大的出入。區(qū)域面積抽象到PR算法的模型中,可被視為空間節(jié)點(diǎn)的容量,亦是一種空間網(wǎng)絡(luò)模型中的影響因子,即在節(jié)點(diǎn)容量較小的情況下,若流動(dòng)要素依然表現(xiàn)出較大的進(jìn)入量,則該空間節(jié)點(diǎn)的吸引力和集聚性應(yīng)該被判斷為更高。
圖6 PR值與總流入值對(duì)比Fig.6 Difference between PR and RTI
圖7 PR值與密度區(qū)位商對(duì)比Fig.7 Difference between PR and MLQ
針對(duì)人口流動(dòng)的空間特征描述問題,本文基于計(jì)算機(jī)網(wǎng)絡(luò)搜索領(lǐng)域的PR算法,進(jìn)行空間化改進(jìn),加入距離與流量因子,使該算法適應(yīng)于空間網(wǎng)絡(luò)模型分析。華東地區(qū)人口流動(dòng)空間集聚性分析結(jié)果表明:1)同為描述集聚性的指數(shù),空間化PR值相對(duì)于區(qū)域總流入值,可以額外體現(xiàn)人口流動(dòng)時(shí)的距離成本和流出地本身的權(quán)重等因素;2)由于符合客觀現(xiàn)象背后的復(fù)雜驅(qū)動(dòng)機(jī)理與事實(shí),該指數(shù)能更客觀地評(píng)估空間節(jié)點(diǎn)對(duì)于流要素的吸引力;3)與密度區(qū)位商的差異指出了另一空間化影響因子,即空間節(jié)點(diǎn)容量特征,可作為進(jìn)一步研究的方向,同時(shí)證明了PR算法擁有豐富的空間化擴(kuò)展性能。
空間化PR算法為人口流動(dòng)空間集聚性分析提供了一種極具創(chuàng)新性的解決思路。而對(duì)于類似的空間網(wǎng)絡(luò)流動(dòng)要素分析問題,如交通路網(wǎng)、商貿(mào)物流、通信網(wǎng)絡(luò)、移動(dòng)終端位置軌跡等研究對(duì)象,在抽象出對(duì)應(yīng)的空間網(wǎng)絡(luò)模型,并對(duì)PR算法施加針對(duì)性的空間化微調(diào)和擴(kuò)展后,即可分析描述其空間特征并進(jìn)行空間數(shù)據(jù)挖掘。因此,該技術(shù)具有較強(qiáng)的泛用性并值得深入研究。
[1]RAVENSTEIN E G.The laws of migration[J].The Statistical Society of London,1885,48(2):167-235.
[2]RAE A.From spatial interaction data to spatial interaction information?Geovisualisation and spatial structures of migration from the 2001 UK census[J].Computer,Environment and Urban Systems,2009,33:161-178.
[3]PHAN D,XIAO L,YEH R,et al.Flow map layout[A].Info Vis 2005,the Eleventh Annual IEEE Symposium on Information Visualization,2005.23-25.
[4]李薇.我國(guó)人口省際遷移空間模式分析[J].人口研究,2008,32(4):86-96.
[5]朱傳耿,顧朝林,馬榮華,等.中國(guó)流動(dòng)人口的影響要素與空間分布[J].地理學(xué)報(bào),2001,56(5):549-560.
[6]劉盛和,鄧羽,胡章.中國(guó)流動(dòng)人口地域類型的劃分方法及空間分布特征[J].地理學(xué)報(bào),2010,65(10):1187-1197.
[7]PAGE L,BRIN S.The anatomy of a lagre-scale hypertextual Web search engine[A].Proceeding of the 7th International Conference on World Wide Web(WWW)[C].1998.107-117.
[8]BOLLEN J,RODRIGUEZ M A,VAN DE SOMPEL H.Journal status[J].Scientometrics,2006,69(3):1030.
[9]IVAN G,GROLMUSZ V.When the Web meets the cell:Using personalized PageRank for analyzing protein interaction networks[J].Bioinformatics,2011,27(3):405-407.
[10]JIANG B.Ranking spaces for predicting human movement in an urban environment[J].International Journal of Geographical Information Science,2009,23(7):823-837.
[11]曹軍.Google的PageRank技術(shù)剖析[J].情報(bào)雜志,2002(10):15-18.
[12]黃德才,戚華春.PageRank算法研究[J].計(jì)算機(jī)工程,2006,32(4):145-146.
[13]XING W,GHORBANI A.Weighted PageRank algorithm[A].Second Annual Conference on Communication Networks and Services Research(CNSR′04),2004.305-314.
[14]蔡昉,王德文.作為市場(chǎng)化的人口流動(dòng)——第五次全國(guó)人口普查數(shù)據(jù)分析[J].中國(guó)人口科學(xué),2003(5):11-19.
[15]嚴(yán)善平.中國(guó)省際人口流動(dòng)的機(jī)制研究[J].中國(guó)人口科學(xué),2007(1):71-77.
A Spatialized PageRank Algorithm for Migration Spatial Agglomeration Analysis
ZHONG Bin-qing,LIU Xiang-nan
(CollegeofInformationEngineering,ChinaUniversityofGeosciences(Beijing),Beijing100083,China)
In this paper,a spatialized algorithm based on PageRank for analyzing the migration spatial agglomeration is proposed.This algorithm considers the flow amount factor and the distance factor additionally.After being enhanced,it has the capacity to analyze a spatial network model,and then give a new solution to migration agglomeration analysis.By analyzing the migration condition of East China,thePR,Region Total Inflow(RTI)and Migration Location Quotient(MLQ)results shows that:the spatialized PageRank algorithm can objectively evaluate the node attractive force,and explain the driving mechanism behind the migration phenomenon which the traditional statistic index can′t.
spatialized PageRank algorithm;migration;spatial network model;spatial agglomeration
K901.3
A
1672-0504(2011)05-0082-05
2011-05- 20;
2011-07-16
國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863)項(xiàng)目(2007AA12Z174)
鐘斌青(1987-),男,碩士,主要研究方向?yàn)榭臻g信息分析與挖掘。*通訊作者E-mail:liuxn@163.com