郭 偉, 顧基發(fā), 徐山鷹, 張 毅, 李 力
(1.清華大學自動化系,北京100084;2.中國科學院數(shù)學與系統(tǒng)科學研究院,北京 100190)
基于消除趨勢波動分析的上海世博會場館排隊分析
郭 偉1, 顧基發(fā)2, 徐山鷹2, 張 毅1, 李 力1
(1.清華大學自動化系,北京100084;2.中國科學院數(shù)學與系統(tǒng)科學研究院,北京 100190)
2010年,上海市舉辦了第41屆世界博覽會,愈7 300萬的參觀人次也創(chuàng)下了歷屆之最.如此巨大的參觀人次勢必造成大量場館特別是熱門場館的排隊和等待現(xiàn)象。研究排隊和等待現(xiàn)象的時間關聯(lián)性,有助于引導參觀人群合理選擇場館、提高參觀效率,同時避免過度擁擠釀成事故.為此,引入消除趨勢波動分析法,利用各場館日平均排隊長度和日平均等待時間數(shù)據(jù),分析其長時程關聯(lián)性.測試表明,大部分場館的排隊和等待現(xiàn)象呈現(xiàn)長時程正相關性,部分熱門場館呈現(xiàn)長時程反相關性.
上海世博會;消除趨勢波動分析法;長時程關聯(lián)性
2010年5月1日到10月31日,上海市舉辦了第41屆世界博覽會,共有240個國家和地區(qū)組織參與,總投資約450億元人民幣,建造了占地面積約為5.28 km2的世博園區(qū).在世博會舉辦的184天中,總共迎來了7 308.44萬人參觀,也創(chuàng)下了歷屆世博會之最[1].如此龐大數(shù)量的參觀人數(shù),勢必造成參觀各場館時的排隊現(xiàn)象.根據(jù)統(tǒng)計,沙特館、石油館、中國館等熱門場館的平均等待時間達到5 h之久,節(jié)假日可能達到6~7 h.因此,研究世博會各場館排隊長度和排隊等待時間的長時程相關性就顯得尤為重要[2].
分析采集到的排隊長度和排隊等待時間序列的一個重要難點在于其非平穩(wěn)性.為此,引入消除趨勢波動分析法(detrended fluctuation analysis,DFA),將各個場館每日的平均排隊長度、平均等待時間以及每日入園總人數(shù)作為非穩(wěn)定時間序列,通過研究其長時程相關性,分析不同特性的場館(熱門場館、一般場館和冷門場館)每日排隊和等待狀況,希望對大型活動參觀時人群的路徑選擇提供參考.
DFA方法[3]是一種研究時間序列長期相關性的常用方法,在非平穩(wěn)時間序列的分形和多重分形特性、長時程關聯(lián)性識別等方面已成為一項廣泛使用的技術[4-5],并在DNA序列[3,6]、心律動態(tài)[7,8]、神經元尖峰[9]、人體步態(tài)[10]、長期天氣記錄[11]、云結構[12]、地質學[13]、人類學[14]、經濟學[15]中得到了成功應用.相比于傳統(tǒng)的功率譜和關聯(lián)性分析方法,DFA的最大優(yōu)勢在于可以消除因為時間序列不穩(wěn)定而造成的偽相關性的干擾.
DFA方法不僅可以用于研究非平穩(wěn)時間序列的長時程冪律相關性,也有助于識別同一系統(tǒng)在不同尺度行為下的不同狀態(tài).例如,在心率動態(tài)檢測中,心跳間隔對應的不同冪律指數(shù)可以用來區(qū)分健康狀態(tài)和患病狀態(tài)[16-18].在交通系統(tǒng)中,出行者的路徑選擇相關性一直是該領域研究的十分重要的問題,Wu等[19]引入DFA方法對城市軌道交通系統(tǒng)中乘客的路徑選擇行為進行分析,從路徑交通流量演化過程入手,探究在路網到達均衡狀態(tài)之前的路徑選擇行為的相關性.
本文對DFA方法進行數(shù)學描述,指出不同取值區(qū)間的赫斯特指數(shù)H所代表的不同含義.以石油館平均排隊長度和平均等待時間的序列為例,逐步計算配置序列、均方根值、局部趨勢、波動函數(shù),并最終求取每個場館的H;然后把所有場館的H進行聚類分析,挖掘熱門場館和冷門場館H的內在聯(lián)系,并解釋了序列中零值對H的影響,最終給出了相應的結論.
DFA方法通常用以下5個步驟進行描述,首先假定一個長度為N的時間序列xk.
步驟1 定義配置序列Y
其中〈x〉為序列xk的平均值.
步驟2 將配置序列Y劃分為等長度為l的Nl非重疊數(shù)據(jù)段,其中Nl≡int(N/l).通常情況下,數(shù)據(jù)序列長度N并不是數(shù)據(jù)段長度l的整數(shù)倍,因配置序列會有少量數(shù)據(jù)被遺漏,為了避免該情況,再從尾至首重復步驟2,總共獲取2Nl個數(shù)據(jù)段.
步驟3 利用最小二乘擬合方法計算出步驟2中獲取的2Nl個數(shù)據(jù)段的局部趨勢(local trend).然后計算每一個數(shù)據(jù)段的方差.
其中,v=1,…,Nl.且
其中,v=Nl+1,…,2Nl.這里,yv(i)是數(shù)據(jù)段v的擬合多項式.除了線性擬合之外,還可使用二階、三階甚至高階擬合.
步驟4 計算所有數(shù)據(jù)段的q階波動函數(shù).
其中,q可以去任何非零實數(shù).若q=2,則為標準DFA算法.
步驟5 計算波動函數(shù)的廣義赫斯特指數(shù)值.
其中當q=2時,H=h(2)為赫斯特指數(shù)(Hurst exponent).同時把h(q)稱為廣義赫斯特指數(shù)(generalized Hurst exponent).
赫斯特指數(shù)H是用來衡量時間序列長時程記憶性的重要指標.表1給出了不同H值所代表的不同含義[20].
表1 不同取值區(qū)間的赫斯特指數(shù)含義表Tab.1 Illustration of Hurst exponent among different intervals
按照描述的DFA方法,將每個場館的日平均等待時間、日平均排隊長度兩個非穩(wěn)定的時間序列應用DFA方法,并將相關結果繪制成圖.本試驗所使用的數(shù)據(jù)集時間跨度為2010年8月1日至2010年10月31日共92天.涉及到總共134個場館的日平均排隊長度(單位:人)、日平均等待時間(單位:min).
2.1 DFA方法的直接應用
一般而言,可以將按照描述的DFA方法中的5個步驟,依次得到配置序列Y、均方根值(root mean square,RMS)、局部趨勢(local trend)、波動函數(shù)(fluctuation function)以及赫斯特指數(shù)(Hurst exponent).
以石油館的排隊長度和等待時間數(shù)據(jù)為例,繪制每一步驟得到的結果.
步驟1 根據(jù)時間序列X求取配置序列Y,見圖1.
圖1 石油館排隊長度和等待時間的配置序列YFig.1 Profile Y for queuing length and waiting time about the Oil Exhibition Hall
步驟2 計算時間序列X的均方根值,見圖2, 為下一步的局部趨勢擬合做準備.
圖2 石油館排隊長度和等待時間序列的均方根值Fig.2 RMS values for queuing length and waiting time about the Oil Exhibition Hall
步驟3 采用線性、二階和三階擬合計算各數(shù)據(jù)段的局部趨勢,見下頁圖3.
步驟4 計算不同數(shù)據(jù)段長度l情況下的局部波動,見下頁圖4.
步驟5 通過得到的局部波動函數(shù),計算其廣義赫斯特指數(shù),見下頁圖5.
通過以上步驟,得到了每一個場館平均排隊長度和平均等待時間的廣義赫斯特指數(shù),并可根據(jù)表1得出每一個場館的長時程關聯(lián)性.
2.2 去除異常零值的DFA方法應用
圖3 石油館排隊長度序列的局部趨勢示意圖Fig.3 Computation of local trend based on queuing length about the Oil Exhibition Hall
圖4 石油館不同數(shù)據(jù)段長度下的局部波動示意圖Fig.4 Local fluctuations for segments with multiple sizes about the Oil Exhibition Hall
圖5 石油館的局部波動函數(shù)和廣義赫斯特指數(shù)Fig.5 Local fluctuation function and generalized Hurst exponent for the Oil Exhibition Hall
但是如果時間序列中出現(xiàn)大量異常零值,則會對Hurst指數(shù)的計算產生偏差.通過石油館中的異常零值數(shù)據(jù)來說明以上結論.根據(jù)上述步驟算出的結果,沙特館和石油館都是呈長時程反相關性,圖6給出了沙特館和石油館時間序列的對比示意圖.從圖中可以看出,沙特館的平均等待時間為鋸齒狀,呈現(xiàn)明顯的長時程反相關性.而石油館第44,78,80,82天出現(xiàn)異常零值或者異常峰值,有可能是檢測設備失靈或者異常情況閉館造成的.
將這些零值做最簡單的線性插值,令xa=(xa-1+xa+1)/2,其中a為代表出現(xiàn)異常的日期.將石油館平均排隊長度去除零值之后重新計算Hurst指數(shù),得到H值由原來的0.34修正為0.57,其長時程關聯(lián)性也由反相關性修正為正相關性.可見,零值的存在會使得計算出的Hurst指數(shù)存在偏差.
通常情況下,冷門場館存在大量零值,即在大部分時間里,參觀冷門場館是不需要排隊和等待的.用大量存在零值的時間序列計算出的Hurst指數(shù)勢必存在較大誤差.因此在校正之后,這部分存在零值的冷門場館在分析長時程關聯(lián)性的時候不予考慮.
圖6 沙特館和石油館的時間序列對比示意圖Fig.6 Comparison between the time series of the Saudi Arabia and Oil Exhibition Hall
2.3 去除異常零值后的DFA結果分析
根據(jù)之前的計算,每個場館的排隊長度和等待時間序列都得到一個H值.不妨令第i個場館的H值為Hi=(Hqueue,i,Hwait,i),其中i=1,2,…,L,L為總場館數(shù).將所有場館的H值繪制出來,如圖7所示.
下面按照聚類的結果對每一類H值的特性進行分析:
a.青色點:Hqueue,i∈(0.5,1),Hwait,i∈(0.5,1).絕大部分場館的平均排隊長度和平均等待時間呈現(xiàn)長時程正相關性(long-range correlation).
b.紅色點:Hqueue,i∈(0,0.5),Hwait,i∈(0,0.5).這部分場館的平均排隊長度和平均等待時間呈現(xiàn)短時程反相關性(long-range anti-correlation).主要有以下12個場館:沙特館、荷蘭館、城市人館、石油館、中南美洲聯(lián)合館、城市人館、古巴館、加共體聯(lián)合館、立陶宛館、尼日利亞館、亞洲聯(lián)合館2、寧波案例館.其中沙特館和石油館是非常熱門的場館,沙特館平均排隊長度為4 237人,平均等待時間為254 min;石油館的平均排隊長度是2 639人,平均等待時間為240 min.剩余場館均為時間序列中存在大量零值的冷門場館.
c.藍色點:Hqueue,i∈(0,0.5),Hwait,i∈(0.5,1).這部分場館主要有:土耳其館、瑞典館、芬蘭館、民營企業(yè)聯(lián)合館和中國企業(yè)聯(lián)合館.通過繪制其排隊長度和等待時間的時間序列,發(fā)現(xiàn)這些時間序列的相關性并不明顯,其H值可近似認為是0.5,即呈現(xiàn)高斯白噪聲特性.
d.綠色點:Hqueue,i∈(0.5,1),Hwait,i∈(0,0.5).這部分場館為日本館、韓國館、伊朗館、臺灣館、朝鮮館和萬科館.其中日本館和韓國館為熱門場館.日本館的平均排隊長度3 510人,平均等待時間為237 min;韓國館平均排隊長度2 444人,平均等待時間173 min.朝鮮館為存在大量零值的冷門場館.
e.黃色點:Hqueue,i∈(1,1.5),Hwait,i∈(1,1.5).這部分的場館主要有以下5個:分別為澳門館、歐洲聯(lián)合館1、歐洲聯(lián)合館2、生命陽光館、世博會博物館.其中歐洲聯(lián)合館1和歐洲聯(lián)合館2、生命陽光館為存在大量零值的非常冷門的場館.
圖7 所有場館的H值聚類示意圖Fig.7 Cluster analysis of Hurst exponent for all exhibition halls
本文通過將DFA方法引入上海世博會場館的排隊和等待數(shù)據(jù)的測試和分析中,通過計算不同場館之間的Hurst指數(shù),分析各場館的長時程相關性,得到以下結論:
a.時間序列中零值的存在會對長時程關聯(lián)性產生影響,需要進行合理的補償之后再進行計算.
b.大部分場館呈現(xiàn)長時程正相關性.
c.部分非常熱門的場館呈現(xiàn)長時程反相關性,代表場館為沙特館、日本館和韓國館,其具體原因尚有待考察.
[1] 2010上海世博會概況[EB/OL].(2010-12-18)[2013-07-01].http:∥www.expo2010.cn/.
[2] 顧基發(fā),徐山鷹,房勇,等.世博會排隊集群行為研究[J].上海理工大學學報,2011,33(4):312-320.
[3] Peng C K,Buldyrev S V,Havlin S,et al.Mosaic organization of DNA nucleotides[J].Physical Review E,1994,49(2):1685-1689.
[4] Taqqu M S,Teverovsky V,Willinger W.Estimators for long-range dependence:an empirical study[J]. Fractals,1995,3(4):785-798.
[5] Kantelhardt J W,Zschiegner S A,Koscielny-Bunde E,et al.Multifractal detrended fluctuation analysis of nonstationary time series[J].Physica A:Statistical Mechanics and Its Applications,2002,316(1):87 -114.
[6] Buldyrev S V,Goldberger A L,Havlin S,et al.Longrange correlation properties of coding and noncoding DNAsequences:GenBank analysis[J].Physical Review E,1995,51(5):5084-5091.
[7] Viswanathan G M,Buldyrev S V,Havlin S,et al. Optimizing the success of random searches[J]. Nature,1999,401(6756):911-914.
[8] Bunde A,Havlin S,Kantelhardt J W,et al.Correlated and uncorrelated regions in heart-rate fluctuations during sleep[J].Physical Review Letters,2000,85(17):3736.
[9] BlesiéS,Milo?eviéS,Stratimirovic′D,et al.Detrended fluctuation analysis of time series of a firing fusimotor neuron[J].Physica A:Statistical Mechanics and Its Applications,1999,268(3):275-282.
[10] Hausdorff J M,Edelberg H K,Mitchell S L,et al. Increased gait unsteadiness in community-dwelling elderly fallers[J].Archives of Physical Medicine and Rehabilitation,1997,78(3):278-283.
[11] Koscielny-Bunde E,Bunde A,Havlin S,et al.Indication of a universal persistence law governing atmospheric variability[J].Physical Review Letters,1998,81(3):729-732.
[12] Ivanova K,Ausloos M,Clothiaux EE,et al.Break-up of stratus cloud structure predicted from non-Brownian motion liquid water and brightness temperature fluctuations[J].EPL,2000,52(1):40-46.
[13] Malamud B D,Turcotte D L.Self-affine time series:measures of weak and strong persistence[J].Journal of Statistical Planning and Inference,1999,80(1):173 -196.
[14] Alados C L,Huffman M A.Fractal long-range correlations in behavioural sequences of wild chimpanzees:a non-invasive analytical tool for the evaluation of health[J].Ethology,2000,106(2):105 -116.
[15] Liu Y,Gopikrishnan P,Stanley H E.Statistical properties of the volatility of price fluctuations[J]. Physical Review E,1999,60(2):1390-1400.
[16] Ashkenazy Y.The use of generalized information dimension in measuring fractal dimension of time series[J].Physica A:Statistical Mechanics and Its Applications,1999,271(3):427-447.
[17] Peng C K,Havlin S,Stanley H E,et al.Quantification of scaling exponents and crossover phenomena in nonstationary heartbeat time series[J].Chaos:An Interdisciplinary Journal of Nonlinear Science,1995,5(1):82-87.
[18] Havlin S,Buldyrev S V,Goldberger A L,et al.Fractals in biology and medicine[J].Chaos,Solitons&Fractals,1995,6:171-201.
[19] Wu J,Sun H,Wang D Z W,et al.Bounded-rationality based day-to-day evolution model for travel behavior analysis of urban railway network[J].Transportation Research Part C:Emerging Technologies,2013,31:73-82.
[20] Ihlen E A F.Introduction to multifractal detrended fluctuation analysis in Matlab[J].Frontiers in Physiology,2012,3:141.
(編輯:董 偉)
Analysis on Queuing Behaviors in Shanghai World Expo Based on Detrended Fluctuation Analysis
GUOWei1, GUJi-fa1, XUShan-ying1, ZHANGYi1, LILi1
(1.Department of Automation,Tsinghua University,Beijing 100084,China;2.Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100190,China)
In 2010,the 41stWorld Expo was held in Shanghai.More than 73 million visitors visited the Expo and created a new record.Such a huge number of visitors cause queuing and waiting phenomena around popular pavilions.Noticing that the time correlation of queuing length and waiting time helps visitors better choose their desired pavilions,a detrended fluctuation analysis(DFA)method to analyze the potential long-range dependence of queuing behaviors.The results show that the queuing length time series of most pavilions yield the long-range correlations;while some of popular pavilions yield the long-range anti-correlation.
Shanghai World Expo;detrended fluctuation analysis;long-range correlation
O 226
A
1007-6735(2013)04-0307-06
2013-07-10
國家重點基礎研究發(fā)展計劃(973)資助項目(2010CB731400)
郭 偉(1988-),男,博士研究生.研究方向:智能交通.E-mail:guo-w11@m(xù)ails.tsinghua.edu.cn
顧基發(fā)(1935-),男,研究員.研究方向:運籌學、系統(tǒng)科學.E-mail:ifgu@amss.ac.cn