劉 燕
(西安歐亞學(xué)院,陜西 西安 710065)
隨著互聯(lián)網(wǎng)及通信技術(shù)的不斷發(fā)展,旅游信息處理和交易的方式已從傳統(tǒng)面對(duì)面轉(zhuǎn)變成電子方式,因此留下了大量與旅游有關(guān)的電子痕跡[1]。這些電子痕跡包括種類(lèi)繁多、數(shù)量龐大的旅游信息,如出行前的規(guī)劃和信息搜索、預(yù)訂,和預(yù)訂、出行后的體驗(yàn)分享與推薦,以及照片上傳和其他社交媒體互動(dòng)活動(dòng)。這些大型的、非結(jié)構(gòu)化的、復(fù)雜的電子痕跡構(gòu)成旅游大數(shù)據(jù),可對(duì)其進(jìn)行整合和分析,以揭示旅游領(lǐng)域中隱藏的模式、相互關(guān)系等[2]。
為此,國(guó)內(nèi)外眾多學(xué)者對(duì)旅游大數(shù)據(jù)進(jìn)行研究,并取得了豐碩的研究成果。劉逸等[3]利用大數(shù)據(jù)分析揭示了旅游目的地情感評(píng)價(jià)模型;張建濤等[4]構(gòu)建以大數(shù)據(jù)平臺(tái)為依托的智慧旅游預(yù)測(cè)與反饋的服務(wù)平臺(tái),并提出了實(shí)現(xiàn)智慧旅游服務(wù)平臺(tái)的構(gòu)建模式與路徑。大數(shù)據(jù)分析也被用來(lái)預(yù)測(cè)游客流量。戴文[5]以南京智慧旅游大數(shù)據(jù)運(yùn)行監(jiān)測(cè)平臺(tái)為基礎(chǔ),構(gòu)建了南京市旅游流量預(yù)測(cè)模型。Gunter和Onder測(cè)試了維也納旅游目的地管理組織(DMO)谷歌分析公司(Google Analytics)的10個(gè)交通指標(biāo),通過(guò)應(yīng)用自回歸模型(Vector Autoregressive,VAR)建模的大數(shù)據(jù)收縮方法預(yù)測(cè)維也納的游客數(shù)量。
上述方法很少有對(duì)旅游大數(shù)據(jù)進(jìn)行形式化定義,且沒(méi)有對(duì)旅游大數(shù)據(jù)中涉及要素之間的關(guān)系進(jìn)行探討。為此,本文首先定義旅游大數(shù)據(jù)五維范式模型,并對(duì)旅游大數(shù)據(jù)中天氣、溫度、周末和公共假期與目的地游客到達(dá)量和目的地搜索熱度的相關(guān)性進(jìn)行研究,利用VAR和Granger因果檢驗(yàn)探索目的地實(shí)際到達(dá)人數(shù)與其搜索熱度之間的關(guān)系。
一般情況下,大數(shù)據(jù)可描述為一個(gè)五維范式,即
Bd=[Vnum,Vvar,Vsp,Vper,Vval]
(1)
式中:Vnum描述數(shù)據(jù)量,代表海量的數(shù)據(jù);Vvar描述數(shù)據(jù)類(lèi)型,代表來(lái)自不同來(lái)源、具有異構(gòu)格式的各種數(shù)據(jù);Vsp描述速度,指以采集速度實(shí)時(shí)或接近實(shí)時(shí)的數(shù)據(jù)處理;Vper描述準(zhǔn)確性,指數(shù)據(jù)中存在的不確定性、噪聲和異常值;Vval描述價(jià)值,反映了統(tǒng)計(jì)和分析方法揭示的信息,包括直接價(jià)值或隱藏價(jià)值。因此,如果只談?wù)摂?shù)據(jù)量,“大數(shù)據(jù)”一詞的定義仍然不明確。重要的不是大量的數(shù)據(jù),而是從中提取隱藏的信息,使之有意義并探索其價(jià)值。
圖1為本文研究的旅游大數(shù)據(jù)包含的數(shù)據(jù)源,具體有票價(jià)信息、天氣、溫度、周末、公共節(jié)假日和搜索熱度6個(gè)部分。隨著時(shí)間的推移,每天的票價(jià)、天氣、溫度、周末和公共假期的數(shù)據(jù)量越來(lái)越大,同時(shí)龐大的搜索熱度量由無(wú)數(shù)的出行信息數(shù)據(jù)(痕跡)組成,這些構(gòu)成了旅游大數(shù)據(jù)的Vnum。旅游大數(shù)據(jù)的Vvar包括傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),其中每日票價(jià)是傳統(tǒng)數(shù)據(jù);天氣、溫度、日歷信息(周末和公共假日)是半結(jié)構(gòu)化數(shù)據(jù);基于網(wǎng)絡(luò)的搜索查詢(如文本、圖像和視頻等)是非結(jié)構(gòu)化數(shù)據(jù)。速度Vsp和準(zhǔn)確性Vper可以通過(guò)數(shù)據(jù)捕獲、存儲(chǔ)和轉(zhuǎn)換過(guò)程來(lái)體現(xiàn),而價(jià)值Vval則通過(guò)數(shù)據(jù)分析來(lái)揭示隱藏信息。
圖1 旅游大數(shù)據(jù)包含的數(shù)據(jù)源Fig.1 Data sources included in tourism big data
1.2.1變量
令旅游景點(diǎn)每天的售票量為自變量y1,將該景點(diǎn)每天的搜索熱度量設(shè)為自變量y2。將每日天氣設(shè)為因變量x1,每日溫度設(shè)為因變量x2,周末設(shè)為因變量x3,公共假日設(shè)為因變量x4。同時(shí)x1,x2,x3,x4都為外生變量。值得注意的是,評(píng)估VAR(p)模型時(shí)存在一個(gè)現(xiàn)實(shí)性問(wèn)題:盡管希望包含盡可能多的信息,但當(dāng)引入變量增多時(shí),自由度將會(huì)無(wú)法滿足要求。
1.2.2虛擬變量
由于每日溫度因變量x2是數(shù)值數(shù)據(jù),本文將每日天氣x1、周末x3和公共假日x4這些非數(shù)值數(shù)據(jù)設(shè)置為虛擬變量,如表1所示。在x1中,0代表良好天氣,1代表惡劣天氣,其中晴天、多云為良好天氣;小雨、陣雨、雷雨、小雪、霜凍、冰凍、大雪等為惡劣天氣;在x3中,0代表星期一至星期五的工作日,而1代表星期六至星期天的周末。在x4中,0表示非假日,1表示公共假日。
表1 虛擬變量Tab.1 Dummy variable
在建模之前應(yīng)對(duì)數(shù)據(jù)進(jìn)行檢查,避免因數(shù)據(jù)的不平穩(wěn)或不均衡造成預(yù)測(cè)結(jié)果不準(zhǔn)確。為此,本節(jié)采用單位根檢驗(yàn)法的擴(kuò)張的Dickey-Fuller檢驗(yàn)(Augmented Dickey-Fuller,ADF)進(jìn)行時(shí)間趨勢(shì)平穩(wěn)性檢驗(yàn)。ADF檢驗(yàn)[7]原理為判斷序列是否存在單位根:如果序列平穩(wěn),就不存在單位根;否則,就會(huì)存在單位根。
傳統(tǒng)的VAR模型是針對(duì)沒(méi)有時(shí)間趨勢(shì)的平穩(wěn)變量設(shè)計(jì)的,因此非平穩(wěn)變量不能通過(guò)單位根檢驗(yàn),故需要對(duì)非平穩(wěn)變量進(jìn)行反趨勢(shì)處理。最經(jīng)典的去趨勢(shì)處理方法為Hodrick-Prescott濾波(HP濾波),可使結(jié)果不因時(shí)間趨勢(shì)的存在而產(chǎn)生偏誤。
一般情況下,HP濾波可理解為提取趨勢(shì)變量z=[z1,z2,…,zT],根據(jù)觀察到的時(shí)間序列o=[o1,o2,…,oT],求解以下懲罰最小二乘問(wèn)題:
=(IT+λD′D)-1o
(2)
Δ2zt=Δzt-Δ=zt-2+zt-2
(3)
式中:λ>0為調(diào)節(jié)參數(shù);IT為大小為T(mén)的單位矩陣;D∈R(T-2)×T為二階差分方程,有Dz∈[Δ2z3,…,Δ2zT]′。
向量自回歸模型[8](Vector Autoregressive,VAR)可理解為一個(gè)系統(tǒng)方程,其中多個(gè)變量被視為內(nèi)生變量,變量的值根據(jù)系統(tǒng)中滯后的因變量進(jìn)行回歸。一般情況下,VAR模型為,
(4)
式中:p是VAR的滯后長(zhǎng)度;yt是am向量時(shí)間序列的自變量;m是因變量的數(shù)量;Yt-j是系統(tǒng)的滯后自變量;k是預(yù)定變量的數(shù)量;Xt是k個(gè)向量的時(shí)間序列。
在構(gòu)建VAR(p)模型時(shí),選擇滯后長(zhǎng)度是其中最為關(guān)鍵的步驟。一方面,較大的滯后長(zhǎng)度值將更好地動(dòng)態(tài)反映模型的特征;另一方面,更大的p值將為模型引入更多的參數(shù)。如果一個(gè)VAR模型有m個(gè)方程,則將有m+pm2個(gè)系數(shù)被估計(jì),并且一個(gè)無(wú)限制的VAR模型很可能是過(guò)度參數(shù)化的,且自由度較低。因此,可以使用Akaike信息準(zhǔn)則(AIC)或Schwarz準(zhǔn)則(SC)來(lái)識(shí)別和選擇合適的p值。
Granger因果關(guān)系[9]可以用來(lái)測(cè)試一個(gè)變量的所有滯后項(xiàng)是否對(duì)另一個(gè)變量的當(dāng)前值有影響。如果影響顯著,則變量與其他變量之間具有Granger因果關(guān)系;如果影響不顯著,則變量之間不存在因果關(guān)系。格蘭杰因果關(guān)系的存在表明了變量之間的預(yù)測(cè)能力。本研究中有兩個(gè)自變量:每日售出票價(jià)y1和每日搜索熱度y2。因此,為了探索y1和y2之間的Granger因果關(guān)系,應(yīng)建立如下兩個(gè)零假設(shè):
為了探討本文所提票價(jià)信息、天氣、溫度、周末、公共節(jié)假日和搜索熱度6個(gè)變量之間的復(fù)雜關(guān)系,本節(jié)以旅游城市重慶為案例驗(yàn)證所提方法的有效性。需注意,本文中所有涉及的數(shù)據(jù)均來(lái)自于網(wǎng)絡(luò)爬蟲(chóng)。
圖2、圖3為利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)搜集的重慶市2019年度溫度及天氣情況。圖4、圖5分別為重慶市著名旅游景點(diǎn)票價(jià)及熱度分布情況。
圖2 重慶市2019年溫度曲線Fig.2 Temperature curve of Chongqing in 2019
接下來(lái),利用ADF方法對(duì)各數(shù)據(jù)進(jìn)行單位根檢驗(yàn),檢驗(yàn)結(jié)果如表2所示。其中非平穩(wěn)變量y1、y2和x2利用反趨勢(shì)處理,并顯示為y1_bias、y2_bias和x2_bias。虛擬變量不必通過(guò)單位根檢驗(yàn)??梢钥闯?個(gè)變量的時(shí)間序列在1%顯著水平上都是平穩(wěn)的,因此其都通過(guò)了單位根檢驗(yàn)。
利用向量自回歸模型及Granger因果檢驗(yàn)對(duì)數(shù)據(jù)進(jìn)行分析。結(jié)果表明,當(dāng)概率水平為0.005時(shí),y1和y2之間存在Granger因果關(guān)系(表3)。
圖3 重慶市2019年天氣狀況Fig.3 Weather conditions of Chongqing in 2019
圖4 重慶市著名旅游景點(diǎn)票價(jià)分布Fig.4 Ticket price distribution of famous tourist attractions
圖5 重慶市景點(diǎn)搜索熱度分布情況Fig.5 Search heat distribution of tourist attractions
研究結(jié)果表明,y1和y2之間存在Granger因果關(guān)系;天氣與旅游地實(shí)際到訪人數(shù)無(wú)關(guān);溫度與實(shí)際到訪人數(shù)無(wú)相關(guān),但與網(wǎng)絡(luò)熱度呈顯著正相關(guān);周末與實(shí)際到訪人數(shù)呈顯著正相關(guān),與搜索熱度呈顯著負(fù)相關(guān);公共假日與實(shí)際到達(dá)人數(shù)顯著正相關(guān)。
表2 虛擬變量Tab.2 Dummy variable
表3 虛擬變量Tab.3 Dummy variable
本文研究了旅游大數(shù)據(jù)的五維范式,并提出利用ADF法對(duì)數(shù)據(jù)進(jìn)行時(shí)間趨勢(shì)平穩(wěn)性檢驗(yàn)。最后,建立向量自回歸模型探索票價(jià)信息、天氣、溫度、周末、公共節(jié)假日和搜索熱度6個(gè)變量之間的復(fù)雜關(guān)系。