康梓蝶,李嘯虎
(新疆財經(jīng)大學(xué) 旅游學(xué)院,烏魯木齊 830012)
伴隨經(jīng)濟的快速發(fā)展,旅游業(yè)的發(fā)展也進入了快速增長期,大眾旅游消費需求不斷升級,對旅游產(chǎn)業(yè)發(fā)展提出了更高的要求。為避免景區(qū)發(fā)生因游客量過多而出現(xiàn)承載能力不足的問題,有關(guān)部門應(yīng)在游客量的把控上引起重視,尤其是游客量的預(yù)測。精準的預(yù)測能夠使旅游者、旅游企業(yè)以及旅游目的地三方獲利,在提高旅游經(jīng)濟發(fā)展的同時,一方面有助于旅游目的地景區(qū)做出更好的規(guī)劃,另一方面也能給游客帶來更好的旅游體驗。
合理的預(yù)測需要進行科學(xué)的判斷,不僅僅需要關(guān)注當(dāng)?shù)鼐皡^(qū)的承載能力,還需要根據(jù)規(guī)劃和安排做出一系列的應(yīng)急措施,避免對景區(qū)造成不可修復(fù)的傷害。對于景區(qū)游客量的預(yù)測,目前的研究方法多種多樣,傳統(tǒng)的方式大多使用年鑒數(shù)據(jù)對各省市按需求進行預(yù)測,亦或是根據(jù)政府及相關(guān)統(tǒng)計部門發(fā)布的統(tǒng)計報告對景區(qū)進行預(yù)測等。但是這些傳統(tǒng)的方法均存在著一定的缺陷,如數(shù)據(jù)的滯后性會嚴重影響預(yù)測的有效性,甚至直接影響到預(yù)測結(jié)果的精準度。
自百度推出搜索檢測工具以來,網(wǎng)絡(luò)搜索引擎便開始進入大眾視野,并應(yīng)用于多個不同領(lǐng)域,從醫(yī)學(xué)到投資、從城市房地產(chǎn)到消費者信心指數(shù),不斷被證明其預(yù)測結(jié)果的準確性。由于及時彌補了傳統(tǒng)數(shù)據(jù)的缺陷,網(wǎng)絡(luò)搜索迅速獲得大眾青睞。以百度指數(shù)為例,平臺不僅提供實時數(shù)據(jù),還可以查詢?nèi)我鈺r間段的歷史數(shù)據(jù),給使用者帶來極大便利的同時,也消除了滯后性的缺點。
將網(wǎng)絡(luò)搜索指數(shù)運用到旅游業(yè),通過網(wǎng)絡(luò)搜索引擎的特殊功能獲取關(guān)于大眾的有效信息,并加以合理分析并得出有效結(jié)論,可對未來一定時期的游客量進行預(yù)測。網(wǎng)絡(luò)搜索平臺的關(guān)鍵詞搜索功能,可以獲取平臺關(guān)鍵詞在任何時段內(nèi)的搜索數(shù)據(jù),并了解大眾在相應(yīng)時間段內(nèi)所關(guān)注的內(nèi)容。由此看來,在網(wǎng)絡(luò)搜索平臺對景區(qū)關(guān)鍵詞進行搜索,一方面可以挖掘用戶對該景區(qū)的關(guān)注度,潛在游客數(shù)據(jù)則為景區(qū)游客量的預(yù)測提供一定的基礎(chǔ)。另一方面可促進景區(qū)相關(guān)旅游部門更加有效地做出合理的規(guī)劃、科學(xué)的安排以及有效的決策。
基于此,以2021年1月1日至2021年12月31日新疆天山天池景區(qū)每日接待游客量的數(shù)據(jù)和關(guān)鍵詞“天池”“天山天池”“天山天池天氣”以及“天山天池天氣預(yù)報”的百度指數(shù)數(shù)據(jù)為基礎(chǔ),利用協(xié)整檢驗和格蘭杰因果檢驗,探討百度指數(shù)與天山天池景區(qū)游客量的關(guān)系,再結(jié)合多種模型進行預(yù)測,并對比評價預(yù)測效果,為景區(qū)客流量的預(yù)測提供理論基礎(chǔ)。
大數(shù)據(jù)時代背景下,網(wǎng)絡(luò)信息化發(fā)展越來越快,網(wǎng)絡(luò)搜索引擎已經(jīng)成為大眾搜集信息、查找資料的大型網(wǎng)絡(luò)平臺。網(wǎng)絡(luò)搜索引擎公司百度發(fā)布的搜索檢測工具,命名為“百度指數(shù)”,用戶可以通過在“百度指數(shù)”搜索工具對關(guān)鍵詞進行檢索,從而了解特定時段內(nèi)大眾對某一事件的關(guān)注度。該搜索工具的推出迅速引起了學(xué)者的關(guān)注,在研究如何提高大眾對糖尿病的認識時,有學(xué)者從百度指數(shù)入手通過用戶對糖尿病的關(guān)注度去判斷研究方法的有效性[1],國內(nèi)學(xué)者的相關(guān)研究較晚,最早的研究方向主要集中在網(wǎng)絡(luò)關(guān)注度[2]。
隨著研究的不斷推進,眾多學(xué)者一致認為網(wǎng)絡(luò)搜索關(guān)鍵詞的搜索數(shù)據(jù)與研究的實際行為之間存在著一定的關(guān)聯(lián)性。并且在很多領(lǐng)域都取得了十分顯著的成果,如投資領(lǐng)域[3-5],有研究表明將百度指數(shù)中股票名稱的搜索頻率作為投資者關(guān)注度的新穎且直接的代理指標(biāo),結(jié)果表明這樣做使得市場更加有效率[3]。對于城市網(wǎng)絡(luò)特征的研究[6-7]也提到了通過對用戶關(guān)注度數(shù)據(jù)進行分析,基于百度指數(shù)的區(qū)域城市網(wǎng)絡(luò)時空變化受經(jīng)濟發(fā)展基礎(chǔ)、城市功能定位、大事件效應(yīng)以及城市網(wǎng)絡(luò)營銷等因素的影響[6]。而關(guān)于消費者信心指數(shù)的研究[8-10],通過網(wǎng)絡(luò)搜索指數(shù)數(shù)據(jù)進一步了解消費者心理與行為,從而提供新的途徑,可提高消費者信心指數(shù)預(yù)測準確性與時效性。
目前,網(wǎng)絡(luò)搜索指數(shù)在旅游行業(yè)的應(yīng)用也很多,但大都集中在網(wǎng)絡(luò)關(guān)注度時空特征研究[11-13],如通過網(wǎng)絡(luò)指數(shù)搜索,選取季節(jié)性集中指數(shù)、地理集中指數(shù)等指標(biāo)研究旅游目的地旅游網(wǎng)絡(luò)關(guān)注度的時空分布特征。但是對于游客量預(yù)測的研究卻較少,大多數(shù)學(xué)者在對網(wǎng)絡(luò)搜索數(shù)據(jù)與游客量的關(guān)系進行研究時,未進一步對游客量的預(yù)測進行研究。關(guān)于游客量預(yù)測的研究方法,主要是包括指數(shù)平滑[14]、灰色預(yù)測[15]、BP神經(jīng)網(wǎng)絡(luò)[16-17]和線性回歸[18]等模型構(gòu)建方法,通過對往期的年度數(shù)據(jù)、月度數(shù)據(jù)以及每日數(shù)據(jù)與實際游客量對比再構(gòu)建相應(yīng)的模型進行預(yù)測。任歡在對杭州市日游客規(guī)模預(yù)測進行研究時,運用ARMA模型和VAR模型進行預(yù)測,結(jié)果表明百度指數(shù)的時間和空間屬性對游客規(guī)模預(yù)測有重要意義和價值[19]。Adil Mohd在網(wǎng)絡(luò)預(yù)測游客到達研究中,運用STL-BiLSTM方法將時間序列分解為趨勢、季節(jié)性和殘差。趨勢提供了總體數(shù)據(jù)的大致方向。季節(jié)性是一種規(guī)律和可預(yù)測的模式,在固定的時間間隔內(nèi)再次發(fā)生,而殘差是一種無法預(yù)測的隨機波動。由此證明該篇文章中提出的Bi LSTM網(wǎng)絡(luò)比考慮的其他方法具有更好的精度[20]。
綜上所述,關(guān)于網(wǎng)絡(luò)搜索指數(shù)與實際游客數(shù)據(jù)進行對比預(yù)測的研究較少。大多直接使用歷史數(shù)據(jù)并借助計量經(jīng)濟學(xué)相關(guān)模型進行預(yù)測研究,或是僅停留在研究省市和旅游景區(qū)的游客數(shù)量與網(wǎng)絡(luò)搜索數(shù)據(jù)的關(guān)聯(lián)性。文章在原有國內(nèi)外文獻的基礎(chǔ)上,通過百度指數(shù)搜索獲取關(guān)鍵詞的數(shù)據(jù),研究與實際游客量二者之間的關(guān)系,利用計量經(jīng)濟學(xué)中的單位根、協(xié)整以及格蘭杰因果檢驗進一步確認,最后運用ARMA模型和自回歸分布滯后模型進行預(yù)測,將預(yù)測結(jié)果與實際游客量進行對比,確保預(yù)測的準確性。
新疆天山天池風(fēng)景名勝區(qū),地處新疆維吾爾自治區(qū)昌吉回族自治州阜康市境內(nèi)博格達峰下的半山腰,距烏魯木齊市97公里。地處緯度88°00′~88°20′E,經(jīng)度43°45′~43°59′N,平面海拔1928米,交通十分便利。天山天池景區(qū)總面積為548平方公里,包括八大風(fēng)景區(qū),即天池景區(qū)、燈桿山景區(qū)、馬牙山景區(qū)、博格達峰景區(qū)、花兒溝景區(qū)、白楊溝景區(qū)、水磨溝景區(qū)、北部沙漠景區(qū),以及十五個景群和三十八個景點,動植物資源十分豐富,觀賞和科考價值極強。
天山天池風(fēng)景區(qū)以完整的垂直自然景觀帶和雪山冰川、高山湖泊為主要特征,以獨特的民族民俗風(fēng)情為文化內(nèi)涵,是開展旅游活動的絕佳去處。目前,天池景區(qū)憑借其獨特的資源和區(qū)位優(yōu)勢在新疆旅游業(yè)發(fā)展中居于重要地位,旅游產(chǎn)品和線路主要集中在天池湖面區(qū)域,并且旅游活動的季節(jié)性十分明顯,主要集中在夏季,每年5月至10月為旅游旺季,游客量達全年的90%左右。旅游產(chǎn)品基本上屬于“半日游”,景區(qū)旅游收入主要來源于門票、區(qū)間車、游船以及纜車等項目。作為國家首批5A級風(fēng)景區(qū),2016年天山天池被國家旅游局評為“旅游秩序最佳景區(qū)”,吸引大批游客前來,游客量逐年增加,僅2019年游客量達330萬人次。
百度指數(shù)搜索平臺由全球最大的中文搜索引擎公司百度推出,是以百度用戶搜索數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)共享平臺,是目前互聯(lián)網(wǎng)乃至整個數(shù)據(jù)時代最重要的統(tǒng)計分析平臺之一。因致力于提供“簡單可依賴”的信息獲取方式而得到了用戶的一致認可。進入百度指數(shù)平臺首頁輸入想要獲取的關(guān)鍵詞后,會跳轉(zhuǎn)出趨勢研究、人群畫像以及需求圖譜三大主要板塊,從趨勢研究中可以得到關(guān)鍵詞每日搜索的數(shù)據(jù)以及任意時間段和任意省份的PC端、移動端以及整體的搜索數(shù)據(jù);需求圖譜板塊會根據(jù)用戶搜索的關(guān)鍵詞提供相關(guān)聯(lián)的其他詞語,呈現(xiàn)用戶在了解一個景區(qū)的同時所關(guān)注的其他信息;人群畫像是百度指數(shù)平臺對每一個收錄的關(guān)鍵詞提供的相應(yīng)搜索者的性別、年齡以及興趣分布的占比,包括各個省份搜索者的占比和排名。
基于此,選取百度指數(shù)檢索平臺作為數(shù)據(jù)獲取的來源,通過爬蟲技術(shù)獲取關(guān)鍵詞PC端+移動端的百度指數(shù)搜索數(shù)據(jù)之和,即關(guān)鍵詞2021年1月1日至2021年12月31日的日搜索數(shù)據(jù),與天山天池風(fēng)景區(qū)2021年全年每天的實際游客量進行對比分析。
在網(wǎng)絡(luò)搜索平臺進行關(guān)鍵詞的選取,是研究用戶實際行為與網(wǎng)絡(luò)搜索相關(guān)性的重要環(huán)節(jié)。對于網(wǎng)絡(luò)搜索平臺關(guān)鍵詞的獲取方法,從學(xué)者們現(xiàn)有的研究中可知并未達成一致。目前,關(guān)鍵詞的選取方法主要包括技術(shù)取詞法、直接取詞法和范圍取詞法三種[21]。大部分研究都是直接通過網(wǎng)絡(luò)搜索平臺進行關(guān)鍵詞的搜索從而得到特定時間范圍內(nèi)的相關(guān)搜索數(shù)據(jù),從數(shù)據(jù)本身進行相關(guān)性分析后得出結(jié)論。
從游客出行的角度出發(fā),根據(jù)吃住行游購娛六個方面進行關(guān)鍵詞的檢索,首先選擇部分關(guān)鍵詞,如“天山天池”“新疆天山天池”“天山天池門票”“天山天池開放時間”“天山天池天氣預(yù)報”“天山天池住宿”“天山天池旅游攻略”“天山天池美食”等作為目標(biāo)關(guān)鍵詞進行檢索。其次,由于百度指數(shù)關(guān)鍵詞收錄的限制,初步得到了21個關(guān)鍵詞的搜索數(shù)據(jù)。下一步將天山天池實際游客量與關(guān)鍵詞的百度指數(shù)搜索數(shù)據(jù)錄入SPSS,進行相關(guān)性分析,分析結(jié)果如表1所示,通過觀察關(guān)鍵詞與天山天池實際游客量的皮爾森相關(guān)系數(shù)[22]可以看出,除國信租車和新疆大盤雞以外,其他關(guān)鍵詞與實際游客量都存在著一定的相關(guān)性。最后通過關(guān)鍵詞與實際游客量繪制的趨勢圖進行對比,最終選取“天池”“天山天池”“天山天池天氣”和“天山天池天氣預(yù)報”為目標(biāo)關(guān)鍵詞。
表1 關(guān)鍵詞與天山天池實際游客數(shù)量的皮爾森相關(guān)系數(shù)
將獲取的天山天池2021年的日游客量和關(guān)鍵詞的百度指數(shù)數(shù)據(jù)進行對比分析,觀察其趨勢圖走勢。以關(guān)鍵詞“天山天池天氣預(yù)報”為例,如圖1所示,二者走勢大致相同,六七月增長最快,八月驟降,九月稍微回升,由此得出六七月去天山天池旅游的人數(shù)最多,關(guān)注天山天池天氣預(yù)報的人也最多。二者可能存在著一定的相關(guān)關(guān)系,但是還需要進行下一步的實證分析。
為了減少異方差對檢驗結(jié)果的影響,對游客日流量和百度指數(shù)數(shù)據(jù)取對數(shù),以ATT代表取對數(shù)后的天山天池實際日游客量,TL代表取對數(shù)后的天池日搜索量,TTL代表取對數(shù)后的天山天池日搜索量,TTW代表取對數(shù)后的天山天池天氣日搜索量,TTWF代表取對數(shù)后的天山天池天氣預(yù)報日搜索量。
對天山天池實際游客量和4個關(guān)鍵詞的搜索數(shù)據(jù)進行相關(guān)性分析,得到的五個原始時間序列的描述性統(tǒng)計量,如表2所示。從實際游客量來看,天山天池每日旅游者數(shù)量序列最大值為18,234,最小值為27,最大值和最小值數(shù)據(jù)相差較大,說明在2021年之中不同時間到達天山天池的游客量差距較大。從四個關(guān)鍵詞百度指數(shù)序列的描述性統(tǒng)計量來看,可以看出游客對旅游的天氣信息關(guān)注度更高。
圖1 天山天池2021年實際日游客量和百度指數(shù)關(guān)鍵詞“天山天池天氣預(yù)報”的日搜索量
表2 天山天池日游客量與四個關(guān)鍵詞百度指數(shù)序列的描述性統(tǒng)計量
由于所用樣本數(shù)據(jù)均為時間序列數(shù)據(jù),為保證序列的平穩(wěn)性和避免偽回歸現(xiàn)象出現(xiàn),在建立計量經(jīng)濟學(xué)模型之前對時間序列進行單位根和協(xié)整檢驗。
2.5.1 單位根檢驗
在對時間序列進行平穩(wěn)性檢驗時,采取ADF檢驗作為單位根的檢驗依據(jù),結(jié)果如表3所示,天山天池實際游客量以及關(guān)鍵詞“天山天池”“天池”“天山天池天氣”和“天山天池天氣預(yù)報”時間序列數(shù)據(jù)在通過一階差分之后,ADF值均小于1%臨界值、5%臨界值以及10%臨界值,說明變量都具有平穩(wěn)性,因此拒絕原假設(shè)。這是由于原來的五個時間序列都是一階單整時間序列,滿足進行協(xié)整檢驗的前提條件。下一步通過協(xié)整分析檢驗天山天池實際游客量與“天山天池”等關(guān)鍵詞之間是否存在長期均衡關(guān)系。
表3 變量的單位根檢驗結(jié)果
2.5.2 協(xié)整檢驗
協(xié)整檢驗采用恩格爾和格蘭杰提出的兩步協(xié)整關(guān)系檢驗法,即EG兩步法,用于檢驗兩個變量之間是否具有長期均衡關(guān)系[23]。EG兩步法要求在時間序列平穩(wěn)的前提下,還必須滿足自變量和因變量均為同階單整。除此之外,協(xié)整檢驗還要求變量回歸結(jié)果的殘差也要達到穩(wěn)定性要求。
通過單位根檢驗證明了所用變量均滿足協(xié)整檢驗條件,下面進行協(xié)整檢驗,首先建立天山天池每日實際游客量與關(guān)鍵詞“天山天池”“天池”“天山天池天氣”和“天山天池天氣預(yù)報”之間的回歸方程。其次對回歸方程的殘差進行單位根檢驗,觀察自變量和因變量之間是否存在協(xié)整關(guān)系,若殘差序列穩(wěn)定則存在協(xié)整關(guān)系。
殘差的ADF檢驗值等于-6.989667,相較于1%顯著性水平的臨界值-2.571383,5%顯著性水平的臨界值-1.941704,10%顯著性水平的臨界值-1.616111來說都更小。因此,證明回歸結(jié)果的殘差通過了穩(wěn)定性檢驗,說明百度指數(shù)搜索關(guān)鍵詞與天山天池景區(qū)客流量之間存在長期均衡關(guān)系。確定最終的協(xié)整方程如下(括號中的數(shù)值為變量的t值):
ATT=2.97986(1.070783)+2.174913*TTL(9.360615)-1.503498*TL(-3.320163)+0.088515*TTW(2.320541)+0.224048*TTWF(5.598462)
(1)
方程(1)中TTL、TTW和TTWF前的回歸系數(shù)為正,表明對應(yīng)的關(guān)鍵詞“天山天池”“天山天池天氣”和“天山天池天氣預(yù)報”與天山天池實際游客量存在正相關(guān),意味著這3個關(guān)鍵詞的搜索量一旦增加會帶來天山天池實際游客量相應(yīng)增加,其中關(guān)鍵詞“天山天池”前的回歸系數(shù)最大,為2.174913,其次“天山天池天氣預(yù)報”的回歸系數(shù)為0.224048,最后“天山天池天氣”的回歸系數(shù)為0.088515。而關(guān)鍵詞“天池”前的回歸系數(shù)為負,說明隨著天池搜索量的增加會引起天山天池景區(qū)的實際游客量減少。從協(xié)整方程中可以看出,百度指數(shù)關(guān)鍵詞的搜索頻數(shù)每增加或減少一個單位,天山天池實際游客量會增加或減少相應(yīng)的單位。
2.5.3 格蘭杰因果關(guān)系檢驗
協(xié)整檢驗證明了百度指數(shù)與天山天池實際游客量之間具有長期穩(wěn)定關(guān)系,但是卻未能說明二者之間是否具有因果關(guān)系,因此需要利用格蘭杰因果檢驗進一步確定兩者的因果關(guān)系。格蘭杰因果檢驗不僅可以確定因果關(guān)系,最重要的是還可以判斷自變量和因變量之間是否有預(yù)測能力。根據(jù)赤池信息量準則(AIC)、貝葉斯信息準則(SC)以及殘差序列,選擇最優(yōu)滯后期進而判斷是否具有因果關(guān)系。最終根據(jù)格蘭杰檢驗得出“天山天池”“天池”“天山天池天氣”和“天山天池天氣預(yù)報”4個關(guān)鍵詞與天山天池實際游客量的因果關(guān)系結(jié)果,如表4所示。
如表4所示,關(guān)鍵詞“天山天池”“天池”“天山天池天氣”和“天山天池天氣預(yù)報”與天山天池的實際游客量之間均存在雙向因果關(guān)系。例如:假設(shè)1關(guān)鍵詞“天山天池”不是引起天山天池實際游客量的格蘭杰原因,F值為27.8122,P值無限接近于0,即拒絕原假設(shè),說明關(guān)鍵詞“天山天池”是引起天山天池實際游客數(shù)量的格蘭杰原因,同時假設(shè)2天山天池實際游客量不是引起關(guān)鍵詞“天山天池”的格蘭杰原因,F值為4.81584,P值為0.0086,拒絕原假設(shè),說明天山天池實際數(shù)量是引起關(guān)鍵詞“天山天池”的格蘭杰原因,即關(guān)鍵詞“天山天池”與天山天池實際游客量之間存在雙向的因果關(guān)系。
表4 格蘭杰因果檢驗
為了探討百度指數(shù)的搜索數(shù)據(jù)對天山天池實際游客量是否具有預(yù)測能力,以天山天池2021年1月1日至2021年11月30日的每日游客量作為預(yù)測的樣本數(shù)據(jù),以此建立ARMA模型和自回歸分布滯后模型,對2021年12月1日至2021年12月31日的游客數(shù)量進行預(yù)測,將預(yù)測游客量與實際游客數(shù)據(jù)進行對比分析,以此判斷預(yù)測模型的預(yù)測精度,并檢驗加入關(guān)鍵詞百度指數(shù)的模型預(yù)測效果。
2.6.1 ARMA模型的建立與分析
以天山天池實際游客量的時間序列數(shù)據(jù)建立ARMA模型進行預(yù)測,再將模型的預(yù)測結(jié)果與實際的游客量進行比較分析。第一步根據(jù)天山天池實際游客量的原始時間序列得出自相關(guān)圖和偏自相關(guān)圖,如圖2所示,通過觀察自相關(guān)圖和偏自相關(guān)圖發(fā)現(xiàn),二者都出現(xiàn)了拖尾的現(xiàn)象。
圖2 自相關(guān)圖和偏自相關(guān)圖
其次,確定幾個不同的ARMA模型,通過比較它們的AIC值,SC值和預(yù)測模型的均方根誤差,最終確定的模型為ARMA(3,0,1)型,該模型的AIC和SC值最小,調(diào)整后的模型擬合優(yōu)度最高,且預(yù)測的均方根誤差較小。最終確認的模型估計結(jié)果如下(括號中的數(shù)值為變量的t值):
ATT=7.31344(7.258599)+[AR(1)=1.187,(8.292394)AR(2)=-0.34,(-2.686287)AR(3)=0.135,(2.13165)MA(1)=-0.47](-3.400201)
(2)
方程(2)調(diào)整后的擬合優(yōu)度為0.899,AIC的值為1.503265,SC的值為1.560699,然后利用方程(2)對樣本外2021年12月1日至12月31日天山天池每日的旅游人數(shù)進行預(yù)測,實際旅游人數(shù)和預(yù)測人數(shù)的對比圖,如圖3所示,根據(jù)2021年1月1日至2021年11月30日的數(shù)據(jù)樣本預(yù)測的12月1日至12月31日天山天池的游客量與實際游客量的變動趨勢大體一致,二者數(shù)據(jù)也非常接近。
圖3 2021年12月份天山天池實際旅游人數(shù)和預(yù)測人數(shù)的對比(ARMA模型)
2.6.2 自回歸分布滯后模型的建立與分析
由于天山天池風(fēng)景區(qū)實際游客量與關(guān)鍵詞“天山天池”“天池”“天山天池天氣”和“天山天池天氣預(yù)報”之間存在長期的均衡關(guān)系,同時二者之間也具有格蘭杰因果關(guān)系,所以在ARMA模型的基礎(chǔ)上,考慮將百度指數(shù)搜索的關(guān)鍵詞作為解釋變量進行預(yù)測,即在方程(1)中加入“天山天池”“天池”“天山天池天氣”和“天山天池天氣預(yù)報”這四個關(guān)鍵詞進行回歸。由于百度指數(shù)搜索數(shù)據(jù)與實際游客量之間有一定的滯后,運用Eviews10.0確定自變量與因變量的最佳滯后期,由此最終確定的回歸模型為ARDL(3,3,2,2,0)型,調(diào)整后回歸模型的擬合優(yōu)度為0.928,AIC的值為1.223170,SC的值為1.395471,對比ARMA模型來說,加入了百度指數(shù)后的自回歸分布滯后模型得到的結(jié)果擬合優(yōu)度更高,且AIC和SC的值更低,增強了對天山天池實際游客量的解釋能力。
將ARDL的預(yù)測數(shù)據(jù)與實際游客量的數(shù)據(jù)進行對比,如圖4所示,通過結(jié)果對比發(fā)現(xiàn),模型加入關(guān)鍵詞百度指數(shù)后預(yù)測值更加接近真實值,模型具有良好的預(yù)測能力。
圖4 2021年12月份天山天池實際旅游人數(shù)和預(yù)測人數(shù)的對比(ARDL模型)
以新疆天山天池風(fēng)景區(qū)為例,基于2021年1月1日至2021年12月31日天山天池每日的實際游客量以及“天山天池”“天池”“天山天池天氣”“天山天池天氣預(yù)報”這四個關(guān)鍵詞的百度指數(shù)搜索數(shù)據(jù),利用計量經(jīng)濟學(xué)中的單位根檢驗、協(xié)整檢驗和格蘭杰因果關(guān)系檢驗,分析了新疆天山天池實際游客量與百度指數(shù)關(guān)鍵詞搜索數(shù)據(jù)二者之間的關(guān)系,并通過引入ARMA模型,將天山天池2021年1月1日至2021年11月30日每日的實際游客量作為樣本,對2021年12月1日到12月31日的游客量進行預(yù)測,在此基礎(chǔ)上加入關(guān)鍵詞的百度指數(shù)構(gòu)建自回歸分布滯后模型,將加入關(guān)鍵詞后的模型預(yù)測效果與沒有加入關(guān)鍵詞的模型預(yù)測效果進行對比,得出了以下結(jié)論:
(1)新疆天山天池實際游客量與百度指數(shù)搜索的關(guān)鍵詞“天山天池”“天池”“天山天池天氣”以及“天山天池天氣預(yù)報”間存在著長期均衡關(guān)系,并且其中“天山天池”“天山天池天氣”以及“天山天池天氣預(yù)報”與天山天池實際游客量是正相關(guān),也就意味著,隨著這三個百度指數(shù)關(guān)鍵詞搜索次數(shù)的增加,天山天池的實際游客量也會隨之增加。相反,“天池”與天山天池實際游客量是負相關(guān),說明隨著這個百度指數(shù)關(guān)鍵詞搜索次數(shù)的增加,天山天池的實際游客量反而會出現(xiàn)相應(yīng)的減少。
(2)天山天池的實際游客量與百度指數(shù)搜索的關(guān)鍵詞“天山天池”“天山”“天山天池天氣”以及“天山天池天氣預(yù)報”之間存在著雙向的格蘭杰因果關(guān)系,說明它們之間相互影響,即“天山天池”“天山”“天山天池天氣”以及“天山天池天氣預(yù)報”的百度指數(shù)搜索次數(shù)的變化會導(dǎo)致天山天池的實際游客量的出現(xiàn)相應(yīng)的變化,與此同時,天山天池的實際游客量一旦發(fā)生變化,也會導(dǎo)致“天山天池”“天山”“天山天池天氣”以及“天山天池天氣預(yù)報”的百度指數(shù)搜索次數(shù)的變化。
(3)通過對天山天池的實際游客量建立ARMA模型,以天山天池2021年1月1日至2021年11月30日為數(shù)據(jù)樣本,對2021年12月1日至12月31日的游客量進行預(yù)測,將預(yù)測結(jié)果與實際游客量進行對比;其次,在此基礎(chǔ)上加入關(guān)鍵詞“天山天池”“天山”“天山天池天氣”以及“天山天池天氣預(yù)報”進行回歸,構(gòu)建自回歸分布滯后模型進行預(yù)測,將加入關(guān)鍵詞后的預(yù)測效果與加入前的預(yù)測效果進行對比,得出:加入百度關(guān)鍵詞后的預(yù)測精度更高,擬合優(yōu)度更好,與實際游客量更為貼近,由此說明網(wǎng)絡(luò)搜索數(shù)據(jù)大大提高了傳統(tǒng)預(yù)測模型的預(yù)測效果。
(4)預(yù)測結(jié)果的精度越高,說明預(yù)測更加精準,能夠為游客、旅游企業(yè)以及政府相關(guān)部門提供一定的信息,避免在旅游高峰期到來之際出現(xiàn)景區(qū)承載量不足等一系列與季節(jié)性相關(guān)的問題發(fā)生,且滯后期的出現(xiàn)也能夠讓相關(guān)部門提前做好應(yīng)對準備。以百度指數(shù)為例的這一系列搜索引擎,提供大眾搜索關(guān)鍵詞的次數(shù)頻率,由此可以判斷出各景區(qū)的潛在游客數(shù)量,搜索數(shù)量大則說明關(guān)注該景區(qū)的潛在游客較多,從而也說明這些潛在游客到該景區(qū)旅游的可能性較大。但是必須是在實際旅游者和關(guān)鍵詞搜索的指數(shù)之間具有相關(guān)性,具有長期的均衡關(guān)系和因果關(guān)系的前提下,才能有這樣的預(yù)測。
以新疆天山天池為例,基于2021年景區(qū)每日游客量及關(guān)鍵詞百度指數(shù),利用單位根、協(xié)整和格蘭杰因果檢驗,通過ARMA模型、自回歸分布滯后模型對客流量進行預(yù)測,最終得出:加入關(guān)鍵詞百度指數(shù)后,計量經(jīng)濟模型的擬合優(yōu)度更高,預(yù)測效果更好,可以為相關(guān)部門提供決策依據(jù),在旅游高峰期前做好應(yīng)對措施。但是只選取了單個研究區(qū),缺乏與其他區(qū)域進行對比來驗證研究結(jié)論的正確性;其次,樣本數(shù)據(jù)較少,無法對比模型短期和長期的預(yù)測精度。后續(xù)研究會將多個景區(qū),長短期數(shù)據(jù)分別對比,提高預(yù)測精度,對客流量預(yù)測進一步深入研究。