林思濤,林 釗,陳家琦,吳鳳舞,張學健
(福州外語外貿學院 大數據學院,福州 350202)
隨著國內經濟飛快發(fā)展和人民生活水平的提高,人們對物質文化的需求也在不斷增長。愈來愈多地,人們在閑暇時間選擇外出旅游,接觸新鮮事物、提高生活品質,旅游業(yè)因此蓬勃發(fā)展。與此同時,客流量的持續(xù)攀升也造成了交通堵塞、景區(qū)擁擠等問題,而傳統旅游管理方式已無法應對這一現狀,給城市和景區(qū)的管理帶來了極大的困擾。若能夠及時預測未來一段時間內的游客量變化,提供更準確的旅游景點客流量預測,相關部門就可以提前制定安全防范措施和客流引導,避免擁堵事件的發(fā)生,更加合理地利用旅游資源。
傳統的旅游需求預測模型,主要是針對定量與定性方面的研究,其共同特點是先建立時序數據的主觀模型、再進行預測。因此,傳統模型缺乏對數據樣本的學習過程,不具有自學習和泛化能力,對客流量的預測誤差較大。隨著人工神經網絡(ANN)的快速發(fā)展,越來越多的學者開始將BP 神經網絡(BPNN)及支持向量回歸(SVR)等算法應用于旅游需求預測領域。
如今,大數據時代的到來,人們可以通過互聯網了解更多的旅游相關知識,搜索引擎中對旅游業(yè)的優(yōu)化也在逐漸完善。針對網絡搜索數據在生活中的應用,尤其是在經濟、社會管理領域以及市場營銷預測中,網絡搜索數據的應用越發(fā)廣泛。2013 年,H7N9禽流感的大爆發(fā),對國內的家禽養(yǎng)殖經濟造成了巨大的經濟影響。譚小林等人利用網絡搜索指數,對H7N9 爆發(fā)趨勢進行相關性分析,利用對網絡搜索關鍵詞的跟蹤,可以預測H7N9 禽流感爆發(fā)的進程。袁恒研究了利用網絡搜索指數對市場的預測,探討了國內網絡搜索數據的市場預測價值。遲依涵研究了基于網絡搜索數據的房地產價格預測。賴凱聲等人研究了網絡搜索數據與社會心理學相關性;馬碧云基于網絡搜索數據對旅游客流量進行了非線性預測的研究。戚明遠利用網絡搜索數據對商品住宅市場進行相關性的研究。王煉等人從中國電影市場來研究網絡搜索數據對票房量的預測。白笑笑利用網絡搜索數據,可以預測冰箱的銷量并對冰箱的需求進行了分析。
遺傳算法(Genetic Algorithm,GA)是一種近似優(yōu)化的算法,起源于對生物體系中的天然演化,通過電子計算機的模擬展開研究。
在GA 算法中,每一種染色體組型都對應了算法的一種解決對策。通常情形下,可以使用適應度函數(fitness function)判斷解決對策的優(yōu)劣。因此,從每種染色體組型到求解結果的適應度就構成了一種映射。可以將GA 算法求解的整個過程看作在多元函數中尋求最佳解的過程。
可如此設想,在一個多維曲面中有眾多的“頂峰”,每個頂峰對應的便是局部最優(yōu)解。而其中會有某個“頂峰”的海拔最高,則這個“頂峰”就是全局最優(yōu)解。那么,GA 算法的主要任務便是盡可能爬到最高的頂峰,而不是限制于某個小山峰。
BP(Back Propagation)神經網絡,是一種多層前饋型的神經網絡,主要包含輸入層、隱含層(中間層)和輸出層。BP 神經網絡層與層之間采用全互連方式,由數量眾多的單神經元通過可調的連接權值實現全連接。中間層(隱含層)可以有一層或多層,而同一層間的各神經元卻不能相互連接。
BP 神經網絡的傳播方式分為前向傳播和反向傳播,其信號分為函數信號和誤差信號。在前向傳播過程中,函數信號從輸入層經過中間層(隱含層)流向輸出層,成為一個輸出信號。若輸出情況與期望的情況相差過大,則進入反向傳播。此時,在網絡的一個輸出神經元中產生誤差信號,一層接一層地反向傳播調整權值和閾值,直到誤差都在允許范圍為止。BP 神經網絡的典型拓撲結構如圖1 所示。
圖1 BP 神經網絡拓撲結構Fig.1 BP neural network topology
BP 神經網絡可用于分類、聚類、預測等。目前,大部分的神經網絡都是以BP 神經網絡為基本架構,并針對現實應用續(xù)以后期的優(yōu)化完善而得。因此BP 神經網絡已經成為目前使用得最廣泛的神經網絡模型之一。
基于GA 算法優(yōu)化的BP 神經網絡模型,是由BP 神經網絡系統架構的確定、GA 算法優(yōu)化以及BP 神經網絡預測三部分組成。其中,BP 神經網絡系統架構的確定,主要是以擬合函數中輸入、輸出的參數個數來確定其模型架構。根據模型的參數個數,可以判斷出GA 算法進一步優(yōu)化的參數個數,從而判定出GA 算法中個體的編碼長度,由GA 算法優(yōu)化的參數就是BP 神經網絡的初始閾值和權值。因此,如果已確定BP 神經網絡模型的系統結構,就可知閾值和權值的個數。群體中所有個體均包括了某個網絡系統中的所有權值和閾值,通過統計適應度函數確定了個體適應度值,用GA 算法通過選擇、變異和交叉訓練,尋找出適應度值最高的個體。BP 神經網絡模型采用GA 算法獲得的最佳個體,對網絡系統完成初始權值和閾值的賦值,網絡系統經訓練后將輸出預測樣本。GA 算法優(yōu)化BP 神經網絡模型權值和閾值的流程如圖2 所示。
圖2 GA-BP 神經網絡流程圖Fig.2 GA-BP neural network flow chart
首先,本文從“食、住、行、娛、游、購”六個方面選定關鍵詞。通過遴選,選定“廈門美食”、“廈門酒店”、“廈門交通”、“廈門景點”、“廈門地圖”、“廈門特產”等基準關鍵詞。其次,在百度搜索指數官網對基準關鍵詞進行查詢,同時找出其它相關度較高的關鍵詞。最后,根據皮爾遜相關系數(Pearson)、斯皮爾曼相關系數(Spearman)以及顯著性檢驗值,計算得到的關鍵詞的百度搜索指數與廈門旅游客流量的相關度強弱,選定了“廈門美食”、“廈門大學”、“沙坡尾”、“雙子塔”、“廈門島內”、“演武大橋”6 個關鍵詞,見表1。
表1 百度搜索關鍵詞指數與廈門旅游流量的相關性檢驗Tab.1 Keywords correlation test between Baidu search index and tourist traffic in Xiamen
由于文章利用的因變量與自變量均為時序變量,因此在模型建立前,為保證所有變量的平穩(wěn)性,需要對旅游客流量和各關鍵詞百度搜索指數進行平穩(wěn)性檢驗。通過使用ADF 檢驗法對因變量與自變量進行平穩(wěn)性檢驗,運行得出各變量均是一階單整,結果詳見表2。
表2 變量平穩(wěn)性檢驗Tab.2 Variables stationarity test
在本文構建的模型中,遺傳算法初始種群個數為30,進化代數為50,交叉概率為0.8,變異概率為0.2。BP 神經網絡部分,由一個輸入層、一個隱蔽層以及一個輸出層構成。其中,隱蔽層的節(jié)點經過程序計算得出最佳隱含層節(jié)點個數為4。模型的學習率為0.01,訓練步長為25,學習目標為0.000 1。GA-BP 神經網絡訓練狀態(tài)如圖3 所示。由圖3 可知,該模型經過18次迭代,達到設定學習目標。
圖3 GA-BP 神經網絡訓練狀態(tài)Fig.3 Training state of GA-BP neural network
本文從百度指數官網和廈門市文旅局獲取了2017 年1 月到2020 年12 月的百度搜索指數和旅游客流量數據,由于2020 年新冠肺炎疫情爆發(fā),旅游客流量驟減,故不考慮2020 年的異常數據。本文模型建立的訓練集取自2017 年1 月到2019 年6 月、共計30 個月的月度數據,模型的預測目標設置為2019 年7 月至12 月、共6 個月內廈門市客流量。預測結果如圖4 所示,預測結果參數見表3。
表3 廈門市客流量預測結果Tab.3 Forecast results of passengers flow in Xiamen
圖4 BP 神經網絡優(yōu)化效果圖Fig.4 Optimization effect of BP neural network
從上述結果總體來看,利用GA-BP 神經網絡模型得到的預測結果誤差均比BP 神經網絡模型的預測結果誤差小。另外,本文采用平均絕對誤差、均方誤差、均方誤差根、平均絕對百分比誤差等4 種模型預測誤差的檢驗標準,分別對2 個模型進行檢驗對比,結果見表4。
表4 模型精度檢驗指標Tab.4 Model accuracy test index
通過檢驗結果可以看出,GA-BP 神經網絡模型各項誤差值均遠小于BP 神經網絡模型,說明本文建立的GA-BP 神經網絡模型對客流量的預測能力遠高于BP 神經網絡。
文章通過爬取2016 年1 月到2019 年6 月期間,“廈門美食”、“廈門大學”、“沙坡尾”、“雙子塔”、“廈門島內”、“演武大橋”共6 個關鍵詞的百度搜索指數及旅游客流量數據,建立了BP 神經網絡模型和GABP 神經網絡模型,并對廈門旅游客流量進行預測驗證。通過模型預測結果與誤差指標對比分析,得出遺傳算法優(yōu)化后的BP 神經網絡模型的預測精度和穩(wěn)定性比標準BP 神經網絡模型都要高,充分說明了遺傳算法可以避免BP 神經網絡陷入局部極小值。因此,GA-BP 神經網絡在這一預測方面具有更大的優(yōu)勢。該預測模型可為有關部門及商家提供更精確的旅游客流量預測參考,提高旅游地相關產業(yè)的資源配置效率,保證旅游景點各行業(yè)的平穩(wěn)運行。