王賽蘭,楊振之
(1.四川大學(xué) 旅游學(xué)院,成都 610065;2.四川大學(xué)錦城學(xué)院,成都 611731)
基于旅游微觀數(shù)據(jù)平臺(tái)的旅游消費(fèi)類型預(yù)測(cè)模型研究
王賽蘭1,2,楊振之1
(1.四川大學(xué) 旅游學(xué)院,成都 610065;2.四川大學(xué)錦城學(xué)院,成都 611731)
利用旅游微觀數(shù)據(jù)平臺(tái)中獲取的大量旅游消費(fèi)類數(shù)據(jù),建立了一個(gè)旅游者消費(fèi)類型預(yù)測(cè)模型,在部分缺失旅游消費(fèi)數(shù)據(jù)的情況下可以對(duì)旅游者的消費(fèi)類型進(jìn)行預(yù)測(cè)和判斷。該模型基于監(jiān)督性學(xué)習(xí)理論,首先針對(duì)已有的完整的消費(fèi)數(shù)據(jù)進(jìn)行學(xué)習(xí),使用學(xué)習(xí)算法不斷降低模型的判斷誤差,直到可以進(jìn)行比較準(zhǔn)確的數(shù)據(jù)預(yù)測(cè);再根據(jù)數(shù)據(jù)缺失情況的不同,采用BP神經(jīng)網(wǎng)絡(luò)和均值插補(bǔ)的方式進(jìn)行補(bǔ)足;然后通過K-means聚類分析方法,對(duì)已經(jīng)補(bǔ)足的數(shù)據(jù)進(jìn)行聚類,從而達(dá)到預(yù)測(cè)判斷旅游者消費(fèi)類型和層次的效果,進(jìn)而達(dá)到在已知部分旅游數(shù)據(jù)的情況下能對(duì)旅游者的消費(fèi)類型進(jìn)行預(yù)測(cè)判斷的效果。
旅游消費(fèi);旅游微觀數(shù)據(jù)平臺(tái);旅游消費(fèi)類型預(yù)測(cè)模型;監(jiān)督性學(xué)習(xí)理論
消費(fèi)行為一直是國(guó)外消費(fèi)經(jīng)濟(jì)學(xué)領(lǐng)域研究的熱點(diǎn)問題,學(xué)術(shù)界廣泛認(rèn)為消費(fèi)行為隨消費(fèi)者個(gè)體特征不同而存在著差異,對(duì)不同群體消費(fèi)行為的類型和差異研究,可以使?fàn)I銷策略的制定和實(shí)施更具有針對(duì)性。然而,由于微觀數(shù)據(jù)的匱乏,國(guó)內(nèi)關(guān)于消費(fèi)行為研究的成果并不多見,對(duì)不同群體消費(fèi)行為進(jìn)行研究的成果更為鮮見[1]1。旅游行業(yè)中旅游者的個(gè)體消費(fèi)問題研究也存在微觀數(shù)據(jù)缺乏的問題,所以成果較少。本文的前期研究已經(jīng)建立了一個(gè)基于移動(dòng)互聯(lián)網(wǎng)以獲取旅游微觀數(shù)據(jù)為核心的數(shù)字化平臺(tái)[2]。從旅游微觀數(shù)據(jù)平臺(tái)上線至2016年10月10日,收集的數(shù)據(jù)包括游客社會(huì)學(xué)統(tǒng)計(jì)數(shù)據(jù)、游客時(shí)空數(shù)據(jù)和旅游消費(fèi)數(shù)據(jù)。相對(duì)于其他兩種數(shù)據(jù)而言,旅游消費(fèi)數(shù)據(jù)比較完整系統(tǒng),實(shí)時(shí)性高,所以本文選擇旅游消費(fèi)數(shù)據(jù)作為研究對(duì)象。經(jīng)過對(duì)這些數(shù)據(jù)進(jìn)行歸納整理,去除一些殘缺度高的數(shù)據(jù)之后,還余下3萬余組較為完整的數(shù)據(jù)。旅游消費(fèi)具有前置性消費(fèi)特征??紤]到前置消費(fèi)分析對(duì)于游客服務(wù)推薦、消費(fèi)喜好挖掘等具有重要意義,本文著力于建立一個(gè)游客消費(fèi)類型預(yù)測(cè)模型,在已知旅游者的部分消費(fèi),特別是前置消費(fèi)的情況下,實(shí)現(xiàn)其消費(fèi)水平和消費(fèi)類型的預(yù)測(cè)。
在旅游微觀數(shù)據(jù)平臺(tái)中,旅游消費(fèi)的原始數(shù)據(jù)特征設(shè)計(jì)參考了國(guó)家旅游局統(tǒng)計(jì)標(biāo)準(zhǔn),本文系統(tǒng)提取得到的數(shù)據(jù)可以分為十個(gè)維度,分別是長(zhǎng)途交通、住宿、餐飲、景區(qū)游覽、娛樂、購(gòu)物、市內(nèi)交通、郵電通訊、旅游天數(shù)和旅行人數(shù)。
根據(jù)已有數(shù)據(jù)分析,本文通過數(shù)據(jù)清洗、缺失值插補(bǔ)和聚類方法將旅客聚集到不同的簇中,從而實(shí)現(xiàn)游客消費(fèi)類型預(yù)測(cè)。本文算法的主要流程為:首先采集游客的前置消費(fèi)數(shù)據(jù),對(duì)于存在缺失的數(shù)據(jù),根據(jù)游客缺失數(shù)據(jù)量的多少,將采取不同的方法進(jìn)行處理;然后通過聚類方法形成不同的游客簇;最后實(shí)現(xiàn)游客消費(fèi)層次的預(yù)測(cè)。
從20世紀(jì)70年代國(guó)外就開始對(duì)旅游消費(fèi)進(jìn)行了研究,并積累了豐碩的成果,總的來說旅游消費(fèi)研究中有三個(gè)比較重要的模型:需要—?jiǎng)訖C(jī)—行為模型(Gilbert,1991),旅游消費(fèi)者購(gòu)買過程模型(Mathieson and Wall,1982),旅游消費(fèi)者行為的刺激-反應(yīng)模型(Middleton,1994,2001)。這三個(gè)模型研究的角度不同,但都是基于已有的消費(fèi)數(shù)據(jù),而并非預(yù)測(cè)性研究。
近年來,如何拓展旅游市場(chǎng)成為旅游學(xué)者關(guān)注的焦點(diǎn)。而要拓展旅游市場(chǎng),就離不開對(duì)旅游消費(fèi)問題的研究。從本文的研究來看,國(guó)內(nèi)外學(xué)者對(duì)旅游消費(fèi)的研究主要集中在消費(fèi)結(jié)構(gòu)、旅游者消費(fèi)行為、消費(fèi)對(duì)旅游目的影響等方面。
在消費(fèi)結(jié)構(gòu)方面,周文麗等從邊際消費(fèi)傾向、消費(fèi)投向、收入彈性及價(jià)格彈性四個(gè)方面對(duì)我國(guó)城鄉(xiāng)居民國(guó)內(nèi)旅游消費(fèi)中的食、住、行、游、購(gòu)、娛等9類消費(fèi)的結(jié)構(gòu)進(jìn)行了實(shí)證分析[3]。王媛等以南京市為例,針對(duì)具體區(qū)域的國(guó)內(nèi)旅游消費(fèi)結(jié)構(gòu)現(xiàn)狀及存在的問題進(jìn)行定性和定量分析,找出影響國(guó)內(nèi)旅游消費(fèi)結(jié)構(gòu)的因素,并提出對(duì)策[4]。還有針對(duì)四川省[5]、河南省[6]或者其他具體區(qū)域的類似研究。
消費(fèi)行為方面的研究主要包括旅游者對(duì)旅游決策行為過程、消費(fèi)行為的完整過程、消費(fèi)心理和消費(fèi)滿意度的研究。Fang Meng等從行為學(xué)上對(duì)游客旅游消費(fèi)是沖動(dòng)、計(jì)劃還是體驗(yàn)進(jìn)行了研究[7]。有學(xué)者對(duì)影響旅游消費(fèi)內(nèi)、外影響因素進(jìn)行研究,認(rèn)為內(nèi)因包括旅游者自身行為動(dòng)機(jī)、文化背景、旅游偏好等,而外因則包括來自廣告的刺激、家庭和朋友圈的影響等等。如在對(duì)旅游中的奢侈品消費(fèi)行為研究中,Park等針對(duì)奢侈品旅游消費(fèi)從內(nèi)外因兩個(gè)方面對(duì)其進(jìn)行了研究,外因有奢侈品的購(gòu)物場(chǎng)所、奢侈品本身的影響力等等,而內(nèi)因則是游客本身對(duì)待奢侈品不同的態(tài)度[8]。還有針對(duì)旅游者本身情況的研究,包括旅游者本身經(jīng)濟(jì)能力、旅游經(jīng)驗(yàn)、文化背景、心理特征、年齡性別等等。Myung-Ja Kim等基于性別差異對(duì)韓國(guó)網(wǎng)絡(luò)旅游消費(fèi)影響問題進(jìn)行了研究[9]。
在旅游消費(fèi)與旅游目的地之間的關(guān)系研究方面,旅游消費(fèi)、旅游購(gòu)物是很多旅游目的地能夠成功吸引旅游者的重要因素。Henderson等研究了旅游購(gòu)物對(duì)新加坡作為旅游目的地的影響,對(duì)新加坡作為旅游目的地的成功經(jīng)驗(yàn)進(jìn)行了總結(jié),也通過調(diào)查分析,對(duì)零售業(yè)和旅游業(yè)中的經(jīng)驗(yàn)教訓(xùn)進(jìn)行了反思[10]。還有針對(duì)迪拜進(jìn)行的類似研究[11]。
綜上所述,無論是哪一種類型的研究,多是以消費(fèi)結(jié)果作為研究基礎(chǔ),而針對(duì)旅游消費(fèi)個(gè)體的相關(guān)研究還比較少見。所以,本文計(jì)劃運(yùn)用旅游微觀數(shù)據(jù)平臺(tái)已經(jīng)獲取的大量數(shù)據(jù)以及機(jī)器學(xué)習(xí)的方法,建立一個(gè)對(duì)旅游者消費(fèi)類型預(yù)測(cè)判斷的模型,在部分?jǐn)?shù)據(jù)缺失的狀況下對(duì)旅游者的消費(fèi)類型進(jìn)行預(yù)測(cè)。
目前針對(duì)缺失數(shù)據(jù)的預(yù)測(cè)方法主要有均值插補(bǔ)、中位數(shù)插補(bǔ)、多值插補(bǔ)以及回歸預(yù)測(cè)法。針對(duì)本文提出的問題,我們提出回歸預(yù)測(cè)法和插值填補(bǔ)法相結(jié)合的缺失數(shù)據(jù)填補(bǔ)法。即根據(jù)數(shù)據(jù)缺失的情況,采用不同的數(shù)據(jù)預(yù)測(cè)方法,實(shí)現(xiàn)缺失數(shù)值的插補(bǔ)。
(一)數(shù)據(jù)預(yù)處理
針對(duì)數(shù)據(jù)項(xiàng):旅行人數(shù)、天數(shù)、長(zhǎng)途交通、住宿、餐飲、景區(qū)游覽、購(gòu)物、娛樂、郵電通訊、市內(nèi)交通費(fèi)用,可以對(duì)后八項(xiàng)數(shù)據(jù)求取人均每天的消費(fèi)金額,從而形成本文所需的消費(fèi)特征。
(二)當(dāng)缺失數(shù)據(jù)僅為一項(xiàng)
當(dāng)原始數(shù)據(jù)項(xiàng)缺失僅為一項(xiàng)時(shí),本文通過已有的數(shù)據(jù)項(xiàng)建立回歸分析預(yù)測(cè)模型,即通過游客的大部分消費(fèi)數(shù)據(jù)預(yù)測(cè)缺失待插補(bǔ)的數(shù)據(jù),并運(yùn)用神經(jīng)網(wǎng)絡(luò)算法預(yù)測(cè)缺失數(shù)據(jù),從而進(jìn)行填補(bǔ)。
當(dāng)原始數(shù)據(jù)中某項(xiàng)數(shù)據(jù)成為缺失量時(shí),可以將其作為因變量,其他已知數(shù)據(jù)作為自變量。我們不妨假設(shè)存在這樣一個(gè)模型:hθ(xz,x2,…,xn),能夠反映這些隨機(jī)量之間的關(guān)系。于是,可以建立相應(yīng)的回歸模型,如公式2.1所示:
y=hθ(x1,x2,…,xn)+ε
(2.1)
其中,ε為誤差項(xiàng),y表示缺失量的值,x1,x2,…,xn表示各個(gè)非缺失變量,此模型即為多元回歸模型。
我們采用神經(jīng)網(wǎng)絡(luò)算法,通過訓(xùn)練完整數(shù)據(jù)集來得到相應(yīng)的模型h,在網(wǎng)絡(luò)權(quán)重收斂穩(wěn)定之后,含有缺失數(shù)據(jù)的特征向量也就得到確定。BP(back propagation)神經(jīng)網(wǎng)絡(luò)是目前應(yīng)用最廣泛的一種神經(jīng)網(wǎng)絡(luò)。它是一種基于誤差反向傳播的多層前饋網(wǎng)絡(luò),由信息的正向傳播和誤差的反向傳播兩部分組成,是一個(gè)包括輸入層、隱含層以及輸出層的神經(jīng)網(wǎng)絡(luò)[12]。
BP神經(jīng)網(wǎng)絡(luò)按監(jiān)督性學(xué)習(xí)方式完成訓(xùn)練。當(dāng)預(yù)期輸出和實(shí)際輸出不符時(shí),誤差按照梯度下降的方式由輸出層經(jīng)過各個(gè)隱含層,最終返回至輸入層,以達(dá)到逐層修正各個(gè)連接權(quán)重的目的,因此被稱為“誤差逆?zhèn)鞑ニ惴ā盵13]28-29。
為了使BP神經(jīng)網(wǎng)絡(luò)確保樣品實(shí)際輸出與預(yù)期輸出之間存在的誤差能夠被控制在較小區(qū)間之內(nèi),需要對(duì)不同層之間的連接權(quán)重以及節(jié)點(diǎn)閾值做出調(diào)整[14]。一般地,將BP網(wǎng)絡(luò)算法的學(xué)習(xí)過程描述為以下步驟:首先將原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,去除重復(fù)、殘缺數(shù)據(jù),然后通過建立神經(jīng)網(wǎng)絡(luò)模型,對(duì)完整數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)訓(xùn)練、仿真,最終通過仿真結(jié)果與樣本進(jìn)行對(duì)比,從而確定神經(jīng)網(wǎng)絡(luò)模型[13]32。
(三)當(dāng)缺失數(shù)據(jù)為多項(xiàng)時(shí)
當(dāng)特征數(shù)據(jù)中存在大量缺失值時(shí),不易對(duì)缺失數(shù)據(jù)進(jìn)行預(yù)測(cè)。因此,針對(duì)多項(xiàng)數(shù)據(jù)缺失的情況,可以采用以下方式:將關(guān)聯(lián)性較強(qiáng)的數(shù)據(jù)進(jìn)行人工神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)填補(bǔ),而對(duì)其余關(guān)聯(lián)性較弱的數(shù)據(jù)可以采用均值插補(bǔ)的方式進(jìn)行??梢栽O(shè)計(jì)如下算法流程:
(1)輸入原始數(shù)據(jù)并進(jìn)行數(shù)據(jù)的預(yù)處理,去除不一致、重復(fù)、含噪聲的無效數(shù)據(jù);
(2)對(duì)數(shù)據(jù)進(jìn)行歸一化處理,在數(shù)據(jù)分析之前,通常需要先將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,利用標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析;
(3)網(wǎng)絡(luò)訓(xùn)練,通過不斷調(diào)節(jié)權(quán)值,使網(wǎng)絡(luò)的輸出與預(yù)期值相符;
(4)對(duì)訓(xùn)練后的網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)仿真;
(5)將仿真結(jié)果與樣本進(jìn)行對(duì)比,檢查數(shù)據(jù)的擬合度;
(6)根據(jù)收斂情況,確定學(xué)習(xí)類型。
(一)確定聚類特征量及所屬類別
原始數(shù)據(jù)中,長(zhǎng)途交通是一個(gè)比較重要的特征量;而數(shù)據(jù)中旅行天數(shù)和旅行人數(shù)是不同的,無法直接按照數(shù)據(jù)進(jìn)行聚類,而且無法得到以“元/公里”為單位的長(zhǎng)途消費(fèi)數(shù)據(jù)。因此,按照各項(xiàng)消費(fèi)類目占據(jù)總消費(fèi)的比例處理數(shù)據(jù)比較合適。所以,首先需要計(jì)算得到各項(xiàng)消費(fèi)類目占據(jù)總消費(fèi)的比例,然后根據(jù)消費(fèi)比例進(jìn)行聚類分析。
根據(jù)消費(fèi)的重要性,旅游消費(fèi)分為基本旅游消費(fèi)和非基本旅游消費(fèi)兩類,其中基本旅游消費(fèi)中“食、住、行、游、購(gòu)、娛”尤為重要。在本次數(shù)據(jù)獲取的八個(gè)類別數(shù)據(jù)中,長(zhǎng)途交通、住宿、餐飲消費(fèi)在一次旅游活動(dòng)中是不可缺少的消費(fèi),屬于基本消費(fèi);而景區(qū)游覽、娛樂、購(gòu)物、市內(nèi)交通、郵電通訊則是彈性的,是選擇性比較大的消費(fèi)類別,屬于非基本消費(fèi)。
基本旅游消費(fèi)支出可以較明顯地反映出旅行者的消費(fèi)情況水平。通過分析基本旅游消費(fèi)支出,最終可以得到:在總的旅游消費(fèi)中,基本旅游消費(fèi)支出所占比例越高,該旅行者消費(fèi)水平越低。
由于基本旅游消費(fèi)支出(Basic)這一特征量是長(zhǎng)途交通、住宿、餐飲這三項(xiàng)消費(fèi)占據(jù)總消費(fèi)的比例,是衡量消費(fèi)層次的主要的標(biāo)準(zhǔn),可以直接表征基本消費(fèi),所以將其作為一個(gè)特征量。第二個(gè)特征量為景區(qū)游覽、娛樂、購(gòu)物三項(xiàng)消費(fèi)之和占總消費(fèi)的比例,用來表征購(gòu)買力(Purchase)。因?yàn)槭紫冗@三個(gè)類目在旅行過程中比較普遍,選擇的自由性程度比較大,所以用來表征購(gòu)買力是合理的;其次,購(gòu)買力也是衡量消費(fèi)層次的另一個(gè)重要的特征量。第三個(gè)特征量是郵電通訊(Phone),第四個(gè)特征量是市內(nèi)交通(Short_trans)。這兩項(xiàng)消費(fèi)類目比較邊緣,將單獨(dú)列出,由此形成數(shù)據(jù)分量(表1所示)。通過對(duì)數(shù)據(jù)進(jìn)行歸一化處理,可以得到新的特征(表2所示)。
表1.各變量所屬類別表
在Matlab中繪制橫軸為Basic、縱軸為Purchase的散點(diǎn)圖,發(fā)現(xiàn)散點(diǎn)分布較為集中,證明這一組變量的關(guān)聯(lián)性較強(qiáng),并且可看出基本旅游消費(fèi)支出越高,購(gòu)買力越低。而將其他變量?jī)蓛山M合后發(fā)現(xiàn),其余的兩兩變量的組合都是散亂分布的,并沒有什么明顯的關(guān)系。所以我們可以Basic和Purchase為標(biāo)準(zhǔn),劃分旅游時(shí)消費(fèi)者的層次,消費(fèi)者基本旅游消費(fèi)越低,購(gòu)買力越高,消費(fèi)層次越高。而Phone和Short_trans可以表征消費(fèi)習(xí)慣,而對(duì)于消費(fèi)層次的劃定意義不大。
因此,從游客消費(fèi)數(shù)據(jù)中得到基本旅游消費(fèi)支出(Basic)、購(gòu)買力(Purchase)、郵電通訊(Phone)、市內(nèi)交通(Short_trans)四個(gè)特征量,然后根據(jù)特征量再進(jìn)行聚類分析。表2中的數(shù)值為每個(gè)特征量在總消費(fèi)數(shù)據(jù)中占據(jù)的比例。
表2.特征值提取后數(shù)據(jù)形式
(二)聚類過程及結(jié)果
聚類分析的目的是將數(shù)據(jù)劃分到不同的簇中。首先,平臺(tái)能夠獲得用戶記錄的游客消費(fèi)數(shù)據(jù),如果用戶的消費(fèi)數(shù)據(jù)存在缺失項(xiàng),則根據(jù)上節(jié)介紹的缺失數(shù)據(jù)預(yù)測(cè)方法進(jìn)行預(yù)測(cè),得到預(yù)測(cè)值后用于填充缺失數(shù)據(jù);然后,根據(jù)所得到的完整數(shù)據(jù)與幾個(gè)聚類中心的距離,確定用戶所屬的消費(fèi)層次。下面將使用k-means算法對(duì)預(yù)處理過的數(shù)據(jù)進(jìn)行聚類分析,從而得到聚類中心。k-means算法將n個(gè)向量xi(i=1,2,…,n)劃分成c個(gè)簇,計(jì)算每個(gè)簇的聚類中心,確保非相似性指標(biāo)的價(jià)值函數(shù)能夠控制在最低值。k-means聚類算法目標(biāo)函數(shù)為:
‖xi-cj‖2
(3.1)
式3.1中,Jm是目標(biāo)函數(shù),m是大于1的實(shí)數(shù),uij是xi屬于類別j的隸屬度(0或1),xi是第i個(gè)測(cè)量到的數(shù)據(jù),cj是類j的聚類中心,‖*‖表示任一測(cè)量數(shù)據(jù)與聚類中心的相似度。
通過下列兩式的更新迭代來使上述目標(biāo)函數(shù)達(dá)到最?。?/p>
(3.2)
(3.3)
利用Matlab中的k-means算法的相關(guān)函數(shù),得到的聚類中心結(jié)果如表3所示。
表3.算法得到的聚類中心
(一)缺失值預(yù)測(cè)模型實(shí)驗(yàn)
針對(duì)八項(xiàng)預(yù)處理后的數(shù)據(jù),根據(jù)上述神經(jīng)網(wǎng)絡(luò)算法,分別對(duì)八個(gè)數(shù)據(jù)依次取為缺失項(xiàng),利用BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行求解。下面以景區(qū)游覽消費(fèi)費(fèi)用為缺失項(xiàng)的例子進(jìn)行說明。圖1表示訓(xùn)練參數(shù)變化過程也就是計(jì)算過程;圖2表示通過不斷訓(xùn)練殘差值的變化,可以看出當(dāng)景區(qū)游覽消費(fèi)費(fèi)用為缺失項(xiàng)時(shí)曲線顯示出較好的收斂性,證明算法有效;圖3表示樣本點(diǎn)在高維空間基于模型的擬合情況。
同理,當(dāng)住宿、餐飲、購(gòu)物、娛樂數(shù)據(jù)缺失時(shí),通過BP神經(jīng)網(wǎng)絡(luò)擬合得到的結(jié)果,與圖1-3類似,均具有較好的收斂效果。而當(dāng)長(zhǎng)途交通、郵電通訊、市內(nèi)交通費(fèi)用數(shù)據(jù)缺失時(shí),BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練所得的經(jīng)驗(yàn)誤差無法收斂,說明回歸預(yù)測(cè)處理該問題并不合適,選擇用均值差補(bǔ)的方法進(jìn)行缺失數(shù)據(jù)填補(bǔ)。
本文通過交叉驗(yàn)證法,先將數(shù)據(jù)集D劃分為10個(gè)大小相等的互斥子集,每個(gè)子集都盡可能保持?jǐn)?shù)據(jù)分布的一致性,即從D中通過分層采樣得到。然后,每次用9個(gè)子集的并集作為訓(xùn)練集,余下的那個(gè)子集作為測(cè)試集,這樣就可以獲得10組訓(xùn)練/測(cè)試集,從而可以完成“k-折交叉驗(yàn)證”。本文定義誤差在10%以內(nèi),即可認(rèn)為缺失數(shù)據(jù)填補(bǔ)合理有效。表4為在測(cè)試集中各個(gè)數(shù)據(jù)填補(bǔ)的正確率。
圖1.當(dāng)景區(qū)游覽消費(fèi)費(fèi)用為缺失項(xiàng)時(shí)的求解過程
圖2.經(jīng)驗(yàn)誤差變化
圖3.擬合結(jié)果
缺失數(shù)據(jù)長(zhǎng)途交通住宿餐飲購(gòu)物娛樂市內(nèi)通訊景區(qū)游覽預(yù)測(cè)準(zhǔn)確率33.5%86.8%90.2%87.4%93.4%54.3%85.6%
Basic:0.67
Purchase:0.2769
Phone:0.0057
Short_trans:0.0474
(二)聚類分析
為了確定各層次游客的消費(fèi)水平和特征,我們需要與游客消費(fèi)水平的平均數(shù)據(jù)進(jìn)行比較,以得到較為合理的分析。下面為我們得到的游客消費(fèi)水平的平均數(shù)據(jù)。
在用戶的旅游消費(fèi)數(shù)據(jù)中,平均的基本旅游消費(fèi)為總消費(fèi)的67%,購(gòu)物消費(fèi)比例占據(jù)27.69%,郵電通訊占0.57%,市內(nèi)交通占據(jù)4.47%。把這個(gè)數(shù)據(jù)作為旅游消費(fèi)比例的標(biāo)準(zhǔn),可以衡量得到其他游客的消費(fèi)層次和消費(fèi)水平。在對(duì)各層次消費(fèi)結(jié)構(gòu)進(jìn)行比對(duì)中,基本消費(fèi)是比對(duì)的重點(diǎn),該項(xiàng)占的比例越高,說明該層次的消費(fèi)能力越低;而購(gòu)買力項(xiàng)與消費(fèi)能力呈正向關(guān)系,也就是說,購(gòu)買力占有比例越大游客消費(fèi)能力越強(qiáng)。根據(jù)基本旅游消費(fèi)和購(gòu)買力可以直接分出五個(gè)消費(fèi)層次。將表3中各層次聚類中心與平均數(shù)據(jù)進(jìn)行比對(duì),可以獲得各層次的消費(fèi)特征。
第一類:高消費(fèi)旅游者
這個(gè)消費(fèi)層次屬于整體中消費(fèi)水平最高的層次,基本旅游消費(fèi)占到總消費(fèi)的54.15%,在基本消費(fèi)的平均水平中是較低的。購(gòu)買力這一特征量達(dá)到了37.63%,高于平均水平9.94%。從整體來說,這一層次的消費(fèi)者消費(fèi)能力很強(qiáng)。
第二類:較高消費(fèi)旅游者
本消費(fèi)層次屬于整體中消費(fèi)水平較高的,基本旅游消費(fèi)占到總消費(fèi)的60.03%,低于平均水平6.97%;購(gòu)買力這一特征量達(dá)到了33.92%,高于平均水平6.23%,購(gòu)買能力較強(qiáng)。
第三類:中等消費(fèi)旅游者
這個(gè)層次的消費(fèi)者消費(fèi)水平屬于中等偏下?;韭糜蜗M(fèi)為65.71%,比平均水平67%的標(biāo)準(zhǔn)低1.29%;購(gòu)買力達(dá)到29.42%,低于平均水平1.73%。這一層次的消費(fèi)者市內(nèi)通訊占到0.57%,市內(nèi)交通占據(jù)4.30%,均略低于平均水平。
第四類:偏低消費(fèi)旅游者
本層次消費(fèi)者基本旅游消費(fèi)達(dá)到了72.29%,高于平均水平將近5%,購(gòu)買力低于平均4.61%,消費(fèi)水平較低。郵電通訊與市內(nèi)交通也略低于平均水平。整體消費(fèi)相較于平均水平,屬于偏低。
第五類:低消費(fèi)旅游者
這一消費(fèi)層次屬于消費(fèi)水平最低的,基本旅游消費(fèi)為87.45%,高于平均水平20%;購(gòu)買力低于平均17%。其消費(fèi)基本針對(duì)長(zhǎng)途交通、住宿和餐飲。郵電通訊與市內(nèi)交通略低于平均水平,表明消費(fèi)水平很低。
(三)實(shí)例分析
下面給出兩個(gè)實(shí)例來說明預(yù)測(cè)游客消費(fèi)層次的整個(gè)過程。例如,用戶在行程規(guī)劃中提前提交了旅行人數(shù)、旅行天數(shù)、長(zhǎng)途交通費(fèi)和預(yù)訂住宿費(fèi)用四項(xiàng)數(shù)據(jù),具體如表5所示。
表5.已有的部分?jǐn)?shù)據(jù)
第一步:缺失數(shù)據(jù)填補(bǔ)
根據(jù)上文中所給出的分析,長(zhǎng)途交通、市內(nèi)通訊由于數(shù)據(jù)之間關(guān)聯(lián)性不強(qiáng),或者可以說其他數(shù)值大小對(duì)這兩項(xiàng)數(shù)據(jù)沒有影響,因此采用均值插補(bǔ)的方式對(duì)這兩項(xiàng)數(shù)據(jù)進(jìn)行填補(bǔ)。對(duì)于此處的實(shí)例,由于長(zhǎng)途交通數(shù)據(jù)已經(jīng)知道,因此只需對(duì)市內(nèi)通訊費(fèi)用進(jìn)行均值插補(bǔ),得到的數(shù)值填入表6。
對(duì)于餐飲、旅游、購(gòu)物、娛樂,由于缺失量過多,因此對(duì)缺失量中部分采用均值插補(bǔ),對(duì)娛樂項(xiàng)目費(fèi)用采用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行插補(bǔ)(充分利用已經(jīng)知道的長(zhǎng)途交通和住宿等信息),具體算法流程如上文所述,可以得到兩組數(shù)據(jù)結(jié)果如表6所示。
表6.完成補(bǔ)足后數(shù)據(jù)
第二步:聚類層次分析
1.通過對(duì)實(shí)例1層次分析得到各特征量占據(jù)總消費(fèi)比例:
Basic=(長(zhǎng)途交通+住宿+餐飲)/總消費(fèi)
Purchase=(景區(qū)游覽+購(gòu)物+娛樂)/總消費(fèi)
Phone=郵電通訊/總消費(fèi)
Short_trans=市內(nèi)交通/總消費(fèi)
Basic:0.6240
Purchase:0.3204
Phone:0.0062
Short_trans:0.0494
參照表4給出的聚類中心,計(jì)算得到的數(shù)據(jù)與各個(gè)聚類中心的距離。
距離的計(jì)算公式如式4.1所示:
D=dist(data1,center)2+dist(data2,center)2
+dist(data3,center)2+dist(data4,center)2
+……dist(datan,center)2
(4.1)
將第一類別的聚類中心與得到的各特征量帶入式4.1可得到:
D1=(0.6240-0.5415)2+(0.3204-0.3763)2+(0.0062-0.0074)2+(0.0494-0.0749)2=0.01058269
同D1的計(jì)算方式相同,我們可以得到該數(shù)據(jù)與其他聚類中心之間的距離:
D2=0.00092907
D3=0.00182326
D4=0.01785891
D5=0.11110778
在所有的找到距離中,找到最小的距離值。此例中D2值最小,所以該數(shù)據(jù)屬于D2所示聚類中心,即第二類較高消費(fèi)旅游者。
由于該項(xiàng)數(shù)據(jù)是通過后期處理得到的缺失數(shù)據(jù),因此可以根據(jù)原始數(shù)據(jù),進(jìn)行類別預(yù)測(cè)。其原始數(shù)據(jù)和各簇中心的距離為:
D1=0.0088
D2=0.0006
D3=0.0033
D4=0.0218
D5=0.1202
由上述結(jié)果可知,D2值最小,所以該數(shù)據(jù)屬于D2所示聚類中心,即第二類較高消費(fèi)旅游者。這與本文算法所得到的結(jié)果一致,所以可以證明本文所提出的算法具有較好的缺失數(shù)據(jù)預(yù)測(cè)能力。
2.實(shí)例2聚類分析
各特征量占據(jù)總消費(fèi)比例
Basic:0.5516
Purchase:0.3495
Phone:0.0078
Short_trans:0.0911
同樣參照表3給出的聚類中心,計(jì)算得到的數(shù)據(jù)與各個(gè)聚類中心的距離,得到以下數(shù)據(jù):
D1=0.00108285
D2=0.00393711
D3=0.01650636
D4=0.04577511
D5=0.1704715
找到D值最小的值,該實(shí)例中D1值最小,所以該數(shù)據(jù)屬于D1所示聚類中心,即第一類高消費(fèi)旅游者。
由于該項(xiàng)數(shù)據(jù)是通過后期處理得到的缺失數(shù)據(jù),因此可以根據(jù)原始數(shù)據(jù),進(jìn)行類別預(yù)測(cè)。其原始數(shù)據(jù)和各簇中心的距離為:
D1=0.0004
D2=0.0055
D3=0.0207
D4=0.0538
D5=0.1862
由上述結(jié)果可知,D1值最小,所以該數(shù)據(jù)屬于D1所示聚類中心,即第一類高消費(fèi)旅游者。這與本文算法所得到的結(jié)果一致,所以可以證明本文所提算法具有較好的缺失數(shù)據(jù)預(yù)測(cè)能力。
旅游數(shù)據(jù)的研究是目前國(guó)內(nèi)外學(xué)界研究的熱點(diǎn),而與互聯(lián)網(wǎng)、大數(shù)據(jù)相結(jié)合的旅游數(shù)據(jù)研究在國(guó)內(nèi)外都處于起步階段,有大量的工作可以開展,也有很多的空白需要填補(bǔ)。本次研究建立了一個(gè)旅游者消費(fèi)類型預(yù)測(cè)模型。該模型對(duì)于存在缺失的數(shù)據(jù),用回歸預(yù)測(cè)法和插值填補(bǔ)法相結(jié)合的方法進(jìn)行預(yù)測(cè),將缺失數(shù)據(jù)填充之后,對(duì)旅游者消費(fèi)數(shù)據(jù)進(jìn)行聚類分析。經(jīng)過聚類,得到了五種消費(fèi)者類別,即高消費(fèi)旅游者、較高消費(fèi)旅游者、中等消費(fèi)旅游者、偏低消費(fèi)旅游者、低消費(fèi)旅游者。最后,給出了兩組數(shù)據(jù)進(jìn)行實(shí)例分析,通過計(jì)算數(shù)據(jù)到聚類中心的距離判斷出這兩組數(shù)據(jù)應(yīng)屬哪個(gè)消費(fèi)層次。最后通過實(shí)例分析證明,本文所提模型具有較好的缺失數(shù)據(jù)預(yù)測(cè)能力。
本文的理論價(jià)值主要體現(xiàn)在對(duì)旅游個(gè)體消費(fèi)行為的研究中?,F(xiàn)有的旅游消費(fèi)行為的理論多數(shù)起源于營(yíng)銷和消費(fèi)動(dòng)機(jī)理論,對(duì)消費(fèi)感知、消費(fèi)態(tài)度、消費(fèi)行為與收入的關(guān)系的問題研究較為深入,但對(duì)于游客個(gè)體的旅游消費(fèi)行為的預(yù)測(cè)性研究很少。其原因主要是獲取數(shù)據(jù)較難,而且研究方法沒有跳脫出傳統(tǒng)統(tǒng)計(jì)研究的范疇。本文運(yùn)用了移動(dòng)互聯(lián)網(wǎng)平臺(tái)采集數(shù)據(jù),建立一個(gè)預(yù)測(cè)游客消費(fèi)行為、消費(fèi)層次的模型,直接針對(duì)旅游者個(gè)體,這對(duì)于旅游消費(fèi)行為學(xué)理論的完善有很好的補(bǔ)充意義。
在實(shí)踐價(jià)值方面,在大數(shù)據(jù)的時(shí)代背景下,傳統(tǒng)數(shù)據(jù)獲取方式受到了強(qiáng)烈的挑戰(zhàn),迫切需要利用新技術(shù)新方法對(duì)數(shù)據(jù)進(jìn)行有效的收集和利用。本文利用BP神經(jīng)網(wǎng)絡(luò)、均值差補(bǔ)、聚類分析等數(shù)學(xué)方法,可以在獲取旅游者前置消費(fèi)數(shù)據(jù)以后預(yù)測(cè)該旅游者的消費(fèi)類型。本文采用了以預(yù)測(cè)為核心的大數(shù)據(jù)方法,為后來的研究者提供了可供參考的研究思路。
本文仍存在一些需要改進(jìn)的地方,由于本文提出的模型中所運(yùn)用的數(shù)據(jù)全部來自自研平臺(tái),導(dǎo)致數(shù)據(jù)來源比較單一。為增強(qiáng)本文提供方案的外部效度,本文在此處提供一種替代方案。即:由于本文通過實(shí)際數(shù)據(jù)集得到的預(yù)測(cè)適用于旅游過程中旅客各項(xiàng)消費(fèi)之間的關(guān)聯(lián)預(yù)測(cè),因此當(dāng)系統(tǒng)獲取數(shù)據(jù)較弱時(shí),可以采用關(guān)系向量替代本文中提出的特征向量(各項(xiàng)數(shù)據(jù)為消費(fèi)金額占總消費(fèi)金額的比例),或者設(shè)計(jì)相似的手工特征算子進(jìn)行相似的做法。此外,未來工作也將基于關(guān)系學(xué)習(xí)預(yù)測(cè)進(jìn)行,希望能夠獲取更廣泛的數(shù)據(jù)來增加該模型的典型性與代表性。
[1]郝東陽(yáng).中國(guó)城鎮(zhèn)居民消費(fèi)行為的經(jīng)驗(yàn)研究[D].長(zhǎng)春:吉林大學(xué),2011.
[2]王賽蘭,楊振之.面向大數(shù)據(jù)的旅游微觀數(shù)據(jù)信息平臺(tái)研究[J].四川師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2015,(1):54-61.
[3]周文麗,李世平.基于ELES模型的城鄉(xiāng)居民國(guó)內(nèi)旅游消費(fèi)結(jié)構(gòu)實(shí)證分析[J].旅游科學(xué),2010,(3):29-38.
[4]王媛,黃震方.國(guó)內(nèi)旅游者消費(fèi)結(jié)構(gòu)及相關(guān)行為因素分析——以南京市為例[J].南京師大學(xué)報(bào)(自然科學(xué)版),2005,(4):123-126.
[5]鄧清南.四川省國(guó)內(nèi)旅游消費(fèi)結(jié)構(gòu)探析[J].成都電子機(jī)械高等??茖W(xué)校學(xué)報(bào),2005,(2):57-62.
[6]曹新向.河南省國(guó)內(nèi)游客旅游消費(fèi)變動(dòng)的分析[J].旅游論壇,2009,(4):583-588.
[7]MENG F,XU Y L,et al.Tourism Shopping Behavior: Planned,Impulsive,or Experiential?[J].International Journal of Culture,2012,(3):250-265.
[8]PARK K,REISINGER Y,NOH E.Luxury Shopping in Tourism[J].International Journal of Tourism Research,2009,(2):164-178.
[9]MYUNG-JA K et al.Investigating the Role of Trust and Gender in Online Tourism Shopping in South Korea[J].Journal of Hospitality&Tourism Research,2013,(3),377-401.
[10]HENDERSON J C,et al.Shopping,Tourism and Retailing in Singapore[J].Managing Leisure,2011,(16):36-48 .
[11]ZAIDAN E A.Tourism Shopping and New Urban Entertainment: A Case Study of Dubai[J].Journal of Vacation Marketing,2015,(22) :29-41.
[13]王小彬.基于機(jī)器視覺的SMT焊點(diǎn)自動(dòng)光學(xué)檢測(cè)系統(tǒng)研究[D].蘇州:蘇州大學(xué),2009.
[14]王燕.一種改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)手寫體數(shù)字識(shí)別方法[J].計(jì)算機(jī)工程與科學(xué),2008,(4):50-52.
[責(zé)任編輯:鐘秋波]
The Prediction Model of Tourism Consumption Type Based on Tourism Micro-data Platform
WANG Sai-lan1,2,YANG Zhen-zhia1
(1.School of Tourism,Sichuan University,Chengdu,Sichuan 610065;2.The Jincheng institute of Sichuan University,Chengdu,Sichuan 611731,China)
This paper builds a tourist consumption type prediction model by applying the abundant data of tourism consumption acquired from tourism micro-data platforms,which is capable of predicting and identifying the types of tourist consumption with partial data absence.Based on the theory of supervised learning,this model first learns from some existing complete consumption data and continually reduces judgment errors through learning algorithm until the model can conduct accurate prediction.According to different data missing,BP neural network and mean value interpolation is applied to replenish them.The resulting data are clustered by K-means clustering and thereby the types and levels of tourist consumption can be predicted.Finally,this model is able to predict the types of tourist consumption even with partial data absence.
tourism consumption;tourism micro-data platform;tourism comsumption type;prediction model;the theory of supervised learning
2016-10-12
四川省教育廳人文社科研究項(xiàng)目“面向大數(shù)據(jù)的旅游微觀數(shù)據(jù)信息平臺(tái)研究”(15SB0323)。
王賽蘭(1981—),女,湖北武漢人,四川大學(xué)旅游學(xué)院博士生,四川大學(xué)錦城學(xué)院副教授,研究方向?yàn)橹腔勐糜?、文化遺產(chǎn)與旅游開發(fā);
楊振之(1965—),男,重慶人,博士,四川大學(xué)旅游學(xué)院教授、博士生導(dǎo)師,主要從事休閑與旅游規(guī)劃、旅游目的地管理等理論與實(shí)踐。
F592.3
A
1000-5315(2017)01-0067-08