潘冰
一、 大數據發(fā)展階段
在國內外,整個大數據的研究到現在已經過了炒作的階段。Gartner咨詢公司推出的技術發(fā)展周期報告認為,技術發(fā)展會經歷這幾個階段:技術的觸發(fā)階段,期望的頂點,失望的壕溝和生產力的爬坡。2011年,大數據首先出現在這個曲線上,那時正是這個概念在媒體上大量炒作的階段,正從技術的觸發(fā)點急劇上升;2012年,大數據正接近期望值的頂點,是媒體和學術界炒作最火的時候,期望值最高;2013年,已經開始下降;2014年,大數據的期望處在急劇下降時期,一些相對具體的技術,像預測分析和針對地理位置的應用,正處在成熟的產生生產力的階段。大數據這個概念,已經被細化的技術手段所替代了。
大數據的研究開始于搜索引擎的數據。2008年,《自然》雜志發(fā)表了谷歌科學家一篇關于利用谷歌關鍵詞搜索量預測流感的文章。美國疾病控制中心對流感的預測一般是利用醫(yī)院和醫(yī)生報告的數據,但是病人通常先搜索相關的關鍵詞再去看醫(yī)生,這樣谷歌搜索的流感可以提前兩周預測出流感的爆發(fā),而且準確率很高。但《科學》雜志在2014年發(fā)表了一篇文章,專門指出谷歌預測的不準確性。谷歌有些預測是實際病人數量的兩倍;谷歌的流感預測總是多于實際流感的發(fā)生。谷歌的預測并不比美國疾病控制中心時間序列預測方法更準確。這里首先有過度擬合的問題。谷歌有成千上萬的關鍵詞,你總會找出一些擬合度高的詞,但可能完全沒有關系。再者,谷歌在不停地改變界面和算法。比如最近,當你鍵入搜索詞的時候,谷歌有對最熱關鍵詞的提示,這樣也導致了用戶行為的變化。這樣一來,歷史的數據和最新關鍵詞的數據性質已經有了改變,不具有可比性,那么,模型已經不再成立。而且谷歌從來沒有說明他們自動選取的45個關鍵詞是哪些,這些不透明的算法導致研究成果很難被復制。大數據的旗幟性項目就此壽終正寢。
二、 旅游大數據研究進展
在旅游大數據研究中,預測是個重要的方向。大尺度的預測,比如每年或每月的預測還比較精確;小尺度比如每周每天的預測不是很可靠。我們的研究發(fā)現,如果加入谷歌某些有關旅游的搜索關鍵詞的搜索量作為外部變量,可提高美國南卡查爾斯頓酒店周入住率預測的準確性的30%;同樣的,因為很大一部分的查爾斯頓的游客在去旅行之前,會去旅游局的網站查看信息,旅游局的網站的流量也是游客量的一個提前表現,那么,我們用查爾斯頓旅游局網站流量作為外部變量,加入時間序列模型,這樣可以提高當地酒店周入住率預測的準確性的10%。在國內,有研究者也發(fā)現百度關鍵詞的搜索量,加上時間序列預測方法,可提高海南省月游客量預測的準確性;黃先開等的研究發(fā)現百度關鍵詞的搜索量可提高故宮月游客量預測的準確性的15%。
但旅游大數據也產生了很多的問題。比如,我們需要對一個城市旅游者數量的調查和統(tǒng)計。對一個旅游地旅游者行為的研究方法有很多種,比如攔截調查,在一些地段訪談旅游者;比如入戶調查,在全國范圍內隨機抽樣選取家庭入戶調查然后詢問他們出游的行為和花費;也可以用稅收數據來估算;還可以用移動設備來研究旅游者的數量和行為。美國的一個公司AirSage,利用手機和塔臺的交流進行定位,他們有兩大手機公司Verizon和Sprint的所有數據。Verizon有1/3的市場占有率。他們每天都在手機公司服務器下載海量的數據。但是因為數據非常多,平均買一個月的查爾斯頓旅游者的數據就要幾千美元,所以不可能查看一個移動設備一年之內的移動。所以我們在估算美國南卡查爾斯頓旅游者數量的時候,只能購買幾個代表月的數據。這個公司是這樣定義旅游者的:如果一個移動設備在一個月之內出現在查爾斯頓,但大部分晚上(>15天)出現在查爾斯頓以外的地區(qū),就被AirSage定義為查爾斯頓的旅游者。但我們知道旅游者的傳統(tǒng)定義,比如旅游衛(wèi)星賬戶,是一年之內,過夜游客或者是50英里之外的非工作的訪問者。
我們用各個方法對查爾斯頓的旅游者進行估計,結果得到不同的數據:入戶調查說是610萬;酒店稅收數據說是600萬;問卷調查數據500萬;南卡公園休憩旅游局數據是660萬;而移動數據的估算是490萬。這些數據明顯不包括不用美國手機的海外游客,也不包括停留時間超過15天以上的游客。和其他數據相比,我相信移動的數據是低估了。
旅游大數據顯示的人口統(tǒng)計學特征也有不同。移動數據可以精確到每個鄉(xiāng),問卷只有幾百個調查數據,當然不可能精確到鄉(xiāng)和城市。移動數據反映出來的游客更多來自周邊地區(qū)——美國的東南部;而問卷調查結果顯示游客來自較遠的地方,因為我們只選取了市中心的旅游景點進行訪談,而更鄰近地區(qū)許多走親訪友的游客恐怕沒有到景點游玩,就較少被訪談到。但反過來講,這部分游客花費少,對旅游業(yè)的貢獻也少,他們的意見對旅游業(yè)也不是很重要。類似的移動數據顯示出來的游客收入較低,而問卷結果較高,顯示大多數游客年收入在7萬~10萬美元之間。移動數據顯示出來的平均停留時間比問卷停留時間少一天左右,因為他們對游客的定義中沒有包括停留15天以上的游客。
總體來講,數據來源方法的不同導致了結果的不一樣。其實細算一下,如果包括所有的花費,總共的費用差不多。但是移動數據抓住了將近50萬的游客,問卷只有700多個;移動數據每個游客的費用是3美分,而問卷是19美元;移動數據每個游客大概有9個數據點,而問卷有124個數據點,包括花費、愛好、信息源、旅行計劃等;能回答的每個問題,移動數據花費是1667美元,而問卷是412美元;移動數據的誤差只有1%,問卷有4%。細致比較起來,這是兩種研究方法的不同??雌饋硪苿訑祿純?yōu)的地方更多,但問卷調查能回答移動數據不能回答的很多問題,雖然精度較低,但每個問題的花費其實更小。
三、 大數據的優(yōu)劣勢和展望
總結起來,大數據的優(yōu)勢有:幾乎是全部數據,可以沒有抽樣誤差;數據可以細致到每個個體;多個數據源的集合會發(fā)現意想不到的關聯和結論;可以達到實時反饋。大數據的劣勢在于:費用較高;我們有時候不需要那么精確的數據;當我們看到的廣告太針對我們的偏好、過于細分時會很可怕;大數據能回答的問題還很有限,移動大數據公司可以回答旅游者去過哪里,不能回答他們的花費情況。如果能把信用卡的數據和手機數據結合起來會十分有用,但法律和商業(yè)利益阻礙了數據的分享。很多時候研究者不知道到底是真實因果關系還是虛假相關。很多時候是變量,是虛假相關,所以預測能力并不高。
對于旅游大數據的未來,我們已經過了炒作的階段,研究者要從相關性的證明轉向精確性的計算;把旅游大數據和旅游官方統(tǒng)計數據、企業(yè)營銷數據相結合才會有生命力。對旅游的一個簡單定義就會影響研究的結果。更重要的是,需要多方數據的共享 —— 不僅是大數據革命,而且是全數據革命。把大數據和問卷數據、金融數據結合起來才更有效果。而且,我們也需要大數據產生算法的透明和重復性,這樣才能使研究更進一步。
(作者系該系副教授;收稿日期:2017-06-10)endprint