国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

旅游業(yè)大數(shù)據(jù)來源與獲取分析

2016-12-06 18:31衛(wèi)俊杰
旅游縱覽·行業(yè)版 2016年11期
關(guān)鍵詞:搜索引擎旅游者旅游

衛(wèi)俊杰

旅游業(yè)與大數(shù)據(jù)有著內(nèi)在的本質(zhì)的聯(lián)系,旅游者在旅游過程中的每一個(gè)階段都與數(shù)據(jù)有關(guān)。在旅游活動(dòng)開始前旅游者就開始了搜集信息,在旅游過程中旅游者又通過社交媒體不斷的分享自己的旅游經(jīng)歷,在旅游活動(dòng)結(jié)束之后又面臨旅游者的各種活動(dòng)的反饋。隨著互聯(lián)網(wǎng)及IT技術(shù)的飛速發(fā)展,旅游者的各種信息在保護(hù)隱私的前提下不僅可以完整的保留下來,而且可以用于旅游行業(yè)未來的預(yù)測(cè)以及服務(wù)的改進(jìn),這也是旅游業(yè)大數(shù)據(jù)研究的基礎(chǔ)。在這樣的背景下,如何快速有效的獲取數(shù)據(jù)也成為每一位從業(yè)人員和科研工作者所困擾的問題。本文從國(guó)內(nèi)外現(xiàn)有案例的基礎(chǔ)上總結(jié)出目前旅游業(yè)大數(shù)據(jù)的主要來源和獲取方式,以期促進(jìn)我國(guó)旅游業(yè)大數(shù)據(jù)研究的發(fā)展。

引言

數(shù)據(jù)是科研工作的重要基礎(chǔ),大數(shù)據(jù)對(duì)與科學(xué)研究來說具有不可抗拒的魅力。國(guó)內(nèi)外一些研究者和研究機(jī)構(gòu)都給出了大數(shù)據(jù)的定義,麥肯錫在其一份商業(yè)報(bào)告中提出:“大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。”Mayer-Schonberger&Cukier認(rèn)為大數(shù)據(jù)是在因特網(wǎng)廣泛發(fā)展的基礎(chǔ)上產(chǎn)生的不能用傳統(tǒng)類型的關(guān)系數(shù)據(jù)庫處理的大量數(shù)據(jù)。ViktorMayer-Sch?nberger認(rèn)為大數(shù)據(jù)指不用抽樣調(diào)查這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。經(jīng)過多個(gè)企業(yè)、機(jī)構(gòu)和數(shù)據(jù)科學(xué)家對(duì)于大數(shù)據(jù)的理解闡述,雖然描述不一,但都存在一個(gè)普遍共識(shí),即“大數(shù)據(jù)”的關(guān)鍵是在種類繁多、數(shù)量龐大的數(shù)據(jù)中,快速獲取信息。

在旅游研究中,傳統(tǒng)意義上的定量研究主要依賴于抽樣方法建立模型,通過假設(shè)檢驗(yàn)從樣本推及到總體。在一個(gè)資源有限的時(shí)代,要收集總體的全部數(shù)據(jù)需要付出很高的代價(jià),抽樣是定量研究的常用方法,因?yàn)槠浞奖憧旖莴@得了研究者的偏愛。Nuzzo(2014)對(duì)傳統(tǒng)定量研究中模型中的假設(shè)檢驗(yàn)提出了質(zhì)疑,認(rèn)為人們?cè)跀?shù)據(jù)量較小的情況下過高的估計(jì)了P值的作用。同時(shí),在傳統(tǒng)的抽樣方法中,抽樣的過程往往有可能會(huì)存在研究者的偏見和對(duì)游客產(chǎn)生影響,導(dǎo)致獲取的數(shù)據(jù)不夠客觀。大數(shù)據(jù)記錄的是旅游者的平常狀態(tài),這也會(huì)將研究者對(duì)旅游者的影響盡量減小。旅游學(xué)科的定量的研究因?yàn)榇髷?shù)據(jù)的收集與存儲(chǔ)發(fā)生了變化,數(shù)據(jù)不再局限于抽樣方法獲得的小樣本,在一定意義上我們甚至可以獲得總體的全部數(shù)據(jù)。在全數(shù)據(jù)模式下“樣本=總體”,社會(huì)科學(xué)的定量研究方法也將因此產(chǎn)生較大的改變。

社會(huì)科學(xué)的研究方法不能局限于理論模型的建立,更重要的是獲取更完整的數(shù)據(jù)和處理數(shù)據(jù)的工具。目前,大部分的研究都集中于數(shù)據(jù)的存儲(chǔ)和分析,大數(shù)據(jù)的獲取問題仍然是一個(gè)相對(duì)被忽視的領(lǐng)域,但是我們要認(rèn)識(shí)到大數(shù)據(jù)的獲取應(yīng)該與其他研究一樣重要。然而,僅有少數(shù)的公司有足夠的資源或者能力去獲得巨量的數(shù)據(jù)。因此不僅要掌握分析大數(shù)據(jù)的技能,更重要的是利用各種技術(shù)去收集數(shù)據(jù),并把這些非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換為我們可用的信息。

鑒于此,本文從國(guó)內(nèi)外已有的案例出發(fā),對(duì)旅游業(yè)大數(shù)據(jù)的獲取途徑和方法進(jìn)行梳理,在總結(jié)各類方法的主要特點(diǎn)、優(yōu)劣勢(shì)、使用范圍的基礎(chǔ)上,指出目前研究中存在的主要矛盾,以期拋磚引玉,促進(jìn)我國(guó)旅游業(yè)大數(shù)據(jù)研究的進(jìn)一步發(fā)展。

一、旅游業(yè)大數(shù)據(jù)來源分類

旅游意味著旅游者空間位置的變換,當(dāng)下的旅游者在活動(dòng)過程中往往會(huì)攜帶一些智能設(shè)備(比如手機(jī)),并用這些設(shè)備與旅游產(chǎn)業(yè)進(jìn)行交互,在交互的過程中將會(huì)產(chǎn)生數(shù)量非常龐大的數(shù)據(jù)。根據(jù)公眾貢獻(xiàn)數(shù)據(jù)的主動(dòng)性,可以把大數(shù)據(jù)分為主動(dòng)式與被動(dòng)式。其中,主動(dòng)式大數(shù)據(jù)主要指旅游電商平臺(tái)購買后的評(píng)價(jià)和游記類網(wǎng)站的內(nèi)容分享,本文中的主動(dòng)式數(shù)據(jù)只要指旅游者的用戶生成內(nèi)容(UGC)。被動(dòng)式大數(shù)據(jù)是游客在使用智能設(shè)備時(shí)在運(yùn)營(yíng)商或旅游服務(wù)提供商后臺(tái)產(chǎn)生的數(shù)據(jù),如使用網(wǎng)站交易數(shù)據(jù)、搜索引擎、網(wǎng)站的瀏覽痕跡、旅行GPS軌跡數(shù)據(jù)、運(yùn)營(yíng)商基站數(shù)據(jù)等,本文把被動(dòng)式大數(shù)據(jù)來源分成了三類:搜索引擎,網(wǎng)站分析系統(tǒng)和現(xiàn)代追蹤設(shè)備。對(duì)這些海量多類型數(shù)據(jù)的獲取與分析能夠?yàn)槁糜尉皡^(qū)發(fā)展與旅游相關(guān)領(lǐng)域的研究帶來深遠(yuǎn)影響。

所有的這些信息都可以用來分析旅游者的喜好、動(dòng)機(jī)以及旅游過程中的體驗(yàn)。當(dāng)我們把所有的這些信息都整合在一起的時(shí)候,就會(huì)變的更加有說服力。

(一)搜索引擎

目前關(guān)于搜索引擎的研究主要集中在計(jì)算機(jī)科學(xué)與信息科學(xué)領(lǐng)域,主要關(guān)注的焦點(diǎn)是搜索引擎的排序算法。但是我們要認(rèn)識(shí)到,旅游者作為搜索引擎的使用者,網(wǎng)絡(luò)搜索數(shù)據(jù)記錄了用戶的搜索關(guān)注與需求,為研究旅游經(jīng)濟(jì)行為提供了必要數(shù)據(jù)基礎(chǔ)。搜索引擎已經(jīng)成為旅游者查詢和篩選信息的最重要的途徑之一,同時(shí)也成為了旅游服務(wù)提供商發(fā)現(xiàn)潛在的旅游者的最佳方式。

來自于搜索引擎的大數(shù)據(jù)主要由旅游者的原始查詢記錄、搜索引擎提供的指數(shù)和大數(shù)據(jù)API三部分組成。Pan,B.(2006)通過Excite公司提供給匹茲堡大學(xué)的1025910次查詢記錄分析了與旅游相關(guān)的關(guān)鍵詞,他發(fā)現(xiàn)旅游者在每次搜索旅游目的地信息時(shí)大概使用三個(gè)關(guān)鍵詞,每個(gè)查詢過程至少要搜索三次,在搜索結(jié)果頁面旅游者會(huì)往后翻1.7頁。方世巧,馬耀峰(2012)以百度搜索結(jié)果為數(shù)據(jù)源,對(duì)西安市A級(jí)景區(qū)信息與旅游流進(jìn)行耦合分析。

Google是世界上最流行的搜索引擎,Baidu是中國(guó)市場(chǎng)份額最高的搜索引擎,他們都提供免費(fèi)的歷史搜索數(shù)據(jù)指數(shù)查詢,分別被稱為googletrend和baiduindex。黃先開(2013)以BaiduIndex為數(shù)據(jù)源,對(duì)北京故宮的游客進(jìn)行了預(yù)測(cè)研究。王煉,賈建民(2014)以BaiduIndex為數(shù)據(jù)源,對(duì)黃金周期間的旅游需求進(jìn)行了預(yù)測(cè)。ProsperF.Bangwayo-Skeete(2015)通過在googletrend中搜索“酒店和航班”得到的時(shí)間序列數(shù)據(jù)對(duì)未來的游客量進(jìn)行了預(yù)測(cè)。RobertoRivera(2016)以GoogleTrend為數(shù)據(jù)源對(duì)波多黎各的酒店預(yù)定進(jìn)行了預(yù)測(cè)。

隨著算法的改進(jìn)和存儲(chǔ)技術(shù)的提升,搜索引擎每天處理的數(shù)據(jù)量越來越大,百度每天要處理近100PB數(shù)據(jù),這對(duì)于大數(shù)據(jù)研究者也提出了挑戰(zhàn),因?yàn)檫@么大的數(shù)據(jù)量不僅需要強(qiáng)大的計(jì)算服務(wù)器,而且需要非常完善的算法。為了避免這些問題出現(xiàn),百度開放了專門的大數(shù)據(jù)旅游API接口。研究者可以通過程序設(shè)計(jì)與百度API對(duì)接來獲取數(shù)據(jù)。雖然API技術(shù)對(duì)于編程技術(shù)人員來說并不復(fù)雜,但是從我國(guó)的研究文獻(xiàn)來說,還沒有出現(xiàn)旅游業(yè)相關(guān)的研究。國(guó)外雖然有相關(guān)文獻(xiàn),但是也并不多。

(二)網(wǎng)站分析系統(tǒng)

獲取網(wǎng)站流量統(tǒng)計(jì)資料通常有兩種方法:一種是采用自己開發(fā)的網(wǎng)站流量分析服務(wù);另一種是通過在自己的網(wǎng)站服務(wù)器端安裝統(tǒng)計(jì)分析軟件來進(jìn)行網(wǎng)站流量監(jiān)測(cè)(如:百度統(tǒng)計(jì),GoogleAnalytics)。這些數(shù)據(jù)大致可以分為三類,每類包含若干數(shù)量的統(tǒng)計(jì)指標(biāo)。

因?yàn)檫@類數(shù)據(jù)的獲取需要在網(wǎng)站頁面中嵌入javascript代碼,多數(shù)的研究者并沒有實(shí)際運(yùn)營(yíng)網(wǎng)站或者是沒有權(quán)限嵌入代碼,所以這類工作主要由網(wǎng)站數(shù)據(jù)分析人員完成,因此國(guó)內(nèi)外文獻(xiàn)并不多。BeatrizPlaza通過GoogleAnalytics分析了http://www.scholars-on-bilbao.info的游客訪問數(shù)據(jù)。

因?yàn)榭紤]到商業(yè)數(shù)據(jù)不愿被其他機(jī)構(gòu)獲取,有些網(wǎng)站往往獨(dú)立開發(fā)自己的分析系統(tǒng)。房如華以酷訊旅游為例分析了如何獲取潛在的旅游者在網(wǎng)站的點(diǎn)擊行為、訪問路徑、訪問內(nèi)容等,并通過數(shù)據(jù)的清洗、分析、挖掘來提高用戶的轉(zhuǎn)化率。

(三)現(xiàn)代追蹤技術(shù)

隨著通信技術(shù)的飛速發(fā)展,旅游研究的方法、管理的工具以及市場(chǎng)營(yíng)銷的方式也發(fā)生了改變?,F(xiàn)代追蹤技術(shù)及通信數(shù)據(jù)的積累讓研究者重新思考用一些新的概念和方法來研究旅游業(yè)。根據(jù)使用設(shè)備的不同,本文將其按照數(shù)據(jù)來源的不同分為移動(dòng)電話、GPS和藍(lán)牙數(shù)據(jù)。

最早將移動(dòng)電話追蹤定位技術(shù)用于旅游進(jìn)行探索和概念研究的是Ahas,R.,&Mark,?.(2005)。JanikaRaun用EMT提供的在愛沙尼亞漫游的外地手機(jī)進(jìn)行了研究,他的數(shù)據(jù)主要由兩部分組成,第一部分是來自于塔林和哈留的215643個(gè)電話的406590次訪問,第二部分?jǐn)?shù)據(jù)來自于到訪saare的47377個(gè)電話的59401次訪問。隨后又有一些學(xué)者開發(fā)出了不同的數(shù)據(jù)源研究了旅游者更為深層次的空間行為。TelefónicaandRocaSalvatella在一份關(guān)于西班牙的旅游大數(shù)據(jù)報(bào)告中利用了電信運(yùn)營(yíng)商TelefónicaMóvilesEspa?a提供的到西班牙馬德里和巴薩羅那的680928個(gè)電話的漫游數(shù)據(jù)和BBVA銀行提供的168921張銀行卡跨境消費(fèi)數(shù)據(jù),這些數(shù)據(jù)涉及到的旅游者來自于21個(gè)不同的國(guó)家。中國(guó)旅游研究院和中國(guó)電信聯(lián)合實(shí)驗(yàn)室利用電信提供的手機(jī)定位數(shù)據(jù),形成了國(guó)內(nèi)首份大數(shù)據(jù)鄉(xiāng)村旅游發(fā)展報(bào)告。但是我們從報(bào)告中可以看出,國(guó)內(nèi)的報(bào)告無論是從形式上還是內(nèi)容的處理上都顯得非常粗糙,都停留在簡(jiǎn)單的數(shù)據(jù)描述上,還沒有對(duì)數(shù)據(jù)進(jìn)行深入挖掘。雖然研究者們對(duì)電信運(yùn)營(yíng)商的數(shù)據(jù)的關(guān)注與日俱增,但是我們也應(yīng)該清醒的認(rèn)識(shí)到,它的使用仍然存在著諸多困難,尤其在對(duì)數(shù)據(jù)的監(jiān)測(cè)和隱私的處理方面,往往很難取得平衡。

在許多學(xué)者的研究中,GPS都是非常重要的追蹤技術(shù)。國(guó)內(nèi)也有學(xué)者利用GPS設(shè)備采集游客活動(dòng)信息,但其樣本作為抽樣推斷都顯得有些單薄。作為研究旅游者行為的非常重要的數(shù)據(jù)來源,受到了許多學(xué)者的青睞。但是我們也要認(rèn)識(shí)到,GPS技術(shù)本身也存在局限性。由于GPS技術(shù)的限制,精確度只能到5-8米,當(dāng)旅游者進(jìn)入室內(nèi)時(shí)往往就會(huì)失去聯(lián)系。同時(shí),當(dāng)旅游者知道自己在參與某項(xiàng)研究的時(shí)候,往往也會(huì)對(duì)自己的路線進(jìn)行限定,同時(shí)大規(guī)模應(yīng)用GPS設(shè)備也會(huì)加大研究的費(fèi)用。目前很多智能設(shè)備都提供了GPS功能,但是這種數(shù)據(jù)屬于游客的隱私,一般不能用于研究。

與GPS相比,藍(lán)牙設(shè)備發(fā)射的信號(hào)傳輸距離較短,因此它的定位數(shù)據(jù)在室內(nèi)的表現(xiàn)更好。YujiYoshimura利用藍(lán)牙探測(cè)器在盧浮宮博物館收集了24452個(gè)設(shè)備的位置信息,用于分析博物館內(nèi)的擁擠現(xiàn)象。Versichele,M.在根特節(jié)中利用藍(lán)牙掃描儀收集了80828個(gè)藍(lán)牙設(shè)備的152487個(gè)運(yùn)動(dòng)軌跡信息,分析了在事件旅游中的游客行為。

目前來源于追蹤定位技術(shù)的大數(shù)據(jù)方面的實(shí)證研究主要來自于國(guó)外的學(xué)者和研究機(jī)構(gòu),國(guó)內(nèi)的相關(guān)研究主要還集中在方法和技術(shù)的討論,并沒有落到實(shí)處。

(四)旅游者用戶生成內(nèi)容(UGC)

旅游者用戶生成內(nèi)容主要由電商平臺(tái)的旅游產(chǎn)品評(píng)價(jià)和旅游類的社交媒體網(wǎng)站內(nèi)容構(gòu)成。電商平臺(tái)提供了消費(fèi)者對(duì)商品進(jìn)行交流、評(píng)價(jià)的空間,這也使得消費(fèi)者與零售商的距離變的更近。研究者對(duì)與產(chǎn)品的電子口碑(eWOM)的關(guān)注也越來越多,這不僅體現(xiàn)在人們對(duì)于書籍、CD、電子商品的研究中,還體現(xiàn)在對(duì)旅游消費(fèi)者的在線評(píng)論的實(shí)證研究上。WenjingDuan通過第三方公司收集了華盛頓地區(qū)最受歡迎的前十家酒店網(wǎng)站上的70103評(píng)價(jià)。Wang,Park,andFesenmaier(2010)用智能手機(jī)中排行前100的旅游類的app收集游客評(píng)價(jià),并利用爬蟲采集了37133條評(píng)論,達(dá)到了總評(píng)論數(shù)的75%。通過分析他們發(fā)現(xiàn),字?jǐn)?shù)較少的評(píng)論主要都集中與情感評(píng)價(jià),例如“喜歡”,“吸引人”,“失望”等,這些對(duì)旅游的體驗(yàn)僅提供較少的信息;負(fù)面的評(píng)價(jià)大多和app的體驗(yàn)有關(guān)。他們對(duì)于所有評(píng)論進(jìn)行了文本分析,通過分詞系統(tǒng)分析了不同詞語出現(xiàn)的頻率。用twitter數(shù)據(jù)創(chuàng)立了美國(guó)經(jīng)濟(jì)中的三個(gè)與工作相關(guān)的指數(shù)。

社交媒體(SNS)在過去的幾年里保存了非常龐大的用戶生成內(nèi)容,對(duì)我們理解旅游者的行為和體驗(yàn),態(tài)度和偏好,旅游目的地的影像提供了非常有價(jià)值的信息。KohyaOkuyamaandKeijiYanai通過API獲取了旅游者在Flickr發(fā)布的20000張帶有位置標(biāo)記的照片,并從游記圖片中分析游客的軌跡,進(jìn)而提出旅游線路規(guī)劃系統(tǒng)。StepchenkovaandZhan從游客分享在Flickr的23000張照片中抽取了500張,分析了游客對(duì)秘魯?shù)挠∠?。Pan,MacLaurin用語義網(wǎng)絡(luò)的方法從旅游博客UGC分析了查南卡羅來納州的爾斯頓的旅游形象。還有更多的研究用網(wǎng)絡(luò)民族志和博客志的方法分析了游客對(duì)于旅游目的地和當(dāng)?shù)鼐用竦挠∠螅℉su,Dehuang,&Woodside,2009;Woodside,Cruickshank,&Dehuang,2007)。吳靜采集了Flickr網(wǎng)站上的500位游客的1872張照片,分析了南京市游客旅游流動(dòng)性空間特征。

二、在數(shù)據(jù)獲取中存在的問題

(一)隱私與數(shù)據(jù)所有權(quán)

國(guó)內(nèi)外學(xué)者在獲取大數(shù)據(jù)時(shí)面臨的最大的問題就是隱私的保護(hù)。這其中既有數(shù)據(jù)隱私權(quán)的立法保護(hù)問題,也有因保護(hù)隱私而帶來的數(shù)據(jù)處理的困難。首先,健全的隱私保護(hù)法律制度,是學(xué)者在允許的范圍內(nèi)自由取用數(shù)據(jù)基礎(chǔ),也是大數(shù)據(jù)學(xué)術(shù)研究的基礎(chǔ)。在法律的真空區(qū)做研究,每個(gè)學(xué)者都會(huì)感到壓力重重,瞻前顧后。比如基于電信運(yùn)營(yíng)商數(shù)據(jù)的旅游研究,國(guó)外的報(bào)告一般都有專門的章節(jié)說明隱私的保護(hù)情況,在這些章節(jié)中我發(fā)現(xiàn)國(guó)外的數(shù)據(jù)保護(hù)立法相對(duì)國(guó)內(nèi)來說好一些,但也不夠完善。其次,國(guó)外的研究往往將數(shù)據(jù)的獲取與分析過程進(jìn)行分離,數(shù)據(jù)通過第三方機(jī)構(gòu)的脫敏處理才能交給研究者。因?yàn)殡[私保護(hù),第三方機(jī)構(gòu)在數(shù)據(jù)為了防止個(gè)人數(shù)據(jù)被追蹤,會(huì)將不同時(shí)間段的數(shù)據(jù)標(biāo)記為不同的設(shè)備,這也造成了研究者的困擾。因?yàn)槁糜握叩穆糜涡袨樵谶@些報(bào)告中我們看到了國(guó)外的數(shù)據(jù)保護(hù)法有移動(dòng)運(yùn)營(yíng)商在提供數(shù)據(jù)時(shí),會(huì)將所有的個(gè)人信息隱去。這也將導(dǎo)致同一個(gè)設(shè)備,在不同的時(shí)間段內(nèi)會(huì)被標(biāo)記為不同的編號(hào),給后續(xù)的跟蹤研究造成很大的麻煩。

(二)數(shù)據(jù)記錄與存儲(chǔ)的口徑不一致

各種不同來源的相同類型的數(shù)據(jù)匯總在一起,是大數(shù)據(jù)形成的基礎(chǔ),但同時(shí)我們又認(rèn)識(shí)到,各種不同類型的企業(yè)、平臺(tái)在之前的數(shù)據(jù)存儲(chǔ)的過程中并沒有考慮過整合,因此在匯總時(shí)就出現(xiàn)了因數(shù)據(jù)的口徑不一致而導(dǎo)致的整合困難。這種困難首先體現(xiàn)在存儲(chǔ)方式上,不同機(jī)構(gòu)的數(shù)據(jù)存儲(chǔ)方式可能千差萬別,比如有些機(jī)構(gòu)把數(shù)據(jù)存儲(chǔ)在關(guān)系型的數(shù)據(jù)庫中,有些機(jī)構(gòu)把數(shù)據(jù)存儲(chǔ)在非關(guān)系型的數(shù)據(jù)庫中;有些機(jī)構(gòu)把數(shù)據(jù)存儲(chǔ)在文本文件或者超文本文件中,還有些機(jī)構(gòu)把數(shù)據(jù)存儲(chǔ)在圖片或者音頻、視頻中。各種存儲(chǔ)的類型之間差異巨大,如果要進(jìn)行數(shù)據(jù)分析首先必須保證數(shù)據(jù)記錄與存儲(chǔ)的口徑一致。其次還體現(xiàn)在數(shù)據(jù)的格式方面,比如不同的網(wǎng)站在存儲(chǔ)用戶ID時(shí)的策略有可能不同,有些網(wǎng)站的ID時(shí)郵箱,有些是字母,有些是字母和數(shù)字的組合等等,這給數(shù)據(jù)整合帶來的問題是,當(dāng)一名顧客在不同的網(wǎng)站注冊(cè)不同的ID并進(jìn)行活動(dòng)時(shí),如何才能把他們識(shí)別為同一個(gè)人?

在數(shù)據(jù)收集與處理的過程中,數(shù)據(jù)清洗的很重要的作用就是保證數(shù)據(jù)的口徑一致,這也耗費(fèi)了數(shù)據(jù)工作者非常大的精力。盡管“臟數(shù)據(jù)”不可避免,但是在未來的數(shù)據(jù)記錄與存儲(chǔ)的過程中,我們也應(yīng)該提倡更加標(biāo)準(zhǔn)化的存儲(chǔ)方式,以減少數(shù)據(jù)清洗的壓力。

(三)行業(yè),技術(shù)壁壘高

互聯(lián)網(wǎng)時(shí)代的到來,給我們的生活帶來極大的便捷,旅游者可以不出家門便預(yù)定到合適的旅游產(chǎn)品??墒菍?duì)于企業(yè)來說,信息不對(duì)稱卻開始變得難以忍受,比如旅游產(chǎn)品的經(jīng)銷商往往要付出巨額花費(fèi)才能得到自己的數(shù)據(jù)。極少數(shù)的公司利用長(zhǎng)期運(yùn)營(yíng)的優(yōu)勢(shì)積累了大量的數(shù)據(jù),長(zhǎng)期休眠在自己的硬盤中,在大數(shù)據(jù)時(shí)代到來之后,這些公司才意識(shí)到這些數(shù)據(jù)將會(huì)是一筆巨大的財(cái)富。而新進(jìn)入的公司卻因?yàn)闆]有業(yè)務(wù)數(shù)據(jù)積累導(dǎo)致很難追趕已經(jīng)存儲(chǔ)了大量數(shù)據(jù)的少數(shù)公司,這種情況可能還會(huì)隨著時(shí)間的推移繼續(xù)加劇。

如何打破這種壁壘,讓數(shù)據(jù)流動(dòng)起來,并實(shí)現(xiàn)數(shù)據(jù)的整合,數(shù)據(jù)的價(jià)值才會(huì)被充分利用,或許這也是未來我們應(yīng)該努力的方向。

大數(shù)據(jù)時(shí)代的旅游研究是一個(gè)全新的起跑線,此刻我們與國(guó)外的研究機(jī)構(gòu)一同出發(fā)。在這一的研究領(lǐng)域,我們要充分利用我們互聯(lián)網(wǎng)的優(yōu)勢(shì),在立法保護(hù)的基礎(chǔ)上,更快更好的促進(jìn)旅游業(yè)大數(shù)據(jù)科學(xué)的進(jìn)一步發(fā)展。

(作者單位:山西師范大學(xué)歷史與旅游文化學(xué)院)

猜你喜歡
搜索引擎旅游者旅游
旅行社未經(jīng)旅游者同意安排購物屬違約
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
出國(guó)旅游的42個(gè)表達(dá)
戶外旅游十件貼身帶
等一會(huì)兒
甘孜| 淮滨县| 张家界市| 宜章县| 朝阳县| 宁南县| 安岳县| 紫云| 奉贤区| 邵武市| 青海省| 长泰县| 沁阳市| 宜都市| 习水县| 靖边县| 肃宁县| 徐水县| 榆林市| 湘乡市| 长垣县| 临猗县| 合作市| 东乡| 耿马| 临武县| 临汾市| 贵德县| 建瓯市| 盐山县| 永春县| 略阳县| 肥东县| 两当县| 松桃| 宜兰县| 文水县| 香河县| 广宗县| 昌宁县| 阿城市|