張亞平,彭武良
(煙臺大學(xué) 經(jīng)濟管理學(xué)院,山東 煙臺 264000)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,在線旅游平臺得到了廣泛應(yīng)用。人們利用在線旅游平臺進行旅游目的地信息查詢、查看門票價格以及瀏覽在線評論等已逐漸成為旅游出行的習(xí)慣。去過旅游目的地的游客根據(jù)自己的感受和旅行經(jīng)歷在平臺上發(fā)布評論,其他潛在游客分析這些在線評論信息確定旅游意向。來自在線旅游平臺的旅游信息最終促成了游客的旅程安排。隨著中國文旅產(chǎn)業(yè)線上化進程的加快,構(gòu)建線上內(nèi)容資產(chǎn),已經(jīng)成為文旅產(chǎn)業(yè)為消費者和產(chǎn)業(yè)鏈上下游提供優(yōu)質(zhì)服務(wù)的重要方式,網(wǎng)絡(luò)評論成為研究熱點。分析旅游網(wǎng)絡(luò)數(shù)據(jù)對于深入了解旅游地的發(fā)展?fàn)顩r和促進旅游健康發(fā)展具有重要意義。文章對國內(nèi)外有關(guān)在線評論在旅游行業(yè)應(yīng)用的相關(guān)論文做了整理,以更清晰系統(tǒng)地認(rèn)識當(dāng)前旅游行業(yè)在線評論的研究現(xiàn)狀、研究方法。
當(dāng)前,國內(nèi)外學(xué)者對旅游行業(yè)在線評論的研究都有了一定成果。學(xué)者對在線評論的瀏覽和了解來自在線旅游平臺。當(dāng)前國外常用的OTA 平臺有Book.com、Trivago.com、TripAdvisor等,國內(nèi)研究主要圍繞攜程、去哪兒網(wǎng)、馬蜂窩等網(wǎng)站展開。Fazzolari 指出,在線評論中蘊含著潛在的可利用信息,旅游平臺可以通過挖掘這些信息找到促進自身發(fā)展的突破口[1]。對于當(dāng)前在線評論在旅游行業(yè)中的應(yīng)用來說,學(xué)者研究的角度多圍繞游客滿意度、酒店銷售、民宿居住、旅游目的地形象以及旅游服務(wù)質(zhì)量等[2-5]。在研究角度中,當(dāng)前對旅游影響因素和酒店銷售的研究較多,相比之下,對旅游目的地的研究較少。
對于在線評論文本的獲取,多數(shù)學(xué)者是運用八爪魚或者Python 爬取評論,也有少數(shù)學(xué)者選擇直接復(fù)制文本的方式。獲取數(shù)據(jù)后,對所獲取的文本首先要進行文本預(yù)處理,文本預(yù)處理的工作完成后就是通過文本分析探究學(xué)者所要研究的主題。學(xué)者對文本的處理所采用的方法多種多樣,總結(jié)起來大致分為以下幾種情況。首先是對文本基本特征的分析,文本基本特征分析主要包括高頻詞分析和語義網(wǎng)絡(luò)分析,劉佳林等以桂林興安靈渠景區(qū)為例,通過詞頻分析、語義網(wǎng)絡(luò)分析和情感分析來探究游客滿意度[6]。對于文本主題的提取,學(xué)者多采用LDA主題模型,也有學(xué)者利用詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)或者聚類分析進行特征提?。?-8]。學(xué)者利用構(gòu)建情感詞典或機器學(xué)習(xí)的方式分析游客情感傾向。除了文本分析法,也有學(xué)者采用線上評論和線下調(diào)查問卷結(jié)合的方式來獲取數(shù)據(jù),并利用實證分析驗證。也有少數(shù)學(xué)者基于扎根理論進行研究,如鄔超等以磧口古鎮(zhèn)為例,利用扎根理論和因子分析等方法對磧口古鎮(zhèn)旅游形象進行了探究[9]。
文章對國內(nèi)外文獻整理總結(jié),將現(xiàn)有研究的思路和角度等多方面內(nèi)容進行匯總,如圖1 所示。
由圖1 可知,在線評論在旅游管理中的研究路線主要包括以下幾個步驟。
圖1 在線評論研究路線
(1)理論研究。理論研究是展開研究的基礎(chǔ),理論研究可以明確已有的研究角度,發(fā)現(xiàn)研究中的不足,有利于更好地開展研究工作。
(2)在線評論文本信息的獲取。多通過數(shù)據(jù)爬蟲的方式獲得評論,網(wǎng)絡(luò)爬蟲借助Python 或者八爪魚采集器完成,也有少數(shù)學(xué)者選擇人工復(fù)制評論。有些研究以線下問卷或訪談的形式收集游客對旅游地的評價,再與線上評論相結(jié)合,以獲得更加全面的數(shù)據(jù)。
(3)文本預(yù)處理。文本預(yù)處理為下一步文本挖掘奠定基礎(chǔ)。文本的預(yù)處理主要包括以下方面:刪除無意義或者重復(fù)的評論、中文分詞和去除停用詞等。所謂無意義評論,指一些與旅游無關(guān)的評論。中文分詞多采用Jieba 分詞。關(guān)于去除停用詞,可借鑒哈爾濱工業(yè)大學(xué)停用詞庫、百度停用表等停用詞詞庫,結(jié)合研究文本信息的實際情況構(gòu)建停用詞庫。
(4)文本分析。通過文本分析挖掘評論文本中的有效信息,探究研究主題。文本分析主要包括以下幾種情況:文本基本特征的認(rèn)識、主題提取、情感傾向分析、實證分析驗證變量之間的關(guān)系、基于扎根理論的研究等。文本基本特征的認(rèn)識多借助于Rost Content Mining 軟件做高頻詞分析和語義網(wǎng)絡(luò)分析,提取文本中高頻出現(xiàn)的詞語,這些高頻詞語反映了游客的關(guān)注度,通過制作詞云形象明了地展示高頻詞的做法也不在少數(shù)。語義網(wǎng)絡(luò)分析可以構(gòu)建詞語之間的聯(lián)系,此軟件也可以做情感傾向分析,也有學(xué)者利用Python 的SnowNLP 第三方庫計算評論文本的情感得分,把評論分為積極、消極和中性評論。多數(shù)學(xué)者采用構(gòu)建情感詞典的方式計算情感得分,把文本型數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù)以進行更深層次的分析。除此之外,也有基于機器學(xué)習(xí)探究文本情感傾向的研究,比如,利用樸素貝葉斯和支持向量機的方法。當(dāng)然,構(gòu)建情感詞典和機器學(xué)習(xí)相結(jié)合的方法也未嘗不可。文本主題的提取是為了快速了解評論的主題,三層貝葉斯概率模型(Latent Dirichlet Allocation,LDA)通過詞與詞之間的共現(xiàn)率提取語料庫的主題,是最常用的文本主題提取模型之一。實證分析的運用主要是通過相關(guān)分析和回歸分析等驗證變量之間的關(guān)系。
雖然每個研究都有所不同,但是現(xiàn)有文獻的研究技術(shù)路線圖大都包括理論研究、數(shù)據(jù)獲取、文本預(yù)處理、文本分析4 個階段。
文章通過梳理總結(jié)國內(nèi)外旅游行業(yè)在線評論的研究成果,介紹了當(dāng)前學(xué)者主要的研究角度和研究思路。隨著當(dāng)前在線旅游平臺的逐漸完善,在線評論數(shù)據(jù)不斷增多,對在線評論進行深度挖掘,可以了解游客的偏好和態(tài)度傾向,對旅游目的地的形象改善、快速發(fā)展以及酒店銷售等方面起著重要作用,對旅游行業(yè)的在線評論進行研究具有重要價值。