王航飛+賈素玲+李明偉
[摘 要]隨著旅游產(chǎn)業(yè)的逐步發(fā)展和Web 2.0時代的到來,各種與旅游目的地相關(guān)的輿情見諸網(wǎng)絡(luò),因此而產(chǎn)生的旅游網(wǎng)絡(luò)輿情數(shù)據(jù)量也與日俱增。然而,如何從海量的旅游網(wǎng)絡(luò)輿情數(shù)據(jù)中提取有價值的信息,成為了急需解決的問題。本文以澳門地區(qū)為例,從互聯(lián)網(wǎng)上采集與該地區(qū)相關(guān)的旅游輿情數(shù)據(jù),采用文本挖掘的相關(guān)技術(shù),建立主題模型并進行分析。這對于旅游企業(yè)維護企業(yè)形象、制定發(fā)展戰(zhàn)略;政府進行旅游目的地輿情監(jiān)測及制定建設(shè)規(guī)劃,具有積極的借鑒意義。
[關(guān)鍵詞]旅游;網(wǎng)絡(luò)輿情;澳門
doi:10.3969/j.issn.1673 - 0194.2017.14.113
[中圖分類號]F592.7 [文獻標識碼]A [文章編號]1673-0194(2017)14-0-02
0 引 言
隨著社會經(jīng)濟的平穩(wěn)發(fā)展,我國旅游業(yè)進入了蓬勃發(fā)展階段。同時,隨著信息技術(shù)的快速進步,新興的社會化媒體和傳統(tǒng)的大眾媒體,更加便捷地通過互聯(lián)網(wǎng)對旅游熱點事件或議題表達情感、意見、觀點和態(tài)度。旅游網(wǎng)絡(luò)輿情這一新興的網(wǎng)絡(luò)現(xiàn)象,越來越被科研工作者、政府、旅游企業(yè)所重視。針對旅游網(wǎng)絡(luò)輿情數(shù)據(jù)量大、噪聲多的特點,本文采用主題模型的方法對其進行分析研究,不僅可以及時掌握旅游者出游過程中的利益訴求,還可以了解旅游目的地的熱點問題,從而為政府機構(gòu)和旅游企業(yè)提供有價值的決策信息。澳門作為世界上有名的旅游目的地之一,廣受廣大旅游愛好者尤其是內(nèi)地游客的喜愛。自2003年澳門自由行政策開放以來,赴澳旅游人數(shù)大幅增加,其間的旅游問題層出不窮。因此,本文擬采集澳門旅游網(wǎng)絡(luò)輿情的相關(guān)數(shù)據(jù),建立主題模型并進行分析,并最終給出結(jié)論。
1 主題模型
主題模型是目前文本挖掘領(lǐng)域常用的語言模型,是結(jié)合機器學習和自然語言處理等相關(guān)方法的一種統(tǒng)計模型。主題模型的基本思想認為文本是由多個主題混合而成的,而主題是特征詞上的一種概率分布,即每篇文本是主題的混合分布,而每一個主題是一組特征詞的混合分布。主題模型中最常用的是LDA(Latent Dirichlet Allocation)。類似于分層貝葉斯,LDA模型包括3層(語料層、文檔層、詞層),如圖1所示。灰色陰影部分W代表可觀測隨機變量,Z和θ代表潛在變量,α和β是在語料層的超參數(shù),矩形框(plate)代表貝葉斯概率求解的迭代過程。最外邊的矩形框M代表文檔,里面的矩形框N代表在一個文檔中重復地選擇潛在主題和詞。
其中,α是服從Dirichlet分布的參數(shù),決定主題之間的差異性,α越小,主題之間差異性越大;θ是一個1×K的隨機列向量,表示各主題發(fā)生的概率,P(θ)~Dirichlet(α);zi,j是由θi概率分P(θ),產(chǎn)生的離散隨機變量,表示文檔i中詞j的話題概率;φ是一個K×|V|的矩陣,表示話題K的詞匯概率分布,且β是φ分布的超參數(shù)。那么,在α和β已知的情況下,可以得到θ、z、w的聯(lián)合分布:
因此,在LDA模型中,只需要知道α和β的參數(shù)值便可用于表示文檔集。通過貝葉斯概率模型,使用極大似然估計(EM)的方法求α和β的后驗分布。具體的參數(shù)估計方法此處不進行贅述。
困惑度(Perplexity)是一種常用來衡量主題模型的指標。通常來說,一個較低的困惑度的模型表示具有更好的泛化性能力。對于M篇文檔,困惑度的定義如下:
2 主題建模與分析:以澳門為例
2.1 數(shù)據(jù)來源及預處理
針對澳門地區(qū)2015年的旅游網(wǎng)絡(luò)輿情,本文使用網(wǎng)絡(luò)爬蟲采集每條輿情的標題、內(nèi)容、發(fā)布時間,其中,將發(fā)布時間轉(zhuǎn)化為時間戳,作為該輿情的唯一標識符(ID)。接著,對采集的內(nèi)容進行清洗、分詞、去停用詞等預處理操作。
值得注意的是,采集的澳門旅游輿情數(shù)據(jù)為繁體字,并不能簡單地將其轉(zhuǎn)換為簡體字進行處理。因為粵語在表達方式上與普通話存在一些差別。因此,為了保證模型的效果,本文沒有采取繁轉(zhuǎn)簡的操作,而是針對語料特點,反復迭代建立繁體停用詞表及字典。
2.2 主題模型訓練與結(jié)果分析
在預處理的基礎(chǔ)上,本文對2015年澳門旅游網(wǎng)絡(luò)輿情數(shù)據(jù)建立LDA主題模型。為了確定需要的主題的個數(shù),本文先設(shè)定主題數(shù)分別為10、20、30、40、50、70、90,分別得到各個主題數(shù)下的困惑度,并繪圖(見圖2)觀察。
根據(jù)圖2可以看出,主題數(shù)為20時,困惑度發(fā)生了明顯變化,且隨著主題數(shù)的增加,困惑度變化幅度不再顯著。同時,根據(jù)觀察所得結(jié)果,主題數(shù)為20時,各個主題之間差異相對明顯,且能代表所有網(wǎng)絡(luò)輿情。所以,選取最佳主題數(shù)為20,主題模型結(jié)果如圖3所示。
為了了解輿情的著重點,本文在訓練得到的LDA模型基礎(chǔ)上,得到每條輿情屬于哪個主題,從而可以統(tǒng)計得出每個主題的主題強度,結(jié)果如圖4所示。
統(tǒng)計結(jié)果顯示,主題10、主題11、主題2依次占有較大比重,是輿情的主要焦點。通過總結(jié)歸納,主題10主要與零售業(yè)相關(guān),主題11主要與政府旅游規(guī)劃相關(guān),主題2主要與政府立法活動有關(guān)。另外,通過主題模型的結(jié)果,還可以發(fā)現(xiàn),水貨客(主題3)、突發(fā)事件(主題17)、酒店業(yè)(主題16)、社會矛盾(主題20)、金融投資(主題1)等也是澳門旅游業(yè)中相對集中的話題。
3 結(jié) 語
本文以澳門為例,將文本挖掘方法中的LDA模型(Latent Dirichlet Allocation,LDA)應(yīng)用于旅游網(wǎng)絡(luò)輿情分析,對澳門地區(qū)2015年旅游網(wǎng)絡(luò)輿情有了整體、客觀的了解。這對于政府制定旅游政策和引導輿論方向,具有積極的借鑒意義。
主要參考文獻
[1]付業(yè)勤,鄭向敏.網(wǎng)絡(luò)新媒體時代旅游網(wǎng)絡(luò)輿情研究:源起、價值與構(gòu)想[J].河北學刊,2013(5).
[2] T K Landauer,D S Mcnamara,S Dennis,et al. Handbook of Latent Semantic Analysis[M].NewYork,NY:John Wiley & Sons Ltd,2007.endprint