旅游網(wǎng)絡(luò)輿情主題分析：以澳門為例

2017-09-20 04:21王航飛賈素玲李明偉

中國管理信息化 2017年14期

王航飛+賈素玲+李明偉

[摘要]隨著旅游產(chǎn)業(yè)的逐步發(fā)展和Web 2.0時代的到來，各種與旅游目的地相關(guān)的輿情見諸網(wǎng)絡(luò)，因此而產(chǎn)生的旅游網(wǎng)絡(luò)輿情數(shù)據(jù)量也與日俱增。然而，如何從海量的旅游網(wǎng)絡(luò)輿情數(shù)據(jù)中提取有價值的信息，成為了急需解決的問題。本文以澳門地區(qū)為例，從互聯(lián)網(wǎng)上采集與該地區(qū)相關(guān)的旅游輿情數(shù)據(jù)，采用文本挖掘的相關(guān)技術(shù)，建立主題模型并進行分析。這對于旅游企業(yè)維護企業(yè)形象、制定發(fā)展戰(zhàn)略；政府進行旅游目的地輿情監(jiān)測及制定建設(shè)規(guī)劃，具有積極的借鑒意義。

[關(guān)鍵詞]旅游；網(wǎng)絡(luò)輿情；澳門

doi：10.3969/j.issn.1673 - 0194.2017.14.113

[中圖分類號]F592.7 [文獻標識碼]A [文章編號]1673-0194（2017）14-0-02

0 引言

隨著社會經(jīng)濟的平穩(wěn)發(fā)展，我國旅游業(yè)進入了蓬勃發(fā)展階段。同時，隨著信息技術(shù)的快速進步，新興的社會化媒體和傳統(tǒng)的大眾媒體，更加便捷地通過互聯(lián)網(wǎng)對旅游熱點事件或議題表達情感、意見、觀點和態(tài)度。旅游網(wǎng)絡(luò)輿情這一新興的網(wǎng)絡(luò)現(xiàn)象，越來越被科研工作者、政府、旅游企業(yè)所重視。針對旅游網(wǎng)絡(luò)輿情數(shù)據(jù)量大、噪聲多的特點，本文采用主題模型的方法對其進行分析研究，不僅可以及時掌握旅游者出游過程中的利益訴求，還可以了解旅游目的地的熱點問題，從而為政府機構(gòu)和旅游企業(yè)提供有價值的決策信息。澳門作為世界上有名的旅游目的地之一，廣受廣大旅游愛好者尤其是內(nèi)地游客的喜愛。自2003年澳門自由行政策開放以來，赴澳旅游人數(shù)大幅增加，其間的旅游問題層出不窮。因此，本文擬采集澳門旅游網(wǎng)絡(luò)輿情的相關(guān)數(shù)據(jù)，建立主題模型并進行分析，并最終給出結(jié)論。

1 主題模型

主題模型是目前文本挖掘領(lǐng)域常用的語言模型，是結(jié)合機器學習和自然語言處理等相關(guān)方法的一種統(tǒng)計模型。主題模型的基本思想認為文本是由多個主題混合而成的，而主題是特征詞上的一種概率分布，即每篇文本是主題的混合分布，而每一個主題是一組特征詞的混合分布。主題模型中最常用的是LDA（Latent Dirichlet Allocation）。類似于分層貝葉斯，LDA模型包括3層（語料層、文檔層、詞層），如圖1所示。灰色陰影部分W代表可觀測隨機變量，Z和θ代表潛在變量，α和β是在語料層的超參數(shù)，矩形框（plate）代表貝葉斯概率求解的迭代過程。最外邊的矩形框M代表文檔，里面的矩形框N代表在一個文檔中重復地選擇潛在主題和詞。

其中，α是服從Dirichlet分布的參數(shù)，決定主題之間的差異性，α越小，主題之間差異性越大；θ是一個1×K的隨機列向量，表示各主題發(fā)生的概率，P（θ）～Dirichlet（α）；zi，j是由θi概率分P（θ），產(chǎn)生的離散隨機變量，表示文檔i中詞j的話題概率；φ是一個K×|V|的矩陣，表示話題K的詞匯概率分布，且β是φ分布的超參數(shù)。那么，在α和β已知的情況下，可以得到θ、z、w的聯(lián)合分布：

因此，在LDA模型中，只需要知道α和β的參數(shù)值便可用于表示文檔集。通過貝葉斯概率模型，使用極大似然估計（EM）的方法求α和β的后驗分布。具體的參數(shù)估計方法此處不進行贅述。

困惑度（Perplexity）是一種常用來衡量主題模型的指標。通常來說，一個較低的困惑度的模型表示具有更好的泛化性能力。對于M篇文檔，困惑度的定義如下：

2 主題建模與分析：以澳門為例

2.1 數(shù)據(jù)來源及預處理

針對澳門地區(qū)2015年的旅游網(wǎng)絡(luò)輿情，本文使用網(wǎng)絡(luò)爬蟲采集每條輿情的標題、內(nèi)容、發(fā)布時間，其中，將發(fā)布時間轉(zhuǎn)化為時間戳，作為該輿情的唯一標識符（ID）。接著，對采集的內(nèi)容進行清洗、分詞、去停用詞等預處理操作。

值得注意的是，采集的澳門旅游輿情數(shù)據(jù)為繁體字，并不能簡單地將其轉(zhuǎn)換為簡體字進行處理。因為粵語在表達方式上與普通話存在一些差別。因此，為了保證模型的效果，本文沒有采取繁轉(zhuǎn)簡的操作，而是針對語料特點，反復迭代建立繁體停用詞表及字典。

2.2 主題模型訓練與結(jié)果分析

在預處理的基礎(chǔ)上，本文對2015年澳門旅游網(wǎng)絡(luò)輿情數(shù)據(jù)建立LDA主題模型。為了確定需要的主題的個數(shù)，本文先設(shè)定主題數(shù)分別為10、20、30、40、50、70、90，分別得到各個主題數(shù)下的困惑度，并繪圖（見圖2）觀察。

根據(jù)圖2可以看出，主題數(shù)為20時，困惑度發(fā)生了明顯變化，且隨著主題數(shù)的增加，困惑度變化幅度不再顯著。同時，根據(jù)觀察所得結(jié)果，主題數(shù)為20時，各個主題之間差異相對明顯，且能代表所有網(wǎng)絡(luò)輿情。所以，選取最佳主題數(shù)為20，主題模型結(jié)果如圖3所示。

為了了解輿情的著重點，本文在訓練得到的LDA模型基礎(chǔ)上，得到每條輿情屬于哪個主題，從而可以統(tǒng)計得出每個主題的主題強度，結(jié)果如圖4所示。

統(tǒng)計結(jié)果顯示，主題10、主題11、主題2依次占有較大比重，是輿情的主要焦點。通過總結(jié)歸納，主題10主要與零售業(yè)相關(guān)，主題11主要與政府旅游規(guī)劃相關(guān)，主題2主要與政府立法活動有關(guān)。另外，通過主題模型的結(jié)果，還可以發(fā)現(xiàn)，水貨客（主題3）、突發(fā)事件（主題17）、酒店業(yè)（主題16）、社會矛盾（主題20）、金融投資（主題1）等也是澳門旅游業(yè)中相對集中的話題。

3 結(jié) 語

本文以澳門為例，將文本挖掘方法中的LDA模型（Latent Dirichlet Allocation，LDA）應(yīng)用于旅游網(wǎng)絡(luò)輿情分析，對澳門地區(qū)2015年旅游網(wǎng)絡(luò)輿情有了整體、客觀的了解。這對于政府制定旅游政策和引導輿論方向，具有積極的借鑒意義。

主要參考文獻

[1]付業(yè)勤，鄭向敏.網(wǎng)絡(luò)新媒體時代旅游網(wǎng)絡(luò)輿情研究：源起、價值與構(gòu)想[J].河北學刊，2013（5）.

[2] T K Landauer，D S Mcnamara，S Dennis，et al. Handbook of Latent Semantic Analysis[M].NewYork，NY：John Wiley & Sons Ltd，2007.endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

旅游網(wǎng)絡(luò)輿情主題分析：以澳門為例