国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

旅游網(wǎng)絡(luò)輿情主題分析:以澳門為例

2017-09-20 04:21王航飛賈素玲李明偉
中國管理信息化 2017年14期
關(guān)鍵詞:網(wǎng)絡(luò)輿情澳門旅游

王航飛+賈素玲+李明偉

[摘 要]隨著旅游產(chǎn)業(yè)的逐步發(fā)展和Web 2.0時代的到來,各種與旅游目的地相關(guān)的輿情見諸網(wǎng)絡(luò),因此而產(chǎn)生的旅游網(wǎng)絡(luò)輿情數(shù)據(jù)量也與日俱增。然而,如何從海量的旅游網(wǎng)絡(luò)輿情數(shù)據(jù)中提取有價值的信息,成為了急需解決的問題。本文以澳門地區(qū)為例,從互聯(lián)網(wǎng)上采集與該地區(qū)相關(guān)的旅游輿情數(shù)據(jù),采用文本挖掘的相關(guān)技術(shù),建立主題模型并進行分析。這對于旅游企業(yè)維護企業(yè)形象、制定發(fā)展戰(zhàn)略;政府進行旅游目的地輿情監(jiān)測及制定建設(shè)規(guī)劃,具有積極的借鑒意義。

[關(guān)鍵詞]旅游;網(wǎng)絡(luò)輿情;澳門

doi:10.3969/j.issn.1673 - 0194.2017.14.113

[中圖分類號]F592.7 [文獻標識碼]A [文章編號]1673-0194(2017)14-0-02

0 引 言

隨著社會經(jīng)濟的平穩(wěn)發(fā)展,我國旅游業(yè)進入了蓬勃發(fā)展階段。同時,隨著信息技術(shù)的快速進步,新興的社會化媒體和傳統(tǒng)的大眾媒體,更加便捷地通過互聯(lián)網(wǎng)對旅游熱點事件或議題表達情感、意見、觀點和態(tài)度。旅游網(wǎng)絡(luò)輿情這一新興的網(wǎng)絡(luò)現(xiàn)象,越來越被科研工作者、政府、旅游企業(yè)所重視。針對旅游網(wǎng)絡(luò)輿情數(shù)據(jù)量大、噪聲多的特點,本文采用主題模型的方法對其進行分析研究,不僅可以及時掌握旅游者出游過程中的利益訴求,還可以了解旅游目的地的熱點問題,從而為政府機構(gòu)和旅游企業(yè)提供有價值的決策信息。澳門作為世界上有名的旅游目的地之一,廣受廣大旅游愛好者尤其是內(nèi)地游客的喜愛。自2003年澳門自由行政策開放以來,赴澳旅游人數(shù)大幅增加,其間的旅游問題層出不窮。因此,本文擬采集澳門旅游網(wǎng)絡(luò)輿情的相關(guān)數(shù)據(jù),建立主題模型并進行分析,并最終給出結(jié)論。

1 主題模型

主題模型是目前文本挖掘領(lǐng)域常用的語言模型,是結(jié)合機器學習和自然語言處理等相關(guān)方法的一種統(tǒng)計模型。主題模型的基本思想認為文本是由多個主題混合而成的,而主題是特征詞上的一種概率分布,即每篇文本是主題的混合分布,而每一個主題是一組特征詞的混合分布。主題模型中最常用的是LDA(Latent Dirichlet Allocation)。類似于分層貝葉斯,LDA模型包括3層(語料層、文檔層、詞層),如圖1所示。灰色陰影部分W代表可觀測隨機變量,Z和θ代表潛在變量,α和β是在語料層的超參數(shù),矩形框(plate)代表貝葉斯概率求解的迭代過程。最外邊的矩形框M代表文檔,里面的矩形框N代表在一個文檔中重復地選擇潛在主題和詞。

其中,α是服從Dirichlet分布的參數(shù),決定主題之間的差異性,α越小,主題之間差異性越大;θ是一個1×K的隨機列向量,表示各主題發(fā)生的概率,P(θ)~Dirichlet(α);zi,j是由θi概率分P(θ),產(chǎn)生的離散隨機變量,表示文檔i中詞j的話題概率;φ是一個K×|V|的矩陣,表示話題K的詞匯概率分布,且β是φ分布的超參數(shù)。那么,在α和β已知的情況下,可以得到θ、z、w的聯(lián)合分布:

因此,在LDA模型中,只需要知道α和β的參數(shù)值便可用于表示文檔集。通過貝葉斯概率模型,使用極大似然估計(EM)的方法求α和β的后驗分布。具體的參數(shù)估計方法此處不進行贅述。

困惑度(Perplexity)是一種常用來衡量主題模型的指標。通常來說,一個較低的困惑度的模型表示具有更好的泛化性能力。對于M篇文檔,困惑度的定義如下:

2 主題建模與分析:以澳門為例

2.1 數(shù)據(jù)來源及預處理

針對澳門地區(qū)2015年的旅游網(wǎng)絡(luò)輿情,本文使用網(wǎng)絡(luò)爬蟲采集每條輿情的標題、內(nèi)容、發(fā)布時間,其中,將發(fā)布時間轉(zhuǎn)化為時間戳,作為該輿情的唯一標識符(ID)。接著,對采集的內(nèi)容進行清洗、分詞、去停用詞等預處理操作。

值得注意的是,采集的澳門旅游輿情數(shù)據(jù)為繁體字,并不能簡單地將其轉(zhuǎn)換為簡體字進行處理。因為粵語在表達方式上與普通話存在一些差別。因此,為了保證模型的效果,本文沒有采取繁轉(zhuǎn)簡的操作,而是針對語料特點,反復迭代建立繁體停用詞表及字典。

2.2 主題模型訓練與結(jié)果分析

在預處理的基礎(chǔ)上,本文對2015年澳門旅游網(wǎng)絡(luò)輿情數(shù)據(jù)建立LDA主題模型。為了確定需要的主題的個數(shù),本文先設(shè)定主題數(shù)分別為10、20、30、40、50、70、90,分別得到各個主題數(shù)下的困惑度,并繪圖(見圖2)觀察。

根據(jù)圖2可以看出,主題數(shù)為20時,困惑度發(fā)生了明顯變化,且隨著主題數(shù)的增加,困惑度變化幅度不再顯著。同時,根據(jù)觀察所得結(jié)果,主題數(shù)為20時,各個主題之間差異相對明顯,且能代表所有網(wǎng)絡(luò)輿情。所以,選取最佳主題數(shù)為20,主題模型結(jié)果如圖3所示。

為了了解輿情的著重點,本文在訓練得到的LDA模型基礎(chǔ)上,得到每條輿情屬于哪個主題,從而可以統(tǒng)計得出每個主題的主題強度,結(jié)果如圖4所示。

統(tǒng)計結(jié)果顯示,主題10、主題11、主題2依次占有較大比重,是輿情的主要焦點。通過總結(jié)歸納,主題10主要與零售業(yè)相關(guān),主題11主要與政府旅游規(guī)劃相關(guān),主題2主要與政府立法活動有關(guān)。另外,通過主題模型的結(jié)果,還可以發(fā)現(xiàn),水貨客(主題3)、突發(fā)事件(主題17)、酒店業(yè)(主題16)、社會矛盾(主題20)、金融投資(主題1)等也是澳門旅游業(yè)中相對集中的話題。

3 結(jié) 語

本文以澳門為例,將文本挖掘方法中的LDA模型(Latent Dirichlet Allocation,LDA)應(yīng)用于旅游網(wǎng)絡(luò)輿情分析,對澳門地區(qū)2015年旅游網(wǎng)絡(luò)輿情有了整體、客觀的了解。這對于政府制定旅游政策和引導輿論方向,具有積極的借鑒意義。

主要參考文獻

[1]付業(yè)勤,鄭向敏.網(wǎng)絡(luò)新媒體時代旅游網(wǎng)絡(luò)輿情研究:源起、價值與構(gòu)想[J].河北學刊,2013(5).

[2] T K Landauer,D S Mcnamara,S Dennis,et al. Handbook of Latent Semantic Analysis[M].NewYork,NY:John Wiley & Sons Ltd,2007.endprint

猜你喜歡
網(wǎng)絡(luò)輿情澳門旅游
澳門回歸20周年:“一國兩制”的回溯與思考
澳門回歸日
旅游
“互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
淺析網(wǎng)絡(luò)輿情治理
基于社會穩(wěn)定視角的網(wǎng)絡(luò)輿情預警機制構(gòu)建的思考
突發(fā)事件網(wǎng)絡(luò)輿情的演化規(guī)律與監(jiān)控
出國旅游的42個表達
戶外旅游十件貼身帶
發(fā)生在澳門的幾場微型戰(zhàn)爭
砚山县| 宝兴县| 奉新县| 新源县| 婺源县| 海伦市| 八宿县| 全南县| 长顺县| 额尔古纳市| 农安县| 玉田县| 青海省| 兴山县| 政和县| 舒兰市| 什邡市| 巧家县| 邢台县| 顺义区| 文化| 舒兰市| 专栏| 德阳市| 武汉市| 胶南市| 青田县| 虹口区| 隆尧县| 乐昌市| 全椒县| 汉中市| 望奎县| 中江县| 晋中市| 儋州市| 三江| 松江区| 陵川县| 紫阳县| 广州市|