張小妹 梁佩
摘 要:本文爬取了大眾點(diǎn)評(píng)網(wǎng)2017 年6 月份的上海周邊游景點(diǎn)評(píng)論數(shù)據(jù),篩選出四個(gè)變量,運(yùn)用R及其它統(tǒng)計(jì)軟件對(duì)其進(jìn)行分析,分別采用"最長(zhǎng)距離法"、"類(lèi)平均法"、"重心法"、"Ward法"對(duì)總分、環(huán)境評(píng)分、服務(wù)評(píng)分三個(gè)變量進(jìn)行聚類(lèi)分析,分析結(jié)果與該景點(diǎn)星級(jí)進(jìn)行比較,探究聚類(lèi)后的數(shù)據(jù)與星級(jí)之間分類(lèi)有無(wú)一致性。最后利用決策樹(shù)進(jìn)行分類(lèi),得到景點(diǎn)星級(jí),總分評(píng)分,服務(wù)評(píng)分的分類(lèi),分析了游客最關(guān)注的景點(diǎn)指標(biāo),得到景點(diǎn)的旅游建議和改進(jìn)措施。
關(guān)鍵詞:上海景點(diǎn)評(píng)論、聚類(lèi)分析;決策樹(shù)
一、模型建立與分析
本文選取了上海周邊游數(shù)據(jù)集中的score、enrironment、service這三個(gè)變量,其中的缺失值用樣本均值代替,首先利用歐式距離生成三個(gè)變量的距離函數(shù),然后用最長(zhǎng)距離法,類(lèi)平均法,重心法和Ward法分別繪出繪出譜系圖和聚類(lèi)情況,對(duì)四種方法進(jìn)行對(duì)比,選擇一種輸出它的分類(lèi)結(jié)果,最后利用決策樹(shù)建立了一個(gè)關(guān)于上海周邊游景點(diǎn)的游客選擇模型。
二、聚類(lèi)分析
通過(guò)上面四幅圖發(fā)現(xiàn),最長(zhǎng)距離法和Ward法聚類(lèi)產(chǎn)生的分類(lèi)比較均勻,分別輸出他們的分類(lèi)情況如下:
最長(zhǎng)距離法的分類(lèi)情況:
group
1 2 3 4
157 537 52 4
Ward法的分類(lèi)情況:
group
1 2 3 4
59 180 170 341
在實(shí)際數(shù)據(jù)中,上海五星級(jí)景點(diǎn)數(shù)為79個(gè),準(zhǔn)五星景點(diǎn)數(shù)為114個(gè),四星級(jí)景點(diǎn)數(shù)為239個(gè),準(zhǔn)四星級(jí)景點(diǎn)數(shù)為318個(gè),通過(guò)對(duì)比發(fā)現(xiàn)用Ward法分類(lèi)產(chǎn)生的聚類(lèi)與我們的實(shí)際數(shù)據(jù)更相符,因此選用Ward法分類(lèi)輸出具體的分類(lèi)情況。
第1類(lèi)星級(jí)
> max(第1類(lèi)星級(jí))
[1] 5
> min(第1類(lèi)星級(jí))
[1] 3.5
結(jié)果顯示,第一類(lèi)含有59個(gè)景點(diǎn),他們的星級(jí)為3.5-5;
第2類(lèi)星級(jí)
> max(第2類(lèi)星級(jí))
[1] 5
> min(第2類(lèi)星級(jí))
[1] 3.5
結(jié)果顯示,第二類(lèi)含有180個(gè)景點(diǎn),他們的星級(jí)為3.5-5;
第3類(lèi)星級(jí)
> max(第3類(lèi)星級(jí))
[1] 5
> min(第3類(lèi)星級(jí))
[1] 3.5
結(jié)果顯示,第三類(lèi)含有170個(gè)景點(diǎn),他們的星級(jí)為3.5-5;
第4類(lèi)星級(jí)
> max(第4類(lèi)星級(jí))
[1] 5
> min(第4類(lèi)星級(jí))
[1] 3.5
結(jié)果顯示,第四類(lèi)含有341個(gè)景點(diǎn),他們的星級(jí)為3.5-5。
最后發(fā)現(xiàn)用Ward法分類(lèi)產(chǎn)生四個(gè)類(lèi)的星級(jí)都在3.5-5之間,說(shuō)明依據(jù)score、environment、service來(lái)評(píng)價(jià)上海景點(diǎn)的星級(jí)是不太合理的。
三、利用決策樹(shù)建立游客選擇模型
通過(guò)決策樹(shù)發(fā)現(xiàn),第一層是依據(jù)score變量來(lái)劃分,第二層是依據(jù)service變量來(lái)劃分,第三層是依據(jù)star變量來(lái)劃分,對(duì)于score<8分,service>=6.8分并且star為3.5分的占了51%,對(duì)于score<7分,service>=5.8分并且star為3.5分的占了8%,對(duì)于service<7分,score <5.8分并且star為4分的占了17%,對(duì)于service<6.8分,service>=7分并且star為4分的占了10%,對(duì)于service>8分,score<8.9分,并且star為4.5分的占了10%,對(duì)于service>8分,score>=8.9分,并且star為5分的占了4%,對(duì)于總分又高,星級(jí)又高的景點(diǎn),建議游客去旅游,但這類(lèi)景點(diǎn)數(shù)量比較可觀。
四、結(jié)論與建議
通過(guò)對(duì)上??傇u(píng)評(píng)分,環(huán)境評(píng)分,服務(wù)評(píng)分進(jìn)行聚類(lèi),發(fā)現(xiàn)星級(jí)分類(lèi)與聚類(lèi)產(chǎn)生的類(lèi)別所包含的景點(diǎn)數(shù)不太一致,說(shuō)明星級(jí)高的景點(diǎn)不一定各變量評(píng)分高,各變量評(píng)分高的景點(diǎn)不一定星級(jí)高,故在選擇景點(diǎn)進(jìn)行旅游時(shí),不應(yīng)該只看星級(jí)、總評(píng)評(píng)分、環(huán)境評(píng)分、服務(wù)評(píng)分,而應(yīng)該關(guān)注評(píng)論的具體內(nèi)容來(lái)選擇適合的景點(diǎn)進(jìn)行旅游。
通過(guò)對(duì)星級(jí)、總評(píng)評(píng)分、服務(wù)評(píng)分進(jìn)行決策樹(shù)分類(lèi)發(fā)現(xiàn),對(duì)于總分和星級(jí)都高的景點(diǎn),建議游客去旅游。
參考文獻(xiàn):
[1]崔雷.專(zhuān)題文獻(xiàn)高頻主題詞的公司聚類(lèi)分析[J].情報(bào)哦理論與實(shí)踐,1996,19(4):49—51.
[2] Metha M, Rissanen J, Agrawal R. SLIQ: A Fast Sealable Classifier for Data Mining[C]//Proc. of EDBT96. Avignon, France: [s. n.], 1996.
[3] 楊學(xué)兵,張俊.決策樹(shù)算法及其核心技術(shù)[J].計(jì)算機(jī)應(yīng)用與發(fā)展,2007.17:43-45.
[4]馮少榮,尚文俊.基于樣本選取的決策樹(shù)改進(jìn)算法[J].西南交通大學(xué)學(xué)報(bào),2009,44(5):643-647.