劉文龍, 黃 維
(清華大學(xué)深圳國際研究生院,深圳 518000)
近年來,中外在風(fēng)景園林這一傳統(tǒng)學(xué)科的研究中逐步引入信息技術(shù)的量化思維、技術(shù)處理方法[1]。有部分研究運(yùn)用大數(shù)據(jù)挖掘與自然語言處理技術(shù)對風(fēng)景園林進(jìn)行多景點(diǎn)系統(tǒng)分析,研究中較多基于地理分布的多景點(diǎn)橫向評價對比為用戶選擇景點(diǎn)服務(wù),如王少兵等[2]基于評論的景點(diǎn)推薦研究、楊鑫等[3]對民宿評論情感分析方法的研究。目前較為缺少對單一景點(diǎn)展開多維度的深入分析,為園林管理方有針對性提升服務(wù)的研究。同時,互聯(lián)網(wǎng)多平臺的景點(diǎn)評價數(shù)據(jù)量大、涵蓋面廣、時效性高,整合可深度挖掘游人對景點(diǎn)多維度的認(rèn)識,對傳統(tǒng)高定性分析提供一種用戶視角的量化分析補(bǔ)充,也因此選用了較為成熟且穩(wěn)定性高的基于領(lǐng)域詞典的分析方法[4]。
現(xiàn)對單景點(diǎn)——留園的關(guān)注度進(jìn)行分析,并對整體與基于構(gòu)成要素的進(jìn)行聚類的局部展開情感分析,重點(diǎn)是對基礎(chǔ)自然語言處理的技術(shù)方法在園林應(yīng)用領(lǐng)域的方法論展開實(shí)踐應(yīng)用研究。實(shí)驗(yàn)探究留園多要素間游人關(guān)注度情況,以及對各要素的情感評價傾向,并對極性為負(fù)面的展開相關(guān)聯(lián)因素分析,補(bǔ)充了傳統(tǒng)園林領(lǐng)域的分析中較少有實(shí)驗(yàn)案例運(yùn)用網(wǎng)路評價數(shù)據(jù)及計算機(jī)技術(shù)對單景點(diǎn)用戶評價進(jìn)行分析,運(yùn)用交叉學(xué)科的理論與方法為留園的游人評價調(diào)研、規(guī)劃決策提供幫助,為園林領(lǐng)域其他景點(diǎn)亟需分要素精準(zhǔn)優(yōu)化提供分析思路。
研究方法如圖1所示。
圖1 留園關(guān)注度與構(gòu)成要素情感分析模式圖Fig.1 The Liuyuan Garden attention model and sentiment analysis pattern diagram of component
(1)語料獲取。Webscraper獲取攜程網(wǎng)與去哪兒網(wǎng)的公開數(shù)據(jù)作為分析語料數(shù)據(jù),共計7 057條。
(2)對語料數(shù)據(jù)進(jìn)行清洗,主要為基于園林專業(yè)特點(diǎn)進(jìn)行去重、標(biāo)記、降噪、對齊等。分析粒度為語句級,對文檔內(nèi)單獨(dú)的語句,標(biāo)記其情感極性,把句子區(qū)分為正面、中立和負(fù)面3類,并按分句與評論段落分別分析情感加權(quán)結(jié)果。分詞使用了多個開源模塊,結(jié)巴分詞以及中科院計算所NLPIR為主,并進(jìn)行停用詞過濾,詞性標(biāo)注用HANLP的開源版本[5-6]。
(3)對留園整體評論展開詞頻分析(term frequency-inverse document frequency,TF-IDF),并根據(jù)詞性進(jìn)行分類篩,獲取評論數(shù)據(jù)中關(guān)注度最高的序列。而后以語句顆粒度展開情感分析。情感分析(sentiment analysis)基于情感詞典匹配,計算結(jié)果依賴于情感詞典和每個情感詞的權(quán)重。本文研究詞典基于開源詞典并結(jié)合園林領(lǐng)域常用專業(yè)詞匯不斷優(yōu)化調(diào)整詞條和權(quán)重整理得到[7]。
(4)對負(fù)面情感相關(guān)聯(lián)因素進(jìn)行挖掘,將上步驟的分詞,以及詞頻篩選后的負(fù)面情感關(guān)聯(lián)的篩選詞,進(jìn)行共詞矩陣分析,形成共詞網(wǎng)絡(luò),對負(fù)面情感來源挖掘分析。
(5)根據(jù)園林構(gòu)成要素篩選相關(guān)的標(biāo)簽詞庫,構(gòu)建基于園林構(gòu)成要素(建筑、山石、植物、水體、空間組構(gòu)、人文要素)的聚類,對單聚類數(shù)據(jù)進(jìn)行情感分析并橫向?qū)Ρ龋诰蛄魣@各構(gòu)成要素的游人認(rèn)知與評價情況,為分要素精準(zhǔn)提升提供方向。
通過web scraper對旅游平臺攜程網(wǎng)與去哪兒網(wǎng)獲取的留園評價數(shù)據(jù)進(jìn)行獲取,共收集7 057條評價數(shù)據(jù),此2處平臺為旅游信息與服務(wù)的頭部平臺,評價數(shù)據(jù)全面且評價質(zhì)量較高。對數(shù)據(jù)進(jìn)行清洗,進(jìn)行去重、標(biāo)記、降噪、對齊,去除1 494項(xiàng),實(shí)際有效數(shù)據(jù)5 563條,形成留園評論分析語料庫(corpus)。
對數(shù)據(jù)進(jìn)行詞性標(biāo)注,通過詞頻分析的方法對留園評價數(shù)據(jù)中主要的要素進(jìn)行順序篩選,得到受關(guān)注度序列如圖2和表1所示。
圖2 留園各要素的受關(guān)注度詞云圖Fig.2 The word cloud map of the attention of each element of the garden
表1 各要素的受關(guān)注度詞頻分析表(部分)
如表1所示,通過評價數(shù)據(jù)展開的云圖與數(shù)據(jù)分析可以直觀看到,受關(guān)注度較高的前10位為建筑、假山、盆景、山水、庭園、太湖石、亭臺樓閣、空間、花園,涵蓋了留園構(gòu)成要素的主要方面。但不可避免的同一類構(gòu)成要素會多次出現(xiàn),如假山與太湖石,后者是前者的主要構(gòu)成材料。
為便于對同一要素評論情感進(jìn)行分析,進(jìn)行分要素劃分與聚類處理。
為便于對同一要素評論情感進(jìn)行分析,進(jìn)行分要素劃分與聚類處理。對園林主要構(gòu)成要素分為建筑、山石、植物、水體、空間組構(gòu)、人文要素6大類[8-9]。并對每類基于園林專業(yè)知識進(jìn)行人工匹配分類,檢索標(biāo)簽詞如表2所示。
表2 留園構(gòu)成要素分類標(biāo)簽詞
根據(jù)留園構(gòu)成要素的標(biāo)簽詞分類檢索得到關(guān)于6項(xiàng)構(gòu)成要素的相關(guān)評論數(shù)據(jù)數(shù)量,作為各要素評論關(guān)注度的參照,結(jié)果如圖3所示。
圖3 留園各構(gòu)成要素受關(guān)注度圖Fig.3 The attention degree of each component of the garden
(1)出乎意料,評論中6項(xiàng)構(gòu)成要素中對于“山石”的關(guān)注度最高,建筑其次。空間組構(gòu)的各構(gòu)成元素“回廊、小徑、小路、庭院”等也受到了較多的關(guān)注,結(jié)合詞頻分析可以發(fā)現(xiàn)冠云峰、太湖石、假山的出現(xiàn)次數(shù)貢獻(xiàn)了主要的關(guān)注量,考慮假山相較于其他形態(tài)的空間營造較為獨(dú)有,且冠云峰充分體現(xiàn)了太湖石“瘦、漏、透、皺”的特點(diǎn),為江南四大奇石而著名,吸引力強(qiáng)烈[10]。
(2)日常中,園林學(xué)者對園林中人文藝術(shù)構(gòu)成部分研究占有重要地位,如書法、典故、古韻、圖案、評彈、雕刻等,而評論關(guān)注度中對此方面關(guān)注處于6個構(gòu)成要素關(guān)注度的末位,與直觀認(rèn)知有所不同。
3.3.1 留園整體情感分析
對留園整體評價數(shù)據(jù)進(jìn)行分詞后對語句進(jìn)行了切分,并進(jìn)行情感分析,詞匯的情感值公式為
s(w)=v(w)p(w)
(1)
式(1)中:s(w)表示詞匯的情感值;v(w)表示詞匯的情感強(qiáng)度;p(w)表示詞匯的情感極性。遍歷每條切分句中情感詞之間的否定詞和程度副詞,并對其相應(yīng)的權(quán)重值進(jìn)行計算。每個語句情感傾向的情感值計算公式為
l(w)=n(w)a(w)s(w)m(w)
(2)
式(2)中:l(w)表示情感傾向的情感值,n(w) 表示否定詞的權(quán)重值;s(w) 表示情感詞匯的情感值,a(w)表示情感詞前所有程度副詞權(quán)重值的累加和;m(w) 表示情感詞前否定詞和程度副詞間的相對位置。如果程度副詞前有否定詞修飾時,m(w) 賦值為 0. 5,反之m(w)賦值為 1,對切分語句情感極性正面記為1,按評論切分句子計算情感值,然后合并后進(jìn)行加總處理,形成評論語句段落的情感值,情感值分布情況如表3所示[11-12]。
忽略段落按分句分值分布可以得到情感評價數(shù)據(jù)如表4所示。通過分析可得:
表3 留園整體評論分句情感數(shù)據(jù)
(1)正面評價占比69.930%,中性評價占比24.163%,負(fù)面評價僅為5.908%,游客對留園整體評價呈價是積極的。
(2)負(fù)面評價有一定誤差,中文自然語言在使用中常使用多重否定與夸張,目前情感詞典對復(fù)雜語句判斷有一定難度,如游客評論中“嘈雜是不存在的”“好不美麗”。
對正面評價語句進(jìn)行詞頻分析,得到結(jié)果如表5所示,并繪制可視化詞云圖,如圖4所示。
游客正面評價中呈現(xiàn)了游客的意猶未盡,“再來”“流連忘返”的詞頻為前兩位,綜合評價詞匯也可以歸納出留園美學(xué)及現(xiàn)觀賞情況的一些特點(diǎn),如“精湛”“秀美”“鬧中取靜”“細(xì)細(xì)品味”“干凈”“麻雀雖小五臟俱全”“細(xì)膩”。
負(fù)面評價的詞頻分析結(jié)果如表6所示,可視化詞云圖如圖5所示。
表4 留園整體評論情感數(shù)據(jù)
圖4 留園正面情感詞云圖Fig.4 The positive emotion word cloud in Liuyuan Garden
表5 留園評論正面情感詞頻數(shù)據(jù)
其中通過分析結(jié)果可以直觀得出負(fù)面評論核心的有擁擠、嘈雜、不好玩。
對照詞頻文本數(shù)據(jù)可以得到:
(1)節(jié)假日、周末留園較為擁擠,游客體驗(yàn)受到影響??赏ㄟ^節(jié)假日預(yù)約、限流等方式控制一定的游覽人數(shù),保證游客體驗(yàn)。
(2)人流量因素造成部分游客感覺到嘈雜。
(3)部分游客感覺不好玩,對評論段落定位挖掘其原因,一方面為留園觀賞行為占據(jù)主導(dǎo),較少有互動式、參與式的游玩項(xiàng)目,該部分可加強(qiáng);另一方面留園營造中講求“雖由人作宛自天開”,形態(tài)上主要以自然景觀面貌呈現(xiàn),蘊(yùn)含的文化典故、山石植物欣賞基礎(chǔ)需要一定的積累鋪墊,對此可增加對園林了解較少游客的講解,通過生動的圖像、影像等方式讓游人了解園林之美。
對照表6可得,負(fù)面情感標(biāo)簽詞匯中形容詞占據(jù)多數(shù),如一般、不對、不行。具體關(guān)聯(lián)的負(fù)面情感成因未能體現(xiàn)。因此對負(fù)面詞頻頻率較高的詞匯進(jìn)一步展開共詞矩陣分析,形成共詞復(fù)雜網(wǎng)絡(luò)探究負(fù)面情緒的主要原因。對幾個比較典型且共詞網(wǎng)絡(luò)頻率高的標(biāo)簽詞單獨(dú)展開,分析結(jié)果可得。
表6 留園評論負(fù)面情感詞頻數(shù)據(jù)
圖5 留園負(fù)面情感詞云圖Fig.5 Liuyuan Garden negative word cloud
(1)出乎意料的,拙政園在各標(biāo)簽詞共詞網(wǎng)絡(luò)中出現(xiàn)頻繁,游人在對留園進(jìn)行評價時較多的傾向于將留園與同為四大名園的拙政園進(jìn)行比較。獅子林也較多作為一同比較的對象。
(2)“小”“人多”“擁擠”“講解”“雨”“不行”是幾個標(biāo)簽詞出現(xiàn)較多的共性標(biāo)簽詞匯,對照可以說明用戶的“一般”“差”的評論點(diǎn)集中在上述標(biāo)簽詞的方面。
3.3.2 園林構(gòu)成要素的聚類情感分析
根據(jù)標(biāo)簽詞對各要素相關(guān)句子進(jìn)行檢索并單獨(dú)歸類為數(shù)據(jù)集,而后對單個構(gòu)成要素進(jìn)行情感評價分析,分句情感極性相加的值大于1為正面,小于-1為負(fù)面,0為中性。各構(gòu)成要素的游人評論情感評價結(jié)果如圖6所示。
對留園各要素情感評價橫向?qū)Ρ确治觯绫?與圖7所示,可以得到:
圖6 留園各要素的情感分析百分比圖Fig.6 Percentage analysis of sentiment analysis of various elements of the Liuyuan Garden
表7 留園各要素的情感分析百分比數(shù)據(jù)
圖7 留園各要素的情感分析橫向?qū)Ρ菷ig.7 Horizontal comparison of sentiment analysis of various elements of the Liuyuan Garden
(1)整體上留園6項(xiàng)主要構(gòu)成要素游人評論正面情感為主,平均正面情感為78.3%,接近80%。其次各要素情感評價有明顯波動,既留園中構(gòu)成要素的評價具有不均衡性。
(2)山石正面情感占比相對較低,為66%,中性評價占比較高為27%,但負(fù)面評價并非最高,為7%。前文關(guān)注度分析中山石排列為首位,但評價相對較弱。較多的關(guān)注度與評論體量的增大使得不同的游人情感傾向多樣性得到體現(xiàn),該結(jié)果為按要素精準(zhǔn)提升與優(yōu)化園林提供方向參照。
(3)人文相關(guān)部分涵蓋面較廣,正面情感占比81%,同時負(fù)面在各要素中未最高,占比9%。可以看出人文部分評價的多元性,既游人情感中喜歡的非常喜歡,不喜歡的也會態(tài)度鮮明,即人文部分正負(fù)面評論具有明確的獨(dú)立性。
通過橫向的留園各構(gòu)成要素的游人評論情感分析,可以清晰地查找出整體情感傾向中不足的短板部分,如山石部分正面情感占比66%相對較低,人文部分負(fù)面情感占比9%相對較高,為進(jìn)一步精準(zhǔn)優(yōu)化提升提供參照。同時,結(jié)合共詞網(wǎng)絡(luò)分析,可以對比出負(fù)面情感的問題方向,有針對性地繼續(xù)展開深入分析。
此外,基于互聯(lián)網(wǎng)與計算機(jī)技術(shù)的評論大數(shù)據(jù)挖掘與分析對園林領(lǐng)域用戶視角的優(yōu)化研究起到很好的方法論補(bǔ)充,傳統(tǒng)園林學(xué)科與信息技術(shù)的結(jié)合具有趨勢性。
也為傳統(tǒng)風(fēng)景園林領(lǐng)域以定性為主的研究提供一種基于用戶的量化分析方法,推進(jìn)園林管理方分園林要素提升與優(yōu)化的相關(guān)研究。