張匯雯 鄧 宏 馮琬清
(重慶大學建筑城規(guī)學院,重慶 400044)
游客感知對于了解人民需求、提升城市建設質量有著重要意義。以公園網絡文本為數據訓練NLP定制模型,更適用于風景園林領域的需求,使公園治理與設計更加智能與高效?;谏疃葘W習平臺,訓練三個多標簽文本分類、情感傾向分析、評論觀點提取三個模型處理公園網絡文本,從“時間—評價對象—評價對象下的感知要素”多層次分析公園游客情感傾向特征,挖掘重點感知要素。研究表明:(1)鵝嶺公園游客感知整體積極性較高,6類評價對象中園外景觀受關注度最高,自然景觀與游客積極情緒成正比,設施配套消極情緒最高,停車位是亟需解決的問題。(2)在60個高頻感知要素中,7個要素與游客積極情緒概率成顯著正比,其中5個正相關,2個負相關。(3)采取“文本分類—高頻詞提取—情感分析”的分析順序,可以挖掘詞頻低但有重要影響的感知要素。(4)NLP定制模型提供的屬性級情感分析可以減少情感分析誤差,使研究更準確。研究鵝嶺公園游客情感與公園重點感知要素,為鵝嶺公園的建設提升提出優(yōu)化建議,為自然語言處理在風景園林中的應用提供了參考。
游客感知;網絡文本分析;深度學習;情感傾向分析;評論觀點抽取
在社會高質量發(fā)展的目標下,城市的建設愈發(fā)關注人民需求,“游客感知”近年來成為風景園林領域的研究熱點,其從使用者的角度提供了公園建設的現(xiàn)狀優(yōu)缺點信息,幫助設計師識別潛在需要改進的空間。在現(xiàn)有研究中,歷史村鎮(zhèn)與街區(qū)[1-2]、國家公園[3-5]、森林公園[6-8]、鄉(xiāng)村旅游地[9-10]為游客感知的主要研究對象,城市公園與以上研究對象有一定的相通性,但其景觀要素、服務設施、服務人群等又各有差異,城市公園作為重要的城市空間,是人們休憩娛樂的重要場所,和人民的幸福感息息相關[11]。在城市更新的背景下,重慶市于2021年完成了公園更新提質工作,其中鵝嶺公園作為重慶地標公園,游覽人群眾多且功能多樣,擁有較大數量的網絡評價文本,具有可研究性,并且該公園經過多次環(huán)境更新與功能提升,對其進行游客感知研究,分析網絡評價所體現(xiàn)的人民需求,可以為建設更好的公園環(huán)境提供設計依據。
在研究數據上,近幾年網絡文本以其獲取性強、數量豐富的特點成為研究者常用的數據來源,主要集中在游客感知評價[12-13]、旅游地意象[14-15]、情感分析[16-19]等研究。在研究工具上呈現(xiàn)由傳統(tǒng)工具轉向人工智能的趨勢[20],傳統(tǒng)多采用ROSTCM6等軟件對文本進行處理,較為依靠軟件內置的情感分析詞典,而詞典無法及時更新。自然語言處理(Natural Language Processing,NLP)是應用深度學習方法來處理和理解人類語言,更適用于處理當下詞匯日益更新的網絡文本。通過建立模型模仿人腦的神經網絡,對大量的文本進行特征學習,并且可以對語言進行理解和分析。已有研究實現(xiàn)了利用深度學習下的NLP技術對城市群和城市公園[21]進行情感分析和使用后評價[22],同時現(xiàn)有的深度學習平臺通過提供預訓練好的通用模型降低了深度學習的使用門檻,已有多名學者利用該平臺分析建筑及公園的使用后評價,并挖掘游客情感特征和景觀意象,取得了一定成果[23-26]。然而通用模型所提供的分析也存在一定不足,文本情感傾向分析分為文檔級、句子級、屬性級[27-29],屬性級可以將情感落實到具體的單個感知要素上,而通用模型的情感傾向分析僅在文檔級和句子級,這兩個級別假設整個文檔只有一個主題,但公園網絡文本存在著對象多樣化、觀點復雜的特點,一個句子中可能涉及到多個評價對象多種觀點,通用模型在特定領域中效果較差。其次通用模型無法針對公園內某一個具體的感知要素進行屬性級情感分析,提取的觀點也較為籠統(tǒng),難以排除其他要素的影響。而定制的評論觀點抽取模型,可以判斷評價對象、感知要素以及對應的屬性級情感,能將游客情感對應到具體的景觀要素,有效提高情感分析的細粒度、針對性以及處理效率。
綜上所述,本研究主要從研究對象和研究工具上對游客感知進行深入分析。以重慶城市公園的代表之一鵝嶺公園為研究對象,以該公園的網絡文本為研究數據,使用深度學習平臺Easydl對網絡文本進行分析,根據游客感知特征,總結鵝嶺公園建設現(xiàn)狀及需要優(yōu)化的地方,并分析NLP定制模型在公園網絡文本分析中的優(yōu)點,挖掘鵝嶺公園重要的游客感知要素,提出深度學習平臺分析公園網絡文本的技術路線,為智能算法在風景園林領域中的應用提供參考。
鵝嶺公園位于重慶市渝中區(qū),為重慶地標式公園,歷史悠久,選擇該公園作為研究對象主要有以下幾點原因:(1)鵝嶺公園知名度高,人流量大,在各大社交媒體評論數據樣本量大,利于模型訓練;(2)鵝嶺公園景觀類型豐富,其網絡文本往往含有對公園要素較為細致的描述,便于研究公園感知要素與游客情感的關系;(3)鵝嶺公園作為重慶的地標性公園之一,研究鵝嶺公園可以對該地區(qū)的景觀發(fā)展和公園管理提供重要建議。
研究步驟主要分為“數據采集—數據清洗與定制模型訓練—結果分析”三步(圖1)。本文以“鵝嶺公園”為關鍵詞,爬取5個主流網絡平臺的游客評論,利用深度學習平臺EasyDL提供的文本清洗功能和三類NLP模型完成對游客多層次情感傾向分析和公園感知要素的提取,并通過SPSS相關性分析兩者之間的關系。模型訓練需要多次迭代才能達到最佳效果,使用者可以結合模型評估報告和校驗結果來決定數據擴充以及調優(yōu)。本研究所用到的三個定制模型迭代5到15次不等。
圖1 技術路線圖Fig.1 Technological roadmap
利用八爪魚平臺和python等工具對5個互聯(lián)網平臺評論進行爬取,選取2017年1月1日到2022年12月31日的評論數據,共獲得10 991條評論數據。
為保證評論數據的真實性和可靠性,主要采用智能清洗結合手動清洗,有以下幾種清洗方式:(1)Easydl提供基礎清洗工具,包括文本去重、刪除emoji和網頁鏈接以及繁體轉簡體,以上功能主要基于文本哈希值計算、正則表達式和開源的文本轉化庫來實現(xiàn)。(2)刪除廣告、租房、非游客評論等與鵝嶺公園無關的內容。(3)刪除官方賬號發(fā)布的數據,如“重慶旅游”“古城重慶”等。(4)刪除非個人真實使用后評論的數據,例如旅游攻略、計劃等。(5)網絡評論數據用詞較為隨意,對評論中的同義詞進行統(tǒng)一規(guī)范,例如“兩江亭”“攬勝樓”等實際上都指“瞰勝樓”,用替換工具統(tǒng)一處理。清洗后數據為5 159條。
本文基于EasyDL平臺訓練了三類定制模型,對網絡文本進行“文本分類—文檔級情感分析—感知要素提取—屬性級情感分析”的處理。三個定制模型經實測滿足應用需求并均已發(fā)布。在pycharm中調用模型API即可對文本數據進行批量化處理(圖2)。其中多標簽文本分類為后兩個模型分析打下了基礎,文檔級情感分析在情感傾向分析模型中實現(xiàn),屬性級情感分析和感知要素提取在評論觀點抽取模型中實現(xiàn)(表1)。
表1 文本分類—文檔級情感分析—屬性級情感分析—感知要素提取示意表Tab.1 Illustration of the three deep learning models analyzing park network text
圖2 定制模型應用列表Fig.2 Customized model application list
(1)多標簽文本分類模型。多標簽文本分類模型對一段評價可預測出多個標簽,本研究參考過往研究[30]結合鵝嶺公園景觀要素,將評論劃分為自然景觀、建筑景觀、人文歷史景觀、園外景觀、公園活動、設施配套6類(表2),并作為標簽對數據進行標注訓練定制模型,標注單位為整段文字。
表2 公園6類評價對象說明Tab.2 Explanation of the six evaluation objects in the park
(2)文檔級情感—情感傾向分析模型。本研究通過該模型分析鵝嶺公園整體游客感知積極性,對網絡文本進行標注和結果呈現(xiàn),標注單位為整段文字,標注后訓練定制模型,模型返回的結果分為三類,其中積極評論4 952條,消極評論174條、中性評論33條,說明積極情緒為鵝嶺公園的情感主調。
(3)屬性級情感—評論觀點抽取模型。經訓練可提取評價片段、評論對象、評論維度、評論觀點、屬性級情感傾向,本研究主要使用該模型的抽取評價維度及情感傾向分析功能。根據官方文檔,評價維度為基于評價對象的屬性細分,本文將該模型提取出的評價維度定為感知要素,例如自然景觀評價對象下的感知要素有樹木、花卉等。并以上述6種分類為評論對象,標注單位為單句,標注數據后訓練定制模型(圖3),并對6類文本進行感知要素提取和情感傾向分析。
圖3 評論觀點抽取模型—數據標注示意圖Fig.3 Data annotation illustration for comment opinion extraction model
3.1.1 不同年份情感特征
情感傾向分析可以反映游客對公園的滿意程度,從積極情緒占比來看(圖4),鵝嶺公園積極情緒占比一直保持在較高的水平。除2018年最低為92.27%,其余年份均高于年平均值95.58%。2018年的消極情緒主要為“夜景一般、除了夜景外沒什么好看的、公園普通、鵝嶺擁擠雜亂、公園較小”,彼時鵝嶺公園改造尚未開始,游客需求尚未被滿足,總的來說,鵝嶺公園經2018年、2021年的多次更新和修整,對游客積極情感的影響較小。
圖4 鵝嶺公園積極情緒占比年變化圖Fig.4 Yearly variation of positive sentiment proportion in Eling Park
3.1.2 不同評價對象情感特征
研究根據不同月份對6類評價對象的評論數量進行統(tǒng)計如圖5所示,游客游覽呈現(xiàn)出較為明顯的季節(jié)特征,集中在春秋兩個季節(jié),尤其是每年的5月與11月,與相關研究中城市公園最受關注的多為自然景觀的結論相比,鵝嶺公園的園外景觀最受到游客關注,是該公園的一大優(yōu)勢景觀。
圖5 不同評價對象月評價數量變化圖Fig.5 Chart of monthly changes in the number of evaluations of different opinion targets
評價條數越多代表游客關注度越高,根據多標簽文本分類的結果,6類評價對象關注度排名為園外景觀>建筑景觀>設施配套>公園活動>自然景觀>人文歷史景觀。積極評論占比排名為人文歷史景觀>自然景觀>建筑景觀>公園活動>園外景觀>設施配套(表3)。人文歷史景觀占比最高,設施配套占比最低。人文歷史景觀雖然受到關注最少,但積極評價占比也是最高的,說明鵝嶺公園作為城市歷史公園,歷史景點受到人們喜愛,但在人文歷史價值的發(fā)揚方面略有缺失,鵝嶺公園內的外國公使館舊址、鵝項山莊等都是重要的歷史資源,在公園活動方面可以增加歷史課堂、演出歷史劇目等項目,在設計上織補歷史建筑周圍的綠化肌理,構成較為完整的歷史公共空間[31]。計算6類評價對象的積極情感均值,并與其對應的關注度做皮爾遜相關性分析(表3),其中成正相關的是自然景觀和公園活動,成負相關的為設施配套,設施配套關注度排名第三,積極情緒占比最低,是鵝嶺公園消極情緒的主要來源,設施配套不齊全、停車不方便等容易引起消極情緒。
表3 評價對象關注度與積極情感均值相關性Tab.3 Correlation between attention level of evaluation objects and mean positive sentiment
3.2.1 6類感知要素特征
公園感知要素是引起游客發(fā)表評價的公園要素,對6類文本進行評論觀點抽取分析,得到公園感知要素和積極或消極情感概率,為了便于理解,后文都采用積極情感概率的數值進行計算與相關性分析。對公園感知要素進行詞頻統(tǒng)計,選取詞頻前10的公園感知要素統(tǒng)計數量,6類文本中詞頻前10的感知要素及總體詞頻如表4所示。
表4 數據示例及6類評價對象前10的感知要素Tab.4 Data examples and the top ten perceptual elements of six categories of evaluation objects
從總體感知要素詞頻來看,“瞰勝樓”和“夜景”兩詞詞頻遠超其他詞語,說明這兩處景觀最能給游客留下深刻印象。并且建筑景觀和園外景觀的感知要素重合度較高,都有“視野”“江景”“夜景”,瞰勝樓地理位置高,可同時提供建筑景觀與園外景觀,是鵝嶺公園的一大特點。而公園內的公使館、石室等其他建筑物的吸引力相對較弱;自然景觀中空氣和植物最受關注,評價內容多為“空氣清新”“植物茂盛”“綠化很好”,“菊花”“銀杏樹”“楓樹”是最能引起游客注意的植物,說明整體上自然景觀較好,在細節(jié)上有特色的植物最容易得到關注;人文歷史景觀中“廣島園”的詞頻最高,說明富有異國風情的日式園林最能吸引游客評價,其次是“繩橋”,其獨特造型尤其受到游客關注;設施配套的感知要素主要集中在交通工具和停車設施上,游客較為關注到達公園的方式是否便捷,輕軌和公交等交通工具是否能到達,以及停車位是否充裕等情況;公園活動中“拍照”是游客最常開展的行為,“菊展”作為主題活動受到游客關注。
從時序來看,以月份為單位對感知要素詞頻進行統(tǒng)計(圖6),其中自然景觀感知要素呈現(xiàn)明顯的季節(jié)特征,尤其是“花草”一詞,其作為公園自然景觀的基底最容易受到人們感知,并在每年的1~3月及9~10月出現(xiàn)峰值,除此之外,每年秋季的“菊花”最常被游客感知,與公園活動下的“菊展”呈現(xiàn)了相近的峰值時間,也說明“菊展”是游客最關心的公園活動,作為鵝嶺公園多年來的傳統(tǒng)活動,菊展曾停辦過一段時間,于2019年重啟后詞頻便達到峰值。建筑景觀中“瞰勝樓”詞頻一直較高,從2017年開始即是游客最易感知的要素,是公園里重要的建筑景觀。人文歷史景觀中,除“蓮池”外各歷史景點詞頻較為穩(wěn)定且接近,“廣島園”在其他歷史景點頻次低的時間段仍能保持較高詞頻,并于2019年后詞頻再度升高,“私家園林”是游客對于鵝嶺的重要印象。園外景觀中“夜景”超90%的時間都是最易感知的要素,“嘉陵江”和“長江”即是公園所能眺望之江景的名稱,也常常被提及。
圖6 6類感知要素月份統(tǒng)計折線圖Fig.6 Line chart of monthly statistics of six categories of perception elements
3.2.2 重點感知要素分析
重點感知要素是對游客積極情緒影響較大的公園要素,對每條評論的高頻詞詞頻與積極情感概率進行斯皮爾曼相關分析,分析和游客情緒呈顯著性相關的重點感知要素如表5所示。
表5 正負感知要素相關性結果Tab.5 Table of positive and negative perceptual factors and ρ-values
正相關感知要素說明這些感知要素與積極情緒概率成正比,是公園建設較好的部分,可總結為“江景壯闊”“像私家園林一樣”“視野開闊”“門票免費”“適合散步”。其中“江景”和“視野”兩個感知要素從不同角度證明了瞰勝樓所提供的觀景體驗能有效地提升游客積極情緒?!八郊覉@林”代表游客對于鵝嶺公園人文歷史景觀的總體印象。設施配套上,“門票”免費與游客積極情感成明顯正比,而散步則是游客開展最多的活動。
負相關感知要素說明該感知要素與積極情緒概率成反比,是公園之后應重點提升的部分,結合文本具體內容可總結為“交通不是很方便”“菊展沒有那么豐富”,其中前者的評價多出現(xiàn)在2019年前,近兩年對于交通的評價已經多為“交通便利”,說明隨著城市的建設,交通已經逐步優(yōu)化。后者還需要鵝嶺公園在菊展形式及菊花種類上進行豐富,滿足游客需求。
3.3.1 公園游客情感分析提升至屬性級
情感傾向分析模型提供的是文檔級情感,而評論觀點抽取定制模型可以提取屬性級的情感,情感判斷更準確。現(xiàn)有研究中多采用的是文檔級情感分析,可以高效地分析整段文字的情感,但文字中常涉及到多個評價對象,時常出現(xiàn)整體情感積極但個別消極情緒被忽略的判斷。而后者提供的屬性級情感傾向分析功能,可以分析句子中多個評價對象的情感,使游客感知情感分析精細化。如針對鵝嶺公園的同一段網絡文本,評論觀點抽取可以提取出多類評價對象,并針對每一類評價對象給出情感傾向分析,第一段文字情感傾向分析模型判定為消極情感,積極概率僅有0.39537,但評論觀點抽取模型分析后判定“建筑景觀”和“園外景觀”情感為積極,且概率均大于0.99,由此可見屬性級情感結果更為精準(表6)。
表6 情感傾向分析模型與評論觀點抽取定制模型分析游客情感結果對比Tab.6 Comparison of tourist sentiment analysis results between the sentiment analysis model and the comment opinion extraction custom model
3.3.2 公園感知要素提取更深入
評論觀點抽取模型使每句話的情感與公園感知要素一一對應,便于分析兩者關聯(lián)性。既有研究中常采用Excel搜索的方法計算感知要素詞頻,忽略了句子情感與感知要素的聯(lián)系,而經過訓練的定制模型可以根據輸入的公園評論對象,智能提煉出每句話的游客感知要素、評論觀點詞以及屬性級情感。如表7中的第二段文字,通用模型提取的感知要素僅有“地點”,而NLP定制模型可以具體到“長江、嘉陵江、夜景”,可以更精確分析情感與感知要素的相關性。
表7 評論觀點抽取通用模型與定制模型分析公園網絡文本效果對比Tab.7 Comparison of park network text analysis results between the general comment opinion extraction model and the custom comment opinion extraction model
挖掘公園感知要素更全面。在既有研究[32-33]中,對于感知要素常采用“高頻詞提取—詞匯分類—情感分析”的分析順序,同樣的方法若應用在此次研究中,可能會遺漏一些詞頻較低的重要感知要素,如人文歷史景觀下的“私家園林”,總詞頻僅為21次,若采用傳統(tǒng)詞頻排序則可能因為排名靠后被忽略。本研究采取“文本分類—高頻詞提取—情感分析”的順序,則能讓詞頻較低但重要的感知要素突顯,使分析結果更加準確。
研究通過NLP定制模型對鵝嶺公園多類景觀游客情感傾向及其感知要素進行分析,得出鵝嶺公園游覽呈現(xiàn)明顯季節(jié)性特征,春秋季游客多,且游客一直保持較高水平的積極情緒,設施配套是主要的消極情緒來源。公園特色優(yōu)勢景觀為園外景觀,人文歷史景觀較為弱勢。
然而,隨著城市建設加快,對于鵝嶺這樣資源豐富的城市歷史公園,固然應該繼續(xù)提升現(xiàn)有的特色景觀,但也應將建設力量向歷史景點傾斜,鵝嶺公園有較多的歷史建筑,從研究結果可發(fā)現(xiàn)游客對于人文歷史景觀的積極情緒占比最高,但評價數量最少,應加強對于人文歷史文化的宣傳,對人文歷史景觀進行重點提升與打造,并開展相關教育宣傳活動,實現(xiàn)活態(tài)化保護。
從研究適用性來看,本文采取的深度學習三類定制模型,通過專業(yè)數據訓練,使模型更適用于風景園林專業(yè)領域的文本分析,提升了情感分析的等級,并于每類評價對象下挖掘10個高頻感知要素,以及7個重點感知要素。從多方面以量化的方式挖掘了公園特色景觀和亟需提升的景觀,專業(yè)適用性較強。
從研究局限性來看,主要體現(xiàn)在以下幾點:(1)研究數據方面。網絡評論作為一種有門檻的評價方式,本身存在局限性,會使用網絡發(fā)布景點評價的用戶多為年輕人,游客群體有限,挖掘出的信息也有限,難以反映其他年齡階段人員對公園的意見,且數量有限,在相關性分析時可能會因為數據不足導致相關系數較低。(2)研究方法方面。本文雖訓練了三個深度學習模型,但評論觀點抽取模型的評價觀點詞功能使用較少,在未來的研究中還可應用該功能,進一步探索觀點詞和公園感知要素的關聯(lián),挖掘公園網絡文本中存在的信息,拓展智能算法在風景園林中的應用深度。(3)感知要素方面。影響游客感知的要素有多種,除了本文所提到的,還包括使用者的性別、年齡以及公園周圍環(huán)境的影響等,在之后的研究中應將這些要素也納入考量。
本研究通過深度學習平臺訓練的NLP模型,實現(xiàn)了更精細化的情感分析和感知要素提取。當前,可利用NLP定制模型更精準地分析游客情感,使設計師能將網絡意見落實到相應景觀上并作出調整措施。未來還可以將其集成為針對風景園林的文本分析軟件,相較傳統(tǒng)軟件ROSTCM6,其對風景園林領域的文本更具針對性,并且可以通過大量數據的標注,提升對于風景園林領域文本的理解能力和處理能力,為風景園林設計更快更好地提供使用者的意見。
注:文中圖表均由作者繪制。