郜童童 劉文澤 孟斌 黃松 陳思宇
[摘要]隨著國(guó)家樹(shù)立文化自信、強(qiáng)調(diào)文化傳承、弘揚(yáng)文化精髓等戰(zhàn)略的提出,要求調(diào)動(dòng)一切力量發(fā)展和繼承文化傳統(tǒng),文化資源密集區(qū)文化遺產(chǎn)豐富,作為文化傳承保護(hù)的重要載體愈發(fā)被學(xué)者和社會(huì)各界人士關(guān)注。在總結(jié)梳理現(xiàn)階段文化遺產(chǎn)保護(hù)傳承利用相關(guān)研究的基礎(chǔ)上,探索將微博數(shù)據(jù)、大數(shù)據(jù)分析方法與文化資源保護(hù)利用相結(jié)合,利用爬蟲(chóng)工具獲取門(mén)頭溝地區(qū)2017年一年內(nèi)帶有位置信息的9萬(wàn)余條微博數(shù)據(jù),運(yùn)用機(jī)器學(xué)習(xí)框架Scikit-Learn,通過(guò)樸素貝葉斯對(duì)相關(guān)數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,將與文化感知相關(guān)的微博文本選取出來(lái),進(jìn)一步用LDA模型將文化資源保護(hù)利用的相關(guān)微博分為5個(gè)主題,并利用GIS技術(shù),將主題分析結(jié)果進(jìn)行空間分析,根據(jù)每個(gè)主題的空間分布特征與主題關(guān)鍵詞特征相結(jié)合,歸納為古剎祈福、徒步觀景、古村度假、自駕休閑、民俗感悟五大主題,發(fā)現(xiàn)5個(gè)主題的分布空間特征較為明顯,文化資源密集區(qū)的空間結(jié)構(gòu)對(duì)歸屬主題的內(nèi)涵有很好的解釋和支撐作用。
[關(guān)鍵詞]文化感知;文化資源密集區(qū);LDA模型;微博數(shù)據(jù);網(wǎng)格分析
[中圖分類(lèi)號(hào)]G 122[文獻(xiàn)標(biāo)志碼]A[文章編號(hào)]1005-0310(2019)02-0045-11
Abstract: As the country establishes cultural self-confidence, emphasizes cultural heritages, and promotes the essence of culture, it is demanded to mobilize all forces to develop and inherit cultural traditions. As an important carrier of cultural heritage and protection, cultural heritage in the areas with intensive cultural resources has been paid more and more attention by scholars and people from all walks of life. Based on the summary of the research on the inheritance and utilization of cultural heritage protection at this stage, this paper explores the combination of microblog data, big data analysis methods and cultural heritage protection. By using the reptile tool to obtain more than 90,000 pieces of Weibo data with location information in the Mentougou area in 2017, and by using the machine learning framework Scikit-Learn, the learning and training related data through Naive Bayes will be related to cultural heritage perception. The microblog text is selected, and the related microblogs of cultural heritage sites are further divided into five themes by LDA model, and the GIS technology is used to spatially analyze the topic analysis results. According to the spatial distribution characteristics of each topic and with the combination of the topic key word characteristics, the conclusion is summarized as the five themes of ancient temple blessing, walking observation, ancient village vacation, self-driving leisure, and folklore perception. It finds that the distribution characteristics of the five themes are more obvious, and the spatial structure of the cultural resource-intensive areas has a good explanation for the connotation of the subject and supporting effect.
Keywords: Cultural perception; Cultural resource-intensive areas; LDA Model; Microblog data; Grid analysis
0引言
文化遺產(chǎn)具有悠久的歷史,反映著人類(lèi)社會(huì)發(fā)展的進(jìn)程,體現(xiàn)著傳統(tǒng)優(yōu)秀文化的精神內(nèi)涵,具有極高的藝術(shù)價(jià)值和文化價(jià)值。習(xí)近平總書(shū)記在黨的十九大報(bào)告中指出要“堅(jiān)定文化自信,推動(dòng)社會(huì)主義文化繁榮昌盛”[1],而注重文化遺產(chǎn)地保護(hù)、深入挖掘其內(nèi)涵價(jià)值,可以推動(dòng)文化自信、文化發(fā)展、文化繁榮,總書(shū)記在十九大報(bào)告中還提到要“加強(qiáng)文物保護(hù)利用和文化遺產(chǎn)保護(hù)傳承”[1],就需要我們從多方面、多角度探索文化遺產(chǎn)保護(hù)傳承的方法。而文化遺產(chǎn)地是文化遺產(chǎn)的空間載體,研究文化遺產(chǎn)地是對(duì)文化遺產(chǎn)保護(hù)傳承的一個(gè)重要方面,可以從地理空間視角探索文化遺產(chǎn)保護(hù)傳承。
現(xiàn)今我國(guó)學(xué)者對(duì)于文化遺產(chǎn)地的研究方法和角度多樣,很多學(xué)者致力于相關(guān)定性研究,這類(lèi)研究多提出一種思路,對(duì)較為宏觀尺度的文化遺產(chǎn)資源進(jìn)行分析,提出適用的旅游開(kāi)發(fā)建議,如貴州、江蘇、陜西等[2-4]。也有學(xué)者對(duì)于文化遺產(chǎn)地的非物質(zhì)文化資源旅游開(kāi)發(fā)研究較多,重視文化遺產(chǎn)地非物質(zhì)文化遺產(chǎn)更加細(xì)分的研究,如傳統(tǒng)手工制作技藝[5]、民俗體育[6]、傳統(tǒng)曲藝[7]等,注重對(duì)非物質(zhì)文化的分析,針對(duì)不同類(lèi)型的非物質(zhì)文化遺產(chǎn)提出了建議,如文化遺產(chǎn)傳播可以利用直播平臺(tái)[8]、建設(shè)非遺博物館等[6]。總的來(lái)說(shuō),相關(guān)定性研究角度多樣,但是缺乏有效的數(shù)據(jù)做支撐,對(duì)時(shí)間、空間的變化并沒(méi)有追蹤調(diào)查,很難與時(shí)俱進(jìn)地了解文化遺產(chǎn)地相應(yīng)的變化。我國(guó)學(xué)者對(duì)于文化遺產(chǎn)地的定量研究也頗多,大多與旅游結(jié)合集中在更小的尺度空間,如很多學(xué)者深入對(duì)文化遺產(chǎn)地游客感知、居民感知兩個(gè)視角的分析。在游客感知方面的研究有安徽黟縣宏村[9]、杭州西湖[10]、河南嵩山少林寺[11]等,提出如突出開(kāi)發(fā)旅游體驗(yàn)項(xiàng)目、加強(qiáng)智慧旅游公共設(shè)施投入等建議。在居民感知方面研究有安徽西遞村[12]、廣西桂林龍脊平安寨[13]、四川九寨溝[14]等,提出如應(yīng)讓居民更多地參與旅游開(kāi)發(fā)、構(gòu)建合理的利益分配機(jī)制等建議。相關(guān)的定量研究雖然有一定的問(wèn)卷調(diào)查量,但其樣本數(shù)量不具規(guī)模,質(zhì)量有待深入評(píng)價(jià)。同時(shí)調(diào)查問(wèn)卷形式也具有人力物力成本大、周期性長(zhǎng)等缺點(diǎn),過(guò)于注重旅游開(kāi)發(fā)視角,對(duì)文化價(jià)值研究不足,這就可能導(dǎo)致實(shí)踐操作層面可行性不強(qiáng)等問(wèn)題。
除了定性研究和定量研究,還有一些學(xué)者開(kāi)展了大數(shù)據(jù)對(duì)文化遺產(chǎn)地的研究,多以某一文化遺產(chǎn)地為例,通過(guò)一些數(shù)據(jù)平臺(tái)收集、篩選大量數(shù)據(jù),從某種角度對(duì)數(shù)據(jù)進(jìn)行分析,但缺乏對(duì)旅游地的空間分布規(guī)律研究,將文本數(shù)據(jù)與地理空間技術(shù)應(yīng)用的結(jié)合較弱,缺乏文化遺產(chǎn)地空間解讀。很多學(xué)者以某些角度為基礎(chǔ)收集微博數(shù)據(jù)進(jìn)行分析,如旅游形象感知[15]、游客流分析[16]、文化遺產(chǎn)認(rèn)知[17]、營(yíng)銷(xiāo)現(xiàn)狀[18]等,通過(guò)大數(shù)據(jù)分析得出結(jié)論或建議,如有學(xué)者認(rèn)為文化遺產(chǎn)地交通擁堵缺乏管理,應(yīng)當(dāng)加強(qiáng)巡視管理等。雖然學(xué)者們用大數(shù)據(jù)對(duì)文化遺產(chǎn)地進(jìn)行分析有所成果,但是過(guò)于聚焦于旅游,對(duì)文化遺產(chǎn)價(jià)值、文化遺產(chǎn)的空間分布規(guī)律、空間應(yīng)用技術(shù)研究不足。但值得一提的是,也有學(xué)者通過(guò)大數(shù)據(jù)對(duì)文化遺產(chǎn)價(jià)值或文化遺產(chǎn)空間分布規(guī)律進(jìn)行深入探討。如周佳穎等人通過(guò)篩選大量的微博數(shù)據(jù),探測(cè)現(xiàn)今民眾對(duì)中國(guó)傳統(tǒng)節(jié)日的情感認(rèn)知以及認(rèn)知區(qū)域特征[19]。孟斌等人通過(guò)對(duì)北京三山五園的研究,梳理GIS云技術(shù)發(fā)布數(shù)字化歷史地圖及建立應(yīng)用系統(tǒng)的程序,闡述數(shù)字化技術(shù)方法對(duì)于首都北京城市空間形態(tài)的研究意義[20]。
本文基于主題模型的微博用戶數(shù)據(jù),通過(guò)數(shù)據(jù)分析、實(shí)證研究對(duì)文化遺產(chǎn)價(jià)值和資源、空間位置信息、空間分布規(guī)律進(jìn)行深入研究,從地理空間視角探索文化遺產(chǎn)保護(hù)以及文化遺產(chǎn)豐富區(qū)域的可持續(xù)發(fā)展。本文選取的門(mén)頭溝地區(qū)嚴(yán)格意義上不屬于文化遺產(chǎn)地,但是其本身的文化資源豐富程度不容忽視,文化資源密集,歷史底蘊(yùn)豐厚,對(duì)于文化資源密集區(qū)感知研究與對(duì)文化遺產(chǎn)地研究有著很好的支撐作用,從而探索文化遺產(chǎn)保護(hù)研究。運(yùn)用大數(shù)據(jù)方法對(duì)文化資源密集區(qū)感知研究就是為了更全面地對(duì)門(mén)頭溝地區(qū)的文化資源進(jìn)行分析,微博文本數(shù)據(jù)真實(shí)性較強(qiáng)、數(shù)量規(guī)模大、針對(duì)性強(qiáng),通過(guò)微博數(shù)據(jù)進(jìn)行文化資源密集區(qū)感知研究,有助于促進(jìn)這些區(qū)域的文化遺產(chǎn)保護(hù)和區(qū)域的可持續(xù)發(fā)展,為未來(lái)的文化資源豐富地區(qū)提供一種保護(hù)思路。
1數(shù)據(jù)及研究方法
1.1研究區(qū)域與數(shù)據(jù)源
1.1.1研究區(qū)域概況
門(mén)頭溝區(qū)隸屬北京市,位于北京城區(qū)正西偏南,是個(gè)有著深厚歷史底蘊(yùn)的文化資源密集區(qū)。擁有北京城母親河之稱的永定河自由徜徉其中,早在1萬(wàn)年前的新石器早期,北京歷史上著名的東胡林人就在此繁衍生息。門(mén)頭溝地區(qū)歷史文化資源十分豐富,擁有潭柘寺、戒臺(tái)寺、爨底下村古建筑群和靈岳寺等全國(guó)重點(diǎn)文物保護(hù)單位,北京市級(jí)文物保護(hù)單位9個(gè),琉璃渠村、爨底下村、靈水村等3個(gè)村入選由建設(shè)部和國(guó)家文物局共同組織評(píng)選的“中國(guó)歷史文化名村”,在已經(jīng)公布的四批中國(guó)傳統(tǒng)村落名單中,北京共有21個(gè)村入選,其中門(mén)頭溝區(qū)就有12個(gè)。在北京市十三五規(guī)劃綱要中,明確提出要“挖掘區(qū)域文化遺產(chǎn)整體價(jià)值,制定實(shí)施北部長(zhǎng)城文化帶、東部運(yùn)河文化帶、西部西山文化帶保護(hù)利用規(guī)劃”[21],西山永定河文化帶成為推動(dòng)北京文化中心建設(shè)的重要抓手之一。隨著西山永定河文化帶地位的確立,門(mén)頭溝區(qū)在文化帶中的歷史文化價(jià)值逐漸被人們關(guān)注。
1.1.2數(shù)據(jù)源與數(shù)據(jù)獲取
數(shù)據(jù)的獲取上,本文利用新浪微博官方API和網(wǎng)頁(yè)爬蟲(chóng)工具,獲取門(mén)頭溝地區(qū)的2017年微博用戶數(shù)據(jù)。根據(jù)新浪微博官方發(fā)布的2018年第一季度財(cái)報(bào)顯示,截至2018年3月,微博月活躍用戶數(shù)已增至4.11億,日活躍用戶則增至1.84億,其中活躍用戶中來(lái)自移動(dòng)端的比例達(dá)到了93%。面對(duì)如此巨大的體量和海量數(shù)據(jù),在數(shù)據(jù)源選取上有針對(duì)性地設(shè)置選取規(guī)則,例如只對(duì)定位為門(mén)頭溝轄區(qū)內(nèi)的微博進(jìn)行抓取,字符長(zhǎng)度在4個(gè)字符以上,抓取的屬性包含微博ID、文本、時(shí)間、經(jīng)緯度等信息,最終獲取近10萬(wàn)條微博信息作為數(shù)據(jù)源。
微博數(shù)據(jù)等大數(shù)據(jù)具有價(jià)值密度低的特點(diǎn),因此數(shù)據(jù)的預(yù)處理是后續(xù)分析的基礎(chǔ),針對(duì)此次獲取的微博數(shù)據(jù)的處理包括自定義詞典的建立和停用詞的剔除兩部分。由于中文文檔中沒(méi)有明確的分隔符,不能直接引用西方文本以空格為詞語(yǔ)的自然分隔符方式,所以需要利用中文分詞處理技術(shù)將漢字序列切分成單獨(dú)的具有明確語(yǔ)義的詞項(xiàng)。本文在多次試驗(yàn)的基礎(chǔ)上,建立了一套關(guān)于門(mén)頭溝區(qū)文化資源密集區(qū)的自定義詞典,包括地點(diǎn)的名詞、行為和情緒的表達(dá),如爨底下、定都閣、石佛嶺、點(diǎn)贊、美照、夜跑等,利用基于語(yǔ)義的分詞算法,得到了較好的分詞結(jié)果。為了提高數(shù)據(jù)采集精度,需要對(duì)數(shù)據(jù)進(jìn)行停用詞的剔除,包括微博表述中經(jīng)常用到的@、#、//、表情等特殊符號(hào),中文語(yǔ)境下使用普遍但卻無(wú)實(shí)際意義的詞語(yǔ),諸如語(yǔ)氣助詞、介詞、連詞、副詞等加入停用詞庫(kù)進(jìn)行降噪處理,并且將廣告、打榜、抽獎(jiǎng)等無(wú)關(guān)微博進(jìn)行剔除。
1.2研究方法
1.2.1基于語(yǔ)義的微博分類(lèi)與提取
基于語(yǔ)義的微博分類(lèi)提取,利用Python機(jī)器學(xué)習(xí)框架Scikit-Learn制作分類(lèi)模型,對(duì)微博文本進(jìn)行分類(lèi)與提取。Scikit-Learn是一款簡(jiǎn)單有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具,集成了成熟的機(jī)器學(xué)習(xí)的算法,可以廣泛用于解決監(jiān)督和非監(jiān)督分類(lèi)問(wèn)題[22-23],其中特征選取采用IF-IDF方法計(jì)算,在常用的7種統(tǒng)計(jì)學(xué)分類(lèi)方法中,樸素貝葉斯(Naive Bayes)處理微博數(shù)據(jù)優(yōu)勢(shì)較為明顯,特別是對(duì)于二類(lèi)分類(lèi)的學(xué)習(xí)訓(xùn)練時(shí)間短,精確率、正確率、召回率明顯高于其他分類(lèi)方法[24]。本文在原始數(shù)據(jù)中隨機(jī)抽取1萬(wàn)條微博,采用監(jiān)督分類(lèi)的方式對(duì)文本進(jìn)行識(shí)別,并且利用標(biāo)簽分類(lèi)賦值,與文化資源密集區(qū)相關(guān)的微博賦值為1,否則賦值為0,利用樸素貝葉斯算法進(jìn)行機(jī)器學(xué)習(xí)文本分類(lèi),在源數(shù)據(jù)中計(jì)算機(jī)識(shí)別分類(lèi),為主題模型的構(gòu)建提供了數(shù)據(jù)基礎(chǔ)。
1.2.2LDA主題模型分析
LDA主題模型是David M.Blei等[25]人基于淺語(yǔ)義分析和概率淺語(yǔ)義分析提出的一種對(duì)文本數(shù)據(jù)的主題信息進(jìn)行建模的主題概率模型[26]。LDA可以用來(lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中潛藏的主題信息,并且有極強(qiáng)的解釋性,可以有效地解決短文本數(shù)據(jù)稀疏性的問(wèn)題[27],主題提取效果顯著,可較好地反映文本體現(xiàn)的熱點(diǎn)話題。LDA模型也是一個(gè)三層貝葉斯概率模型,包含詞-主題-文檔3層結(jié)構(gòu),通過(guò)運(yùn)用概率方法對(duì)模型進(jìn)行推導(dǎo),來(lái)尋找文本集的語(yǔ)義結(jié)構(gòu),挖掘文本的主題[28]。這種非監(jiān)督學(xué)習(xí)的主題構(gòu)建算法,無(wú)需對(duì)訓(xùn)練集進(jìn)行人為標(biāo)注,只需在文檔集以及語(yǔ)料庫(kù)中指定主題的數(shù)量k、迭代次數(shù)和狄利克雷參數(shù)即可[29],極大地節(jié)省了人力成本和時(shí)間成本。目前LDA模型作為最基礎(chǔ)、最著名的主題構(gòu)建方式,廣泛地應(yīng)用于主題挖掘和輿情分析,有學(xué)者將其與情感分析相結(jié)合,展開(kāi)旅游地[30]或傳統(tǒng)節(jié)日的感知研究,也有學(xué)者嘗試作為微博信息推薦依據(jù)[31]、科學(xué)文獻(xiàn)分析[32]的方法。本文基于 Python3.5 中 Gensim 庫(kù)的LDA 模型構(gòu)建算法,對(duì)經(jīng)過(guò)語(yǔ)義提取出的關(guān)于文化資源密集區(qū)相關(guān)微博的文本內(nèi)容進(jìn)行主題分析,通過(guò)LDA 模型中的詞袋(Bag of Words)計(jì)算出不同主題的概率,以及主題下對(duì)應(yīng)的詞語(yǔ)分布概率,最終獲得微博用戶對(duì)文化資源密集區(qū)感知的主題聚類(lèi)結(jié)果。
2結(jié)果及分析
2.1分類(lèi)結(jié)果分析
自定義詞典的確定。在試驗(yàn)前期階段,作者發(fā)現(xiàn)默認(rèn)的分詞計(jì)算效果欠佳,無(wú)法有效地將門(mén)頭溝地區(qū)文化內(nèi)涵較為豐富的地點(diǎn)進(jìn)行分詞識(shí)別,例如文本為“爨底下”“定都峰”,會(huì)被計(jì)算機(jī)語(yǔ)句分為“爨/底下”“定都/峰”兩個(gè)詞。分詞是文本分析的基礎(chǔ)步驟,不正確的分詞直接影響數(shù)據(jù)的分析,因此建立門(mén)頭溝地區(qū)文化遺產(chǎn)相關(guān)的自定義詞典十分必要。通過(guò)文獻(xiàn)查詢和對(duì)文本多次、反復(fù)的試驗(yàn),將文化資源密集區(qū)名單加入詞典當(dāng)中,以及通過(guò)多次的人工矯正,對(duì)不正確的分詞加以調(diào)整,最終得到較好的分詞結(jié)果。
分類(lèi)測(cè)試識(shí)別文化資源密集區(qū)相關(guān)的微博,在Excel中調(diào)用look up工具在源數(shù)據(jù)中隨機(jī)抽取2萬(wàn)條微博進(jìn)行人工標(biāo)注,標(biāo)注規(guī)則為文本明確提及文化資源密集區(qū),或沒(méi)有出現(xiàn)明確地點(diǎn)但是通過(guò)文本內(nèi)容可以判斷發(fā)布者來(lái)自文化資源地的可以標(biāo)注為1,否則將判別為與文化資源或遺產(chǎn)無(wú)關(guān)微博并標(biāo)注為0。為了將主觀因素降到最低,采用閱卷形式,同一份數(shù)據(jù)最多3個(gè)人進(jìn)行標(biāo)注,如果兩人標(biāo)注內(nèi)容相左,則交由第三人進(jìn)行判別。最終在數(shù)據(jù)中獲得訓(xùn)練樣本近1萬(wàn)條,包括正向即1和負(fù)向即0的人工識(shí)別標(biāo)簽各近5千條。將訓(xùn)練樣本進(jìn)行機(jī)器學(xué)習(xí),利用樸素貝葉斯方法對(duì)源數(shù)據(jù)進(jìn)行文本分類(lèi),最終提取出文化資源密集區(qū)相關(guān)微博2萬(wàn)3千條左右。在自檢結(jié)果中,混淆矩陣顯示人工標(biāo)注和計(jì)算機(jī)識(shí)別均為正向的文本1 018條,同為負(fù)向的文本1 148條,經(jīng)計(jì)算自檢率達(dá)到87.6%,綜合判定分類(lèi)結(jié)果準(zhǔn)確率為86.5%,機(jī)器學(xué)習(xí)分類(lèi)結(jié)果比較理想(見(jiàn)表1)。
2.2主題分析結(jié)果及分析
2.2.1主題數(shù)量的確定
為了更精確地選擇微博主題的數(shù)量,以期獲得比較準(zhǔn)確、全面的結(jié)果,第一次試驗(yàn),嘗試將主題個(gè)數(shù)設(shè)定為4,輸出25個(gè)關(guān)鍵詞,通過(guò)對(duì)結(jié)果圖的查驗(yàn)以及關(guān)鍵詞的辨別,發(fā)現(xiàn)當(dāng)主題個(gè)數(shù)為4時(shí),2類(lèi)主題與4類(lèi)主題高度重合,從關(guān)鍵詞來(lái)看,兩個(gè)主題都反映戶外風(fēng)景觀光,分類(lèi)差異特征不明顯,結(jié)果不佳。而后,分別將主題個(gè)數(shù)依次上調(diào),得到不同數(shù)量主題的結(jié)果展示圖以及輸出的關(guān)鍵詞,通過(guò)統(tǒng)計(jì)圖中每個(gè)主題的分布比較,以及關(guān)鍵詞的對(duì)比核查,發(fā)現(xiàn)隨著主題個(gè)數(shù)的增多,地點(diǎn)類(lèi)關(guān)鍵詞如“潭柘寺”“爨底下”“妙峰山”“京西”等詞基本都占有較高的貢獻(xiàn)值,但是超過(guò)5個(gè)主題后,隨著主題數(shù)量越多,各個(gè)主題分布的位置都有不同程度的交叉重疊現(xiàn)象,有的甚至出現(xiàn)3個(gè)主題甚至4個(gè)主題分布位置疊蓋在一起,加之對(duì)關(guān)鍵詞的校驗(yàn)發(fā)現(xiàn)各主題間關(guān)鍵詞糅雜,模糊了各個(gè)主題的特點(diǎn),不能很好地提取出每個(gè)主題的特征,會(huì)為解讀帶來(lái)較大困難,效果不理想。通過(guò)多次的實(shí)驗(yàn)探索,最終確定當(dāng)主題個(gè)數(shù)為5個(gè)時(shí),各主題在結(jié)果圖中的分布較為分散,關(guān)鍵詞也能較為清楚地反映每個(gè)主題的特征,決定將其作為本文的實(shí)驗(yàn)結(jié)果,進(jìn)行下一步分析解讀的基礎(chǔ)(見(jiàn)圖1、表2)。
2.2.2主題關(guān)鍵詞及其解讀
和前三個(gè)主題不同,主題4中的關(guān)鍵詞是一個(gè)動(dòng)詞“喜歡”(見(jiàn)圖5),其表達(dá)的是情緒的好壞,對(duì)于用戶的關(guān)注點(diǎn)無(wú)法判斷,只能側(cè)面表現(xiàn)用戶的心情,所以進(jìn)一步綜合其他關(guān)鍵詞對(duì)其主題進(jìn)行分析。由圖5可知,該主題中公園旅行的貢獻(xiàn)率最高,這部分用戶更加關(guān)注的地點(diǎn)是有休閑游憩功能的公園,主要的景點(diǎn)有定都閣、蓮石湖、神泉峽等,這些景點(diǎn)區(qū)域都位于門(mén)頭溝區(qū)東部,屬于近郊地區(qū)。關(guān)鍵詞“開(kāi)車(chē)”也能很好地證明這些區(qū)域距離城區(qū)較近,非常適合短途自駕游、組團(tuán)游等旅游模式。配合“好吃”“美食”“活動(dòng)”等關(guān)鍵詞可知該主題在游玩之余有了餐飲的涉及,野餐露營(yíng)或者品嘗特色美食等概率較高。
主題5可以看到兩個(gè)地點(diǎn)性關(guān)鍵詞“妙峰山”和“爨底下”的貢獻(xiàn)率都十分高(見(jiàn)圖6),這兩個(gè)地點(diǎn)看似關(guān)聯(lián)度不高,但是用戶將兩個(gè)地點(diǎn)的話題放在一起比例較高,可以從兩地的文化背景著手分析,妙峰山是門(mén)頭溝區(qū)乃至京西民俗文化的發(fā)祥地,有著悠久的民俗傳統(tǒng)和廣泛的傳播,而爨底下村,作為首批錄入國(guó)家級(jí)文化遺產(chǎn)地的古村落,其獨(dú)特的古建筑和古民居風(fēng)貌引人入勝,居民的建筑形式、生產(chǎn)習(xí)俗、聚落形態(tài)等作為民俗文化的重要組成部分,展現(xiàn)了爨底下村悠久而深沉的民間文化。因此不難理解妙峰山與爨底下村在歷史底蘊(yùn)和民俗魅力上的共同點(diǎn),通過(guò)戶外徒步、騎行、拓展等形式,身體力行,融入其中,表達(dá)了對(duì)民俗文化的積極性與關(guān)注度。
2.2.3主題的空間分布
將主題模型輸出結(jié)果導(dǎo)入ARCGIS10.6,利用漁網(wǎng)工具建立格網(wǎng),對(duì)其進(jìn)行格網(wǎng)分析,計(jì)算每個(gè)格網(wǎng)中每個(gè)主題數(shù)量所占的比率,比率較高的格網(wǎng)就是相關(guān)主題空間分布的熱點(diǎn)地區(qū)。本研究選取占比為50%以上作為標(biāo)準(zhǔn),獲取每個(gè)主題代表性的地區(qū)相對(duì)分布的空間特征。如圖7所示,主題1主要分布于門(mén)頭溝區(qū)中北部和東南部地區(qū),集中分布于雁翅鎮(zhèn)和潭柘寺鎮(zhèn)。
主題2零散分布在各個(gè)村鎮(zhèn),主要集中于門(mén)頭溝區(qū)西部的清水鎮(zhèn)。主題3分布東西部地區(qū)差異較為明顯,集中分布在中西部的村鎮(zhèn)。主題4分布于門(mén)頭溝西部和北部地區(qū),清水鎮(zhèn)、齋堂鎮(zhèn)和雁翅鎮(zhèn)分布數(shù)量較多。主題5分布較為廣泛,在清水鎮(zhèn)、齋堂鎮(zhèn)、雁翅鎮(zhèn)、妙峰山鎮(zhèn)和潭柘寺鎮(zhèn)較為集中。各個(gè)主題在門(mén)頭溝區(qū)各個(gè)地區(qū)均有分布,但差異性較為明顯。
主題1位置分布有明顯沿道路分布的特征,東南部該主題體現(xiàn)較為明顯的網(wǎng)格大致與潭王路道路線路分布趨勢(shì)相同,潭王路是通往天門(mén)山景區(qū)以及潭柘寺景區(qū)的主干路,可以理解為用戶習(xí)慣于在祈福來(lái)往的路上進(jìn)行相關(guān)微博內(nèi)容的發(fā)送。潭王路北部區(qū)域?yàn)槊罘屐`溪景區(qū),妙峰山建有娘娘廟等廟宇,三處廟宇群分別為靈感宮、回香閣、玉皇頂,山上建有釋、道、儒、俗等不同信仰的殿宇14座,以創(chuàng)建于明末的“娘娘廟”著名,可以看出妙峰山也是用戶選擇祈福的文化遺產(chǎn)地區(qū)之一。北部熱點(diǎn)區(qū)域大部分沿道路分布,較為明顯的分布在大鎮(zhèn)路、莊大路、高芹路,這3條路都距離得勝寺較近,且周邊并無(wú)其他景區(qū)或遺產(chǎn)地,可以認(rèn)為是前往得勝寺祈福的用戶在祈福路上或歸途進(jìn)行的相關(guān)內(nèi)容分享,故而本文將主題1歸納為古剎祈福主題。如圖8所示。
主題2主要集中清水鎮(zhèn),清水鎮(zhèn)南部的熱點(diǎn)地區(qū)為百花山國(guó)家級(jí)自然保護(hù)區(qū),其風(fēng)景資源包括主峰景區(qū)、草甸景區(qū)、望海樓景區(qū)、百草畔景區(qū)四大景區(qū)。保護(hù)區(qū)中18處獨(dú)特景觀、35個(gè)景點(diǎn),有豐富的生態(tài)價(jià)值、觀光價(jià)值和科考價(jià)值,是注重體驗(yàn)自然遺產(chǎn)風(fēng)光用戶的選擇地之一。清水鎮(zhèn)北部的觀景主題體現(xiàn)也十分明顯,主要分布于靈山自然風(fēng)景區(qū)、龍門(mén)澗風(fēng)景區(qū)和黃草梁景區(qū),3個(gè)景區(qū)位置緊密,形成了強(qiáng)大的風(fēng)景觀光吸引力,致使用戶無(wú)法忽視其自然景觀價(jià)值,成為觀景熱點(diǎn)區(qū)域。另外兩個(gè)熱點(diǎn)網(wǎng)格分別置于109國(guó)道和高沿路,109國(guó)道是通往門(mén)頭溝區(qū)西部的主干道,其交通地位顯著,高沿路的熱點(diǎn)體現(xiàn),很可能是其服務(wù)于靠北地區(qū)用戶前往清水鎮(zhèn)進(jìn)行觀光游覽的道路,兩條道路都是通往清水鎮(zhèn)觀景游覽比較重要的交通線路,故而將主題2歸納為徒步觀景。如圖9所示。
主題3中清水鎮(zhèn)的熱點(diǎn)村落在黃安村,位于清水鎮(zhèn)西南通往百花山的方向,相傳宋代已成村,村中不僅有眾多的古民居,還有昌宛專(zhuān)署舊址、石刻和過(guò)街樓等,其中昌宛黃安專(zhuān)署舊址為門(mén)頭溝區(qū)級(jí)文保單位,加之百花山國(guó)家級(jí)保護(hù)區(qū)的帶動(dòng),黃安村成為該主題的熱點(diǎn)地區(qū)。其他熱點(diǎn)地區(qū)分散位于109國(guó)道、齋柏路、軍紅路周邊,沿線村落眾多,如靈水村、爨底下村、張家村等,村落大都?xì)v史悠遠(yuǎn)、特色鮮明、古跡較為豐富。沿途還有一些度假村、避暑山莊、客棧等設(shè)施,為游客提供中長(zhǎng)期村莊生活體驗(yàn),村落具有一定的旅游開(kāi)發(fā)基礎(chǔ),民俗、飲食等基礎(chǔ)設(shè)施完善,村內(nèi)物質(zhì)文化遺存較為豐富,再之周邊自然景觀豐富,為家人周末度假創(chuàng)造了良好的條件,
讓自己在游玩的同時(shí)不至于過(guò)于疲憊,更好地促進(jìn)家庭之間的感情,所以可以將主題3歸納為古村度假。如圖10所示。
主題4的熱點(diǎn)從空間分布上來(lái)看,多位于主干道附近如109國(guó)道,109國(guó)道定位區(qū)域方便到達(dá),分布于門(mén)頭溝中西部地區(qū),良好的交通條件彌補(bǔ)了距離城區(qū)較遠(yuǎn)的缺點(diǎn)。
同時(shí)從熱點(diǎn)分布來(lái)看,部分熱點(diǎn)積聚于齋堂鎮(zhèn),齋堂鎮(zhèn)在門(mén)頭溝區(qū)基礎(chǔ)設(shè)施相對(duì)完善、旅游知名度較高,大量游人開(kāi)車(chē)來(lái)此游玩。通過(guò)上文對(duì)主題4的關(guān)鍵詞分析解讀,提取到了具有多元性的休閑娛樂(lè),其關(guān)鍵詞也體現(xiàn)了短途旅游的特點(diǎn),同時(shí)根據(jù)其熱點(diǎn)的空間分布點(diǎn)位于主要交通干道和齋堂鎮(zhèn),其較高的交通通達(dá)性的作用明顯,可以將主題4歸納為自駕休閑。如圖11所示。
主題5熱點(diǎn)地區(qū)為齋堂鎮(zhèn)靈水村,被國(guó)家文物局列為第二批公布的“中國(guó)歷史文化名村”,該村自古有崇尚文化的遺風(fēng),明初就建有社學(xué),尊師重教,讀書(shū)上進(jìn)蔚然成風(fēng),出過(guò)22名舉人、2名進(jìn)士和10余名全國(guó)最高學(xué)府國(guó)子監(jiān)的監(jiān)生,得名“靈水舉人村”。此地打卡的用戶無(wú)疑可以很好地感受靈水村傳承悠久的“尚學(xué)”民風(fēng)傳統(tǒng),體會(huì)濃厚特色的教育文化。另外打卡熱點(diǎn)地區(qū)為妙峰山,是以宗教民俗為主的文化圣地,每年均舉辦妙峰山娘娘廟會(huì),以香客祭祀妙峰山“天仙圣母碧霞元君”為中心活動(dòng),集民間花會(huì)、戲曲曲藝表演、觀賞自然風(fēng)光和集市活動(dòng)為一體,很好地展現(xiàn)妙峰山地區(qū)的民俗特色和民間信仰文化。還有部分打卡熱點(diǎn)地區(qū)為采摘園、觀光園等農(nóng)業(yè)特色項(xiàng)目體驗(yàn)區(qū),展現(xiàn)農(nóng)家民俗,例如京西山水種植社、紫云櫻桃采摘園、京西東山貢梨園等民俗特色體驗(yàn)區(qū),對(duì)民俗、農(nóng)樂(lè)等進(jìn)行感知,綜合關(guān)鍵詞中的妙峰山、爨底下,展現(xiàn)的是豐富的民俗文化內(nèi)涵,故而主題5為民俗感悟。如圖12所示。
3結(jié)論與討論
3.1結(jié)論
本文以微博數(shù)據(jù)為依托,嘗試將其與文化遺產(chǎn)地的感知研究相結(jié)合,利用樸素貝葉斯文本分類(lèi)方法,在提取門(mén)頭溝區(qū)文化遺產(chǎn)地相關(guān)微博的基礎(chǔ)上,運(yùn)用LDA模型進(jìn)行主題模型構(gòu)建,并且將各個(gè)
模型的結(jié)果回歸地圖,研究不同主題的分布特征,
得到以下結(jié)論:
1) 門(mén)頭溝地區(qū)與文化遺產(chǎn)相關(guān)微博分為五大主題。經(jīng)過(guò)LDA模型構(gòu)建,將文化資源密集區(qū)的微博內(nèi)容體現(xiàn)的話題分為古剎祈福主題、徒步觀景主題、古村度假主題、自駕休閑主題和民俗感悟主題,每個(gè)主題下面的貢獻(xiàn)值較高的關(guān)鍵詞,可以較好地反映該主題的特征。
2) 每個(gè)主題空間分布差異較為明顯。古剎祈福主題主要集中分布于雁翅鎮(zhèn)和潭柘寺鎮(zhèn)。徒步觀景主題分布相對(duì)較為分散,主要集中于清水鎮(zhèn)。古村度假主題分布東西部地區(qū)差異較為明顯,集中分布在中西部的村鎮(zhèn)。自駕休閑主題多分布于主干道和交通設(shè)施便利的地區(qū),交通依賴程度較高。民俗感悟主題分布較為廣泛,在多個(gè)村鎮(zhèn)均有較好的體現(xiàn)。
3) 熱點(diǎn)位置對(duì)多個(gè)主題有較好的呼應(yīng)。利用GIS漁網(wǎng)分析工具,將每個(gè)文化資源密集區(qū)主題相對(duì)數(shù)量的微博位置清晰展現(xiàn),多個(gè)主題的熱點(diǎn)位置均能較好地體現(xiàn)出主題的空間特征,文化資源密集區(qū)的空間結(jié)構(gòu)對(duì)文化遺產(chǎn)感知具有重要的影響。
3.2討論
由于微博文本具有內(nèi)容短小、噪音大的特點(diǎn),此方面的大數(shù)據(jù)處理方法還在研究階段,未形成權(quán)威的解決方案,本文雖然利用機(jī)器學(xué)習(xí)對(duì)微博文本是否和文化遺產(chǎn)感知有關(guān)進(jìn)行了研究,但對(duì)如何提升分類(lèi)精度有待進(jìn)一步加強(qiáng)。另外,LDA模型中主題的個(gè)數(shù)確定依然是經(jīng)驗(yàn)值,需要多次反復(fù)試驗(yàn),根據(jù)經(jīng)驗(yàn)選取,主觀因素較大。同時(shí),微博內(nèi)容位置與實(shí)際位置存在脫離現(xiàn)象,或是存在打卡地點(diǎn)偏離等問(wèn)題,也導(dǎo)致部分討論的文化遺產(chǎn)感知的結(jié)果回歸到圖上后空間特征并不明顯,在下一步的研究中,要加強(qiáng)對(duì)微博數(shù)據(jù)本身特點(diǎn)的進(jìn)一步分析,在技術(shù)上尋求更好的解決方案,為文化遺產(chǎn)保護(hù)傳承利用的相關(guān)研究提供更加有效的技術(shù)支持,促進(jìn)文化
資源密集區(qū)更好的保護(hù)與傳承。
[參考文獻(xiàn)]
[1]習(xí)近平.決勝全面建成小康社會(huì)奪取新時(shí)代中國(guó)特色社會(huì)主義偉大勝利——在中國(guó)共產(chǎn)黨第十九次全國(guó)代表大會(huì)上的報(bào)告[EB/OL].(2017-10-27)[2019-03-01].http://www.xinhuanet.com/2017-10/27/c_1121867529.htm.
[2]羅紹明.貴州文化遺產(chǎn)資源保護(hù)與旅游發(fā)展[J].中國(guó)發(fā)展,2018,18(4):33-37.
[3]黃年紅,尹燕,盧勇,等.江蘇文化遺產(chǎn)旅游開(kāi)發(fā)研究[J].農(nóng)村經(jīng)濟(jì)與科技,2013,24(12):86-89+59.
[4]杜忠潮.陜西關(guān)中地區(qū)帝陵遺產(chǎn)資源保護(hù)與旅游開(kāi)發(fā)研究[J].咸陽(yáng)師范學(xué)院學(xué)報(bào),2011,26(6):54-62.
[5]張妍,張婕.基于天津非物質(zhì)文化遺產(chǎn)活態(tài)傳承下的傳統(tǒng)手工藝生產(chǎn)性保護(hù)研究[J].包裝工程,2019,40(4):192-196.
[6]陳永輝,白晉湘.非物質(zhì)文化遺產(chǎn)保護(hù)視角下我國(guó)少數(shù)民族民俗體育文化資源開(kāi)發(fā)[J].武漢體育學(xué)院學(xué)報(bào),2009,43(3):75-80.
[7]李廣宏,梁敏華.桂林戲曲非物質(zhì)文化遺產(chǎn)旅游數(shù)字化開(kāi)發(fā)研究[J].河北旅游職業(yè)學(xué)院學(xué)報(bào),2018,23(4):28-32.
[8]薛璐瑤,張璐,唐嘉聞.非物質(zhì)文化遺產(chǎn)的新媒體傳播研究——以內(nèi)蒙古呼和浩特市 “和林格爾剪紙”為例[J].新媒體研究,2019,5(1):42-44+55.
[9]盧松,吳霞.古村落旅游地寫(xiě)生游客滿意度評(píng)價(jià)——以黟縣宏村為例[J].地理研究,2017,36(8):1570-1582.
[10]張嫄媛,單文君.基于游客感知的杭州西湖景區(qū)智慧旅游公共服務(wù)體系優(yōu)化研究[J].時(shí)代經(jīng)貿(mào),2018(6):56-58.
[11]張琪.嵩山少林寺游客旅游動(dòng)機(jī)研究[J].河南工程學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2015,30(2):22-27.
[12]盧松,張捷,蘇勤.旅游地居民對(duì)旅游影響感知與態(tài)度的歷時(shí)性分析——以世界文化遺產(chǎn)西遞景區(qū)為例[J].地理研究,2009,28(2):536-548.
[13]唐曉云,閔慶文,吳忠軍.社區(qū)型農(nóng)業(yè)文化遺產(chǎn)旅游地居民感知及其影響——以廣西桂林龍脊平安寨為例[J].資源科學(xué),2010,32(6):1035-1041.
[14]盧松,張捷,李東和,等.旅游地居民對(duì)旅游影響感知和態(tài)度的比較——以西遞景區(qū)與九寨溝景區(qū)為例[J].地理學(xué)報(bào),2008(6):646-656.
[15]楊敏,李馨怡.基于微博數(shù)據(jù)分析的西安旅游形象感知研究[J].曲阜師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,43(1):81-88.
[16]陳曉艷,張子昂,胡小海,等.微博簽到大數(shù)據(jù)中旅游景區(qū)客流波動(dòng)特征分析——以南京市鐘山風(fēng)景名勝區(qū)為例[J].經(jīng)濟(jì)地理,2018,38(9):206-214.
[17]楊微石,郭旦懷,逯燕玲,等.基于大數(shù)據(jù)的文化遺產(chǎn)認(rèn)知分析方法——以北京舊城中軸線為例[J].地理科學(xué)進(jìn)展,2017,36(9):1111-1118.
[18]塔娜,張海.微博旅游營(yíng)銷(xiāo)現(xiàn)狀研究——以宏村為例[J].度假旅游,2018(11):204-206.
[19]周佳穎,王俊蓉,張景秋.微博用戶的中國(guó)傳統(tǒng)節(jié)日感知及區(qū)域差異研究[J].地球信息科學(xué)學(xué)報(bào),2019,21(1):77-85.
[20]朱海勇,孟斌,張景秋.數(shù)字化技術(shù)和三山五園文化遺產(chǎn)保護(hù)與利用[J].北京聯(lián)合大學(xué)學(xué)報(bào),2016,30(1):21-25.
[21]北京市人民政府辦公廳. 北京市國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃綱要[EB/OL].(2016-03-28)[2019-03-09].http://www.beijing.gov.cn/gongkai/guihua/2841/6590/6600/1700260/1532420/index.html.
[22]SWAMI A, JAIN R. Scikit-learn: machine learning in python[J]. Journal of Machine Learning Research, 2012, 12(10):2825-2830.
[23]楊憶,李建國(guó),葛方振.基于Scikit-Learn的垃圾短信過(guò)濾方法實(shí)證研究[J].淮北師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,37(4):39-41.
[24]史琬瑩.樸素貝葉斯方法在文本分類(lèi)中的運(yùn)用[J].電子技術(shù)與軟件工程,2018(11):192.
[25]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J].Journal of Machine Learning Research, 2003(3):993-1022.
[26]鄧丹君,姚莉.基于微博標(biāo)簽和LDA的微博主題提取算法[J].計(jì)算機(jī)與數(shù)字工程,2017,45(5):954-957.
[27]宋蕾,張培晶.基于LDA主題建模的微博輿情分析系統(tǒng)研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(4):5-6.
[28]張晨逸,孫建伶,丁軼群.基于MB-LDA模型的微博主題挖掘[J].計(jì)算機(jī)研究與發(fā)展,2011,48(10):1795-1802.
[29]謝永俊,彭霞,黃舟,等.基于微博數(shù)據(jù)的北京市熱點(diǎn)區(qū)域意象感知[J].地理科學(xué)進(jìn)展,2017,36(9):1099-1110.
[30]張學(xué)民,趙明宇.基于LDA和情感分析的西塘古鎮(zhèn)旅游形象研究[J/OL].河北工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版):1-9[2019-03-07].https://doi.org/10.14081/j.cnki.cn13-1396/g4.000113.
[31]崔金棟,杜文強(qiáng),關(guān)楊.基于大數(shù)據(jù)與LDA融合的微博信息推薦方法研究[J].情報(bào)科學(xué),2018,36(9):27-31+76.
[32]周娜,李秀霞,高丹.基于LDA主題模型的“作者—內(nèi)容—方法”多重共現(xiàn)分析——以圖書(shū)情報(bào)學(xué)為例[J/OL].情報(bào)理論與實(shí)踐: 1-9[2019-03-07]. http://kns.cnki.net/kcms/detail/11.1762.g3.20190131.1556.004.html.
(責(zé)任編輯李亞青)