馬思根 趙小明 吳勇
摘? 要: 貴州省非物質(zhì)文化遺產(chǎn)極為豐富,蘊(yùn)涵著貴州各民族特有的精神價(jià)值、思維方式、想象力和文化意識(shí),體現(xiàn)著貴州各民族的生命力和創(chuàng)造力。為了更好地發(fā)掘和保護(hù)貴州非物質(zhì)文化遺產(chǎn),通過(guò)對(duì)貴州省非物質(zhì)文化遺產(chǎn)保護(hù)中心網(wǎng)的數(shù)據(jù)挖掘,采用詞云分析、聚類分析和可視化技術(shù)等,對(duì)貴州非物質(zhì)文化遺產(chǎn)的文本數(shù)據(jù)進(jìn)行處理,并提取有價(jià)值的關(guān)鍵文本信息,為貴州非物質(zhì)文化遺產(chǎn)的傳承和發(fā)展提供依據(jù)。
關(guān)鍵詞: 聚類分析; 詞云分析; 數(shù)據(jù)挖掘; 非物質(zhì)文化遺產(chǎn); 貴州
Abstract: Guizhou Province is rich in intangible cultural heritage, which contains the unique spiritual value, mode of thinking, imagination and cultural consciousness of all ethnic groups in Guizhou, and reflects the vitality and creativity of all ethnic groups in Guizhou. In order to better excavate and protect the intangible cultural heritage of Guizhou, through data mining of Guizhou intangible cultural heritage protection center network, the text data of Guizhou intangible cultural heritage are processed by word cloud analysis, clustering analysis and visualization technology, and valuable key text information is extracted to provide basis for the inheritance and development of intangible cultural heritage in Guizhou.
Key words: clustering analysis; word cloud analysis; data mining; intangible cultural heritage; Guizhou
0 引言
非物質(zhì)文化是一種非物質(zhì)形態(tài)的文化,它常存在于民間并且世代相傳,具有濃厚的藝術(shù)價(jià)值和歷史價(jià)值,其主要的表現(xiàn)形式有工藝、文學(xué)形象、音樂(lè)和圖像等,通過(guò)身形和語(yǔ)言傳承并延續(xù)至今,是人類歷史發(fā)展進(jìn)程中不斷積累的珍貴財(cái)富[1]。貴州省非物質(zhì)文化遺產(chǎn)極為豐富,是我國(guó)非物質(zhì)文化遺產(chǎn)的重要組成部分,也極大地豐富了世界文化的多樣性。然而,由于各種因素的影響,貴州非物質(zhì)文化遺產(chǎn)在發(fā)掘、繼承、保護(hù)和發(fā)展等方面的缺失,導(dǎo)致一些非物質(zhì)文化遺產(chǎn)正面臨著不斷消亡的尷尬局面。為了改變這種窘迫的境況,更好地發(fā)掘、繼承、保護(hù)和發(fā)展貴州非物質(zhì)文化遺產(chǎn),就顯得非常迫切。雖然為了推動(dòng)非物質(zhì)文化地區(qū)經(jīng)濟(jì)的繁榮發(fā)展和非遺的保護(hù)工作,貴州省各地區(qū)以政府為主導(dǎo),積極打造以非物質(zhì)文化遺產(chǎn)為基礎(chǔ)的文化旅游經(jīng)濟(jì),力求在推動(dòng)地方經(jīng)濟(jì)發(fā)展的同時(shí),弘揚(yáng)非物質(zhì)文化遺產(chǎn)精神[2],但其效果極為有限。本文通過(guò)爬取貴州非物質(zhì)文化遺產(chǎn)現(xiàn)有文本數(shù)據(jù),然后進(jìn)行詞云分析、聚類分析以及可視化技術(shù)處理等對(duì)貴州非物質(zhì)文化遺產(chǎn)展開研究,力求為貴州非物質(zhì)文化遺產(chǎn)的有序傳承及其健康發(fā)展提供可靠的依據(jù)。
數(shù)據(jù)挖掘是對(duì)大型數(shù)據(jù)庫(kù)、數(shù)據(jù)構(gòu)件庫(kù)和其他大型信息資源中標(biāo)志知識(shí)含義的類型的自動(dòng)或便捷的提取,是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的模式的高級(jí)處理過(guò)程[3]。文化遺產(chǎn)的數(shù)據(jù)挖掘與云計(jì)算相結(jié)合,為文化遺產(chǎn)的感知、認(rèn)知和決策提供了基礎(chǔ)[4-5]。貴州非物質(zhì)文化遺產(chǎn)的網(wǎng)頁(yè)信息數(shù)不勝數(shù),要選取可靠的網(wǎng)頁(yè)信息源,并從這些海量的數(shù)據(jù)中提取有價(jià)值的信息,挖掘出貴州非物質(zhì)遺產(chǎn)的文本數(shù)據(jù)信息,分析這些數(shù)據(jù)之間的制衡關(guān)系,并為貴州非物質(zhì)文化遺產(chǎn)的發(fā)掘、保護(hù)和繼承提供依據(jù),這是本次研究的意義所在。
1 數(shù)據(jù)源的選取
網(wǎng)絡(luò)中關(guān)于貴州非物質(zhì)文化遺產(chǎn)數(shù)據(jù)信息數(shù)以億計(jì),而且魚目混珠,數(shù)據(jù)的爬取及收集首先需要選擇可靠的數(shù)據(jù)來(lái)源,本次研究選擇貴州省非物質(zhì)文化遺產(chǎn)保護(hù)中心官方網(wǎng)站作為文本數(shù)據(jù)來(lái)源。貴州省非物質(zhì)文化遺產(chǎn)保護(hù)中心是貴州省文化和旅游廳直屬的事業(yè)單位,是承擔(dān)全省非物質(zhì)文化遺產(chǎn)的普查、傳播和數(shù)據(jù)庫(kù)建設(shè),開展非物質(zhì)文化遺產(chǎn)理論研究、學(xué)術(shù)交流、科學(xué)實(shí)踐及保護(hù)工作,并負(fù)責(zé)進(jìn)行全省非物質(zhì)文化遺產(chǎn)保護(hù)的人才培訓(xùn)和相關(guān)咨詢服務(wù)的工作機(jī)構(gòu),其官方網(wǎng)站數(shù)據(jù)也是貴州省非物質(zhì)文化遺產(chǎn)領(lǐng)域最權(quán)威、最齊全的數(shù)據(jù)。本次研究通過(guò)對(duì)貴州省非物質(zhì)文化遺產(chǎn)保護(hù)中心官方網(wǎng)站解析其URL,并且運(yùn)用Python相關(guān)的庫(kù),編寫代碼爬取貴州省非物質(zhì)文化遺產(chǎn)的相關(guān)文本數(shù)據(jù)并進(jìn)行分析。
貴州省非物質(zhì)文化遺產(chǎn)保護(hù)中心網(wǎng)站,網(wǎng)址為:http://www.gzfwz.org.cn/。網(wǎng)站分為導(dǎo)航和主體網(wǎng)頁(yè)兩大部分,網(wǎng)站主體頁(yè)面內(nèi)容包括通知公告、新聞動(dòng)態(tài)、遺產(chǎn)名錄、政策法規(guī)、學(xué)術(shù)論壇、傳承人、協(xié)會(huì)工作、非遺產(chǎn)品和工作機(jī)構(gòu)等十三個(gè)板塊;網(wǎng)頁(yè)的具體內(nèi)容包括標(biāo)題、作者、來(lái)源、正文、時(shí)間以及閱讀量等等。
2 數(shù)據(jù)的爬取及數(shù)據(jù)庫(kù)表設(shè)計(jì)
選定網(wǎng)絡(luò)文本數(shù)據(jù)源后,就可以利用網(wǎng)絡(luò)爬蟲抓取網(wǎng)站上有價(jià)值的文本信息,保存到本地文本或者數(shù)據(jù)庫(kù)中,為后續(xù)的研究提供基礎(chǔ)數(shù)據(jù)語(yǔ)料。基于Python的網(wǎng)絡(luò)爬蟲步驟為:
⑴ 首先建立URL列表,編寫腳本與網(wǎng)站進(jìn)行交互,利用Python庫(kù)(urlib、urllib和httplib),并獲取網(wǎng)頁(yè)中的相關(guān)內(nèi)容。
聚類分析是描述數(shù)據(jù)中對(duì)象之間的關(guān)系,進(jìn)行數(shù)據(jù)對(duì)象分組的過(guò)程。利用數(shù)據(jù)對(duì)象的相關(guān)性和不相關(guān)性聚類,差異越大,聚類效果越好。其中,K-means是常用的聚類方式,它是一種基于距離的迭代算法[7]。這里討論基于貴州非物質(zhì)文化遺產(chǎn)的聚類分析,主要包括TF-IDF、聚類分析、可視化分析等過(guò)程。
4.1 TF-IDF權(quán)重計(jì)算及結(jié)果分析
通過(guò)TF-IDF權(quán)重計(jì)算的方法,分析爬取的貴州非物質(zhì)文化遺產(chǎn)文本數(shù)據(jù),TF-IDF(Term Frequency-Inverse Document Frequency)是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù),用于評(píng)估一個(gè)字詞文本對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)增加而增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率增加而下降。根據(jù)表9關(guān)于貴州非物質(zhì)文化遺產(chǎn)詞匯統(tǒng)計(jì)情況,做如下的計(jì)算。
⑴ 計(jì)算TF(詞頻)
由于文本大小不一樣,需要進(jìn)行詞頻標(biāo)準(zhǔn)化整理。計(jì)算方法如式⑴所示。
通過(guò)計(jì)算TF-IDF值可知,某文本中“表演”、“傳承”出現(xiàn)的次數(shù)很高,說(shuō)明貴州非物質(zhì)文化遺產(chǎn)中“表演”、“傳承”方面的內(nèi)容比較豐富。同時(shí)計(jì)算剩余幾個(gè)詞語(yǔ)的TF-IDF值并相加,便可以得到整個(gè)文檔的值,并能用于信息檢索。
4.2 聚類分析
基于非物質(zhì)文化遺產(chǎn)的數(shù)據(jù)分析、挖掘技術(shù)越來(lái)越受到關(guān)注。K-Means聚類算法快速、簡(jiǎn)單,適合大規(guī)模數(shù)據(jù)挖掘[8]。在聚類分析過(guò)程中,文本調(diào)用Sklearn機(jī)器學(xué)習(xí)擴(kuò)展包Kmeans,散發(fā)屬于歐式距離?;谫F州非物質(zhì)文化遺產(chǎn)的聚類分析中,首先對(duì)收集的貴州非物質(zhì)文化遺產(chǎn)語(yǔ)料集數(shù)據(jù)預(yù)處理,然后使用jieba工具對(duì)處理后的數(shù)據(jù)進(jìn)行中文分詞,接著使用Python包導(dǎo)入數(shù)據(jù),進(jìn)行K-means聚類分析,最后導(dǎo)入畫圖包,對(duì)數(shù)據(jù)進(jìn)行可視化展示。聚類分析的實(shí)驗(yàn)過(guò)程如下。
⑴ 導(dǎo)入KMeans聚類擴(kuò)展包,from sklearn.cluster import KMeans從機(jī)器學(xué)習(xí)聚類中導(dǎo)入KMeans聚類方法。采用clf=KMeans(n_clusters=10)設(shè)置類簇為10,因?yàn)榉俏镔|(zhì)文化一共有民間文學(xué)、民間音樂(lè)、民間舞蹈、傳統(tǒng)戲劇、曲藝、雜技與競(jìng)技、民間美術(shù)、傳統(tǒng)手工技藝、傳統(tǒng)醫(yī)藥、民俗這10種類別。
⑵ 導(dǎo)入數(shù)據(jù)集進(jìn)行降維處理,data=pd.read_csv('shujuchuli.csv')為TF-IDF貴州非物質(zhì)文化文本處理結(jié)果的數(shù)據(jù)集,from sklearn.decomposition import PCA進(jìn)行降維處理。
⑶ 可視化,import matplotlib.pyplot as plt導(dǎo)入畫圖包,利用plt.scatter(x,y,c=pre,marker='o',s=200)繪制散點(diǎn)圖。
通過(guò)以上過(guò)程的代碼實(shí)現(xiàn)后,可得貴州非物質(zhì)文化遺產(chǎn)文本TF-IDF聚類分析結(jié)果如圖2所示。
如圖2,根據(jù)編號(hào)將文本內(nèi)容分為10類。整體來(lái)看除了1號(hào)和9號(hào)外,其他類的差異不大,主要集中在零點(diǎn)附近,也代表大多數(shù)文本之間的差異不大。其中只有1號(hào)和9號(hào)偏離較遠(yuǎn),表示1號(hào)和9號(hào)與2號(hào)、3號(hào)、4號(hào)、5號(hào)、6號(hào)、7號(hào)、8號(hào)和10號(hào)相比差異較大。
5 結(jié)束語(yǔ)
通過(guò)對(duì)貴州非物質(zhì)文化遺產(chǎn)的數(shù)據(jù)爬取以及文本數(shù)據(jù)處理和分析,可知貴州非物質(zhì)文化遺產(chǎn)的關(guān)鍵詞有“苗族”、“活動(dòng)”、“傳承”、“文化”、“表演”、“民間”、“侗族”和“民族”等,由此說(shuō)明貴州非物質(zhì)文化遺產(chǎn)在這些方面所占的數(shù)量比較多,在將來(lái)貴州非物質(zhì)文化遺產(chǎn)繼承和保護(hù)過(guò)程中需重視這八個(gè)方面的內(nèi)容。通過(guò)計(jì)算詞頻最高的八個(gè)“關(guān)鍵詞”TF-IDF值,可知其中“表演”和“傳承”出現(xiàn)的次數(shù)更高,說(shuō)明貴州非物質(zhì)文化遺產(chǎn)中“表演”和“傳承”方面的內(nèi)容比較豐富,說(shuō)明將來(lái)貴州非物質(zhì)文化遺產(chǎn)的發(fā)掘和發(fā)展可以從這兩個(gè)方面入手,將能發(fā)掘出更多、更好的非物質(zhì)文化遺產(chǎn)。通過(guò)對(duì)貴州非物質(zhì)文化遺產(chǎn)的聚類分析可知,民間文學(xué)、民間音樂(lè)、民間舞蹈、傳統(tǒng)戲劇、曲藝、雜技與競(jìng)技、民間美術(shù)、傳統(tǒng)手工技藝、傳統(tǒng)醫(yī)藥和民俗這10種類別中,除了兩種類別差異較大外,其他類別差異不大,說(shuō)明對(duì)各種類別的貴州非物質(zhì)文化遺產(chǎn)的發(fā)掘和發(fā)展盡量平等看待,共同發(fā)展。
參考文獻(xiàn)(References):
[1] 曹瑞.互聯(lián)網(wǎng)商業(yè)信息中的非物質(zhì)文化數(shù)據(jù)挖掘及空間可視化[D].河北師范大學(xué),2012.
[2] 浦凱迪.關(guān)于貴州少數(shù)民族非物質(zhì)文化遺產(chǎn)保護(hù)的調(diào)查研究[D].北京印刷學(xué)院,2015.
[3] 李曉城,張?jiān)鼋?,夏勇明?基于Web數(shù)據(jù)挖掘的健康餐飲分析推薦系統(tǒng)的設(shè)計(jì)[J].微型電腦應(yīng)用,2011.27(1):44-46,5-6
[4] 馬楠,鮑泓,劉宏哲等.Web 3D圖像的存儲(chǔ)管理及在數(shù)字博物館中的應(yīng)用[J].北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2006.20(1):45-48
[5] 鮑泓,劉宏哲.大數(shù)據(jù)時(shí)代文化遺產(chǎn)數(shù)據(jù)挖掘的認(rèn)識(shí)[J].北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2015.29(3):1-4
[6] 周善.數(shù)據(jù)新聞:網(wǎng)站專業(yè)生產(chǎn)內(nèi)容(PGC)的可循之途——四大門戶網(wǎng)站的數(shù)據(jù)新聞實(shí)踐[J].編輯之友,2014.8:70-73,86
[7] 范生姣.黔東南非物質(zhì)文化遺產(chǎn)現(xiàn)狀及保護(hù)對(duì)策研究[J].凱里學(xué)院學(xué)報(bào),2014.32(5):37-40
[8] 張大虎.基于主題的文本數(shù)據(jù)采集系統(tǒng)的研究與實(shí)現(xiàn)[D].東北大學(xué),2010.