国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向多源異構(gòu)絲路文化遺產(chǎn)數(shù)據(jù)的智能挖掘方法

2023-02-14 01:59楊寒淋周婭鵑安薇竹翁正秋寧靈艦
絲綢 2023年1期
關(guān)鍵詞:絲路文化遺產(chǎn)分類

楊寒淋, 周婭鵑, 趙 豐, 徐 蓉, 安薇竹, 翁正秋, 寧靈艦, 金 宇

(1.中國絲綢博物館 國際交流部,杭州 310002; 2.溫州職業(yè)技術(shù)學院 人工智能學院,浙江 溫州 325006;3.浙江理工大學 紡織科學與工程(國際絲綢學院),杭州 310018; 4.同方知網(wǎng)(北京)技術(shù)有限公司 浙江分公司,杭州 310018)

絲綢是絲綢之路的原動力,在跨文化傳播中發(fā)揮著重要作用;絲綢之路是溝通中國與世界其他地區(qū)的交通路線,為世界文明的發(fā)展做出了巨大貢獻。廣義上的絲綢之路東達韓國、日本,西至地中海各國,通過海路途徑柬埔寨、泰國,連通意大利、埃及等國家。2019年,在第二屆“一帶一路”國際合作高峰論壇上,習近平總書記提出要積極架設不同文明互學互鑒的橋梁,深入開展各領(lǐng)域人文合作,形成多元互動的人文交流格局。鑒于此,深入研究絲路文化遺產(chǎn),弘揚絲路文化精神,能夠更好地促進各國各地的文化、政治和經(jīng)濟交流。然而,現(xiàn)有絲路文化遺產(chǎn)呈現(xiàn)多源異構(gòu)特征——地域廣泛化、語言多元化、成果多樣化,在互聯(lián)網(wǎng)上表現(xiàn)為數(shù)據(jù)大量膨脹、分布極為零散、語言繁雜多樣,使得當前文博領(lǐng)域利用傳統(tǒng)的研究技術(shù)手段無法適應海量絲路文化遺產(chǎn)數(shù)據(jù)的智能研究,故利用人工智能手段挖掘絲路文化遺產(chǎn)愈發(fā)重要??傮w而言,要對絲路文化遺產(chǎn)數(shù)據(jù)進行全面細致的統(tǒng)計和分析,面臨著如下挑戰(zhàn):

1) 數(shù)據(jù)采集。需要采集的絲路文化遺產(chǎn)數(shù)據(jù)往往有不同的來源和模態(tài),各數(shù)據(jù)之間的語言組成、平臺架構(gòu)、文檔結(jié)構(gòu)等因素,導致數(shù)據(jù)的格式差別巨大,呈現(xiàn)多源異構(gòu)的特性,對數(shù)據(jù)采集效率和覆蓋率都是極大的挑戰(zhàn)。

2) 信息挖掘。在多源異構(gòu)的復雜數(shù)據(jù)中,對爬取到的文本內(nèi)容手動進行文章的語義提取與分類是不切實際的,需要智能化地進行自動標引、提取文摘與文本分類。

3) 數(shù)據(jù)清洗。由于挖掘得到的數(shù)據(jù)中含有大量相似的成分,冗余的信息會使得提取數(shù)據(jù)分析的精度和效率大幅降低。此外,部分文本內(nèi)容僅提到了絲路,實質(zhì)內(nèi)容卻與絲路無關(guān),使得該部分信息作為噪聲去除時極為困難。

針對上述挑戰(zhàn),本文提出面向多源異構(gòu)絲路文化遺產(chǎn)數(shù)據(jù)的智能挖掘技術(shù)。首先,構(gòu)建高覆蓋率與高效的數(shù)據(jù)采集系統(tǒng)。其次,設計針對多源異構(gòu)絲路文化遺產(chǎn)數(shù)據(jù)的自動標引、自動文摘與數(shù)據(jù)分類方法。然后,采用多維度融合聚類的數(shù)據(jù)清洗方法去除冗余和噪聲數(shù)據(jù)。最后,整合所提出的關(guān)鍵技術(shù)形成《絲綢之路文化遺產(chǎn)年報》并進行開源發(fā)布(https://github.com/CarolineYeung/SilkRoadReport/)。本成果旨在向公眾宣揚絲路文化遺產(chǎn)價值,激發(fā)大眾對絲綢之路的關(guān)注度和興趣,喚醒全社會對文化遺產(chǎn)的保護理念與意識,并有望為多源異構(gòu)絲路文化遺產(chǎn)數(shù)據(jù)的智能挖掘提供理論與技術(shù)支撐。

1 信息的獲取

對于絲路文化遺產(chǎn)數(shù)據(jù)有效信息的獲取,現(xiàn)有的采集策略可分為以下3種:人工采集、文博機構(gòu)提供和基于互聯(lián)網(wǎng)的大數(shù)據(jù)信息采集。

人工采集是有目的地對相關(guān)領(lǐng)域信息進行手動查詢,并從中獲得參考數(shù)據(jù)和研究數(shù)據(jù)的方式。絲路文化遺產(chǎn)信息根據(jù)存儲形態(tài),可分為數(shù)字化信息與非數(shù)字化信息。對于可檢索的數(shù)字化信息,一般會從搜索主題詞、關(guān)鍵詞入手,按照研究問題的操作化指標對收集到的相關(guān)信息進行人工錄入標注、摘錄,并建立表格進行數(shù)據(jù)管理。對于非數(shù)字化的信息,采集者首先從相關(guān)領(lǐng)域資料入手,利用滾雪球的方法,逐步積累、深化和細化。龍博等[1]結(jié)合歷史文獻人工調(diào)研和民間調(diào)查對多綜提花裝置的發(fā)展過程、提花原理和社會地位進行了綜合詳盡的分析。張曉斌等[2]利用互聯(lián)網(wǎng)手動提取廣東海上絲綢之路的時間架構(gòu),并在文化層面對廣東海上絲綢之路的整體價值做出評估。程金城等[3]人工采集并分析“基質(zhì)”“斑塊”和“廊道”等景觀生態(tài)學的數(shù)據(jù),對絲路文化遺產(chǎn)中文學要素進行再發(fā)現(xiàn)。劉運娟等[4]采用人工田野調(diào)查法和傳世實物分析法對泉州金蒼繡進行了研究,為增強海上絲綢之路沿線國家的文化認同感做出了貢獻。雖然人工采集數(shù)據(jù)在一定程度上可以獲取到絲路文化遺產(chǎn)數(shù)據(jù),但它只能獲取極其有限的信息數(shù)量,其信息有效性和專業(yè)性仍有待考證,并且會耗費大量時間。在當今互聯(lián)網(wǎng)信息的時代下,人工采集的方式或許過于保守,且缺乏數(shù)據(jù)信息的完整性與多樣性。

文博機構(gòu)提供相關(guān)信息資源是獲取絲路文化遺產(chǎn)數(shù)據(jù)的另一種渠道,博物館、圖書館、科研所、研究中心等機構(gòu)通過建立合作交流平臺[5-8]的方式提供領(lǐng)域相關(guān)數(shù)據(jù),由研究人員對這些數(shù)據(jù)進行梳理與整合[9-12]。于鳳靜等[9]聯(lián)合博物館和研究中心,探索中國海洋文化理念里的中國傳統(tǒng)文化精髓,實現(xiàn)與絲路精神的相契相合。馬建春等[10]通過與文博機構(gòu)的合作,建設相應的文化創(chuàng)新區(qū)與數(shù)據(jù)庫,挖掘海上絲綢之路歷史資源,梳理文化遺產(chǎn)。吳婭妮[11]是在絲綢之路背景下,探索圖文傳播與雕版印刷之間的關(guān)系及對社會文化發(fā)展起到的推動作用,其中引用了諸多博物館中的記載文獻。柴冬冬[12]則是列舉相關(guān)文博領(lǐng)域中的文獻資料,通過文化間性的置入,探究絲路文化在時間和空間的多維認同度。相較于傳統(tǒng)人工采集的模式,上述方法能更加有效地獲取專業(yè)信息。然而,此類多渠道多途徑匯總的原始數(shù)據(jù)量龐大,并且有較高的重復率,增加了后續(xù)分析的困難度。此外,特定文博機構(gòu)提供的絲路文化遺產(chǎn)數(shù)據(jù)在廣度與深度上也有局限,不能保證覆蓋所有的信息。

盡管人工采集與相關(guān)文博機構(gòu)提供的方式對數(shù)據(jù)獲取有所幫助,但無法確保其完整性和有效性,故亟須利用大數(shù)據(jù)技術(shù)從多源異構(gòu)數(shù)據(jù)中提取關(guān)鍵信息。然而,目前的相關(guān)工作僅利用大數(shù)據(jù)技術(shù)來進行絲綢文化變遷的相關(guān)研究,缺少對自動高效獲取準確絲路文化遺產(chǎn)數(shù)據(jù)方面的探討。例如,王鏡等[13]研究了絲綢之路與重游意愿影響關(guān)系,通過大數(shù)據(jù)查詢來獲取旅游地區(qū)歷年游客數(shù)量,并將其設置為調(diào)節(jié)變量進行分析。海波[14]則是以絲綢之路為視閾,研究河西走廊附近的佛教文化,其中應用到了基于互聯(lián)網(wǎng)的數(shù)據(jù)采集技術(shù)。若要全面采集并分析絲路文化遺產(chǎn)領(lǐng)域的專業(yè)資訊信息,需要結(jié)合數(shù)據(jù)挖掘技術(shù),主動發(fā)掘相似數(shù)據(jù)之間的內(nèi)在聯(lián)系,并做出快速精準的響應。本文利用數(shù)據(jù)挖掘技術(shù)對絲路文化遺產(chǎn)數(shù)據(jù)進行自動化搜索和采集,并對其進行分類、排重、去噪等挖掘處理,確保數(shù)據(jù)采集的完整性和數(shù)據(jù)分析的高效性。

2 研究方法

2.1 方法概述

本文提出的研究方法有別于文化領(lǐng)域的傳統(tǒng)研究方法。它通過數(shù)據(jù)采集、數(shù)據(jù)整理方面具體技術(shù)的應用,實現(xiàn)更全面的數(shù)據(jù)研究;同時依靠大數(shù)據(jù)智能分析技術(shù),實現(xiàn)對過去一年絲路文化遺產(chǎn)數(shù)據(jù)的統(tǒng)計和多維度分析。流程主要分為3部分:數(shù)據(jù)采集、信息挖掘分析,以及數(shù)據(jù)清洗與數(shù)據(jù)審核,如圖1所示。

圖1 面向多源異構(gòu)絲路文化遺產(chǎn)數(shù)據(jù)的智能挖掘技術(shù)流程Fig.1 Intelligent mining technology process for multi-source heterogeneous Silk Roads cultural heritage data

2.2 數(shù)據(jù)采集

在數(shù)據(jù)采集方面,本文提出一個集網(wǎng)絡數(shù)據(jù)采集、分析、存儲、管理功能于一體的網(wǎng)絡信息資源整合系統(tǒng)——垂直搜索引擎系統(tǒng)。通過預先設定的站點及可變的關(guān)鍵詞進行定向數(shù)據(jù)采集,目的是收集網(wǎng)絡上分散的ppt、word、pdf等各類形式的文檔。利用垂直搜索引擎對各種文獻、資訊進行閱讀,并理解其基本涵義,然后進行核心知識點摘取,保存為統(tǒng)一格式的摘要數(shù)據(jù)后轉(zhuǎn)存至數(shù)據(jù)庫中,其過程共包含以下4個步驟。

2.2.1 智能代理系統(tǒng)建設

本文采用集成多種智能信息處理算法,基于先進的語義規(guī)則技術(shù)進行淺層語義分析,從信息海洋中準確、及時地篩選出研究者所需的信息,并自動分類;運用自定義分類體系,為研究者提供多種方式定制所需的主題。

2.2.2 自動多線程高效采集

為了快速、全面、準確地從Internet及專業(yè)數(shù)據(jù)庫中獲取數(shù)據(jù),本文對所有腳本進行多線程并行采集,實時動態(tài)監(jiān)控特定目標,靈活定制采集策略,確保信息全面采集。對于采集規(guī)模較大的時間段,采用集群式蜘蛛[15]來抓取,確保抓取速度。同時為了實現(xiàn)各個模塊的解耦合、子模塊的獨立性,在本系統(tǒng)中使用了蜘蛛集群與智能代理集群,同時對服務器進行智能調(diào)度,從而子系統(tǒng)可以隨時斷開與連接,且不會影響到整個系統(tǒng)運行。

2.2.3 海量數(shù)據(jù)存儲和全文檢索

建設支持海量非結(jié)構(gòu)化數(shù)據(jù)存儲管理的系統(tǒng),以及成熟的全文檢索技術(shù)。與此同時,運用智能相似檢索系統(tǒng),以百萬級文獻量毫秒級響應速度實施數(shù)據(jù)檢索工作。

2.2.4 主流中文編碼識別和跨國語言支持

對主流中文編碼進行精準識別,系統(tǒng)在不同編碼之間自動轉(zhuǎn)換,持續(xù)運行;同時支持中文、英文、俄文、法文、日文5國語言。由應用服務器、蜘蛛、智能代理、轉(zhuǎn)存器、發(fā)布系統(tǒng)、規(guī)則編輯器、圖片Web服務器組成的7個分布式子系統(tǒng),能夠同時各自獨立運行數(shù)據(jù)處理工作。

2.3 信息挖掘分析

2.3.1 自動標引

利用詞頻-逆向文件頻率(TF-IDF)[16]從文本中自動抽取能夠高度有效表達文本主題和內(nèi)容的詞匯。主要過程如下:1) 統(tǒng)計分析文本標題、摘要、正文等部分;2) 對照禁用詞表或者統(tǒng)計的詞分布規(guī)律表,刪除高頻的語法功能詞和低頻詞匯;3) 對保留候選詞匯進行加工,英文詞匯要去掉后綴(或前綴),將每個詞還原到其詞根;4) 利用TF-IDF計算候選詞匯的權(quán)重;5) 選擇權(quán)值大于特定閾值的詞作為標引的關(guān)鍵詞。

2.3.2 自動文摘

根據(jù)目前國際前沿的自然語言處理思想,通常將詞的線性序列組成句子,將句子的線性序列組成文本。其中具體流程分4個步驟進行:1) 計算詞的權(quán)值;2) 計算句子的權(quán)值;3) 對所有句子按權(quán)值高低降序排列,權(quán)值最高的若干句子被確定為文摘句;4) 將文摘句按照它們在原文中的出現(xiàn)順序輸出。計算權(quán)值的依據(jù)是文本的6種特征:詞頻、標題、位置、句法結(jié)構(gòu)、線索詞和指示詞短語。

2.3.3 數(shù)據(jù)分類

數(shù)據(jù)分類的關(guān)鍵在于在向量空間中找到一個具有最大邊界的決策平面,這個決策平面能夠在某種評價指標上最好地分割兩個類別的數(shù)據(jù)點。決策平面可以寫作g(x)=ω·x+b=0,其中x是要分類的任意數(shù)據(jù)點,ω和常數(shù)b通過訓練獲得。支持向量機(SVM)[17]可以在高維空間找到離各類別數(shù)據(jù)距離最大的決策面,本文采用SVM來進行數(shù)據(jù)的分類。

2.4 數(shù)據(jù)清洗及數(shù)據(jù)審核

2.4.1 數(shù)據(jù)清洗

利用文本聚類技術(shù)對數(shù)據(jù)內(nèi)容進行自動分類和指紋索引,通過基于數(shù)據(jù)內(nèi)容的相似度計算(Profile模板差異計算方法[18]),將相似度超過臨界值的內(nèi)容進行自動刪除,僅保留路徑初始版本或權(quán)威來源版本,并根據(jù)聚類得到的離群點進行二次分析,以便去除無關(guān)的噪聲文本。

2.4.2 數(shù)據(jù)審核

在專家指導下,對全部數(shù)據(jù)進行審核,確保數(shù)據(jù)關(guān)鍵要素(時間、地點、參與人、摘要)的正確性。審核完成后進行數(shù)據(jù)發(fā)布。

3 實 驗

3.1 數(shù)據(jù)挖掘設置

本文從絲路文化遺產(chǎn)入手,以中國知網(wǎng)海量與“絲路文化遺產(chǎn)”相關(guān)文獻為樣本進行文本挖掘,按照陳列展覽、考古發(fā)現(xiàn)、文化事件、學術(shù)成果4個維度,利用數(shù)據(jù)智能挖掘技術(shù)、機器學習技術(shù)和數(shù)據(jù)清洗技術(shù),進行數(shù)據(jù)的深層次搜集和處理。將采集到的13.4萬條絲路文化遺產(chǎn)機器數(shù)據(jù)作為實驗測試樣本,進行分類、排重、去噪及整理。

3.2 數(shù)據(jù)挖掘過程

3.2.1 關(guān)鍵詞梳理

本文利用文本挖掘技術(shù),在中國知網(wǎng)海量文獻庫中分析與絲路文化遺產(chǎn)相關(guān)文獻,以文獻中與絲路文化遺產(chǎn)相關(guān)關(guān)鍵詞出現(xiàn)的“頻次”“突現(xiàn)率”“節(jié)點度”和“中心度”等維度智能推薦關(guān)鍵詞,并輔助以人工對關(guān)鍵詞進行篩選,共形成關(guān)鍵詞346個(每個關(guān)鍵詞包含中、英、俄、法、日5國語言)。將各個關(guān)鍵詞進行不同組合,利用布爾檢索關(guān)系的檢索式,對互聯(lián)網(wǎng)和數(shù)據(jù)庫進行信息搜索。截取部分關(guān)鍵詞,如表1所示。

表1 “絲路文化遺產(chǎn)”關(guān)鍵詞表部分截取Tab.1 Partial interception of the keyword table of “Silk Roads Cultural Heritage”

3.2.2 站點搜集及整理

通過互聯(lián)網(wǎng)信息采集軟件分析出與“絲路文化遺產(chǎn)”高度相關(guān)的網(wǎng)站(包括國內(nèi)和國外),并對這些站點進行統(tǒng)一資源定位器分析,形成初始信息來源網(wǎng)站清單,由相關(guān)領(lǐng)域?qū)<胰斯ぱa充并完善與“絲路文化遺產(chǎn)”相關(guān)信息的網(wǎng)站,形成包含漢語、英語、俄語、法語、日語5種語言的信息來源網(wǎng)站清單。最終整理得到符合本文檢索范圍的網(wǎng)站站點,主要有:聯(lián)合國教科文組織絲綢之路網(wǎng)站、世界十大博物館網(wǎng)站、絲路沿線全部國家的國家博物館網(wǎng)站、中國全部省級及以上級別博物館網(wǎng)站、中國全部省級及以上文物局網(wǎng)站、SCI數(shù)據(jù)庫、中國知網(wǎng)數(shù)據(jù)庫、百度搜索、谷歌搜索等知名公共搜索引擎等,包括368個中文站點,373個外文站點,共計741個站點。截取部分網(wǎng)站站點數(shù)據(jù)來源,如表2所示。

表2 網(wǎng)站站點數(shù)據(jù)來源部分截取Tab.2 Partial interception of the website data source

3.2.3 互聯(lián)網(wǎng)信息定向抓取與分類

本文利用表2所示網(wǎng)站站點頻道信息,以及事先設置的關(guān)鍵詞(表1),結(jié)合智能代理、自動多線程、海量數(shù)據(jù)存儲和編碼識別等方式對網(wǎng)站站點進行定向信息抓取。隨后,將篩選得到的數(shù)據(jù)通過自動標引、自動文摘得到某報道/文獻的摘要,最后利用機器學習技術(shù)(SVM)對文摘進行自動分類,分為陳列展覽、考古發(fā)現(xiàn)、文化事件、學術(shù)成果4大類。在SVM中,訓練樣本為1 000條人工標注的4大類文摘(其中800條用于訓練,200條用于測試,模型準確度達到99%),訓練好的模型能夠自動對剩余的數(shù)據(jù)進行分類。

對本次741個站點進行數(shù)據(jù)采集,共采集絲路文化遺產(chǎn)相關(guān)數(shù)據(jù)13.40萬條,機器對采集得到的全文進行分類,共得到:“絲綢之路陳列展覽”數(shù)據(jù)約4.10萬條,“絲綢之路考古發(fā)現(xiàn)”數(shù)據(jù)約0.40萬條,“絲綢之路文化事件”數(shù)據(jù)約7.40萬條,“絲綢之路學術(shù)成果”數(shù)據(jù)約1.50萬條。

本次數(shù)據(jù)采集工作網(wǎng)站配置與數(shù)據(jù)采集共耗時約15 d,采集數(shù)據(jù)大小約為110 GB。

3.2.4 數(shù)據(jù)整理

對采集和分類后的數(shù)據(jù)進行整理,包括數(shù)據(jù)清洗與數(shù)據(jù)審核。為確保質(zhì)量,數(shù)據(jù)整理工作通過人機結(jié)合的方式實施,對打上分類標簽的數(shù)據(jù)進行人工篩選審核,將篩選后的數(shù)據(jù)規(guī)范化,并提供中英2種語言的評審材料,以確保信息的準確度,即不能出現(xiàn)任何絲綢之路相關(guān)事件發(fā)生日期、發(fā)生地點、主要內(nèi)容的錯誤。對于專業(yè)程度較高的工作內(nèi)容,由本專業(yè)領(lǐng)域的專家指導完成。

3.3 數(shù)據(jù)挖掘結(jié)果

數(shù)據(jù)挖掘結(jié)果如表3所示,顯示的所有數(shù)據(jù)條數(shù)均為相關(guān)步驟處理完成之后的數(shù)量。由前文分析可知,在經(jīng)過數(shù)據(jù)采集和機器學習分類之后,共得到絲路文化遺產(chǎn)相關(guān)數(shù)據(jù)13.40萬條。由于分類后的數(shù)據(jù)中會包含重復數(shù)據(jù)和噪聲數(shù)據(jù),需要對其進行清洗:包括數(shù)據(jù)排重,即對全文內(nèi)容重復率高于90%的條目進行去重,僅保留最早發(fā)布的文章;去噪,即剔除與絲綢之路文化不相關(guān)數(shù)據(jù)。清洗后剩余數(shù)據(jù)約1.10萬條,其中:“絲綢之路陳列展覽”相關(guān)數(shù)據(jù)約0.30萬條,“絲綢之路考古發(fā)現(xiàn)”相關(guān)數(shù)據(jù)約0.10萬條,“絲綢之路文化事件”相關(guān)數(shù)據(jù)約0.60萬條,“絲綢之路學術(shù)成果”相關(guān)數(shù)據(jù)約0.10萬條。在數(shù)據(jù)清洗之后,需要利用人工對摘要內(nèi)容進行審核以進一步去除無關(guān)的信息、并修改誤分類的內(nèi)容所屬標簽及摘要內(nèi)容,處理完成后得到數(shù)據(jù)約0.37萬條,其中:“絲綢之路陳列展覽”相關(guān)數(shù)據(jù)約0.11萬條,“絲綢之路考古發(fā)現(xiàn)”相關(guān)數(shù)據(jù)約0.08萬條,“絲綢之路文化事件”相關(guān)數(shù)據(jù)約0.09萬條,“絲綢之路學術(shù)成果”相關(guān)數(shù)據(jù)約0.09萬條。

表3 絲綢之路相關(guān)的數(shù)據(jù)挖掘結(jié)果Tab.3 Data mining results related to the Silk Roads piece

人工校驗審核之后的數(shù)據(jù)已經(jīng)較為純凈,為提高數(shù)據(jù)質(zhì)量,邀請聯(lián)合國教科文組織世界遺產(chǎn)中心、中國古代史研究中心、中國社會科學院考古研究所等領(lǐng)域?qū)<疫M行篩選,如表4所示。篩選完成后剩余數(shù)據(jù)426條,其中:“絲綢之路陳列展覽”相關(guān)數(shù)據(jù)100條,“絲綢之路考古發(fā)現(xiàn)”相關(guān)數(shù)據(jù)100條,“絲綢之路文化事件”相關(guān)數(shù)據(jù)125條,“絲綢之路學術(shù)成果”相關(guān)數(shù)據(jù)101條。

表4 領(lǐng)域?qū)<液Y選與投票Tab.4 Domain expert screening and voting piece

最后,特邀文博、考古、歷史等領(lǐng)域的40位國內(nèi)外權(quán)威專家分別對陳列展覽、考古發(fā)現(xiàn)、文化事件、學術(shù)成果中的“十大”進行投票,形成《絲綢之路文化遺產(chǎn)年報》1份,年報內(nèi)容包括:“絲路文化遺產(chǎn)十大陳列展覽”“絲路文化遺產(chǎn)十大考古發(fā)現(xiàn)”“絲路文化遺產(chǎn)十大文化事件”和“絲路文化遺產(chǎn)十大學術(shù)成果”。

4 結(jié) 語

本文采用數(shù)據(jù)挖掘、機器學習、數(shù)據(jù)清洗等技術(shù)對多源異構(gòu)絲路文化遺產(chǎn)數(shù)據(jù)進行智能分析和處理。在數(shù)據(jù)采集方面,使用智能代理、自動多線程、海量數(shù)據(jù)存儲和編碼識別構(gòu)建高覆蓋率與高效的數(shù)據(jù)采集系統(tǒng);在信息挖掘方面,使用自動標引、自動文摘和支持向量機快速、精確地完成文本分類工作;在數(shù)據(jù)清洗方面,采用數(shù)據(jù)篩選、數(shù)據(jù)校對和專家審核對數(shù)據(jù)信息進行去重、去噪等清洗作業(yè)。最后,整合這些研究成果形成《絲綢之路文化遺產(chǎn)年報》并進行開源發(fā)布。實驗結(jié)果表明,利用人工智能數(shù)據(jù)挖掘技術(shù)進行絲路文化遺產(chǎn)的數(shù)據(jù)研究能夠有效保證數(shù)據(jù)的全面性、多維性和高效性,其成果對弘揚和傳播絲路文化有著重要的現(xiàn)實意義與理論價值。

《絲綢》官網(wǎng)下載

中國知網(wǎng)下載

猜你喜歡
絲路文化遺產(chǎn)分類
與文化遺產(chǎn)相遇
分類算一算
酌古參今——頤和園文化遺產(chǎn)之美
分類討論求坐標
絲路夢
絲路
數(shù)據(jù)分析中的分類討論
夢絲路
絲路謠
活態(tài)文化
申扎县| 庆云县| 彭泽县| 九寨沟县| 岳普湖县| 保亭| 区。| 珠海市| 安图县| 剑阁县| 基隆市| 上栗县| 海丰县| 米泉市| 溧水县| 岳阳县| 云林县| 山西省| 常宁市| 盐亭县| 玉林市| 三穗县| 黔西县| 双流县| 抚州市| 洮南市| 沙雅县| 嵩明县| 新野县| 泰宁县| 镇平县| 遂昌县| 新巴尔虎左旗| 无极县| 眉山市| 射阳县| 康马县| 阳原县| 崇义县| 阳朔县| 乐业县|