數(shù)字人文環(huán)境下異構方志元數(shù)據(jù)整合策略*

2019-04-16 03:09:06魯丹，李欣

圖書館論壇 2019年4期

魯丹，李欣

近幾年大規(guī)模的古籍整理項目普遍缺乏“互聯(lián)網(wǎng)思維”，幾乎沒有考慮借鑒數(shù)字人文的思路和方法，沒有充分利用信息技術的巨大優(yōu)勢[1]。隨著數(shù)字人文學科的迅速發(fā)展，使得巨量的資料分析、地理空間分析、人員流動軌跡分析成為可能，對方志、家譜、正史等帶來了新的研究視角，對其數(shù)字化、深度挖掘的需求越來越迫切。數(shù)字人文環(huán)境下，圖書館必須依托資源優(yōu)勢，將文本挖掘、地理信息系統(tǒng)、關聯(lián)技術、文本可視化等數(shù)字技術應用于特色資源庫建設，實現(xiàn)特色資源的進一步開發(fā)與利用[2]。方志資源作為特色資源也要受到應有的重視，例如現(xiàn)有方志研究發(fā)現(xiàn)系統(tǒng)在切合方志資源特性的資源檢索與發(fā)現(xiàn)功能上仍有改進空間，如切合方志的地域性，現(xiàn)有的地域瀏覽是基于文字的地域名鏈接瀏覽，若能利用GIS 技術提供可視化地圖瀏覽，資源分布會更加直觀，有助于讀者快速發(fā)現(xiàn)方志資源；在切合方志時代性上，現(xiàn)有的方志朝代劃分過于粗略，粒度只能到朝代，若能細分到年號，則能提供更加準確的檢索[3]。因此，整合異構的方志元數(shù)據(jù)，提供一站式服務，通過異構方志元數(shù)據(jù)的融合、聚類和重組，使方志資源從數(shù)據(jù)層的揭示與展現(xiàn)轉向信息層、知識層的深度服務至關重要。

1 研究現(xiàn)狀

1.1 數(shù)字人文環(huán)境下方志研究現(xiàn)狀

方志，是地方志的簡稱，是記載一定地區(qū)(或行政區(qū)劃)自然和社會各個方面的歷史和現(xiàn)狀的綜合性著述[4]。方志作為我國傳統(tǒng)文化寶庫中的一塊瑰寶，輯存了具有多種功能的經(jīng)世致用的珍貴歷史資料[5]。古代學者對方志史料的開發(fā)利用都是建立在手工基礎上，他們逐頁逐字地在數(shù)量浩繁的方志中尋找所需資料，極為費時費力。數(shù)字人文研究背景下，應充分利用數(shù)字人文的研究成果，將文本挖掘、GIS 技術和可視化技術應用到方志數(shù)字化的深度開發(fā)中。文本挖掘可以抽取方志中的地名、人名、歷史事件等特定信息，以發(fā)現(xiàn)各個歷史事件隨時間和空間的演變規(guī)律以及歷史人物之間錯綜復雜的社會關系網(wǎng)[6]；GIS 的應用研究為方志史料知識的整理和開發(fā)利用提供了一種新方法、新思路，借助地圖實現(xiàn)更多方志史料知識的挖掘與揭示，使方志類古籍文獻不再是平面的、孤立的資料，而是成為了一個立體的、服務于學術研究和經(jīng)濟建設的文化信息知識庫[7]。近年來，部分機構和學者開始將GIS 技術、可視化技術、社會網(wǎng)絡分析技術應用于方志的研究。華東師范大學圖書館針對目前館藏OPAC、部分專用方志資源平臺在檢索、資源發(fā)現(xiàn)技術上缺乏針對性、新穎性，不能很好地滿足資源查找需求的現(xiàn)狀，通過引入新的GIS、標簽云等技術，重新建立地方志發(fā)現(xiàn)平臺，提供更多與資源特性相關的發(fā)現(xiàn)手段，提高了資源的可發(fā)現(xiàn)性[8]。上海圖書館開發(fā)了“中文古籍聯(lián)合目錄及循證”平臺，結合內容分析統(tǒng)計、時空及社會關系分析和可視化工具，實現(xiàn)現(xiàn)存古籍的聯(lián)合查詢、規(guī)范控制，并提供學者循證版本、考鏡流藏之功用[9]。隨著數(shù)字人文技術特別是GIS 技術在方志中的應用越來越成熟，數(shù)字人文的研究理論日趨完善，數(shù)字人文技術對方志研究的影響會更加顯著。

1.2 元數(shù)據(jù)整合現(xiàn)狀

元數(shù)據(jù)為描述數(shù)據(jù)的數(shù)據(jù)，是描述、解釋、定位或以其他方式使得檢索、使用或管理信息資源更容易的結構化信息。在漫長的圖書館編目發(fā)展史中，由于資源本身特點或者為揭示同種資源的不同作用而形成了許多不同的元數(shù)據(jù)標準。元數(shù)據(jù)標準可以分為數(shù)據(jù)結構標準(Dublin Core、VRA Core、EAD…)、數(shù)據(jù)內容標準(RDA、CCO、DACS…)、數(shù)據(jù)值標準(LCSH、AAT、TGN、DDC…)、數(shù)據(jù)交換標準(MARC、XML、RDF/XML、JSON…)[10]。不同發(fā)現(xiàn)平臺會采用不同的元數(shù)據(jù)采集方法，并應用不同的元數(shù)據(jù)標準，有些機構會自建元數(shù)據(jù)標準以更好地組織和揭示數(shù)字資源，不同標準的元數(shù)據(jù)成為資源整合首要解決的問題。目前在整合元數(shù)據(jù)的基礎上提供服務的項目有很多影響力較大的項目，例如歐洲數(shù)字圖書館Europeana、美國HathiTrust 數(shù)字圖書館等項目。這些項目都是在元數(shù)據(jù)整合基礎上提供服務，并為解決元數(shù)據(jù)的異構問題研發(fā)了各自的方法。Europeana 整合了歐洲3500 多所的檔案館、圖書館、博物館的資源，提供多達51 971 705 條元數(shù)據(jù)(包括圖書、音視頻、美術作品、手工藝品等)供用戶檢索[11]。在元數(shù)據(jù)整合的過程中，Europeana 設計了“Europeana Data Model(EDM)”數(shù)據(jù)模型來兼容博物館、檔案館、圖書館的元數(shù)據(jù)標準，將不同標準的元數(shù)據(jù)映射到EDM 模型上，從而解決資源整合中數(shù)據(jù)結構不統(tǒng)一的問題[12]。在數(shù)據(jù)處理的過程中，Europeana 采用“收割整合后的元數(shù)據(jù)”的資源采集方式，在Europeana 和數(shù)字資源提供者之間增加了一個內容聚合器工具，實現(xiàn)了對各數(shù)字資源元數(shù)據(jù)的規(guī)范與整合，這樣可以對數(shù)字資源的規(guī)范性、有效性和一致性進行有效控制[13]。例如，Europeana 開發(fā)了CARARE 系統(tǒng)，用于處理具有考古價值的歷史遺跡、建筑、藝術品、手工制品等有關文化遺產的元數(shù)據(jù)的映射、豐富、更新等預處理工作。CARARE 根據(jù)現(xiàn)有考古學和建筑學的元數(shù)據(jù)標準，如LIDO、CIDOC CRM、MIDAS，創(chuàng)建了一個領域特定的元數(shù)據(jù)模式，并將其映射到EDM 上，然后再進行元數(shù)據(jù)豐富、更新等一系列處理[14]；HathiTrust 項目整合120多所高校圖書館的數(shù)據(jù)，目前包括16 295 881條記錄，7 939 735 本書的標題[15]。在書目數(shù)據(jù)整合的過程中，HathiTrust 項目組要求數(shù)據(jù)提供方的元數(shù)據(jù)越完整越好、必須遵循MARC21 著錄規(guī)范、utf8 編碼等標準，并專門開發(fā)Zephir[16]。在書目元數(shù)據(jù)被HathiTrust 采納前必須先經(jīng)過Zephir 的處理。Zephir 包含一系列功能，包括對書目記錄的采集、更新及一般的管理，并且元數(shù)據(jù)在經(jīng)過Zephir 處理時會有一個關于元數(shù)據(jù)處理情況報告，報告內容包含多少條記錄已經(jīng)處理，多少條記錄處理錯誤等總體情況，同時將錯誤記錄打印出來。經(jīng)過Zephir 處理的書目元數(shù)據(jù)，可以直接被HathiTrust 使用。

基于上述文獻調研，華東師范大學圖書館在新的異構數(shù)字方志服務平臺設計時，通過應用GIS 以及可視化等技術，使具有時空特點的方志資源得到了充分的形象化展現(xiàn)，充分借鑒目前服務數(shù)字人文研究的基本技術方法。同時，在以下三方面使方志資源的發(fā)現(xiàn)和整合能力明顯得到提升：(1)通過方志資源元數(shù)據(jù)RDF 化，實現(xiàn)資源在作品層和單件層面的統(tǒng)一發(fā)現(xiàn)；(2)充分借鑒歐洲數(shù)字圖書館Europeana、美國HathiTrust 數(shù)字圖書館等項目的整合方法，構建整合多來源、異構元數(shù)據(jù)方案，實現(xiàn)數(shù)字方志服務平臺的統(tǒng)一發(fā)現(xiàn)入口；(3)開發(fā)多來源數(shù)據(jù)采集以及數(shù)據(jù)規(guī)范性檢查等工具，實現(xiàn)對元數(shù)據(jù)整合前的預處理。

2 方志元數(shù)據(jù)整合意義及整合方法

2.1 整合方志元數(shù)據(jù)的意義

整合系統(tǒng)的目的是希望為用戶提供統(tǒng)一的檢索平臺，使用戶不需要在多個檢索系統(tǒng)之間切換，并熟悉多個檢索系統(tǒng)操作技能，從而減輕資源獲取難度。通過整合方志元數(shù)據(jù)，提供單一檢索點，人文學者通過單一站點可以獲取原本需要逐一瀏覽多個界面才能找到的信息知識，而無需考慮是哪個機構實際提供數(shù)字資源、資源的物理存儲位置在何處。通過整合來源不同的方志元數(shù)據(jù)，使得方志資源更加全面、完整、權威，質量更高。只有以正確而完備的典藏和資料庫作為基礎，數(shù)字和人文研究才有進一步合作的可能[17]。在整合方志元數(shù)據(jù)的過程中，通過引入新的關聯(lián)書目數(shù)據(jù)模型，方志資源在互聯(lián)網(wǎng)上更容易被發(fā)現(xiàn)，與外界互聯(lián)，改變方志元數(shù)據(jù)原有的封閉狀況；在整合方志元數(shù)據(jù)的過程中，通過對方志元數(shù)據(jù)拆分、合并等重構工作，特別是對采集來的元數(shù)據(jù)中題名的拆分，使得原來合訂題名下的單部作品可以被快速定位，同時使得檢索結果的統(tǒng)計更加準確。在整合后的方志元數(shù)據(jù)基礎上利用GIS 工具，提供“時間軸”“地圖”等可視化的方式，為研究者提供可交互的數(shù)據(jù)，即可展示某一地區(qū)的方志分布情況，以及某一時間段的方志成書情況。在整合的平臺上，引入眾包思想，利用大數(shù)據(jù)技術、文本分析技術對相應的方志資源內容進行挖掘，為錯誤的方志元數(shù)據(jù)提供修改、佐證的依據(jù)。

2.2 整合方志元數(shù)據(jù)遇到的問題

方志元數(shù)據(jù)是描述方志資源的描述性數(shù)據(jù)。在20 世紀初，計算機沒有普及應用之前，志書的著錄信息主要是記錄在卡片、圖書等紙質載體上的，是將眾多的方志目錄匯編成方志書目，例如朱士嘉先生編纂的《中國地方志綜錄》、張國淦的《中國古方志考》[18]。20 世紀下半葉，隨著機讀目錄格式MARC 的普及，方志元數(shù)據(jù)以CNMARC 著錄存在于圖書館自動化系統(tǒng)中。20世紀末，DC 元數(shù)據(jù)開始興起，我國科技部科技基礎性工作專項資金重大項目“我國數(shù)字圖書館標準規(guī)范建設”參照DC 的擴展規(guī)則，制定了相關數(shù)字資源基本元數(shù)據(jù)規(guī)范和專門元數(shù)據(jù)規(guī)范，推出了“地方志描述元數(shù)據(jù)著錄規(guī)則”[19]。著錄規(guī)則的不同，導致元數(shù)據(jù)規(guī)范不一致。目前采集到的元數(shù)據(jù)來源于圖書館集成系統(tǒng)、圖書館自建庫、商業(yè)數(shù)據(jù)庫。其中圖書館集成系統(tǒng)中的方志元數(shù)據(jù)以MARC 存儲，由OPAC 導出后，數(shù)據(jù)最為復雜；商業(yè)數(shù)據(jù)庫包括超星、愛如生、瀚堂等的方志，以及CADAL 里的方志元數(shù)據(jù)多遵循地方志描述元數(shù)據(jù)著錄規(guī)則。除著錄規(guī)則不一致外，由于軟件系統(tǒng)的不同，也使得方志元數(shù)據(jù)不一致，具體有以下問題：

(1)元數(shù)據(jù)著錄不一致。例如OPAC 導出的數(shù)據(jù)以OPAC“作者-Creator1”“作者-Creator2”“作者-Creator3”表示責任者；中國方志庫以“作者-修”、“作者-纂”表示責任者。

(2)元數(shù)據(jù)粒度不夠細致。以古籍文獻為核心描述對象的元數(shù)據(jù)規(guī)范，就單個元素的取值來看是非結構化文本，粒度還不夠細致[20]。

(3)方志本身存在匯編的問題。匯編作品是指根據(jù)選題需要，在不改變原作品內容的前提下，對其進行編排以合集形式呈現(xiàn)的新作品[21]。當單部作品作為匯編作品的部分存在時，在編目時對匯編作品進行集中著錄。很多方志是以匯編形式而存在，原有的編目無法直觀地表現(xiàn)單部作品與匯編作品關系。從匯編作品中提取單部方志作品，有利于加強對單部方志作品、責任者等實體的描述，更好地實現(xiàn)方志的查找、識別和選擇，同時有利于匯集方志所有作品的載體表現(xiàn)形式。

(4)數(shù)據(jù)重復。由于方志資源被多個系統(tǒng)或多個收藏單位收錄，在合并時肯定會存在數(shù)據(jù)重復問題。

(5)方志元數(shù)據(jù)著錄錯誤。方志文獻浩如煙海，在后世史志中難免出現(xiàn)著錄錯訛，包括由于地名改變導致的方志名稱著錄錯誤、由于著作權歸屬存在爭議導致的方志纂修者姓氏著錄錯誤、由于內容增刪導致的方志卷數(shù)著錄錯誤等[22]。

2.3 整合方志元數(shù)據(jù)的方法

為了給人文研究學者提供單一的、資料完備的方志系統(tǒng)，必須解決前文描述的方志元數(shù)據(jù)問題，包括元數(shù)據(jù)一致性、重復以及元數(shù)據(jù)粒度等。針對以上問題，項目組采取了一系列方法。首先從數(shù)據(jù)提供者處獲取數(shù)據(jù)。其中，對于商用數(shù)據(jù)庫，由于只要是學校購買過相關數(shù)據(jù)庫，則元數(shù)據(jù)是一致的，因此不需要從各個學校獲取元數(shù)據(jù)；而對于華東師范大學、北京師范大學及上海師范大學等學校的方志元數(shù)據(jù)，通過數(shù)據(jù)上傳的方式獲取不同來源的方志元數(shù)據(jù)，并存入方志元數(shù)據(jù)庫中。然后根據(jù)需要對元數(shù)據(jù)進行數(shù)據(jù)拆分、數(shù)據(jù)查重。最后將原有方志元數(shù)據(jù)映射到新的元數(shù)據(jù)方案上，并在整合后的元數(shù)據(jù)基礎上開發(fā)平臺提供統(tǒng)一檢索、GIS 服務、全文瀏覽等功能。在項目初期，從華東師范大學圖書館、北京師范大學圖書館及上海師范大學圖書館收到的元數(shù)據(jù)記錄條數(shù)分別為44880、22183、15326 條，而超星、CADAL、中國方志庫、瀚堂典籍庫及方正電子書的記錄數(shù)為9172、6300、3995、884、102 條。通過拆分、合并，最終共采納了55037 條方志元數(shù)據(jù)記錄[23]。圖1是整個項目數(shù)據(jù)處理及在其上提供服務的流程圖。

圖1 方志元數(shù)據(jù)整合處理流程圖

2.3.1 選用新的元數(shù)據(jù)方案

在元數(shù)據(jù)處理之前，首先需要確定元數(shù)據(jù)方案。為改變原有的CNMARC 格式著錄的方志元數(shù)據(jù)的繁瑣及DC 格式著錄的方志元數(shù)據(jù)的復雜性，達到方志與外部數(shù)據(jù)的相互關聯(lián)、互操作的目的，項目組選用了美國國會圖書館的BIBFRAME書目數(shù)據(jù)格式。美國國會圖書館于2012年啟動“書目框架轉換行動”，開發(fā)BIBFRAME 關聯(lián)數(shù)據(jù)模型、詞表、應用綱要、編碼規(guī)范等以取代MARC，使其成為下一代圖書館數(shù)據(jù)格式，并于2017年6月在Library.Link發(fā)布[24]。目前上海圖書館已使用BIBFRAME書目數(shù)據(jù)將其家譜數(shù)據(jù)庫、古籍善本等發(fā)布為關聯(lián)數(shù)據(jù)[25-26]。BIBFRAME 的核心書目數(shù)據(jù)模型是“作品(work)—實例(instance)—單件(item)”，作品反映了編目資源最本質的特征，由作者、語言、和題名決定；實例與出版者、出版地點、出版時間、出版形式有關，是作品的出版形態(tài)；單件與存在的位置、書架、條形碼有關，它決定了書的獲取方式[27]。表1是原有方志元數(shù)據(jù)與BIBFRAME 書目數(shù)據(jù)模型的對應關系。

表1 原有方志元數(shù)據(jù)與BIBFRAME核心書目數(shù)據(jù)模型的映射關系表

2.3.2 數(shù)據(jù)拆分

(1)“責任者+責任方式”的拆分。以OPAC導出的數(shù)據(jù)形式為例，方志元數(shù)據(jù)是以“責任者+ 責任方式”存儲責任者和責任方式。將“責任者+責任方式”分割，“責任者”“責任方式”單獨存儲，可以準確地展現(xiàn)責任者對于該古籍所負有的實際責任以及不同責任者之間的關系。地方志的著錄方式很復雜，參考相關文獻并使用詞頻統(tǒng)計軟件獲得著錄方式庫。表2列舉了一般的古籍著作方式，實際情況還有多種組合形式，如“編著”“編纂”“增修”“校注”等。

采用“基于字符串匹配的中文分詞”來識別“姓名”，具體的元數(shù)據(jù)切分算法如下：

輸入字符串：用數(shù)組S=C[0，n]來表示元數(shù)據(jù)，如：陶元珍著，則n=3；

TYPE_SET 表示著作方式的集合，TYPE_SET={著，作，考訂...}；

輸出：NAME=S[0，j]表示作者名，TYPE=[j+1，n]表示著作方式。

for(j=1；j＜0；j++)

if(S[j，n]in TYPE_SET)

NAME=S[0，j]

TYPE1=S[j+1，n]

break

表2 古籍著作方式特征庫

(2)匯編作品的拆分。方志匯編情況可以從其主題或附注兩個元數(shù)據(jù)字段里得知：主題字段表明的匯編作品，數(shù)據(jù)以志書分隔，提取單個題名放入增加的字段“題名—(RealTitle)處理后題名”分隔后提取最后一集的地名作為GIS 的地，年號作為GIS 的時；附注字段表明的匯編作品，根據(jù)附注字段，將附注字段作為“題名—(RealTitle)處理后題名”存儲。圖2是對主題表明的匯編作品拆分示例。

圖2 主題表明的匯編作品拆分示例圖

2.3.3 數(shù)據(jù)查重

對方志元數(shù)據(jù)進行拆分，還需要對方志元數(shù)據(jù)進行查重。由于同一條記錄會被不同收藏單位或不同數(shù)據(jù)庫收錄，所以在整合元數(shù)據(jù)時需進行查重。查重的原則是按照“CALIS 書目號—ISBN+題名—題名+ 責任者+ 出版者+ 出版年”的順序進行，即首先根據(jù)方志元數(shù)據(jù)CALIS 書目號，如果沒有CALIS 書目號，則根據(jù)“ISBN+題名號”查重，沒有則根據(jù)作品的“題名+ 責任者+出版者+出版年”查重。若出現(xiàn)匹配情況，則該記錄被認為是重復記錄。對于重復記錄，選擇完整度高的記錄作為新記錄更新數(shù)據(jù)庫中的原記錄，根據(jù)實際情況，在館藏機構或數(shù)據(jù)源里增加館藏或來源。如果都不匹配，則認為該記錄與數(shù)據(jù)庫中記錄不重復，該記錄會被插入數(shù)據(jù)庫中。

2.3.4 數(shù)據(jù)映射

BIBFRAME 是關聯(lián)數(shù)據(jù)模型，使用的是“資源-屬性-屬性值”三元組表達元數(shù)據(jù)的內容，因此需要將原有的方志元數(shù)據(jù)轉換為新的元數(shù)據(jù)三元組，除了上述介紹的書目實體(work、instance、item)，還有人、時、地、機構等實體，這些都需要從方志元數(shù)據(jù)中提取，提取后賦予HTTP URI，為屬性賦值，描述實體與實體間的關聯(lián)關系，并以RDF 序列化格式編碼，從而實現(xiàn)DC、CNMARC 到BIBFRAME 的轉換。

除了數(shù)據(jù)拆分、查重、映射外，整合的過程中還可對元數(shù)據(jù)進行校正、修改，通過調用其他平臺的API 接口達到直接取用其他資料庫數(shù)據(jù)的目的，從而實現(xiàn)與外部數(shù)據(jù)的互聯(lián)。例如通過調用“中國歷代人物傳記資料庫”與“上海圖書館人名規(guī)范庫”的接口，可以直接查詢方志責任者的生平及他的其他作品等情況。

3 數(shù)字人文環(huán)境下異構方志元數(shù)據(jù)整合策略

數(shù)字人文環(huán)境下，作為資料收集主要整理者的圖書館應充分發(fā)揮自己的優(yōu)勢，將GIS、文本挖掘等技術應用于資料的整理、收藏中。目前，項目組開發(fā)的異構數(shù)字方志集成平臺已初步完成并已上線，從異構元數(shù)據(jù)的整合、平臺的建設過程得到了以下幾點經(jīng)驗。

3.1 使用關聯(lián)書目元數(shù)據(jù)方案，實現(xiàn)方志與外部世界的互聯(lián)

關聯(lián)數(shù)據(jù)是第一種可行的語義網(wǎng)表達形式，它采用RDF 數(shù)據(jù)模型，利用URI(統(tǒng)一資源標識符)命名數(shù)據(jù)實體來發(fā)布和部署實例數(shù)據(jù)和類數(shù)據(jù)，從而可以通過HTTP 協(xié)議揭示并獲取這些數(shù)據(jù)，同時強調數(shù)據(jù)的相互關聯(lián)、相互聯(lián)系以及有益于人機理解的語境信息。隨著語義網(wǎng)和關聯(lián)數(shù)據(jù)成為技術發(fā)展熱點，新興的元數(shù)據(jù)標準開始更多地以萬維網(wǎng)聯(lián)盟開發(fā)的資源描述框架或網(wǎng)絡本體語言等格式發(fā)布，其中不乏面向書目應用的詞表或本體，包括Dublin Core Terms+Dublin Core(DC/DCT)、Schema.org、Europeana Data Model(EDM)Vocabulary、BIBFRAME[28]。書目數(shù)據(jù)以關聯(lián)數(shù)據(jù)為基本數(shù)據(jù)模型，意味著書目數(shù)據(jù)不再像存儲于關系數(shù)據(jù)庫中的MARC 數(shù)據(jù)那樣以記錄為單位，而是以更小粒度的數(shù)據(jù)為單位，每個數(shù)據(jù)單元都是獨立的存在，同時又可與其他數(shù)據(jù)單元建立可被機器理解的關聯(lián)關系，數(shù)據(jù)是相互關聯(lián)且富含語義的[29]。除了選用關聯(lián)書目數(shù)據(jù)方案，還可以通過調用其他平臺API 共享其他平臺的資源。通過調用外部資源的API，不僅可以減少自己的重復工作，還可以實現(xiàn)與外部世界的互聯(lián)，使得各內容提供者不再孤立。

3.2 最小粒度化方志元數(shù)據(jù)，為人文學者研究提供支持

方志元數(shù)據(jù)的粒度不夠細，如方志元數(shù)據(jù)的著作方式、成書朝代、年號、匯編作品等問題。為了更好地利用方志元數(shù)據(jù)，建議將方志元數(shù)據(jù)以最小粒度化存儲，將有利于方志最大價值的挖掘，為人文學者研究提供更好的支持：對于著作方式的拆分，可以發(fā)現(xiàn)不同責任者對于同一本書的不同貢獻，進而發(fā)現(xiàn)一本書從成書到現(xiàn)在這個歷史長河中在不同時期與不同責任者之間的關系，這對于人文學者研究方志的版本變化尤為重要；對于朝代、年號的拆分使得檢索的結果的統(tǒng)計、GIS 地圖上的顯示更加的精確；對于匯編作品的拆分，按照“作品—實例—單件”模型展示，可以揭示作品間的關聯(lián)關系。

3.3 提供開放平臺，允許用戶編輯，與人文學者充分合作

由于方志的復雜性，例如成書者眾、古今地名變化等問題，使得方志元數(shù)據(jù)在著錄時不可避免地發(fā)生錯誤，因此有必要對元數(shù)據(jù)進行勘誤、考證，這需要專業(yè)的方志研究人員、史學家從不同側面對方志元數(shù)據(jù)進行驗證，以保證其準確性。一方面，整合方志元數(shù)據(jù)后構建的方志平臺以眾包的方式允許使用者修改元數(shù)據(jù)并提交證據(jù)，并邀請專家對其進行審校，采納后修改原來的方志元數(shù)據(jù)。對用戶開放、對用戶提供編輯入口，是一般數(shù)字人文系統(tǒng)常用的做法，例如臺灣歷史數(shù)位圖書館(THDL)允許用戶更正元數(shù)據(jù)、全文、人地名，管理小組不定期整理，采納后將新的數(shù)據(jù)更新于新版資料庫中；“萊比錫開放碎片文本序列LOFTS”項目專門邀請熟悉古典文獻學、計算語言學、文本傳播等相關領域的學者負責對“碎片文本編輯器”中的元數(shù)據(jù)進行審校[30]。另一方面，雖然目前國內不少圖書館在元數(shù)據(jù)標準制定、資源管理等方面有一定的經(jīng)驗，但是專業(yè)的人文社會科學研究者才是方志資源真正的使用者，他們對于方志資源整合的需求、元數(shù)據(jù)制定、方志資源的內容分析更有發(fā)言權，因此需要加強與人文學者的溝通，在充分合作的基礎上不斷建設、改進數(shù)字方志元數(shù)據(jù)集成平臺。THDL就是臺灣大學數(shù)位人文研究中心與臺灣大學歷史系合作建設的一個臺灣古契約文書全文資料庫。

3.4 使用數(shù)據(jù)挖掘、內容分析技術實現(xiàn)元數(shù)據(jù)的創(chuàng)建、修改

隨著數(shù)字人文學科的不斷發(fā)展，可以利用大數(shù)據(jù)、內容分析技術為元數(shù)據(jù)的創(chuàng)建、修改提供幫助。原有的方志元數(shù)據(jù)的創(chuàng)建工作局限于個人整理、編目經(jīng)驗，不利于方志資源的發(fā)現(xiàn)及利用。數(shù)字人文時代，運用文本挖掘技術、內容分析方法，機器可以自動從方志文本中蘊含的事實、知識中統(tǒng)計、分析和推理等，從而實現(xiàn)元數(shù)據(jù)的自動創(chuàng)建和校驗。

4 結語

本文探討了在數(shù)字人文環(huán)境下方志元數(shù)據(jù)的整合。整合方志元數(shù)據(jù)的目的是為了給人文學者提供統(tǒng)一的方志資源檢索、管理、大數(shù)據(jù)分析、可視化展示和智慧型服務的人文研究環(huán)境。方志元數(shù)據(jù)的整合，首先需要對方志元數(shù)據(jù)進行清洗，這是一件較困難的工作。本文探究了方志元數(shù)據(jù)處理中最關鍵的如數(shù)據(jù)映射、部分元數(shù)據(jù)切分、匯編作品處理等的問題。但是仍然有其他問題尚未解決，例如方志元數(shù)據(jù)中古地名的問題，沒有完備的古今地名對照庫就無法將某些方志在地圖上正確地顯示，對于提出的“責任者+ 責任方式”拆分方法尚未考慮責任者姓名中本身含有責作方式的問題會造成方志歸屬不夠準確。以上這些問題的解決，可通過引入眾包思想，由專家及用戶一起發(fā)現(xiàn)問題、修改問題；或可依賴文本分析技術，從方志的全文中找到數(shù)據(jù)、事實實現(xiàn)對方志元數(shù)據(jù)的佐證、修改。目前，項目組只實現(xiàn)了方志元數(shù)據(jù)的處理、整合等，對部分方志全文的OCR 識別、標引和內容挖掘，將是筆者下一步需要探討的。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡