□ 吳茗 龍偉 肖紅/國家圖書館 北京 100081
自建數(shù)字資源的元數(shù)據(jù)管理實踐及啟示
——以國家圖書館中文圖書數(shù)字化資源庫為例
□ 吳茗 龍偉 肖紅/國家圖書館 北京 100081
結(jié)合國家圖書館中文圖書數(shù)字化資源庫元數(shù)據(jù)管理的實踐,提出自建數(shù)字資源元數(shù)據(jù)管理的基本要求,從健全的元數(shù)據(jù)規(guī)范和評價體系的建設(shè)、元數(shù)據(jù)與對象數(shù)據(jù)的關(guān)聯(lián)方式的選擇、元數(shù)據(jù)互操作的實現(xiàn)以及完善的元數(shù)據(jù)管理平臺的構(gòu)建等四個方面分析所涉及的技術(shù),并探討具體的解決方案。
元數(shù)據(jù)管理,自建數(shù)字資源,數(shù)字化,查重,互操作
元數(shù)據(jù)為數(shù)字圖書館提供了精確描述數(shù)據(jù)內(nèi)容、語義和服務(wù)的機制,支持瀏覽、傳遞、評估和管理信息資源,不僅是實現(xiàn)資源發(fā)現(xiàn)的關(guān)鍵,也是有效充分利用館藏資源和實現(xiàn)互操作的基礎(chǔ)。根據(jù)我國近5年來元數(shù)據(jù)的相關(guān)研究可以發(fā)現(xiàn),目前對元數(shù)據(jù)的理論探討遠遠超過其在實際工作中的應(yīng)用,尤其是新的網(wǎng)絡(luò)環(huán)境下對自建數(shù)字資源的元數(shù)據(jù)具體實踐的研究還比較欠缺[1]。本文將結(jié)合國家圖書館中文圖書數(shù)字化資源庫元數(shù)據(jù)管理的實踐,對自建數(shù)字資源元數(shù)據(jù)管理的經(jīng)驗和教訓(xùn)進行簡單總結(jié),同時也對具有一定代表性和典型性的問題作更進一步的思考,以期為其他項目提供借鑒。
自建數(shù)字資源,學術(shù)界目前沒有一個特別明確的定義,往往表現(xiàn)為圖書館自建的特色數(shù)據(jù)庫。索傳軍在其《論數(shù)字館藏的質(zhì)量評價》一文中提到,每個圖書館都有自己的特色館藏,為了保護或進一步提高館藏利用率,通常將它們加工成館藏特色文獻數(shù)據(jù)庫。盡管目前各館自建的數(shù)據(jù)庫不多,但這是數(shù)字館藏建設(shè)的重要途徑之一[2]。目前國家圖書館數(shù)字資源建設(shè)的方式主要包括自主建設(shè)、引進建設(shè)和合作建設(shè)[3]。本文所討論的自建數(shù)字資源,特指通過自主建設(shè),有目的地對重點館藏和一般館藏進行不同深度的組織加工,結(jié)合本館人員、技術(shù)和設(shè)備的實際情況,生產(chǎn)出來的數(shù)字化產(chǎn)品。
自建數(shù)字資源是對館藏資源進行數(shù)字化而形成的文獻數(shù)據(jù)庫,為了充分體現(xiàn)出特色,其元數(shù)據(jù)管理應(yīng)該在遵循相關(guān)國家標準、行業(yè)標準的基礎(chǔ)上,形成具有可擴展性、個性化、開放性的方案,在資源組織、資源利用、資源整合、長期保存等方面有其特色需求。
第一、在元數(shù)據(jù)的適應(yīng)性方面,要依照相關(guān)元數(shù)據(jù)標準及著錄規(guī)范來進行,在選擇元數(shù)據(jù)時要考慮到各種類型資源的特征,在尊重差異和使用習慣的基礎(chǔ)上統(tǒng)一,在保證通用性的前提下,滿足不同類型資源的個性化需求。同時要兼顧簡單性與重要性,采用的元數(shù)據(jù)不僅僅是標引內(nèi)容的易于理解和掌握,便于使用,同時也要能完全揭示資源的特性和特征。要特別注意的是,對資源揭示沒有意義或者過于專深的元數(shù)據(jù)要酌情采用。
第二、在資源的利用方面,為了將不同領(lǐng)域的資源更好地融合,當用不同格式的元數(shù)據(jù)進行資源描述、檢索和利用時,就需要解決不同元數(shù)據(jù)格式間的釋讀、轉(zhuǎn)換問題,以確保系統(tǒng)對用戶的一致性服務(wù),即實現(xiàn)元數(shù)據(jù)的互操作[4]。互操作性主要體現(xiàn)在解決元數(shù)據(jù)間多元化、非標準化的協(xié)調(diào)發(fā)展問題上。在異構(gòu)系統(tǒng)間互操作能力的支持上,緩解元數(shù)據(jù)資源描述的特殊性和一般性矛盾。
第三、在資源整合方面,考慮到資源建設(shè)的來源不同,要求元數(shù)據(jù)體系實行開放擴展機制,可以通過不同的層次縱向或橫向地以規(guī)范方式進行擴展,適應(yīng)資源不斷發(fā)展變化的需求。開放性是指可以基于開放標準對元數(shù)據(jù)進行交換,并可在開放標準基礎(chǔ)上在元數(shù)據(jù)集間進行元素的復(fù)用、繼承和元數(shù)據(jù)集擴展[5]。
國家圖書館自2000年以來對館藏資源進行數(shù)字化加工的工作,涉及了文本、圖像、音頻、視頻等多種類型,特色資源庫包括普通中文圖書、博士論文、民國文獻、善本、地方志、年畫、講座音視頻等,其中普通中文圖書的數(shù)字化建設(shè),建設(shè)時間最長,數(shù)量最大,積累了豐富的建設(shè)經(jīng)驗,具有代表性意義,可為其他項目提供較多的參考借鑒。
在館藏資源數(shù)字化建設(shè)過程中,我們能夠越來越深刻地體會到,元數(shù)據(jù)的有效管理和利用,日益成為關(guān)系到系統(tǒng)建設(shè)質(zhì)量乃至最終數(shù)據(jù)管理狀況的關(guān)鍵。
自建數(shù)字資源建設(shè)過程大體可分為原始資源的遴選、采集、數(shù)字化加工、驗收、保存、服務(wù)、處置(主要指資源的剔除、銷毀)等過程。其中,元數(shù)據(jù)相當于主動脈,支撐著整個流程的運作。整個過程需要通過元數(shù)據(jù)對數(shù)字信息進行描述,定義其元數(shù)據(jù)的核心元素,并進行結(jié)構(gòu)化存取,從而實現(xiàn)對數(shù)字信息資源的有效管理。不同類型的元數(shù)據(jù)在信息資源生命周期的不同階段產(chǎn)生并在不同環(huán)節(jié)起著重要作用,對元數(shù)據(jù)的管理也關(guān)系到整個過程能否順利展開以及資源服務(wù)性能的優(yōu)劣。
第一步:針對不同類型的資源,根據(jù)建設(shè)目標、資源加工的深度和用戶需求,圍繞粒度和維度、相關(guān)加工規(guī)范,制定元數(shù)據(jù)方案。
第二步:配置相應(yīng)的元數(shù)據(jù)參數(shù),定義核心元素,研究數(shù)字化信息元數(shù)據(jù)的獲取方法,針對不同類型的資源,采集相應(yīng)的元數(shù)據(jù)信息,并對采集過來的核心元數(shù)據(jù)進行清洗、查重和整合。
第三步:要明確不同資源格式(文本、圖像、音頻、視頻等)所需要的不同元數(shù)據(jù)元素,根據(jù)具體需要選取目的元數(shù)據(jù)。數(shù)字化過程中,將生成結(jié)構(gòu)元數(shù)據(jù)、管理元數(shù)據(jù)和保存元數(shù)據(jù)等,不同類型元數(shù)據(jù)之間的界定,以它們在信息資源生命周期中的不同功能為標準進行區(qū)分,在具體的元素設(shè)計上允許交叉和復(fù)用,但這種重復(fù)應(yīng)以最小限度為前提,應(yīng)通過元數(shù)據(jù)的模塊化和開放型使不同的元數(shù)據(jù)可以相互連接和調(diào)用。
第四步:元數(shù)據(jù)的集中保存,分類管理。元數(shù)據(jù)生成后,需要對元數(shù)據(jù)進行封裝管理和存儲,確保對象數(shù)據(jù)和元數(shù)據(jù)之間關(guān)聯(lián)的一致性。在數(shù)字化加工完成后,按照相關(guān)的技術(shù)標準,將元數(shù)據(jù)和對象數(shù)據(jù)進行封裝后,進行長期保存,并提交發(fā)布。元數(shù)據(jù)一般統(tǒng)一保存在專門的系統(tǒng)平臺上,并有專業(yè)人員對元數(shù)據(jù)及相關(guān)文檔按項目類型進行整合、統(tǒng)一管理,保證數(shù)字化過程中的可持續(xù)管理、回溯,方便為后續(xù)工作或其他項目提供參考。
第五步:回溯管理,資源的長期保存與回溯,為文獻數(shù)字化信息的可持續(xù)利用和長期保存保駕護航。
在數(shù)字資源的生命周期內(nèi),許多環(huán)節(jié)都會生成甚至修改元數(shù)據(jù)。因此對元數(shù)據(jù)的控制應(yīng)是一個持續(xù)的過程,貫穿生產(chǎn)、使用、管理的各個階段。
作為國家總書庫,中國國家圖書館擁有全球最豐富的中文文獻?!梆^藏中文圖書數(shù)字化資源庫”依托雄厚的館藏資源,經(jīng)過多年的理論和實踐摸索,已經(jīng)形成了較為完善的元數(shù)據(jù)建設(shè)和管理體系。
(1)元數(shù)據(jù)體系的形成
目前國家圖書館的元數(shù)據(jù)方案采用MARC格式來描述書目數(shù)據(jù),在資源的數(shù)字化過程中,描述型元數(shù)據(jù)直接移植了傳統(tǒng)文獻的書目數(shù)據(jù),按照特定的資源建設(shè)遴選標準,對其資源相關(guān)的書目元數(shù)據(jù)進行采集,對采集過來的元數(shù)據(jù)進行清洗、查重、分類、人工審核后,按照一定的技術(shù)手段,對MARC數(shù)據(jù)進行解析,提取相關(guān)的字段,同時文獻原始載體的物理形態(tài)信息、加工信息、存儲結(jié)構(gòu)、版權(quán)信息等分別按照相關(guān)的加工標準,保存到對應(yīng)的數(shù)據(jù)庫中。
(2)MARC數(shù)據(jù)解析
對不同格式的元數(shù)據(jù),需要根據(jù)元數(shù)據(jù)分析以及字段映射表,將這些不同格式的元數(shù)據(jù)轉(zhuǎn)換成元數(shù)據(jù)應(yīng)用中可以直接利用的元數(shù)據(jù)格式[6]。以MARC數(shù)據(jù)為例,由于MARC數(shù)據(jù)基于ISO 2709格式,識別必須依賴于專門的軟件,信息結(jié)構(gòu)上也是千差萬別,無法被關(guān)系型數(shù)據(jù)庫直接使用,為此,需要開發(fā)相應(yīng)的MARC數(shù)據(jù)轉(zhuǎn)換系統(tǒng),這就需要了解原始數(shù)據(jù),預(yù)先定義轉(zhuǎn)換的對應(yīng)關(guān)系。按照項目需求,提取所需的字段標識符以及子字段標識符。
簡單地說,就是對非結(jié)構(gòu)化的文本格式進行識別,抽取題名項、責任者項、出版項、館藏信息項等基本信息,保存在可讀取的數(shù)據(jù)庫中,為資源描述、數(shù)字化加工等提供較為方便的管理控制,并綜合生產(chǎn)過程中形成的一系列新的元數(shù)據(jù),以便與遵循OAI-PMH的元數(shù)據(jù)格式整合,為用戶提供高級檢索。
(3)數(shù)據(jù)查重方案
文獻數(shù)據(jù)查重是利用描述元數(shù)據(jù)的某些特定字段,將各種數(shù)據(jù)進行整理,有序組織,避免因重復(fù)加工造成數(shù)據(jù)冗余,浪費成本,從數(shù)據(jù)加工的源頭就確保數(shù)據(jù)的唯一性,減少數(shù)據(jù)冗余度,從而提升館藏數(shù)字資源建設(shè)的整體水平。
首先應(yīng)針對資源的種類確定查重的原則方法,選擇查重條件,但在實際操作中通過題名、責任者、ISBN、出版項等單一條件往往很難滿足查詢的要求,通常采用多條件組合查詢、模糊匹配等方式對元數(shù)據(jù)進行操作,一般建議采用程序控制和人工校對相結(jié)合的方法。在實際工作中,可選的檢索點很多,可以說每個著錄項都可以作為檢索點進行查重,采取靈活機動的檢索策略,不同的情況采用不同的檢索查重方式,并靈活組合運用,才能避免漏查、誤檢。
(4)元數(shù)據(jù)的構(gòu)成
在數(shù)字化過程中,根據(jù)加工規(guī)范,會形成一系列的數(shù)據(jù)庫表,主要包括:
●用來描述、識別文獻的基本信息表,包含原始載體書目的基本信息,如題名、著者、出版信息、館藏信息、唯一標識號等;
●用來記錄目次標引的信息表,用于記錄冊次號、目次、原始頁碼、標引鏈接頁碼等,反映文獻結(jié)構(gòu)內(nèi)部形式特征,同時滿足目錄檢索需求;
●用來記錄原始文獻結(jié)構(gòu)的信息表,包括封底、封面、前附頁、后附頁、目錄頁等信息;
●用來記錄數(shù)字化加工的信息表,包括掃描分辨率、壓縮因子、圖像參數(shù)、存儲量、保存位置等信息;
●除此之外,還有分別反映版權(quán)信息、原始載體的缺頁插頁等物理特征的數(shù)據(jù)庫表。
圖1 館藏中文圖書資源庫的發(fā)布界面
圖2 從描述元數(shù)據(jù)提取的元素以及目錄頁的定位鏈接
這些數(shù)據(jù)庫表和書目數(shù)據(jù)共同構(gòu)成了整個數(shù)字化資源的元數(shù)據(jù)的完整體系。可以看出,描述型元數(shù)據(jù)、結(jié)構(gòu)型元數(shù)據(jù)、管理型元數(shù)據(jù)和保存型元數(shù)據(jù)等幾種類型的元數(shù)據(jù)在具體的實踐中存在一定程度的交叉和復(fù)用,但這個重復(fù)的程度要控制在最小范圍內(nèi)。
在數(shù)字化工作完成之后,按照相應(yīng)的技術(shù)標準對元數(shù)據(jù)和圖像進行封裝以提交網(wǎng)絡(luò)發(fā)布和長期保存,元數(shù)據(jù)同時也會導(dǎo)入專門的元數(shù)據(jù)管理平臺,便于管理和回溯。
從館藏中文圖書數(shù)字化資源庫的檢索、保存、組織等方面來看,基本滿足了初定的特色要求。
圖1為館藏中文圖書資源庫的發(fā)布界面,圖2為從描述元數(shù)據(jù)提取的元素(可作檢索用)以及目錄頁的定位鏈接。
目前國內(nèi)數(shù)字圖書館建設(shè)中對自建資源的元數(shù)據(jù)標準和評價體系的研究較少,同時,對于除了描述元數(shù)據(jù)之外的其他類型元數(shù)據(jù)等的研究與應(yīng)用也比較少。單就管理元數(shù)據(jù)和技術(shù)元數(shù)據(jù)來說,其規(guī)范及評價體系也是必不可少的,將直接影響著整個數(shù)據(jù)庫系統(tǒng)的組織與管理能力[7]。元數(shù)據(jù)的評價,其核心在于體現(xiàn)元數(shù)據(jù)使用的“效用”,要滿足特定用戶群特定的與潛在的需求[8]。研究和移植已有的國內(nèi)外成熟的元數(shù)據(jù)標準體系,制定并完善其元數(shù)據(jù)的使用規(guī)范,使規(guī)范具有可操作性和指導(dǎo)意義。
元數(shù)據(jù)與對象數(shù)據(jù)的關(guān)聯(lián)至關(guān)重要,失去與對象數(shù)據(jù)的關(guān)聯(lián),元數(shù)據(jù)將變得毫無意義,而丟失元數(shù)據(jù)的對象數(shù)據(jù),其價值也將大打折扣。為避免在數(shù)據(jù)的備份、遷移過程中出現(xiàn)偏差,元數(shù)據(jù)可以嵌入在對象數(shù)據(jù)中,也可以存放在結(jié)構(gòu)化數(shù)據(jù)庫中,通過系統(tǒng)與對象數(shù)據(jù)關(guān)聯(lián),還可以通過封裝的方法與對象數(shù)據(jù)打包在一起。其中,選擇適合的封裝策略既能保障對象數(shù)據(jù)與其元數(shù)據(jù)間緊密的聯(lián)系,同時又保證了二者的各自獨立性,利于它們的個性化、動態(tài)管理和利用,是目前國內(nèi)外比較認同的關(guān)聯(lián)方式[9]。
元數(shù)據(jù)編碼和傳輸格式METS(Metadata Encoding and Transmission Standard)由于具備支持資源的互操作、適應(yīng)多樣化的應(yīng)用環(huán)境和有著長遠的應(yīng)用前景等優(yōu)勢,成為目前國際領(lǐng)域影響最大、使用最為廣泛的數(shù)字資源元數(shù)據(jù)封裝方法[10]。
考慮不同類型資源,或者與其他合作建設(shè)的館外資源的進行融合時,可能存在著多種不同的元數(shù)據(jù)方案,在編碼、格式、內(nèi)容等方面存在較大差異,要想整合這些資源,利用這些資源,便于管理,通過統(tǒng)一接口獲取各類信息資源,保證向用戶提供一致的服務(wù),更易于系統(tǒng)的開發(fā)與用戶的使用,就要解決不同格式元數(shù)據(jù)之間的相互轉(zhuǎn)換、相互融合的問題,即元數(shù)據(jù)互操作。目前實現(xiàn)元數(shù)據(jù)的互操作有三個技術(shù)途徑:一是采用字段映射和對照。如DC與MARC、DC與EAD等。二是需要借助重用、集成等方式,實現(xiàn)各個項目的元數(shù)據(jù)記錄間的整合。三是通過協(xié)議、聚合和值共現(xiàn)映射等開展倉儲級的元數(shù)據(jù)互操作[11]。最常采用的是字段映射和對照方式,即在兩個元數(shù)據(jù)標準的元素之間直接轉(zhuǎn)換,建立元數(shù)據(jù)字段映射關(guān)系表,與具體的資源或項目相結(jié)合,設(shè)計適合的編目及數(shù)據(jù)轉(zhuǎn)換平臺,提供統(tǒng)一的編目和審校環(huán)境。
建立元數(shù)據(jù)管理平臺,其功能應(yīng)包含元數(shù)據(jù)的維護及查詢、元數(shù)據(jù)整合、元數(shù)據(jù)批量修改、元數(shù)據(jù)的分析及應(yīng)用、元數(shù)據(jù)版本管理等,建議加強對技術(shù)人員和業(yè)務(wù)人員的相關(guān)技術(shù)培訓(xùn)。在整個元數(shù)據(jù)應(yīng)用過程中,建立規(guī)范的工作流程和管理規(guī)則,以利于工作人員統(tǒng)一地對元數(shù)據(jù)進行管理和監(jiān)督以及探查,全面提升數(shù)據(jù)質(zhì)量。
[1] 葉靜.從2006 --2011年我國核心期刊載文分析看我國元數(shù)據(jù)研究新進展[J].科技情報開發(fā)與經(jīng)濟, 2012(14):126-128.
[2] 索傳軍.論數(shù)字館藏的質(zhì)量評價[J].中國圖書館學報, 2004(4):43-46.
[3] 全國數(shù)字圖書館建設(shè)與服務(wù)聯(lián)席會議.數(shù)字圖書館資源建設(shè)指南[EB/OL]. [2013-11-21]. www.lsc.org.cn/Attachment/ Doc/1275990326.pdf.
[4] 畢強,朱亞玲.元數(shù)據(jù)的標準及其互操作研究[J].情報理論與實踐, 2007(5):666-670.
[5] 周波.高??茖W數(shù)據(jù)元數(shù)據(jù)初探[J].圖書館學研究, 2012(1):45-53.
[6] 肖瓏,申曉娟.國家圖書館元數(shù)據(jù)應(yīng)用總則規(guī)范匯編[M].北京:國家圖書館出版社,2011.
[7] 董蓓.DC元數(shù)據(jù)在專題特色數(shù)據(jù)庫建設(shè)中的應(yīng)用[J].圖書館工作與研究,2010(4): 42-44.
[8] 陳學清,陳成桂,杜蕓,等.網(wǎng)絡(luò)信息資源編目元數(shù)據(jù)的選擇與評價[J].圖書館工作與研究,2008(7):65-68.
[9] 程妍妍.國際電子文件元數(shù)據(jù)封裝方法VEO和METS的比較研究[J].現(xiàn)代圖書情報技術(shù),2011(10):7-11.
[10] 程妍妍.基于METS的電子文件元數(shù)據(jù)封裝研究[J].科技檔案, 2011(4):19-24.
[11] 宋琳琳,李海濤. 大型文獻數(shù)字化項目元數(shù)據(jù)互操作調(diào)查與啟示[J]. 中國圖書館學報, 2012(01): 27-38.
The Practice of the Metadata Management of Self-developed Digital Resources——Taking the Chinese Books Digital Resources Digital Resources of NLC as an Example
Wu Ming, Long Wei, Xiao Hong/National Library of China, Beijing, 100081
Based on the practical metadata management of Chinese books, this paper gives the basic principles of self-developed digital resources, and analyzes the following four issues of metadata: specification and evaluation system construction, approach selection of objects associative, metadata interoperability, and establishment of management platforms.
Metadata management, Self- developed digital resources, Digitalization, Duplicate checking, Interoperability
2013-11-26)
10.3772/j.issn.1673—2286.2014.03.006
吳茗(1975- ),女,館員,碩士研究生,國家圖書館,發(fā)表論文數(shù)篇。E-mail: wum@nlc.gov.cn
龍偉(1966- ),女,副研究館員,國家圖書館,發(fā)表論文數(shù)篇。
肖紅(1982- ),女,館員,碩士研究生,國家圖書館,發(fā)表論文數(shù)篇。