[摘 要]描述元數(shù)據(jù)是智慧圖書館資源管理的重要支撐。為完善中文電子圖書描述元數(shù)據(jù),依據(jù)《中國(guó)機(jī)讀書目格式》和資源描述國(guó)家標(biāo)準(zhǔn),借鑒目標(biāo)館管理經(jīng)驗(yàn),確定質(zhì)量控制工作模式,執(zhí)行中文電子圖書元數(shù)據(jù)列清洗,提出元數(shù)據(jù)質(zhì)量控制的雙線策略:質(zhì)量目標(biāo)調(diào)節(jié)數(shù)據(jù)元素級(jí)描述模板、檢索效率約束來源數(shù)據(jù)描述標(biāo)識(shí)。
[關(guān)鍵詞]中文圖書 電子圖書 描述元數(shù)據(jù) 質(zhì)量控制
[分類號(hào)]G254
1 引言
智慧社會(huì)和教育數(shù)字化戰(zhàn)略背景下,國(guó)家圖書館繼“國(guó)家數(shù)字圖書館工程”之后,牽頭建設(shè)“全國(guó)智慧圖書館體系”[1],數(shù)據(jù)治理成為圖書館智慧轉(zhuǎn)型的必要條件。描述元數(shù)據(jù),即信息資源的書目數(shù)據(jù),是圖書館數(shù)據(jù)治理的重要手段,支撐智慧圖書館知識(shí)倉(cāng)儲(chǔ)等基礎(chǔ)建設(shè),支持用戶獲得學(xué)習(xí)資源。中文電子圖書作為圖書館知識(shí)倉(cāng)儲(chǔ)內(nèi)容之一,描述其元數(shù)據(jù)質(zhì)量是圖書館智慧服務(wù)的必要保障。面向未來學(xué)習(xí)中心的任務(wù)需求,中文電子圖書描述元數(shù)據(jù)需要加強(qiáng)質(zhì)量控制,促進(jìn)學(xué)習(xí)資源的整合與利用。
回顧中文電子圖書描述元數(shù)據(jù)質(zhì)量控制的相關(guān)研究,已經(jīng)形成信息組織策略和數(shù)據(jù)處理方法兩方面經(jīng)驗(yàn)。在信息組織方面,注重信息資源的系統(tǒng)整合與分散揭示。楊慧[2]提出,書目數(shù)據(jù)庫(kù)應(yīng)全面、準(zhǔn)確揭示本館各種文獻(xiàn)資料的收藏。白晗、周雪松[3]認(rèn)為,對(duì)電子資源揭示并通過OPAC進(jìn)行統(tǒng)一檢索是資源整合的一種技術(shù)方式。王亞林[4]的電子資源揭示策略是采用分散記錄編目法,根據(jù)物理實(shí)體區(qū)分編目級(jí)別,利用數(shù)據(jù)庫(kù)對(duì)學(xué)術(shù)性電子期刊和圖書進(jìn)行批量自動(dòng)編目。丁遒勁等[5]從構(gòu)建國(guó)家元數(shù)據(jù)庫(kù)的戰(zhàn)略層面提出協(xié)同揭示框架,借助自動(dòng)化、批量化數(shù)據(jù)處理手段,構(gòu)建格式統(tǒng)一、表達(dá)規(guī)范的大規(guī)模元數(shù)據(jù)資源。
在數(shù)據(jù)處理方面,關(guān)注元數(shù)據(jù)的產(chǎn)品質(zhì)量和編輯工具。劉錚、冉志娟[6]依據(jù)GB/T 3792.9-2009編制電子資源書目記錄,強(qiáng)調(diào)電子資源專用的CNMARC字段。宋文、朱學(xué)軍[7]梳理國(guó)內(nèi)外書目數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的發(fā)展脈絡(luò),以期推動(dòng)我國(guó)構(gòu)建信息資源描述新標(biāo)準(zhǔn)。賈延霞、楊慧[8-9]利用Excel和元數(shù)據(jù)處理工具,將數(shù)據(jù)庫(kù)商提供的電子資源信息列表轉(zhuǎn)換為MARC數(shù)據(jù),同時(shí)他們發(fā)現(xiàn)批量編目最普遍的挑戰(zhàn)是數(shù)據(jù)質(zhì)量問題,直接利用數(shù)據(jù)庫(kù)商提供的MARC會(huì)導(dǎo)致書目系統(tǒng)質(zhì)量下降。田曉迪等[10]利用Alma對(duì)電子資源進(jìn)行生命周期管理,選擇Community Zone中沒有的電子資源編目,維護(hù)供應(yīng)商提供的不完備數(shù)據(jù)或圖書館希望進(jìn)一步完善的現(xiàn)有數(shù)據(jù)。白雪等[11]在Alma環(huán)境下利用MarcEdit批量建立電子資源庫(kù)編目數(shù)據(jù)。
綜合來看,中文電子圖書描述元數(shù)據(jù)的質(zhì)量控制涉及信息描述標(biāo)準(zhǔn)、資源管理系統(tǒng)和編輯管理工具等方面,關(guān)于質(zhì)量控制過程的研究相對(duì)較少。筆者依據(jù)最新發(fā)布的《中國(guó)機(jī)讀書目格式》和資源描述中國(guó)國(guó)家標(biāo)準(zhǔn),調(diào)研并借鑒北京地區(qū)5家目標(biāo)圖書館的電子資源管理經(jīng)驗(yàn),確定中文資源元數(shù)據(jù)質(zhì)量控制模式,使用數(shù)據(jù)處理與編輯工具,批量置換與逐條修改相結(jié)合,執(zhí)行中文電子圖書描述元數(shù)據(jù)控制過程,提出質(zhì)量目標(biāo)和檢索效率協(xié)同的雙線控制策略,完善中文信息組織產(chǎn)品,提升用戶便利性。
2 中文電子圖書描述元數(shù)據(jù)質(zhì)量控制依據(jù)
2.1 《中國(guó)機(jī)讀書目格式》:GB/T 33286-2016
中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)《中國(guó)機(jī)讀書目格式》(CNMARC,以下通稱“格式新標(biāo)準(zhǔn)”)由國(guó)家圖書館和北京大學(xué)圖書館聯(lián)合起草,于2016年12月13日發(fā)布,2017年4月1日實(shí)施。格式新標(biāo)準(zhǔn)參考國(guó)際圖聯(lián)的UNIMARC格式,取舍和修訂部分具體字段,重新定義部分字段數(shù)據(jù)內(nèi)容,是對(duì)國(guó)內(nèi)聯(lián)合目錄領(lǐng)域曾經(jīng)出現(xiàn)的各種標(biāo)準(zhǔn)、規(guī)范、規(guī)則、細(xì)則、手冊(cè)的繼承、綜合與發(fā)展。格式新標(biāo)準(zhǔn)記錄的書目信息主要分布在記錄頭標(biāo)(LDR)、0標(biāo)識(shí)塊、1編碼信息塊、2著錄信息塊、3附注塊、4款目連接塊、5相關(guān)題名塊、6主題分析塊、7責(zé)任塊、8國(guó)際使用塊。中文電子圖書描述元數(shù)據(jù)的必備字段包括:LDR記錄頭標(biāo)、001記錄標(biāo)識(shí)號(hào)、100通用處理數(shù)據(jù)、101文獻(xiàn)語(yǔ)種、200題名與責(zé)任說明$a正題名、304題名來源附注、801記錄來源。格式新標(biāo)準(zhǔn)由當(dāng)前國(guó)內(nèi)最具影響力的兩大聯(lián)合目錄的管理中心首次合著完成,為中文電子圖書描述元數(shù)據(jù)提供了形式方面的控制依據(jù)。依據(jù)格式新標(biāo)準(zhǔn)開展中文電子圖書元數(shù)據(jù)質(zhì)量控制工作,一方面,保障元數(shù)據(jù)統(tǒng)一數(shù)據(jù)結(jié)構(gòu),規(guī)范表達(dá)形式,建立載體聯(lián)結(jié);另一方面,降低資源發(fā)現(xiàn)難度,提高信息檢索效率,有利于用戶識(shí)別和選擇多載體中文信息資源。
2.2 《信息與文獻(xiàn) 資源描述》:GB/T 3792-2021
中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心、國(guó)家圖書館、北京大學(xué)圖書館、清華大學(xué)圖書館等11個(gè)單位,依據(jù)國(guó)際標(biāo)準(zhǔn)ISBD統(tǒng)一版,參考《資源描述與檢索》,合并修訂GB/T 3792系列標(biāo)準(zhǔn),聯(lián)合起草《信息與文獻(xiàn) 資源描述》(以下通稱“內(nèi)容新標(biāo)準(zhǔn)”),于2021年3月9日發(fā)布,2021年10月1日實(shí)施。內(nèi)容新標(biāo)準(zhǔn)是面向各種資源類型的通用資源描述標(biāo)準(zhǔn),表達(dá)了信息資源著錄單元的組合依據(jù)和賦值原理,開啟了應(yīng)用統(tǒng)一內(nèi)容標(biāo)準(zhǔn)揭示多類型中文信息資源的新階段。其強(qiáng)調(diào)優(yōu)先選取標(biāo)識(shí)資源整體并且在資源內(nèi)部的信息源,同時(shí)強(qiáng)調(diào)內(nèi)容形式和媒介類型附注,規(guī)范著錄信息。與以往的單一類型資源描述標(biāo)準(zhǔn)相比,主要變化包括正題名錯(cuò)誤信息照錄、增加變異題名檢索點(diǎn)、責(zé)任者描述數(shù)量由記錄機(jī)構(gòu)決定等。內(nèi)容新標(biāo)準(zhǔn)容納各種資源類型的屬性,同時(shí)減少了信息描述的強(qiáng)制性。內(nèi)容新標(biāo)準(zhǔn)能夠控制中文電子圖書描述元數(shù)據(jù)質(zhì)量,影響本地元數(shù)據(jù)的數(shù)據(jù)元素級(jí)控制方案。依據(jù)格式新標(biāo)準(zhǔn)與內(nèi)容新標(biāo)準(zhǔn)控制描述元數(shù)據(jù)質(zhì)量,是中文電子圖書書目數(shù)據(jù)庫(kù)的建設(shè)邏輯。中文電子圖書描述元數(shù)據(jù)質(zhì)量控制,是以CNMARC為數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)元素集合過程,也是以書目信息為輸出內(nèi)容的數(shù)據(jù)庫(kù)建設(shè)過程。
3 中文電子圖書描述元數(shù)據(jù)質(zhì)量控制模式
為有效執(zhí)行中文電子圖書描述元數(shù)據(jù)的質(zhì)量控制過程,2023年5月31日至6月2日,大連理工大學(xué)圖書館電子資源管理項(xiàng)目組(以下簡(jiǎn)稱“項(xiàng)目組”)奔赴北京地區(qū)五館(以下通稱“目標(biāo)館”)調(diào)研電子資源元數(shù)據(jù)建設(shè)工作。本次調(diào)研的目標(biāo)館有北京大學(xué)圖書館、清華大學(xué)圖書館、中國(guó)人民大學(xué)圖書館、北京師范大學(xué)圖書館和國(guó)家圖書館。項(xiàng)目組采用實(shí)地參觀和線下座談的方式,學(xué)習(xí)目標(biāo)館的電子資源揭示流程和實(shí)操經(jīng)驗(yàn),制定中文電子圖書描述元數(shù)據(jù)的質(zhì)量控制模式。
3.1 目標(biāo)館的資源管理經(jīng)驗(yàn)
在電子資源揭示流程方面,根據(jù)具體的控制目標(biāo),區(qū)分?jǐn)?shù)據(jù)源特點(diǎn),設(shè)計(jì)資源管理業(yè)務(wù)鏈。為充分揭示資源和利用書目數(shù)據(jù),目標(biāo)館采用Excel、MarcEdit等工具批量處理來源數(shù)據(jù),引用紙本圖書的書目數(shù)據(jù)替換缺失或錯(cuò)誤數(shù)據(jù)。信息資源管理業(yè)務(wù)按學(xué)科劃分多個(gè)采編組,先編目再做訂單。資源管理實(shí)現(xiàn)采編一體化、中外文一體化、紙電一體化、資源服務(wù)一體化。從功能上看,資源管理執(zhí)行數(shù)據(jù)轉(zhuǎn)換生產(chǎn)、信息有序存儲(chǔ)和用戶檢索利用的全生命周期管理;從運(yùn)行上看,資源管理區(qū)分為單個(gè)應(yīng)用系統(tǒng)獨(dú)立管理和多個(gè)業(yè)務(wù)系統(tǒng)聯(lián)合管理兩種情況;從任務(wù)上看,資源管理工作按照不同的數(shù)據(jù)格式和著錄規(guī)范揭示資源,解決多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)檢索,增強(qiáng)多載體資源可獲得性。
在電子資源描述實(shí)操方面,強(qiáng)調(diào)著錄方式、著錄格式和信息加工的選擇。著錄方式堅(jiān)持一條記錄原則,即分離式著錄:同一知識(shí)內(nèi)容的電子版與印刷版資源分別著錄為一條記錄;在不同數(shù)據(jù)庫(kù)的同一知識(shí)內(nèi)容的電子資源分別建立一條記錄。著錄格式包括MARC、DC或自建元數(shù)據(jù),支持多載體資源在目次、全文層級(jí)關(guān)聯(lián)檢索。信息加工包括直接采用數(shù)據(jù)庫(kù)商數(shù)據(jù)和修改后導(dǎo)入數(shù)據(jù)兩種處理方式。前者直接利用數(shù)據(jù)庫(kù)商提供的MARC數(shù)據(jù),圖書館在合同簽署之前提出書目數(shù)據(jù)的質(zhì)量要求或數(shù)據(jù)模板,將訂閱數(shù)據(jù)輸入系統(tǒng),數(shù)據(jù)庫(kù)商每月更新數(shù)據(jù);后者利用編輯工具批量修改導(dǎo)入數(shù)據(jù)、電子資源書目數(shù)據(jù)批量加工工具有冠景、MarcEdit等,可修改整庫(kù)或單條記錄,支持電子資源描述。
3.2 元數(shù)據(jù)的質(zhì)量控制模式
中文電子圖書描述元數(shù)據(jù)的質(zhì)量控制是書目數(shù)據(jù)庫(kù)的建設(shè)過程:按照一條記錄原則,以CNMARC子字段為數(shù)據(jù)結(jié)構(gòu),建設(shè)規(guī)范、有效的書目數(shù)據(jù)庫(kù),輸出用戶需要的信息資源。由于電子資源管理系統(tǒng)和資源揭示業(yè)務(wù)流程兩方面的相對(duì)既定性,元數(shù)據(jù)質(zhì)量控制過程更加重要。項(xiàng)目組依據(jù)中國(guó)國(guó)家標(biāo)準(zhǔn),借鑒目標(biāo)館電子圖書元數(shù)據(jù)的信息加工經(jīng)驗(yàn),結(jié)合本館電子資源的管理現(xiàn)狀和發(fā)展愿景,確定元數(shù)據(jù)著錄方式、著錄格式和加工工具,擬定中文電子圖書描述元數(shù)據(jù)的質(zhì)量控制模式。
首先,選擇分散著錄方式。一條記錄原則指導(dǎo)下,不同來源的電子圖書建立不同記錄。多源異構(gòu)數(shù)據(jù)通過中間轉(zhuǎn)換機(jī)制實(shí)現(xiàn)屬性映射與賦值。制定數(shù)據(jù)元素轉(zhuǎn)換、用戶檢索入口、檢索結(jié)果顯示三階段的字段內(nèi)容呈現(xiàn)范圍,實(shí)現(xiàn)信息資源的層次管理。其次,依據(jù)最新國(guó)家標(biāo)準(zhǔn)確定元數(shù)據(jù)著錄格式。項(xiàng)目組遵守格式新標(biāo)準(zhǔn)與內(nèi)容新標(biāo)準(zhǔn)的全域?qū)傩砸螅瑓⒄誄ALIS編目規(guī)則,保證必備字段,突出中文電子圖書的特征字段,確定通用的CNMARC字段列表。最后,利用編輯管理工具深度加工書目數(shù)據(jù)。項(xiàng)目組使用編輯工具,協(xié)同著錄方式和著錄格式,批量修改與手工修改相結(jié)合,刪除無效字段,增加必備字段,引用紙質(zhì)資源規(guī)范數(shù)據(jù),置換同一字段內(nèi)容,合并同一實(shí)體記錄,建立書目聯(lián)系。
4 中文電子圖書描述元數(shù)據(jù)質(zhì)量控制過程
4.1 來源數(shù)據(jù)畫像
為保持中文電子圖書書目數(shù)據(jù)庫(kù)中記錄數(shù)量和內(nèi)容信息的安全性和穩(wěn)定性,項(xiàng)目組抽取5萬(wàn)條書目記錄作為試驗(yàn)數(shù)據(jù)包,對(duì)照CNMARC字段列表,核對(duì)電子資源實(shí)體,對(duì)比紙質(zhì)資源元數(shù)據(jù),歸納總結(jié)來源數(shù)據(jù)特點(diǎn),刻畫數(shù)據(jù)源初始特征。通過子字段統(tǒng)計(jì)報(bào)告,項(xiàng)目組發(fā)現(xiàn)來源數(shù)據(jù)的質(zhì)量問題主要出現(xiàn)在題名與責(zé)任者、主題標(biāo)引和責(zé)任者名稱規(guī)范等方面。具體表現(xiàn)為:200正題名$a子字段包含副題名、叢編題名、分輯標(biāo)識(shí)、分輯題名、版次、版本、內(nèi)容說明、學(xué)科名稱等不屬于正題名的文獻(xiàn)信息;200責(zé)任者$f子字段存在記錄全部責(zé)任方式的全部責(zé)任者、外國(guó)責(zé)任者漢譯名后直接著錄其原文姓名、圖像識(shí)別有誤的姓名形式等情況;606字段將復(fù)合主題的多個(gè)主題因素作為單獨(dú)字段列出;6/7字段的名稱缺少責(zé)任者名稱規(guī)范形式。另外,前置標(biāo)識(shí)符、指示符、字段限定信息、編碼信息字符位等有所缺失。
4.2 數(shù)據(jù)清洗試驗(yàn)
基于來源數(shù)據(jù)畫像,項(xiàng)目組利用MarcEdit 7.5進(jìn)行數(shù)據(jù)列清洗試驗(yàn)。為降低對(duì)來源數(shù)據(jù)誤操作的風(fēng)險(xiǎn),清洗試驗(yàn)按照從格式、形式到內(nèi)容的順序,編寫語(yǔ)句、正則表達(dá)式,對(duì)質(zhì)量問題數(shù)據(jù)進(jìn)行過濾、賦值和修改操作。在格式控制方面,確認(rèn)數(shù)據(jù)包資源類型,依據(jù)格式新標(biāo)準(zhǔn)和內(nèi)容新標(biāo)準(zhǔn),過濾不適用字段,統(tǒng)一前置標(biāo)識(shí)符的半角輸入形式。在形式控制方面,添加字段指示符,調(diào)整限定信息位置,賦值記錄頭標(biāo)、100和135字段的字符位,根據(jù)210字段的出版地賦值102字段,690字段包含的多個(gè)分類號(hào)換行為多個(gè)690字段,添加并賦值336、337、712、801等可確定字段。在內(nèi)容控制方面,主要修改200$a子字段,采用不完全枚舉法,提煉特征規(guī)律,逐項(xiàng)抓取特征數(shù)據(jù),將非正題名信息賦值到對(duì)應(yīng)子字段。
4.3 執(zhí)行全域控制
為保障數(shù)據(jù)的完整性、準(zhǔn)確性和規(guī)范性,項(xiàng)目組將來源數(shù)據(jù)拆分為5萬(wàn)或10萬(wàn)容量的書目數(shù)據(jù)子庫(kù),解決全域控制的共性問題。針對(duì)大部分的共性質(zhì)量問題,項(xiàng)目組利用管理工具重復(fù)執(zhí)行數(shù)據(jù)列清洗過程,進(jìn)行過濾、賦值和修改操作。在全域控制過程中發(fā)現(xiàn),圖像識(shí)別錯(cuò)誤的題名和責(zé)任者,其核對(duì)并修改存在一定難度。有些書目記錄的856字段所提供的全文鏈接地址指向“下架”結(jié)果,并且CALIS聯(lián)合目錄也沒有對(duì)應(yīng)的紙質(zhì)資源記錄。針對(duì)這種情況,項(xiàng)目組通過百度或購(gòu)書網(wǎng)站獲取缺失數(shù)據(jù),保證200字段著錄信息有效切分。項(xiàng)目組也發(fā)現(xiàn)了副題名子字段冗余、并列題名碎片化、分輯標(biāo)識(shí)層次堆疊、分輯題名邏輯關(guān)系錯(cuò)位、責(zé)任方式與責(zé)任者切分誤差、責(zé)任者名稱字段按音序排列等衍生問題,需要人工修改。
4.4 人工修改完善
針對(duì)題名和責(zé)任者數(shù)據(jù)字段出現(xiàn)的衍生問題,項(xiàng)目組設(shè)計(jì)正則表達(dá)式,查找問題記錄,逐條人工修改。在修改數(shù)量上,經(jīng)統(tǒng)計(jì)發(fā)現(xiàn),平均每10萬(wàn)條數(shù)據(jù)出現(xiàn)4000條記錄需要修改一個(gè)子字段的著錄信息,錯(cuò)誤率為4%。在修改細(xì)節(jié)上,以不影響用戶檢索結(jié)果為前提,接受責(zé)任者字段在數(shù)據(jù)處理過程中變成按音序排列的結(jié)果,逐條修改題名和責(zé)任者錯(cuò)誤信息。對(duì)副題名子字段冗余的記錄,主要修改操作包括:刪除無效信息;叢書題名賦值225字段和410字段,同時(shí)修改記錄頭標(biāo)第8字符位;分配相關(guān)內(nèi)容到分輯題名或300附注字段。對(duì)并列題名碎片化的修改包括:增加正題名并列部分;刪除漢語(yǔ)拼音、字母名稱等部分;增加$z并列題名語(yǔ)種子字段。對(duì)分輯標(biāo)識(shí)層次堆疊和分輯題名邏輯關(guān)系錯(cuò)位的修改包括:區(qū)分并列關(guān)系或?qū)哟侮P(guān)系,對(duì)應(yīng)到正確的子字段。對(duì)責(zé)任方式與責(zé)任者切分誤差的修改主要是核對(duì)實(shí)體,補(bǔ)全信息。
5 中文電子圖書描述元數(shù)據(jù)質(zhì)量控制策略
描述元數(shù)據(jù)質(zhì)量控制過程,受信息資源機(jī)構(gòu)管理,按資源描述標(biāo)準(zhǔn)賦值機(jī)讀目錄格式,由電子資源管理系統(tǒng)支持,利用數(shù)據(jù)處理工具實(shí)際操作,依循信息加工模式逐步實(shí)現(xiàn)。項(xiàng)目組融合目標(biāo)館的管理經(jīng)驗(yàn)和元數(shù)據(jù)質(zhì)量的控制實(shí)踐,提出質(zhì)量目標(biāo)和檢索效率協(xié)同的雙線控制策略。
5.1 質(zhì)量目標(biāo)調(diào)節(jié)數(shù)據(jù)元素級(jí)描述模板
數(shù)據(jù)元素級(jí)的描述模板是文獻(xiàn)特征的關(guān)鍵元素集合。依據(jù)格式新標(biāo)準(zhǔn)和內(nèi)容新標(biāo)準(zhǔn),針對(duì)書目數(shù)據(jù)庫(kù)的質(zhì)量目標(biāo)要求,面向用戶學(xué)習(xí)場(chǎng)景,中文電子圖書描述元數(shù)據(jù)的CNMARC模板包括字符位屬性賦值、形式特征描述、載體表現(xiàn)附注和檢索內(nèi)容標(biāo)引4部分,如圖1所示。
5.2 檢索效率約束來源數(shù)據(jù)描述標(biāo)識(shí)
信息資源書目數(shù)據(jù)的描述標(biāo)識(shí)主要指題名、責(zé)任者、主題詞和分類號(hào)。為保障檢索效率,來源數(shù)據(jù)的描述標(biāo)識(shí)是描述元數(shù)據(jù)質(zhì)量控制的核心。中文電子圖書描述元數(shù)據(jù)質(zhì)量控制難點(diǎn)之一,在于CNMARC 200字段的正題名和責(zé)任說明項(xiàng)的準(zhǔn)確輸出。常見問題有:200字段的正題名與其他書目信息的正確切分缺少識(shí)別信息;責(zé)任者名稱與責(zé)任方式的切分?jǐn)帱c(diǎn)判斷困難;掃描電子書的題名出現(xiàn)錯(cuò)別字;將漢語(yǔ)拼音識(shí)別為并列題名等。對(duì)此,項(xiàng)目組利用MARC編輯工具,過濾問題數(shù)據(jù),依據(jù)描述標(biāo)準(zhǔn)逐條修改。數(shù)據(jù)質(zhì)量控制的難點(diǎn)之二,在于606主題字段只用$a子字段容納全部主題詞,不同主題因素?zé)o法賦值到對(duì)應(yīng)子字段。對(duì)于此類問題,有3個(gè)解決建議。一是覆蓋法,保留獨(dú)有字段信息,使用主題信息比較完備的記錄覆蓋主題有問題的記錄。二是賦值法,將同一內(nèi)容紙本資源的主題字段置換電子資源的606字段。三是去重法,比對(duì)每條記錄中所有606中的主題詞,去掉重復(fù)用詞,保留最多元素的字段。
檢索效率要求專指度高的數(shù)據(jù)描述標(biāo)識(shí),響應(yīng)用戶知識(shí)需求,提高用戶學(xué)習(xí)便利性。用戶便利性一直是圖書館服務(wù)的價(jià)值取向,體現(xiàn)在節(jié)省信息檢索時(shí)間和精準(zhǔn)獲取知識(shí)資源?;诟袷叫聵?biāo)準(zhǔn)和內(nèi)容新標(biāo)準(zhǔn),描述元數(shù)據(jù)的質(zhì)量控制過程協(xié)同兩部分工作,一是面向?qū)W習(xí)場(chǎng)景建構(gòu)元數(shù)據(jù)質(zhì)量控制模板,二是約束描述標(biāo)識(shí)支持用戶知識(shí)檢索與利用。學(xué)習(xí)場(chǎng)景是智慧圖書館學(xué)習(xí)空間建設(shè)的內(nèi)涵。描述元數(shù)據(jù)在質(zhì)量目標(biāo)調(diào)節(jié)下,有效組織多載體資源。用戶學(xué)習(xí)場(chǎng)景化是書目數(shù)據(jù)提供、數(shù)據(jù)庫(kù)維護(hù)、館藏資源調(diào)度、用戶檢索體驗(yàn)四階段連續(xù)、互動(dòng)、迭代的數(shù)據(jù)交付全周期管理。中文電子圖書的元數(shù)據(jù)交付要標(biāo)引必要的檢索點(diǎn),關(guān)聯(lián)有效信息資源,匹配用戶檢索意圖,簡(jiǎn)化OPAC檢索表達(dá),為用戶的場(chǎng)景化學(xué)習(xí)調(diào)動(dòng)資源配置。約束來源數(shù)據(jù)描述標(biāo)識(shí)是用戶學(xué)習(xí)的重要支撐,有利于支持多源異構(gòu)數(shù)據(jù)信息交互。中文電子圖書元數(shù)據(jù)的質(zhì)量控制過程調(diào)整描述標(biāo)識(shí)的提供與利用,促進(jìn)數(shù)據(jù)向知識(shí)轉(zhuǎn)化。
6 結(jié)語(yǔ)
中文電子圖書描述元數(shù)據(jù)質(zhì)量控制是篩選和賦值有效數(shù)據(jù)元素的過程。依據(jù)中國(guó)國(guó)家標(biāo)準(zhǔn),借鑒目標(biāo)館管理經(jīng)驗(yàn),建構(gòu)描述元數(shù)據(jù)模板,約束來源數(shù)據(jù)描述單元,探索中文電子圖書信息組織雙線協(xié)同策略。隨著未來學(xué)習(xí)中心建設(shè)任務(wù)的開啟,中文電子圖書元數(shù)據(jù)有利于中文圖書資源整合,為多載體中文信息資源輸出成用戶學(xué)習(xí)資源提供保障。面向未來學(xué)習(xí)中心,中文電子圖書信息組織以元數(shù)據(jù)操作的方式控制書目數(shù)據(jù)質(zhì)量,輸出信息加工產(chǎn)品,將進(jìn)一步驅(qū)動(dòng)信息資源管理過程,開展精準(zhǔn)的智慧化服務(wù)。
參考文獻(xiàn):
[1] 饒權(quán).全國(guó)智慧圖書館體系:開啟圖書館智慧化轉(zhuǎn)型新篇章[J].中國(guó)圖書館學(xué)報(bào),2021(1):4-14.
[2] 楊慧.《西文文獻(xiàn)著錄條例(修訂擴(kuò)大版)》新增電子資源及非書資料的著錄[J].國(guó)家圖書館學(xué)刊,2004(1):41-46.
[3] 白晗,周雪松.“211”院校圖書館電子資源的組織與揭示調(diào)研[J].圖書館學(xué)研究,2007(10):32-34.
[4] 王亞林.電子資源的編目策略[J].圖書館建設(shè),2012(2):47-49,53.
[5] 丁遒勁,蘇靜,曾建勛.國(guó)家元數(shù)據(jù)庫(kù)及其協(xié)同構(gòu)建框架研究[J].情報(bào)理論與實(shí)踐,2020(10):82-92,80.
[6] 劉錚,冉志娟.電子資源書目記錄編制的實(shí)踐與探索[J].情報(bào)探索,2011(S1):152-156.
[7] 宋文,朱學(xué)軍.《資源描述》國(guó)家標(biāo)準(zhǔn)及對(duì)我國(guó)信息資源描述標(biāo)準(zhǔn)體系的思考[J].數(shù)字圖書館論壇,2016(12):21-27.
[8] 賈延霞,楊慧.Excel和元數(shù)據(jù)處理工具在電子資源批量編目中的應(yīng)用[J].圖書館雜志,2014(1):40-44.
[9] 賈延霞,楊慧.電子資源批量編目的實(shí)踐及研究[J].圖書情報(bào)工作,2014(18):117-121.
[10] 田曉迪,李廣利,白雪.Alma電子資源管理的內(nèi)容、流程及原則探析:實(shí)踐與思考[J].圖書情報(bào)工作,2020(4):52-58.
[11] 白雪,等.Alma環(huán)境下電子資源庫(kù)的編目實(shí)踐[J].新世紀(jì)圖書館,2021(11):53-57.
李艷茹 女,1975年生。碩士,館員。研究方向:信息組織與知識(shí)管理。
閻雅娜 女,1974年生。本科學(xué)歷,副研究館員,副館長(zhǎng)。研究方向:信息資源建設(shè)。
(收稿日期:2022-12-12;責(zé)編:婁明輝。)