程 穎(武漢大學(xué)圖書(shū)館 武漢 430072)
數(shù)字資源元數(shù)據(jù)質(zhì)量管理的研究與探索
程 穎
(武漢大學(xué)圖書(shū)館 武漢 430072)
〔摘 要〕數(shù)字資源已成為圖書(shū)館重要的信息資源,對(duì)數(shù)字資源元數(shù)據(jù)進(jìn)行質(zhì)量管理是數(shù)字資源管理的重要內(nèi)容。文章從數(shù)字資源元數(shù)據(jù)質(zhì)量管理的需求出發(fā),分析了元數(shù)據(jù)質(zhì)量問(wèn)題,結(jié)合武漢大學(xué)圖書(shū)館多年來(lái)數(shù)字資源元數(shù)據(jù)質(zhì)量管理的研究與實(shí)踐探索,構(gòu)建了數(shù)字資源元數(shù)據(jù)質(zhì)量管理模型,并給出了元數(shù)據(jù)質(zhì)量管理流程和質(zhì)量管理相關(guān)建議。
〔關(guān)鍵詞〕數(shù)字資源 元數(shù)據(jù) 數(shù)據(jù)質(zhì)量 數(shù)據(jù)管理 信息組織 大數(shù)據(jù)
數(shù)字資源又稱(chēng)電子資源,是伴隨著計(jì)算機(jī)技術(shù)、信息技術(shù)及網(wǎng)絡(luò)技術(shù)的發(fā)展而產(chǎn)生的一種新型資源[1],它包括電子期刊、電子圖書(shū)、電子學(xué)位論文和電子會(huì)議論文等。隨著數(shù)字圖書(shū)館的發(fā)展,數(shù)字資源已在資源建設(shè)中發(fā)揮著非常重要的作用。目前,許多圖書(shū)館的數(shù)字資源數(shù)量巨大,以武漢大學(xué)圖書(shū)館為例,截至2014 年12月,共訂購(gòu)各類(lèi)數(shù)據(jù)庫(kù)455個(gè),其中中外文數(shù)字化書(shū)刊達(dá)到871萬(wàn)冊(cè)[2],隨著今后繼續(xù)訂購(gòu)數(shù)字資源,及網(wǎng)絡(luò)開(kāi)放存取資源的不斷發(fā)展,圖書(shū)館可提供用戶(hù)訪問(wèn)的數(shù)字資源數(shù)量將持續(xù)攀升。元數(shù)據(jù)作為揭示數(shù)字資源內(nèi)容、屬性及特征等信息的一種數(shù)據(jù)形式,在資源整合、資源檢索、資源發(fā)現(xiàn)、資源評(píng)估及資源管理等應(yīng)用中發(fā)揮著非常重要的作用[3-5],數(shù)字資源元數(shù)據(jù)質(zhì)量也直接影響數(shù)字資源的建設(shè)水平和服務(wù)質(zhì)量。2004年美國(guó)學(xué)者Bruce和Hillman將元數(shù)據(jù)質(zhì)量定義為“元數(shù)據(jù)滿(mǎn)足需求和目標(biāo)的程度”[6]。由于數(shù)字資源元數(shù)據(jù)來(lái)源多樣、數(shù)據(jù)量大及重復(fù)率高等原因,造成數(shù)據(jù)質(zhì)量問(wèn)題頻現(xiàn),從而影響了數(shù)字資源的有效利用。如何對(duì)獲得的數(shù)字資源元數(shù)據(jù)進(jìn)行質(zhì)量管理,建設(shè)高質(zhì)量的元數(shù)據(jù)倉(cāng)儲(chǔ),以提供更好的信息服務(wù),而不過(guò)多地依賴(lài)外部公司,是圖書(shū)館需要探索與解決的問(wèn)題。
數(shù)字資源元數(shù)據(jù)是關(guān)于數(shù)字資源及其特性的結(jié)構(gòu)化信息[7],是數(shù)字圖書(shū)館信息組織的基礎(chǔ)[8],對(duì)數(shù)字資源元數(shù)據(jù)進(jìn)行質(zhì)量管理是圖書(shū)館業(yè)務(wù)發(fā)展的需要。
揭示數(shù)字資源的需要。通過(guò)查看元數(shù)據(jù)可以了解數(shù)字資源的信息:①內(nèi)容信息。包括題名、著者、摘要、主題、關(guān)鍵詞及分類(lèi)等信息。②屬性信息。包括數(shù)字資源特征、資源類(lèi)型特征、數(shù)據(jù)來(lái)源特征及服務(wù)類(lèi)型特征等。③定位信息。提供數(shù)字資源的網(wǎng)絡(luò)鏈接地址,以方便直接查看數(shù)字資源的內(nèi)容。④歷史沿革。描述數(shù)字資源的發(fā)展變化,例如電子期刊改名、頻率變化、合刊、分刊、前刊和后續(xù)刊等情況。⑤關(guān)聯(lián)關(guān)系。揭示數(shù)字資源與相關(guān)資源、相關(guān)系統(tǒng)及數(shù)據(jù)庫(kù)的關(guān)系,如數(shù)字資源與其對(duì)應(yīng)的印刷型資源的關(guān)聯(lián)。
管理數(shù)字資源的需要。目前,許多數(shù)字資源仍采取以單個(gè)數(shù)據(jù)庫(kù)為單位的管理模式,這種模式很難準(zhǔn)確地掌握電子圖書(shū)、電子期刊等單個(gè)數(shù)字資源的實(shí)際情況。元數(shù)據(jù)是“數(shù)字資源”的替代品[9-10],通過(guò)它可以管理電子圖書(shū)、電子期刊等單個(gè)數(shù)字資源,及基于單個(gè)資源而衍生出的集合式數(shù)字資源的訪問(wèn)控制、各數(shù)據(jù)庫(kù)訪問(wèn)點(diǎn)的集成、互操作、數(shù)字資源的訪問(wèn)統(tǒng)計(jì)、評(píng)價(jià)及引用等。
利用數(shù)字資源的需要。數(shù)字資源元數(shù)據(jù)使得數(shù)字資源的許多應(yīng)用成為可能,如資源發(fā)現(xiàn)、資源檢索、資源共享、資源鏈接及數(shù)字資源評(píng)介等應(yīng)用均依賴(lài)于元數(shù)據(jù),且與元數(shù)據(jù)質(zhì)量緊密相關(guān)。高質(zhì)量元數(shù)據(jù)使得用戶(hù)檢索時(shí)能準(zhǔn)確地定位到數(shù)字資源的內(nèi)容,低劣的元數(shù)據(jù)則會(huì)導(dǎo)致檢索時(shí)出現(xiàn)過(guò)多的、不相關(guān)的、或重復(fù)記錄,從而影響數(shù)字資源的利用。
目前,數(shù)字資源元數(shù)據(jù)質(zhì)量出現(xiàn)各種問(wèn)題,以正在發(fā)展中的資源發(fā)現(xiàn)系統(tǒng)為例,它是基于元數(shù)據(jù)倉(cāng)儲(chǔ)的一種資源整合系統(tǒng),由于其數(shù)據(jù)獲取渠道多樣、著錄規(guī)范不統(tǒng)一、元數(shù)據(jù)倉(cāng)儲(chǔ)不在本地,及系統(tǒng)商缺乏元數(shù)據(jù)技術(shù)人員等原因,使得僅依賴(lài)資源發(fā)現(xiàn)系統(tǒng)商難以解決元數(shù)據(jù)質(zhì)量問(wèn)題[11],圖書(shū)館專(zhuān)注元數(shù)據(jù)發(fā)展,有經(jīng)驗(yàn)豐富的從事元數(shù)據(jù)工作的隊(duì)伍,因此,可在數(shù)字資源元數(shù)據(jù)質(zhì)量管理上做些探索性工作。數(shù)字資源元數(shù)據(jù)質(zhì)量管理是通過(guò)規(guī)劃及運(yùn)用相應(yīng)的技術(shù)和方法對(duì)獲取的各來(lái)源的數(shù)字資源元數(shù)據(jù)實(shí)施科學(xué)的、有效的質(zhì)量管理,以提供高質(zhì)量的信息服務(wù),使數(shù)字資源能夠得到更好的利用。檢索中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù),2005-2014年間數(shù)字資源元數(shù)據(jù)質(zhì)量方面的論文只有9篇,表明元數(shù)據(jù)質(zhì)量管理尚處于摸索階段,缺乏一套適應(yīng)國(guó)內(nèi)實(shí)際情況的數(shù)字資源元數(shù)據(jù)質(zhì)量管理方案。武漢大學(xué)圖書(shū)館多年來(lái)一直進(jìn)行數(shù)字資源元數(shù)據(jù)質(zhì)量管理的理論研究及實(shí)踐探索,以下結(jié)合實(shí)踐來(lái)探討元數(shù)據(jù)質(zhì)量管理的若干問(wèn)題。
2. 1 數(shù)字資源元數(shù)據(jù)的質(zhì)量問(wèn)題
(1) 數(shù)據(jù)有誤。數(shù)字資源元數(shù)據(jù)沒(méi)有嚴(yán)格遵循國(guó)際、國(guó)內(nèi)及行業(yè)內(nèi)的著錄標(biāo)準(zhǔn)和規(guī)范。一方面表現(xiàn)在著錄有誤,如字段名稱(chēng)錯(cuò)誤,指示符設(shè)置錯(cuò)誤,字母拼寫(xiě)錯(cuò)誤,外國(guó)人名順序錯(cuò)誤、定長(zhǎng)字段字符位設(shè)置錯(cuò)誤等;另一方面是數(shù)據(jù)格式有誤。不標(biāo)準(zhǔn)或錯(cuò)誤的數(shù)據(jù)格式會(huì)造成元數(shù)據(jù)無(wú)法被轉(zhuǎn)換,或轉(zhuǎn)換后出現(xiàn)記錄錯(cuò)位、截?cái)嗷蚵┑粲涗浀惹闆r。
(2) 數(shù)據(jù)遺漏。指元數(shù)據(jù)不完整,如缺少一些字段、子字段和字段指示符,字段內(nèi)容不完整,缺少主題和分類(lèi)信息,多著者著錄不全等。
(3) 數(shù)據(jù)失效。數(shù)據(jù)失效會(huì)造成元數(shù)據(jù)無(wú)法被利用,數(shù)據(jù)失效的原因有多種,如元數(shù)據(jù)所對(duì)應(yīng)的數(shù)字資源實(shí)際并未被圖書(shū)館訂購(gòu),元數(shù)據(jù)中的網(wǎng)絡(luò)鏈接地址有誤,或者因電子期刊??斐善渚W(wǎng)址無(wú)效等。
(4) 數(shù)據(jù)重復(fù)。由于數(shù)據(jù)庫(kù)間重復(fù)收錄數(shù)字資源的情況普遍存在,例如中國(guó)知網(wǎng)有89%的期刊被萬(wàn)方和維普收錄[12],因此,不同來(lái)源元數(shù)據(jù)集間存在大量重復(fù)數(shù)據(jù);同一來(lái)源元數(shù)據(jù)集內(nèi)部也會(huì)出現(xiàn)數(shù)據(jù)重復(fù)的情況;此外,元數(shù)據(jù)記錄內(nèi)部的一些字段也會(huì)重復(fù),如出現(xiàn)多個(gè)相同主題詞的字段。
2. 2 數(shù)字資源元數(shù)據(jù)質(zhì)量問(wèn)題的原因分析
(1) 數(shù)據(jù)來(lái)源。元數(shù)據(jù)不僅可從數(shù)據(jù)庫(kù)商、代理商處購(gòu)買(mǎi)或免費(fèi)獲得,還可通過(guò)網(wǎng)絡(luò)下載,從數(shù)據(jù)庫(kù)管理后臺(tái)提取,從而造成元數(shù)據(jù)來(lái)源的多樣化。由于各來(lái)源數(shù)據(jù)依據(jù)的著錄標(biāo)準(zhǔn)和規(guī)范不統(tǒng)一,造成數(shù)據(jù)著錄不一致、數(shù)據(jù)格式各異等問(wèn)題。
(2) 數(shù)據(jù)處理。目前,圖書(shū)館界和提供元數(shù)據(jù)服務(wù)的系統(tǒng)商并沒(méi)有充分的認(rèn)識(shí)到元數(shù)據(jù)質(zhì)量的重要性,沒(méi)有建立一套科學(xué)的數(shù)據(jù)處理方案,使得多來(lái)源數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)儲(chǔ)之前未根據(jù)各來(lái)源數(shù)據(jù)的實(shí)際情況和特點(diǎn)進(jìn)行相應(yīng)的處理,如設(shè)定合適的參數(shù)進(jìn)行數(shù)據(jù)過(guò)濾、去重和歸并,或只進(jìn)行簡(jiǎn)單處理就導(dǎo)入元數(shù)據(jù)倉(cāng)儲(chǔ)中,從而造成大量數(shù)據(jù)重復(fù)、各來(lái)源數(shù)據(jù)著錄不一致等問(wèn)題。
(3)不穩(wěn)定性。數(shù)字資源并不是一成不變的,有時(shí)會(huì)出現(xiàn)更新、變更、被替換或停止使用等情況。一旦數(shù)字資源發(fā)生變化,不及時(shí)更新則會(huì)造成元數(shù)據(jù)與對(duì)應(yīng)的數(shù)字資源實(shí)際情況不符,產(chǎn)生新的質(zhì)量問(wèn)題。此外,元數(shù)據(jù)相關(guān)標(biāo)準(zhǔn)、規(guī)范及圖書(shū)館業(yè)務(wù)均處于不斷變化中,也會(huì)帶來(lái)新的質(zhì)量問(wèn)題。
3. 1 概述
武漢大學(xué)圖書(shū)館在總結(jié)多年數(shù)字資源元數(shù)據(jù)質(zhì)量管理經(jīng)驗(yàn)的基礎(chǔ)上構(gòu)建了質(zhì)量管理模型,為數(shù)字資源元數(shù)據(jù)質(zhì)量管理提供了一個(gè)邏輯結(jié)構(gòu)。該模型由三大構(gòu)件組成,從上至下依次為數(shù)字資源元數(shù)據(jù)的生命周期、影響質(zhì)量的基本要素及數(shù)據(jù)質(zhì)量維度。其中,數(shù)字資源元數(shù)據(jù)的生命周期是從圖書(shū)館的角度來(lái)描述元數(shù)據(jù)被操作的過(guò)程,影響質(zhì)量的四個(gè)基本要素是數(shù)據(jù)質(zhì)量管理的基礎(chǔ)條件,數(shù)據(jù)質(zhì)量維度則提供了評(píng)估和控制元數(shù)據(jù)質(zhì)量的依據(jù),三大構(gòu)件緊密聯(lián)系,相輔相成。數(shù)字資源元數(shù)據(jù)質(zhì)量管理實(shí)質(zhì)是基于數(shù)字資源元數(shù)據(jù)整個(gè)生命周期的質(zhì)量管理活動(dòng),在生命周期的各階段均需綜合考慮元數(shù)據(jù)、人員、流程和技術(shù)四個(gè)基本要素,并依據(jù)數(shù)據(jù)質(zhì)量維度實(shí)施質(zhì)量控制 (如圖1)。
3. 2 數(shù)字資源元數(shù)據(jù)的生命周期
圖1 數(shù)字資源元數(shù)據(jù)質(zhì)量管理模型
數(shù)字資源元數(shù)據(jù)是一種信息資源,也具有生命周期,其生命周期與數(shù)字資源的變化息息相關(guān),綜合考慮數(shù)字資源的特性、發(fā)展變化及數(shù)據(jù)處理方式,將數(shù)字資源元數(shù)據(jù)的生命周期依次劃分為八個(gè)階段:
(1) 規(guī)劃。從總體層面考慮,分析數(shù)據(jù)質(zhì)量需求,制定目標(biāo),并明確標(biāo)準(zhǔn)和規(guī)范,合理的規(guī)劃有利于元數(shù)據(jù)在整個(gè)生命周期中的科學(xué)管理。
(2) 創(chuàng)建。由人工著錄、改編印刷型資源元數(shù)據(jù)、或軟件自動(dòng)抽取等方法生成數(shù)字資源元數(shù)據(jù)。
(3) 收集。通過(guò)多種方式、多種渠道收集現(xiàn)成的數(shù)字資源元數(shù)據(jù)。
(4) 處理。元數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)儲(chǔ)前必須對(duì)數(shù)據(jù)進(jìn)行處理,以滿(mǎn)足質(zhì)量要求。數(shù)據(jù)處理是生命周期中的關(guān)鍵階段,它包括將源數(shù)據(jù)格式轉(zhuǎn)換成數(shù)據(jù)倉(cāng)儲(chǔ)接受的數(shù)據(jù)格式,制定質(zhì)量改進(jìn)規(guī)則并修改數(shù)據(jù),使數(shù)據(jù)更標(biāo)準(zhǔn)化、規(guī)范化,并符合本地化的業(yè)務(wù)要求,制定查重規(guī)則,以定位、清查合并重復(fù)數(shù)據(jù)等。
(5) 裝載。將經(jīng)過(guò)處理的元數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉(cāng)儲(chǔ)中。
(6) 維護(hù)。對(duì)數(shù)據(jù)倉(cāng)儲(chǔ)中的元數(shù)據(jù)進(jìn)行質(zhì)量管理活動(dòng),包括根據(jù)數(shù)字資源的變化更新元數(shù)據(jù),制定規(guī)則過(guò)濾出問(wèn)題數(shù)據(jù)集,修改數(shù)據(jù)等。
(7) 使用。通過(guò)資源檢索、資源整合及資源評(píng)估等應(yīng)用發(fā)揮元數(shù)據(jù)的效用。
(8) 刪除。當(dāng)數(shù)字資源出現(xiàn)停訂、???、被替換、或不再提供網(wǎng)絡(luò)訪問(wèn)等情況時(shí),則該數(shù)字資源失效,需刪除其元數(shù)據(jù),刪除數(shù)據(jù)需審慎,并作好記錄。
3. 3 影響數(shù)字資源元數(shù)據(jù)質(zhì)量的基本要素
(1) 元數(shù)據(jù)。元數(shù)據(jù)是數(shù)字資源元數(shù)據(jù)質(zhì)量管理的研究對(duì)象,所有的質(zhì)量管理活動(dòng)均圍繞元數(shù)據(jù)展開(kāi),元數(shù)據(jù)質(zhì)量也決定了質(zhì)量管理的難度。
(2) 人員。指參與數(shù)字資源元數(shù)據(jù)質(zhì)量管理的人員、職責(zé)、分工及團(tuán)隊(duì)組織。數(shù)字資源元數(shù)據(jù)質(zhì)量管理需要多種不同專(zhuān)業(yè)背景和專(zhuān)業(yè)技能的人團(tuán)結(jié)協(xié)作、共同承擔(dān)質(zhì)量管理的重任,如元數(shù)據(jù)編目員、數(shù)據(jù)分析員、數(shù)據(jù)管理員及數(shù)據(jù)處理人員等。
(3) 流程。數(shù)字資源元數(shù)據(jù)質(zhì)量管理包括數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)修改、查重和更新等若干管理活動(dòng),且各活動(dòng)有操作次序,因此,需確定元數(shù)據(jù)質(zhì)量管理的流程,以利于各項(xiàng)質(zhì)量管理活動(dòng)有序地開(kāi)展。
(4) 技術(shù)。指助力于元數(shù)據(jù)質(zhì)量管理的方法、技術(shù)、選用的系統(tǒng)、軟件及工具等,如網(wǎng)址有效性檢測(cè)軟件,數(shù)據(jù)格式轉(zhuǎn)換工具,問(wèn)題數(shù)據(jù)過(guò)濾系統(tǒng)及數(shù)據(jù)判重系統(tǒng)等。
3. 4 數(shù)字資源元數(shù)據(jù)的質(zhì)量維度
數(shù)據(jù)質(zhì)量維度是一組表達(dá)數(shù)據(jù)質(zhì)量構(gòu)成的屬性,在特定應(yīng)用中,需制定適用于業(yè)務(wù)需求的數(shù)據(jù)質(zhì)量維度。[13]數(shù)字資源元數(shù)據(jù)質(zhì)量包含多個(gè)方面,綜合考慮元數(shù)據(jù)規(guī)范、數(shù)字資源的特性及圖書(shū)館實(shí)際業(yè)務(wù)需求等因素,制定了十個(gè)方面的數(shù)字資源元數(shù)據(jù)質(zhì)量維度。
(1) 完整性。指元數(shù)據(jù)需全面地揭示目標(biāo)數(shù)字資源,用于分析和評(píng)判元數(shù)據(jù)是否缺失必備字段、子字段,字段內(nèi)容是否詳盡等,包括結(jié)構(gòu)完整性、內(nèi)容完整性及參照完整性等。若元數(shù)據(jù)不完整,則會(huì)影響其它質(zhì)量維度的評(píng)價(jià),因此,完整性是基礎(chǔ)維度。
(2) 準(zhǔn)確性。指元數(shù)據(jù)準(zhǔn)確且客觀地反映目標(biāo)數(shù)字資源,包括語(yǔ)義準(zhǔn)確性、語(yǔ)法準(zhǔn)確性及結(jié)構(gòu)準(zhǔn)確性等??蓪⒃獢?shù)據(jù)與目標(biāo)數(shù)字資源進(jìn)行對(duì)比來(lái)分析數(shù)據(jù)準(zhǔn)確性,不準(zhǔn)確的數(shù)據(jù)會(huì)導(dǎo)致無(wú)效的數(shù)據(jù)應(yīng)用。
(3) 規(guī)范性。指元數(shù)據(jù)遵循各類(lèi)相關(guān)標(biāo)準(zhǔn)、規(guī)范、應(yīng)用指南及受控詞表的程度,涉及數(shù)據(jù)格式、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)內(nèi)容等多個(gè)方面。規(guī)范性檢查包括字段名稱(chēng)、字段指示符設(shè)置是否規(guī)范,分類(lèi)及主題是否取自規(guī)范的分類(lèi)主題詞表等。
(4) 唯一性。既指元數(shù)據(jù)在數(shù)據(jù)倉(cāng)儲(chǔ)中只出現(xiàn)一次,即數(shù)據(jù)不重復(fù),也指某些字段和屬性的唯一性。對(duì)于重復(fù)數(shù)據(jù),需根據(jù)數(shù)據(jù)的實(shí)際情況,設(shè)定多個(gè)字段及子字段的組合作為判重條件來(lái)清理數(shù)據(jù)。
(5) 一致性。指元數(shù)據(jù)在概念、結(jié)構(gòu)、邏輯及語(yǔ)法等方面需保持一致,包括各來(lái)源數(shù)據(jù)的一致性,中西文數(shù)據(jù)的一致性,外部源數(shù)據(jù)與本地?cái)?shù)據(jù)的一致性,元數(shù)據(jù)與目標(biāo)數(shù)字資源的一致性等。一致性可以更好地實(shí)現(xiàn)同一平臺(tái)下所有資源的統(tǒng)一檢索和統(tǒng)一利用。
(6) 及時(shí)性。指元數(shù)據(jù)是否及時(shí)地揭示目標(biāo)數(shù)字資源的最新情況,當(dāng)數(shù)字資源發(fā)生變化時(shí),需及時(shí)地更新元數(shù)據(jù)。
(7) 有效性。指元數(shù)據(jù)是否為有效信息,包括元數(shù)據(jù)記錄的有效性和數(shù)據(jù)內(nèi)容的有效性。若獲得的元數(shù)據(jù)記錄對(duì)應(yīng)的數(shù)字資源未被圖書(shū)館訂購(gòu)或停訂,則該記錄失效;若元數(shù)據(jù)中的網(wǎng)絡(luò)鏈接地址不可訪問(wèn),則元數(shù)據(jù)內(nèi)容失效,由于網(wǎng)絡(luò)鏈接地址的不穩(wěn)定性,因此,應(yīng)盡量選擇DOI、OpenURL等穩(wěn)定形式的網(wǎng)址。
(8) 適用性。指元數(shù)據(jù)可被用戶(hù)使用、易于使用及滿(mǎn)足用戶(hù)需求的程度,它是數(shù)據(jù)質(zhì)量管理的最終目標(biāo),涉及數(shù)據(jù)著錄形式、顯示方式、數(shù)據(jù)開(kāi)放程度及網(wǎng)絡(luò)運(yùn)行狀況等方面。有些元數(shù)據(jù)著錄得非常專(zhuān)業(yè)、規(guī)范和詳細(xì),但因不易理解及數(shù)據(jù)開(kāi)放等原因,并未被很好的利用。
(9) 可維護(hù)性。指維護(hù)元數(shù)據(jù)的難易程度。一般同一來(lái)源的元數(shù)據(jù)具有一些共同特征,因此,可根據(jù)共同特征提取出數(shù)據(jù)集而批量維護(hù)。
(10) 關(guān)聯(lián)性。元數(shù)據(jù)并不是一個(gè)獨(dú)立的個(gè)體,它來(lái)源于不同的元數(shù)據(jù)提供商,揭示不同數(shù)據(jù)庫(kù)中的數(shù)字資源,且很大一部分?jǐn)?shù)字資源是紙本資源的數(shù)字版或掃描版, 因此,元數(shù)據(jù)需揭示與其密切相關(guān)的資源的聯(lián)系,如與其對(duì)應(yīng)的紙本資源、數(shù)據(jù)來(lái)源及所屬數(shù)據(jù)庫(kù)的聯(lián)系。
我們將數(shù)字資源元數(shù)據(jù)質(zhì)量維度作為分析和處理元數(shù)據(jù)質(zhì)量問(wèn)題的“尺度”,在質(zhì)量管理實(shí)踐中協(xié)同使用各個(gè)維度,并對(duì)各維度的粒度再進(jìn)行具體的細(xì)化。
圖2 數(shù)字資源元數(shù)據(jù)質(zhì)量管理流程
基于數(shù)字資源元數(shù)據(jù)質(zhì)量管理模型并結(jié)合武漢大學(xué)圖書(shū)館的質(zhì)量管理實(shí)踐,確定了數(shù)字資源元數(shù)據(jù)質(zhì)量管理的十步流程(見(jiàn)圖2):
(1) 發(fā)現(xiàn)問(wèn)題。工作人員審核數(shù)據(jù)以發(fā)現(xiàn)數(shù)據(jù)問(wèn)題,用戶(hù)使用數(shù)據(jù)報(bào)告數(shù)據(jù)問(wèn)題,還可通過(guò)軟件、工具監(jiān)測(cè)數(shù)據(jù)質(zhì)量。
(2) 分析數(shù)據(jù)質(zhì)量。依據(jù)數(shù)字資源元數(shù)據(jù)質(zhì)量維度分析數(shù)據(jù)質(zhì)量及與業(yè)務(wù)需求的差距,評(píng)估劣質(zhì)數(shù)據(jù)對(duì)元數(shù)據(jù)相關(guān)應(yīng)用所造成的影響。
(3) 確定問(wèn)題原因。確定數(shù)據(jù)問(wèn)題是源于數(shù)據(jù)源機(jī)構(gòu),還是圖書(shū)館自身業(yè)務(wù)要求,確定原因后才可明確由誰(shuí)來(lái)處理問(wèn)題。
(4) 源端修正問(wèn)題。由數(shù)據(jù)源機(jī)構(gòu)造成的數(shù)據(jù)問(wèn)題,將數(shù)據(jù)修改要求反饋給源機(jī)構(gòu)修正。
(5) 修正當(dāng)前問(wèn)題。進(jìn)一步修正剩下的數(shù)據(jù)問(wèn)題,先制定若干數(shù)據(jù)質(zhì)量改進(jìn)規(guī)則,再依據(jù)規(guī)則編寫(xiě)代碼來(lái)執(zhí)行數(shù)據(jù)修改操作。
(6) 預(yù)防今后問(wèn)題。預(yù)測(cè)數(shù)字資源今后可能會(huì)發(fā)生的變化而提前采取的措施,以減少將來(lái)花費(fèi)更多的精力去維護(hù)數(shù)據(jù)。
(7) 測(cè)試。所有質(zhì)量管理活動(dòng)均應(yīng)先在測(cè)試服務(wù)器中測(cè)試通過(guò)后再在正式服務(wù)器中實(shí)施操作,并分析質(zhì)量管理活動(dòng)對(duì)服務(wù)器所造成的影響。
(8) 實(shí)施。在正式服務(wù)器中實(shí)施質(zhì)量管理活動(dòng),包括批量操作和人工操作。
(9) 審核。根據(jù)已制定的數(shù)據(jù)質(zhì)量改進(jìn)規(guī)則核查各數(shù)據(jù)問(wèn)題是否已得到了解決。
(10) 改進(jìn)。總結(jié)質(zhì)量管理流程,思考其中還存在的問(wèn)題及改進(jìn)方案,并將各操作結(jié)果歸檔。
數(shù)字資源元數(shù)據(jù)質(zhì)量管理的十步流程通過(guò)以數(shù)字資源元數(shù)據(jù)的質(zhì)量問(wèn)題為中心,不斷發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,并解決問(wèn)題的循環(huán)過(guò)程,不斷地提高元數(shù)據(jù)質(zhì)量。
5. 1 管理模式
數(shù)字資源元數(shù)據(jù)在數(shù)據(jù)來(lái)源、獲取方式、數(shù)據(jù)著錄及資源變化等方面與印刷型資源有較大差異,從而決定了數(shù)字資源元數(shù)據(jù)的質(zhì)量管理模式不同于傳統(tǒng)的印刷型資源。大數(shù)據(jù)時(shí)代,數(shù)據(jù)從簡(jiǎn)單的處理對(duì)象轉(zhuǎn)變?yōu)橐环N重要的基礎(chǔ)性資源[14],數(shù)字資源元數(shù)據(jù)數(shù)量巨大,且易發(fā)生變化,也應(yīng)被視為大數(shù)據(jù)資源來(lái)進(jìn)行質(zhì)量管理。數(shù)字資源元數(shù)據(jù)質(zhì)量管理宜采取集中與分散相結(jié)合的管理模式:構(gòu)建單一的元數(shù)據(jù)倉(cāng)儲(chǔ)將各來(lái)源的元數(shù)據(jù)進(jìn)行集中管理;根據(jù)數(shù)據(jù)來(lái)源、資源類(lèi)型及數(shù)據(jù)變化等情況對(duì)各類(lèi)數(shù)據(jù)實(shí)施有差異的管理。
5. 2 管理策略
數(shù)字資源元數(shù)據(jù)質(zhì)量管理活動(dòng)需要對(duì)大量數(shù)據(jù)做批處理操作,元數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)儲(chǔ)后再進(jìn)行批處理則存在著操作風(fēng)險(xiǎn),也給系統(tǒng)帶來(lái)壓力,因此, 元數(shù)據(jù)入庫(kù)前進(jìn)行質(zhì)量管理比入庫(kù)后再進(jìn)行管理要好得多。為了提高質(zhì)量管理效率,應(yīng)盡可能地采取批處理方式,批處理之前需制定明確的、可供實(shí)施的多種類(lèi)型的數(shù)據(jù)處理規(guī)則,如問(wèn)題數(shù)據(jù)過(guò)濾規(guī)則、數(shù)據(jù)合并規(guī)則、重復(fù)數(shù)據(jù)判定規(guī)則及數(shù)據(jù)修改規(guī)則等,再依據(jù)各條規(guī)則實(shí)施批處理操作。
5. 3 多來(lái)源的數(shù)據(jù)
多來(lái)源重復(fù)的元數(shù)據(jù)必須進(jìn)行數(shù)據(jù)的過(guò)濾和去重,再?gòu)母鱽?lái)源數(shù)據(jù)中選擇質(zhì)量最佳的元數(shù)據(jù)作為主記錄,將其它來(lái)源的重復(fù)數(shù)據(jù)中不同于主記錄而有用的部分并入主記錄中,并標(biāo)注數(shù)據(jù)來(lái)源、被各數(shù)據(jù)庫(kù)收錄的情況及在各數(shù)據(jù)庫(kù)中的訪問(wèn)網(wǎng)址。各來(lái)源的數(shù)據(jù)問(wèn)題也應(yīng)與各元數(shù)據(jù)提供商溝通,從源頭處修改元數(shù)據(jù)。
數(shù)字資源元數(shù)據(jù)是揭示和管理數(shù)字資源的重要手段,隨著數(shù)字資源重要性的日漸突出,及數(shù)字資源的不穩(wěn)定性,對(duì)數(shù)字資源元數(shù)據(jù)進(jìn)行科學(xué)的質(zhì)量管理已非常必要。面對(duì)目前元數(shù)據(jù)相關(guān)業(yè)務(wù)系統(tǒng)商難以很好地解決數(shù)字資源元數(shù)據(jù)質(zhì)量問(wèn)題的現(xiàn)狀,圖書(shū)館應(yīng)憑借獨(dú)特的專(zhuān)業(yè)優(yōu)勢(shì)及人力資源配置適時(shí)地承擔(dān)起數(shù)字資源元數(shù)據(jù)質(zhì)量管理的責(zé)任,探索規(guī)范化、系統(tǒng)性的數(shù)字資源元數(shù)據(jù)質(zhì)量管理方案。
(來(lái)稿時(shí)間:2015年3月)
參考文獻(xiàn):
1.楊慧,劉崢.GB/T3792.9—2009《文獻(xiàn)著錄第9部分:數(shù)字資源》應(yīng)用指南.北京:國(guó)家圖書(shū)館出版社,2011:1
2.本館簡(jiǎn)介.[2015-1-15]. http://www.lib.whu.edu.cn/web/index. asp?obj_id=102
3.馮秀珍,陳旎.數(shù)字資源元數(shù)據(jù)的自動(dòng)識(shí)別研究.情報(bào)雜志,2010,29(4):130-133,150
4.李凌杰.特色數(shù)據(jù)庫(kù)建設(shè)中的元數(shù)據(jù)質(zhì)量控制研究.圖書(shū)情報(bào)工作,2010,54(5):43-46
5.黃鶯,李建陽(yáng).元數(shù)據(jù)質(zhì)量評(píng)估方法及模型研究.圖書(shū)館學(xué)研究,2013,12:51-56〔Key words 〕Public library Senior citizen Taiwan public libraries
6.Bruce T R, Diane I H, The continuum of metadata q-uality:defining expressing exploiting // Diane I H. Met-adata in Pratice. Chicago: American Library Association, 2004
7.Muriel Foulonneau and Jenn Riley.Metadata for dig-ital resources:implementation, systems design and inter-operability. Oxford: Chandos,2008:6
8.孫曉菲,韓子靜,曹玉霞等.數(shù)字時(shí)代的元數(shù)據(jù)實(shí)踐.杭州:浙江大學(xué)出版社,2013:16
9.史曉剛,黃鐵軍.電子圖書(shū)元數(shù)據(jù)的自動(dòng)檢查.現(xiàn)代圖書(shū)情報(bào)技術(shù),2005(7):7-10
10.吳顯義.我國(guó)元數(shù)據(jù)研究現(xiàn)狀分析.情報(bào)科學(xué),2004, 2(1):55-58,62
11.李鵬云.基于元數(shù)據(jù)倉(cāng)儲(chǔ)的圖書(shū)館數(shù)據(jù)整合實(shí)踐——以國(guó)家圖書(shū)館“文津搜索”項(xiàng)目為例.圖書(shū)館學(xué)刊,2013(8):46-49
12.王倩,劉金玲.圖書(shū)館聯(lián)盟數(shù)字資源的重疊及互補(bǔ)關(guān)系定量研究——以四川省高校圖書(shū)館為例.圖書(shū)館論壇,2012,32(3):117-121
13.宋敏,覃正.國(guó)外數(shù)據(jù)質(zhì)量管理研究綜述.情報(bào)雜志,2007(2):7-9
14.孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn).計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169
〔分類(lèi)號(hào)〕G250.7
〔作者簡(jiǎn)介〕周強(qiáng)(1974-),男,情報(bào)學(xué)學(xué)士,深圳圖書(shū)館副研究館員,發(fā)表論文10余篇,研究方向:圖書(shū)館業(yè)務(wù)流程及自動(dòng)化集成系統(tǒng)研發(fā)。 程穎(1977-),女,計(jì)算機(jī)應(yīng)用專(zhuān)業(yè)碩士,武漢大學(xué)圖書(shū)館館員,研究方向:元數(shù)據(jù)管理及電子資源整合。
Research and Practice on the Metadata Quality Management of Digital Resources
Cheng Ying
( Wuhan University Library )
〔Abstract 〕Digital resources have been an important information resources for the libraries, and the quality management of digital resources metadata is essential. In this paper, we point the importance of the quality management of digital resources metadata, and analyzes the quality problems and causes, then constructs a quality framework for the quality management of digital resources metadata based on the practice of Wuhan University Library, which including the digital resources metadata lifecycle, four basic influencing elements and metadata quality dimensions, then provides the quality management process and some suggestion accordingly.
〔Key words 〕Digital resources Metadata Data quality Data management Information organization Big data