楊永清 黃畢惠
(四川大學(xué)圖書館,成都 610065)
隨著信息技術(shù)的迅猛發(fā)展和信息環(huán)境的巨大改變,圖書館的文獻(xiàn)資源類型不斷擴(kuò)展,紙本資源、多載體資源、數(shù)據(jù)庫(kù)資源、網(wǎng)絡(luò)資源、開(kāi)放資源等層出不窮,呈現(xiàn)出數(shù)量龐大、來(lái)源多樣、結(jié)構(gòu)各異、種類繁多等特點(diǎn),給用戶快速、準(zhǔn)確地查找和利用資源造成了困擾,也使習(xí)慣于實(shí)體資源組織的圖書館對(duì)數(shù)字環(huán)境下涌現(xiàn)出來(lái)的巨量數(shù)字資源整合深感無(wú)力。大量隱性資源、閑置資源不僅造成資源浪費(fèi),還難以滿足用戶獲取、關(guān)聯(lián)、挖掘、重組文獻(xiàn)資源中蘊(yùn)含的知識(shí)資源的迫切需求。資源發(fā)現(xiàn)和知識(shí)服務(wù)都依賴于海量資源的合理類聚和深度揭示,而此種資源組織方式必須有元數(shù)據(jù)做最基礎(chǔ)的支撐,可以說(shuō),元數(shù)據(jù)是圖書館提供資源獲取和知識(shí)服務(wù)的基礎(chǔ),是圖書館管理和服務(wù)乃至生存與發(fā)展的重要資本?;诖?,文獻(xiàn)元數(shù)據(jù)體系建設(shè)實(shí)踐蓬勃興起,歐洲數(shù)字圖書館于2011年設(shè)計(jì)了《Europeana數(shù)據(jù)模型》[1];2012年美國(guó)數(shù)字公共圖書館提出了《元數(shù)據(jù)應(yīng)用綱要》,2015年更新了強(qiáng)化關(guān)聯(lián)數(shù)據(jù)的MAP4.0版[2];大英圖書館于2015年發(fā)布了《釋放價(jià)值:大英圖書館2015-2018年館藏元數(shù)據(jù)戰(zhàn)略》[3],圖書館界正紛紛加快設(shè)計(jì)和實(shí)施元數(shù)據(jù)建設(shè)規(guī)劃。
元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是描述信息資源或數(shù)據(jù)的一種結(jié)構(gòu)化的數(shù)據(jù)。圖書館元數(shù)據(jù)種類豐富,包含描述元數(shù)據(jù)、語(yǔ)義元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)、管理元數(shù)據(jù)等[4]。文獻(xiàn)元數(shù)據(jù)是圖書館元數(shù)據(jù)的重要組成部分,它是以文獻(xiàn)資源為對(duì)象,用于實(shí)現(xiàn)文獻(xiàn)資源的描述、解釋、定位、存取、發(fā)現(xiàn)、評(píng)估、選擇、關(guān)聯(lián)、挖掘等功能,使文獻(xiàn)資源更易管理、檢索和利用的結(jié)構(gòu)化信息。簡(jiǎn)言之,文獻(xiàn)元數(shù)據(jù)能夠描述文獻(xiàn)資源本身的特征和屬性,支持文獻(xiàn)資源的組織和整合,實(shí)現(xiàn)文獻(xiàn)資源的檢索利用、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)和關(guān)聯(lián)。圖書館文獻(xiàn)元數(shù)據(jù)建設(shè)的目標(biāo),是將海量、多源、異構(gòu)的資源元數(shù)據(jù)通過(guò)規(guī)范整理、分類聚合、組織保存等手段整合在一起,統(tǒng)一實(shí)施元數(shù)據(jù)生命全周期的集中管理和利用,以改進(jìn)元數(shù)據(jù)整合集成效果,釋放隱藏元數(shù)據(jù),提高資源發(fā)現(xiàn)效率,推動(dòng)資源組織向知識(shí)組織轉(zhuǎn)型。
進(jìn)入21世紀(jì),國(guó)外的文獻(xiàn)元數(shù)據(jù)集成研究與實(shí)踐日益蓬勃。在元數(shù)據(jù)戰(zhàn)略規(guī)劃方面,美國(guó)數(shù)字公共圖書館(DPLA)在其元數(shù)據(jù)政策聲明中提出通過(guò)開(kāi)發(fā)和創(chuàng)新元數(shù)據(jù)集成庫(kù)和集成工具,開(kāi)展元數(shù)據(jù)收集、描述、索引、數(shù)據(jù)增強(qiáng)等工作,保障元數(shù)據(jù)的共享與重用[5];大英圖書館在其館藏元數(shù)據(jù)戰(zhàn)略中提出通過(guò)建設(shè)豐富、一致、權(quán)威性、持續(xù)性的元數(shù)據(jù)資源體系,將館藏資源與社會(huì)資源關(guān)聯(lián)起來(lái),提高資源使用效率[3]。在元數(shù)據(jù)體系框架方面,奧地利學(xué)者Ibrahim等[6]設(shè)計(jì)了元數(shù)據(jù)集成體系結(jié)構(gòu)和系統(tǒng)組件;Bansal等[7]提出了用于大數(shù)據(jù)集成的語(yǔ)義提取、轉(zhuǎn)換和加載框架;Lemos等[8]比較分析了多個(gè)網(wǎng)絡(luò)多媒體知識(shí)組織系統(tǒng)及系統(tǒng)框架。在元數(shù)據(jù)標(biāo)準(zhǔn)方面,美國(guó)國(guó)會(huì)圖書館的合作編目計(jì)劃(PCC)致力于元數(shù)據(jù)描述標(biāo)準(zhǔn)的制定、名稱規(guī)范檔和主題規(guī)范檔(主題詞、分類法、敘詞表等)的創(chuàng)建與修訂[9];ProQuest公司的Summon系統(tǒng)制定了統(tǒng)一的元數(shù)據(jù)描述框架,將所有的資源類型映射到Summon統(tǒng)一架構(gòu)下,實(shí)現(xiàn)各種類型資源的同步發(fā)現(xiàn)與揭示[10]。在元數(shù)據(jù)集成建設(shè)實(shí)踐方面,有資源發(fā)現(xiàn)系統(tǒng)商和免費(fèi)共享平臺(tái)兩大主流,以Summon、Primo、EDS為代表的資源發(fā)現(xiàn)系統(tǒng)商,每個(gè)系統(tǒng)內(nèi)集成的各層級(jí)文獻(xiàn)元數(shù)據(jù)規(guī)模均是數(shù)以億計(jì)。免費(fèi)共享平臺(tái)以國(guó)際區(qū)域聯(lián)盟和各國(guó)國(guó)家圖書館的文獻(xiàn)資源集成共享平臺(tái)為代表,歐盟委員會(huì)的Europeana、美國(guó)數(shù)字公共圖書館的DPLA、澳大利亞國(guó)家圖書館的Trove、新西蘭國(guó)家圖書館的DigitalNZ、日本國(guó)立國(guó)會(huì)圖書館的NDL等,這些平臺(tái)制定了元數(shù)據(jù)的模型與標(biāo)準(zhǔn),如Europeana的數(shù)據(jù)模型(EDM)、NDL的國(guó)立國(guó)會(huì)圖書館都柏林核心元數(shù)據(jù)描述(DC-NDL)[11]等,并整合了各自國(guó)家圖書館、博物館、檔案館等文獻(xiàn)機(jī)構(gòu)的數(shù)字資源,為公眾提供文獻(xiàn)資源的廣泛使用和共享。
隨著數(shù)字資源數(shù)量激增,我國(guó)也在積極探索文獻(xiàn)資源整合及文獻(xiàn)元數(shù)據(jù)集成建設(shè),研究?jī)?nèi)容涉及元數(shù)據(jù)整合平臺(tái)、系統(tǒng)架構(gòu)、集成實(shí)踐等多個(gè)層面。在發(fā)現(xiàn)系統(tǒng)資源整合研究方面,竇天芳等[12]在分析資源發(fā)現(xiàn)系統(tǒng)邏輯結(jié)構(gòu)和功能的基礎(chǔ)上,指出元數(shù)據(jù)質(zhì)量及與圖書館集成系統(tǒng)整合方式是資源發(fā)現(xiàn)的關(guān)鍵問(wèn)題,提出圖書館發(fā)展前景是基于海量元數(shù)據(jù)倉(cāng)儲(chǔ)開(kāi)展數(shù)據(jù)驅(qū)動(dòng)的知識(shí)服務(wù);彭佳等[13]基于發(fā)現(xiàn)系統(tǒng)探討構(gòu)建文獻(xiàn)資源深度聚合框架體系,實(shí)現(xiàn)語(yǔ)義層面的文獻(xiàn)組織與整合。在元數(shù)據(jù)集成管理系統(tǒng)研究方面,趙捷等[14]在系統(tǒng)需求分析的基礎(chǔ)上,提出了系統(tǒng)架構(gòu)、系統(tǒng)功能和集成管理流程的設(shè)計(jì)方案;丁遒勁等[15]基于國(guó)外元數(shù)據(jù)集成實(shí)踐經(jīng)驗(yàn),提供了一個(gè)多來(lái)源元數(shù)據(jù)集成組織管理框架,從基礎(chǔ)層、操作層和應(yīng)用層3個(gè)層次探討了多源元數(shù)據(jù)的集成管理方法;丁遒勁等[16]設(shè)計(jì)了文獻(xiàn)元數(shù)據(jù)集成管理框架和管理流程,提出了元數(shù)據(jù)集成管理的推進(jìn)策略;姜恩波等[17]針對(duì)書目元數(shù)據(jù)介紹了一個(gè)集元數(shù)據(jù)檢索、轉(zhuǎn)化和整合功能為一體的開(kāi)源元數(shù)據(jù)管理發(fā)布平臺(tái)。在元數(shù)據(jù)規(guī)范化處理研究方面,趙捷等[14]提出了構(gòu)建規(guī)則庫(kù)和規(guī)范檔來(lái)解決多源異構(gòu)元數(shù)據(jù)的統(tǒng)一規(guī)范方案。在元數(shù)據(jù)建設(shè)實(shí)踐方面,梁蕙瑋等[18]介紹了國(guó)家圖書館元數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的目標(biāo)、流程和元數(shù)據(jù)整合方法。綜上所述,我國(guó)雖然在文獻(xiàn)資源元數(shù)據(jù)的集成管理研究和實(shí)踐方面取得了一定的成果,但在文獻(xiàn)資源元數(shù)據(jù)的多渠道獲取、元數(shù)據(jù)資產(chǎn)管理、元數(shù)據(jù)標(biāo)準(zhǔn)化規(guī)范化建設(shè)、元數(shù)據(jù)大規(guī)模集成建設(shè)和共享應(yīng)用等方面的研究還具有一定的局限性,需要進(jìn)一步研究和探索。
元數(shù)據(jù)是資源發(fā)現(xiàn)和知識(shí)服務(wù)的基礎(chǔ),發(fā)現(xiàn)的機(jī)制是通過(guò)對(duì)文獻(xiàn)資源元數(shù)據(jù)的集成整合,建立元數(shù)據(jù)倉(cāng)儲(chǔ),編制統(tǒng)一的元數(shù)據(jù)預(yù)索引,來(lái)實(shí)現(xiàn)簡(jiǎn)捷高效的資源檢索與服務(wù)。從實(shí)踐效果來(lái)看,當(dāng)前發(fā)現(xiàn)系統(tǒng)檢索出的資源數(shù)量龐大、相關(guān)性不強(qiáng)、檢索精準(zhǔn)度不高、識(shí)別選擇困難,這些現(xiàn)象都與元數(shù)據(jù)的集成管理問(wèn)題密切相關(guān),如元數(shù)據(jù)倉(cāng)儲(chǔ)架構(gòu)、元數(shù)據(jù)質(zhì)量、元數(shù)據(jù)測(cè)評(píng)、元數(shù)據(jù)服務(wù)等[19]。除此之外,筆者認(rèn)為元數(shù)據(jù)集成管理還存在諸多方面的問(wèn)題,如元數(shù)據(jù)統(tǒng)一集成、元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范、元數(shù)據(jù)權(quán)益確立、元數(shù)據(jù)協(xié)同建設(shè)等,這些都是必須加以關(guān)注和解決的問(wèn)題。
圖書館文獻(xiàn)資源可以大致分為實(shí)體資源和數(shù)字資源。長(zhǎng)期以來(lái),對(duì)實(shí)體文獻(xiàn)資源的組織揭示主要是基于編目工作建立MARC書目記錄,通過(guò)圖書館的OPAC系統(tǒng)來(lái)進(jìn)行檢索和利用。經(jīng)過(guò)五十余年的建設(shè)與發(fā)展,全球已經(jīng)積累了數(shù)量豐富的書目記錄,以O(shè)CLC為例,截至2019年9月,OCLC的WorldCat中書目記錄數(shù)量已經(jīng)超過(guò)4.64億條[20]。MARC書目記錄的編制經(jīng)過(guò)數(shù)十年的發(fā)展雖然已經(jīng)具備了規(guī)模效應(yīng)和固定模式,對(duì)實(shí)體資源的計(jì)算機(jī)檢索和利用作出了積極而重大的貢獻(xiàn),但由于其揭示粒度粗、無(wú)法實(shí)現(xiàn)關(guān)聯(lián)開(kāi)放等缺陷也深受詬病。針對(duì)數(shù)字資源而言,目前大型數(shù)據(jù)庫(kù)收錄的數(shù)字資源數(shù)量龐大,其涵蓋的元數(shù)據(jù)數(shù)量均數(shù)以億計(jì),對(duì)數(shù)字資源的組織揭示也主要是通過(guò)商用系統(tǒng)來(lái)實(shí)現(xiàn)。不同系統(tǒng)中的多種資源給用戶一站式查找和獲取文獻(xiàn)造成了障礙;而且,文獻(xiàn)資源的元數(shù)據(jù)格式類型眾多,加之來(lái)源不同、粒度不一、形態(tài)各異,需要通過(guò)元數(shù)據(jù)的融合、聚類和重組,對(duì)圖書館分散的、獨(dú)立存儲(chǔ)于不同系統(tǒng)中的文獻(xiàn)資源元數(shù)據(jù)進(jìn)行大規(guī)模的統(tǒng)一集成整合,構(gòu)建一個(gè)多源異構(gòu)的元數(shù)據(jù)有機(jī)體,在語(yǔ)義層面實(shí)現(xiàn)文獻(xiàn)資源的類聚與重組,達(dá)成對(duì)多源異構(gòu)資源一站式檢索的目標(biāo),將“資源發(fā)現(xiàn)”提升為“知識(shí)發(fā)現(xiàn)”,滿足用戶獲取知識(shí)服務(wù)(如數(shù)據(jù)挖掘、引文分析、科學(xué)數(shù)據(jù)管理、科研前沿預(yù)測(cè)等)的迫切需求。
元數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范與元數(shù)據(jù)建設(shè)質(zhì)量密切相關(guān)。對(duì)于多源異構(gòu)的元數(shù)據(jù)集成不可避免地要面臨元數(shù)據(jù)層次級(jí)別不同、粒度粗細(xì)不均、著錄形式不一、格式和語(yǔ)義沖突等問(wèn)題。以元數(shù)據(jù)層級(jí)為例,傳統(tǒng)的實(shí)體資源元數(shù)據(jù)絕大多數(shù)是書目級(jí)元數(shù)據(jù),而大多數(shù)的數(shù)據(jù)庫(kù)資源元數(shù)據(jù)是篇章級(jí)元數(shù)據(jù),層級(jí)不同導(dǎo)致元數(shù)據(jù)粒度不均。以元數(shù)據(jù)著錄為例,同一作品會(huì)出現(xiàn)多個(gè)題名(如紅樓夢(mèng)、石頭記),同一責(zé)任者也可能有不同的名稱(如魯迅、周樹人),同樣的數(shù)字還會(huì)有不同的表達(dá)形式(如阿拉伯?dāng)?shù)字、羅馬數(shù)字)等。以元數(shù)據(jù)格式為例,有marc、dc、xml等,不同的元數(shù)據(jù)格式帶來(lái)了格式轉(zhuǎn)換和字段映射問(wèn)題。以相同資源元數(shù)據(jù)的唯一性為例,不同來(lái)源的元數(shù)據(jù)中,同一資源由于被多個(gè)數(shù)據(jù)庫(kù)收錄,會(huì)出現(xiàn)多條元數(shù)據(jù),且同一資源的多條元數(shù)據(jù)之間還存在差異,帶來(lái)了元數(shù)據(jù)的判重和歸并問(wèn)題。沒(méi)有統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,將無(wú)法實(shí)現(xiàn)元數(shù)據(jù)的統(tǒng)一描述、規(guī)范標(biāo)引、集成整合和元數(shù)據(jù)互操作。
元數(shù)據(jù)權(quán)益有兩方面的含義,一是指圖書館收集獲取元數(shù)據(jù)的權(quán)利,二是指元數(shù)據(jù)的資產(chǎn)歸屬認(rèn)定。收集獲取元數(shù)據(jù)的權(quán)利主要是針對(duì)商用數(shù)據(jù)庫(kù)資源而言。由于全球數(shù)字出版模式的興起,文獻(xiàn)資源大量以數(shù)字化的形態(tài)出品,數(shù)據(jù)庫(kù)資源正成為圖書館的主力資源。據(jù)全國(guó)高校圖工委統(tǒng)計(jì),許多本科及以上層次高校圖書館的電子資源購(gòu)置費(fèi)比例已經(jīng)接近或達(dá)到圖書館資源建設(shè)總經(jīng)費(fèi)的70%[21]。但圖書館花巨資購(gòu)買的數(shù)據(jù)庫(kù)資源大多數(shù)都只有使用權(quán),而沒(méi)有電子全文的長(zhǎng)期保存權(quán)和擁有權(quán);圖書館引進(jìn)的商用發(fā)現(xiàn)系統(tǒng)也是以系統(tǒng)接口的方式來(lái)提供檢索服務(wù),文獻(xiàn)資源元數(shù)據(jù)并未存儲(chǔ)于圖書館本地系統(tǒng),圖書館對(duì)文獻(xiàn)資源元數(shù)據(jù)缺乏自主權(quán)。圖書館收集數(shù)據(jù)庫(kù)資源元數(shù)據(jù)困難,究其原因是元數(shù)據(jù)具有信息資源增值功能,很多數(shù)據(jù)庫(kù)內(nèi)容提供商為了商業(yè)競(jìng)爭(zhēng)而壟斷元數(shù)據(jù)資源,不愿意將元數(shù)據(jù)提交給圖書館,這種狀況導(dǎo)致圖書館無(wú)法利用海量的基礎(chǔ)元數(shù)據(jù)來(lái)開(kāi)展數(shù)據(jù)挖掘、計(jì)算分析等工作,更談不上知識(shí)發(fā)現(xiàn)與知識(shí)服務(wù)。
元數(shù)據(jù)資產(chǎn)歸屬認(rèn)定是針對(duì)大規(guī)模元數(shù)據(jù)統(tǒng)一集成體系中元數(shù)據(jù)的注冊(cè)機(jī)制而言。該元數(shù)據(jù)體系集合了出版發(fā)行部門、內(nèi)容提供商、圖書情報(bào)機(jī)構(gòu)等跨領(lǐng)域的眾多主體機(jī)構(gòu)的元數(shù)據(jù)。缺乏清晰的元數(shù)據(jù)資產(chǎn)權(quán)屬認(rèn)定,會(huì)對(duì)元數(shù)據(jù)的收割、管理、保存、更新、協(xié)調(diào)共享、館藏資產(chǎn)清點(diǎn)等工作帶來(lái)一系列的負(fù)面影響,也不利于形成聯(lián)盟層面甚至是國(guó)家層面元數(shù)據(jù)大規(guī)模的集成與應(yīng)用。
語(yǔ)義檢索、數(shù)據(jù)挖掘、知識(shí)關(guān)聯(lián)和發(fā)現(xiàn)的實(shí)現(xiàn)必須基于海量元數(shù)據(jù)資源的集成管理,即需要構(gòu)建“大數(shù)據(jù)”化的文獻(xiàn)資源元數(shù)據(jù)體系。目前我國(guó)國(guó)家圖書館和大型的圖書館聯(lián)盟都在積極致力于資源元數(shù)據(jù)體系建設(shè),如國(guó)家圖書館通過(guò)文津搜索系統(tǒng)來(lái)收割公共圖書館的文獻(xiàn)元數(shù)據(jù),并與自建元數(shù)據(jù)和外購(gòu)商用資源元數(shù)據(jù)進(jìn)行整合集成,構(gòu)建大型元數(shù)據(jù)倉(cāng)儲(chǔ)[22];中國(guó)高等教育文獻(xiàn)保障系統(tǒng)(CALIS)通過(guò)e讀學(xué)術(shù)搜索收集了高校成員館提交的免費(fèi)資源、購(gòu)買的商用數(shù)據(jù)資源及合作機(jī)構(gòu)提供的資源,涵蓋期刊、學(xué)位論文、普通圖書、工具書、年鑒、報(bào)紙等資源類型,數(shù)據(jù)量已超過(guò)3億條[23];國(guó)家科技圖書文獻(xiàn)中心(NSTL)除了資源的自主加工以外,還與出版社、內(nèi)容提供商、數(shù)據(jù)庫(kù)代理商等機(jī)構(gòu)開(kāi)展合作集成整合資源,其類型包含圖書、期刊、會(huì)議論文、科技報(bào)告、專利、標(biāo)準(zhǔn)、計(jì)量規(guī)程等。雖然上述大型機(jī)構(gòu)和聯(lián)盟的元數(shù)據(jù)集成整合實(shí)踐卓有成效,但距“大數(shù)據(jù)”級(jí)還相差甚遠(yuǎn),同時(shí)在各跨界領(lǐng)域還沒(méi)有形成統(tǒng)一的資源描述和元數(shù)據(jù)標(biāo)準(zhǔn),還不能實(shí)現(xiàn)元數(shù)據(jù)的共享、復(fù)用和互操作,亟須相關(guān)的上下游行業(yè)和文獻(xiàn)服務(wù)機(jī)構(gòu)開(kāi)展元數(shù)據(jù)的協(xié)同建設(shè)。
數(shù)據(jù)關(guān)聯(lián)和知識(shí)發(fā)現(xiàn)必須以“大數(shù)據(jù)”級(jí)的文獻(xiàn)資源元數(shù)據(jù)體系為基礎(chǔ),僅靠單一圖書館或單個(gè)圖書館聯(lián)盟無(wú)法形成海量的元數(shù)據(jù)資源。達(dá)成資源發(fā)現(xiàn)和知識(shí)服務(wù)的目標(biāo),實(shí)施多主體協(xié)同共建文獻(xiàn)資源元數(shù)據(jù)體系的策略是行之有效的路徑。在元數(shù)據(jù)采集、元數(shù)據(jù)更新、元數(shù)據(jù)管理、新技術(shù)應(yīng)用等方面,圖書館需要與信息產(chǎn)業(yè)鏈上的出版商、內(nèi)容提供商、平臺(tái)構(gòu)建商、其他信息服務(wù)機(jī)構(gòu)開(kāi)展協(xié)同合作,才能滿足終端用戶更深層次的信息服務(wù)需求;而在元數(shù)據(jù)服務(wù)、終端用戶需求收集、館藏特色資源數(shù)字出版、科研成果信息獲取等方面,信息產(chǎn)業(yè)鏈的上下游機(jī)構(gòu)需要與作為信息傳播中介的圖書館協(xié)同合作,才能促使自己的可持續(xù)發(fā)展。因此,文獻(xiàn)元數(shù)據(jù)集成體系建設(shè)與上述產(chǎn)業(yè)鏈上的多個(gè)主體相關(guān),多主體、多來(lái)源、多類型的異構(gòu)資源元數(shù)據(jù)整合成“大數(shù)據(jù)”級(jí)的文獻(xiàn)資源元數(shù)據(jù)體系,采用多主體協(xié)同共建模式既可實(shí)現(xiàn)多方共贏,又能滿足用戶所需。多主體協(xié)同共建的重點(diǎn)內(nèi)容有三方面,一是元數(shù)據(jù)的統(tǒng)一集成,二是元數(shù)據(jù)的標(biāo)準(zhǔn)制定,三是元數(shù)據(jù)的資產(chǎn)注冊(cè)。應(yīng)該以此為突破口,加強(qiáng)元數(shù)據(jù)的統(tǒng)一集成、細(xì)粒度加工和語(yǔ)義關(guān)聯(lián),強(qiáng)化文獻(xiàn)元數(shù)據(jù)的集成管理,破解元數(shù)據(jù)建設(shè)中遭遇的各種難題。
元數(shù)據(jù)統(tǒng)一集成的實(shí)質(zhì)就是將分散在相對(duì)獨(dú)立的各個(gè)系統(tǒng)和平臺(tái)中的各類型元數(shù)據(jù)進(jìn)行融合、聚類和重組,形成一個(gè)統(tǒng)一、高效、開(kāi)放的元數(shù)據(jù)有機(jī)體系。文獻(xiàn)資源元數(shù)據(jù)集成體系的建設(shè)涉及元數(shù)據(jù)收集、處理、集成組織、服務(wù)應(yīng)用等多個(gè)層面(見(jiàn)圖1)。建立元數(shù)據(jù)采集、處理、整合流程,針對(duì)多源異構(gòu)元數(shù)據(jù)制定統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),實(shí)現(xiàn)元數(shù)據(jù)的統(tǒng)一規(guī)范和互操作,支持元數(shù)據(jù)的共享和復(fù)用;在對(duì)描述型元數(shù)據(jù)進(jìn)行整合的同時(shí),也需要對(duì)語(yǔ)義元數(shù)據(jù)進(jìn)行規(guī)范整合,揭示元數(shù)據(jù)所表達(dá)的各類實(shí)體之間、實(shí)體與屬性之間的關(guān)系,并利用元數(shù)據(jù)屬性進(jìn)行聚類重組,統(tǒng)一整合分散于各個(gè)系統(tǒng)之中的元數(shù)據(jù),構(gòu)建細(xì)粒度、語(yǔ)義豐富的知識(shí)網(wǎng)絡(luò)體系,便于計(jì)算機(jī)對(duì)文本內(nèi)容的理解和對(duì)語(yǔ)義內(nèi)容的計(jì)算,實(shí)現(xiàn)文獻(xiàn)檢索服務(wù)向真正意義上的知識(shí)服務(wù)的轉(zhuǎn)型。
4.1.1 元數(shù)據(jù)收集
圖書館文獻(xiàn)資源由館藏實(shí)體資源、館藏?cái)?shù)字資源(外購(gòu)和自建)、共享聯(lián)盟資源、其他領(lǐng)域文獻(xiàn)機(jī)構(gòu)資源和互聯(lián)網(wǎng)資源等構(gòu)成。因此,文獻(xiàn)資源元數(shù)據(jù)包含書目元數(shù)據(jù)、商用數(shù)字資源元數(shù)據(jù)、自建數(shù)字資源元數(shù)據(jù)、聯(lián)盟資源元數(shù)據(jù)、其他機(jī)構(gòu)資源元數(shù)據(jù)和網(wǎng)絡(luò)資源元數(shù)據(jù)等,涵蓋母級(jí)元數(shù)據(jù)、卷期元數(shù)據(jù)、篇章級(jí)元數(shù)據(jù)等多層級(jí)元數(shù)據(jù)。
對(duì)上述元數(shù)據(jù)進(jìn)行收集,應(yīng)明確各類型文獻(xiàn)資源元數(shù)據(jù)的來(lái)源:①書目元數(shù)據(jù),存儲(chǔ)于圖書館本地的自動(dòng)化管理系統(tǒng)中,是圖書館最傳統(tǒng)最基礎(chǔ)的元數(shù)據(jù),是圖書館數(shù)十年編目工作積累的成果,包含館藏圖書、期刊、音像制品等物理資源的編目數(shù)據(jù);②商用數(shù)字資源元數(shù)據(jù),來(lái)源于圖書館外購(gòu)的數(shù)據(jù)庫(kù)資源,需要圖書館與數(shù)據(jù)庫(kù)商、數(shù)據(jù)庫(kù)代理商或資源內(nèi)容提供商進(jìn)行協(xié)商,簽訂元數(shù)據(jù)收割協(xié)議,按協(xié)議規(guī)定的方式(如FTP、OAI、API、HTTP等)開(kāi)展元數(shù)據(jù)的采集;③自建數(shù)字資源元數(shù)據(jù),是圖書館根據(jù)學(xué)校教學(xué)科研發(fā)展和圖書館服務(wù)需要自行建設(shè)的特色資源數(shù)據(jù)庫(kù),圖書館擁有該類元數(shù)據(jù)的自主權(quán);④聯(lián)盟元數(shù)據(jù),是圖書館參與合作共建共享的資源元數(shù)據(jù),需要遵循聯(lián)盟共同達(dá)成的一致性協(xié)議,采用OAI-PMH等標(biāo)準(zhǔn)訪問(wèn)接口方式來(lái)采集元數(shù)據(jù);⑤網(wǎng)絡(luò)資源元數(shù)據(jù),包括各類免費(fèi)資源和開(kāi)放獲取資源元數(shù)據(jù),可以采用搜索引擎等方式來(lái)對(duì)相關(guān)資源元數(shù)據(jù)進(jìn)行收集。
4.1.2 元數(shù)據(jù)處理
圖1 文獻(xiàn)元數(shù)據(jù)集成架構(gòu)
對(duì)元數(shù)據(jù)進(jìn)行處理是構(gòu)建多元化異構(gòu)元數(shù)據(jù)統(tǒng)一集成體系必不可少的環(huán)節(jié)。元數(shù)據(jù)處理包含如下內(nèi)容。①元數(shù)據(jù)分析。對(duì)各類型元數(shù)據(jù)進(jìn)行結(jié)構(gòu)分析和屬性分析,了解元數(shù)據(jù)的內(nèi)容結(jié)構(gòu)、句法結(jié)構(gòu)、語(yǔ)義結(jié)構(gòu)及其屬性關(guān)系。②異構(gòu)數(shù)據(jù)同構(gòu)化。首先對(duì)來(lái)自不同系統(tǒng)、不同類型的數(shù)字資源定義各自一致的元數(shù)據(jù)結(jié)構(gòu);其次設(shè)計(jì)異構(gòu)數(shù)據(jù)的相互映射機(jī)制,通過(guò)數(shù)據(jù)轉(zhuǎn)換消除數(shù)據(jù)結(jié)構(gòu)差異;再次梳理不同類型元數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,如書目母體元數(shù)據(jù)與其目次元數(shù)據(jù)的關(guān)系、實(shí)體資源元數(shù)據(jù)與同種數(shù)字資源元數(shù)據(jù)的關(guān)系、描述型元數(shù)據(jù)與規(guī)范元數(shù)據(jù)的關(guān)系等。③元數(shù)據(jù)查重歸并。不同系統(tǒng)中針對(duì)同一文獻(xiàn)資源可能存在多個(gè)重復(fù)的元數(shù)據(jù),由于元數(shù)據(jù)制作機(jī)構(gòu)標(biāo)準(zhǔn)不統(tǒng)一,重復(fù)的元數(shù)據(jù)之間還有可能存在差異,首先要發(fā)現(xiàn)和確認(rèn)重復(fù)數(shù)據(jù),制定不同類型元數(shù)據(jù)的查重策略,設(shè)計(jì)查重匹配規(guī)則,再對(duì)不同層級(jí)的各類型元數(shù)據(jù)進(jìn)行機(jī)器自動(dòng)比對(duì),對(duì)重復(fù)冗余的元數(shù)據(jù)進(jìn)行修改、剔除和合并,以實(shí)現(xiàn)來(lái)自不同系統(tǒng)的相同元數(shù)據(jù)整合揭示的唯一性,提高文獻(xiàn)資源發(fā)現(xiàn)的效率。
4.1.3 元數(shù)據(jù)整合
文獻(xiàn)資源元數(shù)據(jù)來(lái)自不同機(jī)構(gòu)的不同數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)的元數(shù)據(jù)字段定義各不相同,采用的資源描述標(biāo)準(zhǔn)也存在差異。這就要求對(duì)元數(shù)據(jù)字段進(jìn)行準(zhǔn)確的分析、確認(rèn)和匹配。制定元數(shù)據(jù)字段匹配策略時(shí),要注重字段的完整性、規(guī)范性、唯一性和語(yǔ)義明確性。
梳理元數(shù)據(jù)表達(dá)的各種實(shí)體及實(shí)體之間的相互關(guān)系,是元數(shù)據(jù)整合的重要一環(huán)。文獻(xiàn)資源中包含多種實(shí)體,既可以是具體的人、事、物,也可以是抽象的概念或關(guān)系,如人名、地名、機(jī)構(gòu)、事件、概念、公理、生成方式、相互關(guān)系等。分析元數(shù)據(jù)實(shí)體及其關(guān)系,制定元數(shù)據(jù)實(shí)體抽取策略,建立實(shí)體名稱規(guī)范化規(guī)則,并通過(guò)實(shí)體消歧解決數(shù)據(jù)沖突和語(yǔ)義沖突,實(shí)現(xiàn)元數(shù)據(jù)實(shí)體融合。
元數(shù)據(jù)整合時(shí)應(yīng)對(duì)元數(shù)據(jù)的多種形式分別進(jìn)行整合,如對(duì)同種資源的不同載體形式進(jìn)行整合,對(duì)同種資源的不同版本形式進(jìn)行整合,對(duì)同種資源的不同語(yǔ)種形式進(jìn)行整合等。還應(yīng)根據(jù)元數(shù)據(jù)的類型和層次,對(duì)元數(shù)據(jù)進(jìn)行分層級(jí)整合。在對(duì)描述型元數(shù)據(jù)進(jìn)行整合的同時(shí),還要注重對(duì)知識(shí)元數(shù)據(jù)的整合,注意采用分類法、詞表、領(lǐng)域詞典、本體、語(yǔ)義網(wǎng)絡(luò)等知識(shí)組織工具與規(guī)范文檔進(jìn)行知識(shí)標(biāo)引和知識(shí)加工,建立知識(shí)關(guān)系體系,實(shí)現(xiàn)知識(shí)實(shí)體的識(shí)別、深層次聚合和知識(shí)關(guān)系網(wǎng)絡(luò)的構(gòu)建。
元數(shù)據(jù)標(biāo)準(zhǔn)體系的建設(shè)是圖書館數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的重要組成部分。由于文獻(xiàn)資源元數(shù)據(jù)情況復(fù)雜,既有實(shí)體資源的書目級(jí)元數(shù)據(jù),又有數(shù)字資源的篇章級(jí)元數(shù)據(jù);既有圖書館自建元數(shù)據(jù),又有其他來(lái)源元數(shù)據(jù),因此在開(kāi)展元數(shù)據(jù)標(biāo)準(zhǔn)體系建設(shè)時(shí),要充分考慮各種復(fù)雜情況,按照統(tǒng)一的標(biāo)準(zhǔn)來(lái)開(kāi)展實(shí)體資源和數(shù)字資源的統(tǒng)一集成管理。元數(shù)據(jù)標(biāo)準(zhǔn)體系的建設(shè)涉及標(biāo)準(zhǔn)、規(guī)范和規(guī)則的建立,大致可分為結(jié)構(gòu)標(biāo)準(zhǔn)、內(nèi)容標(biāo)準(zhǔn)、取值標(biāo)準(zhǔn)和交換標(biāo)準(zhǔn)[24]。①結(jié)構(gòu)標(biāo)準(zhǔn)。元數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)定義元數(shù)據(jù)格式,如MARC、DC、BIBFRAME、CDF等。②內(nèi)容標(biāo)準(zhǔn)。元數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)描述元數(shù)據(jù)元素選取、著錄和構(gòu)成規(guī)劃,如ISBD、RDA等。③取值標(biāo)準(zhǔn)。元數(shù)據(jù)取值標(biāo)準(zhǔn)確定元數(shù)據(jù)詞表和標(biāo)引詞的選取,如分類法、主題詞表、名稱規(guī)范檔等。④交換標(biāo)準(zhǔn)。元數(shù)據(jù)交換標(biāo)準(zhǔn)(編碼標(biāo)準(zhǔn))記錄元數(shù)據(jù)的存儲(chǔ)和交換,如MARC(2709格式)、XML等。
不同類型的資源元數(shù)據(jù)有不同的元數(shù)據(jù)標(biāo)準(zhǔn),同種類型的資源元數(shù)據(jù)來(lái)源于不同的機(jī)構(gòu)也可能有不同的元數(shù)據(jù)標(biāo)準(zhǔn),因此廣泛收集的底層元數(shù)據(jù)不可避免地存在元數(shù)據(jù)沖突和差異。為了屏蔽元數(shù)據(jù)沖突,需建立統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)體系,結(jié)合目標(biāo)任務(wù),兼顧不同元數(shù)據(jù)的多項(xiàng)特征,通過(guò)選用國(guó)際上成熟的各類型元數(shù)據(jù)標(biāo)準(zhǔn)或自制元數(shù)據(jù)標(biāo)準(zhǔn),設(shè)計(jì)能兼容各類型、各領(lǐng)域元數(shù)據(jù)特點(diǎn)的元數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)規(guī)范體系;并以統(tǒng)一標(biāo)準(zhǔn)體系為藍(lán)本,開(kāi)展原生元數(shù)據(jù)的生產(chǎn)(自建元數(shù)據(jù)),或建立外來(lái)元數(shù)據(jù)標(biāo)準(zhǔn)與統(tǒng)一標(biāo)準(zhǔn)體系的映射關(guān)系,通過(guò)映射轉(zhuǎn)換,使文獻(xiàn)元數(shù)據(jù)體系建立于統(tǒng)一的標(biāo)準(zhǔn)之上,實(shí)現(xiàn)各類型元數(shù)據(jù)的統(tǒng)一管理,提高資源發(fā)現(xiàn)效率,延伸和深化知識(shí)服務(wù)。
4.3.1 外購(gòu)數(shù)字資源元數(shù)據(jù)采集
沒(méi)有文獻(xiàn)資源元數(shù)據(jù)做支撐,無(wú)法實(shí)現(xiàn)基于海量元數(shù)據(jù)體系的數(shù)據(jù)挖掘、數(shù)據(jù)分析、知識(shí)服務(wù)等功能,這凸顯了元數(shù)據(jù)采集工作的重要性。圖書館重金外購(gòu)的商用數(shù)據(jù)庫(kù)資源,其文獻(xiàn)元數(shù)據(jù)掌握在數(shù)據(jù)庫(kù)商手中。面對(duì)元數(shù)據(jù)采集困境,圖書館應(yīng)大膽主張?jiān)獢?shù)據(jù)權(quán)益,與數(shù)據(jù)庫(kù)商開(kāi)展談判溝通,從互利互惠的角度平衡雙方訴求,簽訂元數(shù)據(jù)收集與利用協(xié)議。協(xié)議涉及元數(shù)據(jù)收割、保存、更新、使用、開(kāi)發(fā)等各個(gè)方面,如元數(shù)據(jù)提供條件(免費(fèi)提供還是少量付費(fèi))、元數(shù)據(jù)提交方式(如OAI、API、FTP、HTTP等)、元數(shù)據(jù)更新周期、元數(shù)據(jù)質(zhì)量要求、元數(shù)據(jù)使用范圍、元數(shù)據(jù)開(kāi)發(fā)許可等。該協(xié)議對(duì)元數(shù)據(jù)的知識(shí)產(chǎn)權(quán)、涉及費(fèi)用、雙方權(quán)利與義務(wù)等都應(yīng)有明確的約定,以避免后續(xù)糾紛給各自帶來(lái)不利的影響。同時(shí),應(yīng)注重對(duì)多種類型文獻(xiàn)資源的元數(shù)據(jù)收集,不僅注重對(duì)常規(guī)的圖書、期刊等資源元數(shù)據(jù)的收集,還要重視對(duì)多介質(zhì)資源和特藏資源元數(shù)據(jù)的收集,如音頻、視頻、縮微資料、科學(xué)報(bào)告、科研數(shù)據(jù)、課件資料、圖像資料、動(dòng)漫資料等,以支持特色資源的整合,滿足各種個(gè)性化的需求。
4.3.2 元數(shù)據(jù)資產(chǎn)注冊(cè)
在基于“大數(shù)據(jù)”級(jí)別的大規(guī)模元數(shù)據(jù)統(tǒng)一集成體系中,文獻(xiàn)資源元數(shù)據(jù)來(lái)源于不同領(lǐng)域的不同機(jī)構(gòu),數(shù)據(jù)分布廣泛,體量巨大。通過(guò)元數(shù)據(jù)資產(chǎn)注冊(cè),可以了解元數(shù)據(jù)的資產(chǎn)歸屬和分布情況,記錄元數(shù)據(jù)的版權(quán)屬性,登記元數(shù)據(jù)所屬機(jī)構(gòu),揭示元數(shù)據(jù)的使用范圍和使用對(duì)象。元數(shù)據(jù)資產(chǎn)注冊(cè)的內(nèi)容包含元數(shù)據(jù)名稱、存儲(chǔ)類型、數(shù)據(jù)對(duì)象、數(shù)據(jù)業(yè)務(wù)規(guī)則、數(shù)據(jù)管理機(jī)構(gòu)、數(shù)據(jù)館藏屬性(如數(shù)據(jù)來(lái)源、數(shù)據(jù)URL、數(shù)據(jù)存放位置)等(見(jiàn)圖2)。元數(shù)據(jù)資產(chǎn)注冊(cè)可以推動(dòng)元數(shù)據(jù)的共享利用,分清元數(shù)據(jù)的權(quán)屬關(guān)系,有利于元數(shù)據(jù)的管理、更新和協(xié)調(diào)使用,保障不同行業(yè)、不同機(jī)構(gòu)協(xié)同建設(shè)的文獻(xiàn)資源元數(shù)據(jù)集成體系平穩(wěn)、持續(xù)地運(yùn)行。
圖2 文獻(xiàn)元數(shù)據(jù)注冊(cè)示意圖
元數(shù)據(jù)協(xié)同建設(shè)是元數(shù)據(jù)共享復(fù)用的基礎(chǔ)。多主體元數(shù)據(jù)協(xié)同建設(shè)首先要做好頂層設(shè)計(jì),制定跨界協(xié)同發(fā)展戰(zhàn)略,建立長(zhǎng)效合作機(jī)制,打造元數(shù)據(jù)協(xié)同建設(shè)與服務(wù)平臺(tái);要制定管理制度,爭(zhēng)取政策支持,針對(duì)涉及的工作環(huán)節(jié)建立多個(gè)研究工作小組,保障平穩(wěn)運(yùn)行,實(shí)現(xiàn)多方共贏,確保元數(shù)據(jù)建設(shè)協(xié)同模式不斷創(chuàng)新與發(fā)展。其次,要認(rèn)真研討元數(shù)據(jù)協(xié)同建設(shè)內(nèi)容,注重商用資源、網(wǎng)絡(luò)資源、開(kāi)放資源、圖書館機(jī)構(gòu)知識(shí)庫(kù)等多源元數(shù)據(jù)的收集渠道,重視元數(shù)據(jù)注冊(cè)與管理,研究元數(shù)據(jù)查重、匹配、映射、轉(zhuǎn)換機(jī)制。再次,要積極開(kāi)展元數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)的制定,充分考慮各方原有標(biāo)準(zhǔn)之間的差異,建立多方原有標(biāo)準(zhǔn)與統(tǒng)一標(biāo)準(zhǔn)的映射關(guān)系,設(shè)計(jì)能兼容多方標(biāo)準(zhǔn)特點(diǎn)的元數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)體系。然后,要積極開(kāi)展文獻(xiàn)資源長(zhǎng)期保存合作,與出版商、數(shù)據(jù)庫(kù)商簽署多方協(xié)議,在全國(guó)范圍內(nèi)通過(guò)協(xié)同合作建立數(shù)字資源長(zhǎng)期保存機(jī)制,保障數(shù)字資源的長(zhǎng)期使用需求。最后,要強(qiáng)化元數(shù)據(jù)協(xié)同建設(shè)與服務(wù)平臺(tái)功能,使其不僅是文獻(xiàn)提供、資源評(píng)估、知識(shí)服務(wù)等圖書館精細(xì)化服務(wù)的平臺(tái),還是出版商、數(shù)據(jù)庫(kù)商開(kāi)展商業(yè)活動(dòng)需要的資源展示推廣平臺(tái)以及用戶需求信息和個(gè)性化出版信息征集平臺(tái)??傊?,兼顧多方需求,開(kāi)展協(xié)同共建,實(shí)現(xiàn)攜手共贏,達(dá)成元數(shù)據(jù)協(xié)同建設(shè)目標(biāo)是未來(lái)大勢(shì)所趨和時(shí)代發(fā)展所向。
在數(shù)字資源占據(jù)主導(dǎo)地位的今天,沿用舊的文獻(xiàn)資源整合模式已無(wú)法適應(yīng)資源發(fā)現(xiàn)和知識(shí)服務(wù)的需求,亟須圖書館融入開(kāi)放互聯(lián)環(huán)境,參與大數(shù)據(jù)發(fā)展戰(zhàn)略,重構(gòu)資源組織模式,建立文獻(xiàn)元數(shù)據(jù)體系,細(xì)粒度地深入揭示文獻(xiàn)資源的外部形態(tài)、內(nèi)容特征以及相互之間的關(guān)聯(lián)關(guān)系。通過(guò)不同層級(jí)文獻(xiàn)元數(shù)據(jù)集成建設(shè),運(yùn)用各類詞表、分類法、規(guī)范文檔等知識(shí)組織工具,對(duì)文獻(xiàn)單元以及知識(shí)單元進(jìn)行結(jié)構(gòu)化、系統(tǒng)化、關(guān)聯(lián)化處理,實(shí)現(xiàn)海量、多源、異構(gòu)文獻(xiàn)元數(shù)據(jù)的統(tǒng)一集成;主張?jiān)獢?shù)據(jù)權(quán)益,推動(dòng)元數(shù)據(jù)注冊(cè);制定統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,解決多源元數(shù)據(jù)的格式?jīng)_突和語(yǔ)義沖突;打造元數(shù)據(jù)識(shí)別與關(guān)聯(lián)體系,主動(dòng)融入社會(huì)資源的大數(shù)據(jù)環(huán)境,全面釋放館藏資源價(jià)值;建立基于信息產(chǎn)業(yè)生態(tài)鏈的跨界元數(shù)據(jù)合作建設(shè)與服務(wù)機(jī)制,共同構(gòu)建國(guó)家層面的大規(guī)模元數(shù)據(jù)集成體系,更好地適應(yīng)基于開(kāi)放互聯(lián)環(huán)境的細(xì)粒度知識(shí)組織,以達(dá)成資源發(fā)現(xiàn)、數(shù)據(jù)挖掘和知識(shí)服務(wù)的目標(biāo)。