馬袁燕
(中國科學(xué)技術(shù)信息研究所 北京 100038)
云計算快速發(fā)展環(huán)境下,圖書館館藏由印刷型資源為主轉(zhuǎn)變?yōu)閿?shù)字資源為主,文獻加工深度由目錄精細(xì)到圖表章節(jié)的層級,顆粒度越來越細(xì)。圖書館資源揭示功能的實現(xiàn)手段由OPAC轉(zhuǎn)為發(fā)現(xiàn)系統(tǒng),系統(tǒng)功能由單一目錄檢索轉(zhuǎn)變?yōu)樨S富發(fā)現(xiàn)獲取,且揭示層級越來越豐富。其中,元數(shù)據(jù)與實現(xiàn)發(fā)現(xiàn)系統(tǒng)的資源整合、資源檢索、資源管理、資源定位、挖掘與分析等多個方面緊密相關(guān),也是圖書館在發(fā)現(xiàn)系統(tǒng)的調(diào)研、測評、實施到調(diào)整各個階段都不可回避的元素[1]。元數(shù)據(jù)種類多樣,按照來源可以分為在藏品建立或數(shù)字化時產(chǎn)生的內(nèi)部元數(shù)據(jù)和在藏品建立或數(shù)字化之后才產(chǎn)生的外部元數(shù)據(jù);按作用可將元數(shù)據(jù)劃分為管理元數(shù)據(jù)和用戶元數(shù)據(jù)兩大類;從數(shù)字信息資源組織與管理的角度,可按照功能劃分為管理型元數(shù)據(jù)、描述型元數(shù)據(jù)、保存型元數(shù)據(jù)、技術(shù)型元數(shù)據(jù)和使用型元數(shù)據(jù)[2]。文獻元數(shù)據(jù)作為描述型元數(shù)據(jù)可以幫助用戶快速精確地檢索所需要的資源,有利于圖書館管理和維護文獻資源。文獻元數(shù)據(jù)是資源發(fā)現(xiàn)系統(tǒng)的底層數(shù)據(jù)基礎(chǔ),其類型、形式、來源渠道多樣,具有數(shù)量大、生命周期短暫、網(wǎng)絡(luò)存儲分散、類型格式復(fù)雜、資源組織異構(gòu)、粒度層級復(fù)雜等特點[3],因此對規(guī)范化、科學(xué)性的文獻元數(shù)據(jù)進行研究非常必要。
元數(shù)據(jù)是數(shù)據(jù)的數(shù)據(jù),描述數(shù)據(jù)的數(shù)據(jù)。文獻元數(shù)據(jù)[4]即對文獻信息資源進行結(jié)構(gòu)化描述、定位和指示的數(shù)據(jù),它能幫助用戶更快更精確地檢索到所需文獻,也有利于圖書館管理和維護文獻信息資源。元數(shù)據(jù)的多源異構(gòu)性決定了對其進行統(tǒng)一表示與描述的必要性。為了給資源發(fā)現(xiàn)系統(tǒng)提供強有力的支撐,我們必須將不同來源的元數(shù)據(jù)通過轉(zhuǎn)換映射形成統(tǒng)一的元數(shù)據(jù)描述框架,且轉(zhuǎn)換過程中要盡量減少信息損失的發(fā)生。
公益性文獻服務(wù)機構(gòu)Trove發(fā)現(xiàn)系統(tǒng)目前使用的各種元數(shù)據(jù)模式主要包括都柏林核心元素集。Trove系統(tǒng)的都柏林核心元素集包括創(chuàng)作者、日期、唯一標(biāo)識等元素[5]。Europeana根據(jù)其自身數(shù)據(jù)特點,基于DC設(shè)計了ESE(可擴展存儲引擎)元數(shù)據(jù)方案,并參照METS(元數(shù)據(jù)編碼和傳輸標(biāo)準(zhǔn))和RDF(資源描述框架),在保留原有ESE核心元素基礎(chǔ)上設(shè)計開放跨領(lǐng)域的Europeana 數(shù)據(jù)模型。此數(shù)據(jù)模型可與多種元數(shù)據(jù)模式建立關(guān)聯(lián),為元數(shù)據(jù)實現(xiàn)語義層面互操作提供可能。
日本國立國會圖書館制定了“NDL都柏林核心元數(shù)據(jù)描述(DC-NDL)”。DC-NDL由三部分組成:第一部分是“NDL元數(shù)據(jù)術(shù)語”,包括日本國立國會圖書館描述的元數(shù)據(jù)術(shù)語列表;第二部分是“應(yīng)用程序配置文件”,指定日本國立國會圖書館元數(shù)據(jù)中每個組件(屬性、類和編碼方案)的用法,其中包含用于描述RDF/XML格式的每個組件的示例;第三部分是“RDF Schema”,是日本國立國會圖書館元數(shù)據(jù)條款的資源描述格式(RDF)版本[6],除了基本的信息描述外,語義化趨勢在統(tǒng)一的資源描述工作中也逐漸顯現(xiàn)。
開放資源集成平臺PubMed Central(PMC)支持NLM日志和交換XML格式與都柏林格式。國家生物技術(shù)信息中心(NCBI)和國家醫(yī)學(xué)圖書館(NLM)創(chuàng)造了一套日志歸檔和交換標(biāo)簽套件,用于與出版商進行通用格式的日志內(nèi)容交換。該套件提供了一組XML模式模塊,用于定義所描述期刊文章的文本和圖形內(nèi)容的元素、屬性,以及一些非文章材料,如字母,書籍和產(chǎn)品評論[7]。國家圖書館“文津搜索”支持多種元數(shù)據(jù)標(biāo)準(zhǔn),包括MARC、DC、XML、MDB、XLSX以及MDF,它對各類數(shù)據(jù)進行清理和解析,并將所有元數(shù)據(jù)字段都映射到“文津搜索”定義的統(tǒng)一的XML格式上[8]。
資源發(fā)現(xiàn)服務(wù)是一種“大數(shù)據(jù)”規(guī)模的元數(shù)據(jù)搜索服務(wù),通過支持圖書館自動化系統(tǒng),實現(xiàn)數(shù)據(jù)融合與語義檢索服務(wù)、跨機構(gòu)元數(shù)據(jù)的開放與復(fù)用和分布異構(gòu)系統(tǒng)的關(guān)聯(lián)訪問[9]。資源發(fā)現(xiàn)系統(tǒng)致力于從圖書館、互聯(lián)網(wǎng)、出版商和內(nèi)容提供商處獲得元數(shù)據(jù),以建立元數(shù)據(jù)倉儲系統(tǒng),利用抽取、映射、規(guī)范、融合等智能化手段對數(shù)據(jù)進行全面聚合和深度組織,從而為用戶提供簡單的一站式檢索服務(wù)[10-11]。本文通過對資源發(fā)現(xiàn)系統(tǒng)的調(diào)研,從元數(shù)據(jù)獲取及整合方法兩個方面分述發(fā)現(xiàn)系統(tǒng)中的元數(shù)據(jù)集成整合實踐。
在元數(shù)據(jù)獲取方面,國外主要是通過主動與元數(shù)據(jù)生產(chǎn)方談判簽約獲取,部分依靠資源服務(wù)方的主動授權(quán)與上傳。商業(yè)發(fā)現(xiàn)系統(tǒng)以Proquest Summon系統(tǒng)為例,元數(shù)據(jù)只通過簽約廠商的途徑獲取,取消第三方元數(shù)據(jù),從而保證了數(shù)據(jù)質(zhì)量。Primo、EDS同Summon系統(tǒng)均采用與各資源提供商簽訂協(xié)議的方式獲取元數(shù)據(jù)。與商業(yè)發(fā)現(xiàn)系統(tǒng)不同,國外一些公益性元數(shù)據(jù)集成平臺主要采取合作共享的方式收集和獲取元數(shù)據(jù)。澳大利亞圖書館Trove系統(tǒng)作為合作共享式的典型范例,通過社區(qū)組建和社區(qū)聚合,形成了一個規(guī)模不斷擴大的全文數(shù)字資源庫,接受來自數(shù)百個文化機構(gòu)的元數(shù)據(jù)資源[12]。澳大利亞國家圖書館在與電子資源數(shù)據(jù)庫商Gale和RMIT合作的同時,會在Trove中共享電子資源內(nèi)容,并采取API、爬蟲、FTP或HTTP等方式獲取元數(shù)據(jù)。Europeana利用聚合器網(wǎng)絡(luò)可以在機構(gòu)間交換元數(shù)據(jù),機構(gòu)將數(shù)據(jù)提交到一個聚合器(項目或組織),數(shù)據(jù)經(jīng)過處理后被提供給Europeana。
表1 國內(nèi)外主要發(fā)現(xiàn)系統(tǒng)元數(shù)據(jù)集成管理概況
DOAJ(開放存取期刊目錄)作為典型的開放資源集成平臺,其元數(shù)據(jù)資源獲取方式與其他平臺不一樣,要求出版商將元數(shù)據(jù)上傳到DOAJ的網(wǎng)站而非主動去期刊出版商網(wǎng)站抓取文獻元數(shù)據(jù)。DOAJ文獻元數(shù)據(jù)采用CCBY-SA4.0的版權(quán)限制方式向外傳播,允許自由地對文獻進行共享、修改、轉(zhuǎn)換或者以本作品為基礎(chǔ)進行創(chuàng)作甚至開展商業(yè)行為[13]。目前國內(nèi)對于海量外文文獻資源元數(shù)據(jù)的獲取收集還處于起步階段,國家圖書館通過建設(shè)“文津搜索”集成了約2億條文獻元數(shù)據(jù),國家科技圖書文獻中心也通過自主加工、談判引進等模式共獲取2.5億多條文獻元數(shù)據(jù)。
在元數(shù)據(jù)整合方法上,元數(shù)據(jù)集成管理流程主要分為解析、映射、查重合并及更新維護。Europeana對收集到的元數(shù)據(jù)采用RDF轉(zhuǎn)換存儲,以便在語義環(huán)境中通過關(guān)聯(lián)數(shù)據(jù)對其進行有效揭示,提高資源可用性,并為歐洲的數(shù)字資源門戶網(wǎng)站和搜索引擎提供支撐。OCLC利用SRU服務(wù)為VIAF(虛擬國際規(guī)范文檔)項目提供來自14個國家圖書館的關(guān)聯(lián)數(shù)據(jù),通過匹配和關(guān)聯(lián)整合這些不同語言國家圖書館的規(guī)范文檔,提高了資源利用率。Proquest Summon需要對100多種不同資源類型的數(shù)據(jù)進行處理歸類,其發(fā)現(xiàn)服務(wù)匯集了不同類別的元數(shù)據(jù)和多個來源的完整文本。Summon利用其獨有的匹配和合并技術(shù)整合了包含學(xué)科專業(yè)詞匯的元數(shù)據(jù)資源,在可用條件下創(chuàng)建描述全文內(nèi)容的記錄。所有的資源類型都被映射到Proquest Summon統(tǒng)一的結(jié)構(gòu)框架下,從而實現(xiàn)同步平等地發(fā)現(xiàn)和揭示[14]。在傳統(tǒng)元數(shù)據(jù)整合基礎(chǔ)之上,研究者也越來越重視語義元數(shù)據(jù)的規(guī)范整合,并開展了相關(guān)實踐。表1列舉了國內(nèi)外七個主要資源發(fā)現(xiàn)系統(tǒng)在元數(shù)據(jù)量、元數(shù)據(jù)獲取方式、元數(shù)據(jù)標(biāo)準(zhǔn)及元數(shù)據(jù)整合方法方面的概況。
發(fā)現(xiàn)系統(tǒng)以元數(shù)據(jù)倉儲為基礎(chǔ),以元數(shù)據(jù)索引為核心[15-16]。面向發(fā)現(xiàn)服務(wù)的元數(shù)據(jù)集成整合是一般元數(shù)據(jù)集成整合的分支,其對多來源元數(shù)據(jù)集成、整合、規(guī)范可以更好地服務(wù)于上層發(fā)現(xiàn)系統(tǒng)。筆者立足資源發(fā)現(xiàn)系統(tǒng)實現(xiàn)功能,采取調(diào)研的方法比較現(xiàn)有資源發(fā)現(xiàn)系統(tǒng)與跨庫檢索系統(tǒng)在系統(tǒng)功能上的差異,從而總結(jié)出兩者在文獻獲取方面的差異,進一步驗證面向發(fā)現(xiàn)服務(wù)的底層元數(shù)據(jù)集成整合研究具有必要性,調(diào)研結(jié)果見表2。
表2 國內(nèi)資源發(fā)現(xiàn)系統(tǒng)功能調(diào)研
從調(diào)研結(jié)果來看,國內(nèi)985高校資源發(fā)現(xiàn)系統(tǒng),主要分為Summon、EDS、Primo、Find+、超星發(fā)現(xiàn)系統(tǒng),985高校中只有17所實現(xiàn)了中英文一站式發(fā)現(xiàn)。這17所高校中有14所是被動引進Summon、Primo、EDS等外文資源發(fā)現(xiàn)系統(tǒng)。首先外文資源發(fā)現(xiàn)系統(tǒng)在本地建立元數(shù)據(jù)倉儲,然后將整合后的元數(shù)據(jù)統(tǒng)一發(fā)布在云平臺上,通過接口調(diào)用的方式供國內(nèi)使用,其發(fā)布前的元數(shù)據(jù)集成整合流程無從獲知,加上網(wǎng)絡(luò)傳輸?shù)扔绊懸蛩?,檢索效率不高。其次,資源發(fā)現(xiàn)系統(tǒng)與傳統(tǒng)跨庫檢索系統(tǒng)相比,雖然都采用統(tǒng)一檢索入口,但其文獻獲取原理卻不同。跨庫檢索系統(tǒng)是數(shù)據(jù)庫商提供各庫獨立接口,檢索結(jié)果只顯示訂購資源,不顯示無權(quán)限資源,資源發(fā)現(xiàn)系統(tǒng)卻對用戶檢索結(jié)果提供多來源指引。發(fā)現(xiàn)系統(tǒng)整合館藏OPAC,無法獲取在線全文時依然可以獲取紙質(zhì)全文(如果有紙本的前提下),拓寬了資源獲取途徑。研究發(fā)現(xiàn),系統(tǒng)的元數(shù)據(jù)集成整合,能為國家科技文獻服務(wù)提供保障。
從面向發(fā)現(xiàn)服務(wù)的元數(shù)據(jù)集成整合與一般元數(shù)據(jù)集成整合的區(qū)別來看,后者只是基于數(shù)據(jù)層面的大規(guī)模整合,沒有辦法實現(xiàn)文獻聚類等,它只是將元數(shù)據(jù)整合,但并未對元數(shù)據(jù)的薄厚作要求。調(diào)研結(jié)果顯示,清華大學(xué)資源發(fā)現(xiàn)系統(tǒng)和超星資源發(fā)現(xiàn)系統(tǒng)實現(xiàn)了學(xué)科趨勢分析及熱點分析等知識關(guān)聯(lián),這是一般元數(shù)據(jù)集成整合做不到的。其次中科院文獻情報中心的資源發(fā)現(xiàn)系統(tǒng)提供可視化分面導(dǎo)航,這都是基于厚元數(shù)據(jù)所作的知識關(guān)聯(lián)分析。面向發(fā)現(xiàn)服務(wù)的元數(shù)據(jù)集成整合最終目的,是將單篇文獻的多個來源進行整合,將薄元數(shù)據(jù)整合成一條帶有多個來源指引的厚元數(shù)據(jù)記錄。
縱觀國內(nèi)外主要的資源發(fā)現(xiàn)系統(tǒng),我們可以發(fā)現(xiàn),與跨庫檢索系統(tǒng)相比,資源發(fā)現(xiàn)系統(tǒng)的數(shù)據(jù)來源更加豐富。但圖書館在引進發(fā)現(xiàn)系統(tǒng)的過程中,只實現(xiàn)了本館館藏資源與發(fā)現(xiàn)系統(tǒng)資源的整合,未能整合聯(lián)合目錄數(shù)據(jù)庫館藏資源,也未能集成館藏目錄元數(shù)據(jù)資源;在全文獲取途徑方面,資源發(fā)現(xiàn)系統(tǒng)能夠?qū)崿F(xiàn)在線獲取全文或多來源指引,但缺少館藏等機構(gòu)元數(shù)據(jù)信息,未能實現(xiàn)在館藏信息統(tǒng)一元數(shù)據(jù)索引的基礎(chǔ)上,依據(jù)館藏機構(gòu)的資源變化與當(dāng)前用戶屬性動態(tài)呈現(xiàn)恰當(dāng)?shù)馁Y源地址。此外,現(xiàn)有商業(yè)性發(fā)現(xiàn)系統(tǒng)的內(nèi)部數(shù)據(jù)組織及外部發(fā)現(xiàn)服務(wù)功能仍然較為單一,其數(shù)據(jù)組織揭示多停留在題名、載體等資源外部特征,較少對資源內(nèi)在特征進行知識組織揭示。對發(fā)現(xiàn)服務(wù)底層元數(shù)據(jù)集成整合的相關(guān)理論研究只注重檢索結(jié)果相關(guān)性排序,缺少對文獻元數(shù)據(jù)資源進行采集、加工、規(guī)范整合的流程研究。最后,國內(nèi)發(fā)現(xiàn)服務(wù)多是直接引進或在國外發(fā)現(xiàn)服務(wù)基礎(chǔ)上進行二次開發(fā),導(dǎo)致中文元數(shù)據(jù)覆蓋程度低、與國際標(biāo)準(zhǔn)脫節(jié)、ISSN號混亂、年代不準(zhǔn)確等問題。因此,要實現(xiàn)基于海量元數(shù)據(jù)的資源發(fā)現(xiàn)向知識發(fā)現(xiàn)轉(zhuǎn)變,深化知識服務(wù)需求,就必須探究發(fā)現(xiàn)服務(wù)在元數(shù)據(jù)集成整合方面的標(biāo)準(zhǔn)規(guī)范和加工方法,發(fā)展圖書館多層次的發(fā)現(xiàn)服務(wù)功能。
基于文獻閱讀和對現(xiàn)有資源發(fā)現(xiàn)系統(tǒng)建設(shè)實踐的研究,文章總結(jié)出面向發(fā)現(xiàn)服務(wù)的文獻元數(shù)據(jù)集成整合流程,它主要圍繞總體流程與元數(shù)據(jù)標(biāo)準(zhǔn)映射體系、規(guī)范規(guī)則體系、查重/集成規(guī)則體系及規(guī)范文檔體系四個體系展開,總體框架由數(shù)據(jù)源、元數(shù)據(jù)集成倉儲和數(shù)據(jù)應(yīng)用層構(gòu)成。元數(shù)據(jù)集成倉儲劃分為注冊模塊、解析模塊、集成模塊和倉儲中心。每一種數(shù)據(jù)源先將其元數(shù)據(jù)標(biāo)準(zhǔn)在注冊模塊進行注冊,然后解析模塊通過接口調(diào)用相應(yīng)的映射規(guī)則進行解析,解析完成后經(jīng)過數(shù)據(jù)清洗規(guī)范,數(shù)據(jù)流轉(zhuǎn)至集成模塊,以機器為主人工為輔的方式進行元數(shù)據(jù)集成。元數(shù)據(jù)集成后進入元數(shù)據(jù)倉儲中心,建立中心索引,為知識發(fā)現(xiàn)、統(tǒng)計分析、專題計算等服務(wù)提供數(shù)據(jù)準(zhǔn)備,總體流程見圖1。
圖1 文獻元數(shù)據(jù)集成總體流程圖
圖2 元數(shù)據(jù)集成方法
元數(shù)據(jù)集成整合方法如圖2所示,該方法首先梳理來源內(nèi)各個業(yè)務(wù)系統(tǒng)間的元數(shù)據(jù),主要考慮業(yè)務(wù)系統(tǒng)間的元數(shù)據(jù)是否有關(guān)聯(lián),關(guān)聯(lián)是否完整等。元數(shù)據(jù)梳理后作為一種數(shù)據(jù)源被加載到文獻元數(shù)據(jù)集成整合系統(tǒng)。不同來源間的元數(shù)據(jù)在集成過程中,無論其屬于哪種文獻類型,都要優(yōu)先集成書目元數(shù)據(jù),然后基于書目元數(shù)據(jù)集成結(jié)果,對論文元數(shù)據(jù)進行查重集成。如來源1、來源2、來源3,通過一定查重集成規(guī)則集成為一條書目元數(shù)據(jù)后,再集成這3個來源的論文元數(shù)據(jù)。具體來講,A來源與B來源書目元數(shù)據(jù)集成時,以A作為首選元數(shù)據(jù)入庫,以B作為補充元數(shù)據(jù),將B元數(shù)據(jù)中的元素與A元數(shù)據(jù)進行系統(tǒng)比對,然后將設(shè)定的補充元素入庫,并標(biāo)記B。系統(tǒng)對所掛接的論文元數(shù)據(jù)進行查重集成,以A作為首選來源入庫,然后B/C元數(shù)據(jù)的補充元素帶著相應(yīng)來源標(biāo)記入庫。隨著數(shù)據(jù)源的增多,該元數(shù)據(jù)最終會形成一條豐富完整的厚數(shù)據(jù)。每個元素都標(biāo)記來源,以便在數(shù)據(jù)有問題時對其進行拆分。書目元數(shù)據(jù)作為源頭,其處理需要以人工為主機器為輔,論文元數(shù)據(jù)可以按照相應(yīng)的集成規(guī)則以機器為主人工為輔的方式處理,依次形成母體集成庫及文摘集成庫直至元數(shù)據(jù)庫。
文獻元數(shù)據(jù)集成整合為發(fā)現(xiàn)服務(wù)提供底層支撐作用,對發(fā)現(xiàn)系統(tǒng)功能的實現(xiàn)至關(guān)重要。元數(shù)據(jù)集成整合的最終目的,是將描述同一論文資源的元數(shù)據(jù)整合成多來源的厚元數(shù)據(jù),提供多來源指引。建立文獻元數(shù)據(jù)映射/匹配規(guī)則,實現(xiàn)元數(shù)據(jù)互操作,是進行查重比較的首要前提,因此有必要建立統(tǒng)一的元數(shù)據(jù)框架,并與各來源標(biāo)準(zhǔn)建立映射關(guān)系,確保元數(shù)據(jù)格式統(tǒng)一。發(fā)現(xiàn)系統(tǒng)元數(shù)據(jù)來源于出版社、數(shù)據(jù)庫商、集成商等,出版社元數(shù)據(jù)標(biāo)準(zhǔn)各自為陣,亟待整合統(tǒng)一,不同標(biāo)準(zhǔn)中的元數(shù)據(jù)項表述不一。篇名在Wiley中元數(shù)據(jù)字段被表述為〈article-title〉篇名,而在Thomson Reuters中定義為〈title type=“item”〉篇名。對期刊論文元數(shù)據(jù)的調(diào)研發(fā)現(xiàn),不同數(shù)據(jù)庫元數(shù)據(jù)類型也有所不同。對比NSTL與WOS、Scopus發(fā)現(xiàn),WOS、Scopus使用一套元數(shù)據(jù)Schema描述多種文獻類型,只要在期刊論文中涉及某一文獻類型就會出現(xiàn)相關(guān)描述;NSTL則以文獻類型為基礎(chǔ)劃分元數(shù)據(jù),某一文獻類型的元數(shù)據(jù)包含在此類文獻的Schema中。圖3給出了常見的元數(shù)據(jù)映射/匹配規(guī)則流程:系統(tǒng)對多來源數(shù)據(jù)進行數(shù)據(jù)解析,抽取來源元數(shù)據(jù)特征,提取有效規(guī)則建立規(guī)則庫,以期建立一種能兼容各種文獻元數(shù)據(jù)的格式標(biāo)準(zhǔn),即一種多對一的元數(shù)據(jù)方案;對多來源異構(gòu)數(shù)據(jù)構(gòu)建元數(shù)據(jù)統(tǒng)一描述框架,形成統(tǒng)一元數(shù)據(jù)格式。
圖3 元數(shù)據(jù)標(biāo)準(zhǔn)映射體系
發(fā)現(xiàn)系統(tǒng)通常按照資源類型、主題、作者、時間、地區(qū)、館址、語種、分類、流派、在線全文、同行評議以及是否擴展至本館館藏之外等元數(shù)據(jù)項提供分面導(dǎo)航功能,逐層深入并縮小檢索范圍,直到發(fā)現(xiàn)符合需求的檢索結(jié)果。該功能實現(xiàn)的效果與元數(shù)據(jù)的薄厚及可獲得性呈正相關(guān)。表3列舉了同一篇論文在出版社和集成商平臺中所呈現(xiàn)出的信息項差異。我們觀察到各發(fā)現(xiàn)系統(tǒng)中元數(shù)據(jù)厚度參差不齊,相比出版社網(wǎng)站,集成商平臺的元數(shù)據(jù)厚度有限、部分元數(shù)據(jù)信息缺失,嚴(yán)重影響了資源的揭示效果。
表3 出版社與商用發(fā)現(xiàn)系統(tǒng)平臺元數(shù)據(jù)項差異
發(fā)現(xiàn)服務(wù)集成整合多源異構(gòu)元數(shù)據(jù),形成一條附帶多個來源指引的厚元數(shù)據(jù)記錄。映射完成后,我們需要根據(jù)不同文獻類型制定查重匹配算法,分別從母體、卷期、篇級、來源渠道等多個層次對資源實施查重與歸一;需要制定規(guī)則,確定所選元數(shù)據(jù)如倉儲的優(yōu)先級順序,保證優(yōu)勢類型元數(shù)據(jù)進入倉儲,且要確定作為補充元素的元數(shù)據(jù)類型。系統(tǒng)在元數(shù)據(jù)進入倉儲的同時要對其進行查重歸并,并標(biāo)記相應(yīng)的來源標(biāo)簽,使元數(shù)據(jù)字段由“薄”變“厚”。元數(shù)據(jù)查重主要包括來源元數(shù)據(jù)查重(即同一數(shù)據(jù)來源由于進入倉儲的批次不同導(dǎo)致的重復(fù))和系統(tǒng)內(nèi)部的查重機制(同一文章有不同來源且進入倉儲的時間不同,需要對其查重合并),圖4為文獻元數(shù)據(jù)查重合并流程圖。查重體系中用戶輸入批次號,根據(jù)批次號獲取原始數(shù)據(jù),根據(jù)節(jié)點拆分任務(wù),將數(shù)據(jù)涉及的刊種聚類并獲取樣例,隨后將樣例與任務(wù)分發(fā)至節(jié)點,最后獲取節(jié)點完成的任務(wù)寫回元數(shù)據(jù)庫。
圖4 元數(shù)據(jù)查重合并機制
發(fā)現(xiàn)服務(wù)并不是簡單獨立的文獻資源集成檢索系統(tǒng),未來需要實現(xiàn)從基礎(chǔ)文獻服務(wù)到知識發(fā)現(xiàn)服務(wù)的轉(zhuǎn)變。將元數(shù)據(jù)整合規(guī)范后,對底層基礎(chǔ)文獻元數(shù)據(jù)進行語義分析,這種知識組織管理可以更好地推進發(fā)現(xiàn)服務(wù)。文獻發(fā)現(xiàn)層面通過科學(xué)文獻中的各類引文,在文摘索引與其所標(biāo)文獻、文后參考資料與被引用資料之間建立關(guān)聯(lián)和鏈接[17]。我們通過分析文獻內(nèi)容的關(guān)聯(lián),可以發(fā)現(xiàn)該領(lǐng)域的研究熱點;而通過分析作者或機構(gòu)的關(guān)聯(lián),可以發(fā)現(xiàn)該領(lǐng)域中的核心作者和核心機構(gòu)。底層文獻元數(shù)據(jù)整合后,將書目元數(shù)據(jù)、管理元數(shù)據(jù)、文摘元數(shù)據(jù)、結(jié)構(gòu)元數(shù)據(jù)、關(guān)聯(lián)元數(shù)據(jù)等依次歸類,從而保證上下游鏈條間元數(shù)據(jù)的有效連接。研究者通過對文摘數(shù)據(jù)進行分詞、概念提取,實現(xiàn)主題標(biāo)引和學(xué)科分類;通過實體識別、名稱消歧方法,實現(xiàn)名稱規(guī)范和對象歸一;最后基于漢語主題詞表等對元數(shù)據(jù)進行語義標(biāo)識,對同一元數(shù)據(jù)集合進行語義知識組織加工,實現(xiàn)主題關(guān)聯(lián)、學(xué)科關(guān)聯(lián)、熱點分析、機構(gòu)關(guān)聯(lián)等,如圖5所示。另外,基于館藏等元數(shù)據(jù)信息建立資源調(diào)度知識庫,將從圖書館、出版社、數(shù)據(jù)庫商和互聯(lián)網(wǎng)上獲取的文獻元數(shù)據(jù)資源與用戶、機構(gòu)信息整合,形成記錄了來源的“集成化聯(lián)合目錄”與用戶、機構(gòu)信息庫。依據(jù)用戶及其所需資源間的不同場景構(gòu)建資源關(guān)聯(lián)的調(diào)度機制,設(shè)定調(diào)度規(guī)則,通過調(diào)度算法找到最適應(yīng)用戶情景的文獻獲取方式,即當(dāng)前情景的最優(yōu)決策。
圖5 元數(shù)據(jù)知識組織關(guān)聯(lián)
文獻元數(shù)據(jù)數(shù)量規(guī)模的擴大、文獻元數(shù)據(jù)顆粒度的精細(xì)、文獻資源數(shù)字化的擴展,使用戶能夠更便捷地得到更豐富、更準(zhǔn)確的文獻資源檢索結(jié)果。由于現(xiàn)有整合技術(shù)的不成熟,文獻元數(shù)據(jù)集成要從數(shù)據(jù)源、元數(shù)據(jù)集成倉儲和數(shù)據(jù)應(yīng)用層三個層次設(shè)計、完善。文獻元數(shù)據(jù)獲取方式的選擇,既要保證其質(zhì)量,又得保證其數(shù)量、時效性與涵蓋范圍。文獻元數(shù)據(jù)集成應(yīng)制定更加合理、規(guī)范、系統(tǒng)的文獻元數(shù)據(jù)統(tǒng)一描述規(guī)則,為文獻元數(shù)據(jù)映射、整合、加厚的后續(xù)處理流程提供更好支撐,設(shè)計更加合理的元數(shù)據(jù)映射規(guī)則、建設(shè)厚元數(shù)據(jù)以便將元數(shù)據(jù)本身多樣化的信息更好地保留下來。與此同時,數(shù)字資源不斷擴充、資源載體形態(tài)改變、外部鏈接失效、刊名變更等都依賴于元數(shù)據(jù)定期更新維護。如何建立數(shù)據(jù)獲取、集成和故障追蹤的全流程資源維護體系與元數(shù)據(jù)質(zhì)量監(jiān)控模型,都需未來進一步探索。
(來稿時間:2018年4月)