丁遒勁 王星 李芳菊
(中國科學(xué)技術(shù)信息研究所,北京 100038)
國家科技圖書文獻(xiàn)中心(National Science and Technology Library,NSTL)經(jīng)過二十多年的發(fā)展,基于統(tǒng)一的資源采集規(guī)劃、分布式數(shù)據(jù)加工、集中的網(wǎng)絡(luò)系統(tǒng)以及協(xié)同服務(wù)原則,已經(jīng)建立起相對穩(wěn)定的業(yè)務(wù)流程,形成以資源建設(shè)、數(shù)據(jù)加工、網(wǎng)絡(luò)系統(tǒng)、文獻(xiàn)服務(wù)為主要單元的組織結(jié)構(gòu),協(xié)調(diào)各成員單位共同開展國家科技文獻(xiàn)保障工作。但是,面對當(dāng)前不斷發(fā)展變化的科技信息環(huán)境,特別是文獻(xiàn)資源數(shù)字化以及資源開放性不斷增強(qiáng),NSTL亟待對原有基于印本文獻(xiàn)的采集加工和服務(wù)的業(yè)務(wù)布局和流程進(jìn)行優(yōu)化,從文獻(xiàn)服務(wù)向知識服務(wù)方向轉(zhuǎn)變,以適應(yīng)數(shù)字業(yè)務(wù)環(huán)境變化和用戶對知識服務(wù)的需求[1]。文獻(xiàn)元數(shù)據(jù)是關(guān)于文獻(xiàn)資源在品種(如期刊品種、會(huì)議)、實(shí)體(如期刊卷期、會(huì)議論文集)以及論文層級的描述性信息,在以印本為主的資源建設(shè)時(shí)期,文獻(xiàn)元數(shù)據(jù)主要是指通過編目形成的書目數(shù)據(jù)。隨著文獻(xiàn)資源出版方式多樣化,元數(shù)據(jù)的采集獲取方式也呈現(xiàn)出多源化趨勢,因此在NSTL業(yè)務(wù)流程再造過程中,需要通過元數(shù)據(jù)一體化管理,實(shí)現(xiàn)對多來源、多載體、多類型文獻(xiàn)的統(tǒng)一管理,為海量文獻(xiàn)資源的深化利用奠定數(shù)據(jù)基礎(chǔ)。
在數(shù)字出版潮流以及用戶需求變革的雙重驅(qū)動(dòng)下,NSTL無論是源頭的資源建設(shè)模式還是終端用戶的服務(wù)需求都發(fā)生了較大變化,依托傳統(tǒng)編目、實(shí)物登到對元數(shù)據(jù)進(jìn)行管理的弊端逐漸顯現(xiàn),因此亟待面向新的業(yè)務(wù)發(fā)展目標(biāo)構(gòu)建一體化的元數(shù)據(jù)管理模式。
為踐行國家科技文獻(xiàn)保障使命,NSTL在建設(shè)之初即已形成以外文印本資源為主體的資源保障模式,資源類型涉及期刊、會(huì)議錄、科技報(bào)告、科技叢書等多種類型。近年來,每年外文印本期刊訂購量仍然維持在1.7萬種。但是,隨著數(shù)字出版趨勢越發(fā)明顯,完全依托印本資源引進(jìn)已難以滿足科研人員的信息需求,因此NSTL逐漸加大了電子資源引進(jìn)力度,通過全國陸續(xù)開通電子資源、開放資源建設(shè)等方式,拓寬文獻(xiàn)資源采集獲取渠道,由此形成立體化資源保障體系。
在以印本為主體的資源建設(shè)時(shí)期,編目業(yè)務(wù)在資源管理揭示方面發(fā)揮了不可替代的作用,它是NSTL書目元數(shù)據(jù)的主要甚至是唯一來源。但是隨著科技文獻(xiàn)資源來源渠道多樣化,書目元數(shù)據(jù)不再局限于通過編目產(chǎn)生,視頻、課件等非傳統(tǒng)科技信息資源也難以完全用MARC進(jìn)行描述,因此原本線性化的書目元數(shù)據(jù)管理方式亟待轉(zhuǎn)變。
同樣是基于印本文獻(xiàn)資源,出于數(shù)據(jù)質(zhì)量優(yōu)化和版權(quán)管理的考慮,NSTL長期通過“自主編目+加工”方式進(jìn)行資源的組織揭示。但是在立體化資源模式牽引下,資源揭示方式也正在向多來源采集方向轉(zhuǎn)變。從2014年起,NSTL開始陸續(xù)與科睿唯安、愛思唯爾、施普林格·自然等國外知名數(shù)據(jù)庫商、集成商以及出版社合作,直接獲取XML格式的論文元數(shù)據(jù)。目前,NSTL元數(shù)據(jù)合作渠道達(dá)到20余家,累計(jì)采集超過1億條論文元數(shù)據(jù)。此外,為了突破商業(yè)資源發(fā)現(xiàn)服務(wù)中存在的館藏壁壘,NSTL在2020年啟動(dòng)“國家外文科技期刊聯(lián)合目錄”建設(shè),目前已與上海圖書館、中國科學(xué)院文獻(xiàn)情報(bào)中心、CALIS管理中心以及中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所/圖書館等達(dá)成合作。
無論是從其他機(jī)構(gòu)通過免費(fèi)或少量付費(fèi)方式獲取的論文元數(shù)據(jù),還是通過合作共享而來的館藏?cái)?shù)據(jù)(包括書目數(shù)據(jù)和登到數(shù)據(jù)),都需要通過依次從品種、卷期(冊)、論文層層掛接對應(yīng),形成相互關(guān)聯(lián)統(tǒng)一的資源整體。從外部引進(jìn)元數(shù)據(jù),同時(shí)囊括了書目、卷期以及論文層級的描述信息,元數(shù)據(jù)管理成為多來源元數(shù)據(jù)采集的管理入口,與以往數(shù)據(jù)管理業(yè)務(wù)相比,需要增加對論文元數(shù)據(jù)的清洗歸并等流程,為元數(shù)據(jù)后期的融合計(jì)算奠定規(guī)范的數(shù)據(jù)基礎(chǔ)。
無論是立體化資源保障,還是多來源論文元數(shù)據(jù)以及館藏元數(shù)據(jù)的合作引進(jìn),其最終目的在于構(gòu)建資源發(fā)現(xiàn)服務(wù),最大程度地保障科研用戶對資源的發(fā)現(xiàn)與全文獲取?;诖笤獢?shù)據(jù)體系,NSTL將在數(shù)據(jù)、資源以及知識層面構(gòu)建多層次服務(wù)體系。但是,海量多源異構(gòu)數(shù)據(jù)融合面臨的首要問題在于數(shù)據(jù)格式標(biāo)準(zhǔn)化問題。因此,NSTL在2017年推出《NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)》,該標(biāo)準(zhǔn)在充分借鑒都柏林核心元數(shù)據(jù)倡議(Dublin Core Metadata Initiative,DCMI)、主流文獻(xiàn)服務(wù)商的數(shù)據(jù)標(biāo)準(zhǔn)和ANSI/NISO Z39.96等基礎(chǔ)上形成,為NSTL數(shù)據(jù)集成融合、數(shù)據(jù)分析和數(shù)據(jù)挖掘,以及不同應(yīng)用服務(wù)系統(tǒng)間的互操作建立統(tǒng)一的數(shù)據(jù)描述體系[2]。
目前,NSTL各個(gè)業(yè)務(wù)系統(tǒng)均以《NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)》為基礎(chǔ)進(jìn)行數(shù)據(jù)描述、交換和互操作,以XML為編碼語言,因此原有基于MARC的書目數(shù)據(jù)需要進(jìn)行相應(yīng)的擴(kuò)展和轉(zhuǎn)換,以適應(yīng)NSTL整體業(yè)務(wù)流程的變革。
面對當(dāng)前不斷發(fā)展變化的信息環(huán)境,NSTL從資源建設(shè)到數(shù)據(jù)加工,再到用戶服務(wù)模式都做出了諸多改變,著力從文獻(xiàn)服務(wù)向知識服務(wù)方向拓展。元數(shù)據(jù)一體化管理作為NSTL業(yè)務(wù)流程再造的重要環(huán)節(jié),對多來源論文數(shù)據(jù)的規(guī)范管理及其深化應(yīng)用都具有重要意義。
NSTL業(yè)務(wù)流程再造的總體目標(biāo)在于建立支持知識化服務(wù)的業(yè)務(wù)布局和流程,總體業(yè)務(wù)框架見圖1。在新的業(yè)務(wù)布局中,NSTL著重加強(qiáng)了業(yè)務(wù)模塊的整體化建設(shè),主要體現(xiàn)在內(nèi)部業(yè)務(wù)資源建設(shè)、數(shù)據(jù)管理以及面向用戶的系統(tǒng)服務(wù)。
圖1 NSTL總體業(yè)務(wù)框架
2.1.1 立體化信息資源建設(shè)
在商業(yè)出版、開放獲取等科技信息資源出版?zhèn)鞑ツJ降墓餐绊懴拢琋STL資源建設(shè)對象從印本資源擴(kuò)展到電子資源、開放資源乃至第三方數(shù)據(jù)資源,購買不再是資源建設(shè)的唯一途徑,資源的采集和合作共享成為開放環(huán)境中資源建設(shè)的重點(diǎn),亟待通過強(qiáng)化資源發(fā)現(xiàn)、評估、采集(合作獲取)來擴(kuò)大資源獲取范圍。
從業(yè)務(wù)層面而言,對資源建設(shè)流程的再造重點(diǎn)具體包括:資源類型擴(kuò)展,同時(shí)涵蓋傳統(tǒng)類型文獻(xiàn)和新型數(shù)據(jù)資源等;從文獻(xiàn)訂購管理向采集渠道管理擴(kuò)展,按照資源獲取渠道,可以分為訂購管理和采集共享管理;強(qiáng)化資源版權(quán)屬性和過程文檔管理,以確定各類資源的具體服務(wù)方式和服務(wù)對象。
2.1.2 關(guān)聯(lián)化文獻(xiàn)數(shù)據(jù)管理
數(shù)據(jù)管理包括文獻(xiàn)元數(shù)據(jù)和非文獻(xiàn)元數(shù)據(jù)等各類元數(shù)據(jù)的管理,根據(jù)NSTL數(shù)據(jù)管理業(yè)務(wù)現(xiàn)狀,文獻(xiàn)數(shù)據(jù)管理劃分為書目數(shù)據(jù)管理、文摘元數(shù)據(jù)加工集成、元數(shù)據(jù)增值計(jì)算和主題標(biāo)引[3]。其中,書目數(shù)據(jù)管理是對各來源資源進(jìn)行編目以及名稱規(guī)范,涉及NSTL訂購或合作獲取的印本文獻(xiàn)、開放資源和數(shù)字資源。同時(shí),從書目數(shù)據(jù)集成庫析出的調(diào)度信息將融入NSTL發(fā)現(xiàn)系統(tǒng)的資源調(diào)度知識庫。此外,文摘元數(shù)據(jù)加工集成的重點(diǎn)在于自主加工處理包括引文數(shù)據(jù)在內(nèi)的文摘元數(shù)據(jù),并與經(jīng)元數(shù)據(jù)管理系統(tǒng)處理的第三方元數(shù)據(jù)進(jìn)行關(guān)聯(lián)掛接,形成統(tǒng)一的文摘元數(shù)據(jù)集成庫。
2.1.3 智能化系統(tǒng)服務(wù)增強(qiáng)
NSTL用戶服務(wù)系統(tǒng)的建設(shè)將以知識發(fā)現(xiàn)為目標(biāo),以知識與知識、數(shù)據(jù)與數(shù)據(jù)、用戶與用戶、知識(數(shù)據(jù))與用戶之間的關(guān)聯(lián)、計(jì)算與聚合為基礎(chǔ),構(gòu)建NSTL知識發(fā)現(xiàn)系統(tǒng)。該系統(tǒng)在資源端能夠?qū)Χ噍d體、多類型、多來源資源進(jìn)行統(tǒng)一集成揭示,通過知識組織與關(guān)聯(lián)揭示實(shí)現(xiàn)資源增值。在服務(wù)端,系統(tǒng)支持用戶元數(shù)據(jù)快速搜索發(fā)現(xiàn)與排序,并通過統(tǒng)一認(rèn)證與分級服務(wù),實(shí)現(xiàn)資源統(tǒng)一配置與調(diào)度,基于增值數(shù)據(jù)與關(guān)聯(lián)計(jì)算結(jié)果,幫助用戶發(fā)現(xiàn)相關(guān)的資源和服務(wù)。
元數(shù)據(jù)管理介于資源建設(shè)和數(shù)據(jù)管理兩大業(yè)務(wù)模塊,它既需要對從第三方采集獲取的論文元數(shù)據(jù)進(jìn)行規(guī)范處理,又要從中析出品種和卷期信息,與編目數(shù)據(jù)融合形成書目數(shù)據(jù)集成庫,支持后續(xù)文摘元數(shù)據(jù)融合以及資源調(diào)度計(jì)算,元數(shù)據(jù)的具體管理思路見圖2。
圖2 NSTL元數(shù)據(jù)管理邏輯框架
2.2.1 實(shí)現(xiàn)多來源、多層級元數(shù)據(jù)規(guī)范集成
元數(shù)據(jù)管理對象同時(shí)涵蓋論文元數(shù)據(jù)、館藏信息以及書目數(shù)據(jù)。在論文元數(shù)據(jù)層面,元數(shù)據(jù)管理需要對從第三方獲取的論文元數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換與校驗(yàn)、人工質(zhì)檢與規(guī)范、品種掛接和卷期規(guī)范等,向數(shù)據(jù)加工模塊流轉(zhuǎn)規(guī)范化的論文元數(shù)據(jù);在實(shí)體館藏層面,元數(shù)據(jù)管理需要做好第三方圖書館OPAC數(shù)據(jù)與NSTL本地館藏?cái)?shù)據(jù)的融合處理;在品種層面,聯(lián)合編目系統(tǒng)除了繼續(xù)做好原有印本文獻(xiàn)編目外,還需加強(qiáng)對開放資源和E-only資源的編目,同時(shí)擴(kuò)展對于非析出文獻(xiàn)的增強(qiáng)編目,形成多來源元數(shù)據(jù)獲取、規(guī)范以及匹配融合機(jī)制。
2.2.2 構(gòu)建覆蓋各類資源的實(shí)體名稱規(guī)范庫
基于NSTL自有館藏資源以及從第三方獲取的論文元數(shù)據(jù)以及館藏信息,書目數(shù)據(jù)集成庫將基本覆蓋各類主流科技文獻(xiàn)資源,各類資源在歷史沿革、名稱規(guī)范方面存在諸多交叉重復(fù),需要構(gòu)建統(tǒng)一的實(shí)體名稱規(guī)范庫。根據(jù)NSTL資源建設(shè)現(xiàn)狀,實(shí)體名稱規(guī)范庫主要包括期刊名稱規(guī)范庫以及會(huì)議名稱規(guī)范庫。期刊名稱規(guī)范庫能夠顯示期刊關(guān)停并轉(zhuǎn)等歷史沿革關(guān)系,會(huì)議名稱規(guī)范庫能夠顯示會(huì)議舉辦的歷史變化情況。實(shí)體名稱規(guī)范庫作為一項(xiàng)基礎(chǔ)工具,它對支持元數(shù)據(jù)的高效融合,在服務(wù)系統(tǒng)中實(shí)現(xiàn)資源的精準(zhǔn)導(dǎo)航具有重要作用。
2.2.3 基于資源多元屬性支持服務(wù)調(diào)度計(jì)算
文獻(xiàn)資源屬性包含多個(gè)方面,除了題名、摘要等偏重內(nèi)容的描述性信息外,不同來源渠道元數(shù)據(jù)的版權(quán)特征也是影響文獻(xiàn)資源與用戶契合度的關(guān)鍵因素。一般而言,圖書館的元數(shù)據(jù)主要是對其紙質(zhì)館藏的描述,因此對應(yīng)的全文服務(wù)方式以紙質(zhì)館藏借閱和文獻(xiàn)傳遞為主,存在服務(wù)時(shí)效滯后問題,但是用戶受眾面較廣。除了開放獲取資源可以直接訪問全文外,學(xué)術(shù)出版商等來源元數(shù)據(jù)描述的一般為電子訂閱資源,只有處于特定IP范圍內(nèi)的用戶才能訪問全文。元數(shù)據(jù)同時(shí)包含資源描述信息和渠道信息,因此能夠有效支持資源調(diào)度知識庫對資源對象、服務(wù)主體以及用戶的匹配關(guān)聯(lián),從而在最大程度上為用戶提供情景敏感的服務(wù)。
元數(shù)據(jù)集成管理系統(tǒng)實(shí)現(xiàn)了為下游NSTL大數(shù)據(jù)平臺(tái)提供經(jīng)校驗(yàn)轉(zhuǎn)換、質(zhì)檢規(guī)范后的論文元數(shù)據(jù),為NSTL資源發(fā)現(xiàn)系統(tǒng)提供多館藏書目集成數(shù)據(jù)、多館藏卷期集成數(shù)據(jù)、物理館藏信息數(shù)據(jù)和數(shù)據(jù)庫品種信息等,支持服務(wù)系統(tǒng)的資源發(fā)現(xiàn)功能,主要工作流程包括數(shù)據(jù)預(yù)處理、書目元數(shù)據(jù)歸并集成以及實(shí)體名稱規(guī)范庫構(gòu)建。
2.3.1 第三方元數(shù)據(jù)預(yù)處理
針對NSTL通過合作共享獲取的20余家外部機(jī)構(gòu)論文元數(shù)據(jù),NSTL以《NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)》作為統(tǒng)一標(biāo)準(zhǔn)規(guī)范,來統(tǒng)一各類型資源的描述格式,建立對不同格式、不同類型的元數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范控制的方法和策略,構(gòu)建完備一致的多來源元數(shù)據(jù)規(guī)范模型,促進(jìn)多條薄元數(shù)據(jù)整合為單條厚元數(shù)據(jù)。在同一標(biāo)準(zhǔn)規(guī)范基礎(chǔ)上,多源異構(gòu)的論文元數(shù)據(jù)將經(jīng)過格式驗(yàn)證與轉(zhuǎn)換、查重、質(zhì)檢等形成統(tǒng)一的元數(shù)據(jù)資源。
2.3.2 書目元數(shù)據(jù)歸并集成
對于不同來源、不同類型的書目數(shù)據(jù)建立歸一規(guī)則庫及沖突發(fā)現(xiàn)機(jī)制,利用規(guī)則最大程度自動(dòng)化合并多條重復(fù)書目數(shù)據(jù),減少人工操作,保證多條重復(fù)書目數(shù)據(jù)記錄聚合歸并為一條記錄,形成多來源書目數(shù)據(jù)集成數(shù)據(jù)庫[4]。同時(shí),需要完整存儲(chǔ)和分析存在沖突的數(shù)據(jù)記錄,采用機(jī)器學(xué)習(xí)與人工結(jié)合的方法解決數(shù)據(jù)沖突,并對多來源書目數(shù)據(jù)聚合時(shí)通過遴選與測評基準(zhǔn)數(shù)據(jù)源建立歸一規(guī)則,使不同來源的書目數(shù)據(jù)能夠相互補(bǔ)充,為資源發(fā)現(xiàn)系統(tǒng)提供全面、準(zhǔn)確的書目數(shù)據(jù)。
2.3.3 實(shí)體名稱規(guī)范庫構(gòu)建
針對第三方元數(shù)據(jù)預(yù)處理結(jié)果,對規(guī)范書目信息進(jìn)行管理并形成NSTL實(shí)體名稱規(guī)范庫,以“品種”為單位,匯聚同一資源名稱的不同表達(dá)形式,梳理資源間的有效關(guān)聯(lián)關(guān)系,逐步形成覆蓋各類文獻(xiàn)資源的NSTL實(shí)體名稱規(guī)范庫,在規(guī)范名稱的基礎(chǔ)上進(jìn)一步形成卷期規(guī)范庫,支撐NSTL資源融合與知識服務(wù)。
各來源原始數(shù)據(jù)遵循標(biāo)準(zhǔn)格式不同、元數(shù)據(jù)薄厚程度不一,甚至存在數(shù)據(jù)內(nèi)容錯(cuò)誤等情況,因此需要對各渠道的元數(shù)據(jù)進(jìn)行分門別類地管理,涉及多來源元數(shù)據(jù)格式解析與驗(yàn)證、格式統(tǒng)一映射與轉(zhuǎn)換、相似度計(jì)算以及數(shù)據(jù)增強(qiáng)等多個(gè)環(huán)節(jié)[5]。例如,期刊論文元數(shù)據(jù)質(zhì)量控制策略如圖3所示。
圖3 期刊論文元數(shù)據(jù)質(zhì)量控制[5]
網(wǎng)絡(luò)通信過程中需要傳輸數(shù)據(jù),常用的數(shù)據(jù)格式有兩種,即JSON(JavaScript Object Notation)和XML。在NSTL目前已有元數(shù)據(jù)合作的來源中,多數(shù)出版社使用XML格式提供元數(shù)據(jù)。由于不同來源元數(shù)據(jù)遵循的標(biāo)準(zhǔn)不一,其對應(yīng)元數(shù)據(jù)文件的邏輯結(jié)構(gòu)、文件構(gòu)成的元素、元素的屬性以及元素和元素屬性的關(guān)系存在差異。因此,來源元數(shù)據(jù)遵循標(biāo)準(zhǔn)對應(yīng)的XML Schema或DTD文件,作為XML文檔結(jié)構(gòu)的定義和描述,是元數(shù)據(jù)管理主體對獲取元數(shù)據(jù)進(jìn)行格式解析和驗(yàn)證的主要依據(jù)。
根據(jù)來源元數(shù)據(jù)標(biāo)準(zhǔn)對應(yīng)XML Schema或DTD文件,元數(shù)據(jù)管理方能夠更好地理解不同來源元數(shù)據(jù)標(biāo)記符的語法規(guī)則,并構(gòu)建專門的元數(shù)據(jù)解析器。在加載XML文件路徑及XML文件基礎(chǔ)上,元數(shù)據(jù)解析器獲取數(shù)據(jù)文件中的相關(guān)元素并進(jìn)行解析。同時(shí),XML Schema或DTD文件作為數(shù)據(jù)結(jié)構(gòu)說明文件也是驗(yàn)證數(shù)據(jù)文件元素、屬性是否完整和準(zhǔn)確的重要工具,解析后的元數(shù)據(jù)還需要經(jīng)過XML Schema格式校驗(yàn),以確保獲取元數(shù)據(jù)符合來源元數(shù)據(jù)標(biāo)準(zhǔn),這是元數(shù)據(jù)管理主體對獲取元數(shù)據(jù)最基本的質(zhì)量要求。
數(shù)據(jù)標(biāo)準(zhǔn)化是對多源異構(gòu)元數(shù)據(jù)同構(gòu)化的過程,基于核心元數(shù)據(jù)標(biāo)準(zhǔn)對不同來源數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,有利于元數(shù)據(jù)規(guī)范和交換。根據(jù)來源元數(shù)據(jù)標(biāo)準(zhǔn)與核心元數(shù)據(jù)標(biāo)準(zhǔn)間的映射轉(zhuǎn)換規(guī)則,對格式校驗(yàn)合格的元數(shù)據(jù)進(jìn)行字段映射和格式轉(zhuǎn)換,能夠使所有元數(shù)據(jù)按照統(tǒng)一的標(biāo)準(zhǔn)格式描述資源。需要注意的是,原始格式數(shù)據(jù)仍然需要保留,以便后期溯源。此外,在元數(shù)據(jù)格式轉(zhuǎn)換和標(biāo)準(zhǔn)化過程中,需要對每篇文獻(xiàn)相關(guān)期刊、作者、基金項(xiàng)目等科研實(shí)體賦予唯一標(biāo)識符,以作為后續(xù)抽取科研實(shí)體和回溯的管理依據(jù)。
目前,除大型學(xué)術(shù)出版商和二次文獻(xiàn)提供商使用自定義元數(shù)據(jù)規(guī)范外,多數(shù)學(xué)術(shù)出版商仍是遵循JATS標(biāo)準(zhǔn)加工元數(shù)據(jù)。NSTL以《統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)》為中心標(biāo)準(zhǔn),基于各元數(shù)據(jù)來源提供遵循標(biāo)準(zhǔn)的XML Schema或DTD文件,形成元數(shù)據(jù)標(biāo)準(zhǔn)之間的映射轉(zhuǎn)換規(guī)則,實(shí)現(xiàn)各來源元數(shù)據(jù)在形式上的統(tǒng)一。
對同一數(shù)據(jù)渠道來源數(shù)據(jù)的重復(fù)情況,需要制定一系列規(guī)則進(jìn)行查重,識別重復(fù)數(shù)據(jù)。與傳統(tǒng)通過人工對核心字段設(shè)置權(quán)重的查重方式不同,利用各類機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)查重,能夠在較大程度上提升元數(shù)據(jù)相似度的計(jì)算效率。具體而言,通過輸入數(shù)據(jù)重復(fù)樣本,利用神經(jīng)網(wǎng)絡(luò)分類算法,生成判斷數(shù)據(jù)重復(fù)的數(shù)學(xué)模型,進(jìn)而對存量數(shù)據(jù)以及增量數(shù)據(jù)進(jìn)行分類。對于神經(jīng)網(wǎng)絡(luò)的輸入層,輸入數(shù)據(jù)分別為標(biāo)題、摘要、作者、關(guān)鍵詞、作者機(jī)構(gòu)等參數(shù)。對于標(biāo)題、作者、關(guān)鍵詞和作者機(jī)構(gòu)等非常短的文本,可以延續(xù)系統(tǒng)之前使用的編輯距離來確定字段之間的相似度;對于摘要,可以通過SimHash算法來判別摘要的相似度。
以期刊論文為例,期刊自上而下包含期刊品種、卷期和論文3個(gè)層面,相應(yīng)的查重規(guī)則也應(yīng)該從上述3個(gè)層面依次展開。在品種層級,通過期刊名稱、ISSN、出版機(jī)構(gòu)等信息,利用機(jī)器算法自動(dòng)篩選出疑似重復(fù)的品種,根據(jù)機(jī)器篩選的結(jié)果進(jìn)行人工比對。對重復(fù)資源在品種層面進(jìn)行合并、編輯,對不重復(fù)而相似資源進(jìn)行人工標(biāo)記,用于再次排查疑似重復(fù)的參考。在卷期層級,需要對卷期信息以及卷期下設(shè)論文進(jìn)行查重,以判斷是否為重復(fù)卷期。在論文層級,依據(jù)DOI、論文題名、起始頁碼、總頁數(shù)等對同一品種、同一卷期下論文元數(shù)據(jù)進(jìn)行查重。機(jī)器自動(dòng)查重結(jié)束后,為保證結(jié)果的準(zhǔn)確性,仍需要以人工方式再次進(jìn)行比較判斷,確定是否為同一論文元數(shù)據(jù)并進(jìn)行沖突解決。
除格式規(guī)范性外,作者與機(jī)構(gòu)的對應(yīng)關(guān)系、關(guān)鍵詞拆分準(zhǔn)確性、元數(shù)據(jù)內(nèi)容與來源網(wǎng)頁內(nèi)容相符性等內(nèi)容層面的數(shù)據(jù)質(zhì)量問題也需要重視。因此,為了進(jìn)一步確保元數(shù)據(jù)質(zhì)量,提升元數(shù)據(jù)在后期服務(wù)中的可用性,對符合來源元數(shù)據(jù)標(biāo)準(zhǔn)的元數(shù)據(jù)需要進(jìn)行邏輯驗(yàn)證(部分邏輯驗(yàn)證規(guī)則見表1)和媒介對象損壞驗(yàn)證,任何一步驗(yàn)證失敗的數(shù)據(jù)都將被系統(tǒng)退回,經(jīng)過機(jī)器和人工修正后再次進(jìn)行校驗(yàn),直至完全通過校驗(yàn)。例如,施普林格·自然姊妹公司Digital Science開發(fā)的科研創(chuàng)新引擎Dimensions主要是基于自定義的元數(shù)據(jù)標(biāo)準(zhǔn),對各來源數(shù)據(jù)補(bǔ)充額外的元數(shù)據(jù)字段以及元數(shù)據(jù)信息,以及深度標(biāo)引實(shí)現(xiàn)全文層級的出版信息元數(shù)據(jù)增強(qiáng)。
表1 元數(shù)據(jù)邏輯驗(yàn)證規(guī)則示例
數(shù)據(jù)邏輯驗(yàn)證一般可通過程序自動(dòng)實(shí)現(xiàn),例如PubMed Central的在線校驗(yàn)工具可基于自身設(shè)定的規(guī)則對數(shù)據(jù)進(jìn)行驗(yàn)證,對與規(guī)范不符的元數(shù)據(jù)發(fā)出警告或報(bào)錯(cuò)[6]。隨著元數(shù)據(jù)來源的不斷增加,數(shù)據(jù)邏輯驗(yàn)證規(guī)則并非固定不變,在日常自動(dòng)校驗(yàn)外還需要繼續(xù)采用人工質(zhì)檢方法,按照一定比例對數(shù)據(jù)進(jìn)行人工抽檢,以人工質(zhì)檢結(jié)果結(jié)合自動(dòng)驗(yàn)證結(jié)果作為有監(jiān)督學(xué)習(xí)訓(xùn)練集,定期進(jìn)行最優(yōu)模型訓(xùn)練。其中,預(yù)警模型用來檢驗(yàn)和優(yōu)化數(shù)據(jù)邏輯驗(yàn)證規(guī)則的合理性,預(yù)測模型用來評估各渠道元數(shù)據(jù)質(zhì)量,以支持確定服務(wù)利用的優(yōu)先順序。
2019年,NSTL基于自身業(yè)務(wù)流程再造需要,開始設(shè)計(jì)開發(fā)元數(shù)據(jù)管理系統(tǒng)。目前,該系統(tǒng)已初步完成開發(fā),并實(shí)際應(yīng)用于NSTL業(yè)務(wù)中。
NSTL元數(shù)據(jù)管理系統(tǒng)覆蓋數(shù)據(jù)采集獲取、格式校驗(yàn)、映射轉(zhuǎn)換、查重規(guī)范、集成歸一的元數(shù)據(jù)管理全生命周期。系統(tǒng)以管理規(guī)則發(fā)現(xiàn)構(gòu)造及維護(hù)為核心,將機(jī)器學(xué)習(xí)計(jì)算與人工訓(xùn)練核查相結(jié)合,通過多重迭代優(yōu)化,實(shí)現(xiàn)多源異構(gòu)元數(shù)據(jù)集成工作流的高效流轉(zhuǎn)運(yùn)行。圖4為NSTL元數(shù)據(jù)管理系統(tǒng)的基本結(jié)構(gòu)。
圖4 NSTL元數(shù)據(jù)管理系統(tǒng)的基本結(jié)構(gòu)
NSTL元數(shù)據(jù)管理系統(tǒng)的主要功能模塊包括元數(shù)據(jù)預(yù)處理模塊、書目數(shù)據(jù)集成模塊、實(shí)體規(guī)范管理模塊。
4.2.1 元數(shù)據(jù)預(yù)處理模塊
系統(tǒng)通過對第三方來源的論文元數(shù)據(jù)進(jìn)行格式檢驗(yàn)、數(shù)據(jù)解析轉(zhuǎn)換、按來源查重、機(jī)器質(zhì)檢、人工質(zhì)檢,以及卷期及書目元數(shù)據(jù)的析出,形成符合NSTL元數(shù)據(jù)標(biāo)準(zhǔn)的第三方來源的元數(shù)據(jù)預(yù)處理庫?;陬A(yù)處理各環(huán)節(jié),系統(tǒng)開發(fā)了預(yù)處理庫整體流程的監(jiān)控管理統(tǒng)計(jì)頁面,可實(shí)現(xiàn)從數(shù)據(jù)按來源按批次經(jīng)格式增強(qiáng)校驗(yàn)、批次及來源內(nèi)查重、機(jī)器質(zhì)檢到人工質(zhì)檢的全流程直觀的監(jiān)控管理。同時(shí),系統(tǒng)基于實(shí)際業(yè)務(wù)需求,開發(fā)完成了“刊頻配置管理”“文獻(xiàn)到貨統(tǒng)計(jì)”“卷期完整性統(tǒng)計(jì)”“字段齊備性統(tǒng)計(jì)”“刊種覆蓋情況統(tǒng)計(jì)”的數(shù)據(jù)統(tǒng)計(jì)功能。
4.2.2 書目數(shù)據(jù)集成模塊
書目數(shù)據(jù)集成模塊能夠?qū)崿F(xiàn)對多來源印本編目數(shù)據(jù)、OPAC館藏信息以及數(shù)據(jù)庫涵蓋資源品種書目數(shù)據(jù)的統(tǒng)一管理,以及不同類型數(shù)據(jù)之間的關(guān)聯(lián)耦合,通過書目、卷期元數(shù)據(jù)的集成、歸一和關(guān)聯(lián),建立統(tǒng)一的書目、卷期集成庫。系統(tǒng)可通過OAI方式收割NSTL聯(lián)合目錄書目及登到數(shù)據(jù),同時(shí)支持從標(biāo)準(zhǔn)接口收割其他系統(tǒng)書目數(shù)據(jù),也可通過Excel格式文件按規(guī)范要求導(dǎo)入其他來源書目數(shù)據(jù),導(dǎo)入后數(shù)據(jù)將進(jìn)行格式校驗(yàn)、內(nèi)容增強(qiáng)校驗(yàn)以及人工內(nèi)容抽檢,并按照數(shù)據(jù)映射規(guī)則統(tǒng)一規(guī)范書目及卷期數(shù)據(jù),支持書目及卷期數(shù)據(jù)的增刪改查操作,最終形成書目、卷期規(guī)范庫,并提供接口供其他系統(tǒng)調(diào)用。
4.2.3 實(shí)體規(guī)范管理模塊
系統(tǒng)根據(jù)內(nèi)嵌規(guī)則對書目數(shù)據(jù)進(jìn)行自動(dòng)歸并,也可進(jìn)行編輯與規(guī)范,以補(bǔ)全規(guī)范實(shí)體的相關(guān)信息。在歸一中如果發(fā)現(xiàn)沖突則進(jìn)行人工的沖突解決處理,同時(shí)對期刊沿革、別名等關(guān)系進(jìn)行梳理,以形成多來源實(shí)體名稱規(guī)范庫,并提供接口供其他系統(tǒng)調(diào)用數(shù)據(jù)。另外,通過校驗(yàn)和修正的數(shù)據(jù)可根據(jù)制定好的查重規(guī)則,通過機(jī)器算法自動(dòng)篩選出疑似重復(fù)的資源品種,根據(jù)機(jī)器篩選的結(jié)果進(jìn)行人工比對,對重復(fù)資源進(jìn)行合并、編輯,對不重復(fù)而相似資源進(jìn)行人工標(biāo)記,用于再次疑似重復(fù)的排查參考。
約翰·威立是NSTL元數(shù)據(jù)合作出版商之一,基于元數(shù)據(jù)管理系統(tǒng),NSTL對約翰·威立提供元數(shù)據(jù)實(shí)現(xiàn)自動(dòng)化規(guī)范管理。
4.3.1 元數(shù)據(jù)格式轉(zhuǎn)換
約翰·威立提供的元數(shù)據(jù)遵循的是出版商自定義規(guī)范,包括WileyML 3G、WileyML 4.0、BPA Content、EEP、JWSCHA以及WileyML 2.1,期刊論文元數(shù)據(jù)主要根據(jù)統(tǒng)一XML模型WileyML 3G形成[7]。NSTL元數(shù)據(jù)管理系統(tǒng)根據(jù)WileyML 3G Schema對獲取元數(shù)據(jù)進(jìn)行初步格式校驗(yàn),并以《NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)》與WileyML 3G之間的映射規(guī)則形成數(shù)據(jù)轉(zhuǎn)換程序,將數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一格式。
4.3.2 多來源數(shù)據(jù)查重與歸并
在所有約翰·威立范圍內(nèi)完成數(shù)據(jù)查重后,各來源數(shù)據(jù)需要進(jìn)行渠道交叉查重與歸并。例如,Pediatrics International等10種期刊由約翰·威立學(xué)術(shù)出版商出版,同時(shí)被Web of Science收錄,以該10種期刊2020年出版論文元數(shù)據(jù)為例,受數(shù)據(jù)提供及時(shí)性、數(shù)據(jù)收錄標(biāo)準(zhǔn)因素影響,兩來源在相同期刊的論文元數(shù)據(jù)量和具體內(nèi)容存在部分交叉。原始數(shù)據(jù)包含214期(10 944條)約翰·威立來源數(shù)據(jù)以及309期(16 301條)科睿唯安來源數(shù)據(jù),共計(jì)523期(27 245條)數(shù)據(jù)。經(jīng)過NSTL元數(shù)據(jù)管理系統(tǒng)處理后,歸并為379期(18 798條)數(shù)據(jù)。
NSTL元數(shù)據(jù)管理系統(tǒng)共識別出8 447條來自不同來源但是指向同一篇論文的重復(fù)元數(shù)據(jù)。重復(fù)數(shù)據(jù)之間的識別主要依靠預(yù)先設(shè)置的查重規(guī)則和大數(shù)據(jù)運(yùn)算實(shí)現(xiàn)。以一篇論文分別來自約翰·威立和科睿唯安的數(shù)據(jù)為例,兩條元數(shù)據(jù)的期刊品種信息相同,論文的DOI、關(guān)鍵詞等信息也一致,但是論文題目書寫方式存在差異,來自約翰·威立的數(shù)據(jù)為“Lead‐Free Halide Perovskite Cs3Bi2xSb2–2xI9(x≈0.3)Possessing the Photocatalytic Activity for Hydrogen Evolution Comparable to that of(CH3NH3)PbI3”,而科睿唯安的數(shù)據(jù)中將“x≈0.3”寫為“x approximate to 0.3”,由此造成兩條數(shù)據(jù)存在差異,但是經(jīng)過元數(shù)據(jù)融合將歸并為一條新的元數(shù)據(jù)。
NSTL經(jīng)過20多年的發(fā)展,始終以國家科技文獻(xiàn)保障為發(fā)展使命,經(jīng)歷了從印本文獻(xiàn),到商業(yè)電子資源,再到開放獲取資源等各類資源建設(shè)模式并存的發(fā)展格局,資源類型從傳統(tǒng)期刊、會(huì)議錄等逐步向產(chǎn)業(yè)報(bào)告、課件、科學(xué)數(shù)據(jù)等方向拓展。在前端科技信息資源生產(chǎn)傳播模式變革下,NSTL積極適應(yīng)外部環(huán)境變化,進(jìn)行了一系列業(yè)務(wù)流程重組改造,涉及資源建設(shè)、數(shù)據(jù)管理以及系統(tǒng)服務(wù)各個(gè)業(yè)務(wù)模塊。元數(shù)據(jù)管理同時(shí)涉及論文元數(shù)據(jù)、館藏信息以及書目數(shù)據(jù),是NSTL業(yè)務(wù)布局從傳統(tǒng)訂購文獻(xiàn)向立體化資源建設(shè)轉(zhuǎn)變的集中體現(xiàn),同時(shí)也是圖書館未來業(yè)務(wù)流程發(fā)展的方向之一。因此,圖書館界需要重視提升元數(shù)據(jù)管理能力,不拘泥于傳統(tǒng)編目業(yè)務(wù),才能在不斷變化的科技信息環(huán)境中獲得競爭優(yōu)勢。