張建勇 周毅 劉崢
(中國科學(xué)院文獻情報中心,北京 100190)
現(xiàn)實世界中,同一事物或個人經(jīng)常會因不同的描述角度或經(jīng)歷擁有不同的名稱,如個人因婚姻、收養(yǎng)、寫作等可能有多個名稱,作品因版本不同可能有多個名稱。規(guī)范控制的目的是匯集同一實體的不同名稱形式,并區(qū)分具有相同名稱的同一實體。圖書館界對規(guī)范控制的典型定義是:為確保標(biāo)目在檢索款目及書目系統(tǒng)中的唯一性和穩(wěn)定性而建立、維護、使用規(guī)范款目和規(guī)范文檔的過程[1]。然而這一定義并沒有抽象出規(guī)范控制的實質(zhì),局限于描述卡片目錄時代和機讀目錄時代的規(guī)范控制工作過程。規(guī)范控制的本質(zhì)是實現(xiàn)基于概念的描述和匹配[2]。
在網(wǎng)絡(luò)時代,網(wǎng)絡(luò)資源迅速增長,體量巨大,事物的名稱種類也越來越多樣化,需要規(guī)范的概念不再只是圖書館書目記錄中的檢索點。傳統(tǒng)規(guī)范控制的效率問題、規(guī)范名稱的一致性問題、規(guī)范數(shù)據(jù)的應(yīng)用領(lǐng)域擴展問題等都對圖書館規(guī)范控制的發(fā)展提出挑戰(zhàn)。在需求的驅(qū)動下,國際圖書館界的規(guī)范控制由規(guī)范名稱轉(zhuǎn)向唯一標(biāo)識符,再走向開放關(guān)聯(lián)。隨著萬維網(wǎng)聯(lián)盟(World Wide Web Consortium,W3C)發(fā)起的關(guān)聯(lián)開放數(shù)據(jù)運動的推動,國外圖書館紛紛將書目數(shù)據(jù)或規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),提供關(guān)聯(lián)數(shù)據(jù)服務(wù),如德國國家圖書館、美國國會圖書館等,圖書館的規(guī)范數(shù)據(jù)正走向開放關(guān)聯(lián)。
NSTL作為一個基于網(wǎng)絡(luò)環(huán)境的科技文獻信息資源服務(wù)機構(gòu),其目標(biāo)是建設(shè)成數(shù)字時代的國家科技文獻信息資源的保障基地、國家科技文獻信息服務(wù)的集成樞紐、國家科技文獻信息服務(wù)發(fā)展的支持中心。NSTL擁有來自于多種數(shù)據(jù)源且數(shù)量龐大的信息資源,其包含的大量科研實體信息需要規(guī)范控制。在開放關(guān)聯(lián)趨勢下,NSTL的規(guī)范控制應(yīng)如何進一步發(fā)展是需要深入研究的課題。
本文首先分析規(guī)范控制的發(fā)展趨勢,包括規(guī)范內(nèi)容的變化和規(guī)范數(shù)據(jù)模型的演變,在此基礎(chǔ)上回顧并評估NSTL已經(jīng)開展的規(guī)范控制工作并探討開放關(guān)聯(lián)環(huán)境下NSTL規(guī)范控制可能的發(fā)展方向。
在卡片目錄時代和機讀目錄時代通常采用的做法,是在同一實體的多個名稱形式中選定一個規(guī)范名稱[3]。但一旦有規(guī)范名稱修改,就會引起規(guī)范記錄的修改,接著引起連接規(guī)范記錄的書目記錄修改,工作量難以估計。因此,圖書館改為在書目記錄中記錄規(guī)范記錄的控制號來解決這一問題[4]??刂铺柺荕ARC規(guī)范記錄的唯一性標(biāo)識號,由創(chuàng)建、使用或發(fā)行規(guī)范記錄的機構(gòu)設(shè)置[5]。然而控制號僅在本地數(shù)據(jù)庫有意義,對于更大范圍內(nèi)或國際規(guī)范數(shù)據(jù)交換時,需要在世界范圍內(nèi)有意義的唯一標(biāo)識符。圖書館界開始意識到標(biāo)識符的作用,并嘗試建立多種標(biāo)識符系統(tǒng),包括ISADN、ORCID、ISNI等。標(biāo)識符系統(tǒng)中不僅包含實體的名稱信息,還包含實體的其他信息,對規(guī)范控制的內(nèi)容開始由名稱轉(zhuǎn)向真實世界實體。
20世紀70年代,國際圖書館協(xié)會聯(lián)合會(International Federation of Library Associations and Institutions,I F L A)曾建議使用國際標(biāo)準(zhǔn)權(quán)威機構(gòu)數(shù)據(jù)編號(ISADN)用于連接相關(guān)的規(guī)范記錄,但因其昂貴的開銷而擱置[6]。2003年,聯(lián)機計算機圖書館中心(Online Computer Library Center,OCLC)和德國國家圖書館、美國國會圖書館決定開發(fā)個人名稱的虛擬規(guī)范文檔VIAF[7]。VIAF現(xiàn)已擁有30多個國家和地區(qū)的40多個組織的規(guī)范數(shù)據(jù)[8],其規(guī)范對象也擴展到人員名稱、團體名稱、地理名稱、作品、書目名稱等[9]。同時圖書館界內(nèi)外出現(xiàn)大量的身份管理系統(tǒng),用于管理人員、機構(gòu)等實體的信息,除了名稱以外,還包括身份、聯(lián)系地址等其他信息。這些系統(tǒng)同樣可以起到規(guī)范控制的匯集和消歧的作用。其中,管理人員或者機構(gòu)的唯一標(biāo)識符有ORCID[10]、iAuthor[11]、ResearcherID[12]、Scopus Author ID[13]、ISNI[14]等。作品方面,數(shù)字對象唯一標(biāo)識符(DOI)[15]、國際標(biāo)準(zhǔn)書號(ISBN)、國際標(biāo)準(zhǔn)連續(xù)出版物號(ISSN)、國際標(biāo)準(zhǔn)音樂作品碼(ISWC)、國際標(biāo)準(zhǔn)音像號(ISAN)等也可以唯一識別作品。
盡管唯一標(biāo)識符系統(tǒng)在全球范圍內(nèi)提供服務(wù),但其能覆蓋的范圍有限,一個系統(tǒng)想要識別所有研究者或組織幾乎是不現(xiàn)實的。各個系統(tǒng)唯一識別的人員或機構(gòu)存在交叉,一個作者很可能同時擁有ORCID、ResearcherID和ISNI。因此,為實現(xiàn)更大范圍的唯一識別,有必要建立系統(tǒng)之間的連接。
2006年Bernets-Lee提出了關(guān)聯(lián)數(shù)據(jù)的概念,他認為語義網(wǎng)不僅僅是將數(shù)據(jù)發(fā)布到網(wǎng)上,而是要建立它們之間的連接,人或者機器才能探索數(shù)據(jù)網(wǎng)絡(luò)[16]。他同時提出關(guān)聯(lián)數(shù)據(jù)的四原則:一是使用URI命名事物;二是使用HTTP URI以便于用戶查找事物名稱;三是當(dāng)用戶查找URI時,通過RDF、SPARQL等標(biāo)準(zhǔn)提供有用的信息;四是包含指向其他URI的鏈接,以便于用戶發(fā)現(xiàn)更多的內(nèi)容[17]。關(guān)聯(lián)數(shù)據(jù)的提出為圖書館規(guī)范數(shù)據(jù)進一步統(tǒng)一提供了新途徑。關(guān)聯(lián)數(shù)據(jù)四原則中要求使用URI命名事物,即以URI為唯一標(biāo)識符識別事物。包含指向其他URI鏈接的原則體現(xiàn)在不同數(shù)據(jù)集的關(guān)聯(lián)。關(guān)聯(lián)數(shù)據(jù)的優(yōu)點在于支持數(shù)據(jù)重用,便于擴大數(shù)據(jù)內(nèi)外部聯(lián)接,形成數(shù)據(jù)網(wǎng)絡(luò),從而有利于提高數(shù)據(jù)集的質(zhì)量,提升數(shù)據(jù)價值。關(guān)聯(lián)數(shù)據(jù)為全球范圍內(nèi)規(guī)范數(shù)據(jù)的關(guān)聯(lián)提供了新路徑。
2007年W3C啟動開放關(guān)聯(lián)數(shù)據(jù)運動(Linking Open Data,LOD),號召人們將現(xiàn)有數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。截至2020年5月,在LOD上發(fā)布的數(shù)據(jù)集由2007年的12個增長到1255個[18]。多個圖書館或規(guī)范數(shù)據(jù)項目將其規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。VIAF將其數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)[19]。美國國會圖書館自2009年開始將由其發(fā)布的所有詞表發(fā)布為關(guān)聯(lián)數(shù)據(jù),并提供關(guān)聯(lián)數(shù)據(jù)服務(wù)[20]。2010年德國國家圖書館將其規(guī)范數(shù)據(jù)GND發(fā)布為關(guān)聯(lián)數(shù)據(jù)[21]。日本國會圖書館[22]、匈牙利國家圖書館[23],以及國內(nèi)的上海圖書館[24]等也將自身的規(guī)范數(shù)據(jù)發(fā)布成關(guān)聯(lián)數(shù)據(jù)。此外,博物館界發(fā)起的“Open Authority”項目,試圖利用社會性網(wǎng)絡(luò),采用眾包的方式,共同開發(fā)圖書館、博物館、美術(shù)館的規(guī)范控制服務(wù),實現(xiàn)跨機構(gòu)類型的規(guī)范數(shù)據(jù)共建共享[25]。
在將規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)后,各關(guān)聯(lián)數(shù)據(jù)集逐步建立了與其他關(guān)聯(lián)數(shù)據(jù)集的關(guān)聯(lián),在提高自身數(shù)據(jù)質(zhì)量的同時,實現(xiàn)更大范圍的數(shù)據(jù)關(guān)聯(lián)與共享。各數(shù)據(jù)集之間的關(guān)聯(lián)對象包括與百科類數(shù)據(jù)集的關(guān)聯(lián)、與其他規(guī)范數(shù)據(jù)集的關(guān)聯(lián)以及與其他相關(guān)數(shù)據(jù)集的關(guān)聯(lián)。其中與百科類數(shù)據(jù)集的關(guān)聯(lián)既可以豐富規(guī)范數(shù)據(jù)集的內(nèi)容,也可以借助百科網(wǎng)站的信息實現(xiàn)規(guī)范對象的語義消歧,通常關(guān)聯(lián)的百科類數(shù)據(jù)集有Wikidata、DBpedia、百度百科等。與其他同類型的規(guī)范數(shù)據(jù)集或身份識別系統(tǒng)關(guān)聯(lián),則是通過實體對齊與實體融合,實現(xiàn)規(guī)范數(shù)據(jù)范圍的擴大與內(nèi)容的豐富,同時通過身份識別系統(tǒng)的唯一標(biāo)識符實現(xiàn)規(guī)范對象的唯一識別,如與VIAF、ORCID等的關(guān)聯(lián)。與相關(guān)數(shù)據(jù)集的關(guān)聯(lián)包括與GeoNames等的關(guān)聯(lián),如VIAF建立了與DBpedia、GND等數(shù)據(jù)集的關(guān)聯(lián)[26],德國國家圖書館建立了與DBpedia、VIAF、ORCID、GeoNames等數(shù)據(jù)集關(guān)聯(lián)[21]。
當(dāng)規(guī)范控制不再局限于名稱形式的字符串層面,轉(zhuǎn)而以真實世界的實體本身為規(guī)范對象后,MARC格式用數(shù)字編碼、元素粒度不一等的局限逐漸凸顯,新的數(shù)據(jù)模型被提出。IFLA發(fā)布的“功能需求”系列模型,將文獻信息的描述由外部特征轉(zhuǎn)向真實實體。在開放關(guān)聯(lián)環(huán)境下,各國圖書館采取復(fù)用已有數(shù)據(jù)模型或建立自定義本體作為數(shù)據(jù)模型的方式將自身的規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。
1998年IFLA發(fā)布FRBR(書目記錄的功能需求)。1999年4月,IFLA成立規(guī)范記錄的功能需求與編號(FRANAR)工作組,定義規(guī)范記錄的功能需求,延續(xù)FRBR的工作。FRANAR工作組在2005年公布了FRAD(規(guī)范數(shù)據(jù)的功能需求)。FRAD將一條規(guī)范記錄定義為一個實體的信息集合,為規(guī)范記錄的功能需求分析及規(guī)范數(shù)據(jù)的國際共享提供一個分析框架。FRAD定義了16個實體,包括個人、家族團體作品、內(nèi)容表達、載體表現(xiàn)、單件(FRBR中的四層書目)等。在FRAD中,名稱、標(biāo)識符分別被獨立出來作為實體,其內(nèi)容分別是各種形式的名稱和標(biāo)識符。名稱實體通過“稱謂”關(guān)系與規(guī)范對象實體相連。標(biāo)識符實體通過“被標(biāo)識”關(guān)系與規(guī)范對象實體相連。
2010年6月,IFLA推出FRSAD(主題規(guī)范數(shù)據(jù)的功能需求)。FRSAD中定義THEMA為表示用作作品主題的實體。NOMEN作為表示名稱、標(biāo)識符和檢索點的實體。THEMA與NOMEN之間存在“有稱謂……”“是……的稱謂”的關(guān)系[27]。
FRBR、FRAD、FRSAD雖然是同系列的模型,共同構(gòu)成書目世界完整的模型體系,但3個模型存在不一致,造成應(yīng)用上的不便,如“個人的名稱”在FRBR和FRAD中隸屬于不同實體的屬性[28]。2017年IFLA將FRBR、FRAD、FRSAD整合成為IFLA-LRM模型[29]。IFLA-LRM被設(shè)計用于關(guān)聯(lián)數(shù)據(jù)環(huán)境,并支持和促進關(guān)聯(lián)數(shù)據(jù)環(huán)境中書目數(shù)據(jù)的使用。在IFLA-LRM中最終定義了11個實體,并將實體分為三個層級。其中RES是新模型中的頂層,是其他10個實體的超類,表示其他任何實體。NOMEN作為第二級實體之一,由FRSAD中的“NOMEN”和FRAD中的“名稱”合并而成。NOMEN與RES之間存在“是……的稱謂”的關(guān)系。
在IFLA“功能需求”系列模型的影響下,2011年,美國國會圖書館開發(fā)了旨在適應(yīng)未來萬維網(wǎng)和廣義網(wǎng)絡(luò)世界的書目數(shù)據(jù)描述模型BIBFRAME。BIBFRAME簡化了FR BR的思想,在BIBFR A ME 1.0中提出4個核心類,即作品(work)、實例(instance)、規(guī)范(Authority)、注釋(Annotation)。規(guī)范作為核心類是一種資源,代表與BIBFRAME作品、實例或注釋相關(guān)的個人、家庭、團體、管轄權(quán)、會議、地點、主題或時間表達。在規(guī)范表達上,BI BFR A M E使用屬性“bf:authorizedAccessPoint”表示規(guī)范檢索點,使用屬性“bf:has Authority”指向外部規(guī)范,取值為URI[30]。2016年BIBFRAME更新到2.0版本,BIBFRAME 2.0表示為OWL本體。BIBFRAME 2.0取消了規(guī)范類以及創(chuàng)作者(bf:creator)、規(guī)范檢索點(bf:authorizedAccessPoint)等屬性,將需要規(guī)范的對象定義為真實世界的實體,而不是通過名稱來識識別,包括person、organization、place等[31]。
各圖書館機構(gòu)或項目在將規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)時,根據(jù)自身的數(shù)據(jù)特點,通過兩種方式構(gòu)建數(shù)據(jù)模型。一是自定義的本體作為數(shù)據(jù)模型發(fā)布關(guān)聯(lián)數(shù)據(jù),在自定義本體中復(fù)用多種廣泛使用的標(biāo)準(zhǔn)詞表,或者與已有標(biāo)準(zhǔn)詞表對齊,如德國國家圖書館建立了GND本體[32]、上海圖書館建立了人名規(guī)范庫本體(shlnames)[33]等。二是盡量復(fù)用已有的數(shù)據(jù)模型,以一種現(xiàn)有標(biāo)準(zhǔn)詞表為核心詞表,以其他標(biāo)準(zhǔn)詞表為補充配合使用,以達到對數(shù)據(jù)的準(zhǔn)確描述。2014年,OCLC的國際規(guī)范文檔VIAF參考Wikidata的做法,以Schema.org為核心詞表,輔之其他標(biāo)準(zhǔn)詞表作為補充[19]。
開放關(guān)聯(lián)環(huán)境下,國際上規(guī)范數(shù)據(jù)控制工作的變化為國內(nèi)文獻信息資源建設(shè)提供了發(fā)展借鑒,同時也為規(guī)范控制工作帶來了新的挑戰(zhàn)。在國際上實體管理標(biāo)準(zhǔn)與技術(shù)越來越成熟的情況下,國內(nèi)的相關(guān)實踐屈指可數(shù)。NSTL作為國家科技文獻保障體系的核心組成部分,近年在對科研實體的規(guī)范控制中取得重大進展。
NSTL的文獻數(shù)據(jù)資源來自多種渠道,包括自加工的目錄數(shù)據(jù)、篇章數(shù)據(jù)和引文數(shù)據(jù),也包括來自第三方的數(shù)據(jù),如Web of Science、CUP、Wiley、OUP等來源的數(shù)據(jù)。這些多來源的異構(gòu)數(shù)據(jù)總量已達到千萬量級。數(shù)據(jù)中包含大量的科研實體信息(人員、機構(gòu)、基金、期刊等),這些科研實體信息以不同的元數(shù)據(jù)標(biāo)準(zhǔn)描述,分散在各自的數(shù)據(jù)庫中,不能唯一識別,也不能建立相互之間的關(guān)系。
對此,NSTL在其“十三五”規(guī)劃中提出要拓展國家科技文獻信息元數(shù)據(jù)資源多渠道采集方式,全面采集、整合集成和轉(zhuǎn)換規(guī)范多類型的資源內(nèi)容,構(gòu)建統(tǒng)一完整的元數(shù)據(jù)框架,構(gòu)建中國科技信息資源的“大”元數(shù)據(jù)體系。同時提出開展多粒度的科技文獻信息深度組織與知識揭示[34]。在“十三五”規(guī)劃的指導(dǎo)下,NSTL設(shè)計了《NSTL統(tǒng)一文獻元數(shù)據(jù)標(biāo)準(zhǔn)》(以下簡稱《統(tǒng)一標(biāo)準(zhǔn)》)[35],以此為元數(shù)據(jù)格式,將不同來源的數(shù)據(jù)解析、清洗、轉(zhuǎn)換、集成,形成統(tǒng)一的元數(shù)據(jù)存儲和管理系統(tǒng),為NSTL的規(guī)范控制工作提供了數(shù)據(jù)基礎(chǔ)。
為滿足名稱規(guī)范數(shù)據(jù)描述和數(shù)據(jù)交互需要,NSTL遵循《統(tǒng)一標(biāo)準(zhǔn)》的規(guī)定,將該標(biāo)準(zhǔn)中名稱規(guī)范描述部分和名稱規(guī)范關(guān)系部分獨立成單個標(biāo)準(zhǔn),包括貢獻者、機構(gòu)、基金等,形成《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》?!督y(tǒng)一標(biāo)準(zhǔn)》的設(shè)計遵循模塊化設(shè)計原則。其具體體現(xiàn)是根據(jù)實體關(guān)聯(lián)方法分析抽象出資源對象的實體關(guān)系模型,以實體為單位形成描述元素集,對資源的描述就是對模型中不同實體描述的集合,描述各類實體的元素集可以復(fù)用。如機構(gòu)實體的描述可以用來描述研究者所在機構(gòu),也可以用來描述出版機構(gòu)?!睹Q規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》復(fù)用了《統(tǒng)一標(biāo)準(zhǔn)》中的貢獻者、機構(gòu)、基金等元素集,沿襲了模塊化原則,這些元素集以實體為單位匯集了所有描述人員、機構(gòu)、基金規(guī)范信息的元數(shù)據(jù)。
《統(tǒng)一標(biāo)準(zhǔn)》遵循最小粒度原則,將數(shù)據(jù)描述粒度盡可能細致到最小層面,如機構(gòu)名稱可以細分為一級機構(gòu)名稱、二級機構(gòu)名稱,地址信息可分為國家、州或省、城市以及綜合的地址信息描述。在《統(tǒng)一標(biāo)準(zhǔn)》中采用元素與屬性相結(jié)合的方式進行數(shù)據(jù)描述。其中元素是元數(shù)據(jù)的基本單元,屬性用于描述和限定元素相關(guān)信息。如日期由元素“date”描述,要限定日期的類型,需要同時采用屬性“日期類型(date-type)”。“出生日期”表示為“”。《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》復(fù)用《統(tǒng)一標(biāo)準(zhǔn)》的元素集,同樣沿襲了最小粒度原則,使得規(guī)范對象的各類信息都可以在元數(shù)據(jù)標(biāo)準(zhǔn)中得到描述。元素與屬性相結(jié)合的方式避免元素數(shù)量過大,又能深入細致地描述信息資源,具有表達靈活性。
《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》中還描述了規(guī)范對象的名稱規(guī)范關(guān)系。規(guī)范關(guān)系的根節(jié)點下包含規(guī)范對象的唯一標(biāo)識符和多個其他形式的標(biāo)識符,即一條規(guī)范數(shù)據(jù)由該規(guī)范對象的一組數(shù)據(jù)組成,每個規(guī)范對象有一個唯一標(biāo)識的規(guī)范ID。因《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》中以實體為單位建立描述元素集,且每一個規(guī)范對象有唯一標(biāo)識符標(biāo)識,因此可以揭示規(guī)范對象之間的關(guān)系,如作者與機構(gòu)的關(guān)系、基金與機構(gòu)的關(guān)系等。
NSTL以集成融合的數(shù)據(jù)管理系統(tǒng)為數(shù)據(jù)來源,以《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》為元數(shù)據(jù)格式,從中抽取科研實體信息,構(gòu)建NSTL名稱規(guī)范系統(tǒng)。NSTL名稱規(guī)范系統(tǒng)的建設(shè)首先是數(shù)據(jù)抽取,根據(jù)《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》,從文獻信息中析出人員、機構(gòu)、基金、期刊信息。其中,人員有姓名、聯(lián)系方式、出生與死亡日期、所屬機構(gòu)等信息;機構(gòu)有機構(gòu)名稱、聯(lián)系方式、地址等信息;基金有基金名稱、日期、主題、介紹等信息。
其次是規(guī)范控制,規(guī)范控制又包含兩方面的工作:一是科研實體合并消歧,針對不同類形的規(guī)范對象,采用不同的消歧算法,在消歧過程中充分利用唯一標(biāo)識符的唯一識別作用。如人員消歧算法中,首先采用ORCID、ResearcherID等唯一標(biāo)識符進行識別,接著采用姓名、郵箱、研究領(lǐng)域、其他名稱、所在機構(gòu)、合作者信息等進行區(qū)分。二是規(guī)范關(guān)系的揭示,規(guī)范關(guān)系描述同一規(guī)范對象的不同表達形式的信息,通過揭示規(guī)范關(guān)系,形成規(guī)范數(shù)據(jù)。一條規(guī)范數(shù)據(jù)是關(guān)于單個實體的一組記錄,這組記錄可能包含來自多個不同的數(shù)據(jù)源的多條記錄。NSTL名稱規(guī)范系統(tǒng)為每一條規(guī)范數(shù)據(jù)賦予一個規(guī)范ID唯一識別實體,通過實體關(guān)聯(lián)識別與規(guī)范關(guān)系揭示,可以依托原文獻信息挖掘?qū)嶓w與實體之間的關(guān)系,如人員與機構(gòu)間的隸屬關(guān)系、機構(gòu)與基金之間的發(fā)起關(guān)系。
NSTL在“十三五”規(guī)劃中提出推進NSTL元數(shù)據(jù)的開放利用,按照通用格式規(guī)范發(fā)布開放元數(shù)據(jù),爭取以關(guān)聯(lián)數(shù)據(jù)方式發(fā)布開放元數(shù)據(jù)。逐步建立跨界數(shù)據(jù)關(guān)聯(lián)利用機制,逐步建立NSTL文獻資源與國內(nèi)外各類數(shù)據(jù)源的關(guān)聯(lián)[36]。在“十三五”規(guī)劃的指導(dǎo)下,NSTL在規(guī)范控制方面開展了一系列的研究工作,包括各類型規(guī)范數(shù)據(jù)建設(shè)研究,在NSTL名稱規(guī)范庫基礎(chǔ)上的各類規(guī)范數(shù)據(jù)規(guī)范化處理與增強,以及面向未來的規(guī)范數(shù)據(jù)語義化研究。
各類規(guī)范數(shù)據(jù)建設(shè)方面,王軍輝等[37]研究了期刊規(guī)范文檔建設(shè)方案與應(yīng)用場景并進行了實踐,借鑒FRBR/FRAD模型的理念將NSTL聯(lián)合目錄中的每條期刊書目視為一個物理品種實體。隨后在實踐中以烏利希期刊資源完善了期刊的沿革關(guān)系,以PubMed期刊資源為例實現(xiàn)期刊別名整合,并開發(fā)了原型系統(tǒng)[38]。方安等[39]研究了會議規(guī)范文檔建設(shè)與功能。通過NSTL聯(lián)合目錄系統(tǒng)建設(shè)實現(xiàn)了會議規(guī)范文檔的目標(biāo)功能,達到對會議信息進行規(guī)范控制和統(tǒng)一管理的建設(shè)目標(biāo)。
NSTL名稱規(guī)范庫基礎(chǔ)上的各類規(guī)范數(shù)據(jù)規(guī)范化處理與增強方面,包括從多來源母體數(shù)據(jù)的人工規(guī)范化處理、機構(gòu)和人名信息的增強及處理、基金信息的增強和處理等方面,研究如何充分利用已有外部數(shù)據(jù)庫提供的相關(guān)數(shù)據(jù),豐富本地名稱規(guī)范數(shù)據(jù)。
面向未來的語義化研究方面,開展名稱規(guī)范數(shù)據(jù)的語義表示路徑研究。通過調(diào)研現(xiàn)有信息服務(wù)機構(gòu)和出版商在語義表示方面的研究項目和實踐,分析關(guān)聯(lián)數(shù)據(jù)發(fā)布項目中的數(shù)據(jù)模型,吸取經(jīng)驗,構(gòu)建NSTL名稱規(guī)范數(shù)據(jù)的數(shù)據(jù)模型,探索NSTL關(guān)聯(lián)數(shù)據(jù)發(fā)布方案,推動NSTL規(guī)范數(shù)據(jù)走向語義化。
NSTL的《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》以模塊化設(shè)計為原則,每一種規(guī)范對象為一個模塊且模塊可復(fù)用,避免了MARC21在一條規(guī)范記錄中描述多種實體信息的混合描述情況,體現(xiàn)了實體-關(guān)系思想。最小粒度原則使得規(guī)范對象的信息能夠被深入細致地描述。每一規(guī)范對象賦予唯一標(biāo)識符,實現(xiàn)規(guī)范對象的唯一識別,方便揭示規(guī)范對象之間的關(guān)系。NSTL名稱規(guī)范系統(tǒng)利用計算機技術(shù),依托自身豐富的資源,實現(xiàn)了大數(shù)量級的科研實體規(guī)范控制??蒲袑嶓w的規(guī)范控制為NSTL文獻檢索發(fā)現(xiàn)系統(tǒng)提供了支撐,為提高其檢索效果以及開發(fā)科研動態(tài)揭示、科研合作網(wǎng)絡(luò)發(fā)現(xiàn)等知識服務(wù)提供了數(shù)據(jù)基礎(chǔ)。NSTL規(guī)范控制的研究為提高NSTL規(guī)范系統(tǒng)的建立、規(guī)范數(shù)據(jù)的提高以及規(guī)范數(shù)據(jù)的未來發(fā)展進行了預(yù)研,積累了理論與方法基礎(chǔ)。
在當(dāng)前規(guī)范控制內(nèi)容從名稱選擇向?qū)嶓w管理轉(zhuǎn)變,規(guī)范數(shù)據(jù)模型由平面化的MARC或元素集轉(zhuǎn)向以實體關(guān)系為基礎(chǔ)的數(shù)據(jù)模型的趨勢下,NSTL規(guī)范控制仍然有進一步拓展的空間。如《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》以單條記錄為描述單元,沒有完全形成以真實世界實體為描述對象的描述框架或本體,不能支持數(shù)據(jù)集的重用和開放關(guān)聯(lián)。另外,NSTL名稱規(guī)范數(shù)據(jù)主要用于支持NSTL文獻檢索發(fā)現(xiàn)系統(tǒng),其規(guī)范ID只能在本地系統(tǒng)中唯一識別科研實體,不能為NSTL其他系統(tǒng)或第三方機構(gòu)重用。NSTL名稱規(guī)范數(shù)據(jù)從文獻數(shù)據(jù)中析出,描述規(guī)范對象的數(shù)據(jù)有限,需要借助融合其他數(shù)據(jù)集獲得質(zhì)量提升。因此,研究提出下一步NSTL規(guī)范控制的發(fā)展走向。
國內(nèi)外先行者開展的多項關(guān)聯(lián)數(shù)據(jù)發(fā)布實踐提供了豐富的經(jīng)驗。NSTL可依托已經(jīng)開展的語義化研究成果,在研究現(xiàn)有國內(nèi)外信息服務(wù)機構(gòu)或出版商關(guān)聯(lián)數(shù)據(jù)實踐的基礎(chǔ)上,探索符合NSTL名稱規(guī)范系統(tǒng)應(yīng)用需要的關(guān)聯(lián)數(shù)據(jù)模型,將NSTL名稱規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。并逐步建立關(guān)聯(lián)規(guī)范數(shù)據(jù)集與外部數(shù)據(jù)集的關(guān)聯(lián),包括與VIAF等規(guī)范關(guān)聯(lián)數(shù)據(jù)集的關(guān)聯(lián),與DBpedia、維基百科、百度百科等百科類知識的關(guān)聯(lián),以及與ORCID、ISNI等唯一標(biāo)識符系統(tǒng)的關(guān)聯(lián)。通過開放關(guān)聯(lián)提高數(shù)據(jù)集的質(zhì)量,提高規(guī)范數(shù)據(jù)的應(yīng)用價值。
德國國家圖書館發(fā)布的《2017—2020優(yōu)先戰(zhàn)略》[40]提出要推進規(guī)范文檔向所有類型的文化機構(gòu)開放,提高公眾對規(guī)范文檔的認識和使用,實現(xiàn)規(guī)范文檔GND基礎(chǔ)設(shè)施現(xiàn)代化。德國國家圖書館開發(fā)了基于GND數(shù)據(jù)服務(wù)Entity Facts[41],為規(guī)范文檔中的實體提供機器可讀的說明,使得規(guī)范數(shù)據(jù)更加容易集成到其他應(yīng)用程序中。NSTL規(guī)范數(shù)據(jù)在尋求與外部資源關(guān)聯(lián)融合以及提高規(guī)范數(shù)據(jù)質(zhì)量的同時,也可以采取措施推動規(guī)范數(shù)據(jù)在更廣范圍內(nèi)的應(yīng)用,開發(fā)基于名稱規(guī)范數(shù)據(jù)的數(shù)據(jù)服務(wù),拓展服務(wù)范圍,創(chuàng)新服務(wù)方式。服務(wù)范圍拓展方面,研究規(guī)范數(shù)據(jù)提供服務(wù)的機制,使規(guī)范數(shù)據(jù)不僅為NSTL文獻檢索發(fā)現(xiàn)系統(tǒng)提供規(guī)范控制,同時也能為其他圖書館的系統(tǒng)或其他文化遺產(chǎn)機構(gòu)的資源系統(tǒng)相融合;數(shù)據(jù)服務(wù)開發(fā)方面,支持語義搜索、科研評價、數(shù)據(jù)挖掘等服務(wù)。在關(guān)聯(lián)數(shù)據(jù)支持下,當(dāng)用戶在數(shù)據(jù)庫中查詢規(guī)范數(shù)據(jù)時,可以獲取實體的屬性信息,還可以通過關(guān)聯(lián)數(shù)據(jù)集中的關(guān)系查詢到與之相關(guān)聯(lián)的實體。通過對某一機構(gòu)或某一作者的出版成果進行統(tǒng)計分析可以用于評價作者或機構(gòu)等實體的科研水平。此外,關(guān)聯(lián)數(shù)據(jù)化的規(guī)范數(shù)據(jù)可以支持一系列的計量學(xué)分析,包括作者合作分析、研究趨勢分析、研究演化分析、區(qū)域分布分析等。
多國國家級機構(gòu)建立了文化遺產(chǎn)資源的統(tǒng)一平臺,尋求圖書館、檔案館、博物館等文化遺產(chǎn)機構(gòu)的聯(lián)合。博物館界發(fā)起的“Open Authority”試圖聯(lián)合圖書館、美術(shù)館、博物館共同進行規(guī)范控制。歐盟數(shù)字圖書館(Europeana)與數(shù)千個歐洲檔案館、圖書館和博物館合作,共享文化遺產(chǎn)。其在2011—2015年的戰(zhàn)略規(guī)劃中將聚合并建立開放可信的歐洲文化遺產(chǎn)資源作為未來5年四大發(fā)展戰(zhàn)略之一[42]。2012年10月,Europeana將2000萬條文字、圖像、視頻和聲音的元數(shù)據(jù)轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù)[43]。美國數(shù)字公共圖書館(Digital Public Library of America,DPLA)旨在將美國的圖書館、檔案館和博物館的資源聚合起來,將18個成員機構(gòu),超過200萬條記錄發(fā)布為關(guān)聯(lián)數(shù)據(jù)。在2019—2022年的戰(zhàn)略規(guī)劃中,DPLA表示要不斷擴大文化遺產(chǎn)資源匯聚網(wǎng)絡(luò)[44]。這些案例均體現(xiàn)跨領(lǐng)域資源融合的趨勢。NSTL作為國家級科技文獻信息的資源保障基地、服務(wù)集成樞紐和服務(wù)發(fā)展支持中心,其下?lián)碛卸鄠€成員單位。尋求與其他文化遺產(chǎn)機構(gòu)聯(lián)合,實現(xiàn)聯(lián)合檔案館、圖書館、博物館等的關(guān)聯(lián)應(yīng)用和服務(wù),將形成合力,將規(guī)范控制工作推上新臺階。
傳統(tǒng)的規(guī)范控制方式已不適用于當(dāng)前的需求環(huán)境,規(guī)范控制的內(nèi)容與數(shù)據(jù)模型均發(fā)生了變革。開放關(guān)聯(lián)為規(guī)范控制提供了新路徑,在W3C開放關(guān)聯(lián)運動的推動下,規(guī)范數(shù)據(jù)走向開放關(guān)聯(lián)。規(guī)范數(shù)據(jù)的數(shù)據(jù)模型也由MARC走向以實體-關(guān)系為基礎(chǔ)的描述框架或本體。國外圖書館紛紛將規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)并建立與其他數(shù)據(jù)集的關(guān)聯(lián)。在這樣的趨勢下,NSTL制定了模塊化、細粒度化的《名稱規(guī)范元數(shù)據(jù)標(biāo)準(zhǔn)》。以此為數(shù)據(jù)模型建立的NSTL名稱規(guī)范庫系統(tǒng)實現(xiàn)了大數(shù)量級的科研實體規(guī)范控制,NSTL規(guī)范控制取得重要成果。未來NSTL可以將已有研究成果應(yīng)用于實踐,推進規(guī)范數(shù)據(jù)從封閉單一的“記錄”數(shù)據(jù)走向開放關(guān)聯(lián)的實體關(guān)系數(shù)據(jù),并推動規(guī)范數(shù)據(jù)向更廣范圍內(nèi)的第三方開放,開發(fā)基于關(guān)聯(lián)規(guī)范數(shù)據(jù)的數(shù)據(jù)服務(wù)。同時,促進跨領(lǐng)域規(guī)范數(shù)據(jù)融合,實現(xiàn)聯(lián)合檔案館、圖書館、博物館等的關(guān)聯(lián)應(yīng)用和服務(wù)。通過服務(wù)范圍的拓展和服務(wù)方式的創(chuàng)新,以期充分實現(xiàn)圖書館資源在網(wǎng)絡(luò)時代應(yīng)有的價值。