許磊
?
CNMARC與BIBFRAME的映射基礎及其實現(xiàn)
許磊
(上海圖書館,上海 200031)
關聯(lián)數(shù)據(jù)已經(jīng)成為圖書館資源開放的重要技術手段。書目數(shù)據(jù)作為圖書館最核心的數(shù)據(jù)資源,在網(wǎng)絡中開放共享是必然趨勢。關聯(lián)書目數(shù)據(jù)發(fā)布的關鍵一步是MARC字段與本體詞表之間的映射。本文在梳理元數(shù)據(jù)映射、元數(shù)據(jù)元素與知識本體之間的關系基礎上,對CNMARC字段與BIBFRAME本體詞表的語義映射關系進行總結,并以典型的字段映射進行說明。
CNMARC;BIBFRAME;元數(shù)據(jù)映射
圖書館擁有豐富的結構化數(shù)據(jù),在互聯(lián)網(wǎng)時代應當成為重要的信息分發(fā)機構。但現(xiàn)實是用戶的第一信息獲取途徑已經(jīng)不再是圖書館[1-2]。在開放數(shù)據(jù)運動的推動下,數(shù)據(jù)在互聯(lián)網(wǎng)中的可發(fā)現(xiàn)才能發(fā)揮其更大的價值[3]。而現(xiàn)有的圖書館數(shù)據(jù)是以不兼容于網(wǎng)絡通行標準的MARC和ISO2709格式進行存儲和交換,這極大限制了圖書館數(shù)據(jù)的開放和共享,也進一步邊緣化了圖書館信息中心的角色地位。
自2006年關聯(lián)數(shù)據(jù)概念被首次提出,其開放、互聯(lián)的屬性天然地成為開放數(shù)據(jù)運動的技術助力。關聯(lián)數(shù)據(jù)利用成熟的網(wǎng)絡技術(如RDF、URI、HTTP等),在互聯(lián)網(wǎng)上發(fā)布和關聯(lián)結構化的數(shù)據(jù),并提供HTML、API或SPARQL便于人機的訪問。圖書館利用關聯(lián)數(shù)據(jù)技術將數(shù)據(jù)發(fā)布到網(wǎng)絡上有助于資源的可發(fā)現(xiàn)性和可利用性[4]。在國外的文化遺產(chǎn)領域,關聯(lián)數(shù)據(jù)應用日漸成熟,并形成一套從數(shù)據(jù)的建模、清洗、轉換、發(fā)布、消費、評估全流程的實現(xiàn)路徑與軟件工具[5]。相比國外的蓬勃發(fā)展,國內研究雖已從理論的探討或案列、技術、工具的介紹,進入實踐階段,但無論是參與機構數(shù)量還是數(shù)據(jù)集規(guī)模都仍顯不足[6]。上海圖書館(以下簡稱“上圖”)是國內應用關聯(lián)數(shù)據(jù)技術發(fā)布、開放、消費數(shù)據(jù)較為成熟的機構,不僅設計了適用于不同文獻類型的領域本體,也提供了基于關聯(lián)數(shù)據(jù)技術的開放數(shù)據(jù)服務[7],并逐步建成面向知識服務的數(shù)字人文平臺[8]。上圖也是國內唯一大規(guī)模發(fā)布關聯(lián)書目數(shù)據(jù)的機構[9]。2017年,上圖開始嘗試將上海市文獻聯(lián)合編目中心的中文書目數(shù)據(jù)發(fā)布為關聯(lián)數(shù)據(jù),探索關聯(lián)書目數(shù)據(jù)的應用可能性,研究BIBFRAME詞表在中文編目環(huán)境中的適用性,為編目技術、流程的變革積累經(jīng)驗與技術。
關聯(lián)書目數(shù)據(jù)可以通過映射將結構化的MARC數(shù)據(jù)轉換成高質量的元數(shù)據(jù)發(fā)布到網(wǎng)絡上,為全網(wǎng)域的潛在用戶提供服務。中文書目數(shù)據(jù)的關聯(lián)化,先需要解決的是CNMARC與本體詞表的映射與轉換。白林林等[10]在參考MARC21與RDF轉換的基礎上,構建了CNMARC到RDF的映射實現(xiàn)。李勇文[11]從理論層面探討了BIBFRMAE詞表在中文書目數(shù)據(jù)中的研究范式。吳貝貝[12]采用元數(shù)據(jù)映射方法,形成了CNMARC字段與BIBFILAME詞表的映射。周小萍[13]、許磊[14]在實踐層面實現(xiàn)了CNAMRC字段與BIBFRAME詞表之間更具體的映射關系。但現(xiàn)有的研究沒有對CNAMRC與BIBFRAME之間的映射基礎進行深入研究。
CNMARC與BIFBRAME之間的映射本質是兩種描述標準的互操作。本文嘗試在資源描述的語義互操作基礎上,對本體詞表與元數(shù)據(jù)元素間的聯(lián)系與區(qū)別進行討論,實現(xiàn)對CNAMRC與BIBFRAME的映射基礎更深入地分析,在此基礎上實現(xiàn)兩者之間的映射。
隨著數(shù)字資源的快速增長,通用的或僅適用于特定領域的元數(shù)據(jù)標準被不斷提出。元數(shù)據(jù)的多元化發(fā)展?jié)M足了領域內資源描述和管理的需求。但不兼容的元數(shù)據(jù)標準阻礙了跨系統(tǒng)的數(shù)據(jù)整合與服務。因此,促進跨系統(tǒng)數(shù)據(jù)交換與使用的元數(shù)據(jù)互操作性成為其重要原則之一[15]。元數(shù)據(jù)互操作的主要實現(xiàn)方法有應用綱要、映射、復用、開放搜尋等[16]。其中元數(shù)據(jù)映射是常用的方法之一。映射是一組系列的轉換,目的是將存儲在原始元數(shù)據(jù)標準中的元素內容進行適當?shù)男拚源鎯Φ侥繕嗽獢?shù)據(jù)元素中。具體來講,一個完整的元數(shù)據(jù)標準包括3個方面,即語義結構、內容結構和語法結構。語義是指元數(shù)據(jù)元素的定義與解釋,結構是元素之間的關系,語法是元數(shù)據(jù)的形式化編碼方案[17]。對應于這3個部分,元數(shù)據(jù)互操作也需解決3個層面的問題。元數(shù)據(jù)映射不僅包含對元數(shù)據(jù)語義結構中元素定義、語義關系和編碼規(guī)則的協(xié)調,也暗含對內容結構中各個元素關系的匹配。而對于語法結構的互操作,更多的是利用一種開放的可互操作的描述方法來對元數(shù)據(jù)進行置標。RDF就是一個標準的框架,通過設計支持語義、語法和結構方面的通用協(xié)議機制,滿足人們對元數(shù)據(jù)的編碼、交換和再利用[18]。
現(xiàn)有的書目數(shù)據(jù)多以MARC格式著錄,而關聯(lián)數(shù)據(jù)是要用本體詞表進行描述。關聯(lián)書目數(shù)據(jù)的發(fā)布,就需要確定MARC元數(shù)據(jù)元素與本體詞表屬性之間的對應關系,即元數(shù)據(jù)元素與本體詞表之間的映射。
本體即領域本體,是對領域知識的抽象化、概念化,是共享的概念模型明確的形式化規(guī)范說明[19]。它提供了描述領域知識的結構化術語詞表。術語分為類(Class)和屬性(Property)兩種。類是抽象層面的泛指,通常是對一類實體對象共性的總結;屬性是對類的各種特征的抽象,用于表示類之間的關系。屬性在RDF三元組中是作為謂語,它連接主語和賓語。本體詞表可以通過RDF schema結構的屬性公理定義屬性的定義域(Domain)和值域(Range)特征,規(guī)定其連接的主語和賓語的類型。根據(jù)定義域和值域的不同,屬性可以分為對象屬性(Object Properties)和數(shù)據(jù)類型屬性(Datatype Properties)。數(shù)據(jù)屬性連接的是實體到數(shù)據(jù)值。對象屬性連接實體到實體,其值域類可以作為另一個屬性的定義域類,而這也正是RDF框架的優(yōu)勢所在,即靈活、開放、可擴展。
元數(shù)據(jù)是對某個潛在信息性對象做出的陳述。一個元數(shù)據(jù)陳述就是含有主謂賓的三元組陳述。在元數(shù)據(jù)模式中,謂語常被稱為元素,它通過元素-值配對構成關于某個資源的唯一陳述[20]。被描述的資源是主語,而賓語是用于描述主語的值。值的類型可以分成字符串數(shù)據(jù)和對象數(shù)據(jù)。這對應了本體詞表中的2種類型屬性。MARC是書目信息的元數(shù)據(jù)模式。一條MARC數(shù)據(jù)是對整個文獻資源中各種信息對象的陳述集合。MARC模式中,字段子字段就是謂語元素。分解到每一個字段或子字段及其取值,就是對多個或單個信息對象做出的唯一陳述。MARC字段與本體詞表的映射,就是對字段子字段的元素-值配對陳述與本體詞表中定義的屬性進行對比。
MARC標準經(jīng)過50多年的發(fā)展,其線性的結構、匱乏的語義、封閉的生態(tài)已不適用于開放互聯(lián)的數(shù)據(jù)時代。圖書館領域一直在探索制定后MARC時代的書目標準。BIBFRAME即是這種探索的重要成果之一。BIBFRAME是美國國會圖書館牽頭,以取代MARC為基本目標而開發(fā)的一種面向“未來網(wǎng)絡世界中書目描述”的書目本體[21]。BIBFRAME采用實體-關系模型對書目數(shù)據(jù)中實體及其關系進行分析和標識,并使機器能夠理解這個模型。在2016年發(fā)布更新版中,BIBFRAME詞表發(fā)布了包含3個核心類在內的共186個類,以及190個屬性。3個核心類分別是作品(Work)、實例(Instance)和單件(Item)。最新的三層模型與國際圖聯(lián)統(tǒng)一模型(IFLA-LRM)的四層模型更加接近,增加了與IFLA-LRM和RDA的兼容性,更便于編目員進行編目操作[22]。
作品層是抽象的內容層次,不指向特定的物理對象,是對不同題名不同表達形式的同一作品的聚合。BIBFRAME按照表達類型,將作品分為文本、地圖、數(shù)據(jù)集、靜態(tài)圖像、動態(tài)圖像、音頻、樂譜、舞譜、物體、多媒體、混合資料11種子類,幫助用戶查找識別選擇不同類型的作品。不同的作品擁有共同的主題、代理、事件等屬性特征。實例是載體層次,是抽象作品的具體載體表現(xiàn)。BIBFRAME細分了印刷型、手稿、檔案、觸摸、電子型5種實例類型。實例層共享不同作品實例的版本、載體形態(tài)、出版發(fā)行等屬性特征。單件是BIBFRAME2.0中新增的核心類,是實例的單一樣本。BIBFRAME單件對應了IFLA-LRM和RDA的單件層,滿足圖書館靈活、輕便、準確地記錄館藏數(shù)據(jù)[23]。
BIBFRAME190個屬性中有127個對象屬性,63個數(shù)據(jù)類型屬性。在BIBFRAME詞表網(wǎng)頁端分別使用“Used with”和“Expected Value”表示屬性的定義域和值域。RDF三元組的主語必須是實體,即屬性的定義域取值必須是類。當屬性定義了值域,則該屬性是值域類的專屬屬性,即屬性三元組的主語只能是定義域類。而當屬性沒有定義值域,即“Used with”是“Unspecified”,說明屬性三元組的主語沒有限定,可以是任意的實體類。對于值域的不同,區(qū)分了兩種不同類型的屬性。數(shù)據(jù)屬性的期待值是字符串(Literal),對象屬性的期待值是實體類。如對象屬性bf:heldBy,表示文獻單件的館藏者。它的定義域是實體類bf:Item,值域是類bf:Agent。類bf:Agent可以作為其他屬性的定義域,這樣就可以進一步描述bf:Agent的屬性和關系。
BIBFRAME和MARC是不同技術環(huán)境下對同一類對象進行描述的標準。前者定義本體詞表,利用RDF三元組結構對書目數(shù)據(jù)中的實體對象進行屬性和關系的描述;后者定義字段與子字段,利用元素-值的結構對書目數(shù)據(jù)進行整體性的描述。雖然兩者在結構框架、交換機制等方面存在差別,但BIBFRAME繼承性地取代MARC的初衷,就已暗含了兩者的對應關系。即MARC格式可以通過映射與BIBFAMRE詞表建立對應關系,實現(xiàn)數(shù)據(jù)的重新編碼與發(fā)布。
MARC標準以文獻載體為著錄對象,文獻載體不同的特征利用不同的字段描述。一個字段即是對其某一方面特征的描述,其潛在語義結構是“…”“有/是/關于”“…”的主謂賓結構。而在關聯(lián)數(shù)據(jù)語境下,文獻載體不再是不可分割的整體,文獻所含的對象與關系成為我們關注的焦點。因此,MARC格式與BIBFRAME詞表之間的映射,需要對MARC字段進行拆解與分層,以辨別每個字段描述了哪一層對象的屬性和關系。MARC格式通過字段的定義和范圍說明其含義,而字段含義隱含了對實體對象的指定。這個字段的實體對象的屬性與關系對應到子字段的描述。子字段記錄了具體的特征值,也就是對象的屬性和關系。
語義映射是兩個元數(shù)據(jù)標準的元素對應關系。在遵循語義相近原則、精確匹配原則和最廣泛兼容原則下[24],元素映射應盡可能完整準確地保留源元數(shù)據(jù)的語義信息,最小化信息的損耗。
元素映射需要對原始的MARC數(shù)據(jù)進行分析,統(tǒng)計字段使用情況,明晰字段的映射范圍。MARC字段可分為必備字段、特定資源必備字段、有則必備字段和選擇使用字段。首先,編目機構在制定本地著錄細則時,會根據(jù)需要規(guī)定不同的字段必備性。其次,某些沿用自磁帶技術的字段及其取值代碼,在映射到本體詞表后不再有意義,需要排除在映射表外或規(guī)定其取值規(guī)則。最后,針對語義冗余的MARC字段,需要根據(jù)實際進行映射的取舍或優(yōu)先級判斷。
BIBFRAME將書目數(shù)據(jù)分成作品-實例-單件(Work-Instance-Item)的核心實體層,它們各有自己的屬性和關系。CNMARC記錄是按照標志塊、編碼信息塊等10個功能塊構成的平面層次結構。每個功能塊混雜了作品、實例或單件的屬性和關系。在明確字段映射范圍后,映射表在編制時就要確定MARC字段對應BIBFRAME的哪個核心層。
一個完整的或規(guī)范性的映射不僅有語義映射,也需要有元數(shù)據(jù)轉換說明[25]。元數(shù)據(jù)轉換說明是對內容適當修正做出的規(guī)定,即對遵從原始元數(shù)據(jù)格式的元素值進行修正,以滿足目標元數(shù)據(jù)的內容結構要求,實踐中表現(xiàn)的是“映射取值規(guī)則”等。MARC格式通過子字段標識來存儲不同含義的內容值,且不同子字段之間有著前后順序,即一個字段中的多個子字段順序組配在一起表達一個完整的含義。同時,在沒有子字段標識區(qū)分不同內容值含義時,就需要有另一種標識符號系統(tǒng)滿足對不同內容值的含義及起止進行說明的需求。ISBD就提供了標準的標識符解決方案,“由書目機構提供,置于每一書目著錄項目或著錄單元(第一著錄項目的第一單元除外)信息之前或書目著錄項目之中的標識符號”。因此,映射取值規(guī)則中明確規(guī)定了取值內容要保留原始的子字段順序,并使用ISBD標識符進行內容取值的字符串拼接。除了對原始格式內容格式的規(guī)定,目標格式內容也要在取值規(guī)則中說明。如BIBFRAME定義的屬性bf:data取值是字符串,但在最佳實踐中時間的格式建議采用ISO國際標準格式,以便于數(shù)據(jù)的共享和處理。
元數(shù)據(jù)標準是為不同領域或不同目的而設計的,因此不同元數(shù)據(jù)元素之間存在不同的語義對應關系。除了在非MARC環(huán)境中沒有意義的字段外,CNMARC字段與BIBFRAME詞表之間的映射關系還可以分為以下4種。
(1)一對一關系。一對一關系是兩個元數(shù)據(jù)之間映射最常見的類型,表示一個源術語的語義信息與唯一一個目標術語的語義有極高的相似性或完全等同。如010$aISBN字段映射到BIBFRAME就是bf:Instance--bf:identifiedBy--bf:Isbn這個三元組。
(2)一對多關系。一對多關系表示源術語的語義外延較寬泛,有多個目標術語的語義在其語義范圍內,這時可以建立起一對多的語義映射關系。如200題名字段,同一個字段需要映射到Work和Instance兩層不同的三元組。
另外還存在一種特殊的一對多關系。一是字段在指示符不同的時候,含義不同,同一個字段就會映射到不同的三元組。典型的如團體責任者字段,當?shù)谝恢甘痉?時,表示團體,映射后三元組的賓語就是Organization;當是1時,則為Meeting。二是定長字段同一欄位根據(jù)取值需要映射到不同或多個三元組。如頭標區(qū)第6位,當取值為a時,表示文獻記錄類型是印刷文字,它表達了兩層含義:第一層是作品的內容表現(xiàn)形式為文字,映射到BIBFRAME三元組就是bf:Work--rdf:type--bf:Text;第二層表示文獻的物質載體是印刷型,映射的三元組則為bf:Instance--rdf:type--bf:Print。
(3)多對一關系。多對一關系與一對多關系正好相反,表示源術語的語義外延較寬窄,這些術語的語義可以被語義外延較寬的一個目標術語所包含,這時就可以建立多對一的映射關系。在這類映射中,需要進行映射優(yōu)先級判斷或對關系類型進行說明。第一類如出版發(fā)行時間字段的210$d$h與100$a第9~16位,兩個字段都表示文獻的出版發(fā)行時間,前者是轉錄字段,后者是規(guī)范的公元紀年。出于時間規(guī)范化處理,出版發(fā)行時間的子字段映射到bf:ProvisionActivity--bf:data--Literal三元組時,100$a第9~16位的優(yōu)先級高于210$d$h。而在映射到bf:Instance--bf:provisionActivityStatement--Literal三元組時,210$d$h的優(yōu)先級有高于100$a第9~16位。第二類的典型如3XX附注類字段。不同的3XX字段表示不同含義的附注信息,但在BIBFRAME詞表中只有一個bf:note屬性構成的三元組用于附注說明。但在映射中為了區(qū)分不同的附注類型,可以用bf:Note--bf:noteType--Literal三元組進行說明。
(4)無映射關系。無映射關系表示源元數(shù)據(jù)術語在目標元數(shù)據(jù)中無法找到對應的元素,兩者術語的語義不存在任何重合的情況。此類字段的映射,需要復用其他詞表的術語或自定義術語。而在關聯(lián)數(shù)據(jù)實踐中,復用已有的成熟詞表,以增強數(shù)據(jù)之間的共享便利性是推薦的最佳實踐。因此,CNMARC字段無法映射到BIBFRAME詞表時,可以在關聯(lián)開放詞表(linked open vocabularies,LOV)中查詢適用的詞表,如主題類字段的映射[14]。
CNMARC與BIBFRAME之間的映射,是以字段子字段為節(jié)點的MARC元數(shù)據(jù)模式與本體詞表的三元組框架之間的映射。當兩者的主謂賓三元組陳述相同時,即可進行映射。
具體的字段映射如210字段。210字段著錄了與文獻有關的出版發(fā)行信息。此處的文獻是載體層面的概念,對應到BIBFRAME模型就是實例層(Instance)。BIBFRAME詞表用對象屬性bf:provisionActivity表示與資源出版發(fā)行制作等有關的時間、地點、代理。它的定義域是bf:Instance,值域是bf:ProvisionActivity。屬性bf:provisionActivity的三元組映射到CNMARC就是210字段。210字段再細分到子字段,$a表示出版發(fā)行地,對應類bf:Place,它的可用屬性是未規(guī)定定義域的bf:place,可以是任何的實體類。因此類bf:Place通過對象屬性bf:place與類bf:ProvisionActivity構成一個三元組陳述。$b表示出版發(fā)行者,對應類bf:Agent,使用未規(guī)定定義域的對象屬性bf:agent與類bf:ProvisionActivity構成一個三元組陳述。$c表示出版發(fā)行時間,直接用未規(guī)定定義域的數(shù)據(jù)類型屬性bf:data構成一個三元組陳述。完整的210字段映射如圖1所示。
又如定長類字段,其1位或多位取值構成一組語義信息,此類字段需要按位進行映射。定長字段105記錄了與圖書有關的圖片類型、內容特征、索引等代碼。0~3位圖片代碼和10位索引代碼都是文獻的附加內容,隨不同的版本而不同,不屬于作品的固有特征,因此映射到BIBFRAME的實例層(Instance)。4~9,11~12位是內容體裁代碼,其屬性值不隨著版本的不同而發(fā)生變化,是作品的固有特征,因此映射到BIBFRAME的作品層(Work)。完整的105字段映射見表1。
以關聯(lián)數(shù)據(jù)實體識別為視角,BIBFRAME將書目數(shù)據(jù)分為作品、實例和單件3個核心層。實例和單件的概念與MARC標準相近,映射較為簡單;作品是書目數(shù)據(jù)中最重要的實體,作品層映射關系的確定是整個映射表編制的關鍵與難點。
作品的一個重要識別元素就是正題名。CNMARC數(shù)據(jù)中題名著錄涉及200、225、5XX、461和462等多個字段,每個字段又有$a$h$i子字段著錄題名的各數(shù)據(jù)單元。在上海圖書館關聯(lián)書目數(shù)據(jù)項目(以下簡稱“上圖項目”)中,將作品分為普通圖書、匯編文獻、年鑒和集刊、叢書4種。
對于普通圖書,作品的首選題名著錄于500字段。因此,500字段的映射優(yōu)先級高于200字段。200字段的正題名又可以分為單一正題名和交替題名。單一正題名時,作品題名將直接映射到200字段;對于交替題名,有檢索意義的題名分別著錄在517字段中。因此,作品題名優(yōu)先從第一個517字段獲取。其他的517字段作為作品的變異題名。
年鑒和集刊類文獻是指定期出版的期刊類圖書。這兩類圖書每期的責任者或題名的分卷信息有可能不同。但本質上它們都是一個系列的文獻,是一個更大作品的組成部分。對于這類文獻,使用“超級作品”的概念。超級作品是由人工整理的年鑒集刊的作品信息,是一個沒有載體實例的虛擬實體,起到聚類的作用。具體到年鑒,在上海聯(lián)編的CNMARC數(shù)據(jù)中年鑒的首選題名著錄于540字段,其取值優(yōu)先級高于200字段;集刊類書目數(shù)據(jù)的首選題名信息首先從500字段取值,如果沒有再從200提取。這兩類作品與超級作品之間的關系用“bf:partOf”表示。
叢書是一組相互關聯(lián)而又各自獨立的文獻,每種文獻除具有各自的題名外,還有一個整組文獻的總題名。叢書本質上也是一個作品,它與系列內各作品之間是“bf:hasSeries”的關系。在上圖項目中,叢書只在有225$f時才作為作品發(fā)布,如果沒有則作為實例的屬性。
而對于無總題名的匯編文獻,機器無法判斷題名字段與責任者字段之間的配對關系,也就無法識別作品,這類數(shù)據(jù)在現(xiàn)階段暫不考慮。
另外,上圖項目在利用“創(chuàng)作者+首選題名”作品集信息鍵對作品進行去重聚類時,如果多條MARC記錄屬于同一件作品,就通過自定義屬性“shlbib:source”保留CNMARC記錄的唯一標識號以說明屬性值的來源。
發(fā)布關聯(lián)書目數(shù)據(jù),映射表的設計是一個基礎性工作。CNAMRC是書目領域的元數(shù)據(jù)標準,BIBFRAME則是以RDF為基礎開發(fā)的本體詞表。一方面,元數(shù)據(jù)標準本身可以看成是知識本體的一種形式;另一方面,本體在某種程度上也可以看成是“元”元數(shù)據(jù)[19]。兩者都是對資源做出陳述性描述的標準。在此理解基礎上,利用元數(shù)據(jù)映射的基本原則和步驟,根據(jù)數(shù)據(jù)分析和兩者的術語語義關系,建立從源標準到目標標準的術語映射表。
現(xiàn)階段映射表已完成CNMARC普通圖書類字段的映射。但依舊存在諸多問題。①BIBFRAME詞表的很多屬性詞只用“Used with”說明其建議的定義域,而沒有嚴格定義。其實很多屬性可以同時用于作品、實例或單件層。這為映射表的編制帶來了一定的困擾。②關聯(lián)書目數(shù)據(jù)的發(fā)布先要解決作品的識別問題。作品作為抽象概念,導致其屬性與關系認定的模糊性。特別是在利用“創(chuàng)作者+首選題名”作品鍵進行作品對象去重時,即使不同MARC數(shù)據(jù)的作品鍵相同,但作品層的其他屬性與關系也有可能是不同的,如摘要、主題、讀者對象等。因此,在利用BIBFRAME詞表描述的數(shù)據(jù)實現(xiàn)FRBR作品層聚合時,需要明確BIBFRAME作品與FRBR作品是不同的,也不是簡單地對應了FRBR的作品和內容表達。一方面,BIBFRAME詞表中定義的屬性詞“Used with”為“bf:Work”和“bf:Instance”時,映射表需根據(jù)項目需求決定映射到哪一層對象;另一方面,也可以在BIBFRAME作品-實例-單件的三層模型結構之上,引入更抽象的超級作品層,即超級作品-BIBFRAME作品-實例-單件的四層結構,在超級作品層上實現(xiàn)聚類。③對于無總題名的匯編類數(shù)據(jù),可以考慮在CNMARC格式中啟用新字段著錄作品的責任者與題名信息;或者考慮眾包方式,將這類作品的識別由用戶人工完成。
接下來,在第一階段關聯(lián)數(shù)據(jù)發(fā)布后,結合轉換效果的分析,繼續(xù)對現(xiàn)有的映射表進行完善,特別是作品層映射關系的明確,同時也將擴展到非書類字段的映射,最終實現(xiàn)所有CNMARC字段與BIBFRAME詞表的映射。
[1] 周艷玫,劉東蘇,王衍喜,等. 大學生信息行為調查分析與信息服務對策[J]. 圖書情報工作,2015(6):61-67.
[2] BORREGO A,ANGLADA L. Faculty information behaviour in the electronic environment[J]. New Library World,2016,117(3/4):173-185.
[3] 廖建軍. 美國政府“開放獲取”政策及其對美國的影響[J]. 圖書館,2018(4):58-62,105.
[4] TIMOTHY W C,MYUNG-JA H,WILLIAM F W. Library Marc records into linked open data:challenges and opportunities[J]. Journal of Library Metadata,2013,13(2/3):163-196.
[5] 2018 International Linked Data Survey for Implementers[EB/OL].[2018-10-02]. https://www.oclc.org/research/themes/data-science/linkeddata/linked-data-survey.html.
[6] 潘煦,陽廣元. 近年來國內基于關聯(lián)數(shù)據(jù)的數(shù)字圖書館研究綜述[J]. 圖書館理論與實踐,2016(7):34-38.
[7] 張磊,夏翠娟. 面向數(shù)字人文的圖書館開放數(shù)據(jù)服務研究——以上海圖書館開放數(shù)據(jù)應用開發(fā)競賽為例[J]. 圖書館雜志,2018(3):33-38,48.
[8] 夏翠娟,張磊,賀晨芝. 面向知識服務的圖書館數(shù)字人文項目建設:方法、流程與技術[J]. 圖書館論壇,2018(1):1-9.
[9] 夏翠娟,許磊. 中文關聯(lián)書目數(shù)據(jù)發(fā)布方案研究[J]. 數(shù)字圖書館論壇,2018(1):8-16.
[10] 白林林,賈君枝. 關聯(lián)數(shù)據(jù)中CNMARC到RDF的映射實現(xiàn)[J]. 國家圖書館學刊,2015,24(4):94-102.
[11] 李勇文. 書目框架(BIBFRAME)在中文書目數(shù)據(jù)中的應用范式探討[J]. 圖書情報工作,2016,60(2):101-105,145.
[12] 吳貝貝. BIBFRAME在中文編目環(huán)境中的應用研究[J]. 農(nóng)業(yè)圖書情報學刊,2017,29(9):91-95.
[13] 周小萍. CNMARC與BIBFRAME的映射及轉換研究[J]. 圖書館雜志,2018,37(8):21-29.
[14] 許磊. CNMARC與BIBFRAME映射及其實現(xiàn)——以上海聯(lián)編中文普通圖書數(shù)據(jù)為例[C]//回顧與展望:新媒體時代下信息組織方法的創(chuàng)新與發(fā)展——第五屆全國文獻編目工作研討會論文集. 2017.
[15] CHAN L M,ZENG M L. Metadata interoperability and standardization—a study of methodology part I[J]. D-Lib Magazine,2006,12(6):3.
[16] 楊蕾,李金芮. 國外公共數(shù)字文化資源整合元數(shù)據(jù)互操作方式研究[J]. 圖書與情報,2015(1):15-21.
[17] 趙亮,樓向英,張春景,等. 元數(shù)據(jù)應用:語義、結構與句法[J]. 圖書館雜志,2004(7):49-55.
[18] 劉嘉. 元數(shù)據(jù)導論[M]. 北京:華藝出版社,2002:85-87.
[19] 劉煒,李大玲,夏翠娟. 元數(shù)據(jù)與知識本體[J]. 圖書館雜志,2004(6):50-54,49.
[20] 杰弗里?波梅蘭茨. 元數(shù)據(jù)[M]. 李梁,譯. 北京:中信出版社,2017:27-30.
[21] Library of Congress. BIBFRAME Frequently Asked Questions 1:What is the Bibliographic Framework Initiative?[EB/OL].[2018-10-03]. http://www.loc.gov/bibframe/faqs/#q01.
[22] 王景俠. 書目框架(BIBFRAME)模型演進分析及啟示[J]. 數(shù)字圖書館論壇,2016(10):67-72.
[23] 胡小菁. BIBFRAME核心類演變分析[J]. 中國圖書館學報,2016(3):20-26.
[24] 肖瓏,趙亮. 中文元數(shù)據(jù)概論與實例[M]. 北京:北京圖書館出版社,2007:311-312.
[25] 徐維. 透視元數(shù)據(jù)映射概念[J]. 情報理論與實踐,2004(6):649-650,631.
s of Mapping from CNMARC to BIBFRAME
XU Lei
( Shanghai Library, Shanghai 200031, China )
Linked data has become an important technical means for the opening of library resources. As the core data resource of the library, bibliographic data is an inevitable trend in the opening and sharing of the network. A key step in the publication of the linked bibliographic data is the mapping between the MARC fields and the ontology vocabularies. Based on metadata mapping, relationship between metadata elements and knowledge ontology, this paper summarizes the semantic mapping relationship between CNMARC fields and BIBFRAME ontology vocabularies, and describes it with typical field mapping.
CNMARC; BIBFRAME; Metadata Mapping
(2018-10-07)
許磊,男,1989年生,助理館員,研究方向:中文編目、關聯(lián)書目數(shù)據(jù),E-mail:leixu@libnet.sh.cn。
G250
10.3772/j.issn.1673-2286.2018.11.004