国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

資源同步框架ResourceSync及其在機構知識庫中的應用場景*

2021-08-28 06:21:46王超
數(shù)字圖書館論壇 2021年6期
關鍵詞:源端知識庫列表

王超

(遼寧工業(yè)大學圖書館,錦州 121000)

2017年11月,開放獲取知識庫聯(lián)盟(COAR)經(jīng)過長期調研發(fā)布報告[1],描述了新一代機構知識庫(IR)應具有的11項新功能,并稱新一代機構知識庫的資源轉移(resource transfer)、批量發(fā)現(xiàn)(batch discovery)、收集和公開活動(collecting and exposing activities)、長期保存(preserving resources)5項新功能主要依托于資源同步框架規(guī)范ResourceSync實現(xiàn)。

ResourceSync是由美國國家標準協(xié)會(ANSI)指導研發(fā),并于2014年頒布。2017年更新的資源同步框架規(guī)范[2],可用于實現(xiàn)互聯(lián)網(wǎng)上不同系統(tǒng)之間的資源同步。郭少友等[3]和曹迪[4]對于ResourceSync在數(shù)字圖書館中的應用場景進行了探索,其中部分應用場景同樣適應于機構知識庫的資源同步,但ResourceSync在數(shù)字圖書館中的應用側重于資源的收集和保存,而機構知識庫更側重于資源的開放和共享。筆者通過相關調研并結合現(xiàn)有研究,分析ResourceSync資源同步規(guī)范的基本原理,并探討其在機構知識庫中應用場景及應注意的問題及對策,使機構知識庫功能更強大,最大程度地實現(xiàn)資源開放與共享。

1 數(shù)字資源同步現(xiàn)行方法分析及Resource Sync的應用

筆者基于國內外學者郭少友等[3]、曹迪[4]、劉樹等[5]、Zhen[6]、Haslhofer等[7]、Klein等[8]的研究并結合相關調研,認為目前數(shù)字資源常用的同步方法可歸納為軟件同步、中間件同步、發(fā)布變化通知同步3類。

1.1 軟件同步

該方法的核心是將同步軟件分別安裝于源數(shù)據(jù)庫和目標數(shù)據(jù)庫,資源變化時使用軟件實現(xiàn)資源同步。此方法要求源數(shù)據(jù)庫和目標數(shù)據(jù)庫是完全相同的網(wǎng)絡系統(tǒng),而且同步軟件需要根據(jù)數(shù)據(jù)庫情況自主研發(fā)。其優(yōu)勢在于源數(shù)據(jù)庫和目標數(shù)據(jù)庫不分主從、互相同步,但軟件對環(huán)境要求較高,而且需要自主研發(fā)或修改,通用性不強。國內此類同步軟件較多,比較有代表性的有劉樹等[5]研發(fā)的基于觸發(fā)器的變化捕獲器。

1.2 中間件同步

中間件是一種安裝于數(shù)據(jù)庫系統(tǒng)的應用程序或者軟件,用于數(shù)據(jù)中轉站管理、傳輸計算機資源、實現(xiàn)網(wǎng)絡通信。源數(shù)據(jù)庫和目標數(shù)據(jù)庫可通過中間件共享資源,當源數(shù)據(jù)庫發(fā)生資源變化時,向中間件發(fā)送變化信息,目標數(shù)據(jù)庫獲取變化信息后進行解析和轉儲。Zhen[6]使用JMS中間件程序,用4個步驟來實現(xiàn)不同數(shù)據(jù)庫之間的數(shù)據(jù)同步:①通過觸發(fā)器獲取源端的增量數(shù)據(jù);②增量數(shù)據(jù)轉換為XML文件;③以消息格式發(fā)送XML文件到目標端;④使用XML解析器解析數(shù)據(jù)。利用中間件同步的優(yōu)點是可以在不同網(wǎng)絡系統(tǒng)之間共享資源,且中間件程序較為簡單、開發(fā)難度低,還能實現(xiàn)一對多的資源同步。其缺點在于使用中轉站傳輸數(shù)據(jù),步驟較多、過程復雜,同時中間件需要使用專有的API和協(xié)議,不同中間件互操作困難。

1.3 發(fā)布變化通知同步

此類方法把資源提供者稱為源端,目的地數(shù)據(jù)庫稱為目標端,源端通過Sitemap協(xié)議發(fā)布變化通知(XML格式文件),目標端獲知變化信息,再通過某種規(guī)范執(zhí)行資源同步操作。DSNotify的資源同步方法和ResourceSync資源同步規(guī)范均可歸為發(fā)布變化通知同步的方法。維也納大學Haslhofer等[7]提出一種基于DSNotify的資源同步方法,也稱資源斷鏈檢測與修復。從源端所有資源中抽取描述性特征,生成資源特征向量,通過DSNotify附加組件提取并導出資源的特征項(資源的URI及其特征向量),再由監(jiān)視器通過反復比對監(jiān)控本地資源變化情況,監(jiān)視器將檢測到的變化情況寫入事件日志,并發(fā)送通知到目標端,目標端據(jù)此修復資源斷鏈。DSNotify方法應用的可行性已經(jīng)被網(wǎng)絡同步仿真實驗證明,但DSNotify應用仍有一定局限性,其適合處理關聯(lián)數(shù)據(jù),主要用于鏈接的同步,無法同步非文本資源。

1.4 ResourceSync的優(yōu)越性及應用

ANSI頒布的ResourceSync資源同步框架規(guī)范,同時提供了兩款開源軟件——resync-simulator和resync,前者是資源同步信息發(fā)布工具,后者是資源同步工具。ResourceSync把元數(shù)據(jù)和元數(shù)據(jù)描述的對象數(shù)據(jù)視為資源,賦予它們不同的URI,使用Sitemap協(xié)議語法對元數(shù)據(jù)和對象數(shù)據(jù)進行描述。ResourceSync把內容提供者稱為源端,把打算復制源內容的站點稱為目標端。源端對資源進行描述并對外發(fā)布能力列表,其中包括4種同步能力:資源列表、變化列表、資源轉儲庫、變化轉儲庫,目標端獲取能力列表后按規(guī)范步驟完成資源同步。相較于現(xiàn)行的數(shù)字資源同步方法,ResourceSync具有如下優(yōu)越性:與軟件同步方法相比,它不但省略了軟件研發(fā),而且具有4種同步能力,即環(huán)境適用性和通用性更強;與中間件同步方法相比,它同樣具有在不同網(wǎng)絡系統(tǒng)之間實現(xiàn)一對多的同步能力,除此之外其源端和目標端使用Sitemap協(xié)議直接建立聯(lián)系,不需要中間件,過程簡單、不易出錯,還可減少延遲;與DSNotify相比,ResourceSync同步規(guī)范具有更強的通用性,DSNotify無法同步非文本資源,而ResourceSync適用于任何具有URI的資源之間的同步。

自2014年頒布以來,ResourceSync便因其優(yōu)越性受到廣泛重視。ResourceSync已經(jīng)在康奈爾大學圖書館和電子預印本數(shù)據(jù)庫arXiv中實現(xiàn)部分功能的成功應用,并受到歐洲數(shù)字人文項目(Europeana)、美國數(shù)字公共圖書館(DPLA)等的關注。截至2020年底,DPLA的部分成員庫之間已經(jīng)采用ResourceSync實現(xiàn)數(shù)字資源互操作[9]。COAR工作組也將ResourceSync作為新一代機構知識庫的核心技術、標準、協(xié)議之一。

現(xiàn)代機構知識庫不僅收錄了各種類型的海量數(shù)字資源,而且其資源是高度動態(tài)化的,不斷地收錄新資源,更新或刪除舊的數(shù)據(jù)。ResourceSync適用于任何具有URI的資源之間的同步,而且采用模塊化設計,靈活性強,易于操作,具有廣泛的適用性。根據(jù)COAR報告的描述,ResourceSync主要應用于3個方面。①資源長期保存。采用鏡像同步備份等措施,為數(shù)據(jù)的長期保存提供保障。②批量發(fā)現(xiàn)和獲取資源。在ResourceSync框架下,用戶可實現(xiàn)資源的批量發(fā)現(xiàn)和打包下載,提升機構知識庫資源價值。③資源轉移?!癛esourceSync是一種基于站點地圖(Sitemap)的規(guī)范,存儲庫管理器可以使用該規(guī)范提供信息,允許第三方系統(tǒng)持續(xù)與其存儲庫中的資源保持同步,即創(chuàng)建、更新和刪除。站點地圖允許公開知識庫內容和搜索引擎所需的元數(shù)據(jù)。ResourceSync可使用Sitemaps XML格式實現(xiàn)內容和元數(shù)據(jù)的發(fā)現(xiàn)和同步”[10]。

2 ResourceSync資源同步的基本原理

2.1 ResourceSync框架結構

ResourceSync資源同步框架如圖1所示。源描述是目標端了解數(shù)據(jù)源情況,實現(xiàn)同步的接入點。源描述枚舉數(shù)據(jù)源的能力列表,每個資源集都指向一個能力列表。如只有單一的源集合,則同步描述只包含一個指針;對于多個數(shù)據(jù)源(多個源使用索引的方法)的情況,其描述包括源描述和能力列表兩個層次。能力列表列舉了一組資源支持的4種能力:資源列表、變化列表、資源轉儲庫、變化轉儲庫的URI。

圖1 ResourceSync資源同步框架

ResourceSync框架規(guī)范把數(shù)字資源同步定義為4種情況:資源列表、變化列表、資源轉儲庫、變化轉儲庫,分別與4種同步能力相對應。

(1)資源列表。ResourceSync框架規(guī)范將源端某一時刻(列表中時間戳屬性)允許同步的資源以列表呈現(xiàn),使用標簽將其URI逐一列出。對于每個資源,資源列表最低限度地提供資源的URI,再添加

圖2 ResourceSync資源同步過程

(1)基準同步。基準同步是指目標端與源端首次同步,目標端復制源端基礎數(shù)據(jù)。按照ResourceSync規(guī)范,可通過資源列表和資源轉儲庫獲取源端基礎資源,實現(xiàn)基準同步。第一,目標端通過資源列表中資源的URIs,逐一發(fā)出HTTP請求,完成基準同步。第二,目標端還可以獲取源端發(fā)布的資源轉儲庫ZIP文件中的比特流信息,在資源清單的指導下解引內容包。

(2)增量同步。增量同步是指在基準同步的基礎上,通過重復執(zhí)行增量同步,目標端可以與源端保持動態(tài)同步。源端發(fā)布變化列表傳達關于資源變化的信息,目標端通過變化列表中列出的新創(chuàng)建或更新資源的URI獲取最新的內容,同時同步刪除已刪除資源。目標端還可以獲取源端的變化轉儲庫實現(xiàn)增量同步,和基準同步類似,目標端通過變化資源的URI獲取數(shù)據(jù)包,然后在變化清單的指導下解包。

(3)審校。為了驗證同步效果,目標端必須能夠檢查它獲得的內容是否與源端當前資源在覆蓋率和準確性方面相匹配。審校時,目標端將獲取資源(數(shù)據(jù)包)包含的元數(shù)據(jù)與源端提供資源的元數(shù)據(jù)進行匹配驗證,這些元數(shù)據(jù)描述了資源的最新狀態(tài),如上次修改時間、長度和基于內容的散列及其長度。

2.3 ResourceSync資源發(fā)現(xiàn)機制

在實際操作中,目標端如何發(fā)現(xiàn)源端發(fā)布的能力列表是實現(xiàn)資源同步的前提。在ResourceSync框架規(guī)范下,資源發(fā)現(xiàn)主要有:well-known URI、Link鏈接、robots協(xié)議3種方式(見圖3)。

圖3 ResourceSync資源發(fā)現(xiàn)機制

(1)well-known URI方法。一個數(shù)據(jù)源要發(fā)布源描述,源描述的URI:http://example.com。well-known URI資源發(fā)現(xiàn)方法就是在源描述URI添加前綴“/.wellknown/”,添加前綴的URI:http://www.example.com/.well-known/resourcesync。此特殊URI是目標端獲取源端能力列表的適當入口點。

(2)Link鏈接方法。目標端對于web(網(wǎng)頁)類數(shù)字資源的同步,一般采用Link方法。在HTML文檔頂部()添加元素,此<鏈接> 必有一個rel屬性值為resourcesync,這表明可以通過的值URI可以發(fā)現(xiàn)源端的能力列表。由于Sitemap協(xié)議不提供目標端從具有根元素文檔直接導航到其“父”文檔的方法,所以可通過標簽up(向上)獲取源描述。

(3)robots協(xié)議方法。該方法是首先向一個源端的robots.txt文件中添加一個Sitemap指令(Sitemap: http://example.com/dataset1/resourcelist.xml),“通過http://www.example.com/robots.txt,可獲取源數(shù)據(jù)端的robots.txt文件,該文件的值是資源列表的URI,目標端據(jù)此發(fā)現(xiàn)源端的資源列表,進而獲取能力列表?!盵4]如果一個源端支持多個資源集,那么可以添加多個指令,每個指令對應一個與特定資源集相關聯(lián)的資源列表。

3 基于ResourceSync規(guī)范機構知識庫資源同步場景

國內現(xiàn)有的機構知識庫大多采用的是DSpace開源軟件作為系統(tǒng)平臺,利用OAI進行數(shù)據(jù)收割,然后導入中間元數(shù)據(jù)池,再通過數(shù)據(jù)接口或數(shù)據(jù)關聯(lián)等數(shù)據(jù)處理工具實現(xiàn)不同合集或不同區(qū)域資源的整合和分享,完成源數(shù)據(jù)的更新或同步。這種資源同步由于使用中轉站傳輸數(shù)據(jù),不同中間件互操作較困難,而且操作步驟較多、過程復雜,容易出現(xiàn)數(shù)據(jù)遲滯或混亂。ResourceSync框架規(guī)范由于環(huán)境適用性和通用性較強,既可批量“收割”元數(shù)據(jù),也可實現(xiàn)對象資源的批量互操作,且過程簡單,將成為下一代機構知識庫資源同步的技術支撐。ResourceSync框架規(guī)范在機構知識庫中實現(xiàn)資源同步主要有以下3個應用場景。

3.1 機構知識庫與鏡像庫的同步方法

學術機構可以根據(jù)自身情況為機構知識庫設立一個或多個鏡像站點(備份庫),機構知識庫與其鏡像庫進行備份同步。這既有利于機構知識庫資源的長期保存,也具有一定的分流作用,可減輕主服務器壓力。ResourceSync框架規(guī)范在資源發(fā)現(xiàn)機制上,由于雙方的隸屬關系,作為目標端的鏡像站點無論采用何種發(fā)現(xiàn)方法都可輕易獲取作為源端的機構知識庫資源。在同步方法上,鏡像站點可略過資源列表,直接獲取機構知識庫資源轉儲庫數(shù)據(jù)包,完成基準同步。增量同步和基準同步類似,當機構知識庫資源發(fā)生變化(更新、刪除、創(chuàng)建)時,直接獲取變化轉儲庫,在資源清單的指導下完成增量同步。由于鏡像數(shù)據(jù)作為機構知識庫備份,同步數(shù)據(jù)準確性和完整性至關重要,同步操作完成后再根據(jù)清單常用信息對所有同步資源進行審校。

3.2 機構知識庫與用戶之間的同步方法

ResourceSync框架規(guī)范在機構知識庫中的第二個應用場景是通過機構知識庫與用戶之間的同步,幫助用戶精準發(fā)現(xiàn)、批量獲取機構知識庫資源,提升用戶的使用體驗。機構知識庫用戶又分為個人用戶和機構用戶兩類。首先,機構知識庫按照ResourceSync框架規(guī)范對自建資源進行源描述,為了兼顧不同的用戶,機構知識庫為用戶提供全部同步能力,用戶根據(jù)需要選擇同步能力。其次,用戶可根據(jù)需求選擇資源發(fā)現(xiàn)方法。ResourceSync提供了3種資源發(fā)現(xiàn)機制,用戶可自主選擇。如用戶只需獲取機構知識庫資源列表,那么選用robots協(xié)議方法即可實現(xiàn);若需要4種同步能力,則選用well-known URI或Link鏈接方法。在同步過程中,個人用戶一般對于資源的覆蓋率和準確率要求較低,只需執(zhí)行基準同步和增量同步,審??陕赃^,而機構用戶對于同步資源的準確性和完整性要求較高,因而要嚴格按步驟執(zhí)行同步,審校環(huán)節(jié)不可省略。

3.3 機構知識庫與資源提供者之間的同步方法

近年來機構知識庫從機構下轄科研院(所)或團隊數(shù)據(jù)庫獲取資源正成為擴大機構知識庫資源持有量的主要途徑??v觀國內外知名機構知識庫(國外如麻省理工圖書館機構知識庫等,國內如中國科學院系統(tǒng)機構知識庫等)都采用ResourceSync框架規(guī)范與下轄的研究院(所)數(shù)據(jù)庫保持資源同步,這樣既可擴大機構知識庫資源持有量,也能保障資源實時更新。

盡管機構知識庫與機構下轄的研究院(所)數(shù)據(jù)庫具有隸屬或者合作關系,但與鏡像站點數(shù)據(jù)備份不同,機構知識庫從子數(shù)據(jù)庫中獲取資源要遵循既定目標選擇性地同步。因此,在資源發(fā)現(xiàn)機制上,雙方可采用約定的發(fā)現(xiàn)方法。由于是選擇性同步,同步過程也較為簡單,作為目標端的機構知識庫可略過子庫的資源轉儲庫和變化轉儲庫,只需獲取子庫的資源列表和變化列表,根據(jù)資源的URI下載元數(shù)據(jù)或全文數(shù)據(jù),即可完成基準同步。當子庫資源發(fā)生變化時,與基準同步方法相同,通過獲取變化列表,完成增量同步。最后再根據(jù)獲取資源的常用信息(最新修改時間和散列及其長度信息)驗證同步效果。

4 機構知識庫資源同步中應注意的問題及對策

機構知識庫運行是復雜的“生態(tài)系統(tǒng)”,Resource Sync資源同步框架規(guī)范在實際應用中可能出現(xiàn)以下若干問題。

4.1 資源同步的實時性問題及對策

在機構知識庫資源同步實踐中如何減少延遲,保障同步的實時性,是無法回避的現(xiàn)實問題。在Resource Sync同步框架規(guī)范中,為保障同步的實時性,在實際操作中應采用“推”“拉”結合的方式。當機構知識庫資源發(fā)生變化時,應及時發(fā)布(推送)變化通知,并提供變化列表或變化轉儲庫,以便目標端及時同步更新。同時,目標端應動態(tài)監(jiān)測源端資源變化情況,及時發(fā)送同步請求,根據(jù)比特流信息判斷資源變化情況,量少則通過變化列表完成同步,量大則打包下載變化轉儲庫。

4.2 資源同步過程中數(shù)據(jù)格式轉換問題及對策

當兩個網(wǎng)絡系統(tǒng)之間要實現(xiàn)大量同步資源,在數(shù)據(jù)傳輸?shù)倪^程中極易出現(xiàn)格式不一致的數(shù)據(jù)異構性問題。導致數(shù)據(jù)格式異構的原因很多,主要源于計算機系統(tǒng)本身的復雜性。如何有效解決此類問題是實現(xiàn)資源同步的關鍵。在機構知識庫與鏡像庫同步中,“IR數(shù)據(jù)格式應嘗試應用可重復使用的Latex或TEI格式”[10],鏡像備份過程中盡量避免數(shù)據(jù)格式轉換,直接傳輸數(shù)據(jù)保存?zhèn)浞?。在機構知識庫與用戶或資源提供者同步中,IR與資源使用者或提供者之間資源同步時,目標端獲取源端資源后,先使用ETL(抽取-轉換-加載)工具進行格式轉換,數(shù)據(jù)轉換成功之后,再執(zhí)行基準同步、增量同步以及審校。

4.3 元數(shù)據(jù)與對象數(shù)據(jù)的協(xié)調同步問題及對策

現(xiàn)代機構知識庫不僅收錄海量的數(shù)字資源,而且資源類型十分豐富。ResourceSync同步框架規(guī)范將元數(shù)據(jù)和對象數(shù)據(jù)分別賦予不同URI,兩者之間是描述與被描述的關系,如果元數(shù)據(jù)發(fā)生變化,其描述的對象數(shù)據(jù)也隨之變化,反之亦然。因此,在同步過程中可能出現(xiàn)兩類資源不協(xié)同的問題,為了避免此類問題,“應在繼續(xù)保持二者之間描述與被描述關系的基礎上,分別對元數(shù)據(jù)資源及其所描述的對象資源間實施同步”[3]。

5 結語

機構知識庫的研究和應用已受到廣泛的重視和獲得長足的發(fā)展,而ResourceSync資源同步框架規(guī)范在機構知識庫中的應用研究才初見端倪,利用Resource Sync同步原理,研究其在機構知識庫中具體應用場景,提出應用過程中需要注意的問題并給出相應對策,才能更好地實現(xiàn)機構知識庫的資源轉移、批量發(fā)現(xiàn)、長期保存等新功能,使機構知識庫功能更強大,最大程度地實現(xiàn)資源開放和共享。

猜你喜歡
源端知識庫列表
巧用列表來推理
學習運用列表法
擴列吧
融合源端句法和語義角色信息的AMR解析
基于TRIZ與知識庫的創(chuàng)新模型構建及在注塑機設計中的應用
基于仿真分析的傳輸線電路特性研究
飛機燃油系統(tǒng)對多路輸入信號源選擇的方法
科技視界(2016年22期)2016-10-18 15:53:02
高速公路信息系統(tǒng)維護知識庫的建立和應用
基于Drupal發(fā)布學者知識庫關聯(lián)數(shù)據(jù)的研究
圖書館研究(2015年5期)2015-12-07 04:05:48
不含3-圈的1-平面圖的列表邊染色與列表全染色
家居| 石嘴山市| 荣成市| 陵水| 浦县| 弋阳县| 金湖县| 峨山| 神农架林区| 枣阳市| 河东区| 阳春市| 根河市| 湖南省| 贵阳市| 乳山市| 山丹县| 仪征市| 郓城县| 崇信县| 贵德县| 新闻| 山丹县| 新疆| 大厂| 乾安县| 芦溪县| 通榆县| 乌苏市| 盐边县| 沈丘县| 台中市| 綦江县| 托克逊县| 平乐县| 环江| 湖州市| 自治县| 汽车| 成安县| 翼城县|