国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于OCFL的數(shù)字資源保存文件系統(tǒng)設(shè)計*

2021-03-10 01:30:38姚寬達方安楊晨柳王蕾胡佳慧
數(shù)字圖書館論壇 2021年12期
關(guān)鍵詞:對象數(shù)字資源

姚寬達 方安 楊晨柳 王蕾 胡佳慧

基于OCFL的數(shù)字資源保存文件系統(tǒng)設(shè)計*

姚寬達 方安 楊晨柳 王蕾 胡佳慧

(中國醫(yī)學(xué)科學(xué)院/北京協(xié)和醫(yī)學(xué)院醫(yī)學(xué)信息研究所,北京 100020)

本文針對數(shù)據(jù)密集型科研環(huán)境下的科研數(shù)據(jù)長期保存需求,以牛津通用文件布局方法(OCFL)為基礎(chǔ),設(shè)計支持對象存儲及版本控制的數(shù)字資源保存文件系統(tǒng),并在醫(yī)學(xué)大數(shù)據(jù)長期保存系統(tǒng)環(huán)境中進行了應(yīng)用實現(xiàn)和效果分析。

數(shù)字保存;OCFL;數(shù)據(jù)密集型科研;文件存儲;版本控制

信息技術(shù)的飛速發(fā)展使得數(shù)據(jù)獲取難度日益降低,大數(shù)據(jù)時代,科學(xué)研究已向數(shù)據(jù)密集型計算科學(xué)[1]轉(zhuǎn)變,數(shù)據(jù)對于科學(xué)研究的重要性顯著提高。數(shù)據(jù)密集型科研環(huán)境下,科學(xué)研究和創(chuàng)新活動越來越依賴于對大規(guī)模數(shù)據(jù)的分析、挖掘以及再利用[2],由此產(chǎn)生的科研數(shù)據(jù)和成果具有較高的保存價值,是長期科研過程中的重點保存內(nèi)容[3]。數(shù)字資源長期保存是對數(shù)字內(nèi)容進行持續(xù)管理和維護的一系列活動,要求在長期保存數(shù)字資源的同時,確保保存信息的真實可信,且能夠被未來的使用者所理解和利用[4]。相較于一般數(shù)據(jù),科研數(shù)據(jù)不僅體量大、更迭快、類型雜,還具有學(xué)科差異性、知識關(guān)聯(lián)性以及歷史積累性等典型特征[5],這給長期保存的數(shù)據(jù)完整性及內(nèi)容連續(xù)性等方面帶來一系列挑戰(zhàn)。因此,針對數(shù)據(jù)密集型科研環(huán)境下的科研數(shù)據(jù)特征,本文在分析科研數(shù)據(jù)長期保存需求的基礎(chǔ)上,設(shè)計數(shù)字資源保存文件系統(tǒng),并結(jié)合實際應(yīng)用開展相關(guān)探索。

1 研究現(xiàn)狀及意義

1.1 現(xiàn)有的數(shù)字保存存儲策略分析

技術(shù)環(huán)境的不斷革新給數(shù)字保存帶來諸多挑戰(zhàn),為避免由此導(dǎo)致的數(shù)字內(nèi)容不可用等問題,資源保障機構(gòu)需要不斷更新數(shù)字倉儲的保存策略以適應(yīng)新形勢下的數(shù)字保存需求[6]。開放檔案信息系統(tǒng)(Open Archival Information System,OAIS)[7]模型為數(shù)字保存提供了指導(dǎo)性原則,對保存內(nèi)容文件和保存描述信息進行了界定,并提出了信息包的概念,但該模型沒有為保存系統(tǒng)的構(gòu)建和實際應(yīng)用給出具體的保存方法和建議[8]。因此,面向特定的數(shù)字保存需求,保存機構(gòu)與學(xué)者開展了相關(guān)研究和探索,提出和制定了一系列存儲策略和保存方案,其中文件存儲和版本控制是數(shù)字保存系統(tǒng)設(shè)計的關(guān)鍵要素。美國國家進化綜合中心與北卡羅來納大學(xué)等5家機構(gòu)合作開發(fā)了Dryad數(shù)據(jù)庫[9],其存儲策略支持版本控制,但不建議對已提交數(shù)據(jù)的頻繁更新[10]。斯坦福大學(xué)圖書館使用Moab方法同樣支持版本控制,但其設(shè)計缺乏廣泛的適用性[11]。諾特丹大學(xué)赫斯堡圖書館在保存系統(tǒng)中使用的BagIt方法策略在文件傳輸上效率較高,但不支持版本控制[12]。北京大學(xué)圖書館探索了數(shù)字長期保存系統(tǒng)(Digital Preservation System,DPS)[13]在高校圖書館中的應(yīng)用與服務(wù),但存儲系統(tǒng)對于底層數(shù)據(jù)模型兼容型的支持不夠充分[14]。

1.2 數(shù)據(jù)密集型科研環(huán)境下數(shù)字保存的特征與意義

數(shù)據(jù)密集型科研環(huán)境下的科研數(shù)據(jù)一方面具有大數(shù)據(jù)的一般特征,如數(shù)據(jù)規(guī)模龐大、來源分散、數(shù)據(jù)結(jié)構(gòu)多樣以及具有研究和使用價值等;另一方面,相較一般的大數(shù)據(jù),科研數(shù)據(jù)還具有以下典型特征。

(1)學(xué)科差異性。不同學(xué)科領(lǐng)域的科研數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)、文件類型甚至數(shù)據(jù)體量等方面具有較大的差異。

(2)知識關(guān)聯(lián)性。科研數(shù)據(jù)更強調(diào)從大量、積累的科研數(shù)據(jù)中演化和發(fā)現(xiàn)新的科研規(guī)律或知識[5],對時效性要求較低。

(3)歷史積累性??蒲袛?shù)據(jù)更注重數(shù)據(jù)的歷史積累和數(shù)據(jù)保存體系的完整性,需要對歷史積累的數(shù)據(jù)進行重新分析。

(4)數(shù)據(jù)價值性??蒲袛?shù)據(jù)需要在保證數(shù)據(jù)準確和完整的前提下,其研究和利用價值才能得到體現(xiàn)[15]。

相較于傳統(tǒng)科研范式,數(shù)據(jù)密集型科研環(huán)境下的數(shù)據(jù)分析和知識發(fā)現(xiàn)不再依賴嚴密的假設(shè)檢驗過程[16],而是通過對跨時間、跨空間、跨領(lǐng)域的更大規(guī)模的科學(xué)數(shù)據(jù)循環(huán)進行采集、分析及存儲,使數(shù)據(jù)成為科研的對象和工具,以此為基礎(chǔ)產(chǎn)生新的科學(xué)研究方法。數(shù)據(jù)密集型科研環(huán)境下,數(shù)據(jù)需要不斷地被重用和驗證,因此,作為科研數(shù)據(jù)生命周期的重要環(huán)節(jié),數(shù)字保存對于有效保障和促進科學(xué)研究持續(xù)開展具有積極意義。

2 OCFL及其優(yōu)勢分析

針對數(shù)字倉儲對數(shù)字對象通用儲存方法的迫切需求,康奈爾大學(xué)、斯坦福大學(xué)、DuraSpace、牛津大學(xué)以及埃默里大學(xué)等機構(gòu)于2018年共同提出牛津通用文件布局方法(Oxford Common File Layout,OCFL)[11, 17]。OCFL以結(jié)構(gòu)化、透明化和可預(yù)測的方式對數(shù)字對象進行規(guī)范化存儲,降低數(shù)字對象在存儲結(jié)構(gòu)上對應(yīng)用程序的依賴;并使用正向增量的版本控制方法對數(shù)字對象的版本進行管理和溯源,以提升OCFL解決數(shù)字資源存儲的迭代、冗余以及存取效率問題的能力。具體而言,OCFL的關(guān)鍵目標[11]表現(xiàn)在:①完整性,具備在沒有額外信息資源的情況下重建存儲庫的能力;②人機可解析性,以確保在沒有原始軟件的情況下可以理解內(nèi)容;③魯棒性,針對錯誤、損壞和技術(shù)遷移的穩(wěn)健存儲性能;④版本控制,持續(xù)記錄保存對象的歷史信息以支持保存對象的更新和更改;⑤可擴展性,具備將內(nèi)容存儲在各種存儲基礎(chǔ)架構(gòu)上的能力。

針對數(shù)字對象頻繁更新帶來的文件存儲管理問題,OCFL數(shù)字對象將內(nèi)容文件按照版本保存,從而減少對保存內(nèi)容的讀取操作,降低資源存儲和重建成本,提高讀取效率,增強管理便捷性。OCFL通過規(guī)范化的文件存儲結(jié)構(gòu)提升數(shù)字資源的可讀性,確保管理者和應(yīng)用程序能夠快速識別文件布局,實現(xiàn)存儲資源查詢、檢索、解析等一系列操作。針對系統(tǒng)軟件和架構(gòu)的變化以及數(shù)字資源內(nèi)容的遷移,OCFL可以在數(shù)字倉儲功能不完整的情況下,基于保存管理文件內(nèi)容理解存儲結(jié)構(gòu),結(jié)合簡單的應(yīng)用程序進行管理[18]。相較于直接使用長期保存應(yīng)用系統(tǒng)進行存儲,應(yīng)用系統(tǒng)的更新對使用OCFL作為數(shù)字存儲方法的長期保存系統(tǒng)的影響更小,降低了跨度數(shù)十年的長期保存活動中系統(tǒng)變化導(dǎo)致的底層存儲修改的成本。

此外,OCFL使用基于正向增量的版本控制方法跟蹤管理數(shù)字對象的歷史,更加高效地重建歷史版本,為數(shù)字對象版本信息的溯源提供保證。相較于全量版本對每個版本的內(nèi)容文件分別進行全量存儲,增量版本控制僅儲存版本之間發(fā)生更改的文件,可以有效地減少存儲的數(shù)據(jù)重復(fù),降低存儲空間的壓力。正向增量版本控制法在添加新版本時更為簡便,但在重建最新版本方面需要更多的資源和工作[19-20]。OCFL使用內(nèi)容尋址技術(shù)結(jié)合保存管理文件對正向增量版本控制方法進行了改進,不僅利用內(nèi)容尋址技術(shù)中的文件校驗和值進行重復(fù)文件存儲的消除[21],還將其作為文件在存儲系統(tǒng)中的標識符和定位器,從而使得OCFL在解決存儲冗余的同時,降低了存儲及重建時的消耗。

綜上,OCFL滿足數(shù)字資源存儲對完整性、人機可解析性、魯棒性和版本控制的需求,其以數(shù)字對象為基礎(chǔ)的版本控制方法可以支撐科研數(shù)據(jù)的長期存儲,規(guī)范化存儲結(jié)構(gòu)增加可讀性,為遷移和重建等文件讀寫操作提供支持;正向版本控制方法在節(jié)省存儲空間的同時還可支持數(shù)據(jù)的溯源,面對歷史積累下形成的多版本科研數(shù)據(jù)擁有較好的適配性。除此之外,版本控制和人機可解析性防止了人為和非人為雙方面的錯誤所導(dǎo)致的文件損壞,增強了整個文件系統(tǒng)的魯棒性,保障了數(shù)據(jù)資源的準確性。

3 基于OCFL的數(shù)字資源保存文件系統(tǒng)設(shè)計

3.1 MedPRES保存需求分析

面向大數(shù)據(jù)環(huán)境下的醫(yī)學(xué)數(shù)字資源長期保存需求,中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所已開展醫(yī)學(xué)大數(shù)據(jù)長期保存系統(tǒng)(MedPRES)建設(shè)[22]。MedPRES以信息包形式保存資源,并基于全量版本控制方法對保存資源進行統(tǒng)一管理。面對保存數(shù)據(jù)的持續(xù)更新需求,尤其是內(nèi)容大量重復(fù)的新增數(shù)據(jù),全量版本控制方法將導(dǎo)致存儲冗余問題,其對多版本數(shù)據(jù)的存取與溯源較為復(fù)雜,增加系統(tǒng)管理成本。為提高MedPRES對科研數(shù)據(jù)的保存能力,數(shù)據(jù)密集型科研環(huán)境下的數(shù)字保存具有以下需求。

(1)以數(shù)字對象為單位進行管理。針對不同類型和具有不同文件結(jié)構(gòu)的科研數(shù)據(jù),采用以對象為單位的保存方式可有效應(yīng)對科研數(shù)據(jù)間的差異性,為數(shù)字對象的通用性管理和版本控制提供便利。

(2)具備較強的版本控制能力??蒲袛?shù)據(jù)具有迭代更新的需求,為支持數(shù)據(jù)的跨時間多次存入,數(shù)字保存不僅需要保證保存內(nèi)容的不變性,還要確保數(shù)字對象可溯源,較強的版本控制是科研數(shù)據(jù)連續(xù)性和完整性的重要保證。

(3)擁有良好的文件存儲結(jié)構(gòu)。在長期的科學(xué)研究過程中,數(shù)據(jù)需要多次存入和讀取,良好的文件存儲結(jié)構(gòu)可有效降低科研數(shù)據(jù)的保存、取用和管理開銷。

鑒于OCFL在對象存儲和版本控制方面的優(yōu)勢,本文基于OCFL的存儲文件結(jié)構(gòu)進行數(shù)字資源保存文件系統(tǒng)的設(shè)計,以優(yōu)化MedPRES的版本控制能力及文件存取效率,降低數(shù)字保存的存儲空間和應(yīng)用管理成本。

3.2 保存文件系統(tǒng)結(jié)構(gòu)設(shè)計

基于上述對數(shù)據(jù)密集型科研環(huán)境下數(shù)字保存的需求分析,設(shè)計數(shù)字資源保存文件系統(tǒng),如圖1所示。

數(shù)字資源保存文件系統(tǒng)由分類層和對象層組成。分類層用于保存對象的分類存儲和管理,第一級對應(yīng)數(shù)據(jù)委托方信息,第二級對應(yīng)數(shù)據(jù)類型(如科技文獻或科學(xué)數(shù)據(jù)等);對象層由數(shù)字資源保存對象組成,每個數(shù)字對象只屬于一個分類。數(shù)字資源保存對象是一個由文件組成的樹狀層次結(jié)構(gòu),也是構(gòu)成保存文件系統(tǒng)的重要部分。每個樹狀層次結(jié)構(gòu)最上級的位置為對象根目錄,對象根目錄在數(shù)字倉儲中由分類層節(jié)點和對象層節(jié)點鏈接形成的路徑為該對象在保存文件系統(tǒng)中的URI,每個數(shù)字對象都對應(yīng)一份數(shù)據(jù)保存協(xié)議,同一份協(xié)議下多次保存的數(shù)據(jù)都屬于同一個數(shù)字對象包含范圍內(nèi)的數(shù)字資源。

數(shù)字對象中包含3個部分,即摘要文件、保存管理文件及內(nèi)容文件。其中,內(nèi)容文件以版本目錄的形式存儲,保存管理文件用于管理內(nèi)容文件,摘要文件確保保存管理文件在每次版本變化之間不會被修改。保存管理文件中的對象信息用于標識和管理數(shù)字資源保存對象的基本信息,是對保存對象的描述;版本信息用于管理各個版本的保存內(nèi)容,每個版本存儲的內(nèi)容文件對應(yīng)一份版本信息進行管理,是對版本的描述記錄。

圖2展示了包含一個版本信息的對象結(jié)構(gòu)。其中,preservation是保存管理文件,用于管理和記錄版本目錄中各文件的結(jié)構(gòu)內(nèi)容和版本變化。preservation.digest是不變性校驗文件,其中存儲了preservation文件對應(yīng)的校驗值,用于保證保存管理文件的數(shù)據(jù)真實性和不變性。版本文件夾v1屬于版本目錄,其中包含初始版本的內(nèi)容文件及保存管理文件,為版本控制提供文件結(jié)構(gòu)層級的支持。

數(shù)字對象根目錄中的preservation文件為數(shù)字對象當前版本的保存管理文件,其中記錄了當前版本中所包含的保存文件信息及其對應(yīng)的管理信息。對象根目錄的preservation文件與該對象最新版本子目錄下的preservation文件完全相同。在對象根目錄重復(fù)存儲的保存管理文件位置固定,可減少查詢最新版本對于版本目錄的遍歷操作開銷。將對應(yīng)版本的新增資源文件儲存在該版本的版本文件夾下,可在添加新版本時不改變原有文件結(jié)構(gòu),只需添加新的版本文件夾并修改保存對象根目錄中的保存管理文件,以盡可能地避免對數(shù)字資源的保存位置進行操作。對于preservation.digest文件中計算校驗值的摘要算法可以根據(jù)系統(tǒng)需求進行選擇,校驗值的更新為數(shù)字對象版本變化的最后一步,以確保上一次版本變化結(jié)束到下一次版本變化開始前保存管理文件的不變性。

3.3 內(nèi)容文件存儲策略

保存文件系統(tǒng)采用基于OCFL的正向增量版本控制方法對數(shù)字對象進行管理。保存管理文件包括總文件清單和版本文件清單,其中,文件清單由保存文件的校驗和及對應(yīng)文件的保存路徑或相對路徑組成,校驗和用于標識數(shù)字對象中的文件??偽募鍐斡涗洈?shù)字對象所有版本中包含的文件信息和實際保存路徑,版本文件清單記錄相應(yīng)版本包含的文件信息和文件結(jié)構(gòu)。通過文件清單的引入,保存對象的版本恢復(fù)不再需要依次遍歷各個版本,而是可以根據(jù)版本清單中的記錄直接進行版本恢復(fù),從而避免版本重建成本過高問題。保存管理文件中應(yīng)包含的基本項如表1所示。

對象信息部分的唯一標識符和最新版本號都用于描述當前保存對象的基本信息狀態(tài)。通過唯一標識符確定對應(yīng)的保存對象,一般為對象根目錄的路徑;通過最新版本號確認保存對象版本狀態(tài),從而節(jié)省遍歷版本目錄獲取數(shù)字對象版本狀態(tài)的成本。協(xié)議號與委托方信息用于標識數(shù)字對象的權(quán)利所屬,保存協(xié)議中記錄有保存內(nèi)容的許可范圍及保存時限等信息。

圖3給出了數(shù)字對象結(jié)構(gòu)的示例,該數(shù)字對象的初始版本v1包含3個文件,版本v2將文件ch3.pdf重命名為ch4.pdf,并添加與原ch3.pdf完全不同內(nèi)容的同名新文件ch3.pdf。版本v3對ch2.pdf文件進行了刪除操作。版本v2中新增的文件ch3.pdf與數(shù)字對象原有的文件校驗和值不同,而版本v1中的ch3.pdf只進行重命名操作但未改變文件內(nèi)容,所以按照存儲策略,版本v2的子文件夾中只保存新增的ch3.pdf文件。版本v3因不涉及新增文件,無須在版本文件夾中保存新的文件,只需要新增并更新保存管理文件。

當需要進行數(shù)字對象的重建時,版本文件清單中的相對路徑為數(shù)字對象的文件保存結(jié)構(gòu),通過文件對應(yīng)的校驗和值在總文件清單中查詢文件的實際保存路徑以完成重建。例如,數(shù)字對象版本v1中的ch1.pdf文件在版本v2中改變保存位置放在新增的temp文件夾下保存,由于文件本身未做修改,所以無須新增文件存儲和總文件清單,只需在版本文件清單中將ch1.pdf的相對路徑記錄為“[temp/ch1.pdf]”。區(qū)別路徑將數(shù)字對象邏輯結(jié)構(gòu)和實際存儲結(jié)構(gòu)分離,便于對僅修改數(shù)據(jù)保存位置或文件名稱而未做內(nèi)容改變的文件進行重建,從而提高文件結(jié)構(gòu)頻繁變化需求下的數(shù)字對象保存能力。

新增版本時,保存管理文件無須改變版本內(nèi)容部分的原有內(nèi)容,只需添加新的版本內(nèi)容信息,并對應(yīng)更新文件清單部分的屬性條目,使文件儲存結(jié)構(gòu)與保存管理文件內(nèi)外邏輯統(tǒng)一,增強文件可讀性并減少對已存儲內(nèi)容的修改。同時,在保存管理文件中保存先前所有版本的內(nèi)容信息可極大減少版本回退或版本重建時的開銷,從而在確保版本控制的同時,有效提升效率并減少成本。

4 應(yīng)用效果分析

MedPRES采用Fedora作為底層倉儲,F(xiàn)edora的樹型存儲結(jié)構(gòu)可以方便地支撐保存文件存儲結(jié)構(gòu)的設(shè)計。按照保存管理的對應(yīng)關(guān)系建立“委托方→數(shù)據(jù)類型→基于協(xié)議的保存對象→版本子文件”樹型文件結(jié)構(gòu)(見圖4)。規(guī)則清晰的文件保存結(jié)構(gòu)有利于對保存內(nèi)容的管理,并為保存者提供了良好的可讀性和互操作性。

校驗和是保存管理文件中內(nèi)容尋址的基礎(chǔ)。在校驗和計算方法的選擇方面,考慮到相比傳統(tǒng)的MD5和SHA1算法,SHA256具有較高的暴力破解抵抗程度,因此選擇更為復(fù)雜且安全的SHA256作為內(nèi)容尋址的文件校驗和計算方法。對于SHA256而言,兩個擁有不同內(nèi)容的文件具有相同校驗和值的概率為1/2^256(約為10^77),而當文件集數(shù)量接近2^128(約為10^38),才開始出現(xiàn)重復(fù)的校驗和[21],滿足當前系統(tǒng)的保存需求。

為了減少新版本創(chuàng)建時對于保存管理文件的讀取次數(shù),同時便于保存方查看相關(guān)信息,將部分關(guān)鍵信息利用Fedora在頁面中進行可視化的展示,如保存管理文件對應(yīng)的最新版本以及文件清單中的校驗和值。MedPRES中原有的元數(shù)據(jù)文件為RDF格式,為便于解析,保存管理文件同樣使用RDF格式進行實現(xiàn)。保存管理文件相關(guān)內(nèi)容如圖5所示。

相較于全量版本控制的方法,基于OCFL的保存文件系統(tǒng)提高了多版本的數(shù)據(jù)資源存取效率。無論是獲取最新版本還是重建所有版本的保存對象,全量版本控制的方法都需要在MedPRES中遍歷同一協(xié)議下所有版本的保存資源并找出對應(yīng)的版本或按照順序依次重建保存內(nèi)容,通過采用基于OCFL的增量版本控制,僅需調(diào)用對象根目錄下的保存管理文件。對于具有V個版本的保存對象,在審核過程中重建保存對象的文件系統(tǒng)調(diào)用成本見表2。

可見在數(shù)據(jù)量規(guī)模不大且版本數(shù)量較少的情況下,兩種方法遍歷保存管理文件的時間成本差別可以忽略不計。但隨著數(shù)字倉儲中對象數(shù)量以及版本數(shù)量的增加,兩種方法的開銷差距將會越大。由此可見,基于OCFL的保存文件系統(tǒng)設(shè)計方案更好地滿足了數(shù)字資源的審計需求。

5 結(jié)語

針對數(shù)據(jù)密集型科研環(huán)境下的數(shù)字保存需求,本文基于OCFL設(shè)計了一套支持對象存儲及版本控制的保存文件系統(tǒng),并在醫(yī)學(xué)大數(shù)據(jù)長期保存環(huán)境中進行了實踐探索。設(shè)計的保存文件系統(tǒng)增強了對于科研數(shù)據(jù)的保存管理能力,豐富了數(shù)字保存底層文件系統(tǒng)對于上層應(yīng)用的支持,并有效減少了數(shù)據(jù)的重復(fù)冗余保存?,F(xiàn)有的設(shè)計仍然存在一定的局限性,如數(shù)字對象需要以既定結(jié)構(gòu)保存在數(shù)字倉儲中,下一步將針對數(shù)字對象分布式存儲等問題開展深入研究。

[1] HEY T,TANSLEY S,TOLLE K. The fourth paradigm:Data-intensive scientific discovery[EB/OL].[2021-11-25].https://www.microsoft.com/en-us/research/publication/fourth-paradigm-data-intensive-scientific-discovery/?from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fcollaboration%2Ffourthparadigm%2F.

[2] 劉艷紅,羅健. 數(shù)據(jù)密集型科學(xué)環(huán)境下的情報服務(wù)與發(fā)展[J]. 圖書與情報,2013(6):105-108.

[3] 柯平,袁珍珍,胡娟. 高端交流平臺需要強化國家科技知識資源建設(shè)[J]. 數(shù)字圖書館論壇,2021(3):17-26.

[4] 張智雄. 數(shù)字資源長期保存技術(shù)的研究與實踐[M]. 北京:國家圖書館出版社,2015.

[5] 彭鑫,鄧仲華. 數(shù)據(jù)密集型科研環(huán)境下的科研數(shù)據(jù)管理框架研究[J]. 數(shù)字圖書館論壇,2017(7):61-67.

[6] 高凡,吳振新,付鴻鵠,等. 數(shù)字資源長期保存:研究進展回顧與展望——iPRES 2019國際會議綜述[J]. 信息資源管理學(xué)報,2020,10(2):118-127.

[7] LEE C A. Open archival information system(OAIS)reference model[J]. Encyclopedia of Library and Information Sciences,2010(3):4020-4030.

[8] 董曉莉,張煒. 基于本體的數(shù)字資源長期保存分級存儲管理研究[J]. 圖書館學(xué)研究,2017(23):52-58,64.

[9] 王敬,王彥兵,樊向偉. 國外科研數(shù)據(jù)知識庫元數(shù)據(jù)方案的調(diào)研與分析[J]. 大學(xué)圖書情報學(xué)刊,2021,39(1):127-134.

[10] 黃鑫. 基于服務(wù)內(nèi)容的科學(xué)數(shù)據(jù)服務(wù)用戶滿意度研究[D]. 武漢:武漢大學(xué),2017.

[11] HANKINSON A,BROWER D,JEFFERIES N,et al. The Oxford common file layout:a common approach to digital preservation[J]. MDPI,2019,7(2):1-11.

[12] KUNZE J,SCANCELLA J,ADAMS C,et al. The BagIt File Packaging Format(V1.0)[EB/OL].[2021-11-25]. http://ftp.naist.jp/pub/IETF/RFC/pdfrfc/rfc8493.txt.pdf.

[13] 吳振新,付鴻鵠,王玉菊,等. 長期保存系統(tǒng)數(shù)據(jù)存儲管理策略研究與應(yīng)用[J]. 圖書館雜志,2017,36(9):75-81.

[14] 張乃帥,孫超. 北京大學(xué)圖書館長期保存系統(tǒng)建設(shè)與探索[J]. 大學(xué)圖書館學(xué)報,2019,37(2):62-66.

[15] 白如江,冷伏海. “大數(shù)據(jù)”時代科學(xué)數(shù)據(jù)整合研究[J]. 情報理論與實踐,2014,37(1):94-99.

[16] 黃鑫,鄧仲華. 數(shù)據(jù)密集型科學(xué)研究的需求分析與保障[J]. 情報理論與實踐,2017,40(2):66-70,79.

[17] JEFFERIES N,BREDENBERG K,DAPPERT A. Aligning the eARK4ALL Archival Information Package and Oxford Common File Layout Specifications[EB/OL].[2021-11-25]. https://ipres2019.org/static/pdf/iPres2019_paper_45.pdf.

[18] HANKINSON A,JEFFERIES N,METZ R,et al. Oxford Common File Layout Specification[EB/OL].[2021-11-25]. https://ocfl.io/1.0/spec/.

[19] 王棟,邊根慶,李睿堯. 一種基于增量存儲的多副本文件版本控制方法[J]. 物聯(lián)網(wǎng)技術(shù),2017,7(9):73-75.

[20] 張蓮,李京,劉煒清. 云同步系統(tǒng)中采用增量存儲的版本控制技術(shù)研究[J]. 小型微型計算機系統(tǒng),2015,36(3):427-432.

[21] ANDERSON R. The Moab Design for Digital Object Versioning[J]. Code4Lib Journal,2013(21):1-30.

[22] 胡佳慧,錢慶,方安,等. 醫(yī)學(xué)大數(shù)據(jù)長期保存系統(tǒng)的設(shè)計與實現(xiàn)[J]. 中華醫(yī)學(xué)圖書情報雜志,2019,28(9):18-25.

Design of Digital Resource Preservation File System Based on OCFL

YAO KuanDa FANG An YANG ChenLiu WANG Lei HU JiaHui

( Institute of Medical Information, Chinese Academy of Medical Sciences & Peking Union Medical College, Beijing 100020, P. R. China )

Aiming at the long-term preservation requirements of scientific research data in data-intensive scientific research environment, this paper designs a digital resource preservation file system that supports object storage and version control based on the Oxford Common File Layout method. The application implementation and effect analysis in MedPRES show the effectiveness of the designed system.

Digital Preservation; OCFL; Data-intensive Scientific Environment; File Storage; Version Control

(2021-11-20)

G250

10.3772/j.issn.1673-2286.2021.12.009

姚寬達,方安,楊晨柳,等. 基于OCFL的數(shù)字資源保存文件系統(tǒng)設(shè)計[J]. 數(shù)字圖書館論壇,2021(12):58-64.

符,不同版本的ch3.pdf文件對于文件系統(tǒng)而言是擁有不同校驗和的不同版本子目錄下的ch3.pdf同名文件。同一文件在總文件清單和版本文件清單中存儲的路徑各不相同??偽募鍐沃写嫒氲氖潜4媛窂剑4媛窂绞侵肝募鄬τ谠摫4鎸ο蟾夸浀奈募窂?。版本文件清單中存入的是文件的相對路徑,相對路徑是指數(shù)據(jù)在存檔數(shù)據(jù)包中的相對位置,屬于邏輯路徑。例如,版本v2中ch3.pdf文件在總文件清單中為“fb2f...71be: [v2/ch3.pdf]”,但在版本文件清單中校驗和部分相同,路徑部分為“[ch3.pdf]”。

姚寬達,男,1993年生,碩士,研究實習(xí)員,研究方向:醫(yī)學(xué)數(shù)據(jù)分析與知識發(fā)現(xiàn)、醫(yī)學(xué)數(shù)字資源長期保存。

方安,男,1976年生,博士,研究館員,研究方向:醫(yī)學(xué)知識組織與數(shù)字圖書館。

楊晨柳,女,1991年生,碩士,助理研究員,研究方向:醫(yī)學(xué)信息安全管理、醫(yī)學(xué)數(shù)字資源長期保存。

王蕾,女,1989年生,碩士,助理研究員,研究方向:信息技術(shù)、大數(shù)據(jù)處理。

胡佳慧,女,1987年生,博士,副研究員,通信作者,研究方向:醫(yī)學(xué)科研數(shù)據(jù)管理與服務(wù)研究、醫(yī)學(xué)數(shù)據(jù)分析與知識發(fā)現(xiàn),E-mail:hu.jiahui@imicams.ac.cn。

*本研究得到國家社會科學(xué)基金項目“突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)信息資源的知識圖譜構(gòu)建研究”(編號:21CTQ016)資助。

猜你喜歡
對象數(shù)字資源
神秘來電
睿士(2023年2期)2023-03-02 02:01:09
基礎(chǔ)教育資源展示
一樣的資源,不一樣的收獲
資源回收
答數(shù)字
攻略對象的心思好難猜
意林(2018年3期)2018-03-02 15:17:24
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
基于熵的快速掃描法的FNEA初始對象的生成方法
數(shù)字看G20
區(qū)間對象族的可鎮(zhèn)定性分析
福海县| 蒲江县| 南投市| 都匀市| 曲阜市| 石台县| 孟连| 新郑市| 新和县| 金寨县| 会同县| 息烽县| 金秀| 拜泉县| 徐州市| 丰镇市| 兴安盟| 永清县| 化隆| 呼图壁县| 靖宇县| 屏南县| 沙雅县| 中山市| 扬州市| 金川县| 报价| 海南省| 潮安县| 逊克县| 黄冈市| 舟曲县| 通辽市| 通许县| 西吉县| 天津市| 淮北市| 姜堰市| 财经| 洛扎县| 海丰县|