国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

日本國立國會圖書館互聯(lián)網(wǎng)資源存檔研究與啟示

2021-04-19 14:33:58楊云鵬
數(shù)字圖書館論壇 2021年1期
關(guān)鍵詞:國會圖書館日本

楊云鵬

數(shù)字資源保存

日本國立國會圖書館互聯(lián)網(wǎng)資源存檔研究與啟示

楊云鵬

(國家圖書館,北京 100081)

日本國立國會圖書館從2002年開始進(jìn)行互聯(lián)網(wǎng)資源存檔項目WARP,目前已經(jīng)建立完善的體制。本文從網(wǎng)站篩選、采集技術(shù)、網(wǎng)站加工和保存技術(shù)4個方面對日本國立國會圖書館互聯(lián)網(wǎng)資源存檔項目進(jìn)行詳細(xì)介紹,并從采集方法、數(shù)據(jù)加工、保存方式、法規(guī)建設(shè)、國際交流與合作5個方面提出中國開展互聯(lián)網(wǎng)資源存檔的建議,以期互聯(lián)網(wǎng)資源存檔能得到更好的發(fā)展。

互聯(lián)網(wǎng)資源存檔;網(wǎng)站;日本國立國會圖書館;采集

過去人們只能從書籍和文檔中了解歷史事件。但是,隨著互聯(lián)網(wǎng)和數(shù)字技術(shù)的發(fā)展,紙上留下的信息正迅速被網(wǎng)站等電子信息所取代。而當(dāng)后代試圖回顧歷史時,如果網(wǎng)站上沒有任何信息,那么大部分歷史信息將丟失。為防止這種情況的發(fā)生,需要將網(wǎng)站上的信息保存下來?;ヂ?lián)網(wǎng)的飛速發(fā)展,促使人們的生活、學(xué)習(xí)和工作逐漸離不開網(wǎng)絡(luò),而2020年新冠肺炎疫情的爆發(fā),也加劇了通過網(wǎng)絡(luò)獲取信息這種形式的發(fā)展,然而網(wǎng)絡(luò)資源的壽命一般在90~100天,因此互聯(lián)網(wǎng)信息存檔尤為迫切。互聯(lián)網(wǎng)資源存檔不僅可以保存人類在短期到中期內(nèi)訪問的互聯(lián)網(wǎng)信息,而且對將來保留歷史資料具有長遠(yuǎn)意義。

互聯(lián)網(wǎng)資源存檔主要由世界各地的國家圖書館和公共機構(gòu)(世界各地的網(wǎng)絡(luò)檔案館)負(fù)責(zé),IA(Internet Archive)是已知最大的互聯(lián)網(wǎng)存檔內(nèi)容保存機構(gòu),截至目前已擁有PB級別的壓縮數(shù)據(jù),并保存了3?300億個網(wǎng)頁和網(wǎng)頁快照。它成立于1996年,是一個非營利性組織,其成立標(biāo)志著網(wǎng)絡(luò)信息資源保存研究的開始[1]。繼IA之后很多國家陸續(xù)建立了互聯(lián)網(wǎng)資源存檔項目,其中采集規(guī)模較大的包括英國、法國和日本。法國和英國的互聯(lián)網(wǎng)資源存檔成分別成立于2002年和2004年,均保存本國域名的網(wǎng)站。日本國立國會圖書館自2002年以來一直在進(jìn)行本國互聯(lián)網(wǎng)資源存檔項目(WARP)的研究,通過長期互聯(lián)網(wǎng)資源存檔開發(fā)了一套包括篩選、采集、組織、保存和發(fā)布在內(nèi)的軟件,讓互聯(lián)網(wǎng)資源存檔變得更加容易和高效。中國互聯(lián)網(wǎng)資源存檔事業(yè)目前還處于初級階段,亟需改進(jìn)以跟上互聯(lián)網(wǎng)的發(fā)展腳步,通過剖析其他國家或組織的互聯(lián)網(wǎng)資源存檔的技術(shù)和經(jīng)驗,對我國進(jìn)行互聯(lián)網(wǎng)資源存檔,跟上世界步伐,實現(xiàn)互聯(lián)網(wǎng)資源的長期保存具有重要意義,而現(xiàn)有研究主要圍繞擴大采集范圍和增加采集數(shù)量展開,缺乏采集技術(shù)、數(shù)據(jù)加工和長期保存方法等方面的研究。

因IA開放度不高且技術(shù)相對封閉,所以本文從互聯(lián)網(wǎng)資源存檔項目技術(shù)先進(jìn)、開放程度高且與中國互聯(lián)網(wǎng)資源存檔發(fā)展路線一致的日本國立國會圖書館的互聯(lián)網(wǎng)資源存檔項目(WARP)出發(fā),詳細(xì)分析日本互聯(lián)網(wǎng)資源存檔的機制和支持互聯(lián)網(wǎng)資源存檔的技術(shù),總結(jié)可以借鑒的技術(shù)和經(jīng)驗,以便更好地推動我國互聯(lián)網(wǎng)資源存檔的發(fā)展。

1 日本互聯(lián)網(wǎng)資源存檔項目概述

1.1 互聯(lián)網(wǎng)資源存檔的意義

互聯(lián)網(wǎng)上的信息很容易更新、修訂和刪除,并且網(wǎng)站本身也會消失。近年來,政府機構(gòu)發(fā)布報告之類的重要材料已經(jīng)從紙質(zhì)媒體轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)版本。而部分經(jīng)過重大更新的網(wǎng)站時,總理辦公室的網(wǎng)站將進(jìn)行重大更新,更新后只保留過去的信息,并不會保留頁面顯示樣式。此外,重大事件的網(wǎng)站也會隨著事件的結(jié)束而消失。例如,2002年在日本和韓國舉行的FIFA世界杯日本組委會的網(wǎng)站在比賽結(jié)束后就從互聯(lián)網(wǎng)上消失了。日本互聯(lián)網(wǎng)資源存檔項目保存了日本政府機構(gòu)和國家重大事件網(wǎng)站發(fā)布的所有內(nèi)容,其涵蓋文化、歷史、政治和宗教等多個方面,未來能讓更多的國民通過互聯(lián)網(wǎng)資源存檔項目了解國家的發(fā)展和變化,對整個日本歷史文化的傳承甚至人類文明的傳承起到非常重要的作用。

1.2 日本互聯(lián)網(wǎng)資源存檔項目采集情況

自2002年以來,日本國立國會圖書館的WARP項目一直在保存即將消失的有價值的網(wǎng)站,如政府網(wǎng)站發(fā)布的信息、發(fā)布國家重大事件的網(wǎng)站及發(fā)布出版物的網(wǎng)站等[2]?;ヂ?lián)網(wǎng)資源存檔的作用是采集、存儲并提供服務(wù),以便讓用戶可以隨時查找消失的網(wǎng)站。

1.2.1 日本互聯(lián)網(wǎng)資源存檔的數(shù)據(jù)量

日本互聯(lián)網(wǎng)資源存檔項目截至2020年3月已采集12?556個網(wǎng)站,177?154個網(wǎng)頁,85億個文件,數(shù)據(jù)量達(dá)1?678TB。2010年日本修訂了《國立國會圖書館法》,允許全面采集網(wǎng)站,因此從2010年開始日本采集數(shù)據(jù)量快速增長,2010—2013年每年增加100TB左右,2014—2019年每年增加200TB左右。

1.2.2 日本互聯(lián)網(wǎng)資源存檔的數(shù)據(jù)類型

互聯(lián)網(wǎng)資源存檔項目包括多種文件類型,主要有jpg、png、tiff、pdf、html、php、css、js、xls、xlsx、doc、docx等,其中圖片格式、html格式和PDF格式類占71.33%[3]。存檔文件類型中圖片格式占比最高,這是由于日本政府和大學(xué)的網(wǎng)站都是以圖文并茂的形式呈現(xiàn),是為了讓更多的人能夠快速理解文章的意思。日本政府類網(wǎng)站上公報、公文和政策類文件大多以PDF形式呈現(xiàn),因此PDF類型的占比也相對較高。

1.2.3 日本互聯(lián)網(wǎng)資源存檔的方法

互聯(lián)網(wǎng)資源存檔從采集技術(shù)上可分為兩種方法:一種是通過軟件采集網(wǎng)站,保存網(wǎng)頁內(nèi)容的原始格式(jpg、pdf、html、php、css、js等)通過數(shù)據(jù)庫進(jìn)行管理服務(wù);另一種是通過軟件對網(wǎng)站進(jìn)行采集,將采集的內(nèi)容保存成WARC格式的壓縮包,然后通過回訪軟件進(jìn)行服務(wù)。第一種方法是網(wǎng)站原始格式,文件數(shù)量多、數(shù)據(jù)容易被修改,未經(jīng)過壓縮,占據(jù)存儲空間大,不便于管理,因此國際上很少用這種方法進(jìn)行互聯(lián)網(wǎng)資源存檔長期保存。日本國立國會圖書館是通過第二種方法進(jìn)行互聯(lián)網(wǎng)資源存檔,這種方法是以WARC壓縮包的形式保存,數(shù)據(jù)不能被修改,同時一個壓縮包能保存多個文件,不但減少了文件數(shù)量而且減少了文件所占存儲空間。

互聯(lián)網(wǎng)資源存檔從獲取方式上也有兩種方法:一種是通過軟件采集進(jìn)行保存,另一種是通過征集贈與或繳存的形式保存。征集贈與或繳存的網(wǎng)站是數(shù)據(jù)庫形式的內(nèi)容,需要轉(zhuǎn)換成WARC格式。目前轉(zhuǎn)換成WARC格式的技術(shù)還不成熟,轉(zhuǎn)換后的網(wǎng)站回放的效果并不理想,會有一部分內(nèi)容無法顯示或出錯,因此國際上主要以軟件采集的方法進(jìn)行保存,日本國立國會圖書館同樣就是用軟件采集方法進(jìn)行保存。

1.3 日本互聯(lián)網(wǎng)資源存檔項目的特色服務(wù)

為更方便快捷地對存檔內(nèi)容進(jìn)行檢索及使用,日本國立國會圖書館對其存檔的互聯(lián)網(wǎng)資源進(jìn)行了可視化操作和互聯(lián)網(wǎng)出版物數(shù)據(jù)加工。①存儲站點類別可視化:運用大數(shù)據(jù)可視化工具對存儲的站點進(jìn)行分類,用不同顏色的圓圈表示,資源容量越大,對應(yīng)顏色的圓圈所占面積也越大。②公共團(tuán)體網(wǎng)站可視化:以地圖的形式分析采集公共團(tuán)體網(wǎng)站,分析網(wǎng)站的變化和消失情況。③國家機構(gòu)文件的可視化:從采集的國家機構(gòu)文件中選取出1?000萬個文件,以圖表的形式展示其近5年出現(xiàn)和消失的情況。④互聯(lián)網(wǎng)出版物的數(shù)據(jù)加工:從存儲網(wǎng)站上提取出版物和受版權(quán)保護(hù)的作品,如白皮書、會議資料、報告和專著等,并添加標(biāo)題和作者等數(shù)據(jù),以便可以對其進(jìn)行有效搜索。

互聯(lián)網(wǎng)資源存檔項目主要保存國家重要文化財產(chǎn),通過深度挖掘并利用大數(shù)據(jù)技術(shù)對其進(jìn)行可視化操作,可為不同專業(yè)的科研人員提供豐富數(shù)據(jù)和圖表供其研究使用,同時也能讓更多的人明白互聯(lián)網(wǎng)存檔的價值和意義。

2 日本互聯(lián)網(wǎng)資源存檔全流程

日本互聯(lián)網(wǎng)資源存檔全流程如圖1所示,由5個部分組成,即篩選、采集、組織、保存和發(fā)布。網(wǎng)站上發(fā)布的信息將隨著時間而改變,互聯(lián)網(wǎng)資源存檔項目通過定期重復(fù)此流程來跟蹤網(wǎng)站中的更改。

2.1 互聯(lián)網(wǎng)資源存檔網(wǎng)站篩選策略

根據(jù)制定的需求(包括目標(biāo)類型和規(guī)模)篩選要采集的網(wǎng)站,以確定采用何種方式進(jìn)行信息采集。其中根據(jù)目標(biāo)類型需求按照專題采集特定類型的網(wǎng)站,一般采用選擇性采集的方式。根據(jù)采集的規(guī)模,小規(guī)模采集僅采集國內(nèi)的綜合性網(wǎng)站,多采用選擇性采集或批量采集的方式進(jìn)行;大規(guī)模采集針對全世界范圍采集網(wǎng)站,一般選擇批量采集或綜合采集的方式進(jìn)行。

2.1.1 選擇性采集

特定主題網(wǎng)站的集合稱為選擇性采集,需要指定一個采集單位,如站點單位或網(wǎng)頁單位。此方法用于中小型互聯(lián)網(wǎng)資源存檔,如奧運會等類專題采集需要采用選擇性采集,因為相關(guān)網(wǎng)站只有個別欄目是介紹這類專題的,沒有必要完全整站采集。針對沒有法律許可的網(wǎng)站,如版權(quán)聲明中明確規(guī)定不允許復(fù)制保存的新聞類和受版權(quán)保護(hù)的文學(xué)類網(wǎng)站資源,采集部分內(nèi)容前必須獲得創(chuàng)建者的許可,其沒有關(guān)于“批量采集”法律許可,故此種類型的網(wǎng)站采集也需選用選擇性采集的方式。

2.1.2 批量采集

批量采集是跨國家/地區(qū)域(如“.com”和“.de”)的大規(guī)模網(wǎng)站集合。一些機構(gòu),如IA,會聚合世界各地的網(wǎng)站,因此日本國立國會圖書館在采集此類網(wǎng)站信息時,需采用批量采集的方式。

在法律制度下,大部分互聯(lián)網(wǎng)資源是由國家圖書館等公共機構(gòu)進(jìn)行存檔。批量采集法律許可的網(wǎng)站,無須事先獲得創(chuàng)建者的同意。根據(jù)2010年4月生效的《國立國會圖書館法》(修訂版),日本國立國會圖書館有權(quán)批量采集公共機構(gòu)網(wǎng)站的資源。

2.1.3 綜合采集

綜合采集是將選擇性采集和批量采集相結(jié)合的方式進(jìn)行采集。日本國立國會圖書館通過立法可以對一部分網(wǎng)站進(jìn)行批量采集,但是對于社交網(wǎng)站、視頻網(wǎng)站和私人網(wǎng)站等并沒有批量采集的權(quán)限,因此當(dāng)采集需求涉及這類沒有權(quán)限的網(wǎng)站時,只能采取選擇性采集的方式進(jìn)行采集。綜合采集是采集特殊需求的內(nèi)容,如發(fā)生的全國性熱點事件既涉及官方網(wǎng)站內(nèi)容又涉及社交網(wǎng)站內(nèi)容,就需要運用綜合采集,對法律允許采集的網(wǎng)站進(jìn)行批量采集,不在法律規(guī)定范圍內(nèi)的網(wǎng)站須征得同意后才可進(jìn)行選擇性采集。

2.2 互聯(lián)網(wǎng)資源存檔采集技術(shù)

在實際采集目標(biāo)網(wǎng)站時,日本國立國會圖書館使用自動采集程序——采集機器人(抓取工具)進(jìn)行采集,在采集之前制定采集頻率和采集深度。

2.2.1 采集對象

根據(jù)《國立國會圖書館法》第24條規(guī)定可以對以下機構(gòu)進(jìn)行采集,如國家機關(guān)(立法、行政、司法,包括當(dāng)?shù)胤种C構(gòu))、獨立行政機關(guān)、國立大學(xué)法人(包括大學(xué)聯(lián)合機構(gòu)法人)、特殊法人等。第24-2條規(guī)定的機構(gòu)包括地方公共組織(包括法定的委員會)和地方公社(港務(wù)局、房屋供應(yīng)公司、道路公司、土地開發(fā)公司、地方獨立行政機構(gòu)、全國地方賽馬協(xié)會、地方公共組織金融組織、日本下水道公司)等[4]。除法律規(guī)定外,WARP項目還會與網(wǎng)站創(chuàng)建者溝通,采集創(chuàng)建者允許的私人網(wǎng)站。

2.2.2 采集原理

日本W(wǎng)ARP項目使用自動采集程序(Heritrix)自動采集網(wǎng)站。采集機器人采集網(wǎng)站原理如圖2所示,采集機器人首先訪問起始網(wǎng)頁(起始URL)。然后,在采集頁面html文件的同時,分析html文件中的結(jié)構(gòu)并開始采集文件,包括文檔、圖像、音頻、視頻、樣式表和腳本文件。從起始URL跳轉(zhuǎn)到其他鏈接頁面,然后重復(fù)相同的操作直至到達(dá)設(shè)定的采集深度或者沒有鏈接為止。為了減少對采集網(wǎng)站服務(wù)器上的網(wǎng)絡(luò)負(fù)載,每次采集之間將保留1秒或更長的下載間隔[5-6]。

根據(jù)《國家國立圖書館法》第25-3條第2項的規(guī)定,對于設(shè)置了爬蟲協(xié)議(robots.txt)的網(wǎng)站,要求網(wǎng)站必須將日本國立國會圖書館添加到爬蟲協(xié)議中。

2.2.3 采集頻率

最理想的采集頻率是網(wǎng)站每次更新便采集,但這需要一種能實時監(jiān)測網(wǎng)站更新信息的爬蟲。一些大學(xué)研究機構(gòu)正在開發(fā)配合大數(shù)據(jù)分析的高性能爬蟲工具,但目前還沒有互聯(lián)網(wǎng)資源存檔操作機構(gòu)使用這種爬蟲,因為這種爬蟲對服務(wù)器的要求特別高,并不適合大批量采集,且還處于實驗階段。

日本國立國會圖書館根據(jù)不同網(wǎng)站設(shè)定不同的采集頻率,如表1所示,基于法律規(guī)定盡可能保存“國家機關(guān)”的信息,因此采取國家機關(guān)每月采集一次,都道府縣、政府條例制定部門城市等每季度采集一次,電子雜志根據(jù)發(fā)刊頻率進(jìn)行采集,重大事件網(wǎng)站根據(jù)需要采用選擇性采集或綜合采集的方式隨時采集。

2.2.4 差異采集

互聯(lián)網(wǎng)資源存檔會定期采集相同的網(wǎng)站。因此,部分新采集的文件相比之前采集的文件發(fā)生了變化,有一部分文件則與之前的完全相同,造成時間和存儲空間的浪費。為了解決數(shù)據(jù)重復(fù)采集的問題,日本國立國會圖書館提出差異采集法。每次采集時保存所有文件的方法稱為完全采集,而僅保存更改過的文件的方法稱為差異采集。

在差異采集中,通過比較哈希值來判斷文件是否相同。哈希值是通過使用某種計算方法(哈希函數(shù))來處理電子數(shù)據(jù)而獲得的值。由于不同電子數(shù)據(jù)的哈希值很少相同,因此可以將其比作電子數(shù)據(jù)中的指紋。電子數(shù)據(jù)的任何細(xì)微變化都會改變哈希值。

日本國立國會圖書館的差異采集是在開源軟件DeDuplicator的基礎(chǔ)上進(jìn)行的二次開發(fā)。差異采集中,首先分析網(wǎng)站結(jié)構(gòu),篩選出不易變化的文檔類型,避免由于網(wǎng)頁微小噪音導(dǎo)致哈希值變化進(jìn)行錯誤采集。然后選擇文本文檔、非文本文檔或者兩者都進(jìn)行過濾。最后對比以前的采集日志,如果文件名稱均不相同,則進(jìn)行保存;如果存在相同名稱的文件,需比較通過SHA-1算法自動計算出的網(wǎng)頁文檔的哈希值,若相同則不保存,反之保存。

回放差異采集保存網(wǎng)站時,如果存在保存的文件,則顯示該文件,如果當(dāng)時沒有文件,則顯示最近保存的同名文件。被保存的文件因為擁有相同的哈希值,所以即使采集時間不同,也可以在保持原始狀態(tài)的同時對其進(jìn)行再現(xiàn)。

通過差異采集,不但可以減少要保存的文件數(shù)量,而且可以減少保存文件所需的存儲空間。如前所述,WARP項目每月都會對國家機關(guān)的資源進(jìn)行采集,每季度對其他機構(gòu)進(jìn)行采集。經(jīng)測試,與完全采集相比,差異采集方式約能減少70%的采集量。換言之,差異采集所需的存儲容量約為全部館藏的30%。通過差異采集方式進(jìn)行采集,有效地節(jié)省了互聯(lián)網(wǎng)資源存檔的存儲空間。

2.3 互聯(lián)網(wǎng)資源存檔的內(nèi)容組織

為了給用戶提供更好服務(wù),日本國立國會圖書館對采集到的網(wǎng)站進(jìn)行了深度加工,分別是網(wǎng)址深加工、元數(shù)據(jù)編目、全文內(nèi)容挖掘的處理。

2.3.1 網(wǎng)址深加工

采集網(wǎng)站回放的URL雖與原始URL不同,但保留了與原始URL的關(guān)系。圖書館回放地址通過兩種形式呈現(xiàn),即日期和網(wǎng)址組合、標(biāo)識符和網(wǎng)址組合。

日期和網(wǎng)址組合的回放網(wǎng)址由三部分組成,即互聯(lián)網(wǎng)資源存檔域(http://web.archive.org/web/)、日期(20040618115539)和原始URL(/http://www.meti.go.jp/),其表示該網(wǎng)址是在2004年6月18日11:55:39開始采集的。

與日期和網(wǎng)址組合不同的是,標(biāo)識符和網(wǎng)址組合將日期替換為標(biāo)識符信息(info:ndljp/pid/285403/),而其他則保持不變。

2.3.2 元數(shù)據(jù)編目

日本國立國會圖書館會根據(jù)文檔大小、用戶需求和目標(biāo)內(nèi)容3個方面來控制元數(shù)據(jù)的粒度。

(1)在批量采集的情況下,由于文檔數(shù)量巨大,難以提供細(xì)粒度的元數(shù)據(jù);而在選擇性采集的情況下,由于文檔數(shù)量很小,因此會提供相對詳細(xì)的元數(shù)據(jù)。

(2)互聯(lián)網(wǎng)資源存檔內(nèi)容最終的目的是服務(wù)用戶,因此元數(shù)據(jù)應(yīng)滿足一般用戶的需求。當(dāng)用戶需要詳細(xì)的元數(shù)據(jù)時,圖書館會盡可能提供。

(3)元數(shù)據(jù)的粒度還取決于目標(biāo)內(nèi)容。按特定目標(biāo)采集互聯(lián)網(wǎng)資源時,在采集之前,會將標(biāo)題、發(fā)布者和時間等元數(shù)據(jù)添加到待采集的目標(biāo)互聯(lián)網(wǎng)資源中。發(fā)布網(wǎng)站時,一部分會直接使用原始網(wǎng)站的元數(shù)據(jù),如標(biāo)題、發(fā)布者和原始URL;一部分會在原有基礎(chǔ)上增加一些必要的元數(shù)據(jù)字段,如摘要、主題事件、主題人物和關(guān)鍵詞等,因此元數(shù)據(jù)并不統(tǒng)一。此外,圖書館會從保存的網(wǎng)站中提取出特定的出版文檔,如白皮書、會議資料、報告、年鑒和論文,并為其添加詳細(xì)的元數(shù)據(jù)。這樣,用戶就可以集中、有效地搜索和瀏覽散布在整個互聯(lián)網(wǎng)網(wǎng)站上的出版物。

2.3.3 全文內(nèi)容挖掘

互聯(lián)網(wǎng)資源存檔的搜索服務(wù)與元數(shù)據(jù)編目是互補的關(guān)系,但是只基于元數(shù)據(jù)的搜索服務(wù)并不完善,因為透過元數(shù)據(jù)搜索不會搜到存檔內(nèi)容的詳細(xì)信息,因此在元數(shù)據(jù)搜索的基礎(chǔ)上還需開發(fā)全文搜索服務(wù)。目前,全球60%的互聯(lián)網(wǎng)資源存檔機構(gòu)都具備全文搜索功能。

日本國立國會圖書館WARP項目利用開源軟件Solr進(jìn)行二次開發(fā),在Solr服務(wù)器上使用warc-indexer插件對存檔文件進(jìn)行索引,實現(xiàn)對所有采集資源(html頁面、pdf、不同媒體類型的元數(shù)據(jù)、URL等)的全文和元數(shù)據(jù)檢索。全文檢索功能除了需要對存檔內(nèi)容進(jìn)行索引加工外,還需要硬件設(shè)備的支持,由于全文索引和搜索需要具備高速計算和快速響應(yīng)的搜索服務(wù)器,同時由于存檔網(wǎng)站的數(shù)量巨大,因此還需要具備快速讀寫的存儲設(shè)備。

2.4 互聯(lián)網(wǎng)資源存檔保存技術(shù)

無論是書籍還是數(shù)字內(nèi)容,圖書館都必須保證其保存的內(nèi)容可以長期使用(100年或更長)。這種措施和嘗試被稱為長期保存。

2.4.1 存檔資源內(nèi)容的保存技術(shù)

互聯(lián)網(wǎng)資源存檔的長期保存主要通過數(shù)據(jù)冗余和不同介質(zhì)備份兩種方式完成。

數(shù)據(jù)冗余主要用于防止由于硬盤故障而導(dǎo)致的數(shù)據(jù)丟失,目前通過使用RAID(磁盤冗余陣列)等技術(shù)來實現(xiàn)。

不同介質(zhì)備份主要是定期將硬盤上的數(shù)據(jù)備份到光盤等其他介質(zhì),以保留多代數(shù)據(jù)。劃分存儲位置以進(jìn)行風(fēng)險分配(災(zāi)難恢復(fù))也是防止數(shù)據(jù)丟失的一種重要手段。數(shù)據(jù)的存儲介質(zhì)需要存儲在穩(wěn)定的物理環(huán)境中,并且需要定時進(jìn)行介質(zhì)轉(zhuǎn)換以防止存儲介質(zhì)的劣化。

2.4.2 存檔資源質(zhì)量的保存技術(shù)

互聯(lián)網(wǎng)資源存檔不僅要保存數(shù)據(jù)內(nèi)容,而且要保證數(shù)據(jù)能被正常使用。日本國立國會圖書館采用數(shù)據(jù)遷移和虛擬軟件的方法來保證數(shù)據(jù)的可用性。

數(shù)據(jù)遷移是文件由于硬件或軟件環(huán)境的變化,在技術(shù)上變得不可讀之前,需要轉(zhuǎn)換格式或遷移到另一種存儲介質(zhì)的方法。例如,使用老式處理軟件創(chuàng)建的文件轉(zhuǎn)換為最新的處理軟件的數(shù)據(jù)格式,或者在硬件設(shè)備更改時將介質(zhì)從軟盤更改為光盤來保存數(shù)據(jù)。

虛擬軟件是在新的硬件和軟件環(huán)境下,模擬原來的文件和軟件的使用環(huán)境。例如,可以通過使用虛擬軟件在最新的Windows環(huán)境中重現(xiàn)Windows 3.1環(huán)境來使用僅在Windows 3.1上運行的軟件。

為了有效地管理和實施數(shù)據(jù)遷移和虛擬仿真,有必要創(chuàng)建與保存相關(guān)的元數(shù)據(jù),以記錄數(shù)據(jù)存檔時的播放設(shè)備、播放環(huán)境、創(chuàng)建應(yīng)用程序、文件格式版本等。通過將存儲在元數(shù)據(jù)中的信息與最新的技術(shù)趨勢進(jìn)行比較,可以及時掌握文件的過時情況并進(jìn)行數(shù)據(jù)遷移和準(zhǔn)備合適的虛擬仿真環(huán)境。

2.5 互聯(lián)網(wǎng)資源存檔的發(fā)布

2.5.1 互聯(lián)網(wǎng)資源存檔發(fā)布范圍

在世界各地的互聯(lián)網(wǎng)資源存檔機構(gòu)中,很少有將其存儲的所有內(nèi)容無條件地發(fā)布在互聯(lián)網(wǎng)上,資源的發(fā)布經(jīng)常受到一些限制,如訪問的位置、資格、范圍等。

存檔機構(gòu)采集并保存資源必須要使用它,否則毫無意義。日本國立國會圖書館綜合考慮版權(quán)、個人信息和許可條件等采用了不同的發(fā)布形式。對于法律允許的采集內(nèi)容在互聯(lián)網(wǎng)上公開發(fā)布。對于一些版權(quán)要求嚴(yán)格或者包含許多個人信息的資源,出于研究目的,只在圖書館內(nèi)部發(fā)布。

2.5.2 互聯(lián)網(wǎng)資源存檔的發(fā)布形式

日本互聯(lián)網(wǎng)資源存檔項目為了給用戶提供更好的服務(wù),通過多種形式對采集資源進(jìn)行發(fā)布。①網(wǎng)站搜索服務(wù):將采集的資源進(jìn)行整合、編目、索引發(fā)布到官方網(wǎng)站上,用戶通過搜索找到自己所需資源,這是世界上通用的發(fā)布形式。②專題服務(wù):每月確定一個專題,按照專題的需求整合存檔內(nèi)容,發(fā)布到專題頁面。③特色服務(wù):將采集的內(nèi)容進(jìn)行整合和深度挖掘,通過可視化和數(shù)據(jù)再加工的形式展示給用戶,讓用戶能更加直接地了解存檔項目的使用價值。④歷史網(wǎng)站服務(wù):日本用戶通過瀏覽器瀏覽網(wǎng)站如果出現(xiàn)錯誤或者打不開時,將提供跳轉(zhuǎn)到WARP歷史網(wǎng)站界面選項,進(jìn)入后可以選擇不同采集日期的頁面,讓用戶能夠瀏覽被修改和刪掉的網(wǎng)站內(nèi)容。

3 日本互聯(lián)網(wǎng)資源存檔對我國的啟示

3.1 開發(fā)互聯(lián)網(wǎng)資源存檔的采集軟件

目前國內(nèi)存檔機構(gòu)還在采用完全采集的方法對網(wǎng)站進(jìn)行采集,這導(dǎo)致許多數(shù)據(jù)被重復(fù)采集,造成人力資源和存儲資源的浪費。日本國立國會圖書館利用差異采集方法實現(xiàn)了只采集修改的網(wǎng)站數(shù)據(jù),節(jié)省了時間和存儲空間。

隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的資源需要采集,差異采集方法是必然趨勢。我國存檔機構(gòu)目前正面臨采集數(shù)據(jù)量快速增長導(dǎo)致存儲空間不夠的問題,而差異采集能夠減少存儲空間的占用從而提高采集效果,因此國內(nèi)存檔機構(gòu)可以借鑒現(xiàn)有的差異采集軟件,如DeDuplicator、OutbackCDX和warcrefs的技術(shù)經(jīng)驗,開發(fā)出適合中文數(shù)據(jù)資源的差異采集軟件[7-9],解決存儲空間不夠的問題。差異采集方法實現(xiàn)之后,不但能夠解決國內(nèi)存儲空間緊張的問題,還能解決后期發(fā)布人工刪除重復(fù)頁面的工作,大大節(jié)約了人力和時間成本。

3.2 建立互聯(lián)網(wǎng)資源存檔的元數(shù)據(jù)庫

中國國家圖書館互聯(lián)網(wǎng)資源存檔項目的編目僅采用一種統(tǒng)一的編目格式,并沒有針對文檔大小、用戶需求和目標(biāo)內(nèi)容控制元數(shù)據(jù)的粒度。中國互聯(lián)網(wǎng)資源存檔數(shù)據(jù)量巨大,國家圖書館由于受到人力和財力的限制,像日本一樣將元數(shù)據(jù)添加到所有互聯(lián)網(wǎng)資源存檔內(nèi)容中是不現(xiàn)實的。當(dāng)前國內(nèi)圖書館互聯(lián)網(wǎng)資源存檔項目采集的資源隨著互聯(lián)網(wǎng)的發(fā)展越來越多,單獨通過網(wǎng)址查找資源已經(jīng)不能滿足用戶的需求(并不是所有用戶都知道準(zhǔn)確的網(wǎng)址),因此亟需建立自己的元數(shù)據(jù)庫,讓用戶能夠通過元數(shù)據(jù)準(zhǔn)確查找資源。雖然因存檔數(shù)據(jù)量巨大,無法通過人力實現(xiàn)對所有的存檔數(shù)據(jù)建立詳細(xì)元數(shù)據(jù)庫,但是可以借鑒日本國立國會圖書館的經(jīng)驗,將采集的出版物提取出來,單獨制作詳細(xì)的元數(shù)據(jù),為用戶提供服務(wù)。

中國互聯(lián)網(wǎng)資源存檔解決用戶通過元數(shù)據(jù)查找資源的需求,需要開發(fā)一套資源采集系統(tǒng),理解所采集網(wǎng)站的內(nèi)容,并利用語義網(wǎng)等技術(shù)自動添加元數(shù)據(jù)。存檔編目還可以引入社交標(biāo)簽的機制,讓用戶自行將主題的元數(shù)據(jù)添加到正在觀看的內(nèi)容當(dāng)中。元數(shù)據(jù)庫建立后不但能讓用戶通過元數(shù)據(jù)準(zhǔn)確查找資源,而且還能通過元數(shù)據(jù)建立資源之間的關(guān)系,提供關(guān)聯(lián)服務(wù)。

3.3 強化互聯(lián)網(wǎng)資源存檔的長期保存

互聯(lián)網(wǎng)資源存檔不僅是把網(wǎng)絡(luò)資源做一個備份存儲下來,而且還要保證采集到的資源能夠通過瀏覽器回放。國內(nèi)存檔機構(gòu)目前還處在擴大采集規(guī)模和數(shù)量的階段,對于保存只是做了硬盤備份和服務(wù)器RAID設(shè)置,并沒有考慮到資源的長期使用和長期保存。

日本國立國會圖書館從存檔數(shù)據(jù)長期保存和長期使用的角度出發(fā),在硬件上利用服務(wù)器RAID設(shè)置和定時轉(zhuǎn)換存儲介質(zhì)的方法來保證數(shù)據(jù)的長期完整性,在軟件上利用數(shù)據(jù)遷移技術(shù)和虛擬軟件的方式來保證數(shù)據(jù)的實用性。中國存檔機構(gòu)可以借鑒日本的經(jīng)驗,根據(jù)國內(nèi)存檔情況制定定時存儲介質(zhì)轉(zhuǎn)換計劃和積極開發(fā)虛擬軟件模擬資源的原始運行環(huán)境,保證存檔的數(shù)據(jù)能夠長期保存和使用?;ヂ?lián)網(wǎng)資源長期保存的目的就是讓消失和被修改的資源能夠以原始的樣式重新展示,讓更多的人通過互聯(lián)網(wǎng)存檔計劃了解真實的歷史和文化,因此保證長期保存數(shù)據(jù)的可用性是十分重要的。

3.4 完善互聯(lián)網(wǎng)資源存檔的法規(guī)建設(shè)

合法性通常是網(wǎng)絡(luò)資源存檔面臨最大的非技術(shù)性問題[10-11]。在所有者沒有明確許可的情況下,是否擁有復(fù)制內(nèi)容和提供獨立于原始網(wǎng)站訪問的合法權(quán)利?是否侵犯了所有者的版權(quán)?一些網(wǎng)站明確標(biāo)出了版權(quán)許可或版權(quán)授權(quán)信息,如知識共享或官方版權(quán),可以部分解決網(wǎng)絡(luò)存檔合法性問題。但是,很大程度上取決于有關(guān)國家規(guī)定和存檔機構(gòu)的職權(quán)范圍。

日本國立國會圖書館采用法律授權(quán)和創(chuàng)建者授權(quán)的方式,解決了互聯(lián)網(wǎng)資源采集和服務(wù)的合法性問題。目前,中國國家圖書館正在積極準(zhǔn)備互聯(lián)網(wǎng)資源存檔相關(guān)法律的提案,如果提案被通過,國家圖書館將能夠?qū)ヂ?lián)網(wǎng)信息進(jìn)行復(fù)制、編輯、長期保存和公共服務(wù)。在此之前,國內(nèi)存檔機構(gòu)需要積極與網(wǎng)站創(chuàng)建者溝通獲取采集和發(fā)布權(quán)限,盡最大可能保存即將消失的互聯(lián)網(wǎng)資源。

3.5 加強互聯(lián)網(wǎng)資源存檔的國際合作

中國的互聯(lián)網(wǎng)資源采集機構(gòu)主要有國家圖書館、北京大學(xué)、國家檔案館、臺灣圖書館和臺灣大學(xué)圖書館。不同機構(gòu)雖然采集策略不同但還是有重合的地方,會形成對一個站點重復(fù)存檔的問題。國內(nèi)存檔機構(gòu)的交流與合作有助于避免網(wǎng)站的重復(fù)采集和技術(shù)升級,實現(xiàn)更大規(guī)模的互聯(lián)網(wǎng)資源存檔。

日本國立國會圖書館積極參與國際交流,利用開源軟件進(jìn)行二次開發(fā),實現(xiàn)了互聯(lián)網(wǎng)資源存檔的快速發(fā)展。因此,國內(nèi)存檔機構(gòu)應(yīng)積極參與國際交流并吸收國外經(jīng)驗,讓國內(nèi)互聯(lián)網(wǎng)資源存檔盡快達(dá)到國際標(biāo)準(zhǔn)?;ヂ?lián)網(wǎng)資源存檔是一個全球化的工作,國際交流和合作是必不可少的,通過交流不但能夠獲取先進(jìn)的技術(shù),而且保證了所保存的內(nèi)容符合國際標(biāo)準(zhǔn)。

4 結(jié)語

隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的行業(yè)從線下轉(zhuǎn)到了線上,在網(wǎng)絡(luò)上產(chǎn)生了大量有價值的資源,同時由于互聯(lián)網(wǎng)資源與實體資源相比具有壽命較短的不足,互聯(lián)網(wǎng)資源存檔勢在必行。但目前中國互聯(lián)網(wǎng)資源存檔還處于初級階段,沒有完善的法律保障、先進(jìn)的技術(shù)支持和充足的資金保證,因此面對海量的網(wǎng)絡(luò)資源,如何進(jìn)行批量采集、加工、編目、保存和發(fā)布,突破知識產(chǎn)權(quán)和采集技術(shù)兩大難題,成為亟待解決的問題。日本國立國會圖書館互聯(lián)網(wǎng)資源存檔項目的成功,為我們做了很好的示范和啟示,我們應(yīng)該吸收和借鑒日本的成功經(jīng)驗,包括差異采集方式、元數(shù)據(jù)規(guī)范、長期保存技術(shù)等,建立完善的法律法規(guī)、加強國內(nèi)外交流學(xué)習(xí)先進(jìn)的采集技術(shù),建設(shè)適合中國的互聯(lián)網(wǎng)資源存檔項目,實現(xiàn)中國互聯(lián)網(wǎng)資源存檔的快速發(fā)展。

[1] Internet Archive[EB/OL].[2020-09-07]. https://archive.org/about/.

[2] 國立國會図書館インターネット資料収集保存事業(yè)(WARP)[EB/OL].[2021-01-02]. https://warp.da.ndl.go.jp/.

[3] 國立國會図書館インターネット資料収集保存事業(yè)統(tǒng)計[EB/OL].[2020-05-11]. https://warp.da.ndl.go.jp/info/WARP_statistic.html.

[4] 國立國會図書館法によるインターネット資料の収集について[EB/OL].[2021-01-02]. https://warp.da.ndl.go.jp/bulk_info.pdf.

[5] 陳瑜. 日本國立國會圖書館網(wǎng)絡(luò)信息資源采集保存項目介紹研究[J]. 圖書館雜志,2014,33(3):91-94.

[6] 閆曉創(chuàng). 日本網(wǎng)絡(luò)資源存檔項目實踐研究[J]. 浙江檔案,2017(12):20-23.

[7] 孟慶浩. 互聯(lián)網(wǎng)數(shù)據(jù)增量采集系統(tǒng)的設(shè)計與實現(xiàn)[D]. 北京:北京郵電大學(xué),2015.

[8] 孟慶浩,王晶,沈奇威. 基于Heritrix的增量式爬蟲設(shè)計與實現(xiàn)[J]. 電信技術(shù),2014(9):97-101.

[9] 高婷,白如江. 基于OutbackCDX的增量式Web信息采集研究[J]. 山東理工大學(xué)學(xué)報(社會科學(xué)版),2020,36(4):99-105.

[10] 陸媛媛. 《公共圖書館法》應(yīng)關(guān)注網(wǎng)絡(luò)信息資源長期保存問題[J]. 安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報,2017,16(1):104-107.

[11] 張林華,徐維晨. 淺析國外網(wǎng)頁檔案實踐及其對我國的啟示[J]. 檔案與建設(shè),2020(6):9,38-41.

Research and Enlightenment of Internet Resource Archiving in the National Diet Library of Japan

YANG YunPeng

( National Library of China, Beijing 100081, China )

The National Diet Library of Japan started the internet resource archiving project WARP in 2002 and has established a complete system. This paper gives a detailed introduction to the internet resource archiving project of the National Diet Library of Japan from four aspects of website screening, collection technology, website processing and preservation technology. Meanwhile, it puts forward a proposal for China to carry out internet resource archiving from five aspects of collection methods, legal construction and international exchanges to get better development.

Internet Resource Archive; Website; National Diet Library of Japan; Collection

G279

10.3772/j.issn.1673-2286.2021.01.004

楊云鵬. 日本國立國會圖書館互聯(lián)網(wǎng)資源存檔研究與啟示[J]. 數(shù)字圖書館論壇,2021(1):24-31.

楊云鵬,男,1986年生,碩士,工程師,研究方向:數(shù)字資源整合與互聯(lián)網(wǎng)資源存檔,E-mail:syzyyp@126.com。

(收稿日期:2021-01-02)

猜你喜歡
國會圖書館日本
日本元旦是新年
華人時刊(2022年3期)2022-04-26 14:29:08
探尋日本
中華手工(2021年2期)2021-09-15 02:21:08
《黃金時代》日本版
電影(2019年3期)2019-04-04 11:57:16
“機構(gòu)強似人”:資政院對清季國會請愿運動的推進(jìn)
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
飛躍圖書館
去日本怎么玩?它告訴你
“娘子軍”
去圖書館
措美县| 从化市| 泸西县| 延川县| 汉源县| 全南县| 克什克腾旗| 卢龙县| 凤阳县| 永宁县| 利辛县| 仁怀市| 宣化县| 海林市| 潼南县| 沙田区| 九台市| 永吉县| 中西区| 平南县| 砚山县| 湛江市| 中方县| 宁化县| 平陆县| 比如县| 梧州市| 汶上县| 吴桥县| 祁阳县| 滁州市| 米林县| 浦东新区| 巴楚县| 句容市| 合川市| 疏附县| 颍上县| 南安市| 崇明县| 铁岭市|