加小雙 林妍歆 何露彤 王春蕾
摘 ?要:網(wǎng)絡(luò)信息存檔已經(jīng)成為世界各國保存數(shù)字遺產(chǎn)的重要內(nèi)容,如何有效制定國家網(wǎng)絡(luò)信息存檔戰(zhàn)略已經(jīng)成為時代要題與難題。剖析比利時PROMISE網(wǎng)絡(luò)信息存檔行動框架,為我國網(wǎng)絡(luò)存檔戰(zhàn)略提供啟示。采用網(wǎng)絡(luò)調(diào)查法、案例研究法和內(nèi)容分析法,在系統(tǒng)數(shù)據(jù)搜集的基礎(chǔ)上對比利時PROMISE項目進行分析總結(jié),拆解其研究過程,重點解析其所提出的國家網(wǎng)絡(luò)信息存檔行動框架。提出實施我國國家網(wǎng)絡(luò)信息存檔戰(zhàn)略的三點現(xiàn)實啟示:實施國家網(wǎng)絡(luò)信息存檔戰(zhàn)略迫在眉睫,高度重視國家網(wǎng)絡(luò)信息存檔的法律保障,建立國家網(wǎng)絡(luò)信息存檔的協(xié)同治理體系。
關(guān)鍵詞:網(wǎng)絡(luò)信息存檔;行動框架;治理;比利時
Abstract: ?Web archiving has become an important part of digital heritage preservation in the world, and how to effectively formulate the national web archiving strategy has become a key issue and problem of the times. The analysis of Belgium PROMISE web archiving action framework provides inspiration for our web strategy. Using online investigation, case studies and content analysis, the PROMISE project was analyzed and summarized on the basis of systematic data collection, and its research process was disassembled, focusing on the analysis of its proposed national web archiving framework for action. This study puts forward three practical enlightenments for implementing the national web archiving strategy of our country: it is urgent to implement the national web archiving strategy, attach great importance to the legal guarantee of the national web archiving, and establish a national web archiving collaborative governance system.
Keywords: Web archiving; Action framework; Governance; Belgium
1 引言
互聯(lián)網(wǎng)的發(fā)展使得線上虛擬生活與線下現(xiàn)實生活共同構(gòu)成了現(xiàn)代社會生活的整體。根據(jù)最新數(shù)據(jù),2021年底,全球上網(wǎng)人口達到49億,大約占全球人口的63%。[1]網(wǎng)絡(luò)空間中的信息作為數(shù)字時代的原生性信息資源,從記錄的基數(shù)廣度到細(xì)顆粒的深度,為人類留存與構(gòu)筑更加豐富生動的記憶提供了更多可能性,[2]也因此具有作為社會證據(jù)、記憶和資產(chǎn)的價值,需要進行存檔保存。網(wǎng)絡(luò)信息存檔(Web Archive),即對萬維網(wǎng)的部分內(nèi)容進行收集,以檔案格式保存集合,然后提供訪問和使用的過程。[3]對于檔案部門來說,網(wǎng)絡(luò)信息存檔是傳統(tǒng)檔案工作在數(shù)字時代的合理也是必要的拓展,能夠優(yōu)化檔案館的館藏資源結(jié)構(gòu),同時為用戶提供更加高效便捷的信息服務(wù)。
比利時的“比利時多元網(wǎng)絡(luò)信息存檔國家戰(zhàn)略”(Preserving Online Multiple Information: towards a Belgian strategy,以下簡稱PROMISE)項目是由比利時皇家圖書館和比利時國家檔案館聯(lián)合主導(dǎo)推進的國家級協(xié)同性研究項目,旨在通過對其他國家網(wǎng)絡(luò)信息存檔實踐進行深入研究,進而制定比利時網(wǎng)絡(luò)信息存檔國家戰(zhàn)略,推進比利時國家網(wǎng)絡(luò)信息存檔實踐行動。[4]該項目的核心研究成果便是提出了比利時網(wǎng)絡(luò)信息存檔行動框架,并進行了一定實踐。該項目是在對其他國家網(wǎng)絡(luò)信息存檔經(jīng)驗進行充分研究基礎(chǔ)上,進而提出的國家行動框架,具有較強的借鑒意義。本文在對PROMISE項目的研究背景和研究過程進行分析的基礎(chǔ)上,重點解析其所提出的國家網(wǎng)絡(luò)信息存檔行動框架,并以此總結(jié)該項目對于我國實施國家網(wǎng)絡(luò)信息存檔戰(zhàn)略的啟示。
2 比利時PROMISE網(wǎng)絡(luò)信息存檔項目概覽
2.1 項目背景。比利時王國,簡稱比利時(Belgium),是位于歐洲西部沿海的聯(lián)邦國家,擁有復(fù)雜的政治和語言地理環(huán)境,被譽為“西歐的十字路口”。從20世紀(jì)80年代開始,比利時建立本國的網(wǎng)絡(luò)域名系統(tǒng)(DNS),至今已經(jīng)形成較為發(fā)達的國家網(wǎng)絡(luò)體系,并且形成了豐富獨特的網(wǎng)絡(luò)信息資源。[5]但與之不相匹配的是,比利時網(wǎng)絡(luò)信息一直未能得到系統(tǒng)性的存檔處理,這意味著比利時的數(shù)字資源始終處在無序的狀態(tài)中,隨時面臨著消失的風(fēng)險。
雖然比利時已有少數(shù)機構(gòu)開展過網(wǎng)絡(luò)信息存檔活動,如AMSAB社會歷史研究所(Instituut voor Sociale Geschiedenis)與自由主義檔案館(Liberaal Archief)聯(lián)合實施的“捕獲數(shù)字遺產(chǎn)”(Catching the Digital Heritage)項目[6],佛蘭德語社區(qū)開展的“大衛(wèi)存檔系統(tǒng)—網(wǎng)絡(luò)存檔”(DAVID—Archiving websites)項目[7]等,但這些項目的實施范圍有限,未成規(guī)模與氣候,并且存檔后的網(wǎng)絡(luò)信息分散存儲于不同網(wǎng)絡(luò)空間,不利于網(wǎng)絡(luò)信息資源的長期保存和統(tǒng)一利用。對此,許多比利時檔案工作者意識到,如果沒有在國家層面開展網(wǎng)絡(luò)信息存檔行動,那么比利時的數(shù)字遺產(chǎn)將會面臨永遠(yuǎn)消失的危機。甚至有學(xué)者稱,“在大多數(shù)情況下,歷史學(xué)家除非使用網(wǎng)絡(luò)檔案,否則他們很難書寫20世紀(jì)90年代的歷史”。[8]同時,在國際層面,比利時的網(wǎng)絡(luò)信息存檔也處于較為滯后的狀態(tài)。從1996年起,許多國家和地區(qū)的圖書館和檔案館相繼開展網(wǎng)絡(luò)信息存檔行動,如澳大利亞、英國、瑞典和新西蘭,等等。目前在歐洲,比利時是少數(shù)幾個沒有開展過系統(tǒng)性網(wǎng)絡(luò)信息存檔的國家之一,這種相對滯后的存檔現(xiàn)狀將會給比利時數(shù)字遺產(chǎn)的保護和留存帶來巨大挑戰(zhàn)。
基于上述背景,2016年夏,比利時國家檔案館和比利時皇家圖書館組成的研究團隊,聯(lián)合根特和納慕爾大學(xué)、布魯塞爾布拉班特大學(xué)的信息和文獻學(xué)院,共同合作完成了一項關(guān)于實施比利時多元網(wǎng)絡(luò)信息存檔國家戰(zhàn)略的提案,并提交給比利時科學(xué)政策辦公室(以下簡稱BELSPO)。很快,該提案得到高度重視。2017年,在BELSPO的資助下,比利時皇家圖書館和比利時國家檔案館作為主導(dǎo)機構(gòu),正式啟動了PROMISE項目。
2.2 研究階段與主要成果。PROMISE項目從2017年正式開始建設(shè),按照其實施目標(biāo)和內(nèi)容可以劃分為四個階段,具體如下。
第一階段:研究國家網(wǎng)絡(luò)信息存檔領(lǐng)域的最佳實踐。首先,PROMISE項目組采用案頭調(diào)研(Desk Research)方法,對各個國家現(xiàn)有網(wǎng)絡(luò)信息存檔項目的二手資料進行搜集、整理和分析,深入了解目前國際上網(wǎng)絡(luò)信息存檔的最新技術(shù)水平,重點從法律、技術(shù)和流程的角度研究歸納網(wǎng)絡(luò)信息存檔的法律框架、技術(shù)要素和基本流程。其次,項目組選取代表性國家項目開展深度訪談?wù){(diào)查,進一步收集相關(guān)信息,梳理項目經(jīng)驗與教訓(xùn),其訪談對象包括檔案管理員、圖書管理員、IT專家、經(jīng)理、數(shù)字展覽負(fù)責(zé)人和研究人員等。最后,梳理和整合全部調(diào)研信息,形成一份關(guān)于網(wǎng)絡(luò)信息存檔領(lǐng)域最佳實踐的研究性成果,即《網(wǎng)絡(luò)檔案作為數(shù)字學(xué)者的數(shù)據(jù)資源》(Web Archives as a data resource for digital scholars)。[9]
第二階段:制定比利時網(wǎng)絡(luò)信息存檔的行動戰(zhàn)略方案。首先,識別比利時網(wǎng)絡(luò)信息的定義與內(nèi)容。項目組以比利時兩部皇家法令(《關(guān)于建立比利時國家檔案館的皇家法令》和《關(guān)于執(zhí)行<檔案法>的皇家法令》)為法律框架,從法律文本中提取出“比利時網(wǎng)絡(luò)信息”的操作型定義,并以此為基礎(chǔ)建立出一個詳盡的信息內(nèi)容選擇標(biāo)準(zhǔn)列表。[10]其次,確定存檔機構(gòu)的法律權(quán)責(zé)。項目組對每個機構(gòu)的法律權(quán)限、法定職責(zé)等內(nèi)容進行分析,并將結(jié)果以圖表的形式轉(zhuǎn)化為機構(gòu)業(yè)務(wù)準(zhǔn)則,以明確各個機構(gòu)在法律層面的權(quán)利要求。再次,擬定網(wǎng)絡(luò)信息存檔的內(nèi)容選擇標(biāo)準(zhǔn)。項目組參考在第一階段研究中所得到的各國網(wǎng)絡(luò)信息存檔的內(nèi)容選擇標(biāo)準(zhǔn),結(jié)合本國的網(wǎng)絡(luò)信息定義以及存檔機構(gòu)的法律權(quán)責(zé),擬定了比利時網(wǎng)絡(luò)信息存檔的內(nèi)容選擇標(biāo)準(zhǔn)。最后,制定網(wǎng)絡(luò)信息存檔的行動戰(zhàn)略方案,主要內(nèi)容包括上述的比利時網(wǎng)絡(luò)信息定義與內(nèi)容、存檔機構(gòu)的法律權(quán)責(zé)、內(nèi)容選擇標(biāo)準(zhǔn),以及對比利時網(wǎng)絡(luò)檔案的未來用戶需求的預(yù)測分析結(jié)果等。這一階段的研究成果為一份關(guān)于比利時網(wǎng)絡(luò)信息存檔的整體行動戰(zhàn)略方案,即《在聯(lián)邦一級建立比利時網(wǎng)絡(luò)檔案館的路線圖》(A Roadmap for Establishing A Belgian Web Archive At the Federal Level)。[11]
第三階段:比利時網(wǎng)絡(luò)信息存檔系統(tǒng)的試點應(yīng)用與測試評價。首先,試點網(wǎng)站與信息內(nèi)容的選取。項目組從比利時全域的網(wǎng)址列表中隨機選取了一萬多個網(wǎng)站作為試點網(wǎng)站,網(wǎng)站類別包括聯(lián)邦機構(gòu)的網(wǎng)站、內(nèi)閣的網(wǎng)站、部長/國務(wù)秘書的網(wǎng)站、與聯(lián)邦層面有聯(lián)系的其他公共組織的網(wǎng)站,如貿(mào)易協(xié)會、工會、聯(lián)合會、政黨以及公共利益組織的網(wǎng)站等。這些試點網(wǎng)站僅用于系統(tǒng)的此次測試評價過程,并不對其網(wǎng)頁信息進行長期的歸檔保存。其次,描述性元數(shù)據(jù)集的制定和應(yīng)用。項目組根據(jù)聯(lián)機計算機圖書館中心(OCLC)網(wǎng)絡(luò)存檔元數(shù)據(jù)工作組的報告,創(chuàng)建出包含14個元素的描述性元數(shù)據(jù)集,這些元數(shù)據(jù)都可以在爬取網(wǎng)頁時自動獲取,并直接錄入到機構(gòu)目錄當(dāng)中。再次,項目組利用Heritrix工具捕獲網(wǎng)頁當(dāng)中的信息,被捕獲的信息以WARC文件格式進行保存。最后,項目組對所保存的比利時網(wǎng)絡(luò)信息進行訪問和評價,評價內(nèi)容包括捕獲工具的速度、效果和捕獲內(nèi)容的質(zhì)量。
第四階段:實施可持續(xù)的網(wǎng)絡(luò)信息存檔服務(wù)。本階段的主要目標(biāo)是從法律要求、業(yè)務(wù)模式、技術(shù)、功能、組織要求等多個層面分析網(wǎng)絡(luò)信息存檔服務(wù)存在的主要障礙,并提出針對性的解決方案建議。在法律要求方面,項目組主要分析了與網(wǎng)絡(luò)信息存檔服務(wù)有關(guān)的個人數(shù)據(jù)保護規(guī)定、規(guī)則和原則,并基于此編制了一份關(guān)鍵數(shù)據(jù)保護術(shù)語的詞匯表,作為機構(gòu)業(yè)務(wù)工作的參考。在業(yè)務(wù)模式方面,項目組提出了服務(wù)主導(dǎo)型的業(yè)務(wù)模式,該模式包含的四大要素分別是服務(wù)、管理、參與者和成本效益。在該模式下,根據(jù)服務(wù)和管理主體的不同又可以細(xì)分為三個具體場景,項目組利用BPMN(業(yè)務(wù)流程建模標(biāo)記法)分別映射出對應(yīng)的雷達圖,以用于指導(dǎo)不同場景下的網(wǎng)絡(luò)信息存檔服務(wù)工作。在技術(shù)、功能、組織要求方面,項目組編制了比利時網(wǎng)絡(luò)信息存檔系統(tǒng)(URF-SID)的技術(shù)和功能要求文件,用于指導(dǎo)項目進行期間所有工具(包括選擇、爬取、再現(xiàn)、搜索等工具)的開發(fā)的具體部署工作。
3 比利時PROMISE網(wǎng)絡(luò)信息存檔行動框架
PROMISE項目的核心研究成果便是提出了比利時網(wǎng)絡(luò)信息存檔整體行動框架(見圖1),據(jù)此確定了網(wǎng)絡(luò)信息存檔行動的流程環(huán)節(jié)(主要包括網(wǎng)絡(luò)信息的選擇、捕獲與質(zhì)量控制、保存和利用)和保障要素(主要包括法律規(guī)范、用戶需求和數(shù)字技術(shù))。
圖1 比利時網(wǎng)絡(luò)信息存檔行動框架
3.1 流程環(huán)節(jié)
3.1.1 內(nèi)容選擇。內(nèi)容選擇是PROMISE存檔行動中的首要環(huán)節(jié),目的在于從網(wǎng)絡(luò)信息中選擇出適合進行存檔的“比利時國家網(wǎng)絡(luò)信息”,具體包括選擇依據(jù)、選擇對象以及選擇策略。比利時存檔網(wǎng)絡(luò)信息的選擇依據(jù)主要來自于法律標(biāo)準(zhǔn)。根據(jù)對本國法律框架的梳理,以及在第一階段從法國、丹麥等國家立法規(guī)定中得出的參考,PROMISE項目組確定了“比利時網(wǎng)絡(luò)信息”的操作型定義。根據(jù)該定義,比利時存檔網(wǎng)絡(luò)信息具體指向三類:一是與比利時領(lǐng)土有關(guān)的域名的內(nèi)容,包括國家域名、地區(qū)域名和城市域名的內(nèi)容;二是由比利時國人注冊的或在歷史、政治或文化上與比利時有關(guān)的,以及比利時社會感興趣的或與之相關(guān)的,包括但不限于國家文化遺產(chǎn)的網(wǎng)絡(luò)內(nèi)容;三是與在比利時境內(nèi)創(chuàng)建、制作或出版的網(wǎng)頁內(nèi)容相關(guān)的部分活動的網(wǎng)站。[12]
這三種選擇對象適用于絕大多數(shù)機構(gòu)的網(wǎng)絡(luò)信息存檔情況,但不同的存檔機構(gòu)所選擇的內(nèi)容也存在一些差別。比如比利時國家檔案館側(cè)重于對來自政府組織網(wǎng)站的公共記錄的采集,而比利時皇家圖書館將非政府組織的網(wǎng)站也納入到存檔范圍中,其內(nèi)容選擇范圍更為廣泛。在此階段,PROMISE項目一方面廣泛爬取所有符合存檔要求的網(wǎng)站,得到包含大約650個網(wǎng)站的種子目錄;另一方面在此基礎(chǔ)上不斷擴大選擇范圍,納入如城市、市政當(dāng)局和聯(lián)邦地區(qū)其他公共機構(gòu)的網(wǎng)站以及與國家檔案館獲得的私人檔案相關(guān)聯(lián)的網(wǎng)站。目前,PROMISE為比利時網(wǎng)絡(luò)信息存檔專門制定出的完整種子列表由920個網(wǎng)站和1400個網(wǎng)頁組成。此外,PROMISE還納入了許多基于主題或事件的專題性的比利時網(wǎng)絡(luò)信息,涵蓋音樂、版畫、手稿、裁定書等多個特定主題內(nèi)容,以及少數(shù)民族在網(wǎng)絡(luò)上的表現(xiàn)等多個對社會產(chǎn)生重要影響的特定事件內(nèi)容。[13]
3.1.2 內(nèi)容捕獲與質(zhì)量控制。內(nèi)容捕獲是PROMISE存檔行動中的中間環(huán)節(jié),目的在于利用網(wǎng)絡(luò)爬取工具和其他工具從所選取的網(wǎng)站中獲取網(wǎng)頁內(nèi)容及其元數(shù)據(jù)。PROMISE項目利用Heritrix軟件作為網(wǎng)絡(luò)爬取工具,對網(wǎng)頁上的超鏈接進行識別、跟蹤、捕捉并保存URL上的信息。在爬取過程中,Heritrix程序隨機從上一階段所制定的種子列表中選取某一網(wǎng)頁,從它開始不斷獲取網(wǎng)站頁面中的所有內(nèi)部鏈接并捕獲該鏈接頁面的內(nèi)容,然后將其存儲到一個文件當(dāng)中。[14]而元數(shù)據(jù)的捕獲則是參考OCLC制定的元數(shù)據(jù)集,在網(wǎng)頁文件爬取的過程中自動捕獲元數(shù)據(jù)并錄入到PROMISE項目的參與機構(gòu)目錄當(dāng)中。此外,研究人員還可以自行設(shè)置多個爬取參數(shù),如爬蟲最開始爬取的網(wǎng)頁、爬取的深度頻率等,從而對內(nèi)容捕獲的效率和質(zhì)量進行間接控制。需要注意的是,因網(wǎng)絡(luò)信息的類型不同,相應(yīng)的爬取結(jié)果之間存在很大差異。一般情況下,動態(tài)內(nèi)容較難被完整捕獲,因此Heritrix捕獲到的內(nèi)容可能與原始內(nèi)容有所區(qū)別。
為了判定所捕獲的網(wǎng)絡(luò)信息的真實性與完整性,還需要進行質(zhì)量控制,對此,PROMISE項目組采用半自動化的質(zhì)量控制方式,即在內(nèi)容捕獲之后對其進行防病毒檢查、格式驗證和完整性檢查等必要的審查。具體來說,審查內(nèi)容包括與存檔網(wǎng)絡(luò)信息質(zhì)量有關(guān)的三個方面:一是存檔版本與原始實時版本之間的視覺對應(yīng)程度;二是存檔版本與原始實時版本之間的互動對應(yīng)程度;三是存檔版本與原始實時版本之間的完整性對應(yīng)程度。[15]視覺對應(yīng)程度的檢測采用的是結(jié)構(gòu)相似性和視覺質(zhì)量指標(biāo)這兩個參數(shù),旨在確定存檔網(wǎng)頁相對于原始網(wǎng)頁的視覺質(zhì)量效果?;訉?yīng)程度檢測的是服務(wù)器收到的請求在存檔網(wǎng)頁中是否也能被實時記錄和保存。完整性對應(yīng)程度衡量的是存檔網(wǎng)絡(luò)信息包含的原始網(wǎng)站上所有可用資源的程度。
3.1.3 信息保存。信息保存是PROMISE存檔行動的第三環(huán)節(jié),目的在于確保各類信息對象存檔保存的可持續(xù)性和長期性。具體內(nèi)容包括信息保存的對象及其存儲格式、長期保存問題等內(nèi)容。在PROMISE項目中,信息保存的對象需要考慮文件本身及其對應(yīng)的元數(shù)據(jù)。針對不同的保存對象需要采用不同的存儲格式標(biāo)準(zhǔn)。就文件而言,PROMISE項目采用的是WARC格式對其進行存檔保存。這種存儲格式的優(yōu)勢在于軟硬件環(huán)境完善、存儲容量大且易于擴展、支持保存實時環(huán)境、支持打包和壓縮。[16]但WARC格式是一種容器型的文件格式,能夠封裝網(wǎng)站中包含的所有內(nèi)容,因此其所對應(yīng)的文件也是一個復(fù)雜的數(shù)字對象。對于這種復(fù)雜的數(shù)字對象,PROMISE項目使用BELSPO管理的LTP平臺對其進行安全存儲,并在保存之前使用jhove19、droid20等工具來確保WARC文件符合WARC ISO標(biāo)準(zhǔn)。
就元數(shù)據(jù)而言,元數(shù)據(jù)通常情況下可以被自動存儲在WARC文件中。比如對于描述性元數(shù)據(jù),PROMISE項目組利用OCLC模型創(chuàng)建存檔網(wǎng)絡(luò)信息的元數(shù)據(jù)集,然后通過CSV文件將其映射到MARC 21,并最后保存于比利時皇家圖書館的目錄Syracuse之中。[17]基于OCLC模型所創(chuàng)建的元數(shù)據(jù)集共包含十四個元數(shù)據(jù)元素,分別是URL、標(biāo)題、創(chuàng)建者、貢獻者、語言、收藏者、日期、主題、類型/形式、關(guān)系、描述、范圍、權(quán)限和來源。[18]最后,關(guān)于網(wǎng)絡(luò)信息的長期保存,PROMISE項目則是建立一個組織框架,在框架內(nèi)對存檔活動中的存儲格式與元數(shù)據(jù)模型等選擇過程加以整合和審核,從而確保每份文件的存儲格式或存儲介質(zhì)在過期之后可以得到及時、恰當(dāng) 地處置。
3.1.4 信息利用。信息利用是PROMISE存檔行動的最終環(huán)節(jié),目的在于提供存檔網(wǎng)絡(luò)信息的利用服務(wù)。網(wǎng)絡(luò)信息提供利用服務(wù)的最大挑戰(zhàn)來自于版權(quán)立法的約束。在此之前,比利時國家檔案館和皇家圖書館主要通過館內(nèi)目錄提供檢索服務(wù)。PROMISE項目基于對不同類型網(wǎng)絡(luò)信息所涉及的法律權(quán)限要求的深入分析,靈活使用多種訪問利用方法為用戶提供利用服務(wù)。具體來說,PROMISE項目提供的訪問方法分為四種:第一種方法是基于WARCLight發(fā)現(xiàn)工具,它是既有發(fā)現(xiàn)工具Blacklight的擴展,除了支持全文搜索和語義搜索的豐富界面之外,WARCLight還能顯示所需網(wǎng)頁的相關(guān)元數(shù)據(jù),用于已存檔網(wǎng)頁的再現(xiàn)。第二種方法是利用Python中Wayback Machine(即PyWB)工具重現(xiàn)在特定時間捕捉到的網(wǎng)站。該方法是基于對URL和時間戳的檢索實現(xiàn)的,PyWB的優(yōu)勢在于能使用戶與存檔網(wǎng)站進行互動,就像與實時網(wǎng)站進行互動一樣。[19]第三種方法是將存檔后的網(wǎng)絡(luò)信息及衍生數(shù)據(jù)集集中到一個專門網(wǎng)站上并對外發(fā)布,提供HTML頁面中的文本、技術(shù)元數(shù)據(jù)、超鏈接等內(nèi)容,方便用戶直接瀏覽。第四種方法是為學(xué)術(shù)領(lǐng)域的相關(guān)研究人員直接提供部分WARC文件的訪問權(quán)限,在合規(guī)條件下放寬網(wǎng)絡(luò)存檔信息的部分利用范圍。
PROMISE項目在法律框架下提供了多樣的利用途徑,并為不同學(xué)歷層次和知識水平的用戶類型設(shè)計了針對性的存檔網(wǎng)絡(luò)信息利用方案。這樣一方面能夠有力拓寬網(wǎng)絡(luò)信息的利用人群范圍,幫助實現(xiàn)比利時存檔網(wǎng)絡(luò)信息價值的最大化;另一方面能夠有效提高網(wǎng)絡(luò)信息的利用效率和效果,切實推進存檔網(wǎng)絡(luò)信息的開放利用工作。
3.2 保障要素
3.2.1 法律規(guī)范。網(wǎng)絡(luò)信息存檔是一項復(fù)雜性工程,法律規(guī)范的制定有助于科學(xué)有據(jù)地解決網(wǎng)絡(luò)信息存檔的責(zé)任主體、內(nèi)容范圍、存檔要求和利用權(quán)限等問題,確保存檔項目的高效開展和順利推進。PROMISE項目是在比利時特定的法律框架下開展和實施的,法律規(guī)范為其存檔內(nèi)容的選擇范圍劃分、存檔信息利用方式設(shè)置等方面提供了依據(jù)和保障。具體來說,比利時的兩項皇家法令對合法存檔對象做出了授權(quán)規(guī)定,分別是《關(guān)于建立比利時國家檔案館的皇家法令》以及《關(guān)于執(zhí)行<檔案法>的皇家法令》。在后一份法令中,檔案被界定為由公共當(dāng)局、私人、公司或受私法管轄的協(xié)會保存的一切文件,無論其日期、材料形式、狀態(tài)或媒介,都理應(yīng)得到存檔保存。[20]這一法律規(guī)定為PROMISE確定存檔內(nèi)容對象提供了根本依據(jù)。此外,項目組還利用與網(wǎng)絡(luò)信息存檔服務(wù)有關(guān)的個人數(shù)據(jù)保護規(guī)定、規(guī)則和原則等內(nèi)容,對其進行分析并以此為基礎(chǔ)編制了一份關(guān)鍵數(shù)據(jù)保護術(shù)語的詞匯表,作為機構(gòu)業(yè)務(wù)工作的參考,確保存檔網(wǎng)絡(luò)信息利用服務(wù)的合法合規(guī)。綜上,法律規(guī)范這一要素深深地滲透于整個行動框架中,為網(wǎng)絡(luò)存檔行動的實施提供制度層面的支持和保障力量。
3.2.2 用戶需求。網(wǎng)絡(luò)信息存檔是一項面向未來的國家數(shù)字遺產(chǎn)構(gòu)建工程,同樣也是一項面向現(xiàn)在的數(shù)字研究及多種形式的信息利用的重點工作,因此用戶需求是網(wǎng)絡(luò)信息存檔過程中始終需要考慮的關(guān)鍵要素。PROMISE項目充分重視對于網(wǎng)絡(luò)空間中用戶需求信息的調(diào)查收集與分析工作。在行動初期,項目組曾開展過一項為期兩個多月的網(wǎng)絡(luò)用戶需求信息的問卷調(diào)查。他們面向研究人員、檔案館或其他信息機構(gòu)的工作人員以及一般公眾,結(jié)合現(xiàn)有文獻文本的分析以及與資訊專業(yè)人士的非正式談話所得出的見解設(shè)計出針對性的在線問卷,收集問卷結(jié)果并進行統(tǒng)計分析,最終將調(diào)查所得的數(shù)據(jù)資料運用于內(nèi)容選擇、信息利用等多個環(huán)節(jié)。[21]此外,在行動后期,PROMISE項目同樣充分考慮用戶的知識結(jié)構(gòu)和信息需求特點,追求以用戶需求為導(dǎo)向的用戶體驗,專門設(shè)計面向不同用戶的存檔網(wǎng)絡(luò)信息利用方案。綜上,PROMISE項目通過對用戶需求的全面把握保證了網(wǎng)絡(luò)信息存檔總體方向的科學(xué)性和合理性,為存檔網(wǎng)絡(luò)信息流程環(huán)節(jié)的設(shè)計和實施提供指導(dǎo)方向。
3.2.3 數(shù)字技術(shù)。技術(shù)要素貫通于網(wǎng)絡(luò)信息存檔全流程中,為各個環(huán)節(jié)提供工具和平臺。PROMISE項目組對于技術(shù)的管控和利用主要體現(xiàn)在兩個方面。一方面,項目組基于自身網(wǎng)絡(luò)存檔目標(biāo),在內(nèi)容捕獲環(huán)節(jié)利用外部供應(yīng)商提供的Heritrix軟件作為網(wǎng)絡(luò)爬取工具,在信息保存環(huán)節(jié)利用BELSPO管理的LTP平臺作為存儲平臺,在信息利用環(huán)節(jié)利用WARC Light發(fā)現(xiàn)工具、Wayback Machine再現(xiàn)工具,不僅確保了信息捕獲與保存的質(zhì)量和效率,而且為用戶提供了多樣化的利用方式。另一方面,項目組專門為比利時網(wǎng)絡(luò)信息存檔系統(tǒng)(URF-SID)編制出相應(yīng)的技術(shù)和功能要求文件,便于系統(tǒng)功能的設(shè)計與利用,不僅能夠指導(dǎo)項目開展過程中各種工具的開發(fā)部署工作,而且能夠有效提高項目流程的效率與質(zhì)量??梢姡瑪?shù)字技術(shù)是網(wǎng)絡(luò)存檔項目實施的重要保障要素之一,PROMISE項目借助技術(shù)工具確保存檔網(wǎng)絡(luò)信息捕獲的完整性、管理上的高效性、技術(shù)上的可訪問性和利用的便捷開放性。
4 對我國實施網(wǎng)絡(luò)信息存檔戰(zhàn)略的現(xiàn)實啟示
4.1 實施國家網(wǎng)絡(luò)信息存檔戰(zhàn)略迫在眉睫。作為信息生態(tài)鏈的重要構(gòu)成,網(wǎng)絡(luò)信息承載著時代記憶,具有可獲取、能更改、易消失等特點,亟待得到有效存檔,以此確保數(shù)字環(huán)境下的網(wǎng)絡(luò)記憶留存,從而實現(xiàn)國家珍貴數(shù)字遺產(chǎn)的真正保護與構(gòu)建。事實上,許多國家已經(jīng)意識到系統(tǒng)性保存國家網(wǎng)絡(luò)信息的重要性,并且相繼采取各種行動。比利時PROMISE項目也是基于保護國家數(shù)字遺產(chǎn)的目的而提出,并且該項目是一種自下而上的推動,是由比利時國家檔案館和皇家圖書館充分意識到國家網(wǎng)絡(luò)信息存檔戰(zhàn)略的緊迫性和必要性,聯(lián)合相應(yīng)的高校共同向國家“建策”,體現(xiàn)了該國的文化記憶保存機構(gòu)在履行保存國家記憶職責(zé)層面的積極作為。事實上,既有實踐經(jīng)驗也表明,世界各國所開展的國家網(wǎng)絡(luò)信息存檔行動項目主要由圖書館、檔案館等文化記憶機構(gòu)所展開。就中國而言,第50次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,我國網(wǎng)民規(guī)模為10.51億,互聯(lián)網(wǎng)普及率達74.4%,在網(wǎng)絡(luò)基礎(chǔ)資源方面,截至2022年6月,我國域名總數(shù)為3380萬個,“.CN”域名數(shù)為1786萬個,IPv6地址數(shù)量為63079塊/32。[22]可見,我國已經(jīng)成為國際上的網(wǎng)絡(luò)基礎(chǔ)資源大國,但遺憾的是,我國的網(wǎng)絡(luò)信息的有效存檔工作仍然處于相當(dāng)滯后的狀態(tài)。雖然自2002年起,我國已經(jīng)陸續(xù)推進政府網(wǎng)絡(luò)存檔項目,比較具代表性的有由北京大學(xué)網(wǎng)絡(luò)實驗室開發(fā)的“中國網(wǎng)頁信息博物館”項目,實現(xiàn)了歷史網(wǎng)頁瀏覽和專題回放;國家圖書館負(fù)責(zé)的“網(wǎng)絡(luò)信息資源采集與保存項目”,主要針對的是政府網(wǎng)站和電子報刊的鏡像存檔以及我國重大事件的專題存檔等等,這些項目都積累了建設(shè)經(jīng)驗并取得一定實效,但是這些項目同比利時零散性網(wǎng)絡(luò)信息存檔項目一樣,面臨著實施范圍有限,實施規(guī)模較小、存檔能力薄弱、后續(xù)開展維護工作難度較高等問題。當(dāng)下,我國仍未在國家層面建立國家網(wǎng)絡(luò)信息存檔的整體戰(zhàn)略,對此,建議我國檔案館、圖書館以及相關(guān)高校積極行動,不斷呼吁國家網(wǎng)絡(luò)信息存檔的戰(zhàn)略意義,推動建立國家網(wǎng)絡(luò)信息存檔的整體戰(zhàn)略和行動框架,讓我國數(shù)字遺產(chǎn)能得到系統(tǒng)保存和有效利用。
4.2 高度重視國家網(wǎng)絡(luò)信息存檔的法律保障。網(wǎng)絡(luò)信息由于在網(wǎng)絡(luò)平臺出版,對其進行存檔往往需要考慮到信息的歸屬權(quán)、管理權(quán)、處置權(quán)以及利用權(quán)等法律問題。因此,重視網(wǎng)絡(luò)信息存檔全流程的法律保障作用,能夠為存檔行動掃清障礙因素,推進存檔行動高質(zhì)量發(fā)展。PROMISE項目在研究過程中充分重視法律規(guī)范的保障作用,以法規(guī)遵循貫穿項目的整個行動框架,為其國家網(wǎng)絡(luò)信息存檔提供了堅實的法律保障。這啟示我國在開展網(wǎng)絡(luò)信息存檔工作時,首先,要依法明確責(zé)任主體,清晰地劃定司法機構(gòu)、行政機構(gòu)和信息機構(gòu)等各主體在網(wǎng)絡(luò)信息存檔中的法律邊界,保證各主體管理不越位,服務(wù)不缺位;其次,要注重網(wǎng)絡(luò)信息存檔工作中在各個環(huán)節(jié)對于法律規(guī)范文本的解析,尤其在內(nèi)容選擇與信息利用環(huán)節(jié)需要全面充分地梳理、歸納與存檔主體、客體和過程等要素相關(guān)的內(nèi)容,確保其中的每項行動要素都在法律框架下依法展開,保障網(wǎng)絡(luò)信息存檔工作的合法化和高質(zhì)化;最后,要注重宏觀法律體系構(gòu)建,結(jié)合我國的網(wǎng)絡(luò)信息存檔工作實踐,優(yōu)化信息安全、隱私保護等法規(guī)體系,為國家網(wǎng)絡(luò)信息存檔提供更具科學(xué)性和體系化的法律保障環(huán)境。
4.3 建立國家網(wǎng)絡(luò)信息存檔的協(xié)同治理體系。由于網(wǎng)絡(luò)信息存檔所指向的信息內(nèi)容較為復(fù)雜,信息量較大,涉及利益相關(guān)者較多,行動任務(wù)責(zé)任重大,并且需要長期運維,因此需要強化多方機構(gòu)、組織力量的協(xié)同參與,在多個實施流程環(huán)節(jié)中發(fā)揮多元主體協(xié)作力量。PROMISE項目在系統(tǒng)性規(guī)劃和實踐性試點過程中,便已然充分發(fā)揮多元主體協(xié)同力量,尤其得到了其他行業(yè)企業(yè)的大力支持與配合,如負(fù)責(zé)管理某些域名的機構(gòu)提供了與比利時域名有關(guān)的詳盡的域名目錄;負(fù)責(zé)托管比利時政府網(wǎng)站的機構(gòu)提供了那些現(xiàn)在正在使用的網(wǎng)站的詳細(xì)信息;提供外部服務(wù)的提供商輔助抓取種子目錄當(dāng)中的網(wǎng)頁信息,然后將內(nèi)容的副本發(fā)送回國家檔案館加以保存,等等。PROMISE項目在協(xié)作治理、共建共享方面的系列性理論構(gòu)想和試點經(jīng)驗,能夠為我國解決網(wǎng)絡(luò)信息存檔實踐過程中面臨的存檔標(biāo)準(zhǔn)不清、相關(guān)支撐技術(shù)缺乏、管理創(chuàng)新性不足等問題,[23]為構(gòu)建國家網(wǎng)絡(luò)信息存檔的協(xié)同治理體系提供可供借鑒的發(fā)展方向和優(yōu)化路徑。具體來說,在前端控制層面,積極利用檔案學(xué)會和高校等知識型主體的理論研究成果,在元數(shù)據(jù)捕獲、信息開發(fā)利用等方面制定切實可行的標(biāo)準(zhǔn);在中端開發(fā)層面,發(fā)揮檔案中介機構(gòu)、企業(yè)等服務(wù)型主體的技術(shù)保障作用,積極開發(fā)網(wǎng)絡(luò)信息存檔的先進技術(shù),實現(xiàn)網(wǎng)絡(luò)信息的長期保存與有效利用;在終端利用層面,發(fā)揮主管部門的統(tǒng)籌協(xié)調(diào)作用,引導(dǎo)社會各行各業(yè)部門和組織機構(gòu)開放網(wǎng)絡(luò)接口(API)、開放網(wǎng)絡(luò)數(shù)據(jù),共同推進網(wǎng)絡(luò)信息的存檔。
加快推進我國網(wǎng)絡(luò)信息存檔行動項目是接軌國際,保護數(shù)字遺產(chǎn)的必然要求。比利時PROMISE項目不僅提出了多項研究成果,而且系統(tǒng)設(shè)計了存檔行動的具體環(huán)節(jié)內(nèi)容,是比利時國家層面網(wǎng)絡(luò)信息存檔的先進研究與實踐成果,為我國在網(wǎng)絡(luò)信息存檔領(lǐng)域提供一定的啟示和借鑒價值。未來,我國的網(wǎng)絡(luò)信息存檔實踐工作還需要汲取國際經(jīng)驗,為構(gòu)建更為豐富和完善的國家數(shù)字資源庫不懈努力。
*基金項目:本文為國家社科青年項目“數(shù)字政府背景下電子文件單軌制管理的數(shù)字連續(xù)性保障框架研究”(項目號:19CTQ036)研究成果之一。
注釋與參考文獻:
[1]人民網(wǎng).《中國移動互聯(lián)網(wǎng)發(fā)展報告(2022)》正式發(fā)布[EB/OL].(2022-06-29).[2022-09-10].http://finance.people.com.cn/n1/2022/0629/c1004-32460664.html.
[2]周文泓,蘇依紋,代林序,楊梓釩,張玉潔,陳怡.進展與展望:面向數(shù)字記憶資源建設(shè)的網(wǎng)絡(luò)信息存檔[J].圖書館論壇,2020,40(09):42-52.
[3]IIPC.Web archiving[EB/OL].(2019-08-08).[2022-09-10].http://netpreserve.org/web-archiving/.
[4]Tomwillaert.Through the Black Hole of Information:Friedel Geeraert on building a Belgian Web Archive[EB/OL].(2019-03-27)[2022-09-10].https://www.digitalscholarship.be/2019/03/27/through-the-black-hole-of-information-friedel-geeraert-on-building-a-belgian-web-archive/.
[5]DNS Belgium.History of DNS Belgium[EB/OL].[2022-09-10].https://www.dnsbelgium.be/en/about-dns-belgium/history-dns-belgium.
[6]liberas.Catching the digital heritage[EB/OL].[2022-09-10].https://www.liberas.eu/catchingthe-digital-heritage/.
[7]antwerpen.DAVID—Archiving websites[EB/OL].[2022-09-10].http://www.antwerpen.be/david.
[8]Ian Milligan.Lost in the Infinite Archive:The Promise and Pitfalls of Web Archives[J].International Journal of Humanities and Arts Computing,2016(10):78-94.
[9]Eveline Vlassenroot,Sally Chambers,Emmanue,Di Pretoro,F(xiàn)riedel Geeraert,Gerald Haesendonck,Alejandra Michel,Peter Mechan.Web Archives as a data resource for digital scholars[J].International Journal of Digital Humanities,2019:85-111.
[10][11][12][14][18]Rolande Depoortere,F(xiàn)riedel Geeraert,Sébastien Soyez,Sophie Vandepontseele.A Roadmap for Establishing A Belgian Web ArchiveAt the Federal Level[J].In Monte Artium,2020(13):25-42.
[13]KBR.PROMISE project[EB/OL].[2022-09-10].https://www.kbr.be/en/projects/promise-project/.
[15][17][19][21]Geeraert Friedel Geeraert,Peter Mechant,Alejandra Michel.Preserving Online Multiple Information towards a Belgian strategy[R/OL].[2022-09-10].https://www.ugent.be/mict/en/research/projects/2017/promise-preserving-online-multiple-information-towards-a-belgian-strategy.
[16]徐飛,鄭秋生,高艷霞.基于云存儲的網(wǎng)頁存檔方案的研究[J].計算機時代,2017(04):21-24+28.
[20]SERVICE PUBLIC FEDERAL DE PROGRAMMATION POLITIQUE SCIENTIFIQUE.18 AOUT 2010.- Arrêté royal portant exécution des articles 5 et 6 de la loi du 24 juin 1955 relative aux Archives[EB/OL].[2022-10-9].https://www.ejustice.just.fgov.be/cgi/article_body.pl?language=fr&caller=summary&pub_date=10-09-23&numac=2010021091.
[22]中文互聯(lián)網(wǎng)數(shù)據(jù)資訊網(wǎng)199IT.CNNIC:第50次中國互聯(lián)網(wǎng)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL].(2022-09-22).[2022-10-09].http://www.199it.com/Archives/1496741.htmlCNNIC:第50次中國互聯(lián)網(wǎng)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告.
[23]黃新榮,曾薩.網(wǎng)頁歸檔推進策略研究——基于網(wǎng)頁歸檔生態(tài)系統(tǒng)視角[J].圖書館學(xué)研究,2018(16):63-70+16.
(作者單位:1.中國人民大學(xué)信息資源管理學(xué)院、中國人民大學(xué)數(shù)字人文研究中心、中國人民大學(xué)人文北京研究中心 加小雙,副教授;2. 中國人民大學(xué)信息資源管理學(xué)院 林妍歆,碩士研究生;何露彤,碩士研究生;王春蕾,碩士研究生 來稿日期:2022-11-21)