趙屹
摘 要 對政府網(wǎng)頁進行歸檔是英、美、加三國國家檔案館工作的重要內(nèi)容。網(wǎng)頁歸檔是一個過程,所歸的網(wǎng)頁具有檔案性質(zhì)并保存在存檔系統(tǒng)中。三個國家檔案館都發(fā)布了網(wǎng)頁歸檔的法規(guī),都進行了主體的拓展與合作。其歸檔范圍不僅包括從內(nèi)容上鑒定歸檔的廣度,還包括從技術(shù)上鑒定歸檔的深度。社交媒體上政府網(wǎng)頁的歸檔是歸檔范圍之一。三個國家檔案館政府網(wǎng)頁歸檔的時間有所不同,但歸檔程序大致相同,利用的主要途徑是關(guān)鍵詞檢索、機構(gòu)列表與URL列表。
關(guān)鍵詞 國家檔案館 政府 網(wǎng)頁歸檔 比較 英國 美國 加拿大
Abstract Government web page archiving is an important part of the work of the National Archives in UK, USA and Canada. Web page archiving is a process in which the web pages are archived and stored in an archiving system. All three national archives have issued regulations for web page archiving, and all of them have expanded and cooperated. The scope of web page archiving includes not only the breadth of archiving in terms of content, but also the depth of the archiving in terms of technologies. The government web pages on social media are within the scope of archiving. The time of the government web page archiving of the three national archives varies, but the archiving process is roughly the same. The main ways are keyword search, organization list and URL list.
Keyword national archives; government; web page archiving; comparison; UK; USA; Canada
網(wǎng)絡(luò)即世界。隨著電子化、信息化的深入發(fā)展,人類社會的信息傳播與信息獲取大量轉(zhuǎn)向網(wǎng)絡(luò),記載人類社會真實面貌的信息載體也日漸從紙張轉(zhuǎn)向網(wǎng)絡(luò)信息載體。此時,“一些新型的電子文件已經(jīng)一浪接一浪地涌現(xiàn)并且?guī)砹诵碌臍w檔需求,產(chǎn)生新型的歸檔對象”[1]。網(wǎng)頁就是新型歸檔對象之一。1996年,美國的IA(Internet Archive)率先對網(wǎng)頁進行保存,被譽為世界范圍內(nèi)“第一個Web Archive實踐項目”。IA是由布魯斯特·卡利創(chuàng)立的公益網(wǎng)站。其功能是用卡利開發(fā)的收集工具定期收錄(harvest,又譯為“收割”)全球網(wǎng)站的信息并進行保存。目標(biāo)是“實現(xiàn)全世界Web資源的收集、保存和永久獲取”[2]。此后,Web Archive項目風(fēng)起云涌,在世界各地如雨后春筍般出現(xiàn)。Web Archive項目主體多元,許多是以圖書館為主導(dǎo),包括國家圖書館及大學(xué)圖書館。此外,還有高校、研究所、企業(yè)、非盈利組織、學(xué)術(shù)團體、網(wǎng)站制作者等。許多Web Archive(后文均譯為“網(wǎng)頁歸檔”)項目雖然記錄了網(wǎng)絡(luò)世界早期的樣貌,記錄了人類的文化文本,但其保存的內(nèi)容魚龍混雜,真正具有檔案價值的比例并不高。它們雖以“歸檔(Archive)”命名,但卻是對“歸檔”一詞的泛化,很多網(wǎng)絡(luò)信息并不值得保存。
那么,究竟什么樣的網(wǎng)絡(luò)信息更“值得”保存?答案也許很多,政府網(wǎng)頁必是其中之一。隨著社會的進步,網(wǎng)絡(luò)成為政府信息發(fā)布的重要渠道、政務(wù)事項辦理的重要窗口、政民交流的重要平臺。許多政府網(wǎng)頁具備檔案的基本屬性和保存價值,是網(wǎng)絡(luò)時代的新型歸檔對象,也應(yīng)該是網(wǎng)頁歸檔的主要客體。針對政府網(wǎng)頁這個客體,歸檔主體由誰承擔(dān)?有研究者指出,圖書館并非政府網(wǎng)頁保存的最佳責(zé)任主體,“信息形成者是政府網(wǎng)頁短期保存的責(zé)任者”,“研究機構(gòu)將是未來政府網(wǎng)頁保存的重要補充”,“國家檔案館在政府網(wǎng)頁保存上具有天然優(yōu)勢,是政府網(wǎng)頁保存義不容辭的責(zé)任主體”[3]。
本文選擇英、美、加三國的國家檔案館,對其開展的政府網(wǎng)頁歸檔項目進行比較研究。
一、國家檔案館政府網(wǎng)頁歸檔項目基本情況
英國政府的互聯(lián)網(wǎng)網(wǎng)站始建于1996年。英國國家檔案館(TNA)對政府網(wǎng)頁歸檔問題關(guān)注起步也比較早。1997年,英國國家檔案館與倫敦大學(xué)計算機中心數(shù)字檔案館(ULCC Digital Archives)合作建設(shè)國家數(shù)字檔案數(shù)據(jù)集(National Digital Archive of Datasets,簡稱NDAD),將包括網(wǎng)頁在內(nèi)的政府部門數(shù)字信息作為數(shù)據(jù)歸檔保存并向社會開放利用。該項目一直持續(xù)至2010年[4]。2003年9月,英國國家檔案館又專門開展英國政府網(wǎng)頁歸檔(UK Government Web Archive,簡稱UKGWA)項目,將英國中央政府網(wǎng)站歸檔保存。當(dāng)前,UKGWA是世界上最大、使用最頻繁的網(wǎng)頁歸檔項目之一[5]。
美國國家檔案局(館)(NARA)通過建設(shè)國會與聯(lián)邦政府網(wǎng)頁收錄(CONGRESSIONAL & FEDERAL Government Web Harvests,本文簡稱其為CFGWH)項目對國會和聯(lián)邦政府的網(wǎng)頁進行歸檔。NARA對聯(lián)邦政府的網(wǎng)頁歸檔始于2004年,對國會的網(wǎng)頁歸檔始于2006年[6]。
加拿大國家圖書檔案館(LAC)自2005年12月開始建設(shè)加拿大政府網(wǎng)頁歸檔(the Government of Canada Web Archive,簡稱GCWA)項目,對加拿大聯(lián)邦政府的網(wǎng)頁進行歸檔保存[7]。
二、國家檔案館對網(wǎng)頁歸檔的理解
英國國家檔案館認(rèn)為網(wǎng)頁歸檔與紙質(zhì)檔案、羊皮紙檔案等傳統(tǒng)檔案歸檔一樣是一個過程。它是從互聯(lián)網(wǎng)上收集含有有效信息資源的網(wǎng)頁,以檔案形式保存的過程。它對網(wǎng)絡(luò)信息資源進行選擇、存儲和保管,并使之可以被永久地獲取和利用[8]。
美國國家檔案局(館)將網(wǎng)頁歸檔命名為網(wǎng)頁收錄,也稱為網(wǎng)頁挖掘、網(wǎng)頁抓取和網(wǎng)頁爬取,認(rèn)為它是從萬維網(wǎng)頁面和數(shù)據(jù)中自動地復(fù)制和組織非結(jié)構(gòu)化信息的過程。在這個過程中,那些預(yù)收錄的網(wǎng)頁地址以URL“種子列表”的形式被標(biāo)識。由此,這些網(wǎng)頁地址所存或所鏈接的內(nèi)容就被通過標(biāo)識網(wǎng)址得以被捕獲和復(fù)制[9]。
加拿大國家圖書檔案館認(rèn)為網(wǎng)頁歸檔是對萬維網(wǎng)上發(fā)布的數(shù)據(jù)進行獲取、存儲,在存檔系統(tǒng)中保存,并使收集的數(shù)據(jù)對未來研究可用的過程。記憶機構(gòu)和私人組織在國際范圍內(nèi)均可實踐該過程,以安全保管出自萬維網(wǎng)的文獻遺產(chǎn)[10]。
三、國家檔案館政府網(wǎng)頁歸檔的法規(guī)依據(jù)
三國國家檔案館執(zhí)行網(wǎng)頁歸檔都有明確法規(guī)依據(jù)。
英國國家檔案館執(zhí)行網(wǎng)頁歸檔的依據(jù)主要是該館2012年l1月發(fā)布的《檔案收集政策》(Records Collection Policy)和2014年4月發(fā)布的《操作可選政策第27則:英國中央政府網(wǎng)頁資產(chǎn)》(簡稱OSP27)。《檔案收集政策》明確了保存在英國國家檔案館中的永久檔案的歸檔范圍、歸檔時間和保存地點。英國國家檔案館有一系列操作可選政策用于公共檔案的收集。其中,OSP27正式對政府機構(gòu)網(wǎng)頁歸檔項目的范圍和內(nèi)容做出規(guī)范和說明。
美國國家檔案局(館)執(zhí)行網(wǎng)頁歸檔的依據(jù)主要是2005年1月該局(館)發(fā)布的《NARA網(wǎng)頁檔案管理指南》。指南包括一般背景、職責(zé)和要求,管理網(wǎng)頁檔案,網(wǎng)頁檔案保管期限表,附件四個部分。它將歸檔后的政府網(wǎng)頁稱為網(wǎng)頁檔案,并且明確了聯(lián)邦機構(gòu)使用網(wǎng)頁的各種途徑,機構(gòu)成員在網(wǎng)頁操作中的角色,管理網(wǎng)頁地址基本的法定要求,機構(gòu)成員如何管理其網(wǎng)頁檔案,網(wǎng)頁檔案保管期限表的制定,負(fù)責(zé)網(wǎng)頁內(nèi)容的計劃官員等,并強調(diào)了聯(lián)邦機構(gòu)必須確認(rèn)網(wǎng)頁檔案可靠性的步驟以及降低對網(wǎng)頁進行操作風(fēng)險的步驟。
加拿大國家圖書檔案館執(zhí)行網(wǎng)頁歸檔的依據(jù)主要是2004年4月該館提出并獲得英國皇室許可的《加拿大圖書館與檔案法》。該法將檔案與出版物并稱為“文獻遺產(chǎn)”,允許LAC收集和保存加拿大具有代表性的文獻遺產(chǎn)網(wǎng)頁,并賦予檔案館、圖書館使用文獻遺產(chǎn)的權(quán)利。
四、國家檔案館政府網(wǎng)頁歸檔的主體拓展與合作
英、美、加三國國家檔案館作為主體,執(zhí)行政府網(wǎng)頁歸檔,但其歸檔過程均進行了主體的拓展與合作,以便充分利用各方的職能、技術(shù)、標(biāo)準(zhǔn)優(yōu)勢,確保檔案來源、實現(xiàn)知識與技能的碰撞、疊加各種主體的影響力,全方位地實現(xiàn)政府網(wǎng)頁歸檔。
UKGWA的主體向政府機構(gòu)拓展。它要求作為歸檔網(wǎng)頁所有者的政府機構(gòu)關(guān)注本部門網(wǎng)頁被收集的情況,與該館保持聯(lián)系。英國國家檔案館面向網(wǎng)頁所有者發(fā)布了《網(wǎng)頁歸檔與網(wǎng)頁連續(xù)性指南》,介紹UKGWA網(wǎng)頁歸檔的相關(guān)知識,要求政府機構(gòu)確保列入館藏范圍的網(wǎng)頁能夠被順利獲取,告知政府機構(gòu)如何獲得UKGWA的網(wǎng)頁連續(xù)性服務(wù)。將歸檔主體向政府機構(gòu)拓展從源頭上保證了歸檔網(wǎng)頁的質(zhì)量。UKGWA還展開了多方合作。項目在2003年建設(shè)之初最先與IA進行合作,共同完成所選擇的約50個政府網(wǎng)站的網(wǎng)頁歸檔工作。IA保存的一些1997年以前英國中央政府的網(wǎng)頁得以通過UKGWA提供利用[11]。UKGWA最新的合作商是檔案云存儲方面的專業(yè)公司Mirrorweb,UKGWA的存儲向云端遷移。
CFGWH同樣是將主體向政府機構(gòu)拓展。前文所述其發(fā)布的《NARA網(wǎng)頁檔案管理指南》明確了政府機構(gòu)的網(wǎng)頁歸檔責(zé)任,每個機構(gòu)都需與美國國家檔案局(館)合作,確定該機構(gòu)的網(wǎng)頁檔案的歸檔范圍和管理要求。CFGWH主要與IA進行深度合作。CFGWH對聯(lián)邦政府機構(gòu)和國會網(wǎng)頁的歸檔主要由IA實施。IA使用Heritrix搜索器代表美國國家檔案局(館)收錄政府網(wǎng)頁。
加拿大國家圖書檔案館于2004年6月21日由該國原國家圖書館與原國家檔案館合并而成。在GCWA的建設(shè)中,該館發(fā)揮了圖書館與檔案館強強聯(lián)合的優(yōu)勢。加拿大國家圖書檔案館是國際網(wǎng)絡(luò)信息保存聯(lián)盟(International Internet Preservation Consortium,簡稱IIPC)的成員,通過IIPC與多機構(gòu)展開合作。IIPC成立于2003年6月,由法國國家圖書館牽頭,成員包括11個國家圖書館和IA。其目標(biāo)是研究網(wǎng)絡(luò)信息保存的主要障礙,研發(fā)能夠按既定策略定期自動收錄網(wǎng)頁的開放式工具。
五、國家檔案館政府網(wǎng)頁歸檔的歸檔范圍
1.從內(nèi)容角度鑒定廣度。信息越豐富,檔案鑒定越困難,政府網(wǎng)頁歸檔就是如此。國家檔案館對于政府網(wǎng)頁歸檔,首先需要從內(nèi)容角度鑒定廣度。
英國UKGWA項目的政府網(wǎng)頁形成者主要是英國中央政府機構(gòu)、公共檔案法認(rèn)定的公共檔案產(chǎn)生機構(gòu)、重要的國家醫(yī)療服務(wù)機構(gòu)以及區(qū)域發(fā)展機構(gòu)。這些機構(gòu)形成的網(wǎng)頁歸檔范圍經(jīng)歷了一個變化過程。在UKGWA建設(shè)之初,從2500多個政府機構(gòu)網(wǎng)站中選擇了80余個進行網(wǎng)頁歸檔。而今發(fā)展到幾乎所有網(wǎng)站都進行網(wǎng)頁歸檔。UKGWA為這些網(wǎng)站制定了一個詳細(xì)的網(wǎng)頁來源清單。2013年12月,英國中央政府機構(gòu)的網(wǎng)站開始由各自獨立轉(zhuǎn)向經(jīng)由gov.uk集成。此時,UKGWA的歸檔范圍是對“data.gov.uk清單上的數(shù)據(jù)集及data.gov.uk網(wǎng)站本身進行全面捕獲和抓取”[12]。
美國CFGWH對于聯(lián)邦政府網(wǎng)頁歸檔的范圍定義了一個“聯(lián)邦網(wǎng)站相關(guān)檔案”的概念。它包括兩方面含義:一是網(wǎng)頁內(nèi)容檔案,指在網(wǎng)站上顯示的信息;二是網(wǎng)站管理檔案,是有關(guān)網(wǎng)站管理和操作的證據(jù)。這些網(wǎng)站相關(guān)檔案源自政府機構(gòu)的網(wǎng)頁操作,包括確保每個網(wǎng)站可信的操作以及用于記錄機構(gòu)職責(zé)履行的過程的操作[13]。CFGWH國會網(wǎng)頁歸檔的范圍非常明確:自第109屆國會開始,每屆國會閉幕時對其網(wǎng)頁進行歸檔保存?,F(xiàn)已存有第109屆至115屆國會的網(wǎng)頁檔案。
加拿大GCWA的歸檔范圍是應(yīng)用IIPC的“區(qū)域域名(Regional Domain)”策略,在加拿大域名范圍內(nèi)選擇性地收集政府網(wǎng)站的網(wǎng)頁。其收集的網(wǎng)頁包括最初在網(wǎng)絡(luò)上發(fā)布的聯(lián)邦政府信息以及不再對公眾開放的聯(lián)邦政府網(wǎng)頁。此外,2016年,大多數(shù)聯(lián)邦網(wǎng)站也集中到了中心域canada.ca。GCWA將集中之前各聯(lián)邦網(wǎng)站的網(wǎng)頁全部列入了歸檔范圍予以收集[14]。
2.從技術(shù)角度鑒定深度。網(wǎng)頁檔案不同于以往的傳統(tǒng)檔案,具有內(nèi)容碎片化、檔案關(guān)聯(lián)復(fù)雜的特點。因此,政府網(wǎng)頁歸檔還需要從技術(shù)角度鑒定深度,即結(jié)合內(nèi)容鑒定歸檔信息的類型和邊界。有些種類的網(wǎng)頁信息,從技術(shù)上看歸檔難度大或是無法歸檔,則不能列入歸檔范圍。
英國UKGWA項目早期只能捕獲政府網(wǎng)站首頁上的基本內(nèi)容、導(dǎo)航與界面,由于技術(shù)實現(xiàn)難度大,圖像不列入歸檔范圍。但是,技術(shù)發(fā)展到今天,UKGWA“對許多網(wǎng)站的信息資源已基本實現(xiàn)100%的獲取”[15]。在網(wǎng)頁全部歸檔的情況下,英國國家檔案館制定了移除與封閉政策[16]。如果有機構(gòu)或個人申請將歸檔的網(wǎng)頁刪除或使之不開放,英國國家檔案館會根據(jù)該政策進行評議。評議通過后刪除相關(guān)內(nèi)容或?qū)⒃竟_的信息封閉,必要時將與內(nèi)容相關(guān)的機構(gòu)從前文所說的來源清單中移除。
美國CFGWH明確提出,由于技術(shù)限制,互動過程中的輸入信息、表格、流媒體視頻或復(fù)雜的java script不屬于歸檔范圍,動態(tài)數(shù)據(jù)庫在歸檔時只能是靜態(tài)信息[17]。另外,受URL來源清單完整性、URL是否成功解析、所使用的爬蟲程序的功能、所爬網(wǎng)站的服務(wù)器環(huán)境等因素影響,歸檔范圍內(nèi)的信息未必全能歸檔到位[18]。
加拿大GCWA與CFGWH類似,明確提出交互信息和交互式技術(shù)、合并流媒體、數(shù)據(jù)庫程序驅(qū)動和數(shù)據(jù)、依賴專有技術(shù)的信息、動態(tài)生成的內(nèi)容及不同來源的內(nèi)容,由于技術(shù)限制未能準(zhǔn)確、齊全地歸檔。某些內(nèi)部和外部鏈接、表單、搜索框和交互式元素(包括視頻)歸檔后可能無法運行[19]。
3.社交媒體上政府網(wǎng)頁的歸檔。
英國國家檔案館將社交媒體上的政府網(wǎng)頁納入歸檔范圍。2014年5月,該館啟動在線社交媒體歸檔(Online Social Media Archive,簡稱OSMA)項目,對內(nèi)閣辦公室、國防部等中央政府核心機構(gòu)在Twitter和Youtube上的網(wǎng)頁以賬戶為單位統(tǒng)一進行歸檔。賬戶轉(zhuǎn)發(fā)的推文、對其他賬戶的回復(fù)、互動對話不歸檔。OSMA是UKGWA的重要組成部分。
美國國家檔案局(館)同樣將社交媒體上的政府網(wǎng)頁納入歸檔范圍。該局(館)2013年發(fā)布《社交媒體捕獲最佳買踐》,2014年發(fā)布《社交媒體檔案管理指南》,明確將社交媒體上的政府網(wǎng)頁信息納入到聯(lián)邦政府的檔案管理體系當(dāng)中。其社交媒體上政府網(wǎng)頁歸檔的重點范圍包括總統(tǒng)網(wǎng)頁。
加拿大國家圖書檔案館認(rèn)為社交媒體上的網(wǎng)頁是國家文獻遺產(chǎn)的重要組成部分。該館在2015年開展相關(guān)試驗收集社交媒體信息歸檔保存[20]。這些試驗持續(xù)至今。加拿大國家圖書檔案館尚未開展社交媒體上政府網(wǎng)頁歸檔實踐。在加拿大政府《2020社交媒體戰(zhàn)略》中,歸檔政府社交媒體文件并為社會提供真實可信的社交媒體數(shù)據(jù),是其中一個重要內(nèi)容[21]。
六、國家檔案館政府網(wǎng)頁歸檔的歸檔時間
英國UKGWA的歸檔時間是針對網(wǎng)頁歸檔來源清單中的網(wǎng)站,排名前十位的每月一次,其他的每四個月一次,公共機構(gòu)的網(wǎng)站每六個月一次,部分社交媒體網(wǎng)站每八個月一次。平均每個月會有100個左右網(wǎng)站的網(wǎng)頁被歸檔保存。選舉期間等關(guān)鍵時期會隨時歸檔。若有政府網(wǎng)站準(zhǔn)備關(guān)閉或有重大變動,需提前八周告知國家檔案館,讓其擁有充足的時間實行網(wǎng)頁歸檔。
美國CFGWH中聯(lián)邦政府機構(gòu)在特定時間生成網(wǎng)站上所有網(wǎng)頁的獨立副本或快照進行歸檔??煺湛梢愿骄W(wǎng)站地圖顯示頁面間關(guān)系。至于特定時間具體是什么時候,由網(wǎng)站形成機構(gòu)根據(jù)對網(wǎng)站運營進行的風(fēng)險評估自行確定。國會網(wǎng)頁的歸檔時間是一屆會議結(jié)束時。
加拿大GCWA的歸檔時間是每半年一次。
七、國家檔案館政府網(wǎng)頁歸檔的歸檔程序
歸檔程序主要包括歸檔策略的制定和歸檔操作的實施。歸檔策略用于明確歸檔的對象和方式。歸檔操作是一整套步驟,主要包括收集、保存,廣義上還包括歸檔后的管理、利用操作,即索引、檢索、顯示。歸檔操作可以是人工操作或是軟件自動操作。
英國UKGWA的歸檔對象是靜態(tài)網(wǎng)頁,歸檔方式是網(wǎng)站快照。歸檔操作是從客戶端啟動網(wǎng)絡(luò)爬蟲程序Heritrix遠(yuǎn)程主動收集網(wǎng)頁。收集來的網(wǎng)頁加密存于內(nèi)部硬盤驅(qū)動器,并運送給亞馬遜網(wǎng)絡(luò)服務(wù)數(shù)據(jù)中心,該中心將其傳輸?shù)皆贫耍褂胮ywb顯示存檔網(wǎng)頁。
美國CFGWH的歸檔對象是靜態(tài)網(wǎng)頁,歸檔方式是網(wǎng)站快照。美國國家檔案局(館)與IA簽約由IA代為完成歸檔操作。IA使用Heritrix收集網(wǎng)頁,Wayback Machine顯示存檔網(wǎng)頁。
加拿大GCWA的歸檔操作是使用Heritrix收集網(wǎng)頁。收集來的網(wǎng)頁保存在GCWA的網(wǎng)站服務(wù)器上。用自行研發(fā)的索引工具IQ App對保存的網(wǎng)頁做索引。使用NUTCHWAX檢索存檔網(wǎng)頁,Wayback Machine顯示存檔網(wǎng)頁。
三國國家檔案館的歸檔程序有共同之處,也各有特色。共同之處在于三者都與IA進行了合作,收集軟件無一例外采用Heritrix爬蟲程序。它是由IA及IIPC其他成員共同研發(fā)的開源軟件,按照來源清單遍歷其URL列表。
UKGWA和CFGWH都是對靜態(tài)網(wǎng)頁采用網(wǎng)站快照形式進行歸檔。網(wǎng)站快照技術(shù)相對簡單,但必須同時捕獲快照創(chuàng)建者、快照日期時間、網(wǎng)頁URL等元數(shù)據(jù)予以保存。以靜態(tài)網(wǎng)頁為歸檔對象并不是不歸檔音視頻,主要還是由于技術(shù)限制。UKGWA有一些視頻可以利用。CFGWH在利用界面也顯示有錄像欄目,不過尚無內(nèi)容。后臺數(shù)據(jù)庫動態(tài)生成的頁面,因用戶申請而生成的動態(tài)頁面的歸檔問題目前處在研究進程中。
網(wǎng)頁被收集后存檔的格式有多種,例如ARC、WARC、CDX等。UKGWA早期是以ARC格式存儲?,F(xiàn)在使用Heritrix收集程序均以WARC格式保存網(wǎng)頁,即英、美、加三國國家檔案館收集的政府網(wǎng)頁均存為WARC格式。網(wǎng)頁作為檔案保存必須支持長期存儲,目前網(wǎng)頁歸檔的存儲正在向云存儲發(fā)展。UKGWA已經(jīng)向云端遷移了。
相較于傳統(tǒng)檔案管理,網(wǎng)頁檔案的管理和利用相對簡單,但對技術(shù)依賴較大。在制定歸檔策略時對技術(shù)的選擇非常重要。UKGWA使用pywb顯示存檔網(wǎng)頁。Pywb是以Python包的形式運行的一款最簡單的顯示軟件。CFGWH和GCWA以Wayback Machine顯示存檔網(wǎng)頁。Wayback Machine是由IIPC主導(dǎo)的采用Java語言專門開發(fā)的WARC格式文檔的顯示軟件。
八、國家檔案館歸檔政府網(wǎng)頁的檢索利用
三國國家檔案館的政府網(wǎng)頁歸檔都取得了較大成果。UKGWA保存了包括5000多個網(wǎng)站以及來自政府社交媒體賬戶的推文和視頻。截至2018年,檔案數(shù)據(jù)的保有量超過120TB[22]。當(dāng)前,CFGWH僅國會的網(wǎng)頁保有量就達(dá)到121TB[23]。截至2012年,GCWA所收藏的資源有1億7千萬個文件,占用空間7TB[24]。三國國家檔案館的網(wǎng)頁檔案都可以在互聯(lián)網(wǎng)上公開檢索、免費利用。
UKGWA對其網(wǎng)頁檔案提供了較為全面的檢索途徑。一是原URL復(fù)引。利用者要訪問政府網(wǎng)頁,可以直接在瀏覽器中輸入網(wǎng)頁的URL。如果該網(wǎng)頁已經(jīng)不存在但在UKGWA中歸檔保存,那么利用者會被復(fù)引至UKGWA中的該頁面。只是此時頁面頂端會附有英國國家檔案館的標(biāo)識以示區(qū)別。二是通過國家檔案館網(wǎng)站訪問??梢酝ㄟ^關(guān)鍵詞、網(wǎng)站域名、URL檢索網(wǎng)頁;可以通過關(guān)鍵詞檢索推特、Flickr和其他社交媒體網(wǎng)頁檔案;可以通過政府社交媒體賬戶訪問相關(guān)錄像;還可以訪問已存檔網(wǎng)站的域名列表,按A—Z的字母順序排列。三是設(shè)定特定時間訪問特定網(wǎng)頁。UKGWA使用了一種名為備忘錄(Memento)的軟件工具。該工具在網(wǎng)站中添加一個時間維度,用戶通過拖動滾動條或直接選擇某個特定時間來訪問某一特定網(wǎng)頁、特定文檔或特定數(shù)據(jù)。
CFGWH的主要訪問途徑是關(guān)鍵詞搜索。搜索可以專門針對特定范圍如眾議院或參議院,也可以不限定范圍。另外,可以按照機構(gòu)成員、領(lǐng)導(dǎo)、下屬組織、下屬委員會的字母順序瀏覽相關(guān)網(wǎng)站的網(wǎng)頁。
GCWA的主要訪問途徑同樣是關(guān)鍵詞搜索。此外可以按機構(gòu)瀏覽或按URL瀏覽相關(guān)網(wǎng)站的網(wǎng)頁。
通過以上對比研究,可以發(fā)現(xiàn),對政府網(wǎng)頁進行歸檔已經(jīng)是英、美、加三國國家檔案館工作中的重要內(nèi)容。三個國家檔案館對網(wǎng)頁歸檔的理解幾乎完全相同,即網(wǎng)頁歸檔是一個過程,所歸的網(wǎng)頁具有檔案性質(zhì)并保存在存檔系統(tǒng)中。三個國家檔案館都發(fā)布了網(wǎng)頁歸檔的法規(guī)為該項工作提供了依據(jù),都進行了主體的拓展與合作。其歸檔范圍不僅包括從內(nèi)容上鑒定歸檔的廣度,還包括從技術(shù)上鑒定歸檔的深度。社交媒體上政府網(wǎng)頁的歸檔是歸檔范圍之一。三個國家檔案館根據(jù)各自考量確定的政府網(wǎng)頁的歸檔時間有所不同,但歸檔程序大致相同。三者全都選用Heritrix爬蟲程序遠(yuǎn)程收集網(wǎng)頁,但也通過主體拓展給政府機構(gòu)提要求,要求作為歸檔網(wǎng)頁所有者的政府機構(gòu)關(guān)注本機構(gòu)網(wǎng)頁被國 家檔案館收集的情況。三個國家檔案館都對政府網(wǎng)頁提供了檢索利用。利用的主要途徑是關(guān)鍵詞檢索、機構(gòu)列表與URL列表。這些內(nèi)容可以給予我國檔案機構(gòu)以啟示,在現(xiàn)有經(jīng)驗基礎(chǔ)上做好我國的政府網(wǎng)頁歸檔,做好網(wǎng)絡(luò)時代的檔案館藏建設(shè)。