周林興
摘要:分析了WebArchive保存問題的國內(nèi)外研究現(xiàn)狀,闡述了研究的意義并提出了相應(yīng)的發(fā)展策略。
關(guān)鍵詞:Web Archive;現(xiàn)狀;意義;發(fā)展策略
類似經(jīng)歷應(yīng)該不會感到陌生:打開一個(gè)URL,網(wǎng)頁上顯示——The pase can-not be found或The Servicc Invalid.ablc。巨量的web Anhive在不斷地增加的同時(shí),一邊也在不斷地消失,按照Ntoulas等人的研究,網(wǎng)頁每周以8%的速度在更新之中,即每周大約有3.2億個(gè)新網(wǎng)頁產(chǎn)生,數(shù)據(jù)量相當(dāng)于3.8TB,網(wǎng)頁之間的鏈接關(guān)系也在不斷地發(fā)生著變化,每周大約新產(chǎn)生25%的新鏈接:而根據(jù)另一項(xiàng)研究r2)則表明,一個(gè)Web Archive的平均壽命只有44天。
Web Archive作為全球最大的信息資源庫,存在著大量對文化遺產(chǎn)、學(xué)術(shù)研究、社會經(jīng)濟(jì)與政治具有重要價(jià)值的信息,但其產(chǎn)生的“自發(fā)性”與存在的“流逝性”的雙重特點(diǎn),使其成為一種珍貴而又脆弱的信息資源。而設(shè)置各種館庫選派專人進(jìn)行管理各個(gè)時(shí)期所形成的檔案信息資源,這是人類自古以來就形成的慣例,在網(wǎng)絡(luò)環(huán)境下也不例外。因此,如何保存并讓其成為后世不可缺少的智慧遺產(chǎn),就成為當(dāng)今人類社會信息管理中越來越重要的課題與研究領(lǐng)域。
1研究現(xiàn)狀
1996年,互聯(lián)網(wǎng)檔案館(The Internet Archive)產(chǎn)生,標(biāo)志著人類對web Archive保存研究的開始,它是一個(gè)非贏利性的WebArchive數(shù)據(jù)庫,面向全球用戶,免費(fèi)、公開其收集的全部WebArchive信息資料;同年,澳大利亞國家圖書館開展了名為PANDO-RA項(xiàng)目,其主要是保存該國的在線出版物:同年,瑞典成立了Kulturarw3的web信息資源采集項(xiàng)目;2000年,美國國會圖書館提出了NDIIPP計(jì)劃,webArchive作為其六個(gè)收集范圍中的主要組成部分;2003年,由12個(gè)成員機(jī)構(gòu)發(fā)起的國際網(wǎng)絡(luò)保存聯(lián)盟IIPC正式成立,其成立的目標(biāo)就是:保存來自全球的web Archivc內(nèi)容,使其能夠持續(xù)地提供訪問。到2008年,該聯(lián)盟已吸納了37個(gè)成員機(jī)構(gòu),其中也包括亞洲的日本。各種相關(guān)項(xiàng)目還在不斷地出現(xiàn),其研究的內(nèi)容與深度在不斷地拓展,并且,已開始將成果轉(zhuǎn)化到實(shí)際應(yīng)用和商業(yè)化操作的服務(wù)模式,如Hanzo Archive公司提供為企業(yè)級存檔服務(wù)以及商業(yè)化服務(wù)應(yīng)用(Archive-it)。
相對于國外而言,我國的研究要晚些,中國“Web信息博物館”自2002年1月18日第一次搜集以來,已保存了30多億頁的中文Web資源:國家圖書館“網(wǎng)絡(luò)信息采集與保存”項(xiàng)目,保存了自2003年以來.cn域名下的網(wǎng)站和所有中文網(wǎng)站的Web信息。
2研究意義
網(wǎng)站已經(jīng)成為機(jī)構(gòu)在網(wǎng)絡(luò)空間開展業(yè)務(wù)活動的主要平臺,根據(jù)CNNIC2008年發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,中國網(wǎng)站數(shù)量已達(dá)到1919000個(gè)。WebArchive中存在著大量的具有原始記錄性的信息資源,其對于組織機(jī)構(gòu)本身與社會來說都具有保存的意義。
2.1Web Archive保存是網(wǎng)站復(fù)原的保障。網(wǎng)站復(fù)原也就是使保存起來的網(wǎng)頁內(nèi)容以原來的樣貌呈現(xiàn)給用戶,這其中包括其鏈接。比如,現(xiàn)在您想看看2000年時(shí)的新浪網(wǎng)站是個(gè)什么樣子,上面有哪些信息?那么它將完整地展現(xiàn)在您的眼前,就猶如在訪問原始網(wǎng)站一樣。在這個(gè)意義層面,百度做得比較成功,它考慮到某些網(wǎng)站提供的信息可能由于內(nèi)容更新或更換URL地址而無法顯示,百度將搜索到的絕大部分內(nèi)容都存放在自己的cache.baidu.com中,即百度快照,當(dāng)原始的鏈接無效時(shí),用戶可以通過它查找到相應(yīng)的信息,從而滿足用戶的信息需求。
2.2Web Archive保存保證了社會記憶的完整性,網(wǎng)頁信息資源同樣也是社會活動中直接形成的原始性信息記錄,就如同我們所有的社會活動形成的原始記錄一樣,它準(zhǔn)確地反映了我們的社會現(xiàn)實(shí),如網(wǎng)絡(luò)日志、博客(Blog),等等,它就猶如傳統(tǒng)意義上的日志一樣,成為個(gè)體的社會關(guān)系、日?;顒拥雀鞣N資源的匯聚節(jié)點(diǎn)。在網(wǎng)絡(luò)環(huán)境下信息來源、自主跟蹤關(guān)鍵字,以“自我”為中心,把最快、最高價(jià)值的信息聚合起來,實(shí)現(xiàn)所有互聯(lián)網(wǎng)信息的“一站式”閱讀體驗(yàn),這種全新的社會記憶方式,充分反映了信息技術(shù)發(fā)展給人們間交流帶來的便利。另一方面,對于組織機(jī)構(gòu)來說,網(wǎng)頁信息是組織機(jī)構(gòu)業(yè)務(wù)活動過程的最直接證明。對于整個(gè)社會來說,網(wǎng)頁信息更是構(gòu)成社會記憶不可缺少的組成部分,是溝通歷史的橋梁。數(shù)字文化遺產(chǎn)概念的興起其實(shí)也是充分地反映了人們對這個(gè)問題的重要性有了進(jìn)一步的認(rèn)識。
2.3Web Archive保存是研究Web及相關(guān)技術(shù)發(fā)展的最有力證據(jù)。Web技術(shù)的發(fā)展經(jīng)歷了從靜態(tài)文檔到動態(tài)網(wǎng)頁,再到Web2.0時(shí)代,網(wǎng)頁URL的后綴從,htm、.html、.shtml、.xml等靜態(tài)網(wǎng)頁的常見形式,到以.asp、.jsp、.php、.perl、.cRi等為后綴的形式,再到以Blog、TAG、SNS、RSS、wiki等社會軟件的應(yīng)用為核心,依據(jù)六度分隔①、xml、ajax等新理論和技術(shù)實(shí)現(xiàn)的互聯(lián)網(wǎng)新一代模式。我們可以通過分析與查看保存完整的WebArchive來分析Web及相關(guān)技術(shù)的發(fā)展,而且還可以通過了解相關(guān)技術(shù)的使用時(shí)間、版本信息從而來分析、追蹤相關(guān)技術(shù)的使用范圍與生命周期。通過跟蹤文件格式、相關(guān)標(biāo)準(zhǔn)等來分析某項(xiàng)技術(shù)的使用程度,以后決定某項(xiàng)技術(shù)是繼續(xù)使用還是淘汰。
總之,每個(gè)用戶都可以在開放的網(wǎng)站上通過簡單的瀏覽器操作而擁有他們自己的數(shù)據(jù),人們可以更加方便地進(jìn)行信息獲取、發(fā)布、共享以及溝通交流和群組討論等。每個(gè)人都成為新聞或者觀點(diǎn)的發(fā)布人,通過各種手段,如Tag、關(guān)聯(lián)、鏈接等,網(wǎng)站能夠以最大限度展示個(gè)人的作用,進(jìn)而激發(fā)個(gè)人的積極性,人們成為Web上社會的人,Web也有了社會性,成為社會化網(wǎng)絡(luò)。從這里可以看出,關(guān)注Web Archive的研究,也是與時(shí)下關(guān)注民生檔案研究的方向是一致的、相吻合的。
3發(fā)展策略
3.1明確web Archive的保存責(zé)任。Fahrenheit認(rèn)為“我們想做的一切就是保護(hù)我們認(rèn)為我們以后還需要的知識的完整和安全”,保存Web Archive的意義就猶如我們傳統(tǒng)時(shí)期保存檔案的作用一樣是為了保證這個(gè)社會記憶的完整。在
過去,這項(xiàng)工作基本是由檔案部門來完成,但在當(dāng)今,層出不窮的新類型的信息,特別是巨量的Web Archive信息資源已經(jīng)超出了檔案部門的保存能力,如果僅僅依靠檔案部門單獨(dú)的力量,這肯定是一個(gè)無法完成的使命,因?yàn)閃eb Archive信息的來源渠道實(shí)在是太多,有政府、商業(yè)企業(yè)、研究機(jī)構(gòu)、教育機(jī)構(gòu)、社會組織等形成的各種社會團(tuán)體以及網(wǎng)絡(luò)上海個(gè)普通的社會成員,而且信息內(nèi)容從高質(zhì)量的權(quán)威研究信息到數(shù)字化的圖書報(bào)刊、從社會時(shí)事到小道消息、從學(xué)習(xí)資源到娛樂資源應(yīng)有盡有。Web Archive信息的這種社會化特點(diǎn),自然也就決定了在網(wǎng)絡(luò)時(shí)代,傳統(tǒng)的信息保存機(jī)構(gòu)如圖書館、檔案館已經(jīng)不能單獨(dú)承擔(dān)Web Archive信息資源長期保存這項(xiàng)長期并且艱巨的任務(wù)。因此在數(shù)字時(shí)代,傳統(tǒng)的信息生產(chǎn)、流通、保存截然分開的分工機(jī)制正在被打破,保存主體必然要求重新定義。當(dāng)然保存WebArchive的重責(zé)依然要由檔案館與圖書館來承擔(dān),它們應(yīng)該承擔(dān)起作為保存那些具有全國意義的、具有研究價(jià)值的、對國家主權(quán)認(rèn)定有幫助的需要長期保存的WebArchive資源的主體責(zé)任:而對于那些只具有一般意義的webArchive資源可以由形成者負(fù)最初保存或短期保存責(zé)任:出于經(jīng)濟(jì)利益的考慮,商業(yè)類網(wǎng)站也應(yīng)該對某些Web Archive信息資源負(fù)保存責(zé)任,如前面所述的百度就是一個(gè)典型的案例;最后,我們也應(yīng)該鼓勵(lì)個(gè)人出于公益的目的承擔(dān)起保存Web Archive的責(zé)任,如一個(gè)名叫A.D.Williams的美國人所收集與保存的與“9·11事件”相關(guān)的Web Archive資料甚至比很多專業(yè)機(jī)構(gòu)收集的還齊全。
3.2明確Web Archive的保存范圍。由于互聯(lián)網(wǎng)網(wǎng)頁有著海量的信息,不但有書籍和文檔等文本文件。也有電影、動畫片、演講等視頻文件,還有音樂、錄音、廣播節(jié)目等音頻文件以及隱蔽網(wǎng)中的數(shù)據(jù)庫文件。等等。對于這些網(wǎng)頁信息,我們是不是全部把它們作為Web Archive來保存與處理,這個(gè)問題應(yīng)該有待考慮,因?yàn)閱慰磕壳拔覀兊募夹g(shù)、設(shè)備與資金都是無法做到的。在對待那些網(wǎng)頁信息應(yīng)該作為Web Arehive保存起來,我們可以考慮參考傳統(tǒng)時(shí)期的歸檔原則,在傳統(tǒng)時(shí)期我們也不是有文必檔,而是有所選擇。因此,我們在選擇網(wǎng)頁信息采集時(shí)可以采用選擇性采集方法,即采集那些對我國人民、國家與社會具有重要重大意義的網(wǎng)頁作為我們的保存目標(biāo),具體內(nèi)容可以從政治、社會文化、社會經(jīng)濟(jì)、健康到藝術(shù)、人文等方面。在具體操作方式上,我們可以采用“以網(wǎng)站為單位進(jìn)行保存,同一個(gè)網(wǎng)站的所有網(wǎng)站文件保存在一起構(gòu)成該網(wǎng)站的全宗,網(wǎng)頁與網(wǎng)頁之間的鏈接關(guān)系和網(wǎng)頁與程序文件的依附關(guān)系也不能被破壞”。但由于網(wǎng)頁信息數(shù)量巨大且內(nèi)容重復(fù)率高、更新頻繁,這種方式在保存時(shí)會碰到好多問題。另一種操作方式是以主題或事件的形式來保存,即基于主題事件為專題來進(jìn)行保存,如針對“9·11事件”、非典、北京奧運(yùn)會等重要專題來確定Web Archivc的保存范圍,這種方式更具有操作性,缺點(diǎn)就是完整上會受到影響,但從目前的實(shí)際情況來講,它更具可行性。
3.3明確Web Archive保存的政策法律。到目前為止,除了挪威、丹麥等少數(shù)國家明確制定法律規(guī)定Web Archive信息資源納入到呈繳法中外,世界上大部分國家都還沒有制定政策法律來規(guī)范如何對Web Archive信息資源進(jìn)行保存。因此,在沒有法律保障的前提條件下,如何解決Web Archive著作權(quán)問題、編輯權(quán)問題、采集權(quán)問題、隱私權(quán)問題、公布權(quán)問題等相關(guān)法律問題將是一項(xiàng)耗時(shí)、費(fèi)力的工作。
這些問題不解決,要想做好Web Archive的保存工作是不現(xiàn)實(shí)的。因此,制定相關(guān)的政策法律必須提上日程。
3.4配置合理的檔案人員。合理的檔案人員的配置包括兩個(gè)層面:人員數(shù)量與人員知識結(jié)構(gòu)。因?yàn)闊o論信息以什么樣的形式出現(xiàn),即不管是傳統(tǒng)的形式還是Web Archive的形式出現(xiàn),信息組織的關(guān)鍵就是深入分析信息與人可能產(chǎn)生的各種關(guān)聯(lián),實(shí)質(zhì)上是對各種信息關(guān)系的分析,這種關(guān)系包括人與信息、信息與信息、人與人之間的關(guān)系。只有有效地把握了關(guān)系,并依此理解來建立信息組織模式,信息才能被有效地利用與保存。而且在對這些網(wǎng)頁信息進(jìn)行采集與質(zhì)量控制時(shí),都對檔案人員提出了更高的要求。因此,我們在為WebArchive制定保存方式時(shí)一定要依據(jù)自身的人員數(shù)量及人員知識結(jié)構(gòu)來選擇適合的策略。
Web Archive保存是一個(gè)復(fù)雜且人力、物力耗費(fèi)巨大的工作,其成本不僅有采集成本還有維護(hù)成本,對于人員的素質(zhì)、法律的完善要求都非常高,而且對于WebArchive信息質(zhì)量的控制也是非常重要的,因?yàn)橹挥懈哔|(zhì)量的WebArchive信息才能真正達(dá)到保存的目的。
(作者單位:南昌大學(xué)歷史系來稿日期:2009-06-19)