Ｗｅｂ?。粒颍悖瑁椋觯灞４嫜芯浚含F(xiàn)狀、意義與發(fā)展策略

2009-11-30 08:17周林興

檔案管理 2009年5期

周林興

摘要：分析了WebArchive保存問題的國內(nèi)外研究現(xiàn)狀，闡述了研究的意義并提出了相應(yīng)的發(fā)展策略。

關(guān)鍵詞：Web Archive；現(xiàn)狀；意義；發(fā)展策略

類似經(jīng)歷應(yīng)該不會感到陌生：打開一個(gè)URL，網(wǎng)頁上顯示——The pase can-not be found或The Servicc Invalid.ablc。巨量的web Anhive在不斷地增加的同時(shí)，一邊也在不斷地消失，按照Ntoulas等人的研究，網(wǎng)頁每周以8％的速度在更新之中，即每周大約有3.2億個(gè)新網(wǎng)頁產(chǎn)生，數(shù)據(jù)量相當(dāng)于3.8TB，網(wǎng)頁之間的鏈接關(guān)系也在不斷地發(fā)生著變化，每周大約新產(chǎn)生25％的新鏈接：而根據(jù)另一項(xiàng)研究r2)則表明，一個(gè)Web Archive的平均壽命只有44天。

Web Archive作為全球最大的信息資源庫，存在著大量對文化遺產(chǎn)、學(xué)術(shù)研究、社會經(jīng)濟(jì)與政治具有重要價(jià)值的信息，但其產(chǎn)生的“自發(fā)性”與存在的“流逝性”的雙重特點(diǎn)，使其成為一種珍貴而又脆弱的信息資源。而設(shè)置各種館庫選派專人進(jìn)行管理各個(gè)時(shí)期所形成的檔案信息資源，這是人類自古以來就形成的慣例，在網(wǎng)絡(luò)環(huán)境下也不例外。因此，如何保存并讓其成為后世不可缺少的智慧遺產(chǎn)，就成為當(dāng)今人類社會信息管理中越來越重要的課題與研究領(lǐng)域。

1研究現(xiàn)狀

1996年，互聯(lián)網(wǎng)檔案館(The Internet Archive)產(chǎn)生，標(biāo)志著人類對web Archive保存研究的開始，它是一個(gè)非贏利性的WebArchive數(shù)據(jù)庫，面向全球用戶，免費(fèi)、公開其收集的全部WebArchive信息資料；同年，澳大利亞國家圖書館開展了名為PANDO-RA項(xiàng)目，其主要是保存該國的在線出版物：同年，瑞典成立了Kulturarw3的web信息資源采集項(xiàng)目；2000年，美國國會圖書館提出了NDIIPP計(jì)劃，webArchive作為其六個(gè)收集范圍中的主要組成部分；2003年，由12個(gè)成員機(jī)構(gòu)發(fā)起的國際網(wǎng)絡(luò)保存聯(lián)盟IIPC正式成立，其成立的目標(biāo)就是：保存來自全球的web Archivc內(nèi)容，使其能夠持續(xù)地提供訪問。到2008年，該聯(lián)盟已吸納了37個(gè)成員機(jī)構(gòu)，其中也包括亞洲的日本。各種相關(guān)項(xiàng)目還在不斷地出現(xiàn)，其研究的內(nèi)容與深度在不斷地拓展，并且，已開始將成果轉(zhuǎn)化到實(shí)際應(yīng)用和商業(yè)化操作的服務(wù)模式，如Hanzo Archive公司提供為企業(yè)級存檔服務(wù)以及商業(yè)化服務(wù)應(yīng)用(Archive-it)。

相對于國外而言，我國的研究要晚些，中國“Web信息博物館”自2002年1月18日第一次搜集以來，已保存了30多億頁的中文Web資源：國家圖書館“網(wǎng)絡(luò)信息采集與保存”項(xiàng)目，保存了自2003年以來.cn域名下的網(wǎng)站和所有中文網(wǎng)站的Web信息。

2研究意義

網(wǎng)站已經(jīng)成為機(jī)構(gòu)在網(wǎng)絡(luò)空間開展業(yè)務(wù)活動的主要平臺，根據(jù)CNNIC2008年發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》，中國網(wǎng)站數(shù)量已達(dá)到1919000個(gè)。WebArchive中存在著大量的具有原始記錄性的信息資源，其對于組織機(jī)構(gòu)本身與社會來說都具有保存的意義。

2．1Web Archive保存是網(wǎng)站復(fù)原的保障。網(wǎng)站復(fù)原也就是使保存起來的網(wǎng)頁內(nèi)容以原來的樣貌呈現(xiàn)給用戶，這其中包括其鏈接。比如，現(xiàn)在您想看看2000年時(shí)的新浪網(wǎng)站是個(gè)什么樣子，上面有哪些信息?那么它將完整地展現(xiàn)在您的眼前，就猶如在訪問原始網(wǎng)站一樣。在這個(gè)意義層面，百度做得比較成功，它考慮到某些網(wǎng)站提供的信息可能由于內(nèi)容更新或更換URL地址而無法顯示，百度將搜索到的絕大部分內(nèi)容都存放在自己的cache.baidu.com中，即百度快照，當(dāng)原始的鏈接無效時(shí)，用戶可以通過它查找到相應(yīng)的信息，從而滿足用戶的信息需求。

2．2Web Archive保存保證了社會記憶的完整性，網(wǎng)頁信息資源同樣也是社會活動中直接形成的原始性信息記錄，就如同我們所有的社會活動形成的原始記錄一樣，它準(zhǔn)確地反映了我們的社會現(xiàn)實(shí)，如網(wǎng)絡(luò)日志、博客(Blog)，等等，它就猶如傳統(tǒng)意義上的日志一樣，成為個(gè)體的社會關(guān)系、日?；顒拥雀鞣N資源的匯聚節(jié)點(diǎn)。在網(wǎng)絡(luò)環(huán)境下信息來源、自主跟蹤關(guān)鍵字，以“自我”為中心，把最快、最高價(jià)值的信息聚合起來，實(shí)現(xiàn)所有互聯(lián)網(wǎng)信息的“一站式”閱讀體驗(yàn)，這種全新的社會記憶方式，充分反映了信息技術(shù)發(fā)展給人們間交流帶來的便利。另一方面，對于組織機(jī)構(gòu)來說，網(wǎng)頁信息是組織機(jī)構(gòu)業(yè)務(wù)活動過程的最直接證明。對于整個(gè)社會來說，網(wǎng)頁信息更是構(gòu)成社會記憶不可缺少的組成部分，是溝通歷史的橋梁。數(shù)字文化遺產(chǎn)概念的興起其實(shí)也是充分地反映了人們對這個(gè)問題的重要性有了進(jìn)一步的認(rèn)識。

2．3Web Archive保存是研究Web及相關(guān)技術(shù)發(fā)展的最有力證據(jù)。Web技術(shù)的發(fā)展經(jīng)歷了從靜態(tài)文檔到動態(tài)網(wǎng)頁，再到Web2.0時(shí)代，網(wǎng)頁URL的后綴從，htm、.html、.shtml、.xml等靜態(tài)網(wǎng)頁的常見形式，到以.asp、.jsp、.php、.perl、.cRi等為后綴的形式，再到以Blog、TAG、SNS、RSS、wiki等社會軟件的應(yīng)用為核心，依據(jù)六度分隔①、xml、ajax等新理論和技術(shù)實(shí)現(xiàn)的互聯(lián)網(wǎng)新一代模式。我們可以通過分析與查看保存完整的WebArchive來分析Web及相關(guān)技術(shù)的發(fā)展，而且還可以通過了解相關(guān)技術(shù)的使用時(shí)間、版本信息從而來分析、追蹤相關(guān)技術(shù)的使用范圍與生命周期。通過跟蹤文件格式、相關(guān)標(biāo)準(zhǔn)等來分析某項(xiàng)技術(shù)的使用程度，以后決定某項(xiàng)技術(shù)是繼續(xù)使用還是淘汰。

總之，每個(gè)用戶都可以在開放的網(wǎng)站上通過簡單的瀏覽器操作而擁有他們自己的數(shù)據(jù)，人們可以更加方便地進(jìn)行信息獲取、發(fā)布、共享以及溝通交流和群組討論等。每個(gè)人都成為新聞或者觀點(diǎn)的發(fā)布人，通過各種手段，如Tag、關(guān)聯(lián)、鏈接等，網(wǎng)站能夠以最大限度展示個(gè)人的作用，進(jìn)而激發(fā)個(gè)人的積極性，人們成為Web上社會的人，Web也有了社會性，成為社會化網(wǎng)絡(luò)。從這里可以看出，關(guān)注Web Archive的研究，也是與時(shí)下關(guān)注民生檔案研究的方向是一致的、相吻合的。

3發(fā)展策略

3．1明確web Archive的保存責(zé)任。Fahrenheit認(rèn)為“我們想做的一切就是保護(hù)我們認(rèn)為我們以后還需要的知識的完整和安全”，保存Web Archive的意義就猶如我們傳統(tǒng)時(shí)期保存檔案的作用一樣是為了保證這個(gè)社會記憶的完整。在

過去，這項(xiàng)工作基本是由檔案部門來完成，但在當(dāng)今，層出不窮的新類型的信息，特別是巨量的Web Archive信息資源已經(jīng)超出了檔案部門的保存能力，如果僅僅依靠檔案部門單獨(dú)的力量，這肯定是一個(gè)無法完成的使命，因?yàn)閃eb Archive信息的來源渠道實(shí)在是太多，有政府、商業(yè)企業(yè)、研究機(jī)構(gòu)、教育機(jī)構(gòu)、社會組織等形成的各種社會團(tuán)體以及網(wǎng)絡(luò)上海個(gè)普通的社會成員，而且信息內(nèi)容從高質(zhì)量的權(quán)威研究信息到數(shù)字化的圖書報(bào)刊、從社會時(shí)事到小道消息、從學(xué)習(xí)資源到娛樂資源應(yīng)有盡有。Web Archive信息的這種社會化特點(diǎn)，自然也就決定了在網(wǎng)絡(luò)時(shí)代，傳統(tǒng)的信息保存機(jī)構(gòu)如圖書館、檔案館已經(jīng)不能單獨(dú)承擔(dān)Web Archive信息資源長期保存這項(xiàng)長期并且艱巨的任務(wù)。因此在數(shù)字時(shí)代，傳統(tǒng)的信息生產(chǎn)、流通、保存截然分開的分工機(jī)制正在被打破，保存主體必然要求重新定義。當(dāng)然保存WebArchive的重責(zé)依然要由檔案館與圖書館來承擔(dān)，它們應(yīng)該承擔(dān)起作為保存那些具有全國意義的、具有研究價(jià)值的、對國家主權(quán)認(rèn)定有幫助的需要長期保存的WebArchive資源的主體責(zé)任：而對于那些只具有一般意義的webArchive資源可以由形成者負(fù)最初保存或短期保存責(zé)任：出于經(jīng)濟(jì)利益的考慮，商業(yè)類網(wǎng)站也應(yīng)該對某些Web Archive信息資源負(fù)保存責(zé)任，如前面所述的百度就是一個(gè)典型的案例；最后，我們也應(yīng)該鼓勵(lì)個(gè)人出于公益的目的承擔(dān)起保存Web Archive的責(zé)任，如一個(gè)名叫A.D.Williams的美國人所收集與保存的與“9·11事件”相關(guān)的Web Archive資料甚至比很多專業(yè)機(jī)構(gòu)收集的還齊全。

3．2明確Web Archive的保存范圍。由于互聯(lián)網(wǎng)網(wǎng)頁有著海量的信息，不但有書籍和文檔等文本文件。也有電影、動畫片、演講等視頻文件，還有音樂、錄音、廣播節(jié)目等音頻文件以及隱蔽網(wǎng)中的數(shù)據(jù)庫文件。等等。對于這些網(wǎng)頁信息，我們是不是全部把它們作為Web Archive來保存與處理，這個(gè)問題應(yīng)該有待考慮，因?yàn)閱慰磕壳拔覀兊募夹g(shù)、設(shè)備與資金都是無法做到的。在對待那些網(wǎng)頁信息應(yīng)該作為Web Arehive保存起來，我們可以考慮參考傳統(tǒng)時(shí)期的歸檔原則，在傳統(tǒng)時(shí)期我們也不是有文必檔，而是有所選擇。因此，我們在選擇網(wǎng)頁信息采集時(shí)可以采用選擇性采集方法，即采集那些對我國人民、國家與社會具有重要重大意義的網(wǎng)頁作為我們的保存目標(biāo)，具體內(nèi)容可以從政治、社會文化、社會經(jīng)濟(jì)、健康到藝術(shù)、人文等方面。在具體操作方式上，我們可以采用“以網(wǎng)站為單位進(jìn)行保存，同一個(gè)網(wǎng)站的所有網(wǎng)站文件保存在一起構(gòu)成該網(wǎng)站的全宗，網(wǎng)頁與網(wǎng)頁之間的鏈接關(guān)系和網(wǎng)頁與程序文件的依附關(guān)系也不能被破壞”。但由于網(wǎng)頁信息數(shù)量巨大且內(nèi)容重復(fù)率高、更新頻繁，這種方式在保存時(shí)會碰到好多問題。另一種操作方式是以主題或事件的形式來保存，即基于主題事件為專題來進(jìn)行保存，如針對“9·11事件”、非典、北京奧運(yùn)會等重要專題來確定Web Archivc的保存范圍，這種方式更具有操作性，缺點(diǎn)就是完整上會受到影響，但從目前的實(shí)際情況來講，它更具可行性。

3．3明確Web Archive保存的政策法律。到目前為止，除了挪威、丹麥等少數(shù)國家明確制定法律規(guī)定Web Archive信息資源納入到呈繳法中外，世界上大部分國家都還沒有制定政策法律來規(guī)范如何對Web Archive信息資源進(jìn)行保存。因此，在沒有法律保障的前提條件下，如何解決Web Archive著作權(quán)問題、編輯權(quán)問題、采集權(quán)問題、隱私權(quán)問題、公布權(quán)問題等相關(guān)法律問題將是一項(xiàng)耗時(shí)、費(fèi)力的工作。

這些問題不解決，要想做好Web Archive的保存工作是不現(xiàn)實(shí)的。因此，制定相關(guān)的政策法律必須提上日程。

3．4配置合理的檔案人員。合理的檔案人員的配置包括兩個(gè)層面：人員數(shù)量與人員知識結(jié)構(gòu)。因?yàn)闊o論信息以什么樣的形式出現(xiàn)，即不管是傳統(tǒng)的形式還是Web Archive的形式出現(xiàn)，信息組織的關(guān)鍵就是深入分析信息與人可能產(chǎn)生的各種關(guān)聯(lián)，實(shí)質(zhì)上是對各種信息關(guān)系的分析，這種關(guān)系包括人與信息、信息與信息、人與人之間的關(guān)系。只有有效地把握了關(guān)系，并依此理解來建立信息組織模式，信息才能被有效地利用與保存。而且在對這些網(wǎng)頁信息進(jìn)行采集與質(zhì)量控制時(shí)，都對檔案人員提出了更高的要求。因此，我們在為WebArchive制定保存方式時(shí)一定要依據(jù)自身的人員數(shù)量及人員知識結(jié)構(gòu)來選擇適合的策略。

Web Archive保存是一個(gè)復(fù)雜且人力、物力耗費(fèi)巨大的工作，其成本不僅有采集成本還有維護(hù)成本，對于人員的素質(zhì)、法律的完善要求都非常高，而且對于WebArchive信息質(zhì)量的控制也是非常重要的，因?yàn)橹挥懈哔|(zhì)量的WebArchive信息才能真正達(dá)到保存的目的。

(作者單位：南昌大學(xué)歷史系來稿日期：2009-06-19)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Ｗｅｂ?。粒颍悖瑁椋觯灞４嫜芯浚含F(xiàn)狀、意義與發(fā)展策略

Ｗｅｂ?。粒颍悖瑁椋觯灞４嫜芯浚含F(xiàn)狀、意義與發(fā)展策略