崔鵬 王曦波
一、引言
在互聯(lián)網(wǎng)上,每天都有無數(shù)新的信息的出現(xiàn),同時(shí)也有無數(shù)舊的信息在消失。網(wǎng)絡(luò)信息雖然增長速度飛快,其消失的速度也超出人們的想象。一些相關(guān)機(jī)構(gòu)和學(xué)者的估計(jì)也能在某個(gè)程度上說明這個(gè)問題:據(jù)互聯(lián)網(wǎng)檔案館(Internet Archive)估計(jì),網(wǎng)頁的平均壽命只有100天;亞馬遜公司旗下的Alexa網(wǎng)站曾經(jīng)估計(jì),網(wǎng)頁的平均壽命為75天;美國的NDIIPP項(xiàng)目人員則估計(jì),網(wǎng)絡(luò)信息的平均壽命只有44天。一些關(guān)于時(shí)事新聞的信息,其消失的速度更加驚人。表1是2018年1月中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《第41次中國互聯(lián)網(wǎng)統(tǒng)計(jì)報(bào)告》中對于我國網(wǎng)頁更新情況的統(tǒng)計(jì),從該表可以看出,超過3成的網(wǎng)頁更新周期在三個(gè)月以內(nèi)。
Web作為全球最大的信息資源庫,其包含的信息對于對文化遺產(chǎn)保存、學(xué)術(shù)研究、社會(huì)經(jīng)濟(jì)的發(fā)展都具有十分重要的意義,但由于Web 信息的產(chǎn)生是自發(fā)的,而其消失又十分迅速,使網(wǎng)絡(luò)信息資源既珍貴又脆弱。因此,對Web進(jìn)行保存具有十分重要的意義,但是在我國,不論是與傳統(tǒng)的信息資源保存相比,還是與國外的網(wǎng)絡(luò)信息資源保存相比,Web Archive都沒有引起足夠的重視。
1996年,美國一個(gè)非營利性組織啟動(dòng)了Internet Archive項(xiàng)目,澳大利亞圖書館啟動(dòng)PANDORA項(xiàng)目;1997年,美國國會(huì)圖書館啟動(dòng)Minerva項(xiàng)目,丹麥、挪威、芬蘭、冰島和瑞典五個(gè)北歐國家的國家圖書館聯(lián)合啟動(dòng)Nodic Web Archive項(xiàng)目;1999年,法國國家圖書館啟動(dòng)了BnF Web Archive項(xiàng)目,英國國家圖書館啟動(dòng)了UKWAC項(xiàng)目;日本、新加坡等國也在2005年以前啟動(dòng)了國家層面的Web Archive項(xiàng)目。
我國最早的Web Archive項(xiàng)目是2002年由北京大學(xué)啟動(dòng)的Informall項(xiàng)目;國家圖書館于2003年初啟動(dòng)了網(wǎng)絡(luò)信息資源采集與保存試驗(yàn)項(xiàng)目(WICP),2009年國家圖書館互聯(lián)網(wǎng)信息資源保存保護(hù)中心成立。中國人民大學(xué)也在2011年成立了“互聯(lián)網(wǎng)數(shù)據(jù)信息海量存貯與智能服務(wù)中心”,其研究主要分為三個(gè)層面,第一個(gè)層面是互聯(lián)網(wǎng)海量信息的組織、存儲(chǔ)與管理技術(shù),第二個(gè)層面是海量WEB數(shù)據(jù)的分析與挖掘,海量知識(shí)庫管理等,第三個(gè)層面是面向社會(huì)科學(xué)用戶的交互式分析決策平臺(tái)。
國內(nèi)對于Web Archive的研究,主要包括從宏觀上介紹整個(gè)Web Archive工作的概念,從微觀上介紹Web Archive工作的某一個(gè)環(huán)節(jié),或者是介紹了國外的發(fā)展現(xiàn)狀。在收集策略方面,國內(nèi)的研究主要包括以下幾個(gè)方面。第一,認(rèn)為收集策略對于Web Archive工作具有基礎(chǔ)性的重要作用。第二,不同的收集策略有不同優(yōu)缺點(diǎn)。第三,收集策略必須要有科學(xué)的收集原則。
國外對于Web Archive的研究內(nèi)容相對豐富,在很多方面對我國具有重要的借鑒作用。澳大利亞學(xué)者Edgar Crook認(rèn)為,Web 2.0時(shí)代給Web Archive工作帶來了新的技術(shù)上的挑戰(zhàn),圖書館必須學(xué)會(huì)適應(yīng)并對未來做好計(jì)劃,修改其收集的范圍,并與其他保存機(jī)構(gòu)進(jìn)行合作,以保證這項(xiàng)重要工作的可持續(xù)發(fā)展。芬蘭學(xué)者Juha Hakala主張對Web Archive工作收集的網(wǎng)絡(luò)信息進(jìn)行元數(shù)據(jù)標(biāo)引,建立索引,以提供給終端用戶使用。
Web Archive工作的責(zé)任體系、收集策略和資金支持三個(gè)方面是有機(jī)統(tǒng)一的,共同形成了Web Archive工作的運(yùn)作機(jī)制,如圖1所示。從圖中可以看出,國家圖書館、各級(jí)圖書館和各級(jí)檔案館承擔(dān)著網(wǎng)絡(luò)信息資源長期保存的責(zé)任,在Web Archive工作中處于中心地位,是Web Archive工作的主力軍。而長期保存的必要前提則是短期保存,短期保存的責(zé)任者主要包括網(wǎng)絡(luò)信息資源的生產(chǎn)者和出版者。輔助保存是長期保存的重要補(bǔ)充,其責(zé)任者包括商業(yè)公司、各組織機(jī)構(gòu)的網(wǎng)絡(luò)技術(shù)部門和其他機(jī)構(gòu)。而這些保存責(zé)任方都受到來自政府的統(tǒng)一規(guī)劃和指導(dǎo),政府處于Web Archive工作的領(lǐng)導(dǎo)者的地位,一方面為Web Archive工作提供必不可少的經(jīng)費(fèi)支持,另一方面也為Web Archive工作提供法律規(guī)范、政策支持和對公眾的宣傳教育等等。
網(wǎng)絡(luò)信息資源的收集是Web Archive工作的第一步,也是十分重要的一步。在網(wǎng)絡(luò)信息資源的收集過程中,可以采用多種收集策略。收集策略的不同,會(huì)直接影響到Web Archive信息的質(zhì)量和價(jià)值,以及Web Archive工作的成本。按照不同的分類標(biāo)準(zhǔn),收集策略的分類也不相同。按照信息的收集方式,網(wǎng)絡(luò)信息資源的收集模型可以分為推送模型和拉取模型。按照信息的收集范圍,網(wǎng)絡(luò)信息資源的收集策略可以分為全面性收集策略和選擇性收集策略。
二、Web Archive收集策略存在的問題
1.全面性收集策略存在的問題
(1)更新周期長,不能做到真正意義上的全面性收集
對于印刷型出版物來說,主要是那些連續(xù)出版物,比如期刊、報(bào)紙存在著連續(xù)收集的問題,由于連續(xù)出版物的更新周期比較固定,比如,期刊的更新周期可能是一個(gè)月、半個(gè)月等等,而報(bào)紙的更新周期一般是一天,因此收集周期就很容易確定。而網(wǎng)絡(luò)信息的收集周期則很難確定。理論上講,收集周期應(yīng)該同網(wǎng)絡(luò)信息的變化更新周期相一致,只要網(wǎng)絡(luò)信息進(jìn)行了更新,就應(yīng)該對該次更新進(jìn)行收集。但實(shí)際上,網(wǎng)絡(luò)信息的更新變化規(guī)律十分復(fù)雜,難以找尋,有的六個(gè)月甚至更久都不更新一次,有的一兩個(gè)月更新一次,更有的一星期甚至一天更新一次。對于全面性收集策略來說,由于收集的范圍寬,對象多,一次收集所需的時(shí)間長,因此收集的周期一般設(shè)置得比較長。
世界上主要的Web Archive項(xiàng)目都以年作為網(wǎng)絡(luò)信息資源的收集周期,每年對網(wǎng)絡(luò)信息資源進(jìn)行n次收集(n<=10)。比如,瑞典的網(wǎng)絡(luò)信息資源保存項(xiàng)目Kulturarw3將其收集的更新周期設(shè)置為每年2次。在這個(gè)收集頻率下,兩次收集的間隔時(shí)間平均為6個(gè)月,這6個(gè)月時(shí)間內(nèi)發(fā)生的信息更新和信息消失就無法收集到,而這6個(gè)月的信息更新和信息消失所產(chǎn)生的信息量是十分巨大的??梢姡捎猛暾允占呗?,由于更新周期長,無法收集在兩個(gè)更新時(shí)間點(diǎn)之間的信息更新和信息消失,而產(chǎn)生大量的信息遺漏,實(shí)際上不能做到真正意義上的全面性收集。
(2)只能收集靜態(tài)信息資源,不能處理深層網(wǎng)絡(luò)資源
靜態(tài)信息資源主要是指靜態(tài)網(wǎng)頁。靜態(tài)網(wǎng)頁是一種淺層網(wǎng)絡(luò)資源,是純粹的HTML格式的網(wǎng)頁,它們是實(shí)實(shí)在在保存在服務(wù)器上的文件。靜態(tài)網(wǎng)頁的內(nèi)容不會(huì)因?yàn)闉g覽時(shí)間或?yàn)g覽者IP的變化而變化。也正是因?yàn)殪o態(tài)網(wǎng)頁的這些特點(diǎn),使得靜態(tài)網(wǎng)頁很容易被搜索引擎發(fā)現(xiàn),從而大大提高了被Web Archive工作收集到的可能性。
盡管完整性收集工作能對靜態(tài)信息資源進(jìn)行有效的收集,但是由于技術(shù)上的原因,對于深層網(wǎng)絡(luò)信息資源(數(shù)據(jù)庫資源)的收集卻顯得力不從心,而更為遺憾的是,相對于靜態(tài)信息資源來說,這些無法收集到的深層網(wǎng)絡(luò)信息資源數(shù)量更大、質(zhì)量更高、增長速度更快、重復(fù)率也更低。調(diào)查表明:深層網(wǎng)絡(luò)信息資源的規(guī)模是淺層網(wǎng)絡(luò)信息資源的500倍以上,而其質(zhì)量是淺層網(wǎng)絡(luò)信息資源質(zhì)量的大約3倍。另外,深層網(wǎng)絡(luò)信息資源的增長速度也明顯高于淺層網(wǎng)絡(luò)信息資源的增長速度。而就重復(fù)率而言,淺層網(wǎng)絡(luò)中有很多鏡像站點(diǎn),提供的信息本來就不是一手的信息,另外很多網(wǎng)絡(luò)信息被大量復(fù)制粘貼(如百度知道中有很多回答都是從別處復(fù)制粘貼過來的),造成重復(fù)率不斷提高,而深層網(wǎng)絡(luò)信息資源的重復(fù)現(xiàn)象則要少得多。
綜上所述,完整性收集策略雖然能對淺層網(wǎng)絡(luò)信息資源進(jìn)行有效的收集,但是由于技術(shù)上的障礙,對于數(shù)量更大、質(zhì)量更高、增長速度更快、重復(fù)率更低的深層網(wǎng)絡(luò)信息資源無能為力。
(3)不能對收集的信息進(jìn)行有效的質(zhì)量控制
全面性收集是對一個(gè)廣泛的范圍內(nèi)的站點(diǎn)(如以國家為范圍)的信息進(jìn)行收集,這個(gè)范圍十分巨大。而我們都知道,網(wǎng)絡(luò)上存在的信息污染大,噪音多,質(zhì)量千差萬別,參差不齊,有很多重復(fù)信息、虛假信息和垃圾信息,加上在收集過程中,收集的范圍寬,收集的對象眾多,較少地采取了人工干預(yù),大多數(shù)是利用網(wǎng)絡(luò)爬蟲對網(wǎng)絡(luò)信息資源進(jìn)行自動(dòng)收集,很容易造成收集質(zhì)量的低劣。具體表現(xiàn)在,一方面,由于缺少了人工的干預(yù),沒有人對這些信息進(jìn)行人為的信息主題的選擇、重復(fù)信息的排除、虛假信息的鑒定、垃圾信息的識(shí)別等等,從而導(dǎo)致產(chǎn)生許多無關(guān)信息、重復(fù)信息、虛假信息和垃圾信息。另一方面,缺少了人工的干預(yù),任由網(wǎng)絡(luò)爬蟲獨(dú)自工作,使得許多的收集失敗得不到及時(shí)發(fā)現(xiàn),許多的收集錯(cuò)誤得不到及時(shí)糾正,從而導(dǎo)致一些信息的遺漏,甚至有可能造成重要信息的缺失。
2.選擇性收集策略存在的問題
(1)各個(gè)網(wǎng)絡(luò)信息資源之間的割裂性強(qiáng)
我們現(xiàn)在網(wǎng)絡(luò)中各個(gè)站點(diǎn)、各個(gè)地域的網(wǎng)絡(luò)信息資源相互之間存在著千絲萬縷的聯(lián)系,通過錯(cuò)綜復(fù)雜、無處不在的各種鏈接形成了一個(gè)整體。我們把與某一個(gè)站點(diǎn)相鏈接的所有網(wǎng)頁形成的整體叫做“語境”。而通過選擇性收集策略,把某些我們認(rèn)為有價(jià)值的站點(diǎn)或主題的網(wǎng)絡(luò)信息資源從這個(gè)完整的、相互聯(lián)系的整體中抽離出來的時(shí)候,與這些信息資源鏈接的其他信息資源如果不符合收集的標(biāo)準(zhǔn)就會(huì)被舍棄掉,從而不可避免地割裂了這些網(wǎng)絡(luò)信息資源之間原本存在的聯(lián)系,使抽離出來的網(wǎng)絡(luò)信息資源失去了原來的“語境”。而這種割裂性會(huì)給未來研究人員的研究帶來很大的隱患,因?yàn)楸桓盍蚜说木W(wǎng)絡(luò)信息資源無法反映出當(dāng)時(shí)整個(gè)網(wǎng)絡(luò)信息資源的全貌,同時(shí)也有可能使未來的研究人員斷章取義,在對某些信息理解不全而需要與之相鏈接的信息作為輔助理解的時(shí)候卻找不到這些原來的鏈接了。
(2)選擇標(biāo)準(zhǔn)主觀性強(qiáng)
選擇性收集策略是根據(jù)網(wǎng)絡(luò)信息資源的價(jià)值的不同來判斷是否應(yīng)該對某個(gè)或某些站點(diǎn)的網(wǎng)絡(luò)信息資源進(jìn)行保存。而這些選擇的標(biāo)準(zhǔn)具有很強(qiáng)的主觀性,全憑收集人員(如圖書館員、檔案工作人員)根據(jù)自身的知識(shí)結(jié)構(gòu)和個(gè)人意愿來進(jìn)行判斷。一方面,用現(xiàn)在的標(biāo)準(zhǔn)來判斷某一些信息在未來是否具有價(jià)值是一個(gè)很困難的工作,因?yàn)槟承┬畔⒁苍S現(xiàn)在具有價(jià)值,但是在若干年后的將來也許一文不值,這樣就會(huì)造成資源的浪費(fèi);而更壞的情況是,某些信息現(xiàn)在可能一文不值,卻有可能在若干年后的將來有很重要的意義,這就不可避免地會(huì)導(dǎo)致一些重要信息的遺漏。另一方面,收集人員的知識(shí)結(jié)構(gòu)的不同,個(gè)人意愿的不同都會(huì)在很大程度上影響選擇標(biāo)準(zhǔn)的形成,有可能造成選擇標(biāo)準(zhǔn)的混亂,甚至遭受后人的非議。就像勞埃德·索克文納(Lloyd Sokvitne)曾經(jīng)總結(jié)的那樣:“我們不知道未來的人們需要哪些信息,我們現(xiàn)在的判斷標(biāo)準(zhǔn)也不一定科學(xué),盡管我們已經(jīng)很盡力,但我們?nèi)耘f會(huì)失去許多有價(jià)值的信息”。
(3)人力、財(cái)力成本高
全面性收集策略雖然收集的范圍廣,但是因?yàn)榻^大部分工作都交給了網(wǎng)絡(luò)爬蟲,所以人工成本很低,節(jié)省了大量的費(fèi)用。而選擇性收集策略則不然,從選擇標(biāo)準(zhǔn)的確定,到收集站點(diǎn)的選擇,到網(wǎng)絡(luò)信息的編目,再到網(wǎng)絡(luò)信息的質(zhì)量審核,都需要人力的介入。特別是在網(wǎng)絡(luò)信息的編目和質(zhì)量審核階段,面對的對象是數(shù)量巨大的網(wǎng)絡(luò)信息資源,需要巨大的人力成本。而且,由于Web Archive工作對于人員的專業(yè)素質(zhì)要求較高,需要對Web Archive工作的工作人員進(jìn)行一定的培訓(xùn),這也需要一筆不小的費(fèi)用。如,澳大利亞國家圖書館的網(wǎng)絡(luò)信息保存的單位成本多達(dá)178. 68澳元,其中94%為人力成本。
三、Web Archive收集策略的改進(jìn)思考及其選擇
1.根據(jù)不同的需要制定不同的收集級(jí)別
上文中指出,全面性收集策略容易遺漏一些重要的網(wǎng)頁更新,而選擇性收集策略又會(huì)割裂收集到的信息與其他信息之間的聯(lián)系,使其喪失“語境”。針對這種狀況,有必要根據(jù)不同的需要,制定不同的收集級(jí)別。
在這個(gè)方面,國外已經(jīng)有數(shù)個(gè)網(wǎng)絡(luò)信息保存項(xiàng)目做出了有益的嘗試。比如,澳大利亞馬尼亞州立圖書館實(shí)施的網(wǎng)絡(luò)信息資源保存項(xiàng)目——“我們的數(shù)字島嶼”制定了比較詳細(xì)的選擇策略,該項(xiàng)目規(guī)定了四個(gè)級(jí)別,即完全級(jí)、選擇級(jí)、代表性收集、快照。完全級(jí)對收集深度最深,不僅包括網(wǎng)站內(nèi)部所有網(wǎng)頁,還包括與之相鏈接的其他一級(jí)、二級(jí)、三級(jí)網(wǎng)頁。這種收集級(jí)別有效地保證了收集的信息同與其相鏈接的信息的聯(lián)系,為其保存了一個(gè)相對完整的“語境”。選擇級(jí)對選定網(wǎng)站的關(guān)鍵更新進(jìn)行收集,收集深度包括所有的內(nèi)部網(wǎng)頁和重要的外部一級(jí)網(wǎng)頁和二級(jí)網(wǎng)頁。這種收集級(jí)別既保證了不遺漏更新的網(wǎng)頁,也照顧到了“語境”的完整性,是二者之間的一個(gè)折中選擇。代表性收集對選定網(wǎng)站進(jìn)行不定期的收集,或者對網(wǎng)站內(nèi)的網(wǎng)頁進(jìn)行收集,收集深度為網(wǎng)站內(nèi)的重要網(wǎng)頁和外部網(wǎng)頁。這種收集級(jí)別在收集頻率和保持“語境”完整性上都降低了標(biāo)準(zhǔn)??煺罩皇占W(wǎng)站的某些網(wǎng)頁,足夠提供該網(wǎng)站的示例即可,是最低級(jí)別的收集。這四種收集級(jí)別靈活多變,可以在實(shí)際操作中根據(jù)需要適時(shí)調(diào)整。
制定了收集級(jí)別的Web Archive項(xiàng)目還有不少,如加拿大國家圖書館的Web Archive項(xiàng)目、伯克利數(shù)字圖書館的Web Archive項(xiàng)目等等。這些項(xiàng)目的收集級(jí)別的制定對于我國的Web Archive工作是很好的借鑒。
2.為選擇性收集策略制定選擇標(biāo)準(zhǔn)
結(jié)合眾多項(xiàng)目的選擇標(biāo)準(zhǔn),筆者認(rèn)為對于網(wǎng)絡(luò)信息資源保存系統(tǒng)來說,制定收集標(biāo)準(zhǔn)時(shí),應(yīng)該主要考慮以下幾個(gè)方面:
第一,網(wǎng)絡(luò)信息內(nèi)容方面的價(jià)值。網(wǎng)絡(luò)信息資源的價(jià)值很大程度上體現(xiàn)在內(nèi)容上,主要是從網(wǎng)絡(luò)信息資源的原創(chuàng)性、權(quán)威性、可靠性幾個(gè)方面進(jìn)行考慮。
第二,網(wǎng)絡(luò)信息媒體方面的價(jià)值。網(wǎng)絡(luò)作為一種新的交流信息、傳遞信息的媒體,具有某種意義的文獻(xiàn)價(jià)值。因此除了考慮內(nèi)容方面的價(jià)值,還要考查某網(wǎng)絡(luò)信息是否具備反映網(wǎng)絡(luò)這一新型媒體的特征。對網(wǎng)絡(luò)媒體發(fā)展中具有里程碑性質(zhì)的網(wǎng)站應(yīng)進(jìn)行保存,比如說第一個(gè)博客,第一個(gè)進(jìn)行電子商務(wù)的網(wǎng)站,第一個(gè)微博,等等,主要將網(wǎng)絡(luò)作為一種媒體的價(jià)值進(jìn)行記錄和保存。
第三,網(wǎng)絡(luò)信息憑證方面的價(jià)值。很多網(wǎng)絡(luò)信息資源,特別是一些政府網(wǎng)站,還有一些機(jī)構(gòu)網(wǎng)站內(nèi)部網(wǎng)的資源,是機(jī)構(gòu)行為的一種記錄,具備檔案的特點(diǎn),可備查考之用。因此在制定選擇標(biāo)準(zhǔn)時(shí)還要充分考慮哪些網(wǎng)絡(luò)信息資源具備這種特質(zhì)。
第四,保存機(jī)構(gòu)自身的特性。對站點(diǎn)進(jìn)行選擇時(shí),還要充分考慮保存機(jī)構(gòu)的屬性。比如說國家級(jí)的機(jī)構(gòu)在制定標(biāo)準(zhǔn)時(shí)就應(yīng)該側(cè)重具備國家重要意義的網(wǎng)絡(luò)信息資源,而地方機(jī)構(gòu)(如地方圖書館)則應(yīng)該側(cè)重反映本地文化、經(jīng)濟(jì)等方面的網(wǎng)絡(luò)信息資源的收集。再比如,檔案機(jī)構(gòu)就應(yīng)該側(cè)重網(wǎng)絡(luò)信息的記錄檔案價(jià)值。
3.采用綜合的策略
由于全面性收集策略和選擇性收集策略都有其固有的問題和不足,不能很好地適應(yīng)各種條件下的網(wǎng)絡(luò)信息資源的收集,而我們也很難在短期內(nèi)對這兩種收集策略的問題和不足提出具有針對性的改進(jìn)措施,因此,筆者認(rèn)為應(yīng)該根據(jù)網(wǎng)絡(luò)信息資源自身的特點(diǎn),保存機(jī)構(gòu)所處的法律技術(shù)環(huán)境,保存機(jī)構(gòu)自身的經(jīng)費(fèi)、人員支持情況綜合采用兩種收集策略,而不是采用單一的收集策略。筆者認(rèn)為綜合的收集策略就是對兩種收集策略的有效改進(jìn),可以起到揚(yáng)長避短、取長補(bǔ)短的作用,如圖2所示。
比如,可以根據(jù)網(wǎng)絡(luò)信息資源變化更新的不同頻率采用不同的收集策略。上文已有提到,全面性收集策略由于收集的頻率較低,容易遺漏在兩次收集的間隔中更新的信息,而選擇性收集策略因?yàn)槭占l率要高很多,因此遺漏的信息會(huì)比較少。既然兩種收集策略各有利弊,我們就應(yīng)該將兩種收集策略結(jié)合起來使用。有一些網(wǎng)站更新變化的頻率很低,比如個(gè)人網(wǎng)站,基層政府網(wǎng)站等中小型網(wǎng)站,這些網(wǎng)站可能好幾個(gè)月甚至一年都沒有多少內(nèi)容的更新。顯然,針對這類網(wǎng)站,頻繁地對其進(jìn)行抓取只會(huì)造成人力物力資源的浪費(fèi),采用全面性收集策略中網(wǎng)絡(luò)爬蟲收集的方法就足夠了。而有一些大型網(wǎng)站更新變化的頻率則很高,比如新華網(wǎng)、人民網(wǎng)等網(wǎng)絡(luò)報(bào)紙,騰訊新聞、新浪新聞、百度新聞等新聞網(wǎng)頁,省級(jí)以上政府的門戶網(wǎng)站等等,這些網(wǎng)站的更新頻率大都為每天更新或幾天更新一次。針對這些網(wǎng)站則更適合采用選擇性收集策略,用較高頻率的收集來保證不遺漏一些更新的重要信息。
另外,如果有呈繳法的支持,則以網(wǎng)絡(luò)信息生產(chǎn)者呈繳為主,輔之以其他方法;如果著作權(quán)法沒有賦予保存機(jī)構(gòu)對網(wǎng)絡(luò)信息資源保存的權(quán)力,則需要在選擇的基礎(chǔ)上和出版者協(xié)商;如果某些深層網(wǎng)絡(luò)信息資源不能被自動(dòng)收集,就需要出版者將信息發(fā)送到保存機(jī)構(gòu);如果收集的信息質(zhì)量低劣,則需要適當(dāng)對其質(zhì)量進(jìn)行控制。對于重要網(wǎng)站用選擇性收集策略,對于一般網(wǎng)站用全面性收集策略。芬蘭同時(shí)采用推送和拉取兩種模式,對于公開的資源采取拉取模式,對于非公開的采用呈繳模式。澳大利亞國家圖書館的Web Archive項(xiàng)目采用選擇性收集策略,但也委托互聯(lián)網(wǎng)檔案館(Internet Archive)全面收集澳大利亞國內(nèi)的網(wǎng)絡(luò)信息。