Web Archive 工作收集策略中存在的問題及改進(jìn)思考

2020-05-20 15:07崔鵬王曦波

檔案天地 2020年5期

崔鵬王曦波

一、引言

在互聯(lián)網(wǎng)上，每天都有無數(shù)新的信息的出現(xiàn)，同時(shí)也有無數(shù)舊的信息在消失。網(wǎng)絡(luò)信息雖然增長速度飛快，其消失的速度也超出人們的想象。一些相關(guān)機(jī)構(gòu)和學(xué)者的估計(jì)也能在某個(gè)程度上說明這個(gè)問題：據(jù)互聯(lián)網(wǎng)檔案館（Internet Archive）估計(jì)，網(wǎng)頁的平均壽命只有100天;亞馬遜公司旗下的Alexa網(wǎng)站曾經(jīng)估計(jì)，網(wǎng)頁的平均壽命為75天;美國的NDIIPP項(xiàng)目人員則估計(jì)，網(wǎng)絡(luò)信息的平均壽命只有44天。一些關(guān)于時(shí)事新聞的信息，其消失的速度更加驚人。表1是2018年1月中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《第41次中國互聯(lián)網(wǎng)統(tǒng)計(jì)報(bào)告》中對于我國網(wǎng)頁更新情況的統(tǒng)計(jì)，從該表可以看出，超過3成的網(wǎng)頁更新周期在三個(gè)月以內(nèi)。

Web作為全球最大的信息資源庫，其包含的信息對于對文化遺產(chǎn)保存、學(xué)術(shù)研究、社會(huì)經(jīng)濟(jì)的發(fā)展都具有十分重要的意義，但由于Web 信息的產(chǎn)生是自發(fā)的，而其消失又十分迅速，使網(wǎng)絡(luò)信息資源既珍貴又脆弱。因此，對Web進(jìn)行保存具有十分重要的意義，但是在我國，不論是與傳統(tǒng)的信息資源保存相比，還是與國外的網(wǎng)絡(luò)信息資源保存相比，Web Archive都沒有引起足夠的重視。

1996年，美國一個(gè)非營利性組織啟動(dòng)了Internet Archive項(xiàng)目，澳大利亞圖書館啟動(dòng)PANDORA項(xiàng)目;1997年，美國國會(huì)圖書館啟動(dòng)Minerva項(xiàng)目，丹麥、挪威、芬蘭、冰島和瑞典五個(gè)北歐國家的國家圖書館聯(lián)合啟動(dòng)Nodic Web Archive項(xiàng)目;1999年，法國國家圖書館啟動(dòng)了BnF Web Archive項(xiàng)目，英國國家圖書館啟動(dòng)了UKWAC項(xiàng)目;日本、新加坡等國也在2005年以前啟動(dòng)了國家層面的Web Archive項(xiàng)目。

我國最早的Web Archive項(xiàng)目是2002年由北京大學(xué)啟動(dòng)的Informall項(xiàng)目;國家圖書館于2003年初啟動(dòng)了網(wǎng)絡(luò)信息資源采集與保存試驗(yàn)項(xiàng)目（WICP），2009年國家圖書館互聯(lián)網(wǎng)信息資源保存保護(hù)中心成立。中國人民大學(xué)也在2011年成立了“互聯(lián)網(wǎng)數(shù)據(jù)信息海量存貯與智能服務(wù)中心”，其研究主要分為三個(gè)層面，第一個(gè)層面是互聯(lián)網(wǎng)海量信息的組織、存儲(chǔ)與管理技術(shù)，第二個(gè)層面是海量WEB數(shù)據(jù)的分析與挖掘，海量知識(shí)庫管理等，第三個(gè)層面是面向社會(huì)科學(xué)用戶的交互式分析決策平臺(tái)。

國內(nèi)對于Web Archive的研究，主要包括從宏觀上介紹整個(gè)Web Archive工作的概念，從微觀上介紹Web Archive工作的某一個(gè)環(huán)節(jié)，或者是介紹了國外的發(fā)展現(xiàn)狀。在收集策略方面，國內(nèi)的研究主要包括以下幾個(gè)方面。第一，認(rèn)為收集策略對于Web Archive工作具有基礎(chǔ)性的重要作用。第二，不同的收集策略有不同優(yōu)缺點(diǎn)。第三，收集策略必須要有科學(xué)的收集原則。

國外對于Web Archive的研究內(nèi)容相對豐富，在很多方面對我國具有重要的借鑒作用。澳大利亞學(xué)者Edgar Crook認(rèn)為，Web 2.0時(shí)代給Web Archive工作帶來了新的技術(shù)上的挑戰(zhàn)，圖書館必須學(xué)會(huì)適應(yīng)并對未來做好計(jì)劃，修改其收集的范圍，并與其他保存機(jī)構(gòu)進(jìn)行合作，以保證這項(xiàng)重要工作的可持續(xù)發(fā)展。芬蘭學(xué)者Juha Hakala主張對Web Archive工作收集的網(wǎng)絡(luò)信息進(jìn)行元數(shù)據(jù)標(biāo)引，建立索引，以提供給終端用戶使用。

Web Archive工作的責(zé)任體系、收集策略和資金支持三個(gè)方面是有機(jī)統(tǒng)一的，共同形成了Web Archive工作的運(yùn)作機(jī)制，如圖1所示。從圖中可以看出，國家圖書館、各級(jí)圖書館和各級(jí)檔案館承擔(dān)著網(wǎng)絡(luò)信息資源長期保存的責(zé)任，在Web Archive工作中處于中心地位，是Web Archive工作的主力軍。而長期保存的必要前提則是短期保存，短期保存的責(zé)任者主要包括網(wǎng)絡(luò)信息資源的生產(chǎn)者和出版者。輔助保存是長期保存的重要補(bǔ)充，其責(zé)任者包括商業(yè)公司、各組織機(jī)構(gòu)的網(wǎng)絡(luò)技術(shù)部門和其他機(jī)構(gòu)。而這些保存責(zé)任方都受到來自政府的統(tǒng)一規(guī)劃和指導(dǎo)，政府處于Web Archive工作的領(lǐng)導(dǎo)者的地位，一方面為Web Archive工作提供必不可少的經(jīng)費(fèi)支持，另一方面也為Web Archive工作提供法律規(guī)范、政策支持和對公眾的宣傳教育等等。

網(wǎng)絡(luò)信息資源的收集是Web Archive工作的第一步，也是十分重要的一步。在網(wǎng)絡(luò)信息資源的收集過程中，可以采用多種收集策略。收集策略的不同，會(huì)直接影響到Web Archive信息的質(zhì)量和價(jià)值，以及Web Archive工作的成本。按照不同的分類標(biāo)準(zhǔn)，收集策略的分類也不相同。按照信息的收集方式，網(wǎng)絡(luò)信息資源的收集模型可以分為推送模型和拉取模型。按照信息的收集范圍，網(wǎng)絡(luò)信息資源的收集策略可以分為全面性收集策略和選擇性收集策略。

二、Web Archive收集策略存在的問題

1.全面性收集策略存在的問題

（1）更新周期長，不能做到真正意義上的全面性收集

對于印刷型出版物來說，主要是那些連續(xù)出版物，比如期刊、報(bào)紙存在著連續(xù)收集的問題，由于連續(xù)出版物的更新周期比較固定，比如，期刊的更新周期可能是一個(gè)月、半個(gè)月等等，而報(bào)紙的更新周期一般是一天，因此收集周期就很容易確定。而網(wǎng)絡(luò)信息的收集周期則很難確定。理論上講，收集周期應(yīng)該同網(wǎng)絡(luò)信息的變化更新周期相一致，只要網(wǎng)絡(luò)信息進(jìn)行了更新，就應(yīng)該對該次更新進(jìn)行收集。但實(shí)際上，網(wǎng)絡(luò)信息的更新變化規(guī)律十分復(fù)雜，難以找尋，有的六個(gè)月甚至更久都不更新一次，有的一兩個(gè)月更新一次，更有的一星期甚至一天更新一次。對于全面性收集策略來說，由于收集的范圍寬，對象多，一次收集所需的時(shí)間長，因此收集的周期一般設(shè)置得比較長。

世界上主要的Web Archive項(xiàng)目都以年作為網(wǎng)絡(luò)信息資源的收集周期，每年對網(wǎng)絡(luò)信息資源進(jìn)行n次收集（n<=10）。比如，瑞典的網(wǎng)絡(luò)信息資源保存項(xiàng)目Kulturarw3將其收集的更新周期設(shè)置為每年2次。在這個(gè)收集頻率下，兩次收集的間隔時(shí)間平均為6個(gè)月，這6個(gè)月時(shí)間內(nèi)發(fā)生的信息更新和信息消失就無法收集到，而這6個(gè)月的信息更新和信息消失所產(chǎn)生的信息量是十分巨大的?？梢姡捎猛暾允占呗?，由于更新周期長，無法收集在兩個(gè)更新時(shí)間點(diǎn)之間的信息更新和信息消失，而產(chǎn)生大量的信息遺漏，實(shí)際上不能做到真正意義上的全面性收集。

（2）只能收集靜態(tài)信息資源，不能處理深層網(wǎng)絡(luò)資源

靜態(tài)信息資源主要是指靜態(tài)網(wǎng)頁。靜態(tài)網(wǎng)頁是一種淺層網(wǎng)絡(luò)資源，是純粹的HTML格式的網(wǎng)頁，它們是實(shí)實(shí)在在保存在服務(wù)器上的文件。靜態(tài)網(wǎng)頁的內(nèi)容不會(huì)因?yàn)闉g覽時(shí)間或?yàn)g覽者IP的變化而變化。也正是因?yàn)殪o態(tài)網(wǎng)頁的這些特點(diǎn)，使得靜態(tài)網(wǎng)頁很容易被搜索引擎發(fā)現(xiàn)，從而大大提高了被Web Archive工作收集到的可能性。

盡管完整性收集工作能對靜態(tài)信息資源進(jìn)行有效的收集，但是由于技術(shù)上的原因，對于深層網(wǎng)絡(luò)信息資源（數(shù)據(jù)庫資源）的收集卻顯得力不從心，而更為遺憾的是，相對于靜態(tài)信息資源來說，這些無法收集到的深層網(wǎng)絡(luò)信息資源數(shù)量更大、質(zhì)量更高、增長速度更快、重復(fù)率也更低。調(diào)查表明：深層網(wǎng)絡(luò)信息資源的規(guī)模是淺層網(wǎng)絡(luò)信息資源的500倍以上，而其質(zhì)量是淺層網(wǎng)絡(luò)信息資源質(zhì)量的大約3倍。另外，深層網(wǎng)絡(luò)信息資源的增長速度也明顯高于淺層網(wǎng)絡(luò)信息資源的增長速度。而就重復(fù)率而言，淺層網(wǎng)絡(luò)中有很多鏡像站點(diǎn)，提供的信息本來就不是一手的信息，另外很多網(wǎng)絡(luò)信息被大量復(fù)制粘貼（如百度知道中有很多回答都是從別處復(fù)制粘貼過來的），造成重復(fù)率不斷提高，而深層網(wǎng)絡(luò)信息資源的重復(fù)現(xiàn)象則要少得多。

綜上所述，完整性收集策略雖然能對淺層網(wǎng)絡(luò)信息資源進(jìn)行有效的收集，但是由于技術(shù)上的障礙，對于數(shù)量更大、質(zhì)量更高、增長速度更快、重復(fù)率更低的深層網(wǎng)絡(luò)信息資源無能為力。

（3）不能對收集的信息進(jìn)行有效的質(zhì)量控制

全面性收集是對一個(gè)廣泛的范圍內(nèi)的站點(diǎn)（如以國家為范圍）的信息進(jìn)行收集，這個(gè)范圍十分巨大。而我們都知道，網(wǎng)絡(luò)上存在的信息污染大，噪音多，質(zhì)量千差萬別，參差不齊，有很多重復(fù)信息、虛假信息和垃圾信息，加上在收集過程中，收集的范圍寬，收集的對象眾多，較少地采取了人工干預(yù)，大多數(shù)是利用網(wǎng)絡(luò)爬蟲對網(wǎng)絡(luò)信息資源進(jìn)行自動(dòng)收集，很容易造成收集質(zhì)量的低劣。具體表現(xiàn)在，一方面，由于缺少了人工的干預(yù)，沒有人對這些信息進(jìn)行人為的信息主題的選擇、重復(fù)信息的排除、虛假信息的鑒定、垃圾信息的識(shí)別等等，從而導(dǎo)致產(chǎn)生許多無關(guān)信息、重復(fù)信息、虛假信息和垃圾信息。另一方面，缺少了人工的干預(yù)，任由網(wǎng)絡(luò)爬蟲獨(dú)自工作，使得許多的收集失敗得不到及時(shí)發(fā)現(xiàn)，許多的收集錯(cuò)誤得不到及時(shí)糾正，從而導(dǎo)致一些信息的遺漏，甚至有可能造成重要信息的缺失。

2.選擇性收集策略存在的問題

（1）各個(gè)網(wǎng)絡(luò)信息資源之間的割裂性強(qiáng)

我們現(xiàn)在網(wǎng)絡(luò)中各個(gè)站點(diǎn)、各個(gè)地域的網(wǎng)絡(luò)信息資源相互之間存在著千絲萬縷的聯(lián)系，通過錯(cuò)綜復(fù)雜、無處不在的各種鏈接形成了一個(gè)整體。我們把與某一個(gè)站點(diǎn)相鏈接的所有網(wǎng)頁形成的整體叫做“語境”。而通過選擇性收集策略，把某些我們認(rèn)為有價(jià)值的站點(diǎn)或主題的網(wǎng)絡(luò)信息資源從這個(gè)完整的、相互聯(lián)系的整體中抽離出來的時(shí)候，與這些信息資源鏈接的其他信息資源如果不符合收集的標(biāo)準(zhǔn)就會(huì)被舍棄掉，從而不可避免地割裂了這些網(wǎng)絡(luò)信息資源之間原本存在的聯(lián)系，使抽離出來的網(wǎng)絡(luò)信息資源失去了原來的“語境”。而這種割裂性會(huì)給未來研究人員的研究帶來很大的隱患，因?yàn)楸桓盍蚜说木W(wǎng)絡(luò)信息資源無法反映出當(dāng)時(shí)整個(gè)網(wǎng)絡(luò)信息資源的全貌，同時(shí)也有可能使未來的研究人員斷章取義，在對某些信息理解不全而需要與之相鏈接的信息作為輔助理解的時(shí)候卻找不到這些原來的鏈接了。

（2）選擇標(biāo)準(zhǔn)主觀性強(qiáng)

選擇性收集策略是根據(jù)網(wǎng)絡(luò)信息資源的價(jià)值的不同來判斷是否應(yīng)該對某個(gè)或某些站點(diǎn)的網(wǎng)絡(luò)信息資源進(jìn)行保存。而這些選擇的標(biāo)準(zhǔn)具有很強(qiáng)的主觀性，全憑收集人員（如圖書館員、檔案工作人員）根據(jù)自身的知識(shí)結(jié)構(gòu)和個(gè)人意愿來進(jìn)行判斷。一方面，用現(xiàn)在的標(biāo)準(zhǔn)來判斷某一些信息在未來是否具有價(jià)值是一個(gè)很困難的工作，因?yàn)槟承┬畔⒁苍S現(xiàn)在具有價(jià)值，但是在若干年后的將來也許一文不值，這樣就會(huì)造成資源的浪費(fèi);而更壞的情況是，某些信息現(xiàn)在可能一文不值，卻有可能在若干年后的將來有很重要的意義，這就不可避免地會(huì)導(dǎo)致一些重要信息的遺漏。另一方面，收集人員的知識(shí)結(jié)構(gòu)的不同，個(gè)人意愿的不同都會(huì)在很大程度上影響選擇標(biāo)準(zhǔn)的形成，有可能造成選擇標(biāo)準(zhǔn)的混亂，甚至遭受后人的非議。就像勞埃德·索克文納（Lloyd Sokvitne）曾經(jīng)總結(jié)的那樣：“我們不知道未來的人們需要哪些信息，我們現(xiàn)在的判斷標(biāo)準(zhǔn)也不一定科學(xué)，盡管我們已經(jīng)很盡力，但我們?nèi)耘f會(huì)失去許多有價(jià)值的信息”。

（3）人力、財(cái)力成本高

全面性收集策略雖然收集的范圍廣，但是因?yàn)榻^大部分工作都交給了網(wǎng)絡(luò)爬蟲，所以人工成本很低，節(jié)省了大量的費(fèi)用。而選擇性收集策略則不然，從選擇標(biāo)準(zhǔn)的確定，到收集站點(diǎn)的選擇，到網(wǎng)絡(luò)信息的編目，再到網(wǎng)絡(luò)信息的質(zhì)量審核，都需要人力的介入。特別是在網(wǎng)絡(luò)信息的編目和質(zhì)量審核階段，面對的對象是數(shù)量巨大的網(wǎng)絡(luò)信息資源，需要巨大的人力成本。而且，由于Web Archive工作對于人員的專業(yè)素質(zhì)要求較高，需要對Web Archive工作的工作人員進(jìn)行一定的培訓(xùn)，這也需要一筆不小的費(fèi)用。如，澳大利亞國家圖書館的網(wǎng)絡(luò)信息保存的單位成本多達(dá)178. 68澳元，其中94%為人力成本。

三、Web Archive收集策略的改進(jìn)思考及其選擇

1.根據(jù)不同的需要制定不同的收集級(jí)別

上文中指出，全面性收集策略容易遺漏一些重要的網(wǎng)頁更新，而選擇性收集策略又會(huì)割裂收集到的信息與其他信息之間的聯(lián)系，使其喪失“語境”。針對這種狀況，有必要根據(jù)不同的需要，制定不同的收集級(jí)別。

在這個(gè)方面，國外已經(jīng)有數(shù)個(gè)網(wǎng)絡(luò)信息保存項(xiàng)目做出了有益的嘗試。比如，澳大利亞馬尼亞州立圖書館實(shí)施的網(wǎng)絡(luò)信息資源保存項(xiàng)目——“我們的數(shù)字島嶼”制定了比較詳細(xì)的選擇策略，該項(xiàng)目規(guī)定了四個(gè)級(jí)別，即完全級(jí)、選擇級(jí)、代表性收集、快照。完全級(jí)對收集深度最深，不僅包括網(wǎng)站內(nèi)部所有網(wǎng)頁，還包括與之相鏈接的其他一級(jí)、二級(jí)、三級(jí)網(wǎng)頁。這種收集級(jí)別有效地保證了收集的信息同與其相鏈接的信息的聯(lián)系，為其保存了一個(gè)相對完整的“語境”。選擇級(jí)對選定網(wǎng)站的關(guān)鍵更新進(jìn)行收集，收集深度包括所有的內(nèi)部網(wǎng)頁和重要的外部一級(jí)網(wǎng)頁和二級(jí)網(wǎng)頁。這種收集級(jí)別既保證了不遺漏更新的網(wǎng)頁，也照顧到了“語境”的完整性，是二者之間的一個(gè)折中選擇。代表性收集對選定網(wǎng)站進(jìn)行不定期的收集，或者對網(wǎng)站內(nèi)的網(wǎng)頁進(jìn)行收集，收集深度為網(wǎng)站內(nèi)的重要網(wǎng)頁和外部網(wǎng)頁。這種收集級(jí)別在收集頻率和保持“語境”完整性上都降低了標(biāo)準(zhǔn)?？煺罩皇占W(wǎng)站的某些網(wǎng)頁，足夠提供該網(wǎng)站的示例即可，是最低級(jí)別的收集。這四種收集級(jí)別靈活多變，可以在實(shí)際操作中根據(jù)需要適時(shí)調(diào)整。

制定了收集級(jí)別的Web Archive項(xiàng)目還有不少，如加拿大國家圖書館的Web Archive項(xiàng)目、伯克利數(shù)字圖書館的Web Archive項(xiàng)目等等。這些項(xiàng)目的收集級(jí)別的制定對于我國的Web Archive工作是很好的借鑒。

2.為選擇性收集策略制定選擇標(biāo)準(zhǔn)

結(jié)合眾多項(xiàng)目的選擇標(biāo)準(zhǔn)，筆者認(rèn)為對于網(wǎng)絡(luò)信息資源保存系統(tǒng)來說，制定收集標(biāo)準(zhǔn)時(shí)，應(yīng)該主要考慮以下幾個(gè)方面：

第一，網(wǎng)絡(luò)信息內(nèi)容方面的價(jià)值。網(wǎng)絡(luò)信息資源的價(jià)值很大程度上體現(xiàn)在內(nèi)容上，主要是從網(wǎng)絡(luò)信息資源的原創(chuàng)性、權(quán)威性、可靠性幾個(gè)方面進(jìn)行考慮。

第二，網(wǎng)絡(luò)信息媒體方面的價(jià)值。網(wǎng)絡(luò)作為一種新的交流信息、傳遞信息的媒體，具有某種意義的文獻(xiàn)價(jià)值。因此除了考慮內(nèi)容方面的價(jià)值，還要考查某網(wǎng)絡(luò)信息是否具備反映網(wǎng)絡(luò)這一新型媒體的特征。對網(wǎng)絡(luò)媒體發(fā)展中具有里程碑性質(zhì)的網(wǎng)站應(yīng)進(jìn)行保存，比如說第一個(gè)博客，第一個(gè)進(jìn)行電子商務(wù)的網(wǎng)站，第一個(gè)微博，等等，主要將網(wǎng)絡(luò)作為一種媒體的價(jià)值進(jìn)行記錄和保存。

第三，網(wǎng)絡(luò)信息憑證方面的價(jià)值。很多網(wǎng)絡(luò)信息資源，特別是一些政府網(wǎng)站，還有一些機(jī)構(gòu)網(wǎng)站內(nèi)部網(wǎng)的資源，是機(jī)構(gòu)行為的一種記錄，具備檔案的特點(diǎn)，可備查考之用。因此在制定選擇標(biāo)準(zhǔn)時(shí)還要充分考慮哪些網(wǎng)絡(luò)信息資源具備這種特質(zhì)。

第四，保存機(jī)構(gòu)自身的特性。對站點(diǎn)進(jìn)行選擇時(shí)，還要充分考慮保存機(jī)構(gòu)的屬性。比如說國家級(jí)的機(jī)構(gòu)在制定標(biāo)準(zhǔn)時(shí)就應(yīng)該側(cè)重具備國家重要意義的網(wǎng)絡(luò)信息資源，而地方機(jī)構(gòu)（如地方圖書館）則應(yīng)該側(cè)重反映本地文化、經(jīng)濟(jì)等方面的網(wǎng)絡(luò)信息資源的收集。再比如，檔案機(jī)構(gòu)就應(yīng)該側(cè)重網(wǎng)絡(luò)信息的記錄檔案價(jià)值。

3.采用綜合的策略

由于全面性收集策略和選擇性收集策略都有其固有的問題和不足，不能很好地適應(yīng)各種條件下的網(wǎng)絡(luò)信息資源的收集，而我們也很難在短期內(nèi)對這兩種收集策略的問題和不足提出具有針對性的改進(jìn)措施，因此，筆者認(rèn)為應(yīng)該根據(jù)網(wǎng)絡(luò)信息資源自身的特點(diǎn)，保存機(jī)構(gòu)所處的法律技術(shù)環(huán)境，保存機(jī)構(gòu)自身的經(jīng)費(fèi)、人員支持情況綜合采用兩種收集策略，而不是采用單一的收集策略。筆者認(rèn)為綜合的收集策略就是對兩種收集策略的有效改進(jìn)，可以起到揚(yáng)長避短、取長補(bǔ)短的作用，如圖2所示。

比如，可以根據(jù)網(wǎng)絡(luò)信息資源變化更新的不同頻率采用不同的收集策略。上文已有提到，全面性收集策略由于收集的頻率較低，容易遺漏在兩次收集的間隔中更新的信息，而選擇性收集策略因?yàn)槭占l率要高很多，因此遺漏的信息會(huì)比較少。既然兩種收集策略各有利弊，我們就應(yīng)該將兩種收集策略結(jié)合起來使用。有一些網(wǎng)站更新變化的頻率很低，比如個(gè)人網(wǎng)站，基層政府網(wǎng)站等中小型網(wǎng)站，這些網(wǎng)站可能好幾個(gè)月甚至一年都沒有多少內(nèi)容的更新。顯然，針對這類網(wǎng)站，頻繁地對其進(jìn)行抓取只會(huì)造成人力物力資源的浪費(fèi)，采用全面性收集策略中網(wǎng)絡(luò)爬蟲收集的方法就足夠了。而有一些大型網(wǎng)站更新變化的頻率則很高，比如新華網(wǎng)、人民網(wǎng)等網(wǎng)絡(luò)報(bào)紙，騰訊新聞、新浪新聞、百度新聞等新聞網(wǎng)頁，省級(jí)以上政府的門戶網(wǎng)站等等，這些網(wǎng)站的更新頻率大都為每天更新或幾天更新一次。針對這些網(wǎng)站則更適合采用選擇性收集策略，用較高頻率的收集來保證不遺漏一些更新的重要信息。

另外，如果有呈繳法的支持，則以網(wǎng)絡(luò)信息生產(chǎn)者呈繳為主，輔之以其他方法;如果著作權(quán)法沒有賦予保存機(jī)構(gòu)對網(wǎng)絡(luò)信息資源保存的權(quán)力，則需要在選擇的基礎(chǔ)上和出版者協(xié)商;如果某些深層網(wǎng)絡(luò)信息資源不能被自動(dòng)收集，就需要出版者將信息發(fā)送到保存機(jī)構(gòu);如果收集的信息質(zhì)量低劣，則需要適當(dāng)對其質(zhì)量進(jìn)行控制。對于重要網(wǎng)站用選擇性收集策略，對于一般網(wǎng)站用全面性收集策略。芬蘭同時(shí)采用推送和拉取兩種模式，對于公開的資源采取拉取模式，對于非公開的采用呈繳模式。澳大利亞國家圖書館的Web Archive項(xiàng)目采用選擇性收集策略，但也委托互聯(lián)網(wǎng)檔案館（Internet Archive）全面收集澳大利亞國內(nèi)的網(wǎng)絡(luò)信息。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Web Archive 工作收集策略中存在的問題及改進(jìn)思考