国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

澳大利亞國(guó)家圖書館網(wǎng)頁(yè)存檔項(xiàng)目研究

2015-07-22 05:58:52顏運(yùn)梅廣州圖書館廣東廣州510623
圖書館 2015年6期
關(guān)鍵詞:出版物網(wǎng)頁(yè)選擇性

顏運(yùn)梅(廣州圖書館 廣東廣州 510623)

澳大利亞國(guó)家圖書館網(wǎng)頁(yè)存檔項(xiàng)目研究

顏運(yùn)梅
(廣州圖書館廣東廣州510623)

〔摘要〕澳大利亞國(guó)家圖書館網(wǎng)頁(yè)存檔項(xiàng)目簡(jiǎn)稱PANDORA,是選擇性網(wǎng)頁(yè)存檔的代表項(xiàng)目之一。文章介紹了PANDORA項(xiàng)目的整體情況,論述了選擇性存檔和全域收割這兩種不同采集方法的優(yōu)劣,指出PANDORA項(xiàng)目的持續(xù)發(fā)展在具體實(shí)施上面臨的問題,包括電子出版物的版權(quán)、資金支持以及如何跟上網(wǎng)絡(luò)技術(shù)發(fā)展等。

〔關(guān)鍵詞〕NLA網(wǎng)頁(yè)存檔選擇性采集全域收割PANDORAPANDAS G250.73

1 網(wǎng)頁(yè)存檔的意義

網(wǎng)絡(luò)資源具有更新快、易逝性、價(jià)值性的特點(diǎn),留存網(wǎng)頁(yè)信息的目的在于更好地保存關(guān)于重大事件的記錄以及時(shí)代文化與思想性作品。而現(xiàn)在的圖書館主要是為保存紙制印刷品而設(shè)置的,電子出版物和其他非印刷產(chǎn)品很容易被遺漏。網(wǎng)絡(luò)信息和在線出版網(wǎng)作為圖書館物理館藏的有效補(bǔ)充,已經(jīng)引起諸多圖書館的重視。

2 現(xiàn)狀

網(wǎng)頁(yè)存檔從20世紀(jì)90年代中期開始發(fā)端,歐美一些經(jīng)濟(jì)較為發(fā)達(dá)的國(guó)家已紛紛建立起網(wǎng)頁(yè)存檔項(xiàng)目。至2003年,一共有12個(gè)國(guó)家圖書館聯(lián)合建立了國(guó)家互聯(lián)網(wǎng)保護(hù)同盟,共同商討保護(hù)互聯(lián)網(wǎng)信息資源實(shí)踐中的國(guó)際合作問題。至20世紀(jì)初期,已有近20個(gè)國(guó)家都建立了自己的網(wǎng)頁(yè)存檔項(xiàng)目。

近些年,網(wǎng)絡(luò)信息資源又重新引起了一些國(guó)家圖書館的重視。大英圖書館曾在2005年啟動(dòng)UKWAC網(wǎng)頁(yè)存檔項(xiàng)目,2013年4月9日又宣布啟動(dòng)一項(xiàng)存檔計(jì)劃——以大英圖書館為首的六所圖書館對(duì)網(wǎng)頁(yè)上的海量電子信息進(jìn)行存檔,逾五百萬個(gè)英國(guó)網(wǎng)站上超過十億網(wǎng)頁(yè)的內(nèi)容,以及Twitter上的推文和Facebook條目都被納入存檔范圍,涵蓋電子書、報(bào)紙的IPad版本以及其他電子格式的出版品,甚至包括網(wǎng)頁(yè)上內(nèi)嵌的視頻與音頻材料,但暫不包括YouTube和Spotify等視頻和音頻網(wǎng)站上的內(nèi)容,“計(jì)劃十年內(nèi)存諸一千萬億字節(jié)的內(nèi)容,所有這些信息都將免費(fèi)提供給公眾使用?!盵1]

美國(guó)國(guó)會(huì)圖書館在20世紀(jì)90年代中期曾建設(shè)MINERVA專題性存檔項(xiàng)目,2013年初,宣布已完成對(duì)Twitter現(xiàn)有全部推文的收集,并已開始對(duì)多達(dá)1700億條以上的推文進(jìn)行存檔和整理。國(guó)會(huì)圖書館將Twitter推文稱為一種重要的新型館藏資料,“對(duì)信件、日記、期刊以及其他館藏資源形成了補(bǔ)充,有時(shí)甚至可以替代后者?!盵2]

國(guó)內(nèi)對(duì)網(wǎng)頁(yè)存檔項(xiàng)目的研究發(fā)端于2009年,之后陸續(xù)有相關(guān)文章發(fā)表。但對(duì)澳大利亞國(guó)家圖書館(下文稱NLA)的網(wǎng)頁(yè)存檔項(xiàng)目——PANDORA項(xiàng)目暫未有相關(guān)學(xué)術(shù)文章發(fā)表。PANDORA項(xiàng)目是選擇性存檔網(wǎng)頁(yè)的代表項(xiàng)目,NLA作為最早參與IIPC項(xiàng)目的機(jī)構(gòu)之一,其技術(shù)、經(jīng)驗(yàn)都有可供借鑒之處。

3 項(xiàng)目概述

3.1概況

PANDORA(Preserving and Accessing Networked Documentary Resources of Australia),即保存和訪問澳大利亞的網(wǎng)絡(luò)文獻(xiàn)資源。PANDORA項(xiàng)目始于1996年,NLA是首批建立網(wǎng)頁(yè)存檔項(xiàng)目的國(guó)家圖書館之一。2006年12月,為了更加緊密地將國(guó)家圖書館網(wǎng)頁(yè)存檔計(jì)劃和數(shù)字化保存活動(dòng)結(jié)合起來,在NLA的館藏管理部?jī)?nèi)部成立了一個(gè)新的分部門——網(wǎng)頁(yè)存檔和數(shù)字化保存部門,其戰(zhàn)略目標(biāo)就在于更好地結(jié)合網(wǎng)頁(yè)資源描述和搜集功能,并在存檔數(shù)據(jù)中發(fā)展和應(yīng)用數(shù)字化保存管理。

NLA開發(fā)出一套PANDORA數(shù)字化存檔系統(tǒng)Digital Archiving System(簡(jiǎn)稱為PANDAS),這個(gè)基于網(wǎng)絡(luò)的應(yīng)用系統(tǒng)允許各參與館的負(fù)責(zé)人通過由NLA負(fù)責(zé)維護(hù)的一些設(shè)施開展網(wǎng)頁(yè)資源的存檔工作。存檔文件元數(shù)據(jù)的管理、創(chuàng)建并保存在PANDAS,包括詳細(xì)的出版者信息、允許存檔的日期、收割的頻率、存檔的元數(shù)據(jù)等都被自動(dòng)收集到PANDAS。PANDAS最初是作為一項(xiàng)研究成果于2001年6月份投入應(yīng)用,2002年發(fā)布了第二代增強(qiáng)版本,2007年6月推出了經(jīng)過重新設(shè)計(jì)和功能加強(qiáng)的第三代系統(tǒng)。目前,NLA計(jì)劃增強(qiáng)PANDAS軟件的功能,包括增加存檔的元數(shù)據(jù),收集并提供一個(gè)用戶界面,使管理人員能夠更輕松地訪問元數(shù)據(jù)的范圍。[3]

3.2合作共建

NLA始終堅(jiān)持在PANDORA存檔建設(shè)中采取合作共建的方法,并積極促成澳大利亞國(guó)立圖書館、各州圖書館以及其他文化機(jī)構(gòu)的參與,包括如何選擇、存檔和分類存檔等。合作的圖書館包括:澳大利亞各州立圖書館、北方圖書館、國(guó)家聲像檔案館、澳大利亞戰(zhàn)爭(zhēng)紀(jì)念館、澳大利亞國(guó)家美術(shù)館,以及澳大利亞原住民及托雷斯海峽居民研究所。[4]

PANDORA采集目標(biāo)不是澳大利亞所有的在線出版物和網(wǎng)站,而是保存那些被認(rèn)為有長(zhǎng)期研究?jī)r(jià)值的網(wǎng)上出版物和網(wǎng)站。國(guó)家圖書館旨在存檔那些具有國(guó)家意義的內(nèi)容;州立圖書館負(fù)責(zé)存檔有關(guān)州或者區(qū)域性的資源;國(guó)家聲像檔案館負(fù)責(zé)網(wǎng)站相關(guān)的音樂和電影;戰(zhàn)爭(zhēng)紀(jì)念館存檔有關(guān)澳大利亞軍事歷史的相關(guān)網(wǎng)站;原住民及托雷斯海峽居民研究所負(fù)責(zé)存檔原住民的出版物和網(wǎng)站。

3.3捕獲頻率

捕獲網(wǎng)站的頻率取決于網(wǎng)站和出版物的性質(zhì),特別是出版物的出版計(jì)劃、內(nèi)容的價(jià)值、網(wǎng)站的生命周期和穩(wěn)定性。電子專著出版物只需要拍攝一次;某些重要的事件必須每天存檔,如悉尼奧運(yùn)會(huì)。PANDAS基本上會(huì)根據(jù)存檔的實(shí)際情況決定,對(duì)特定目標(biāo)內(nèi)容的收割每天不會(huì)超過一次。

3.4動(dòng)態(tài)站點(diǎn)、深層網(wǎng)頁(yè)采集

澳大利亞采集在線出版物的主要方法是通過收割軟件收集副本并將它們添加到存檔文件。若要訪問目標(biāo)站點(diǎn),收割軟件需要能夠?qū)Ш降腍TML鏈接。深層網(wǎng)頁(yè)是對(duì)應(yīng)表層網(wǎng)頁(yè)的概念,指的是那些通過搜索引擎及采集程序無法訪問的頁(yè)面,一般由后臺(tái)數(shù)據(jù)庫(kù)動(dòng)態(tài)生成。越來越多的出版物和網(wǎng)站結(jié)構(gòu)數(shù)據(jù)庫(kù)有其他互動(dòng)或動(dòng)態(tài)內(nèi)容,收割軟件不能處理,通常站點(diǎn)需要在搜索文本框輸入條款,或從下拉框選項(xiàng)中選擇。

PANDORA是否收割網(wǎng)站所有層次的網(wǎng)頁(yè),這取決于網(wǎng)站的性質(zhì),但通常會(huì)收割整個(gè)網(wǎng)站。大型網(wǎng)站僅選擇某個(gè)特定的倡議或程序有關(guān)的信息站點(diǎn)的一部分,例如,政府部門的網(wǎng)站;大型綜合性的網(wǎng)站只選取其中某種出版物,例如,電子出版物、通訊、科學(xué)或技術(shù)報(bào)告。一般只存檔屬于該網(wǎng)站本身目錄的鏈接,不存檔引向其他站點(diǎn)的鏈接,主要是因?yàn)闆]有存檔其他站點(diǎn)的權(quán)限。

受開放內(nèi)容運(yùn)動(dòng)的影響,網(wǎng)頁(yè)存檔的軟件工具都是開源的,經(jīng)過一定的開發(fā)整合就可以很好的嵌入到項(xiàng)目中。在國(guó)家互聯(lián)網(wǎng)保護(hù)同盟的合作框架下,成員開發(fā)出來的技術(shù)工具是可以共享的,所以在軟件技術(shù)方面是趨于成熟和穩(wěn)定的,并已走出實(shí)驗(yàn)性的階段。NLA開發(fā)了Xinq工具,可將出版商提供的數(shù)據(jù)存放到一個(gè)通用的接口上。Xinq已通過Source Forge(開源軟件分享網(wǎng)站)成為可分享的開放源碼[5]。

3.5電子出版物的呈繳

在網(wǎng)絡(luò)存檔的實(shí)踐早期,法律問題是關(guān)注的焦點(diǎn),國(guó)家級(jí)的圖書館作為主辦方和版權(quán)所有者都需要法律的保障。在法律條文沒有明確規(guī)定在線資源呈繳的情況下,一般多采取與版權(quán)所有者協(xié)商的做法,取得授權(quán)后才能采集。

澳大利亞呈繳法依舊遵循《呈繳本制度》和《1968年版權(quán)法》,法案中還沒有規(guī)定電子出版物的呈繳。對(duì)于電子出版物(網(wǎng)絡(luò)出版物),NLA必須經(jīng)過出版社許可,使用收割軟件在出版商的網(wǎng)站上下載或者拷貝出版物。在某些情況下,出版商只需將出版物的標(biāo)題通過郵件發(fā)給圖書館,如果是很大型或者特別復(fù)雜的出版物的網(wǎng)站,則將要求出版商將磁盤寄送給圖書館。

澳大利亞PANDORA計(jì)劃中對(duì)網(wǎng)絡(luò)出版物的自愿呈繳范圍進(jìn)行了限定,以下網(wǎng)絡(luò)信息都沒有納入繳送范圍:聊天室、公告板、新聞組、游戲、個(gè)人文章、有印刷版的在線日?qǐng)?bào)、在線圖書、在線期刊、以組織因特網(wǎng)信息為唯一目的的門戶網(wǎng)站、推銷和廣告網(wǎng)站、對(duì)其他來源信息進(jìn)行編輯不具有原創(chuàng)性內(nèi)容的站點(diǎn)等。

3.6存檔資源范圍

PANDORA選擇的內(nèi)容很大一部分是關(guān)于澳大利亞或是社會(huì)、政治、文化、宗教、科學(xué)、經(jīng)濟(jì)等關(guān)聯(lián)到澳大利亞及澳大利亞作家寫的,構(gòu)成了對(duì)國(guó)際知識(shí)的貢獻(xiàn)。它的服務(wù)器可能位于澳大利亞或者海外,資源的內(nèi)容是存檔首要的選擇因素。PANDORA存檔項(xiàng)目包含廣泛的出版物和網(wǎng)站,優(yōu)先收集政府刊物及學(xué)術(shù)電子期刊,此外還有許多其他類型的網(wǎng)站。

3.7商業(yè)出版物的訪問

PANDORA存檔的大部分資源都可以公開訪問,但具有一定保密性的商業(yè)出版物必須與出版商協(xié)商,以確定適當(dāng)?shù)南拗破谙?,通常在允許訪問的期限內(nèi),該項(xiàng)目在商業(yè)上是可以公開的。存檔時(shí),PANDAS可以設(shè)置存檔文件的訪問權(quán)限,可以限制在一段時(shí)間內(nèi)訪問,比如從存檔日期計(jì)一年內(nèi);或者設(shè)置一組到期日期,到期后則不能再訪問;還可以控制訪問密碼,必須收到密碼后方可訪問。在NLA或其他參與者的電子閱覽室里可以訪問這些資源,可以打印副本,但是禁止復(fù)制和發(fā)送電子郵件。

3.8持久標(biāo)識(shí)符

NLA致力于提供PANDORA項(xiàng)目存檔和其他數(shù)字集合的長(zhǎng)期訪問。因此,在電子出版物和 Web 站點(diǎn)存檔時(shí),PANDAS會(huì)自動(dòng)為其分配唯一的持久標(biāo)識(shí)符,并且標(biāo)識(shí)符被記錄在該標(biāo)題條目頁(yè)面的底部,方便用戶的引用。[6]

持久標(biāo)識(shí)符指對(duì)數(shù)字對(duì)象(例如文章、數(shù)據(jù)集、圖像或數(shù)據(jù)流)進(jìn)行持續(xù)標(biāo)識(shí),可以使這些數(shù)字資源的定位和范圍具有唯一性,把它們與相關(guān)的作者及其它實(shí)體(如機(jī)構(gòu)、項(xiàng)目或研究團(tuán)體)相關(guān)聯(lián),使其得到持續(xù)、可靠的發(fā)現(xiàn)、引用和重用。

除了在標(biāo)題級(jí)別提供一個(gè)持久的標(biāo)識(shí)符,系統(tǒng)也可以給所有的組件部件創(chuàng)建一個(gè)持久標(biāo)識(shí)符,例如,為某一期的電子雜志上的一篇文章,或一個(gè)網(wǎng)站上的一張圖像、一個(gè)表。持久標(biāo)識(shí)符將始終指向它所標(biāo)識(shí)的資源,它可以被引用而且確保該鏈接永遠(yuǎn)不會(huì)斷開。唯一的持久標(biāo)識(shí)符不能在其他網(wǎng)頁(yè)存檔資源中提供,這是PANDORA項(xiàng)目的特色之一。

3.9資源發(fā)現(xiàn)途徑

NLA建立了PANDORA的專題網(wǎng)頁(yè),可以從項(xiàng)目的主頁(yè)上訪問到這些存檔文件??捎玫脑L問路徑有:PANDORA主頁(yè)上的存檔標(biāo)題的字母列表;PANDORA主頁(yè)上存檔標(biāo)題的主題列表,分為文化、藝術(shù)、科學(xué)等18個(gè)大類;國(guó)家書目數(shù)據(jù)庫(kù)和其他參與者的在線目錄的熱鏈接;商業(yè)搜索引擎(如Yahoo和Google等)可以搜索到存檔文獻(xiàn)的標(biāo)題。PANDORA在收割采集時(shí)已將存檔文獻(xiàn)編目、存檔資源作為國(guó)家圖書館的有效館藏資源的一部分,通過NLA的一站式搜索引擎(Trove)可以直接檢索,可輸入任意詞檢索。[7]

為了增加資源被發(fā)現(xiàn)的機(jī)會(huì),PANDORA還允許添加搜索框至用戶或者個(gè)人網(wǎng)頁(yè),幫助更多的訪問者訪問PANDORA資源。用戶只需要將搜索框的HTML代碼復(fù)制并粘貼到用戶的網(wǎng)站上即可將一個(gè)PANDORA的搜索框添加至用戶的網(wǎng)頁(yè),以增加PANDORA資源被發(fā)現(xiàn)途徑。

3.10存檔數(shù)據(jù)格式

PANDORA存檔格式包含多媒體、各種動(dòng)態(tài)格式以及文本文件,采集了許多在原來的網(wǎng)站上已經(jīng)無法獲取的多媒體、視頻資源。部分動(dòng)態(tài)生成的數(shù)據(jù)庫(kù)網(wǎng)站,在存檔中被存儲(chǔ)為靜態(tài)頁(yè)面,插件和其他軟件不在PANDORA存檔的范圍。截至2013年5月,PANDORA項(xiàng)目共采集了約56%的政府出版物,存檔總大小約8.52萬億字節(jié),2011-2012年存檔主頁(yè)的頁(yè)面瀏覽數(shù)約為680萬次。PANDORA存檔的網(wǎng)頁(yè)記錄和數(shù)據(jù)格式可以通過以下幾張圖來了解。

新存檔的文件,以時(shí)間為序在網(wǎng)頁(yè)上顯示,以月為單位統(tǒng)計(jì)存檔的文件數(shù)量。見圖1[8]:

圖1 PANDORA按時(shí)間順序列表的新存檔網(wǎng)頁(yè)記錄

圖2 存檔文件大小統(tǒng)計(jì)(統(tǒng)計(jì)于2014年9月26的數(shù)據(jù))

從圖2[9]中可以看出2014年9月份采集到文件數(shù)、實(shí)例數(shù)和數(shù)據(jù)大小,與8月份收集數(shù)據(jù)的比較情況。

圖3 存檔網(wǎng)頁(yè)集合的詳細(xì)目錄數(shù)據(jù)

從圖3[10]可以看出,存檔網(wǎng)頁(yè)集合的詳細(xì)目錄數(shù)據(jù)包括文件名、URI、存檔日期,點(diǎn)擊所抓取網(wǎng)頁(yè)對(duì)應(yīng)的URI即可直接進(jìn)入相關(guān)網(wǎng)頁(yè)。

在NLA的一鍵式搜索引擎Trove中選擇“Archived websites”項(xiàng),以“Parallel”為關(guān)鍵詞檢索,結(jié)果有528項(xiàng)與“Parallel”相關(guān)的存檔網(wǎng)頁(yè),同時(shí)顯示了網(wǎng)址鏈接和存檔日期,點(diǎn)擊“VIEW528”則相關(guān)網(wǎng)頁(yè)是以存檔時(shí)間為序呈現(xiàn)。見圖4[11]:

圖4 存檔網(wǎng)頁(yè)集合的搜索結(jié)果顯示

PANDORA重視網(wǎng)頁(yè)資源的利用,而不僅僅是保存。對(duì)資源使用情況,NLA做了詳細(xì)的記錄。見圖5[12]:

從圖5中可以看出,PANDORA網(wǎng)頁(yè)的使用報(bào)告衡量指標(biāo)包含網(wǎng)頁(yè)訪問人次、頁(yè)面訪問數(shù)、頁(yè)面點(diǎn)擊數(shù)、帶寬。從2014年1月至10月,PANDORA的使用率均保持在一個(gè)比較穩(wěn)定的數(shù)量,前10個(gè)月的訪問人數(shù)總和超過835萬,頁(yè)面瀏覽數(shù)超過7468萬,點(diǎn)擊率超過8854萬人次,帶寬1073.32GB。

圖5 PANDORA 的使用報(bào)告

4 網(wǎng)頁(yè)存檔項(xiàng)目的主要采集方法

目前,眾多的網(wǎng)頁(yè)存檔項(xiàng)目按采集方法可以分為三類:選擇性采集、全域收割、混合式采集[13]。選擇性采集是指在圈定采集對(duì)象后以一定頻率進(jìn)行持續(xù)性的采集。NLA的PANDORA項(xiàng)目和加拿大、日本國(guó)家圖書檔案館網(wǎng)頁(yè)存檔項(xiàng)目采用這種方法。全域收割是基于收割軟件自動(dòng)在一定范圍內(nèi)采集資源。瑞典、挪威、芬蘭、冰島和奧地利的國(guó)家圖書館采用此種方法?;旌鲜讲杉菍追N采集方法同時(shí)使用。如美國(guó)國(guó)會(huì)圖書館的MINERVA項(xiàng)目包含選擇性存檔和全域快照的收集方法;丹麥皇家圖書館采取多管齊下的方法,包含三種不同類型的采集方法:對(duì)域名為“.DK”的一年四次的全域收割;對(duì)約80%的網(wǎng)站高質(zhì)量的選擇性收割,和每年兩三個(gè)事件的專題性收割。[14]

5 選擇性采集方法的優(yōu)勢(shì)與不足

5.1優(yōu)勢(shì)

關(guān)注質(zhì)量:存檔文件中的每一項(xiàng)都必須先做質(zhì)量和功能的評(píng)估,并且在當(dāng)前技術(shù)水平允許的最大程度。

開放獲取:征得出版商或所有者的許可,以確保對(duì)出版物盡可能的免費(fèi)公共獲取。

自行定義采集頻率:考慮電子出版物的出版進(jìn)度或網(wǎng)頁(yè)站點(diǎn)更改的頻率,可以單獨(dú)針對(duì)每個(gè)選定的標(biāo)題安排收集日程,并使相關(guān)內(nèi)容聚集在一起,內(nèi)容盡可能全面。

充分編目:能充分編目存檔文件中的每一項(xiàng),使之可以成為國(guó)家書目的一部分,以保證存檔資源被充分利用。

分門別類:可以分析并確定個(gè)別資源的重要屬性和存檔資源的類型,以確保未來可實(shí)施長(zhǎng)久保存策略。

協(xié)議采集:對(duì)沒有獲取版權(quán)、無法訪問的網(wǎng)站,通過與出版商商議存檔,收割軟件可以重新識(shí)別或者使用其他方法采集。

5.2不足

迎合需求:采集方必須判斷在未來,研究人員需要什么樣的信息資源去迎合用戶需求。有所選擇必然有所放棄,將不可避免地錯(cuò)過重要資源。

成本較高:選擇性采集存檔是勞動(dòng)密集型項(xiàng)目,成本較高,需要一定的人力物力。

斷章取義:選擇性采集的資源將完整的或原本是一體的、相關(guān)聯(lián)的資源斷章取義地分離開來。

還有,諸如采集的資源是否對(duì)研究人員有價(jià)值??jī)r(jià)值如何去證實(shí)?這些都是選擇性采集必須要考量的問題。

6 全域收割的優(yōu)劣

全域性收割是盡可能收集所有的網(wǎng)絡(luò)信息資源的一種方式,是自動(dòng)收割快照后生成存檔,它試圖一遍又一遍地收割整個(gè)網(wǎng)絡(luò),為后人留下盡可能多的Web記錄。IA項(xiàng)目采取全域性收割網(wǎng)頁(yè)保存了許多重要的網(wǎng)絡(luò)資源,但是它缺乏選擇性檔案的優(yōu)勢(shì)。

6.1沒有質(zhì)量控制

利用收割軟件收割的資源缺乏人工干預(yù),沒有質(zhì)量保證,導(dǎo)致有些資源不完整或者缺失功能而不可用。IA每?jī)蓚€(gè)月試圖將整個(gè)Web收割存檔,它傾向于收割頂級(jí)域名下的資源,而不會(huì)收集所有有價(jià)值的一切資源。

6.2錯(cuò)過重要資源

IA的收割未經(jīng)出版商版權(quán)許可,這意味著收割機(jī)器人必須遵循robot.txt 規(guī)則。如果有些網(wǎng)站或者在線出版網(wǎng)沒有經(jīng)過許可和協(xié)商,那么收割軟件就無法采集,這意味著將會(huì)錯(cuò)過一些重要的網(wǎng)絡(luò)資源。而PANDORA存檔中采集重要的出版物和網(wǎng)站會(huì)與出版社協(xié)商,并且在將其添加到存檔文件之前,PANDORA參與者會(huì)評(píng)估每個(gè)標(biāo)題收割的質(zhì)量,而且盡可能地維持它原有的外觀、功能及內(nèi)容。從出版商的網(wǎng)站上收集后,每個(gè)標(biāo)題都會(huì)被檢查以確保其內(nèi)容和功能的完整。

6.3混合采集

選擇性存檔和全域快照收割的方式都有其優(yōu)缺點(diǎn)。最理想的情況是選擇性存檔輔以全域收割方式采集資源。NLA于2005年與IA展開協(xié)作,進(jìn)行了大規(guī)模的全域收割活動(dòng)作為PANDORA選擇性存檔計(jì)劃的補(bǔ)充。迄今為止,已經(jīng)完成了兩次大規(guī)模的資源“爬行”,第一次是在2005年的6-7月,收割了共1.85億份6.69TB的原始數(shù)據(jù);第二次則是在2006年的8-9月份[15]。這兩次大規(guī)模的資源“爬行”過程中采用了自動(dòng)的GeoIP查詢識(shí)別機(jī)制,其目標(biāo)是在澳大利亞境內(nèi)主機(jī)中廣泛深入地抓取盡可能多的采用.au頂級(jí)域名以及那些非.au域名的網(wǎng)頁(yè)資源。

7 網(wǎng)頁(yè)存檔項(xiàng)目存在的問題

2003 年,NLA加入國(guó)際互聯(lián)網(wǎng)保護(hù)聯(lián)盟和Web工作組領(lǐng)導(dǎo)的一個(gè)研究項(xiàng)目。NLA致力于對(duì)其所有數(shù)字館藏包括PANDORA項(xiàng)目的長(zhǎng)期訪問。NLA已經(jīng)制定了《數(shù)字保存政策》;進(jìn)行數(shù)字集合風(fēng)險(xiǎn)評(píng)估,特別把重點(diǎn)放在PANDORA項(xiàng)目;并在研究中繼續(xù)積極參與機(jī)構(gòu)內(nèi)部及與其他機(jī)構(gòu)合作。PANDORA項(xiàng)目建立了一套完整、成熟的體制,包括制定了系列網(wǎng)頁(yè)的保存、管理、存取的程序和相關(guān)的手冊(cè)、指南指導(dǎo)工作。

7.1版權(quán)問題

在NLA投資數(shù)字內(nèi)容和在線服務(wù)的同時(shí),也面臨著較大的資源限制。澳大利亞呈繳本的范圍現(xiàn)在包括印刷型出版物和錄音錄像制品,對(duì)電子出版物和網(wǎng)絡(luò)出版物以協(xié)商自愿繳送為原則。版權(quán)法規(guī)定圖書館在每一次試圖收集網(wǎng)頁(yè)信息之前都需要獲得版權(quán)持有者的許可[16], PANDORA在對(duì)電子(網(wǎng)絡(luò))出版物存檔之前必須與出版商協(xié)商才能存檔,所以,目前僅能保存一部分網(wǎng)絡(luò)上的信息。因此,必須改變1968年《版權(quán)法案》中的法定送存規(guī)則,尋求授權(quán)以收集和保存澳大利亞人創(chuàng)造的數(shù)字資料。

7.2財(cái)政資金

網(wǎng)頁(yè)存檔是一個(gè)復(fù)雜且人力、物力耗費(fèi)巨大的項(xiàng)目,不僅要考慮采集成本,還需要考慮后續(xù)的存儲(chǔ)、維護(hù)、開拓及維護(hù)技術(shù)基礎(chǔ)設(shè)施的費(fèi)用。目前,PANDORA存檔資金都是從參與者現(xiàn)有持續(xù)運(yùn)營(yíng)的業(yè)務(wù)預(yù)算中抽取出來的,盡管這個(gè)項(xiàng)目花費(fèi)昂貴,卻沒有額外的來自政府的資金支持。因此,需要擴(kuò)大資金來源以支持PANDORA向所有澳大利亞公民傳遞資源與服務(wù),同時(shí)通過有效的財(cái)政管理,使政府和私營(yíng)部門的投資回報(bào)達(dá)到最大化。

7.3持續(xù)存取

由于出版界從印本形式向數(shù)字形式轉(zhuǎn)移,NLA重新設(shè)計(jì)了其傳統(tǒng)職責(zé),以滿足數(shù)字環(huán)境下的新需求,并致力于擴(kuò)展數(shù)字化項(xiàng)目,讓澳大利亞公民能夠在線接觸到他們的過去以及現(xiàn)在。但是網(wǎng)絡(luò)信息動(dòng)態(tài)出現(xiàn)和消失的速度極快,保存網(wǎng)絡(luò)資源極其不易。資源存取的技術(shù)必須要跟上引發(fā)信息爆炸的技術(shù),而且不同的網(wǎng)上資源也有不同的儲(chǔ)存方式。搜集并將網(wǎng)上的所有信息存檔是不可能的,如何有效地選擇資源采集,并致力于存檔資源的開放獲取才是關(guān)鍵問題。

數(shù)字化館藏的增長(zhǎng)速度正在超過圖書館的管理、保存和傳遞能力。為適應(yīng)這種現(xiàn)狀,需要更完善的系統(tǒng)去收集和管理數(shù)字化與原生數(shù)字化的澳大利亞內(nèi)容信息,需要建設(shè)一套新的數(shù)字化圖書館基礎(chǔ)設(shè)施,以獲取、保存并傳遞數(shù)字館藏。

(來稿時(shí)間:2015年2月)

參考文獻(xiàn):

1.吳永熹.大英圖書館將存檔海量網(wǎng)上信息.[2014-10-20].http://www.bjnews.com.cn/ent/2013/04/09/257230.html

2.美國(guó)國(guó)會(huì)圖書館收錄1700億條Twitter推文.[2014-10-20].http://it.sohu.com/20130105/n362464608.shtml

3-6.About Pandora.[2014-10-20].http://pandora.nla.gov.au/ about.html

7.Reports of new archived instances added to Pandora.[2014-10-20].http://pandora.nla.gov.au/newtitles/new_titles_reports.html

8.PANDORA archive size and monthly growth.[2014-10-20]. http://pandora.nla.gov.au/statistics.html

9.PANDORA: Newly Archived Titles.[2014-10-20].http://pan dora.nla.gov.au/newtitles/new_aug14.html

10.Archived websites (1996—now).[2014-10-20].http://trove. nla.gov.au/website/result?q=Parallel

11.Reports for PANDORA.[2014-10-20].http://stats.nla.gov.au/_ reports/pandora/monthly/11-2014/awstats.pandora.html

12.馬寧寧,曲云鵬,謝天.歐洲主要網(wǎng)絡(luò)資源采集項(xiàng)目研究與啟示.圖書情報(bào)工作,2013, 57(12):10-15

13,14.劉蘭,吳振新,張智雄等.Web Archive的采集策略研究.現(xiàn)代圖書情報(bào)技術(shù),2009(1):10-15

15.PANDORA Fact Sheet.[2014-10-20].http://pandora.nla. gov.au/pandoranews.html

16.Legal Deposit.[2014-10-20].http://pandora.nla.gov.au/lega ldeposit.html

〔分類號(hào)〕

〔作者簡(jiǎn)介〕顏運(yùn)梅(1979-),研究生,廣州圖書館副研究館員。

Research of Web Archive Projects PANDORA in Australia National Library

Yan Yunmei
( Guangzhou Library )

〔Abstract〕Australia National Library web archiving project called PANDORA that is one of selective web archiving project. The article introduces PANDORA project’s overall situation, discusses the advantages and defects between the two different methods: selective archive and the whole harvest, points out that PANDORA project’s sustainable development faces some difficulties in the specific implementation, including electronic publication’s copyright, funding from government as well as how to keep abreast of web technical developments and other issues.

〔Keywords〕NLA Web archive Selective acquisition Whole domain harvesting PANDORA PANDAS

猜你喜歡
出版物網(wǎng)頁(yè)選擇性
選擇性聽力
基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
電子制作(2018年10期)2018-08-04 03:24:38
2017年出版物
基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
Global analyses of sea surface temperature, sea ice, and night marine air temperature since the latenineteenth century
Arctic sea ice decline: Faster than forecast
網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
選擇性應(yīng)用固定物治療浮膝損傷的療效分析
選擇性執(zhí)法的成因及對(duì)策
2015 年出版物
永吉县| 余干县| 延长县| 沽源县| 麟游县| 汾阳市| 桂平市| 安乡县| 英德市| 营山县| 长武县| 扶绥县| 宁德市| 乌兰浩特市| 格尔木市| 琼结县| 翁源县| 滨海县| 寻乌县| 区。| 遂川县| 富平县| 无为县| 盐源县| 南和县| 城口县| 盐池县| 应用必备| 淮安市| 桃源县| 万盛区| 荆州市| 龙泉市| 桐乡市| 大化| 图片| 堆龙德庆县| 闽侯县| 富蕴县| 新余市| 子洲县|