丁小蕾
目前圖書館對網(wǎng)絡地方文獻認識、實踐的出發(fā)點還是在于如何建設,如何借助已有的館藏文獻進行專題資源庫建設,而對于網(wǎng)絡上已經(jīng)存在的地方文獻資源如何采集關注度不高。盡管網(wǎng)絡地方文獻資源采集工作的開展將困難重重,但是身處網(wǎng)絡時代的地方文獻工作者卻不能回避它,應順應信息發(fā)展的趨勢,盡快開展網(wǎng)絡地方文獻資源采集的研究和實踐。
長期以來,地方文獻工作者受圖書館文獻資源采集的傳統(tǒng)思維定勢影響,重視靜態(tài)紙質(zhì)文獻的采集,地方文獻的各項工作,如讀者服務、參考咨詢等也是緊密圍繞紙質(zhì)文獻而開展起來。但是我們也清楚的看到,隨著信息革命的到來,越來越多的地方文獻信息以網(wǎng)絡為載體呈現(xiàn)出來。這些信息資源有些來自于傳統(tǒng)紙本文獻的數(shù)字化,有些是傳統(tǒng)紙本文獻深層次加工整理的成果,更有一些是以網(wǎng)絡為載體的原生態(tài)文獻信息。以網(wǎng)絡為載體的地方文獻資源正在快速生長,其不可阻擋的態(tài)勢使其成為地方文獻建設體系中不可忽視的組成部分。
1 網(wǎng)絡地方文獻資源
在傳統(tǒng)地方文獻工作中,把一切記錄地方信息的載體稱之為地方文獻。這里所說的載體一般都具有物理屬性,如一本書、一張照片、一幅輿圖、一盤電子CD等,所有的地方信息都依附于某種實體而存在。但是隨著20世紀末信息技術革命的到來,大量的信息脫離了有形實體,以網(wǎng)絡的形式產(chǎn)生、發(fā)展和傳播。本文將一切內(nèi)容上擁有地方屬性的網(wǎng)絡資源稱之為網(wǎng)絡地方文獻資源。
2 網(wǎng)絡地方文獻資源采集的必要性
2.1 豐富館藏地方文獻資源
網(wǎng)絡地方文獻采集實際上是圖書館地方文獻采集工作的一個分支。網(wǎng)絡采集得來的資源將與已有的館藏紙質(zhì)文獻之間互為補充,這里不單指內(nèi)容上的補充,同時也包括載體形態(tài)上的補充。因此,網(wǎng)絡地方文獻資源的采集將使地方文獻專藏建設更加完整、豐富。
2.2 便于數(shù)據(jù)的挖掘與整理
網(wǎng)絡資源本身即是數(shù)字資源,數(shù)字形態(tài)的文獻資源通過結構化的處理,可以進行有效拆解和深層次的標注,這樣為日后的資源整合和資源調(diào)取提供了極大便利。
2.3 加快數(shù)字地方文獻的建設進程
在確定采集手段及采集策略后,短時間內(nèi)即可捕獲大量的網(wǎng)絡地方文獻資源,在很大程度上加快了數(shù)字地方文獻的建設進程。
2.4 節(jié)約數(shù)字地方文獻建設成本
相對于館藏文獻數(shù)字化建設,網(wǎng)絡資源采集只做一次性的投入,后續(xù)資源獲取不會產(chǎn)生費用支出,從而節(jié)約了數(shù)字地方文獻建設的成本。
3 公共圖書館網(wǎng)絡地方文獻資源采集現(xiàn)狀
圖書館作為文獻資源搜集、整理、保存以及提供服務的機構,一向重視資源建設工作。近年,隨著數(shù)字圖書館這一概念的興起,各地公共圖書館紛紛建立以地方文獻和地方文化為主體的特色資源庫。如首都圖書館的“北京記憶”歷史文化多媒體數(shù)據(jù)庫,遼寧圖書館的“九一八專題數(shù)據(jù)庫”,哈爾濱圖書館的“中東鐵路畫冊數(shù)據(jù)庫”以及武漢圖書館的“二七工人運動數(shù)據(jù)庫”等。這些數(shù)據(jù)庫已經(jīng)在網(wǎng)絡上為用戶提供服務,成為名副其實的網(wǎng)絡地方文獻資源。可以說,圖書館在網(wǎng)絡地方文獻資源建設方面已經(jīng)下大力度,并有一定的建設成果。
但是通過近年來國內(nèi)地方文獻研討會的主題分析以及對CNKI上所發(fā)表的相關論文進行檢索發(fā)現(xiàn),圖書館對網(wǎng)絡地方文獻認識、實踐的出發(fā)點還是在于如何建設,如何借助已有的館藏文獻進行專題資源庫建設,而對于網(wǎng)絡上已經(jīng)存在的地方文獻資源如何采集關注度不高。盡管調(diào)查方法有些片面,但也能說明一定問題。
造成網(wǎng)絡地方文獻資源采集工作未被重視的原因,主要一方面是圖書館的管理者往往受到傳統(tǒng)采集觀念的束縛,著眼點依然在于紙本文獻的采購上;另一方面是網(wǎng)絡資源采集確實存在一定的困難,需要解決和克服。如,資源的準確性如何判定?網(wǎng)絡資源有時是大量的碎片性信息如何處理?人員應如何配備?對于重復性資源怎樣甄選及排重?資源采集定位及網(wǎng)絡信息處理系統(tǒng)建設等等。
盡管網(wǎng)絡地方文獻資源采集工作的開展將困難重重,但是身處網(wǎng)絡時代的地方文獻工作者卻不能回避它,應順應信息發(fā)展的趨勢,盡快開展網(wǎng)絡地方文獻資源采集的研究和實踐。
4 網(wǎng)絡地方文獻資源分布情況
網(wǎng)絡地方文獻資源同其他網(wǎng)絡資源一樣,具有信息源復雜,表現(xiàn)形式多樣,存在狀態(tài)無序,無穩(wěn)定性,分布廣泛等特點。但是通過簡單分析,可以發(fā)現(xiàn)網(wǎng)絡地方文獻的分布主要有以下幾方面:
4.1 地方政府及下屬機構網(wǎng)站
該類網(wǎng)站的全部內(nèi)容均具有地方屬性,或全面或片面的反映了當?shù)卣?、?jīng)濟、文化發(fā)展情況,其顯著特點是內(nèi)容權威性強。
4.2 地方專題性網(wǎng)站
指以圍繞當?shù)刂卮髿v史事件、地方民風民俗、地方文化保護等主題展開的地方專題性網(wǎng)站。這些網(wǎng)站一般隸屬于政府下屬的文化研究機構或非營利性的NGO組織,內(nèi)容翔實可靠。
4.3 學術性博客
隨著WEB2.0的興起,每個人都可以借助網(wǎng)絡發(fā)表自己對事物的觀點、認知。博客在現(xiàn)代信息環(huán)境下提供了一種非正式的交流途徑,人人參與的交流機制調(diào)動了學術研究的積極性和互動性。在對大量的博客觀察發(fā)現(xiàn),越來越多的地方文化愛好者都啟用了博客平臺用于發(fā)表自己的研究成果。
4.4 微博
微博中的網(wǎng)絡地方文獻資源多為引導型信息。微博不同于博客,博客是經(jīng)過梳理的信息,而微博因有發(fā)布字數(shù)的限制,一般內(nèi)容多為用戶的瞬時感受。同時微博也更加強調(diào)優(yōu)質(zhì)資源的分享,因其分享機制,微博中一般給出的是資源地址,繼而引導用戶訪問其所需的外部資源。
4.5 網(wǎng)盤
網(wǎng)盤是實現(xiàn)互聯(lián)網(wǎng)資源共享的重要載體。目前已出現(xiàn)為數(shù)不少的網(wǎng)盤搜索引擎,網(wǎng)盤搜索引擎區(qū)別于普通搜索引擎,其搜索結果是純粹的數(shù)字資源,不需要HTML頁面的承托。而這些純粹的資源正是地方文獻工作者網(wǎng)絡采集的目標,是去掉華麗外衣的核心內(nèi)容。大量的數(shù)字地方文獻資源存在于網(wǎng)盤之中,包括圖書資料、影像資料等。
5 開展網(wǎng)絡地方文獻資源采集工作
網(wǎng)絡地方文獻資源采集工作不是臨時性項目,圖書館在進行網(wǎng)絡地方文獻資源采集前需要同紙質(zhì)文獻采集一樣做整體規(guī)劃。首先挑選最適合從事該項工作的采集人員;其次明確采集目標,制定合理的采集策略并規(guī)范采集流程;最后在數(shù)據(jù)采集后一定要考慮如果將數(shù)據(jù)進行規(guī)范性處理,有利于日后使用。
5.1 人員選定及配置
網(wǎng)絡資源采集與紙質(zhì)文獻采集在對采集工作人員要求方面最大的不同是,紙質(zhì)文獻采集需要采集人員必須具有良好的與人溝通的口頭表達能力,而這種能力對于網(wǎng)絡資源采集人員來說并不是首要具備的。網(wǎng)絡地方文獻采集工作人員將要面臨的問題是如何在海量信息中檢索出符合收錄規(guī)范的有價值資源,因此要求從事該工作的人必須具有較強的信息檢索能力和情報分析能力,同時還需要熟悉館藏,能夠及時、準確的判斷信息資源的重復性。此外,還要求工作人員一定要具有強烈的責任感和認真負責的態(tài)度,這是長期穩(wěn)定的采集高質(zhì)量的網(wǎng)絡地方文獻資源的必要條件。
在人員配置上,以2~3人為宜。網(wǎng)絡地方文獻采集工作不是只有采集的動作,同時包括前期分析和后期處理,一個人很難完成所有的工作,需要多人輔助、協(xié)作。此外,多人之間可以利用自身業(yè)務專長相互配合。
5.2 制定采集目標及策略
網(wǎng)絡地方文獻資源涉及面廣且多如牛毛,除地域范圍的限定外,并無學科、專業(yè)的限制,因此圖書館需要結合自身需求有的放矢的進行資源采集。公共圖書館所收集的地方文獻資源是對某一地區(qū)自然、人文諸般客觀存在現(xiàn)象的一般性描述,遵照古舊文獻優(yōu)先采集的原則,網(wǎng)絡采集也可以從史料型資源或者研究史料的網(wǎng)絡資源入手。
(1)確定采集網(wǎng)址,并做采集清單的不定期更新
在進行大量網(wǎng)絡資源調(diào)研基礎上,針對來源穩(wěn)定的網(wǎng)絡地方文獻資源應整理出一份采集清單。這份清單可以由某一名工作人員來起草,但是需要采集工作小組所有成員共同進行評估確定。
采集網(wǎng)址的清單確定后并非萬事大吉,隨著網(wǎng)絡資源的不斷增長和湮滅,需要對清單上的名單做不定期的增刪。該清單除了做工作指導外,也將是網(wǎng)絡地方文獻資源采集的重要檔案資源。
(2)明確采集方式
目前網(wǎng)絡數(shù)據(jù)采集一般兩種方式:自動采集和人工采集。
自動采集一般指利用垂直搜索引擎技術的網(wǎng)絡蜘蛛(或數(shù)據(jù)采集機器人)、分詞系統(tǒng)、任務與索引系統(tǒng)等技術進行綜合運用而完成。即按照用戶指定信息或主題關鍵詞,調(diào)用各種搜索引擎進行網(wǎng)頁搜集和數(shù)據(jù)挖掘,通過WEB頁面之間的鏈接關系,從WEB上自動獲取頁面信息,并隨著鏈接不斷想所需要的WEB頁面進行擴展的過程。軟件除抽取出用戶所需要的屬性內(nèi)容外,還將進行相應的初步數(shù)據(jù)清洗,如內(nèi)容和格式上的處理,格式轉(zhuǎn)換和加工等,使之變?yōu)榻Y構化數(shù)據(jù)再將其存儲下來,以供后用。
人工采集則主要是人來參與采集過程,需要人對資源的分布位置有一定的敏感性,通過瀏覽互聯(lián)網(wǎng)進行信息搜集,最終依靠人對信息準確性的自我判斷來完成采集工作。這種搜索方式缺點是效率較低,優(yōu)點是鏈接內(nèi)容經(jīng)人工選擇,相關度、準確度以及資源質(zhì)量更高。
實際采集時,對于時效性強的地方政府網(wǎng)站、內(nèi)容完整度高的地方專題性網(wǎng)站等可以采用整站自動采集;而對于博客、微博、網(wǎng)盤中所存在的文獻資源,由于信息發(fā)布者并非長期發(fā)布網(wǎng)絡地方文獻資源,為了采集的準確性,則需要更多的人工干預。
在進行網(wǎng)絡地方文獻資源采集時,需注意檢索詞名稱互見問題。以“北京”地名為例,北京在歷史上曾被稱為北平、順天府、大都、中都、南京、析津府、燕山府、幽州、燕、薊等名稱,簡稱京、平,由其行政地位,又被成為首都、京師、京都,或被文人們修飾為長安、春明、日下,京師附近的州縣呼為畿輔,1928年國都南遷后,又常被題為故都、舊京等字樣。在進行自動采集時應對其所有別名進行檢索,必要時可建立本地區(qū)人名、地名、事件名稱互見表。
(3)制定采集數(shù)據(jù)的處理周期和處理方法
網(wǎng)絡資源采集切忌采而不理。在進行網(wǎng)絡地方文獻資源采集伊始一定要考慮采集數(shù)據(jù)的后期處理問題。網(wǎng)絡資源結構雜亂,如不及時對數(shù)據(jù)進行整理和規(guī)范性描述,將不利于采集數(shù)據(jù)的保存和利用。一般在選擇網(wǎng)絡資源采集工具時,需要建立配套的資源管理數(shù)據(jù)庫,資源管理數(shù)據(jù)庫為采集數(shù)據(jù)的管理和調(diào)用提供方便。網(wǎng)絡資源描述也應采用成熟的元數(shù)據(jù)標準,比如為電子資源描述而生的“都柏林核心(Dublin Core)元數(shù)據(jù)”。另外,在進行采集資源的描述時應盡量充分完成地點、時間、人物、事件等內(nèi)容信息的揭示。還應對版權問題做以標注。采集資源大部分涉及版權問題,因此使用要慎重,可做內(nèi)部資源使用庫,或在館內(nèi)提供服務。
6 結語
網(wǎng)絡地方文獻資源采集是一項復雜、長期、系統(tǒng)性的工程,需要同紙質(zhì)文獻采集一樣全局籌劃,并將其作為常規(guī)性工作長期進行下去。面對數(shù)字時代的今天,地方文獻工作者應將網(wǎng)絡地方文獻資源作為文獻采集研究新方向,并不斷深入實踐。
(作者單位:首都圖書館)