邱春艷
(武漢大學(xué)信息管理學(xué)院,湖北 武漢 430072)
邱春艷 女,1987年生。碩士在讀,研究方向:信息檢索與咨詢。
自20世紀(jì)90年代以來,開放存取(Open Access,縮寫為OA)作為學(xué)術(shù)界、出版界以及圖書館界等為打破商業(yè)出版者的壟斷而采取的免費(fèi)自由存取和利用的一項(xiàng)重大舉措,為科研成果的廣泛無障礙傳播提供了有效的途徑和方式。OA資源與隱形網(wǎng)絡(luò)資源有諸多相似之處,OA資源是學(xué)術(shù)隱形網(wǎng)絡(luò)資源的重要組成部分,因此,OA資源的組織和揭示是隱形網(wǎng)絡(luò)資源顯性化發(fā)展的實(shí)例,隱形網(wǎng)絡(luò)資源的顯性化發(fā)展可以借鑒其成功經(jīng)驗(yàn)。
目前比較權(quán)威的3個(gè)國(guó)際性相關(guān)文件《布達(dá)佩斯開放存取動(dòng)議》(Budapest Open Access Initiative,縮寫為BOAI)、《貝塞斯達(dá)原則》(Bethesda Principles)和《關(guān)于自然科學(xué)與人文科學(xué)資源的開放存取柏林宣言》(Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities)分別對(duì)OA作了定義。筆者比較認(rèn)同BOAI的定義,認(rèn)為“對(duì)文獻(xiàn)的開放存取即意味著它在公共網(wǎng)絡(luò)可以被免費(fèi)獲取,允許任何用戶閱讀、下載、復(fù)制、分發(fā)、打印、檢索、超鏈接該文獻(xiàn)的全文信息”。[1]
隱形網(wǎng)絡(luò)(Invisible Web),又名隱蔽網(wǎng)絡(luò)、深網(wǎng)(Deep Web)、看不見的網(wǎng)絡(luò)或者黑洞、黑色資源(Dark Net)等。自2001年美國(guó)圖書館員和信息學(xué)者Chris Sherman和Gray Price合著的《The invisible web:uncovering information sources search engines can’t see》出版之后,隱形網(wǎng)絡(luò)逐漸受到計(jì)算機(jī)界、圖書館界等各方的廣泛關(guān)注。Sherman和Price將隱形網(wǎng)絡(luò)定義為:在網(wǎng)絡(luò)上可以獲得的資源,但由于技術(shù)限制或者由于特定選擇而不能或未被納入通用搜索引擎中的文本網(wǎng)頁、文件或其他高質(zhì)量的權(quán)威性信息資源。[2]
筆者于2011年以關(guān)鍵詞、主題、題名等途徑檢索,對(duì)CNKI中2001~2010年OA和隱形網(wǎng)絡(luò)相關(guān)文獻(xiàn)數(shù)量進(jìn)行統(tǒng)計(jì)(見表1)。統(tǒng)計(jì)結(jié)果顯示:國(guó)內(nèi)對(duì)OA的研究文獻(xiàn)從2002年開始出現(xiàn)并逐年遞增,對(duì)隱形網(wǎng)絡(luò)的研究則相對(duì)較晚,從2003年開始出現(xiàn)關(guān)于“隱性信息”的文章。2004年對(duì)隱形網(wǎng)絡(luò)的研究文獻(xiàn)開始逐漸增多,2008、2009、2010每年關(guān)于隱形網(wǎng)絡(luò)的研究文獻(xiàn)保持在80篇以上。
表1 2001~2010 CNKI中OA和隱形網(wǎng)絡(luò)相關(guān)文獻(xiàn)數(shù)量統(tǒng)計(jì)(單位:篇)
對(duì)OA的研究主題集中在國(guó)外經(jīng)驗(yàn)介紹、對(duì)知識(shí)交流的影響、OA模式、知識(shí)產(chǎn)權(quán)問題、OA實(shí)現(xiàn)途徑、運(yùn)行技術(shù)、質(zhì)量控制、對(duì)策等方面。對(duì)隱形網(wǎng)絡(luò)的研究主題初期多集中于隱形網(wǎng)絡(luò)的概念特征、成因、類型等介紹性內(nèi)容,之后開始探討隱形網(wǎng)絡(luò)的宏觀控制、檢索策略、隱形網(wǎng)絡(luò)資源的采集與整合、數(shù)據(jù)挖掘、檢索工具的改進(jìn)以及圖書館對(duì)于隱形網(wǎng)絡(luò)資源的開發(fā)利用等。
從研究文獻(xiàn)數(shù)量和時(shí)間看,對(duì)OA的研究文獻(xiàn)數(shù)量是隱形網(wǎng)絡(luò)的近4倍,同時(shí)對(duì)隱形網(wǎng)絡(luò)的研究要晚于對(duì)OA的研究,可看出在國(guó)內(nèi)OA較之隱形網(wǎng)絡(luò)更受關(guān)注。從研究主題來看,多數(shù)研究文獻(xiàn)著重對(duì)OA和隱形網(wǎng)絡(luò)兩者之一進(jìn)行單獨(dú)研究,對(duì)兩者的綜合研究則以免費(fèi)網(wǎng)絡(luò)資源的獲取為主要內(nèi)容,數(shù)量較為稀少,有待深入和拓展。
2.1.1 內(nèi)容范圍
OA資源主要是科研數(shù)據(jù)、學(xué)術(shù)研究論文、科研報(bào)告、專著、教學(xué)課件等學(xué)術(shù)類資源。而隱形網(wǎng)絡(luò)資源除學(xué)術(shù)類資源,還包含了政府信息、新聞資訊、娛樂資訊等,相比OA資源內(nèi)容更為豐富,因此也相對(duì)復(fù)雜。通常特定的隱形網(wǎng)絡(luò)資源集中于特定的主題領(lǐng)域,如政府部門和學(xué)術(shù)機(jī)構(gòu)所提供的特定專題或?qū)W科領(lǐng)域的數(shù)據(jù)庫(kù)資源。
2.1.2 資源格式
OA資源多數(shù)為靜態(tài)的文件格式,OA期刊多以PDF和HTML格式文件的形式存在,OA倉(cāng)儲(chǔ)多數(shù)收錄PDF格式和Word格式的文件。而隱形網(wǎng)絡(luò)資源格式則更為多樣,除了PDF和Word等靜態(tài)文件外,還有大量的FLASH文件、網(wǎng)頁等動(dòng)態(tài)格式文件。
2.1.3 受關(guān)注程度
從相關(guān)會(huì)議分析,國(guó)內(nèi)參與或召開的以O(shè)A為主題的會(huì)議(如柏林會(huì)議等)較多,而與隱形網(wǎng)絡(luò)相關(guān)的會(huì)議較少。由此可見,國(guó)內(nèi)對(duì)隱形網(wǎng)絡(luò)的關(guān)注遠(yuǎn)不及對(duì)開放存取的關(guān)注。受關(guān)注程度的不同導(dǎo)致開發(fā)和利用程度的不同。
OA資源與隱形網(wǎng)絡(luò)資源具有諸多相同點(diǎn),主要表現(xiàn)在:①隱蔽性。兩者都難以通過通用搜索引擎獲取,因而對(duì)于習(xí)慣使用通用搜索引擎的用戶具有隱蔽性。②資源數(shù)量大。根據(jù)Bright Planet于2001年發(fā)表的白皮書所述,隱形內(nèi)容大約有5000億個(gè)文檔,至少是有形內(nèi)容的50倍。[3]OpenDOAR收錄1800多個(gè)OA倉(cāng)儲(chǔ),Open Science Directory收錄約13000種OA期刊,可見OA資源數(shù)量之大。③內(nèi)容豐富。隱形網(wǎng)絡(luò)資源的內(nèi)容包含了多種文件格式的文件內(nèi)容,涉及政治、社會(huì)、科研等多個(gè)領(lǐng)域。開放存取資源則包含了所有學(xué)科的學(xué)術(shù)資源。④價(jià)值大。隱形網(wǎng)絡(luò)資源具有特定的內(nèi)容、專業(yè)的檢索界面、更高的檢全率和檢準(zhǔn)率以及最高水平的權(quán)威性,[4]因而對(duì)于用戶具有比較大的利用價(jià)值。OA資源的學(xué)術(shù)性和免費(fèi)性使其對(duì)科研用戶具有較高的參考價(jià)值。⑤主要傳播載體相同。兩者都通過互聯(lián)網(wǎng)提供獲取和使用。
由于OA資源具有隱形網(wǎng)絡(luò)資源的主要特點(diǎn),可以將OA資源歸為隱形網(wǎng)絡(luò)資源。學(xué)術(shù)隱形網(wǎng)絡(luò)是隱形網(wǎng)絡(luò)資源中具有重要學(xué)術(shù)價(jià)值的組成部分,是包含所有數(shù)據(jù)庫(kù)和相關(guān)學(xué)術(shù)收藏但不被普通搜索引擎所檢索的信息資源。[5]OA資源多數(shù)為學(xué)術(shù)隱形網(wǎng)絡(luò)資源。
隨著開放存取理念的廣泛傳播,開放存取受到各界人士、特別是科學(xué)研究領(lǐng)域的認(rèn)同和推崇,對(duì)OA資源的組織、揭示、傳播以及開發(fā)、利用也逐漸成熟。
許多參與到OA運(yùn)動(dòng)中的組織機(jī)構(gòu),將自己的研究成果或出版物以開放存取的形式向外界傳播,此類機(jī)構(gòu)對(duì)自身OA資源以特定方式進(jìn)行組織和揭示。①在學(xué)術(shù)界,科研機(jī)構(gòu)將本機(jī)構(gòu)開展或給予資金支持的科研項(xiàng)目的進(jìn)展、成果、結(jié)論數(shù)據(jù)和內(nèi)容信息以機(jī)構(gòu)庫(kù)或?qū)W科庫(kù)的形式存儲(chǔ),通過網(wǎng)絡(luò)向全世界或部分地區(qū)提供存取。②在出版界,許多出版機(jī)構(gòu)出版OA形式的原生出版物,部分傳統(tǒng)出版機(jī)構(gòu)將固有出版物轉(zhuǎn)為OA形式的出版物。
3.2.1 組織方法
對(duì)OA資源的組織主要利用分類法和主題法。OA資源的組織吸收了傳統(tǒng)文獻(xiàn)組織的主要方法即分類法和主題法的精髓,并根據(jù)資源狀況和用戶需求作了改進(jìn)。如多數(shù)開放存取期刊目錄(如DOAJ等)按照學(xué)科和主題來組織收錄的期刊,但其分類目錄和主題劃分并未嚴(yán)格采用某種特定分類法和主題法。
3.2.2 組織技術(shù)
①元數(shù)據(jù)互操作。OA資源內(nèi)容龐雜,格式多樣,對(duì)其組織必須解決其元數(shù)據(jù)的互操作問題。OA資源采用開放文檔協(xié)議(Open Archives Initiative,縮寫為 OAI),需提供DC元數(shù)據(jù)和其他格式元數(shù)據(jù)。開放文檔元數(shù)據(jù)采集協(xié)議OAI-PMH的制定和實(shí)施,促進(jìn)了不同系統(tǒng)、國(guó)別、語種的OA資源元數(shù)據(jù)的互操作。
②資源定位。作為網(wǎng)絡(luò)資源的OA資源具有較大的不穩(wěn)定性,通過賦予OA資源以唯一的永久的標(biāo)識(shí)符,即數(shù)字對(duì)象唯一標(biāo)識(shí)符(Digital Object Unique Identifier,縮寫為DOI),從而加強(qiáng)OA資源的定位,使用戶可以定位確定的OA資源。
③永久保存。長(zhǎng)期保存是網(wǎng)絡(luò)資源面臨的重要問題。通過采用基于開放檔案信息系統(tǒng)(Open Archival Information System,縮寫為OAIS)的永久保存機(jī)制,從而實(shí)現(xiàn)對(duì)OA資源的永久保存。以O(shè)AIS為基礎(chǔ)的項(xiàng)目較多,如加利福尼亞大學(xué)數(shù)字保存?zhèn)}儲(chǔ)(Digital Preservation Repository,縮寫為DPR)等。
3.2.3 相關(guān)軟件的開發(fā)和應(yīng)用
目前已開發(fā)了較多用于建立、組織和管理OA倉(cāng)儲(chǔ)和OA期刊的軟件系統(tǒng)。較為成熟的OA倉(cāng)儲(chǔ)軟件系統(tǒng)有Dspace、Eprints、Fedora、Escholarship、CDSWare、ARNO等,其中應(yīng)用最為廣泛的是Dspace和Eprints。公共知識(shí)計(jì)劃(Public Knowledge Project,縮寫為PKP)包含了開放期刊系統(tǒng)(Open Journal System,縮寫為OJS)、開放會(huì)議系統(tǒng)(Open Conference System,縮寫為OCS)、開放收割系統(tǒng)(Open Harvester Systems,縮寫為OHS)、開放專著系統(tǒng)(Open Monograph Press,縮寫為OHS)等,其中OJS被超過5000種學(xué)術(shù)期刊使用。[6]此類軟件系統(tǒng)的開發(fā)和應(yīng)用為開放存取的實(shí)施和資源組織提供了便利。
3.2.4 組織工作
對(duì)OA資源的組織工作主要體現(xiàn)在對(duì)OA資源的編目。根據(jù)Anna K.Hood于2007年對(duì)ARL成員利用OA資源情況的調(diào)查,86%的成員館從OCLC下載OA資源的目錄信息,69%的成員館自行編制,56%的成員館從其他組織下載編目信息。[7]可見,圖書館較早就開始重視對(duì)OA資源的編目。圖書館通過對(duì)傳統(tǒng)編目著錄格式的特定字段進(jìn)行修改、補(bǔ)充,以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息資源的編目。其中比較典型的為OCLC運(yùn)用USMARC對(duì)網(wǎng)絡(luò)資源進(jìn)行編目,用256字段標(biāo)識(shí)計(jì)算機(jī)文件特征,856字段標(biāo)識(shí)網(wǎng)絡(luò)資源的URL信息。[8]
3.3.1 開放存取資源目錄
對(duì)OA資源最直接的揭示方式即以目錄形式提供OA資源的內(nèi)容信息和鏈接入口。如OA期刊目錄將其收錄的大量期刊信息,如刊名、ISSN號(hào)、學(xué)科主題信息等進(jìn)行揭示,同時(shí)提供該期刊的鏈接入口。
3.3.2 第三方機(jī)構(gòu)對(duì)開放存取資源的揭示
除上述機(jī)構(gòu),還有自身資源不提供開放存取的圖書館、科研機(jī)構(gòu)以及OA資源站點(diǎn)等第三方機(jī)構(gòu)進(jìn)行開放存取資源組織、揭示和傳播。①圖書館。眾多圖書館在其網(wǎng)站上開辟專欄對(duì)OA資源進(jìn)行介紹和導(dǎo)航,許多圖書館還對(duì)OA資源進(jìn)行整合提供。對(duì)OA資源和相關(guān)理論的研究在圖書館界也備受關(guān)注。②科研機(jī)構(gòu)。許多科研機(jī)構(gòu)對(duì)其他機(jī)構(gòu)提供的OA資源進(jìn)行組織,多以資源導(dǎo)航的形式提供。③OA資源站點(diǎn)。OA資源數(shù)量巨大,內(nèi)容龐雜,許多站點(diǎn)致力于以目錄形式對(duì)其進(jìn)行組織和揭示。
3.3.3 開放存取資源搜索引擎
OA資源分布在不同的國(guó)家和研究機(jī)構(gòu),通過針對(duì)OA資源的專門搜索引擎將不同地區(qū)和不同語種的OA資源進(jìn)行標(biāo)引。通常包括綜合性、專類和??芆A資源搜索引擎,通過用戶的檢索來揭示。
近幾年,國(guó)內(nèi)許多領(lǐng)域召開以O(shè)A為主題的會(huì)議,2010年10月26日,“第八屆開放獲取柏林國(guó)際會(huì)議”在中國(guó)科學(xué)院國(guó)家科學(xué)圖書館成功舉行。隨著各項(xiàng)會(huì)議的召開以及越來越多致力于OA的機(jī)構(gòu)參與,OA資源相關(guān)的活動(dòng)和項(xiàng)目不斷開展,對(duì)OA的關(guān)注不斷深入。第三方機(jī)構(gòu)在提供OA資源鏈接或?qū)Ш綍r(shí),通常提供相關(guān)介紹等,對(duì)各領(lǐng)域用戶了解和關(guān)注OA資源起到了推廣和宣傳的作用。
隱形網(wǎng)絡(luò)資源通常具有特定的內(nèi)容、較高檢全率和檢準(zhǔn)率、較高權(quán)威性等特點(diǎn),因而具有較大的價(jià)值。只有當(dāng)相對(duì)于大多數(shù)用戶而言,隱形網(wǎng)絡(luò)資源處于顯性化狀態(tài)時(shí),隱形網(wǎng)絡(luò)資源的巨大價(jià)值才能得到充分的發(fā)掘和利用。隱形網(wǎng)絡(luò)資源與OA資源有諸多相同點(diǎn),因而對(duì)隱形網(wǎng)絡(luò)資源的組織和揭示可以借鑒OA資源已有的組織和揭示方法,同時(shí)應(yīng)針對(duì)區(qū)別于OA資源的特點(diǎn)采取有針對(duì)性的措施。
隱形網(wǎng)絡(luò)資源要得到顯性化的揭示和利用,需要資源自身的轉(zhuǎn)變。OA資源之所以得到重視并不斷被深入開發(fā)利用,很大程度上取決于其“開放”地面向用戶,從而增強(qiáng)了用戶對(duì)OA資源的認(rèn)識(shí)和利用率。因此隱形網(wǎng)絡(luò)資源所有者需通過向搜索引擎提交網(wǎng)址,使該資源能夠被通用搜索引擎檢索,提高用戶的點(diǎn)擊率與資源的利用率。
第三方對(duì)資源的揭示是用戶獲取OA資源的重要中轉(zhuǎn)途徑,也是了解和獲取隱形網(wǎng)絡(luò)資源的重要途徑。隱形網(wǎng)絡(luò)資源是圖書館、研究機(jī)構(gòu)等信息服務(wù)機(jī)構(gòu)拓展自身資源的重要來源之一。通過搜索引擎、資源目錄等方式,對(duì)隱形網(wǎng)絡(luò)資源進(jìn)行更為廣泛精確的搜集和整合,提供一站式檢索,是今后第三方機(jī)構(gòu)對(duì)隱形網(wǎng)絡(luò)資源揭示的重要方式。
任何行動(dòng)都需要強(qiáng)有力的理論和技術(shù)支撐。對(duì)開放存取相關(guān)理論和技術(shù)的研究與應(yīng)用,推動(dòng)了OA資源的開發(fā)和利用。對(duì)隱形網(wǎng)絡(luò)資源的開發(fā)利用亦需有理論和技術(shù)研究為先導(dǎo)。當(dāng)前對(duì)于隱形網(wǎng)絡(luò)的研究還僅局限于定義、類型、簡(jiǎn)單獲取策略等淺層次的內(nèi)容。此外,技術(shù)是導(dǎo)致隱形網(wǎng)絡(luò)資源隱蔽性的重要原因,隱形網(wǎng)絡(luò)的特性需要包括信息挖掘技術(shù)、搜索引擎以及元數(shù)據(jù)等信息描述技術(shù)在內(nèi)的各種網(wǎng)絡(luò)資源的深入發(fā)展。隨著本體技術(shù)、網(wǎng)絡(luò)爬蟲技術(shù)、數(shù)據(jù)采集和整合技術(shù)、元數(shù)據(jù)等相關(guān)技術(shù)的發(fā)展,對(duì)隱形網(wǎng)絡(luò)的揭示與發(fā)掘?qū)⒏由钊?。[9-10]
除了技術(shù)的限制,隱形網(wǎng)絡(luò)資源的隱蔽性在很大程度上取決于資源所有者對(duì)于侵權(quán)等方面的顧慮,解決相關(guān)網(wǎng)絡(luò)資源的知識(shí)產(chǎn)權(quán)、隱私權(quán)保護(hù)等問題,對(duì)于隱形網(wǎng)絡(luò)資源的顯性化揭示有重要的作用。
用戶的需求是資源利用的重要?jiǎng)恿?。相比隱形網(wǎng)絡(luò)資源的巨大價(jià)值,用戶的需求力不足,其推動(dòng)力未能充分顯現(xiàn)。這需要用戶自身對(duì)于隱形網(wǎng)絡(luò)資源相關(guān)知識(shí)的了解和學(xué)習(xí),提高自身的信息意識(shí)和信息獲取能力。同時(shí)在獲取和使用隱形網(wǎng)絡(luò)資源時(shí),用戶應(yīng)加強(qiáng)對(duì)所獲取資源的整理和保存。此外,OA資源的相關(guān)會(huì)議、文件、活動(dòng),在很大程度上對(duì)開放存取起到了宣傳推廣作用,相比之下,對(duì)于隱形網(wǎng)絡(luò)資源的宣傳推廣力度還遠(yuǎn)遠(yuǎn)不足,應(yīng)加強(qiáng)對(duì)隱形網(wǎng)絡(luò)資源和工具等基本內(nèi)容的推廣宣傳,帶動(dòng)對(duì)整個(gè)隱形網(wǎng)絡(luò)資源的認(rèn)識(shí)和研究。
[1]Budapest Open Access Initiative[OL].[2011-03-02].http://www.soros.org/Openaccess/read.shtml.
[2]馬費(fèi)成等.看不見的網(wǎng)站——Internet專業(yè)信息檢索指南[M].沈陽:遼寧科學(xué)技術(shù)出版社,2003:48.
[3]Bright Planet.The Deep Web:Surfacing Hidden Value[OL].[2011-05-12].http://www.brightplanet.com/images/uploads/12550176481-deepwebwhitepaper.pdf.
[4]馬費(fèi)成等.看不見的網(wǎng)站—Internet專業(yè)信息檢索指南[M].沈陽:遼寧科學(xué)技術(shù)出版社,2003:79-80.
[5]陳紅勤.學(xué)術(shù)隱蔽網(wǎng)絡(luò)和學(xué)術(shù)搜索引擎[J].現(xiàn)代情報(bào),2008(7):118.
[6]Kilgour Award recipient named[OL].[2011-05-12].http://www.ala.org/ala/mgrps/divs/lita/newandnoteworthy/kilgourwinner2010.cfm.
[7]Anna K.Hood.Open Access Resources[OL].[2011-03-07].www.arl.org/bm~doc/spec300web.pdf.
[8]邱燕燕.開放存取資源的組織和揭示[J].圖書館雜志,2006(6):20-22.
[9]張芳,肖國(guó)強(qiáng).基于專業(yè)搜索引擎的元搜索引擎的設(shè)計(jì)[J].鄭州大學(xué)學(xué)報(bào),2007(2):38-41.
[10]黃聰會(huì),張水平,胡洋.主題Deep Web爬蟲框架研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010(5):929-935.
[11]高明,王繼成,李江峰.基于語義支持的Deep Web數(shù)據(jù)抽取[J].計(jì)算機(jī)科學(xué),2010(3):156-158.