李華明
(山東大學(xué)圖書館,山東 濟(jì)南 250012)
在信息技術(shù)和5G網(wǎng)絡(luò)迅猛發(fā)展的今天,網(wǎng)絡(luò)信息資源已經(jīng)成為人類社會(huì)一種不可或缺的重要資源,網(wǎng)絡(luò)信息資源的優(yōu)勢(shì)表現(xiàn)在賦予人們較強(qiáng)的信息檢索和獲取能力。但在現(xiàn)實(shí)生活中,我們?cè)谠S多場(chǎng)合并未感覺到使用它所帶來的極大便利,其主要原因在于,面對(duì)海量的網(wǎng)絡(luò)信息、繁雜的用戶界面以及眾多的搜索引擎,使得用戶在獲取網(wǎng)絡(luò)信息時(shí)會(huì)遇到各種各樣的困難。為此,通過分析人們?cè)诶镁W(wǎng)絡(luò)信息資源時(shí)產(chǎn)生的難題,來制定并采取相應(yīng)的開發(fā)策略,幫助他們?cè)跈z索信息中克服技術(shù)障礙,從而能快捷、方便、高效地利用網(wǎng)絡(luò)信息資源。
關(guān)于網(wǎng)絡(luò)信息資源的含義,學(xué)術(shù)界一般是指由數(shù)字化(數(shù)據(jù)庫(kù))技術(shù)、信息存儲(chǔ)技術(shù)、通信網(wǎng)絡(luò)技術(shù)以及超文本(超媒體)技術(shù)所支撐的信息資源,而并非廣義所講的互聯(lián)網(wǎng)上的全部信息。較之傳統(tǒng)的文獻(xiàn)信息資源,它具有信息的動(dòng)態(tài)性、內(nèi)容的廣泛性、訪問的快速性、搜索的網(wǎng)絡(luò)性和資源的開放性等特點(diǎn)??梢娋W(wǎng)絡(luò)信息資源的這種靈活性,決定了它比傳統(tǒng)文獻(xiàn)資源的歸類更難以把握,迄今為止,對(duì)網(wǎng)絡(luò)信息資源的分類還沒有明確、統(tǒng)一的標(biāo)準(zhǔn)和公認(rèn)的劃分結(jié)果?,F(xiàn)階段就圖書館的業(yè)務(wù)性質(zhì)而言,結(jié)合網(wǎng)絡(luò)信息資源的特點(diǎn)和形式,將其劃分為三大類。
反映某個(gè)地區(qū)(系統(tǒng))的圖書館或信息服務(wù)機(jī)構(gòu)收藏文獻(xiàn)情況的統(tǒng)一目錄,如全國(guó)中西文期刊聯(lián)合目錄、CALIS(中國(guó)高等教育文獻(xiàn)保障系統(tǒng))公共目錄檢索系統(tǒng)。這類目錄資源主要是指用于檢索各類信息的檢索工具,以提供書目與索引等二次文獻(xiàn)數(shù)據(jù)庫(kù)為主。
一般包括網(wǎng)絡(luò)版光盤數(shù)據(jù)庫(kù)、計(jì)算機(jī)檢索數(shù)據(jù)庫(kù)和商業(yè)信息庫(kù)等。如國(guó)內(nèi)著名的CNKI中國(guó)學(xué)術(shù)文獻(xiàn)總庫(kù)、萬(wàn)方數(shù)據(jù)庫(kù)等,外文的ACS(美國(guó)化學(xué)學(xué)會(huì)會(huì)刊)、Nature(《自然》周刊)全文數(shù)據(jù)庫(kù)等,這類網(wǎng)絡(luò)信息以提供全文數(shù)據(jù)庫(kù)和數(shù)值數(shù)據(jù)庫(kù)為主。
包括網(wǎng)上發(fā)布的學(xué)術(shù)、政府、文化、教育和娛樂等信息,以及可以直接從網(wǎng)上獲取的各種電子化、數(shù)字化文獻(xiàn)。這類信息內(nèi)容龐雜且交互性和關(guān)聯(lián)度較高,涉及社會(huì)知識(shí)各個(gè)層面,由于任何機(jī)構(gòu)、個(gè)人都可自由的在網(wǎng)上發(fā)布信息,很多信息不加任何整理,處于非線性無(wú)序排列的雜亂無(wú)章狀態(tài),決定了此類信息不易被人們了解和使用。
目前,數(shù)字化文獻(xiàn)資源、聯(lián)機(jī)數(shù)據(jù)庫(kù)、圖書館OPAC目錄(Online Public Access Catalogue“聯(lián)機(jī)公共目錄查詢系統(tǒng)”)以及互聯(lián)網(wǎng)上各社會(huì)組織(政府、大學(xué)、研究機(jī)構(gòu))所提供的各類機(jī)構(gòu)信息,不僅比較穩(wěn)定、準(zhǔn)確可靠、方便存取,同時(shí)也是學(xué)術(shù)研究的重要信息來源。因此,它們是圖書館網(wǎng)絡(luò)信息資源組織管理和使用的主要對(duì)象。
眾所周知,網(wǎng)絡(luò)信息具有數(shù)量龐大、內(nèi)容繁雜、質(zhì)量參差不齊等特點(diǎn),使得網(wǎng)上信息資源在很大程度上處于無(wú)限、無(wú)序的混亂狀態(tài)。因此,在網(wǎng)絡(luò)環(huán)境下,優(yōu)化信息資源組織方法的目的就是要解決海量無(wú)序的信息資源與人們有效利用之間的尖銳矛盾。在具體實(shí)踐中,通過對(duì)網(wǎng)絡(luò)信息實(shí)行整序、描述、標(biāo)引等控制過程,使之成為符合用戶需要的有序信息流。
就目前網(wǎng)絡(luò)信息資源組織方法而言,主要有分類組織和主題組織兩種,二者在網(wǎng)絡(luò)環(huán)境中互有長(zhǎng)短,單純使用分類或主題的方法都滿足不了用戶多途徑查詢和檢索的需要,因此,分類主題一體化就成了現(xiàn)階段網(wǎng)絡(luò)信息資源組織的一種理想模式。一方面,由于信息被分別組織在不同的類目中,為過濾和篩選不需要的信息創(chuàng)造了條件;另一方面,將標(biāo)引語(yǔ)言納入分類體系除了可以直接使用自然語(yǔ)言外,也可以在任何類下進(jìn)行語(yǔ)詞檢索,即在某一類下進(jìn)行語(yǔ)詞檢索就相當(dāng)于分類法與主題法組配查詢,這樣,在選定范圍內(nèi)查詢到的結(jié)果則會(huì)更加貼近人們的需求,從而大大提高了檢準(zhǔn)率。用分類主題一體化組織信息資源,既能滿足用戶的分類族性檢索習(xí)慣,又能實(shí)現(xiàn)主題特性的檢索要求,極大地方便了網(wǎng)絡(luò)用戶的選擇和使用。
書目控制歷來是圖書情報(bào)機(jī)構(gòu)組織信息的主要手段,現(xiàn)階段對(duì)網(wǎng)絡(luò)信息資源進(jìn)行編目控制其重要性依然十分突出。MARC(Machine Readable Catalogue)格式作為全球機(jī)讀編目權(quán)威性的著錄標(biāo)準(zhǔn),在揭示文獻(xiàn)信息本質(zhì)特征方面具有得天獨(dú)厚的優(yōu)勢(shì)。早在1995年,USMARC(美國(guó)國(guó)家標(biāo)準(zhǔn)機(jī)讀目錄)就增加了856字段,即電子資源地址與存取字段(Electronic Location and Access),利用每一個(gè)856字段來準(zhǔn)確地指向一個(gè)網(wǎng)址,彌補(bǔ)了萬(wàn)維網(wǎng)統(tǒng)一資源定位系統(tǒng)URL(Uniform Resource Locator)的不足,因而對(duì)于質(zhì)量較高的網(wǎng)絡(luò)信息可采用MARC格式著錄。同時(shí),也應(yīng)當(dāng)看到,由于MARC格式太過于復(fù)雜、缺乏靈活性,造成對(duì)大量的網(wǎng)絡(luò)信息進(jìn)行著錄成本高、效率低等不足。于是一種全新的信息描述工具DC(Dublin Core)元數(shù)據(jù)方式開始在網(wǎng)絡(luò)資源組織中發(fā)揮著越來越明顯的優(yōu)勢(shì),DC即都柏林核心,由于DC元數(shù)據(jù)已被結(jié)構(gòu)化,并支持字段查詢,為從根本上解決網(wǎng)絡(luò)信息資源的組織與搜尋提供了切實(shí)有效的方法。
目前眾多網(wǎng)絡(luò)搜索工具的使用方式不僅多樣化,且信息覆蓋面又太廣,用戶往往在查找某一特定學(xué)科信息時(shí),一方面使得任何一個(gè)檢索工具都可以查詢利用,另一方面由于這類網(wǎng)絡(luò)檢索工具的專業(yè)性不強(qiáng),致使檢索出的信息結(jié)果系統(tǒng)性、完整性都較差。
有實(shí)力的圖書館應(yīng)根據(jù)學(xué)科分工將本專業(yè)的網(wǎng)絡(luò)信息按事先約定的某種體系概念分門別類地加以組織,形成用戶特定需要的序列化有效信息資源,并同時(shí)開發(fā)與之相配套的專業(yè)搜索引擎?;蛘呓柚陬愃芌obot的智能代理軟件,將網(wǎng)上有價(jià)值的主頁(yè)或文章等信息自動(dòng)取回并進(jìn)行排序、索引,形成一個(gè)詳盡的可供用戶按學(xué)科查詢的Web頁(yè)專業(yè)數(shù)據(jù)指引庫(kù)[1]。由于這類指引庫(kù)采用學(xué)科知識(shí)組織信息資源,故能從宏觀上為用戶提供一張掌握信息資源的“網(wǎng)上地圖”,使人們根據(jù)這張“知識(shí)地圖”能思路清晰地查找某一類信息,從而避免了“迷路”問題的發(fā)生,它對(duì)希望查詢某一范疇、學(xué)科專業(yè)方面信息(主要是網(wǎng)址)的用戶很適用。
現(xiàn)實(shí)中不難發(fā)現(xiàn),由于缺乏統(tǒng)一的整合技術(shù)或者根本就沒有考慮過整合的問題,致使許多研發(fā)出來的網(wǎng)絡(luò)資源盡管獨(dú)立使用效果很好,但放在非整合環(huán)境中使用時(shí)效率就大打折扣。比如,由于無(wú)法互相跨庫(kù)鏈接檢索,查詢相同的課題就不得不在諸多的數(shù)據(jù)庫(kù)中重復(fù)查找;用戶在索引數(shù)據(jù)庫(kù)中找到了所需要的篇名信息后,則必須退出該系統(tǒng),重新進(jìn)入全文數(shù)據(jù)庫(kù)查找原文等。非整合的網(wǎng)絡(luò)信息確實(shí)影響了用戶對(duì)信息資源的有效利用,將各種異構(gòu)信息資源整合于同一個(gè)系統(tǒng)已成為5G時(shí)代發(fā)展的必然。理想的資源整合應(yīng)該是在制定網(wǎng)絡(luò)信息產(chǎn)品統(tǒng)一開發(fā)標(biāo)準(zhǔn)的基礎(chǔ)上,把不同的信息資源通過一致的對(duì)外接口無(wú)縫透明地連接在一起,使用戶能方便快捷地瀏覽和訪問不同的異構(gòu)信息。從最初檢索到最后獲得所需原文,都在統(tǒng)一的整合系統(tǒng)中完成,用戶感覺如同是在一個(gè)資源豐富的“信息超市”(Information Supermarket)里瀏覽和選擇自己的所需信息,這種理想的資源整合應(yīng)該成為網(wǎng)絡(luò)信息開發(fā)利用中所追求的一個(gè)重要目標(biāo)。
基于Z39.50協(xié)議的系統(tǒng)和模塊,是目前實(shí)現(xiàn)網(wǎng)上異構(gòu)信息整合的理想工具。Z39.50協(xié)議是用來定義計(jì)算機(jī)之間信息檢索的標(biāo)準(zhǔn)通信協(xié)議,它不僅可以屏蔽不同系統(tǒng)、平臺(tái)和文件格式的異構(gòu)性,同時(shí)又規(guī)定了異構(gòu)信息系統(tǒng)之間傳遞數(shù)據(jù)的標(biāo)準(zhǔn)方法,通過自我編碼和解碼,靈活動(dòng)態(tài)地選擇和容納了多個(gè)數(shù)據(jù)系統(tǒng),使用不同數(shù)據(jù)格式的信息交換雙方只要都遵循Z39.50協(xié)議,Z39.50協(xié)議便自動(dòng)實(shí)現(xiàn)聯(lián)機(jī)數(shù)據(jù)交換[2]。這樣,用戶通過屏蔽異構(gòu)信息間的差異來達(dá)到資源整合,從而實(shí)現(xiàn)對(duì)Web上異構(gòu)數(shù)據(jù)庫(kù)進(jìn)行檢索和互訪。
圖書館所提供的信息資源主要有:電子書刊資源、聯(lián)機(jī)數(shù)據(jù)庫(kù)、OPAC目錄以及不同出版商生產(chǎn)的脫機(jī)或光盤(網(wǎng)絡(luò)版)數(shù)據(jù)庫(kù)等,這些信息資源的用戶界面復(fù)雜且繁多,有些不僅需要在用戶端安裝下載專用閱讀和檢索軟件,有時(shí)更需進(jìn)行一定的參數(shù)設(shè)置方能使用。可見,讓客戶掌握、熟悉如此復(fù)雜的界面是相當(dāng)困難的,因此,構(gòu)造友好的集成化用戶界面,方便用戶的信息查詢,已成為圖書館網(wǎng)絡(luò)信息資源開發(fā)和利用中的又一重要工具。
用戶界面的集成化處理,可利用人們熟悉和掌握的Web技術(shù)進(jìn)行界面優(yōu)化,也就是將原來需要用戶端下載專用軟件才能使用的數(shù)據(jù)庫(kù)產(chǎn)品轉(zhuǎn)換成用Web瀏覽器查詢,或通過Web頁(yè)的形式達(dá)到交互式的分類信息檢索。這樣客戶只需掌握熟悉的Web瀏覽器檢索方法,就能非常容易地訪問和獲取眾多網(wǎng)絡(luò)信息資源,從而大幅度提高各類信息的獲取速度。
實(shí)踐證明,通過Z39.50協(xié)議也是優(yōu)化用戶界面的一種行之有效途徑。如前文所述,由于Z39.50協(xié)議為客戶提供了一種數(shù)據(jù)傳輸?shù)臉?biāo)準(zhǔn)接口,因此,用戶在使用時(shí),不需要熟悉對(duì)方檢索系統(tǒng)的軟硬件配置及命令,只要遵循Z39.50協(xié)議,利用自己所掌握的檢索方法和用戶界面就可以方便查詢到對(duì)方的數(shù)據(jù)庫(kù)系統(tǒng)。事實(shí)上,一些集成化的試驗(yàn)或應(yīng)用系統(tǒng)已經(jīng)出現(xiàn),比較突出的有Ohiolink(美國(guó)俄亥俄州大學(xué)和學(xué)院圖書館共同組建的地區(qū)性電子文獻(xiàn)資源共享網(wǎng)絡(luò))以及我國(guó)的CALIS系統(tǒng)等。
有網(wǎng)絡(luò)檢索經(jīng)驗(yàn)的用戶都知道,使用InfoSeek、Looksmart等檢索軟件時(shí),信息內(nèi)容特征抽取復(fù)雜,有時(shí)輸入一個(gè)檢索式,往往得到一大堆網(wǎng)址,用戶只能依次瀏覽,從中一個(gè)一個(gè)篩選出極少符合自己需求的信息,最后得到數(shù)據(jù)不僅正確性和可靠性缺乏保障,而且費(fèi)時(shí)費(fèi)力,查詢效果難盡人意。
網(wǎng)絡(luò)環(huán)境下為幫助用戶快速、全面、準(zhǔn)確地查詢到所需信息,研發(fā)智能化的搜索引擎將成為圖書館參與信息資源開發(fā)與利用的關(guān)鍵內(nèi)容。目前的理論研究認(rèn)為,5G時(shí)代的智能搜索引擎不僅保留傳統(tǒng)的快速檢索及相關(guān)度排序等基本功能外,同時(shí)又要開發(fā)出用戶興趣自動(dòng)識(shí)別、用戶角色登記、智能化信息濾、內(nèi)容的語(yǔ)義理解和推送等拓展延伸功能,此外,還應(yīng)具備了跨平臺(tái)工作和處理混合文檔結(jié)構(gòu)的多文種能力,它既能處理SGML(Standard Generalized Markup Language標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言);又能處理XML(Extensible Markup Language標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言的子集)和HTML(HyperText Markup Language超文件標(biāo)示語(yǔ)言)文檔以及其他類型的文檔,比如WPS Word等[3]。由于智能搜索引擎直接采用以知識(shí)庫(kù)為基礎(chǔ)的語(yǔ)義分析,將信息檢索從現(xiàn)有的基于關(guān)鍵詞層面上升到基于概念(或知識(shí))的層面,故能夠提供更方便、更確切的搜索服務(wù)。智能搜索引擎將向以下幾個(gè)主要方向發(fā)展。
4.4.1 智能推送技術(shù)
智能搜索引擎利用漢語(yǔ)分詞、句法分析以及統(tǒng)計(jì)理論有效地理解了用戶的請(qǐng)求,通過觀察用戶的行為,根據(jù)用戶對(duì)信息的回饋,了解用戶的興趣愛好,在此基礎(chǔ)上將自動(dòng)收集、整理用戶感興趣的網(wǎng)絡(luò)信息,并選擇最佳時(shí)機(jī)主動(dòng)推送到用戶的頁(yè)面前,免去了用戶被動(dòng)搜索的困擾。
4.4.2 駕馭書簽技術(shù)
通過挖掘用戶日常使用的書簽或收藏夾中內(nèi)在的價(jià)值,形成一個(gè)概念檢索體系,再利用類似鏈接評(píng)價(jià)分析法,對(duì)逐條記錄的潛在重要性進(jìn)行評(píng)判并打出相應(yīng)的分值,幫助用戶利用那些可能被大搜索引擎忽略掉的重要資源。
4.4.3 爬行代理技術(shù)
針對(duì)網(wǎng)上信息的動(dòng)態(tài)性,利用被稱作Robot、Spider等名稱的爬行代理軟件,通過啟發(fā)式學(xué)習(xí)并采取最有效的搜索策略,在網(wǎng)上爬行收集、整理信息,自動(dòng)完成在線信息的索引。
4.4.4 元搜索引擎技術(shù)
元搜索引擎(Meta-Search Engine)查詢時(shí)調(diào)用其他多個(gè)獨(dú)立的搜索引擎,并對(duì)從多個(gè)搜索引擎返回的查詢結(jié)果進(jìn)行處理(主要涉及測(cè)試連接、格式轉(zhuǎn)換、去重排序等),以統(tǒng)一的界面顯示。它不需要自己的數(shù)據(jù)庫(kù),只需存儲(chǔ)連接其他站點(diǎn)的信息,采用這種技術(shù),能夠方便地實(shí)現(xiàn)各館之間數(shù)據(jù)和資源的互訪與共享,便檢全率大大提高[4]。
由于網(wǎng)絡(luò)數(shù)字化信息的拷貝復(fù)制相當(dāng)容易,因而其版權(quán)問題十分嚴(yán)重,圖書館如何在版權(quán)法允許的范圍內(nèi)合法地開發(fā)利用信息資源是當(dāng)前一個(gè)比較突出的問題,為此,筆者強(qiáng)調(diào)應(yīng)做好以下幾方面的工作。
(1)密切關(guān)注版權(quán)立法動(dòng)態(tài),及時(shí)根據(jù)版權(quán)法的最新發(fā)展動(dòng)向,調(diào)整自己的工作策略和方針,讓自己的行為更加符合法律準(zhǔn)則。
(2)完善信息版權(quán)保護(hù)機(jī)制,系統(tǒng)應(yīng)具有嚴(yán)格的版權(quán)認(rèn)證功能,一般可通過用戶賬號(hào)、數(shù)字信息身份標(biāo)識(shí)(DOI)和文件自我保護(hù)(SPD)等方式來實(shí)現(xiàn),從而有效地控制網(wǎng)絡(luò)用戶合法使用信息資源。
(3)教育和引導(dǎo)用戶遵守版權(quán)法,增強(qiáng)知識(shí)產(chǎn)權(quán)意識(shí)和信息價(jià)值觀念。避免卷入版權(quán)糾紛。
(4)加強(qiáng)與版權(quán)人、出版者的溝通與協(xié)作,積極參與立法,維護(hù)公眾利益。
毋庸置疑,隨著機(jī)器深度學(xué)習(xí)技術(shù)、爬蟲技術(shù)和AI推送技術(shù)等網(wǎng)絡(luò)信息挖掘所需的支撐技術(shù)的逐步成熟,網(wǎng)絡(luò)信息資源的開發(fā)與利用將朝著個(gè)性化代理模式的方向發(fā)展,即根據(jù)網(wǎng)絡(luò)信息的屬性和用戶需求,提供一個(gè)多媒體、多途徑的信息資源統(tǒng)一開發(fā)環(huán)境,以人們習(xí)慣的方式逐層、逐類地實(shí)現(xiàn)網(wǎng)絡(luò)信息資源最大效用。