尹娟
摘 要: 現(xiàn)如今,全國各地的高校均已在網(wǎng)絡(luò)技術(shù)和信息基礎(chǔ)的支持下建立起數(shù)字圖書館,并對其進(jìn)行不斷的更新和完善。搜索引擎技術(shù)是當(dāng)前數(shù)字圖書館中支持圖書檢索的重要工具,也是數(shù)字圖書館先進(jìn)技術(shù)和功能服務(wù)日趨完善的表現(xiàn)形式。本文從高校數(shù)字圖書館中必不可少的檢索工具入手,以雅虎搜索引擎為例,對數(shù)字圖書館中依托搜索引擎技術(shù)建立的檢索工具及該工具的功能和工作原理進(jìn)行分析討論。
關(guān)鍵詞: 數(shù)字圖書館 檢索工具 網(wǎng)絡(luò)信息資源
高校數(shù)字圖書館是高校學(xué)生、教師及其他相關(guān)人員獲取信息資源的最佳途徑,圖書館檢索工具是大家從數(shù)字圖書館中獲取重要信息資源的幫手。數(shù)字圖書館有專業(yè)的檢索工具,才能正常發(fā)揮信息檢索功能,讓讀者快速、高效地檢索信息,幫助讀者找到自己想要的準(zhǔn)確的信息資源。
一、國內(nèi)高校數(shù)字圖書館建設(shè)現(xiàn)狀
從根本上看,數(shù)字圖書館應(yīng)該是重要的數(shù)字信息資源匯聚地,在網(wǎng)絡(luò)環(huán)境下,數(shù)字圖書館可以進(jìn)行高效的數(shù)字化信息組織和查詢工作,還可以為廣大讀者解決數(shù)字化信息服務(wù)問題[1]。
(一)高校數(shù)字圖書館建設(shè)現(xiàn)狀
現(xiàn)實中的數(shù)字圖書館建設(shè)并不是千篇一律的,而是根據(jù)現(xiàn)實需求和實際情況,將其建設(shè)成為多種形式,其中比較突出的幾項包括:第一,類似中國數(shù)字圖書館工程這樣的數(shù)字化系統(tǒng)工程,由國家主導(dǎo)建設(shè),需要投入大量數(shù)字技術(shù)和數(shù)字信息資源。第二,類似超星數(shù)字圖書館的網(wǎng)上書店,用戶可以直接在網(wǎng)絡(luò)上借書、還書、看書。第三,類似上海數(shù)字圖書館這一類直接由傳統(tǒng)的實體圖書館轉(zhuǎn)化以后的類型,需要將其中的書籍內(nèi)容和形式進(jìn)行數(shù)字化轉(zhuǎn)變。
現(xiàn)在仍有許多地方在如火如荼地建設(shè)數(shù)字圖書館,而且圖書館的功能和作用不斷完善,不少高校數(shù)字圖書館已經(jīng)同時具備以上三種功能和特點。這樣的建設(shè)工作是具有重要意義的:一是讓中文網(wǎng)絡(luò)領(lǐng)域中的學(xué)術(shù)信息資源得到了極大的豐富;二是為網(wǎng)絡(luò)上的各類信息檢索用戶提供便利,要從圖書館查資料,可以借助網(wǎng)絡(luò)實現(xiàn)。
其實在高校數(shù)字圖書館的建設(shè)過程中也遇到了一些問題,其中最迫切需要解決的問題是對信息量巨大網(wǎng)絡(luò)信息資源的組織工作不夠重視。工作量大并且聲名遠(yuǎn)播的中國數(shù)字圖書館、上海數(shù)字圖書館、清華大學(xué)建筑數(shù)字圖書館等都存在這一問題。
當(dāng)然,高校數(shù)字圖書館在運(yùn)營發(fā)展過程中已經(jīng)漸漸意識到網(wǎng)絡(luò)信息資源的組織和管理是非常重要的,已經(jīng)開始在這方面加大關(guān)注度,并設(shè)置了一些小欄目用于參與網(wǎng)絡(luò)信息資源的組織。
(二)數(shù)字圖書館的指標(biāo)
專業(yè)的數(shù)字圖書館應(yīng)該具備以下三個指標(biāo):
第一,數(shù)字化資源豐富。作為一個完整的圖書館,必定擁有豐富的圖書資源,而將圖書館轉(zhuǎn)化成為數(shù)字圖書館以后,原有的圖書資源會轉(zhuǎn)化成為數(shù)字化資源,所以成功轉(zhuǎn)化的數(shù)字化圖書館應(yīng)該具有豐富的數(shù)字化資源。按照建設(shè)要求,屬于圖書館中必須具備的數(shù)字資源的內(nèi)容有:圖書館中的OPAC書刊目錄庫、全圖書館中各類書籍匯總后的數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、圖書館的網(wǎng)絡(luò)數(shù)據(jù)庫、以網(wǎng)絡(luò)信息為主的網(wǎng)絡(luò)信息資源庫,等等。
第二,能提供信息資源檢索服務(wù)。數(shù)字圖書館的信息資源檢索服務(wù)能讓用戶從數(shù)字圖書館中檢索獲取Web,F(xiàn)TP,Gopher,Wais,Usenet等互聯(lián)網(wǎng)絡(luò)信息資源。除此之外,還能給廣大用戶提供書刊和書目信息的檢索服務(wù),以及音頻、視頻形式的資源檢索服務(wù)。
第三,擁有專門的信息檢索界面,并能在該界面處理與信息檢索有關(guān)的各種操作。數(shù)字圖書館建成以后使用的是統(tǒng)一的檢索界面,對數(shù)字圖書館中各類型信息的檢索及難度較高的跨數(shù)據(jù)的檢索都可以在這個統(tǒng)一的界面上操作。
二、搜索引擎的應(yīng)用
搜索引擎技術(shù)的應(yīng)用是實現(xiàn)數(shù)字化圖書館檢索的關(guān)鍵,分析數(shù)字圖書館檢索一定要從廣泛應(yīng)用的搜索引擎技術(shù)入手。
(一)搜索引擎
網(wǎng)絡(luò)用戶如果要在網(wǎng)絡(luò)上查找信息或者是鏈接到自己感興趣的網(wǎng)站之中都要借助搜索引擎的幫助,否則只有用戶死記硬背網(wǎng)址信息,才能避免迷失于浩瀚無邊的網(wǎng)絡(luò)信息海洋之中。除了信息搜索方面的功能和作用以外,搜索引擎還可以用來自動搜集和標(biāo)引網(wǎng)絡(luò)上的信息,用戶可以通過關(guān)鍵詞、關(guān)鍵語句等進(jìn)行信息檢索,而且通過這樣的方式搜索信息時會更加方便、高效、快速。當(dāng)然,要全面強(qiáng)化檢索效果,還需要對搜索引擎的應(yīng)用進(jìn)行人工干預(yù),以免自然狀態(tài)下檢索到的信息質(zhì)量不高,信息檢索的準(zhǔn)確率偏低。
我們現(xiàn)在能夠通過瀏覽器看到相關(guān)的信息檢索結(jié)果,主要得益于與搜索引擎在網(wǎng)絡(luò)中發(fā)揮作用。據(jù)悉,要實現(xiàn)最終看到檢索結(jié)果這一步,需要先通過一些專業(yè)的搜索軟件從互聯(lián)網(wǎng)上收集網(wǎng)頁數(shù)據(jù)、信息內(nèi)容,并且將收集到的網(wǎng)頁信息交給網(wǎng)站中的檢索系統(tǒng)。在這一步過程中比較適用的搜索軟件是Robot,Spider,WebCrawler等。第二步是讓檢索系統(tǒng)發(fā)揮作用對網(wǎng)頁中的每一個信息都進(jìn)行掃面和排序,排序的時候可以根據(jù)關(guān)鍵性詞匯出現(xiàn)的頻率排序,這樣可以確保最后輸出的排序結(jié)果更接近用戶的實際需要。第三步是借助頁面生成系統(tǒng)再次將檢索過程中輸出的排序結(jié)果組裝成為網(wǎng)絡(luò)頁面,讓我們從網(wǎng)絡(luò)頁面上清楚地看到自己想要查找的信息[2]。
(二)雅虎公司的搜索引擎應(yīng)用分析
雅虎的搜索引擎應(yīng)用是比較先進(jìn)的,值得大眾學(xué)習(xí)和借鑒。從雅虎搜索引擎應(yīng)用現(xiàn)狀及數(shù)字化圖書館發(fā)展趨勢看,數(shù)字化圖書館中搜索引擎的應(yīng)用可借鑒雅虎的以下兩種模式:
第一,雅虎的目錄搜索引擎。目錄搜索引擎指的是采用人工標(biāo)引方式組織網(wǎng)絡(luò)信息的分類目錄體系,雅虎采用的是這樣的目錄體系。因為在分類目錄體系下,雅虎提供的目錄服務(wù)中帶有搜索功能,所以常有人將分類目錄體系乘坐目錄搜索引擎。雖然目錄搜索引擎的搜索范圍被限定在目錄系統(tǒng)之中,依然能在目錄系統(tǒng)中為用戶搜索網(wǎng)站,而且因為搜索結(jié)果會以相關(guān)網(wǎng)站地址為返回信息內(nèi)容,被一部分人稱為網(wǎng)站搜索引擎。當(dāng)然,這種戲稱的目錄搜索引擎與真正的搜索引擎之間是有著差別的,二者可以說是完全不同的兩個概念。雅虎有需要的時候肯定會從外引進(jìn)搜索引擎,不過雅虎本身的分類目錄體系并不會被淘汰,因為雅虎自由目錄體系同樣能為雅虎內(nèi)部搜索帶來幫助。
第二,自身目錄服務(wù)和Google搜索引擎相結(jié)合。雅虎公司走自身的目錄服務(wù)和Google搜索引擎結(jié)合的模式,是因為以“搜索引擎”聞名全球的雅虎公司本身并不做搜索引擎,真正屬于雅虎公司自己的只是一個網(wǎng)站目錄搜索引擎,即只能搜索自己網(wǎng)站目錄的“搜索引擎”,因為這種自身目錄服務(wù)確實與“搜索”沾邊,所以被大家稱為目錄搜索引擎。
雅虎公司應(yīng)用的全文搜索引擎是和大多數(shù)的企業(yè)的門戶網(wǎng)站一樣,從專做搜索引擎的公司引進(jìn)的。現(xiàn)在國際上做搜索引擎比較有名的公司有“Inktomi”公司,微軟應(yīng)用的也是這一家公司提供的搜索引擎。在國內(nèi)市場中能夠為國人和個大企業(yè)提供搜索引起服務(wù)的是百度。當(dāng)然,雅虎公司與這些直接引擎搜索引擎的公司有所不同,因為雅虎公司引進(jìn)的Google搜索引擎還需要與雅虎自身的目錄服務(wù)系統(tǒng)配合使用,而且雅虎現(xiàn)在對兩種搜索工具的配合非常完美,優(yōu)勢突出。基于這方面的原因,采用了統(tǒng)一搜索界面的雅虎公司搜索系統(tǒng),在人工標(biāo)引和自動標(biāo)引兩個方面都表現(xiàn)得很優(yōu)秀。
三、國內(nèi)高校數(shù)字圖書館中的搜索引擎應(yīng)用
國內(nèi)高校數(shù)字圖書館的建設(shè)如火如荼,隨著建設(shè)經(jīng)驗的豐富和數(shù)字圖書館建設(shè)要求的不斷嚴(yán)格,搜索引擎技術(shù)的應(yīng)用勢在必行。事實上制約搜索引擎應(yīng)用的技術(shù)難題、市場需求問題等均已在數(shù)字圖書館發(fā)展過程中被攻破,現(xiàn)在應(yīng)用搜索引擎技術(shù)建設(shè)數(shù)字圖書館檢索正合適。
(一)高校數(shù)字圖書館搜索引擎技術(shù)難關(guān)已經(jīng)攻破
現(xiàn)階段國內(nèi)數(shù)字圖書館檢索的建設(shè)條件已經(jīng)成熟,數(shù)字圖書館檢索功能所需的搜索引擎技術(shù)和技術(shù)的應(yīng)用都已不成問題。首先,國內(nèi)數(shù)字化圖書館領(lǐng)域已經(jīng)實現(xiàn)了對OPAC書刊目錄庫的標(biāo)準(zhǔn)化發(fā)展要求。其次,數(shù)字圖書館中所需要的全文數(shù)據(jù)庫資源已經(jīng)非常豐富,這些資源基本上是通過自建和購買的方式獲取的。再次,主持工作的相關(guān)人員已經(jīng)掌握先進(jìn)的技術(shù),能夠?qū)⑿畔①Y源進(jìn)行優(yōu)化整合,還能夠幫助用戶實現(xiàn)對信息資源的跨庫檢索。最后,為專業(yè)檢索服務(wù)系統(tǒng)的建設(shè)提供幫助,讓這個檢索系統(tǒng)變得更加完善。
(二)高校數(shù)字圖書館對搜索引擎技術(shù)的應(yīng)用需求增加
第一,人工標(biāo)引方式逐漸力不從心。在建設(shè)數(shù)字圖書館以前,圖書館一貫采用的都是人工標(biāo)引的方式,這種標(biāo)引方式在雅虎等企業(yè)內(nèi)部應(yīng)用還比較實用,但對數(shù)字化圖書館來說卻有些不合時宜。一是數(shù)字化圖書館中需要標(biāo)引管理資源內(nèi)容豐富、數(shù)量龐大,完全依靠人工標(biāo)引將是一個浩大的工程,而且效率極低?,F(xiàn)在人工標(biāo)引已經(jīng)無法滿足數(shù)字圖書館的標(biāo)引率要求,必須轉(zhuǎn)而應(yīng)用更加高效的標(biāo)引方式。二是面對網(wǎng)絡(luò)信息資源的時候,人工標(biāo)引的方式不太合適。網(wǎng)絡(luò)信息資源的數(shù)量、種類規(guī)模更加龐大,所以在處理網(wǎng)絡(luò)信息資源的時候,根本無法采用人工標(biāo)引的方式。如果不顧現(xiàn)實情況,強(qiáng)制采取人工標(biāo)引的方式,肯定會造成進(jìn)度緩慢,耗時長久,造成大量人力、物力和資金成本方面的浪費。例如,“211工程”立項的一個高校圖書館共建項目,這個項目要求建設(shè)一個CALIS網(wǎng)絡(luò)重點學(xué)科導(dǎo)航庫。這個重點學(xué)科導(dǎo)航書庫的建設(shè)需要納入213個重點學(xué)科導(dǎo)航庫及6萬個領(lǐng)域內(nèi)有分量的學(xué)術(shù)網(wǎng)站,為了實現(xiàn)這個建設(shè)目標(biāo),拉來了48個圖書館,花費了將近2年的時間,期間的人力和財力浪費更是嚴(yán)重??傮w而言,建設(shè)效率非常低。
第二,搜索引擎技術(shù)表現(xiàn)突出。如果說人工標(biāo)引方式在網(wǎng)絡(luò)資源庫建設(shè)和管理方面力不從心的表現(xiàn),讓大家越來越重視自動化的搜索引擎技術(shù)的話,那么,搜索引擎技術(shù)自帶的優(yōu)勢則加快了數(shù)字圖書館資源建設(shè)中引進(jìn)搜索引擎技術(shù)的步伐。引進(jìn)搜索引擎技術(shù)的用途:一是節(jié)省人力和相關(guān)的投入,例如,資金方面的投入。在達(dá)到節(jié)約效果的同時還能依靠技術(shù)保證信息資源的完整性和全面性。二是因為有雅虎公司的正確示范,讓數(shù)字圖書館找到了自動標(biāo)引和人工標(biāo)引相結(jié)合的正確方式,引進(jìn)搜索引擎技術(shù)能夠加快自動標(biāo)引與人工標(biāo)引的結(jié)合,從而進(jìn)一步凸顯搜索引擎技術(shù)的重要性和優(yōu)越性。
四、高校數(shù)字圖書館檢索工具分析
數(shù)字圖書館檢索工具是圖書館用戶查詢信息、查找資料的時候使用的檢索服務(wù)工具,這個工具的建設(shè)和應(yīng)用都需要由一個完善的檢索服務(wù)系統(tǒng)構(gòu)成,由龐大的數(shù)字信息資源庫支持,最后還要設(shè)計統(tǒng)一的檢索平臺和用戶界面。
(一)數(shù)字圖書館檢索工具與搜索引擎的區(qū)別
數(shù)字圖書館中的檢索工具和互聯(lián)網(wǎng)絡(luò)中的搜索引擎都是為用戶提供信息檢索、關(guān)鍵字搜索等相關(guān)服務(wù)的工具或者是系統(tǒng),但二者之間并非完全重合。從二者的實際應(yīng)用情況和數(shù)字化圖書館的發(fā)展情況來看,二者的區(qū)別很大。首先,數(shù)字圖書館檢索工具可提供的檢索服務(wù)更周到全面,服務(wù)范圍更加廣闊。檢索工具不僅能夠提供搜索引起在互聯(lián)網(wǎng)絡(luò)上提供的網(wǎng)絡(luò)信息資源檢索,還能夠?qū)?shù)字圖書館中各種專業(yè)的資料信息和資源庫進(jìn)行檢索。其次,搜索引擎提供的是與人工標(biāo)引方式相對的自動標(biāo)引方式,在進(jìn)行網(wǎng)絡(luò)信息資源和數(shù)字圖書館資源檢索和標(biāo)引的時候固然比人工標(biāo)引更高效,但會出現(xiàn)有干擾信息的情況。數(shù)字圖書館檢索工具將自動化標(biāo)引發(fā)方式包含其中,能夠與人工標(biāo)引方式相互配合。
(二)高校數(shù)字圖書館檢索功能
第一,跨庫檢索功能。一個正規(guī)圖書館中需要建設(shè)多個資源庫,跨庫檢索的功能就是為了讓用戶檢索信息的時候不出現(xiàn)隔閡,能夠直接對多個資源庫進(jìn)行檢索,從中尋找自己想要的信息資源。
第二,檢索工具支持進(jìn)行全文檢索。全文檢索功能指的是數(shù)字圖書館檢索工具能夠憑借關(guān)鍵字檢索到選定的網(wǎng)絡(luò)信息資源庫中做過內(nèi)容標(biāo)引的部分,并將檢索到的所有匹配結(jié)果如實反饋給用戶,讓用戶從中獲得自己想要的信息。當(dāng)然,在支持這方面的檢索工作的前提是搜集整理網(wǎng)絡(luò)信息資源的時候,數(shù)字圖書館檢索工具對各個資料所在網(wǎng)站和網(wǎng)頁全文都進(jìn)行了收集和標(biāo)引,再入庫。
第三,提供多途徑檢索服務(wù)功能。常規(guī)的檢索途徑就是輸入關(guān)鍵詞檢索,但這樣的檢索方式太過單一,不夠嚴(yán)謹(jǐn),無法讓用戶更快完成檢索工作。為了讓用戶檢索獲得的結(jié)果更加接近自己的使用需求,必須在單一的關(guān)鍵詞檢索方式基礎(chǔ)上進(jìn)行擴(kuò)展,例如增加自然語檢索或者是主題詞檢索等方式,這樣可以增強(qiáng)檢索結(jié)果的準(zhǔn)確性。因為用戶的檢索需要,應(yīng)該讓檢索工具支持以下幾種檢索方式:布爾邏輯運(yùn)算檢索、特征字段檢索、權(quán)重檢索和支持相鄰檢索等。
第四,目錄檢索功能得到支持。該項功能是根據(jù)雅虎的目錄檢索系統(tǒng)設(shè)置,同樣具有內(nèi)部的目錄檢索服務(wù)能力,而且從雅虎經(jīng)驗來看,檢索工具應(yīng)該對功能給予高度支持。
第五,支持多媒體信息檢索。隨著現(xiàn)代社會信息資源的形式變得越來越多種多樣,處理信息的設(shè)備、工具應(yīng)該具備處理多樣化信息的功能。檢索工具支持多媒體信息檢索功能,說明檢索工具能進(jìn)行多種形式信息資源的檢索。目前除了文本信息資源檢索外,還需要檢索工具支持的多媒體信息檢索功能包括:針對圖像信息的檢索功能,針對聲頻或者是視頻的信息檢索功能。
(三)高校數(shù)字圖書館檢索的優(yōu)勢
第一,在檢索結(jié)果排序方面的優(yōu)勢。高校數(shù)字圖書館中數(shù)字信息資源的檢索結(jié)果一般是按照時間和用戶查詢信息的相關(guān)性排序。
第二,檢索操作流暢、舒心。高校數(shù)字圖書館采用的都是統(tǒng)一的檢索界面,而且檢索界面設(shè)計簡潔、大方,賞心悅目,這樣大家在不同高校數(shù)字圖書館檢索的時候都能熟練操作。高校數(shù)字圖書館的檢索結(jié)果顯示方式統(tǒng)一,所有檢索結(jié)果都能按照標(biāo)準(zhǔn)格式,清晰明了地展現(xiàn)出來,方面用戶了解情況。
第三,數(shù)字圖書館的檢索功能具有自動化特征。自動化是數(shù)字時代的標(biāo)志,數(shù)字圖書館的檢索便具有這種自動化的特征,能夠?qū)W(wǎng)絡(luò)上的網(wǎng)址進(jìn)行自動收集、對網(wǎng)頁萬文進(jìn)行自動標(biāo)引。當(dāng)然,所有的自動化操作最后都需要經(jīng)過一道人工審定的程序,這么做是為了進(jìn)一步審查信息資源的真實性和準(zhǔn)確性,避免完全自動化操作造成的錯誤得不到更改。從這一點可以看出人工服務(wù)是非常重要的,至少在自動化檢索達(dá)到100%準(zhǔn)確以前,人工審查這一步不可省略。
第四,數(shù)字圖書館檢索的索引范圍廣闊。網(wǎng)絡(luò)中所有網(wǎng)頁基本上都被包含在數(shù)字圖書館的索引范圍內(nèi)。同時數(shù)字圖書館的檢索工具,還能夠借助搜索引起技術(shù)對網(wǎng)頁中的詞句、內(nèi)容進(jìn)行分析、審查,經(jīng)過專門辨別分析以后符合要求的網(wǎng)絡(luò)數(shù)字信息才會被正式加入數(shù)字圖書館的網(wǎng)絡(luò)信息資源庫,成為被檢索工具標(biāo)引的內(nèi)容。
五、結(jié)語
隨著越來越專業(yè)的搜索引擎技術(shù)的出現(xiàn),還有以搜索引擎技術(shù)為基礎(chǔ)構(gòu)建數(shù)字圖書館檢索工具的技術(shù)的逐步完善,現(xiàn)在已經(jīng)擁有了打造數(shù)字圖書館檢索系統(tǒng)的能力,圖書館提供最健全檢索功能的基礎(chǔ)條件已經(jīng)齊備。考慮到,數(shù)字圖書館檢索功能設(shè)置是一個系統(tǒng)工程,光依靠搜索引擎技術(shù)是不可行的,還需要有信息資源庫的支持。本文從國內(nèi)高校數(shù)字圖書館建設(shè)現(xiàn)狀入手,通過對國內(nèi)高校數(shù)字圖書館中的搜索引擎應(yīng)用及國內(nèi)高校數(shù)字圖書館檢索工具的分析,證實了搜索引擎技術(shù)的應(yīng)用與國內(nèi)高校數(shù)字圖書館檢索工具的設(shè)置有重大關(guān)聯(lián),而且聯(lián)系十分密切。另外,通過本文的分析研究,還應(yīng)該認(rèn)識到充分而準(zhǔn)確地應(yīng)用搜索引擎技術(shù),能讓數(shù)字圖書館檢索工具更加專業(yè)和高效,也能讓高校數(shù)字圖書館檢索優(yōu)勢更加強(qiáng)勁。
參考文獻(xiàn):
[1]韓慧琴,劉柏嵩.數(shù)字圖書館中的知識發(fā)現(xiàn)[J].情報學(xué)報,2001(3).
[2]黃海.中文搜索引擎核心技術(shù)之爭[J].圖書館雜志,2001(3).
[3]段其憲,時永梅.網(wǎng)絡(luò)檢索工具的比較研究[J].情報科學(xué),2001(6).
[4]徐亞先.搜索引擎的功能概述與研究熱點[J].情報科學(xué),2001(3).