摘要:分析了當(dāng)前通用搜索引擎的原理和體系結(jié)構(gòu),研究了通用搜索引擎在應(yīng)用于校園網(wǎng)信息檢索時無法完整準(zhǔn)確的不足之處以及校園Web信息的特點(diǎn),總結(jié)了校園網(wǎng)搜索引擎應(yīng)該具有特性以及建設(shè)的必要性。
關(guān)鍵詞:校園內(nèi)網(wǎng)搜索 搜索引擎
中圖分類號:TN915 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2012)01(b)-0013-02
隨著我校的不斷發(fā)展,學(xué)校越來越重視數(shù)字化校園的建設(shè),并迅速步入了信息化高速發(fā)展的階段。隨著學(xué)校校園網(wǎng)的不斷完善,這就要求給廣大師生提供一個良好的信息化教學(xué)、科研和管理平臺。目前,校園網(wǎng)資源正變得日益豐富,如何更全面、更準(zhǔn)確地獲取最新、最有效的信息已經(jīng)成為我們把握機(jī)遇、迎接挑戰(zhàn)和獲取成功的重要條件。通用搜索引擎如百度、谷歌(google)雖然都提供了大學(xué)搜索的服務(wù)來實(shí)現(xiàn)對部分高校校園網(wǎng)范圍內(nèi)的網(wǎng)頁搜索,但是其存在一些問題,如更新周期過長,對校園內(nèi)網(wǎng)信息無能為力等,因此,設(shè)計高校信息資源的專業(yè)搜索引擎,對于高校信息資源的共享以及提高信息資源的利用率就顯得非常有必要。
1 通用搜索引擎的體系結(jié)構(gòu)及現(xiàn)狀分析
在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針,這時為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。
1.1 搜索引擎的體系結(jié)構(gòu)
搜索引擎技術(shù)是由信息檢索IR(Information Retrieval)技術(shù)發(fā)展而來,是IR技術(shù)在Web上的擴(kuò)展,信息檢索技術(shù)研究信息的表示、存儲、組織和查詢。現(xiàn)代意義上的全文搜索引擎是指以一定的策略搜集互聯(lián)網(wǎng)上的信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。它具備三大特點(diǎn):事先下載信息,對信息進(jìn)行事先組織,實(shí)時進(jìn)行檢索。搜索引擎也是信息檢索(Information Retrieval)這門學(xué)科的典型應(yīng)用。搜索引擎主要由搜索器、索引器、檢索器和用戶接口四部分組成,其體系結(jié)構(gòu)如圖1所示。
1.2 通用搜索引擎的發(fā)展現(xiàn)狀
目前按照信息搜集方法和工作方式的不同,搜索引擎系統(tǒng)分為三大類。
(1)目錄式搜索引擎:以人工方式進(jìn)行主體歸納和分類,由人工形成信息摘要,并將信息歸類于事先確定的分類目錄中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù),用戶可將查詢限定在某一目錄范圍下進(jìn)行。該類搜索引擎因?yàn)榧尤肓巳说闹悄?,所以信息?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、信息不全面、信息更新不及時。這類搜索引擎的代表是:早期的Yahoo、Magellan等。
(2)機(jī)器人搜索引擎:是面向網(wǎng)頁的全文檢索服務(wù)。由一個稱為爬蟲(spider)的機(jī)器程序以深度優(yōu)先(或廣度優(yōu)先)策略自動地在Internet中搜集信息,將搜集到的信息存入數(shù)據(jù)庫并由索引器為其建立索引,由檢索器根據(jù)用戶的查詢請求檢索索引庫,將相對應(yīng)的查詢結(jié)果返回給用戶。該類搜索引擎的優(yōu)點(diǎn)是不需人工干預(yù)、信息量大、更新及時,缺點(diǎn)是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是Google、Baidu等。
(3)元搜索引擎:元搜索引擎不對Web進(jìn)行遍歷分析,也沒有自己的數(shù)據(jù),而是將用戶的查詢請求同時向多個搜索引擎遞交,然后將各搜索引擎返回的結(jié)果進(jìn)行合并、去重,重新排序統(tǒng)一處理后,返回給用戶。這類搜索引擎的優(yōu)點(diǎn)是能夠在短時間內(nèi)提供相對全面和準(zhǔn)確的信息,缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類索引擎的代表是MetaCrawler、InfoMarket等。
2 校園內(nèi)網(wǎng)搜索引擎構(gòu)建的必要性分析
校園網(wǎng)可以看作以學(xué)校為單位的內(nèi)聯(lián)網(wǎng)(intranet),它與互聯(lián)網(wǎng)(internet)是同質(zhì)的。但是由于應(yīng)用環(huán)境、網(wǎng)站構(gòu)建以及鏈接結(jié)構(gòu)方面的不同,對搜索引擎來說,校園網(wǎng)與公用互聯(lián)網(wǎng)有著多方面的區(qū)別。對于校園網(wǎng)的搜索引擎而言,其目標(biāo)是關(guān)注校園網(wǎng)信息的所有用戶,校園網(wǎng)搜索引擎的目的是盡可能的收集本校園網(wǎng)的信息,區(qū)別與通用的搜索引擎要搜索整個互聯(lián)網(wǎng)的目的,校園網(wǎng)搜索引擎需要做到對信息收集的“小而全”。而且校園網(wǎng)搜索引擎應(yīng)該做到易于開發(fā),部署簡單,實(shí)現(xiàn)成本低。在功能需求上,無論是在校的師生還是想了解校園信息的其他人員可以通過校園網(wǎng)WWW服務(wù)器進(jìn)行信息的檢索,從而迅速的通過網(wǎng)絡(luò)得到校內(nèi)各部門提供的各種信息。
2.1 校園網(wǎng)Web信息的特點(diǎn)
隨著校園網(wǎng)建設(shè)的迅速發(fā)展、信息化管理時代的到來以及共享網(wǎng)絡(luò)信息資源的快速增長,校園網(wǎng)內(nèi)的信息正在以驚人的速度增加著。截止目前,我校網(wǎng)絡(luò)中心存儲的信息量至少在200G左右,這還不包括分散在各個校區(qū)各個學(xué)院的信息量。雖然校園網(wǎng)有如此之多的好處,但是,網(wǎng)上資源分布在校園網(wǎng)的各個角落里,用戶無法及時準(zhǔn)確的找到自己需要的信息,這使得校園網(wǎng)上的資源被孤立了起來,全校師生在茫茫網(wǎng)海中迅速定位有價值的信息變得比較困難。
構(gòu)建校園內(nèi)網(wǎng)搜索引擎的必要性分析。
(1)通用搜索引擎信息量大,信息更新緩慢,采用競價排名機(jī)制。
(2)對于校園內(nèi)網(wǎng)的某些信息無法檢索。
(3)隨著學(xué)校的不斷發(fā)展,學(xué)校越來越重視信息化建設(shè),校園網(wǎng)信息量的急速增長,也使得全校師生迅速獲取到有價值的信息越來越困難。
2.2 校園網(wǎng)搜索引擎的特性
(1)網(wǎng)站集中校園網(wǎng)網(wǎng)站一般集中在一個或幾個IP地址段內(nèi),網(wǎng)站之間的鏈接稀疏,由于分射由不同機(jī)構(gòu)和個人進(jìn)行維護(hù)和管理,有些網(wǎng)站很難從其它網(wǎng)站的鏈接到達(dá);網(wǎng)站的重要性與網(wǎng)站規(guī)模不成正比,例如新聞和論壇類網(wǎng)站的網(wǎng)頁數(shù)量多并且鏈接較密,而教學(xué)和管理部門的網(wǎng)站則相反。
(2)信息二義性少校園網(wǎng)網(wǎng)站中的信息,基本上是描述本學(xué)校的內(nèi)容,對于某些特殊的詞語,不像在互聯(lián)網(wǎng)上,有其自己的語境,不會出現(xiàn)二義性。
(3)異構(gòu)文本格式的網(wǎng)頁比例高互聯(lián)網(wǎng)上常見的網(wǎng)頁通常有靜態(tài)網(wǎng)頁(文件后綴為