国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

全文搜索引擎的設(shè)計與實現(xiàn)

2013-05-30 04:52呂夢瑩
關(guān)鍵詞:分詞搜索引擎

呂夢瑩

【摘 要】隨著互聯(lián)網(wǎng)的出現(xiàn)和伴隨著它的高速發(fā)展,人們獲得信息的方式也越來越依靠網(wǎng)絡(luò)的存在,但是隨著網(wǎng)絡(luò)資源的不斷豐富,人們搜索一個信息的難度也在增加,搜索引擎就是在這種情況下發(fā)展而來,本文在分析了搜索引擎的研究現(xiàn)狀的基礎(chǔ)上,對傳統(tǒng)分詞算法加以改進(jìn),在一定程度上提高搜索的精確率和識別率。

【關(guān)鍵詞】全文搜索;搜索引擎;分詞

隨著互聯(lián)網(wǎng)資源的飛速增長,搜索引擎的發(fā)展在很大程度上決定了互聯(lián)網(wǎng)資源的使用率,只有不斷增強搜索引擎的技術(shù)才能使我們更好的利用網(wǎng)絡(luò)資源?;ヂ?lián)網(wǎng)的使用率也代表著一個國家網(wǎng)絡(luò)的使用水平,而搜索引擎在很大程度就制約著網(wǎng)絡(luò)資源的利用?,F(xiàn)在的搜索引擎技術(shù)還存在著很多的問題,需要我們不斷的去改進(jìn)。

目前的搜索引擎尚有很多的缺陷,主要體現(xiàn)在,網(wǎng)絡(luò)資源的質(zhì)量控制不足,由于缺乏一個系統(tǒng)的控制,所以資源的完整性和可靠性都不能得到保證,導(dǎo)致搜索引擎的無效搜索。其次就是搜索引擎占用著太多的資源,由于采用的是鏈接是把資源站的信息傳回本地,無疑會使網(wǎng)絡(luò)的流量增加傳輸?shù)睦щy,使網(wǎng)絡(luò)限于癱瘓。再次即使是做好的搜索引擎也不能做到對全網(wǎng)的一個覆蓋,而且各搜索引擎沒有明確的分工,重復(fù)搜索,造成資源的浪費,沒有專門性的搜索引擎,大家都在做全面的搜索引擎,多而不精。同時因為搜索引擎的技術(shù)發(fā)展還不是很完善,對于一些信息的檢測會出現(xiàn)漏檢,不能明確的標(biāo)記要搜索的對象。各搜索引擎也不能實現(xiàn)交叉覆蓋。需要用不同的搜索引擎檢測才行。搜索引擎技術(shù)是由信息檢索技術(shù)發(fā)展而來的。作為一種計算機本身的技術(shù)在網(wǎng)絡(luò)上的使用,搜索引擎所要搜索的就是網(wǎng)頁的集合,所以要做好一個搜索引擎也是相當(dāng)困難和需要技術(shù)的,首先因為數(shù)據(jù)的分布是分散的,沒有系統(tǒng)的整理,只是凌亂的存儲在服務(wù)器上,對網(wǎng)絡(luò)和平臺的需求特別高,其次就是,網(wǎng)絡(luò)信息的更新是飛速的,需要我們不斷的去刷新數(shù)據(jù),對技術(shù)的依托就更為強烈。再次就是數(shù)據(jù)并不是只有一種結(jié)構(gòu),而是各種結(jié)構(gòu)存在在網(wǎng)絡(luò)上,形式不同,就需要有能處理不同形式的處理器,所以一個好的搜索引擎必須具備高效的性能和大量的內(nèi)存和處理不同數(shù)據(jù)類型的能力。

全文搜索引擎也稱為爬蟲式的搜索引擎,是利用spider程序在訪問網(wǎng)絡(luò)時,提取站點的信息,并根據(jù)搜索的關(guān)鍵詞通過鏈接跳轉(zhuǎn)到其他站點,從而獲取需要的信息和網(wǎng)頁,基于對關(guān)鍵詞的檢索,分詞的問題也就顯現(xiàn)出來了,尤其是在中文的分詞技術(shù)上還有很大的問題,這這主要是因為中文的復(fù)雜程度決定的,中文只能在字,句和段落之間做具體的劃分,對詞的劃分卻沒有明顯的界定,這無疑就對我們的搜索增加了難度。對語言的分析是一項龐大的工程,而不能僅僅作為一項技術(shù)來看待。目前,主要的分詞技術(shù)主要有基于詞庫的分詞和無詞典的分詞技術(shù),其中詞庫的分詞采用的有正向最大匹配和正向最小匹配等方法,這類算法的設(shè)計要求較低,搜索也比較容易實現(xiàn),但是它過分依賴已經(jīng)建立的詞庫,詞庫越豐富,搜索的結(jié)果就越簡單,準(zhǔn)確率也就越高。而無詞典的分詞技術(shù),是在文章中的相鄰字進(jìn)行統(tǒng)計,在文中出現(xiàn)的次數(shù)高,就會作為一個詞的索引幾率就大,從而提煉出關(guān)鍵詞,這類技術(shù)的優(yōu)點就是可以節(jié)約建立詞庫的內(nèi)存,也避免了對分詞的把握不當(dāng)造成搜索困難,全文搜索引擎主要是通過收集站點,過濾器,分詞程序,搜索引擎,和結(jié)果排序程序等幾步聯(lián)結(jié)起來來的,主要就是信息的采集,到信息的篩選和信息結(jié)果的查詢。

在本文設(shè)計的搜索引擎中,他的整個運行過程是這樣設(shè)定的,通過爬蟲采集放在網(wǎng)絡(luò)上的站點,并加以匯總,以天網(wǎng)格式的數(shù)據(jù)形式存儲在本地站點,過濾器通過自身設(shè)定的程序?qū)Υ娣旁诒镜卣军c上的網(wǎng)頁進(jìn)行索引,通過對用戶關(guān)鍵詞的比較,查詢出需要的網(wǎng)頁傳輸給本地,并通過架構(gòu)小型的搜索引擎,使爬蟲系統(tǒng)可以多線操作,保證網(wǎng)速的高速運轉(zhuǎn),讓站點可以持續(xù)的鏈接,同時過濾不能訪問的網(wǎng)站,本搜索引擎的另一個優(yōu)點就是采用天網(wǎng)格式的輸出,不僅容錯性更高,而且他采用正向匹配,支持關(guān)鍵詞的查詢。本引擎基于Linux平臺,編程語言c++,爬蟲在采集信息的時候可以來回爬取,同時保持兩條線路,已經(jīng)訪問和未訪問的,并不斷的對新的站點和已經(jīng)訪問過的站點做對比,不斷選取新的信息,進(jìn)行在本地站點上的存取。在索引方面本設(shè)計采用的是通過幾個中間的文件轉(zhuǎn)換來實現(xiàn)的,在分詞算法程序中,采用正向匹配最小窗口法,采用詞庫是TSE中的中文詞典,在基于詞庫的分詞算法中,詞匯的收集和詞典的內(nèi)部結(jié)構(gòu)的設(shè)計會影響著最終的搜索結(jié)果,一個詞庫的詞匯收集的越多,詞庫的結(jié)構(gòu)越合理,也就說對我們搜索的結(jié)果也就越有幫助,即搜索的信息也就越全面和精確,這也不能說就一直去擴充詞庫就好了,一旦詞庫的詞越多,對切詞的要求就會更高,導(dǎo)致效率下降,甚至影響搜索的準(zhǔn)確率,所以在詞庫中最重要的是分詞的算法??梢哉f分詞詞典就是一個人的大腦,只有對信息進(jìn)行擴充和分類,這樣在用到的時候才能很快的提取出來,不加以分類就會快速的遺忘,這點不通過于計算機,計算機只是增加了索引的難度。同時采用自動分詞模塊,即采用正向最大匹配中文自動匹配分詞算法對為登錄詞進(jìn)行召回,同時對未登錄詞的切分也是一個設(shè)計,在這個模塊中實現(xiàn)了數(shù)據(jù)庫的分詞功能,并且實現(xiàn)了添加功能,查詢程序通過對關(guān)鍵詞的提取和對網(wǎng)頁站點的匹配得出需要的站點,采用的是倒派所引查詢程序。在通過傳輸?shù)接脩舻谋镜卣军c,實現(xiàn)信息的獲得。本文通過前人技術(shù)的研究和經(jīng)驗的吸取,通過對各個模塊的分析最終實現(xiàn)了對一個全文搜索引擎的設(shè)計,實現(xiàn)了信息的收集和信息的索引存儲和最后信息的查詢和導(dǎo)出,設(shè)計得以實現(xiàn)。面對現(xiàn)代信息的高度發(fā)達(dá),信息的更新周期越來越短,可以說網(wǎng)絡(luò)速度的更新是我們所不能想象的,信息的激增對搜索引擎來說是一種新的挑戰(zhàn),如何對信息進(jìn)行更好的過濾和存儲是本設(shè)計的一個重點,對分詞的算法加以改進(jìn),實現(xiàn)對未登錄詞的收錄。都使我們使用搜索引擎時更加的便捷和快速。不過由于對分詞我們采用一次性讀取,會瞬間占用大量的磁盤和空間,影響計算機的運行速度,所以這一模塊的增加對硬件的設(shè)備要求較高,同時采用二元分詞避免了因為數(shù)據(jù)更新速度過快導(dǎo)致不能自動識別新的詞匯,可以在一定程度上對這種情況進(jìn)行緩解。同時因為技術(shù)要求,分詞器不能做到對新詞匯的自動鑒別,詞庫的更新還需要更長的反應(yīng)時間。

搜索引擎從當(dāng)初信息搜索的需要,到現(xiàn)在已經(jīng)經(jīng)過了飛速的發(fā)展,不僅搜索的范圍越來越廣泛,而且搜索的項目也越來越多,功能比原來更加的強大,現(xiàn)在的搜索引擎大多是商業(yè)引擎,為了獲得利潤,很多搜索引擎不單單做簡單的搜索功能,而是作為一個訪問點,去獲得點擊量,為用戶提供各式各樣的服務(wù),不僅可以看經(jīng)濟,娛樂,更有的發(fā)展為網(wǎng)上的購物平臺,為搜索引擎平臺獲取利益。網(wǎng)絡(luò)的飛速發(fā)展在帶來信息繁榮的同時,也會加劇我們對信息的搜索需求,只有在信息激增的同時,不斷的去完善搜索的工具,我們才能更好的去獲取信息,去第一時間了解事件,雖然現(xiàn)在的搜索引擎已經(jīng)有了好大的發(fā)展,可以相對便捷的提供服務(wù),但是在系統(tǒng)的穩(wěn)定性和信息的質(zhì)量的審核等相關(guān)方面還是需要進(jìn)一步的提升,對搜索引擎的改進(jìn)還是必然的。搜索引擎的技術(shù)的發(fā)展依然是電子信息化時代的需求,只有更新才能發(fā)展。

【參考文獻(xiàn)】

[1]盧亮,張博文.搜索引擎原理、時間與應(yīng)用.電子工業(yè)出版社,2007.

[2]李曉明,劉建國.搜索引擎技術(shù)及趨勢.大學(xué)圖使館學(xué)報,2006.

猜你喜歡
分詞搜索引擎
Chrome 99 Canary恢復(fù)可移除預(yù)置搜索引擎選項
分詞在英語教學(xué)中的妙用
世界表情符號日
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
分詞做狀語的概念解析
網(wǎng)絡(luò)搜索引擎
基于Lucene搜索引擎的研究
搜索引擎,不止有百度與谷歌
圖解免費搜索引擎(之上網(wǎng)找歌篇)
墨玉县| 莆田市| 平邑县| 连江县| 汪清县| 额尔古纳市| 晋中市| 偃师市| 赤城县| 噶尔县| 西盟| 晋江市| 仁化县| 滦平县| 平度市| 盐亭县| 墨竹工卡县| 涿鹿县| 乌兰察布市| 广汉市| 古蔺县| 成武县| 滕州市| 依兰县| 峨山| 兴宁市| 获嘉县| 方山县| 吴旗县| 怀化市| 藁城市| 灵台县| 江津市| 肃宁县| 白朗县| 汾阳市| 当阳市| 理塘县| 和硕县| 元谋县| 台山市|