基于Java的垂直搜索引擎的設計方式構建

2015-06-05 10:01:53王軍

信息化建設 2015年3期

王軍

摘要：在互聯(lián)網(wǎng)時代，隨著信息量的不斷膨脹，搜索引擎在計算機技術不斷發(fā)展的局勢下，受到了更多的挑戰(zhàn)。本文就搜索引擎的發(fā)展歷程及結構原理進行了介紹，重點提出如何利用Java語言對垂直搜索引擎進行設計方案的構建。

關鍵詞：Java；垂直搜索引擎；方案構建

伴隨著21世紀互聯(lián)網(wǎng)技術的熾熱化的發(fā)展進程人們對互聯(lián)網(wǎng)應用范圍的擴展也提出了新的要求，現(xiàn)有引擎雖然信息面廣，但更像大染缸，信息雜糅，只有快速的找到關鍵詞才能比較迅速的找到自己想要的信息大概范圍，經(jīng)過瀏覽確定最終目標，人們更需要一種專業(yè)化的引擎，于是我們想到了垂直搜索引擎。

一、搜索引擎的發(fā)展歷程

20世紀90年代，WWW還沒有出現(xiàn)，文件傳輸已經(jīng)比較普遍，但查詢不便，所以lan Emtage想到了以一種通過文件名查詢文件的方法，即搜索引擎的雛形，它以腳本程序為基礎，供使用者查找文件。在lan Emtage的啟發(fā)下，美國的System Computing Services大學開發(fā)了具有搜索網(wǎng)頁功能的Veronica，網(wǎng)頁的搜索開始發(fā)展。

縱觀搜索引擎的發(fā)展歷程，可分為四個階段。1994年的IR基本實現(xiàn)了在Web網(wǎng)頁上的檢索，由于可供用的網(wǎng)站也少且費時，很快被第二代搜索引擎代替，第二代搜索引擎主要表現(xiàn)為數(shù)據(jù)庫和網(wǎng)絡蜘蛛的分布式兩種。第三代已進入人工智能時代，搜索引擎空前繁榮，加入了地域搜索和主題搜索、超鏈接以及用戶記錄，自動分類技術已有滲透。第四代搜索引擎即垂直搜索引擎，其專業(yè)化程度相較于之前有了很大的提高，出現(xiàn)了專門針對某一行業(yè)的主題信息的搜索。

二、垂直搜索引擎

垂直搜索引擎的出現(xiàn)改變了原來搜索引擎查詢深度不足、信息量太、查詢精度低的問題，對某一行業(yè)、某一人群的不同需求來對信息進行篩選然后提供給他們搜索更加有序具體，縮小了搜索范圍但提高了精度，節(jié)約了用戶的時間。比如對于經(jīng)常瀏覽雜志頁面的用戶，他可能會有訂閱雜志的意愿，那就需要對相關雜志有更詳細的介紹，包括里面的排版特點、主要內(nèi)容等。尤其對于電子行業(yè)的用戶來說，其需求更加明確所以就需要更加詳細的信息予以支持，針對這種非常具體需求而出現(xiàn)的搜索引擎就是垂直搜索。

作為一種更詳細具體的搜索引擎，其專業(yè)化服務質(zhì)量的審核標準主要決定于web結構信息抽取的技術的高低，由于垂直搜索引擎屬于新興技術，仍然處于探索階段，這是不可否認的。已經(jīng)存在的垂直搜索引擎主要有：旅游類的去哪兒網(wǎng)、征程網(wǎng)等，招聘類的智聯(lián)，娛樂類的搜狐、樂視等。

垂直搜索引擎相比于通用的搜索引擎具有很多的優(yōu)勢：行業(yè)色彩更濃，專注于某一主題的服務，所以提供的信息更加詳細具體而有針對性；引擎的開發(fā)在于為專門的用戶提供專門的服務，因為專注，所以高效；以元數(shù)據(jù)和結構化數(shù)據(jù)為搜索基礎，關鍵詞的提取相對要容易一些。

當然，缺陷也是不能忽略的，比如種子站點的掌控難，只有經(jīng)過準去的判斷才能夠找到目的網(wǎng)站；技術難度比較高；信息的提供專業(yè)但是單一。

三、基于Java的垂直搜索引擎的設計

手機作為與人們生活息息相關的電子產(chǎn)品，在人們的引擎搜索中往往被格外關注，本文以手機為對象，探討基于Java的垂直搜索引擎的設計。

1、引擎設計前的需求分析

經(jīng)過對各大手機門戶網(wǎng)站進行瀏覽分析后，需要建立一個具有垂直搜索引擎功能的模擬系統(tǒng)，供用戶搜索，具體來講，需要涉及到一下方面。

一是手機相關信息的搜索與顯示，這是一個直至搜索引擎最基本的功能，通過操作界面的指令的發(fā)送，后臺開始操作，找到相關的信息后通過界面顯示的形式反饋給用戶，點擊進入后就可以看到需要的信息，不會出現(xiàn)與搜索內(nèi)容無關的消息。

二是信息自動采集功能。通過垂直搜索引擎找到與搜索信息有相似特點的信息，并加以保存分析提取整理存入數(shù)據(jù)庫。

2、設計思路

本次研究基于Eclipse3.1+MySQL5.0+Tomcat5.5 環(huán)境，其良好的開發(fā)性有助于Java語言的開發(fā)性能的發(fā)揮，在構建web時需要使用PluginV3插件，用到的已開發(fā)程序包和檢索工具包包括Heritrix1.12.1和Lucene2.0。

3、網(wǎng)頁信息的抓取

首先需要獲得更多的手機相關信息，利用蜘蛛程序爬行網(wǎng)頁對各大網(wǎng)站的信息進行收集分析和整理，選擇獲取信息的網(wǎng)站的前提是瀏覽量大，信息完備，以便于搜索涵蓋幾乎所有手機的信息。

此外還要對網(wǎng)頁的結構以及URL特點進行分析，目的在于對蜘蛛獲得信息進行進一步的過濾，將與產(chǎn)品無關的資料去掉。

4、網(wǎng)頁機構化的抽取

在網(wǎng)頁被抓取后并不能直接使用，而是需要經(jīng)過進一步的篩選將有用信息保存下來，一般為了方便數(shù)據(jù)的入庫都會將其以文本形式保存，這一步的信息處理是建立引擎的關鍵，工作相對繁瑣一些。

5、建立索引

待前邊的準備工作都完成后，即開始引擎搜索的建立，主要是通過代碼的編寫將獲得的信息導入到每款手機特定的文件中，然后放入數(shù)據(jù)庫等待用戶搜索。

結束語

在互聯(lián)網(wǎng)時代，信息量的日與劇增促使人們對信息的搜索提出了更專業(yè)化的要求，作為搜索引擎的輔助型工具，垂直搜索引擎的確在互聯(lián)網(wǎng)中法糊了不可替代的作用，我們也將加大對其研究的力度，努力讓其在每一個領域都能夠提供服務，本文的研究將為這一偉大設想提供參考。

參考文獻

[1]潘春華，常敏，武港山.面向Web的信息收集工具的設計與開發(fā)[J].計算機應用研究，2012（16）.

[2]張娜，張化祥.基于超鏈接和內(nèi)容相關度的檢索算法[J].計算機應用，2012（26）.

信息化建設2015年3期

信息化建設的其它文章: 關于財務決策、執(zhí)行、監(jiān)督“三權”分立研究; 醫(yī)療保險中公平與效率問題探討; 淺析廣播電視三網(wǎng)融合中廣播電視發(fā)展面臨的現(xiàn)狀與機遇; 關于會計信息相關性與可靠性的思考; 新時期PLC和DCS在冶金生產(chǎn)中的選擇和應用分析; 電力系統(tǒng)微機五防現(xiàn)狀及發(fā)展趨勢

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Java的垂直搜索引擎的設計方式構建