国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

新聞?lì)惔怪彼阉饕嫦到y(tǒng)研究與設(shè)計(jì)

2016-12-27 07:59:10方志民戴洋洋董淑珍溫芳馨宋新航
關(guān)鍵詞:搜索引擎網(wǎng)頁頁面

方志民,戴洋洋,董淑珍,李 渤,溫芳馨,宋新航

(黑龍江工程學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150050)

新聞?lì)惔怪彼阉饕嫦到y(tǒng)研究與設(shè)計(jì)

方志民,戴洋洋,董淑珍,李 渤,溫芳馨,宋新航

(黑龍江工程學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150050)

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,新聞?lì)愋畔①Y源呈現(xiàn)出信息量大且分散、種類多、具有不一致性和不完整性等特點(diǎn),傳統(tǒng)的通用搜索引擎服務(wù)已不能解決網(wǎng)民對(duì)新聞信息獲取要求精、準(zhǔn)、全、快的問題。采用垂直搜索引擎,利用JAVA語言和MYSQL數(shù)據(jù)庫,設(shè)計(jì)并實(shí)現(xiàn)一個(gè)包括網(wǎng)絡(luò)信息爬取、信息存儲(chǔ)、索引創(chuàng)建、索引查詢、頁面查詢與展示等功能的新聞?lì)惔怪彼阉饕嫦到y(tǒng)。該系統(tǒng)可以實(shí)現(xiàn)人們對(duì)新聞?lì)愘Y源信息的無誤定位,具有快速、準(zhǔn)確、實(shí)時(shí)、實(shí)用等特點(diǎn)。

搜索引擎;垂直搜索;新聞搜索;互聯(lián)網(wǎng)

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,Internet上的信息量呈爆炸性增長(zhǎng),現(xiàn)實(shí)生活中人們經(jīng)常通過搜索關(guān)鍵詞進(jìn)行信息檢索。然而,這種查找方式通常會(huì)得到成千上萬條信息,其中包含大量不相關(guān)信息、重復(fù)信息和死鏈接等,用戶在很短的時(shí)間內(nèi)很難準(zhǔn)確地篩選出最重要的信息,特別是對(duì)于特定行業(yè)的科研和從業(yè)人員,希望通過搜索得到更專業(yè)、更深入和更有價(jià)值的信息。

根據(jù)搜索的內(nèi)容范圍,搜索引擎可分為綜合型和專題型檢索工具,即水平搜索引擎與垂直搜索引擎[1]。綜合搜索引擎的資源非常豐富,用戶可以利用它來檢索任何類型的信息資源,但它搜索出的信息內(nèi)容無序,查詢不準(zhǔn)確,有較多的死鏈接,并且深度也不夠。垂直搜索引擎是一種新的搜索引擎服務(wù)模式,主要針對(duì)某一特定領(lǐng)域、人群及需求提供有一定價(jià)值的信息和相關(guān)服務(wù),其特點(diǎn)就是專、精、深且具有行業(yè)色彩[2-3]。

現(xiàn)今很多大型的網(wǎng)站如Google、Baidu、Yahoo、Bing在綜合搜索引擎方面做出了非常好的范例,從各種角度滿足著個(gè)人對(duì)信息量的需求。針對(duì)行業(yè)的特點(diǎn),運(yùn)用垂直引擎專門針對(duì)旅游愛好者,開發(fā)的去哪兒、攜程、途牛等網(wǎng)站,還有大家比較熟悉的大眾點(diǎn)評(píng)網(wǎng)站、高德地圖等等。運(yùn)用垂直引擎開發(fā)的系統(tǒng)和網(wǎng)站追求專業(yè)性與服務(wù)深度,具有重復(fù)率低、相關(guān)性強(qiáng)、查準(zhǔn)率高的特點(diǎn)。新聞信息是一種特殊形態(tài)的信息,新聞標(biāo)題都是以簡(jiǎn)短的文句概括新聞內(nèi)容,集中體現(xiàn)新聞的傳播價(jià)值。隨著信息化網(wǎng)絡(luò)的日益成熟,紛繁復(fù)雜的網(wǎng)絡(luò)新聞在網(wǎng)絡(luò)媒體中進(jìn)行傳播[4]。對(duì)新聞愛好者卻沒有提供功能相對(duì)完善的系統(tǒng)和網(wǎng)站,用戶迫切需要一個(gè)數(shù)據(jù)分類細(xì)致、精確、全面、更新及時(shí)的、面向特征的搜索技術(shù)和方法來獲得新聞資源信息。

1 新聞?lì)惔怪彼阉饕婵傮w設(shè)計(jì)

1.1 組成結(jié)構(gòu)

垂直搜索引擎主要由網(wǎng)絡(luò)蜘蛛、索引與搜索、Web服務(wù)三大模塊組成,如圖1所示。網(wǎng)絡(luò)蜘蛛也被稱為“網(wǎng)絡(luò)機(jī)器人”(Spider),網(wǎng)絡(luò)蜘蛛模塊主要負(fù)責(zé)網(wǎng)絡(luò)信息提取與存儲(chǔ)[5]。該模塊能夠爬行指定網(wǎng)站,從互聯(lián)網(wǎng)的網(wǎng)頁上抓取所需要的數(shù)據(jù),并將抓取回來的頁面(主要是目標(biāo)網(wǎng)站的基本信息頁面)保存于服務(wù)器中。索引模塊包括索引器和索引數(shù)據(jù)庫、中文分詞子模塊和網(wǎng)頁過濾子模塊。索引器將原始數(shù)據(jù)庫的內(nèi)容重新組織,建立索引數(shù)據(jù)庫,以提高檢索效率。搜索模塊根據(jù)用戶輸入搜索內(nèi)容,搜索程序?qū)⑼ㄟ^索引數(shù)據(jù)庫進(jìn)行檢索,然后把符合查詢要求的數(shù)據(jù)按照特定的策略進(jìn)行分級(jí)排列并且返回給用戶。Web服務(wù)模塊負(fù)責(zé)查詢頁面、信息檢索、搜索結(jié)果頁面的展示功能,包括負(fù)責(zé)監(jiān)聽服務(wù)器端口、調(diào)用搜索模塊的接口進(jìn)行查詢等功能。

圖1 垂直搜索引擎的組成結(jié)構(gòu)

1.2 工作原理

新聞?lì)惔怪彼阉饕嬷饕?個(gè)基本模塊:網(wǎng)絡(luò)蜘蛛模塊、索引與搜索模塊、Web服務(wù)模塊,在工作原理上同通用搜索引擎基本相同。

網(wǎng)絡(luò)蜘蛛模塊保證在輸入一定搜索關(guān)鍵字之后,對(duì)信息進(jìn)行采集,根據(jù)信息的匹配程度,把能夠滿足用戶需求的信息提取出來[6]。模塊又分為Spider模塊和網(wǎng)頁評(píng)分模塊。Spider模塊是搜索器,主要依靠主題網(wǎng)絡(luò)爬蟲程序自動(dòng)爬取符合爬取策略的相關(guān)網(wǎng)頁信息,包括提取網(wǎng)頁中的鏈接信息,為下一次爬取提供網(wǎng)頁地址;提取正文內(nèi)容,存入數(shù)據(jù)庫,以便供索引模塊對(duì)其進(jìn)行索引工作。網(wǎng)頁評(píng)分模塊根據(jù)文檔的內(nèi)容,判斷文檔的內(nèi)容和主題是否相關(guān),如果相關(guān),在文檔中的標(biāo)題、正文、超鏈接中會(huì)有和主題相關(guān)的關(guān)鍵詞,給每個(gè)關(guān)鍵詞一個(gè)權(quán)重,就能夠訪問和主題相關(guān)的URL[7]。為了實(shí)現(xiàn)網(wǎng)絡(luò)信息的定向提取、存儲(chǔ),本系統(tǒng)采用了Google提出的網(wǎng)頁評(píng)分機(jī)制PageRank 算法[8-9],實(shí)現(xiàn)了網(wǎng)絡(luò)信息的定向提取、存儲(chǔ)。實(shí)踐證明PageRank能夠大幅度地提高檢索之后返回結(jié)果的質(zhì)量。

索引與搜索模塊主要部件是索引器與檢索器。索引器是根據(jù)上述搜索器搜索得到的信息,經(jīng)過一系列的處理得到的關(guān)鍵詞,建立從關(guān)鍵字到網(wǎng)頁URL(統(tǒng)一資源定位器)的關(guān)系索引倒排文檔,即建立索引數(shù)據(jù)庫。同時(shí)索引需要及時(shí)更新,更新的內(nèi)容存入到索引數(shù)據(jù)庫中。中文分詞模塊采用的是Lucene中文分詞技術(shù),用于構(gòu)建中文搜索引擎。網(wǎng)頁過濾模塊用于對(duì)網(wǎng)頁信息進(jìn)行結(jié)構(gòu)化抽取,然后把提取的數(shù)據(jù)進(jìn)行深度加工處理,過濾網(wǎng)頁噪聲。檢索器的功能是根據(jù)用戶輸入的查詢?cè)~,在索引數(shù)據(jù)庫中進(jìn)行查詢?cè)~與索引數(shù)據(jù)庫的匹配算法,然后將查詢結(jié)果按相關(guān)程度排序并輸出到瀏覽器上。

Web服務(wù)模塊搜索引擎大部分都是通過Web服務(wù)向用戶提供搜索功能,這就需要系統(tǒng)提供Web服務(wù)并且與索引數(shù)據(jù)庫進(jìn)行連接。客戶輸入搜索內(nèi)容在瀏覽器中,Web服務(wù)接收到客戶的搜索內(nèi)容后在索引數(shù)據(jù)庫中進(jìn)行查詢、整理并將其返回給客戶端,實(shí)現(xiàn)為用戶提供搜索服務(wù)的功能。

2 模型實(shí)現(xiàn)與驗(yàn)證

2.1 系統(tǒng)實(shí)現(xiàn)

為了驗(yàn)證提出的新聞?lì)惔怪彼阉饕嫦到y(tǒng)的有效性,對(duì)所設(shè)計(jì)的垂直搜索引擎系統(tǒng)進(jìn)行了模擬實(shí)現(xiàn)。網(wǎng)絡(luò)蜘蛛功能首先加載配置文件,讀取配置信息,包括網(wǎng)站種子鏈接、鏈接過濾方式等信息。然后,進(jìn)行初始化操作,包括種子鏈接初始化、數(shù)據(jù)庫鏈接初始化、爬取策略初始化、蜘蛛程序初始化。最后,創(chuàng)建執(zhí)行程序?qū)嵗?,進(jìn)行信息提取。索引模塊和查詢模塊使用Lucene框架對(duì)數(shù)據(jù)庫中各字段數(shù)據(jù)進(jìn)行分詞索引,并使用Lucene提供的查詢功能實(shí)現(xiàn)Web查詢[10]。Web服務(wù)功能使用Tomcat作為Web容器,采用JSP進(jìn)行前臺(tái)頁面展示,Java進(jìn)行后臺(tái)業(yè)務(wù)邏輯運(yùn)算。新聞?lì)愃阉饕娴牟樵兣c展示頁面如圖2所示。

圖2 新聞?lì)愃阉饕娴牟樵兣c展示頁面

2.2 模型驗(yàn)證

為了滿足用戶對(duì)信息查詢的需求,提高用戶的搜索體驗(yàn),覆蓋率和準(zhǔn)確率是兩個(gè)非常重要的性能指標(biāo)。但是,由于覆蓋率要涉及整個(gè)Web中信息資源的分布情況,在現(xiàn)實(shí)測(cè)試中一般很難得到,所以不進(jìn)行覆蓋率測(cè)試。準(zhǔn)確率是表示網(wǎng)絡(luò)中所采集的相關(guān)網(wǎng)頁數(shù)和所有采集的頁面數(shù)的比率[11]。本文對(duì)系統(tǒng)的準(zhǔn)確率、響應(yīng)時(shí)間、穩(wěn)定性等進(jìn)行了測(cè)試,系統(tǒng)運(yùn)行環(huán)境為:內(nèi)存4 GB、CPU 3.3 GHz、硬盤500 G、網(wǎng)絡(luò)100 M、操作系統(tǒng)Windows 7 、Web服務(wù)器為Tomcat服務(wù)器,系統(tǒng)運(yùn)行1 h后的實(shí)驗(yàn)結(jié)果如表1所示。從表1可以看出,該系統(tǒng)響應(yīng)時(shí)間快、系統(tǒng)穩(wěn)定性好、準(zhǔn)確率高。

表1 Spdier準(zhǔn)確率測(cè)試數(shù)據(jù)

3 結(jié)束語

本文開發(fā)的面向新聞?lì)愋畔z索的垂直搜索引擎系統(tǒng)彌補(bǔ)了傳統(tǒng)搜索引擎技術(shù)在新聞檢索領(lǐng)域存在的缺陷,不僅能使新聞?dòng)脩魪谋姸嗟男侣剚碓粗锌焖佾@取自己想要的信息,還能保證在新聞的完整性以及各種評(píng)論等數(shù)據(jù)準(zhǔn)確性的情況下,自動(dòng)進(jìn)行數(shù)據(jù)的抓取分析,保證用戶能夠?qū)崟r(shí)查看新聞的最新相關(guān)消息以及發(fā)展情形。最后,該系統(tǒng)還能對(duì)異常情況做出快速處理,具有一定的靈活性。

[1] 陳新顏.垂直搜索引擎辨析[J]. 現(xiàn)代情報(bào),2004, 24(9):133-134.

[2] 季春, 姜琴, 吳錚悅. 垂直搜索引擎關(guān)鍵技術(shù)研究綜述[J]. 情報(bào)探索, 2012(10):91-93.

[3] 趙海智. 淺談?dòng)?jì)算機(jī)技術(shù)在現(xiàn)代社會(huì)發(fā)展中的重要性[J]. 中國(guó)科教創(chuàng)新導(dǎo)刊, 2012(23):175-175.

[4] 賀立凱. 淺析網(wǎng)絡(luò)新聞標(biāo)題的特色[J]. 北方文學(xué)旬刊, 2015(3):177-178.

[5] 張彧. 基于Nutch的農(nóng)業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D]. 北京:北京郵電大學(xué), 2013.

[6] 徐玲玉, 何利力. 淺析垂直搜索引擎的應(yīng)用[J]. 計(jì)算機(jī)光盤軟件與應(yīng)用, 2014(10):101-102.

[7] 張啟宇, 于輝輝, 陳英義,等. 基于農(nóng)業(yè)垂直搜索引擎中文分詞詞典的構(gòu)建研究[J]. 廣東農(nóng)業(yè)科學(xué), 2015, 42(3):165-169.

[8] BRIN S, PAGE L, MOTWAMI R, et al. The PageRank citation ranking: bringing order to the web. Technical Report 199-0120, Computer Science Department, Stanford University, Stanford, CA, 1999.

[9] KAMVAR S D, HAVELIWALA T H, GOLUB G H. Adaptive methods for the computation of PageRank. Linear Algebra Appl, 2004, 386: 51-56.

[10] 宋獻(xiàn)民, 逄煥利, 魏姁妲. 基于lucene的垂直搜索引擎的研究與設(shè)計(jì)[J]. 信息技術(shù)與信息化, 2015(1):147-148.

[11] 周屹, 辛壯, 方志民,等. 基于自然交互的教學(xué)輔助系統(tǒng)研究與設(shè)計(jì)[J]. 黑龍江工程學(xué)院學(xué)報(bào), 2015(6):38-40.

[責(zé)任編輯:郝麗英]

Research and design of news vertical search engine system

FANG Zhimin,DAI Yangyang,DONG Shuzhen,WEN Fangxin,LI Bo,SONG Xinhang

(College of Computer Science and Technology, Heilongjiang Institute of Technology, Harbin 150050, China)

With the rapid development of Internet technology, news information shows the characteristics of amouts, disperstiveness, variety, inconsistency and incompleteness. Traditional search engine can not cater to the Internet users` need of grabbing information precisely, comprehensively and quickly. This paper uses a vertical search engine, supported by JAVA and MYSQL database, to design and achieve a news search engine system covering network information crawling, information storage, index creation, index query, interface query and display. This system can realize the accurate positioning of information resources, and has the characteristics of being fast, accurate, real-time, practical and so on.

search engine; vertical search; news search; Internet

10.19352/j.cnki.issn1671-4679.2016.06.008

2016-09-20

黑龍江省大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目(201611802087);黑龍江省大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目(201511802013)

方志民(1994-),男,本科生,研究方向:網(wǎng)絡(luò)應(yīng)用.

TP391.3

A

1671-4679(2016)06-0035-03

猜你喜歡
搜索引擎網(wǎng)頁頁面
刷新生活的頁面
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
電子制作(2018年10期)2018-08-04 03:24:38
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
廣告主與搜索引擎的雙向博弈分析
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導(dǎo)航技術(shù)
玉山县| 雷波县| 三门县| 阜宁县| 西宁市| 周口市| 嘉义市| 当阳市| 延长县| 浙江省| 南和县| 浮梁县| 武穴市| 海晏县| 大埔区| 泰宁县| 建瓯市| 辽阳县| 阿荣旗| 澜沧| 正安县| 舞阳县| 庆元县| 离岛区| 田阳县| 通道| 庐江县| 江源县| 钦州市| 临江市| 军事| 逊克县| 仁寿县| 乐亭县| 微山县| 陆良县| 奇台县| 宝山区| 固阳县| 涟水县| 乌拉特后旗|