摘要:該文結(jié)合制造業(yè)知識(shí)的特點(diǎn),介紹了基于Lucene的面向制造業(yè)知識(shí)搜索引擎基本架構(gòu)。從查準(zhǔn)率和搜索時(shí)間上與通用搜索引擎對(duì)具有制造業(yè)代表的關(guān)鍵詞進(jìn)行搜索的比較,證明面向制造業(yè)知識(shí)搜索引擎可以提高制造業(yè)信息數(shù)據(jù)的利用效率。
關(guān)鍵詞:知識(shí)搜索引擎;Lucene;制造業(yè)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)16-3882-03
1 概述
據(jù)相關(guān)統(tǒng)計(jì),制造業(yè)的信息化水平遠(yuǎn)遠(yuǎn)落后于生產(chǎn)規(guī)模的發(fā)展。傳統(tǒng)制造業(yè)企業(yè)的數(shù)據(jù)每年以150%的速度增長(zhǎng),其中80%以上的數(shù)據(jù)以文件、郵件、圖片等非結(jié)構(gòu)化的數(shù)據(jù)存放。傳統(tǒng)制造業(yè)企業(yè)經(jīng)過(guò)多年運(yùn)作,積累了大量企業(yè)內(nèi)部的規(guī)章制度、項(xiàng)目文檔、操作規(guī)程等的經(jīng)驗(yàn)和知識(shí),這些知識(shí)沒(méi)有統(tǒng)一的組織和管理,散落在企業(yè)的各個(gè)角落無(wú)法被互聯(lián)網(wǎng)搜索利用。迅速地檢索和利用企業(yè)迅猛增長(zhǎng)且不能被互聯(lián)網(wǎng)搜索引擎檢索到的企業(yè)數(shù)據(jù)成為目前制造業(yè)企業(yè)的迫切需求。
2 知識(shí)搜索引擎研究現(xiàn)狀
2.1國(guó)外研究成果
2.2國(guó)內(nèi)研究成果
國(guó)內(nèi)的許多學(xué)者對(duì)相關(guān)知識(shí)搜索引擎實(shí)例進(jìn)行比較。如:王春曉等人對(duì)百度“知道”、新浪“知識(shí)人”、雅虎“知識(shí)堂”三個(gè)知識(shí)搜索引擎的類目設(shè)置、頁(yè)面設(shè)置、搜索方式、提問(wèn)方式、搜索結(jié)果和相關(guān)協(xié)議等方面進(jìn)行比較分析,并提出了完善知識(shí)搜索引擎的相關(guān)建議。
此外,相關(guān)學(xué)者還探索了知識(shí)搜索引擎在一些領(lǐng)域的運(yùn)用。如:周春對(duì)知識(shí)搜索引擎在教學(xué)中的應(yīng)用進(jìn)行了展望;巫喜紅把知識(shí)搜索引擎應(yīng)用在設(shè)計(jì)類課程的教學(xué)中,取得了良好的效果。
3 面向制造業(yè)知識(shí)搜索引擎
面向制造業(yè)的搜索引擎的系統(tǒng)架構(gòu)和運(yùn)行方式吸收了信息檢索系統(tǒng)設(shè)計(jì)中許多有價(jià)值的經(jīng)驗(yàn),也針對(duì)萬(wàn)維網(wǎng)數(shù)據(jù)和用戶的特點(diǎn)進(jìn)行了許多修改,如下面所示的搜索引擎系統(tǒng)架構(gòu)。其核心的文檔處理和查詢處理過(guò)程與傳統(tǒng)信息檢索系統(tǒng)的運(yùn)行原理基本類似,但其所處理的數(shù)據(jù)對(duì)象即萬(wàn)維網(wǎng)數(shù)據(jù)的繁雜特性決定了搜索引擎系統(tǒng)必須進(jìn)行系統(tǒng)結(jié)構(gòu)的調(diào)整,以適應(yīng)處理制造業(yè)數(shù)據(jù)和用戶查詢的需要。
1)Crawler爬蟲抓取
面向制造業(yè)的知識(shí)搜索引擎派出一個(gè)能夠在制造企業(yè)內(nèi)網(wǎng)上抓文件的程序,這個(gè)程序通常稱之為Crawler。搜索引擎從已知的數(shù)據(jù)庫(kù)出發(fā),就像正常用戶的瀏覽器一樣訪問(wèn)這些網(wǎng)頁(yè)并抓取文件。搜索引擎會(huì)跟蹤網(wǎng)頁(yè)中的鏈接,訪問(wèn)更多的制造業(yè)網(wǎng)頁(yè),這個(gè)過(guò)程就叫爬行,這些新的網(wǎng)址會(huì)被存入數(shù)據(jù)庫(kù)等待抓取。
2)抽取器
面向制造業(yè)的知識(shí)搜索引擎它先對(duì)爬蟲所抓取的文件進(jìn)行結(jié)構(gòu)化數(shù)據(jù)抽取關(guān)鍵詞,然后對(duì)抽取的數(shù)據(jù)進(jìn)行知識(shí)分類,并把數(shù)據(jù)分類的結(jié)果放進(jìn)知識(shí)庫(kù)里。
3)索引器
面向制造業(yè)的知識(shí)搜索引擎它主要把抽取器的知識(shí)庫(kù)里數(shù)據(jù)分解、分析,并以巨大表格的形式把中文分詞存入索引數(shù)據(jù)庫(kù)。
4)檢索器
面向制造業(yè)的知識(shí)搜索引擎主要是基于lucene檢索,它是性能的java全文檢索工具包,使用的是倒排文件索引結(jié)構(gòu),同時(shí)對(duì)索引數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行一定的用戶行為分析,進(jìn)行高效的檢索,受到了手機(jī)移動(dòng)終端與瀏覽器的親睞,應(yīng)用十分廣泛。
5)采集器
面向制造業(yè)的知識(shí)搜索引擎主要采集制造企業(yè)的資源庫(kù),包括一些企業(yè)的技術(shù)檔案庫(kù)、科技成果庫(kù)、數(shù)字資源庫(kù)。并且該搜索引擎也收集了一些個(gè)人文檔。該采集器同樣也有許多的系統(tǒng)支持如:協(xié)同辦公系統(tǒng)、郵件系統(tǒng)工作票系統(tǒng)等等。功能十分的強(qiáng)大與全面,與其他系統(tǒng)的兼容性十分的好。
4 搜索性能比較
實(shí)驗(yàn)結(jié)果表明,面向制造業(yè)的知識(shí)搜索引擎具有明顯的主題傾向性,結(jié)果的查準(zhǔn)率優(yōu)于通用搜索引擎。但是系統(tǒng)在搜索速度上遠(yuǎn)不如商業(yè)搜索引擎。
5 結(jié)束語(yǔ)
本文設(shè)計(jì)的面向制造業(yè)知識(shí)搜索引擎是優(yōu)于通用搜索引擎的,它基本滿足了對(duì)制造業(yè)數(shù)據(jù)、信息搜索的需求。該搜索引擎可以幫助地制造業(yè)產(chǎn)業(yè)實(shí)現(xiàn)對(duì)相關(guān)信息的檢索,對(duì)制造業(yè)信息化發(fā)展有很大的幫助作用
注釋:
[1] 圖1中淺色圖形表示激活的屬性;中灰色的圖形表示它們與激活的屬性有直接關(guān)系;深灰色表示未激活的屬性。
參考文獻(xiàn):
[1] 李永春,丁華福.Lucene 的全文檢索的研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(2):12-15.
[2] 彭陶,馬張華.Web2.0環(huán)境下的知識(shí)搜索引擎發(fā)展研究[J].圖書館學(xué)研究,2011(11).
[3] 王春曉.知識(shí)搜索引擎比較分析[J].圖書館學(xué)研究,2009(1):47.
[4] 周錦程.基于Lucene 的全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(3):67-71.
[5] 任惠靜.基于Lucene的面向主題搜索引擎的索引技術(shù)的研究[J].電腦知識(shí)與技術(shù),2010(4).
[6] 孫建.基于Lucene的知識(shí)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J].安徽電氣工程職業(yè)技術(shù)學(xué)院學(xué)報(bào),2011(01).
[7] 王文鈞,李巍.垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J].情報(bào)科學(xué),2010(3).
[8] Malaysia.Development of Search Engines using Lucene: An ExperienceMasnizah Mohd
[9] Antonopoulou E, Karetsos ST, Maliappis M, Sideridis ABWeb and mobile technologies in a prototype DSS for major field crops[J].Compute Electron Agric 2010;70:292-301.
[10] Hamdi MS. SOMSE.a semantic map based meta-search engine for the purpose of web information customization[J].Appl Soft Compute ,2011;11(1):1310-21.