国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

農業(yè)科技知識倒排索引的設計與實現(xiàn)

2015-12-17 03:18李永可金忠明李悅
電腦知識與技術 2015年28期
關鍵詞:搜索引擎數據庫

李永可 金忠明 李悅

摘要:信息技術的飛速發(fā)展大大提高了我國農業(yè)信息化水平,專業(yè)農業(yè)科技知識檢索成為農民生產過程中解決生產問題的重要手段,該文通過對倒排索引技術研究,對農業(yè)科技知識建立倒排索引,并在倒排索引基礎上設計農業(yè)科技知識檢索系統(tǒng),為農民提供精準農業(yè)科技知識檢索服務。

關鍵詞:倒排索引;搜索引擎;數據庫

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)27-0176-02

Abstract:The rapid development of information technology has greatly increased the agricultural informatization level in China, specialized in the production of agricultural science and technology knowledge retrieval become farmers the important means to solve the problem of production, based on the technical research inverted index structure, the knowledge of agricultural science and technology to establish inverted index, and based on inverted index design of agricultural science and technology knowledge retrieval system, precision agriculture science and technology knowledge retrieval service for the farmers.

Key words:Inverted index;Search engine;The database

信息技術的飛速發(fā)展大大提高了我國農業(yè)信息化水平,在傳統(tǒng)農業(yè)生產過程中,農民在生產過程中遇到的各種問題主要通過咨詢相關領域農業(yè)專家進行解決,但我國農業(yè)人口眾多而農業(yè)專家數量有限,因此有時咨詢專家也存在一定困難。隨著信息技術的快速發(fā)展,我國農業(yè)信息化水平有了很大提高,越來越多的農民能夠使用互聯(lián)網進行信息查詢,本文通過對倒排索引技術的研究,設計了農業(yè)知識倒排索引,并在倒排索引基礎上開發(fā)了農業(yè)科技知識檢索系統(tǒng),為農民提供專業(yè)農業(yè)科技知識檢索服務。

1 倒排索引技術

倒排索引也稱為反向索引、反向檔案,是一種索引方法,源于實際應用中需要根據屬性的值來查找記錄,用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置,是對文檔或者文檔集合的一種最常用的索引機制。通過倒排索引,可以根據單詞快速獲取包含這個單詞的文檔列表,是其他結構無法抗衡的高效索引結構。倒排索引主要有個兩部分組成:“詞典”和“倒排記錄表”。

本文是以大學生創(chuàng)新項目“農業(yè)知識檢索系統(tǒng)的設計與實現(xiàn)”為背景,在建立了農業(yè)知識庫的基礎上,為實現(xiàn)對農業(yè)知識的全文檢索而設計的。為實現(xiàn)農業(yè)知識全文檢索的功能,必須對知識庫中的農業(yè)科技知識建立倒排索引,然后通過檢索頁面對倒排索引進行檢索,返回給用戶高相關度的檢索結果。

2 農業(yè)知識倒排索引設計

2.1收集需要建立索引的文檔

經過先前的準備已經依據“農業(yè)信息分類標準草案”,把農業(yè)信息按類錄入農業(yè)知識庫。錄入途徑主要為:1.通過農業(yè)網絡爬蟲從相關農業(yè)網站抓取信息,然后分類導入知識庫。2.人工錄入已掌握的大量農業(yè)信息。目前已錄入農業(yè)科技知識文檔350多萬篇,為倒排索引的構建奠定了數據支持。

2.2將每篇文檔詞條化

詞條化是將給定的字符序列拆分成一系列子序列的過程,其中每個子序列稱為一個詞條。在這個過程中,可能會同時去掉一些特殊字符,如標點符號等。在這里我們用中文分詞器對已錄入的農業(yè)知識文檔進行詞條化。通過對IKAnalyzer、ictclas、庖丁解牛等中文分詞器的比較,最終采用IKAnalyzer2012_u6作為本系統(tǒng)的分詞器,該分詞器不但有160萬/秒的高性能分詞能力,而且還具備智能分詞和最細粒度分詞兩種可選模式,方便制定開發(fā)。倒排索引主要包括四個域,分別為標題、正文、表名和記錄ID,標題和正文是需要檢索的域,因此在建立倒排索引時需要對這兩個域分詞并存儲。下面以一篇農業(yè)知識文檔中的一部分為例:

輸入:小麥葉銹病主要侵害小麥葉片,產生皰疹狀病斑。

輸出:小麥 葉銹病 主要 侵害 小麥 葉片 產生 皰疹狀 病 斑

2.3對所有農業(yè)知識文檔按照其中的詞項來建立倒排索引

我們假定構成農業(yè)知識庫的每一篇文檔,都有一個唯一的標識符即編號(docID)。在索引構建過程中,我們給每篇新出現(xiàn)的文檔賦一個連續(xù)的整數編號。對每篇文檔建立索引時的輸入就是一個歸一化的詞條表,也可以看成二元組(詞項,文檔ID)的一個列表如圖1。建立索引最核心的步驟是將這個列表按照詞項的拼音首字母順序進行排序,我們會得到如圖1中部顯示的結果,其中一個詞項在同一文檔中的多次出現(xiàn)會合并在一起,最后整個結果分成詞典和倒排記錄表兩部分,如圖1右部所示。

由于一個詞項通常會在多篇文檔中出現(xiàn),我們上面組織數據的方法實際也已經減少了索引的存儲空間。詞典中同樣可以記錄一些統(tǒng)計信息,比如出現(xiàn)某詞項的文檔的數目,即文檔頻率,這里也就是每個倒排記錄表的長度。倒排記錄表會按照docID進行排序,這為高效的查詢處理提供了重要基礎。

2.4倒排索引創(chuàng)建

Lucene是由Apache軟件基金會提供和支持的一套用于全文檢索的開源庫,Lucene為開發(fā)者提供了一個簡單卻功能強大的應用程序接口,開發(fā)者可以利用這些接口做全文索引和檢索。在Java開發(fā)環(huán)境里Lucene是一個成熟的免費開源工具。就其本身而言,Lucene是當前以及最近幾年最受歡迎的免費Java信息檢索程序庫。我們利用lucene3.5構建倒排索引,創(chuàng)建倒排索引核心代碼如下:

IndexWriterConfig conf=new IndexWriterConfig(Version.LUCENE_35,ik);

conf.setOpenMode(IndexWriterConfig.OpenMode.CREATE_OR_APPEND);

IndexWriter writer =new IndexWriter(fdir,conf);

Field f1 = new Field("title", title.trim(), Field.Store.YES, Field.Index.ANALYZED);

Field f2 = new Field("content", content, Field.Store.YES, Field.Index.ANALYZED);

Field f3 = new Field("table", table, Field.Store.YES, Field.Index.NOT_ANALYZED);

Field f4 = new Field("id", id, Field.Store.YES, Field.Index.NOT_ANALYZED);

Document doc = new Document();

doc.add(f1);

doc.add(f2);

doc.add(f3);

doc.add(f4);

writer.addDocument(doc);

writer.close();

3 結束語

農業(yè)知識搜索引擎倒排索引的設計與實現(xiàn)為農業(yè)知識搜索引擎的開發(fā)奠定了基礎,在此基礎上,項目后期將實現(xiàn)倒排索引的檢索功能。通過倒排索引的設計,實現(xiàn)了農業(yè)知識庫全文檢索的功能,解決了傳統(tǒng)數據庫只能進行模糊匹配不能進行全文檢索的問題。

參考文獻:

[1] 龍妍.基于Lucene的高校檔案全文檢索系統(tǒng)的設計與實現(xiàn)[J].輕工科技,2014(9):65-66.

[2] 王飛紅,丁澤發(fā).基于lucene的垂直搜索引擎設計與實現(xiàn)[J].電子技術與軟件工程,2014(5):206.

[3] 王斌.信息檢索導論[M].北京:人民郵電出版,2010.

[4] 胡毅,劉波,方逵.農業(yè)知識庫知識檢索系統(tǒng)研究與實現(xiàn)[J].農機化研究,2013(6):13-18.

[5] 王玉娟.農業(yè)知識文本庫檢索系統(tǒng)關鍵技術研究[D].長沙:湖南農業(yè)大學,2012.

[6] 馬文峰,杜小勇.知識檢索研究[J].情報理論與實踐,2006,29(2):157-158.

猜你喜歡
搜索引擎數據庫
數據庫
數據庫
數據庫
數據庫
數據庫
網絡搜索引擎亟待規(guī)范
Nutch搜索引擎在網絡輿情管控中的應用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
基于Lucene搜索引擎的研究