国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

智能中文農(nóng)業(yè)垂直搜索引擎體系的架構(gòu)與實現(xiàn)

2015-01-06 18:29:49陳燕紅
湖北農(nóng)業(yè)科學 2014年12期
關(guān)鍵詞:體系架構(gòu)

摘要:針對互聯(lián)網(wǎng)農(nóng)業(yè)信息的多樣性、復雜性以及我國“三農(nóng)”的特殊性,研究并實現(xiàn)了智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom,介紹了AgriRoom的體系架構(gòu)和系統(tǒng)實現(xiàn)中涉及到的關(guān)鍵技術(shù):基于網(wǎng)頁分類和多元線性回歸分析的信息過濾技術(shù)、物理存儲模式的分頁式倒排索引技術(shù)、基于隨機索引和潛在語義分析的語義檢索模型。該系統(tǒng)目前已投入使用,取得了較顯著的應(yīng)用效果。

關(guān)鍵詞:農(nóng)業(yè)信息;垂直搜索引擎;體系架構(gòu)

中圖分類號:TP393.02 ? ? ? 文獻標識碼:A ? ? ? 文章編號:0439-8114(2014)12-2913-05

The Architecture and Implementation of Intelligent Chinese Agriculture

Vertical Search Engine

CHEN Yan-hong

(College of Computer and Information Engineering, Xinjiang Agriculture University, Urumqi ?830052, China)

Abstract:For the diversity and complexity of agricultural information on the Internet, and the particularity of “three rural” in China, the AgriRoom which was a intelligent Chinese agriculture vertical search engine was studied and achieved. The architecture of AgriRoom and the key technologies related to the system implementation included: information filtering technology based on web page classification and multiple linear regression analysis, tabbed inverted index in physical storage mode, semantic retrieval model based on random index and latent semantic analysis. Now, the system has been put into use, and made significant application effect.

Key words:agricultural information;vertical search engine;architecture

20世紀90年代初,搜索引擎開始應(yīng)用于農(nóng)業(yè)領(lǐng)域,多由商業(yè)公司開發(fā),也有一些是由組織機構(gòu)和政府部門研發(fā)的。從搜索引擎的質(zhì)量來看,組織機構(gòu)、政府部門開發(fā)和維護的農(nóng)業(yè)搜索引擎的質(zhì)量高于商業(yè)公司,主要是因為政府部門和組織機構(gòu)都是農(nóng)業(yè)相關(guān)部門,擁有先天優(yōu)勢。典型代表有美國農(nóng)業(yè)網(wǎng)絡(luò)信息中心(AGNIC)與美國普林斯頓建立的Agriscape Search等[1]。2007年,中國首個農(nóng)業(yè)垂直搜索引擎——“農(nóng)搜”上線,是目前全球數(shù)據(jù)量最大的中文農(nóng)業(yè)垂直搜索引擎,其實現(xiàn)了“全文檢索+語義檢索”的智能檢索功能[2]。同年上線的“華農(nóng)在線”利用自然語言語義分析技術(shù)實現(xiàn)了信息處理的應(yīng)用和在農(nóng)業(yè)行業(yè)的垂直搜索。與此同時,我國還出現(xiàn)了一些提供農(nóng)業(yè)信息搜索功能的網(wǎng)站。隨著搜索引擎技術(shù)的發(fā)展,面對我國“三農(nóng)”的特殊性以及互聯(lián)網(wǎng)農(nóng)業(yè)信息的多樣性和復雜性,許多問題需要探討,本研究構(gòu)建了智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom,并從體系的架構(gòu)、信息過濾、物理存儲模式以及語義檢索模型等方面進行了介紹,為構(gòu)建智能中文農(nóng)業(yè)垂直搜索引擎奠定了基礎(chǔ)。

1 ?智能中文農(nóng)業(yè)垂直搜索引擎體系的架構(gòu)

課題組基于前期研究成果設(shè)計并實現(xiàn)了一個功能完備的智能農(nóng)業(yè)垂直搜索引擎AgriRoom,其體系架構(gòu)如圖1所示。AgriRoom作為專注于互聯(lián)網(wǎng)農(nóng)業(yè)信息的垂直搜索引擎,從初始的種子站點到主題詞庫等都體現(xiàn)了農(nóng)業(yè)特性,同時系統(tǒng)還具有專門的信息過濾模塊篩選與農(nóng)業(yè)相關(guān)性高的網(wǎng)頁,從而既可以節(jié)約存儲空間,又保證了信息的準確性。同時,為后期高效地檢索打下良好的基礎(chǔ)及保證系統(tǒng)的查準率和查全率,AgriRoom采用基于雙索引庫模式的潛在語義檢索方式。首先,系統(tǒng)利用索引模塊建立高效的分頁式倒排索引庫;然后,利用檢索模塊將其轉(zhuǎn)換為雙重語義空間,為后面的語義檢索作準備。體系的架構(gòu)圖見圖1。

1)專業(yè)網(wǎng)絡(luò)蜘蛛[1]從農(nóng)業(yè)種子站點列表中獲得網(wǎng)頁的URL,如果該地址不在舍棄URL隊列中,則對互聯(lián)網(wǎng)中相應(yīng)的Web服務(wù)器進行網(wǎng)頁抓取,并解析抓取的網(wǎng)頁,提取該網(wǎng)頁中的超鏈接信息和網(wǎng)頁內(nèi)容信息送信息過濾模塊。然后,網(wǎng)絡(luò)蜘蛛再繼續(xù)抓取下一個網(wǎng)頁進行同樣的處理。

2)信息過濾模塊接到專業(yè)網(wǎng)絡(luò)蜘蛛送來的已解析頁面后,根據(jù)農(nóng)業(yè)主題詞庫中的主題詞及其權(quán)值,分析該頁面的內(nèi)容是否與農(nóng)業(yè)主題相關(guān)、是否是垃圾網(wǎng)頁或?qū)Ш巾撁?。如果頁面與農(nóng)業(yè)主題相關(guān)度比設(shè)定的閾值低或頁面為垃圾頁面,則將此頁面的URL送入舍棄URL隊列。否則,將頁面送入索引模塊準備建立索引,同時,還將該頁面存入農(nóng)業(yè)網(wǎng)頁數(shù)據(jù)庫中。

3)索引模塊將獲得的頁面信息,進行相應(yīng)處理后,建立分頁式倒排索引并存入索引庫[3]中。

4)當所有抓取的頁面都被索引后,檢索模塊讀取分頁式倒排索引庫中的索引,通過隨機索引[4]和潛在語義分析[5]建立較高效的雙重語義空間。endprint

5)用戶輸入查詢條件后,檢索模塊對其進行解析和處理,轉(zhuǎn)換為標準的查詢語句;檢索模塊將查詢語句和語義空間中的信息進行語義分析后,獲得查詢結(jié)果。最后,形成結(jié)果頁面返回給用戶。

2 ?智能中文農(nóng)業(yè)垂直搜索引擎體系的關(guān)鍵技術(shù)

AgriRoom的實現(xiàn)需要綜合應(yīng)用多項技術(shù),除了常規(guī)的網(wǎng)頁抓取[1]、中文分詞技術(shù)[6]外還涉及到了3項關(guān)鍵技術(shù):信息過濾技術(shù)、分頁式倒排索引技術(shù)以及語義檢索技術(shù)。

2.1 ?信息過濾

為了有效地減小索引規(guī)模和提高系統(tǒng)效率,AgriRoom采用了一種基于網(wǎng)頁分類技術(shù)和多元回歸分析[7]的信息過濾模型如圖2所示。整個工作流程可以分為訓練過程和測試過程。在訓練過程中,訓練集實例經(jīng)過預處理(文本抽取、中文分詞)、抽取特征項、向量表示后,構(gòu)建多元線性回歸的數(shù)學模型,最后進行回歸分析獲得回歸方程;在信息過濾過程中,每一個待過濾的中文網(wǎng)頁經(jīng)過預處理、向量表示后,代入多元回歸方程中,判定該網(wǎng)頁是否為農(nóng)業(yè)網(wǎng)頁。

從圖2可以看出,構(gòu)建該信息過濾模型的關(guān)鍵因素包括:建立訓練集、網(wǎng)頁預處理、特征選擇算法、多元線性回歸分析:

1)建立訓練集。訓練集是研究的起點和基礎(chǔ),但是與眾多的面向英文的標準網(wǎng)頁訓練集相比,標準的中文網(wǎng)頁訓練集的起步很晚。到目前為止,只有一些中文文本訓練集,還沒有出現(xiàn)標準的中文網(wǎng)頁訓練集。為了解決該問題,動員100個學生手工在互聯(lián)網(wǎng)上采集農(nóng)業(yè)網(wǎng)頁50 000張,其中,35 000張作為訓練集,15 000張作為測試集;然后,以百度作為網(wǎng)絡(luò)蜘蛛的種子站點,在互聯(lián)網(wǎng)上隨機抓取 12 000張網(wǎng)頁,人工挑出7 000張非農(nóng)業(yè)網(wǎng)頁,其中的4 000張作為訓練集,3 000張作為測試集。通過反復測試,最終確定訓練集實例用于信息過濾。

2)網(wǎng)頁預處理。網(wǎng)頁預處理過程主要包括網(wǎng)頁正文抽取;借助于中文分詞工具對抽取后的文本進行中文分詞;對分詞后的結(jié)果建立索引。

3)特征選擇算法。特征詞不但是用來建立回歸模型的因子,也是區(qū)分農(nóng)業(yè)網(wǎng)頁和非農(nóng)業(yè)網(wǎng)頁的最關(guān)鍵因素,特征詞選取方法將對模型的識別效果產(chǎn)生重大影響。文本在深入研究了中文網(wǎng)頁分類中典型的特征詞提取方法的基礎(chǔ)上,結(jié)合實際應(yīng)用提出了一種新的特征詞選取方法,其步驟如下:

a.從農(nóng)業(yè)訓練集索引文件中獲取農(nóng)業(yè)訓練集分詞結(jié)果集合Term1(t1,t2,…,tn)和對應(yīng)文檔頻率集合Df1(df1,df2,…,dfn);

b.從非農(nóng)業(yè)訓練集索引文件中獲取非農(nóng)業(yè)訓練集分詞結(jié)果集合Term2(t1,t2,…,tm)和對應(yīng)文檔頻率集合Df2(df1,df2,…,dfm);

c.從集合Df1中查詢Term1中所有詞條ti的文檔頻率,記為ny_dfi,再從集合Df2中查詢詞ti的文檔頻率dfi,記為fny_dfi,計算詞條ti在農(nóng)業(yè)訓練集和非農(nóng)業(yè)訓練集中文檔頻率差值的絕對值C,即C=ABS(ny_dfi-fny_dfi)。對詞條ti按C值逆序排序,選取C值大于預先設(shè)定的閾值的詞條ti為區(qū)分農(nóng)業(yè)網(wǎng)頁和非農(nóng)業(yè)網(wǎng)頁的特征詞。通過分別比較不同分詞工具的特征詞選取結(jié)果,最終確定了前100個特征詞(表1)。

4)多元線性回歸分析。多元回歸分析[8]是一種處理自變量與因變量的統(tǒng)計相關(guān)關(guān)系的一種數(shù)理統(tǒng)計方法。雖然自變量和因變量之間沒有確定性的函數(shù)關(guān)系,但可以設(shè)法找出最能代表它們之間關(guān)系的數(shù)學表達形式?;貧w分析有很廣泛的應(yīng)用,例如經(jīng)驗公式的求得、因素分析、產(chǎn)品質(zhì)量的控制等。在進行中文農(nóng)業(yè)網(wǎng)頁識別過程中,利用獲得的前40個特征詞和MATLAB進行多元線性回歸分析,最終獲得可用于分類的回歸方程,即分類器:y= -0.368 4+0.187 4x[0]+0.210 4x[1]+0.202 4x[2]+0.125 8x[3]+0.364 2x[4]+0.188 2x[5]+0.135 7x[6]+0.083 7x[7]+0.126 8x[8]+0.045 5x[9]+0.061 6x[10]+0.053 8x[11]+0.105 0x[12]+0.097 0x[13]+0.404 0x[14]+0.071 1x[15]-0.018 4x[16]+0.076 1x[17]-0.372 7x[18]+0.118 8x[19]-0.098 9x[20]+0.078 7x[21]+0.065 8x[22]-0.088 4x[23]-0.054 9x[24]-0.028 5x[25]+0.047 5x[26]-0.083 6x[27]+0.036 6x[28]-0.134 3x[29]+0.003 4x[30]+0.004 5x[31]+0.034 4x[32]+0.045 6x[33]+0.020 3x[34]+0.038 0x[35]-0.063 9x[36]-0.026 6x[37]+0.092 7x[38]-0.083 2x[39]。

式中的x[i]為第i個特征詞的對應(yīng)值,若該詞在網(wǎng)頁中出現(xiàn)了,x[i]的值為1,否則為0;最終計算出的y值如果大于0,說明網(wǎng)頁為農(nóng)業(yè)網(wǎng)頁,否則不是農(nóng)業(yè)網(wǎng)頁。

2.2 ?分頁式倒排索引

為了解決常規(guī)倒排索引的檢索效率低、不易更新等缺點[9],AgriRoom采用一種分頁式倒排索引結(jié)構(gòu)(圖3)。該倒排索引的存儲模式采用數(shù)據(jù)庫與磁盤文件混合存儲,只將文檔集合D存入數(shù)據(jù)庫中而將詞條集合T和倒排索引集合IT存入磁盤文件中。為了提高檢索速度,AgriRoom將倒排索引散列為100份。每個文件夾下有3個文件,分別是IND、SITES和URLS,均為順序文件。其中,IND文件中存儲了每個詞條在SITES文件中的偏移量(SitesOffset),包含該詞條的站點個數(shù)(SiteCount)、該詞條的文檔個數(shù)(UrlCount)以及詞條在文檔集合D中出現(xiàn)的總次數(shù)(TotalCount)。SITES文件中存儲了詞條在各站點(Site_ID)倒排索引中的偏移量(UrlsOffset)。URLS文件存儲詞條的倒排索引并按照Site_ID聚合。endprint

為了提高倒排索引的檢索和更新效率,倒排索引文件在磁盤中以分頁方式存儲[10]。為了減少文件頁內(nèi)碎片,AgriRoom將倒排索引集合IT存入多個文件中,每個文件具有不同頁大小,并在配置文件中指定每個文件的路徑、文件名以及頁大小(頁大小是文件系統(tǒng)頁大小的整數(shù)倍)。每個倒排文件有一個頭頁(HeadPage)和若干個數(shù)據(jù)頁(DataPage)。在頭頁中存儲該文件的頁大?。≒ageSize)、頁個數(shù)(PageCount)以及下一個空閑頁的頁號(NextFreePageNo)。在數(shù)據(jù)頁中存儲該頁的頁號(PageNo),如果單個詞條的倒排索引數(shù)據(jù)長度大于數(shù)據(jù)頁的大小則存儲下一個數(shù)據(jù)頁的頁號(NextPageNo)、索引長度以及索引數(shù)據(jù)。一個數(shù)據(jù)頁中最多只能存一個詞條的倒排索引數(shù)據(jù)。由于HASH數(shù)據(jù)結(jié)構(gòu)在內(nèi)存中的等值查找性能最好,所以詞條集合T和倒排索引集合IT在內(nèi)存中以HASH數(shù)據(jù)結(jié)構(gòu)存儲以提高檢索效率。倒排文件和詞典文件在磁盤和內(nèi)存中的結(jié)構(gòu)如圖4所示。

2.3 ?基于雙重語義空間的語義檢索模型

檢索技術(shù)是智能中文農(nóng)業(yè)垂直搜索引擎實現(xiàn)高效檢索的核心技術(shù)之一,針對語義檢索的現(xiàn)狀和存在的問題,AgriRoom采用了一種新型的基于雙重語義空間的語義檢索模型[11]。該檢索模型的基本思路是將檢索過程分解為兩個階段:①利用改進后的隨機索引技術(shù)[11]生成農(nóng)業(yè)測試集的文檔空間和詞空間,然后獲得查詢句的語義向量,與文檔空間中的向量進行比較,獲得初選文檔列表;②利用潛在語義分析技術(shù)生成文檔空間的文檔相似度矩陣[12],利用文檔間的相似度值,對初選文檔列表中大于指定閾值的文檔查找相關(guān)文檔,并更新文檔列表,最終獲得結(jié)果列表返回給用戶。AgriRoom的語義檢索模型見圖5。

3 ?系統(tǒng)的實現(xiàn)

基于系統(tǒng)的總體設(shè)計和相關(guān)研究成果,課題組構(gòu)建了功能完備的智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom。從種子站點開始抓取互聯(lián)網(wǎng)中的相關(guān)網(wǎng)頁,并經(jīng)過信息過濾后,建立農(nóng)業(yè)網(wǎng)頁數(shù)據(jù)庫和分頁式倒排索引庫,再經(jīng)過進一步的語義分析后,建立語義索引庫,最終能夠為用戶提供方便、準確的農(nóng)業(yè)信息檢索服務(wù)。

3.1 ?開發(fā)環(huán)境與工具

系統(tǒng)開發(fā)的硬件環(huán)境為:64位曙光刀片服務(wù)器,其主要配置為4 GB內(nèi)存,260 GB硬盤容量;軟件配置為:Redhat Linux操作系統(tǒng),其內(nèi)核為2.6.31.5-127.fc12.i686.PAE,編譯器為GCC 4.4.2,Web服務(wù)器為Apache 2.x。系統(tǒng)的后臺數(shù)據(jù)庫為:MySQL。

3.2 ?系統(tǒng)運行實例

在IE地址欄內(nèi)輸入相應(yīng)網(wǎng)址訪問AgriRoom的首頁面,結(jié)果如圖6所示。

在搜索框中輸入“新疆棉花價格”后,搜索結(jié)果如圖7所示。

在檢索結(jié)果頁面內(nèi)點擊第一個結(jié)果的超鏈接即可跳轉(zhuǎn)到該網(wǎng)頁,結(jié)果如圖8所示。

4 ?小結(jié)

面對海量的互聯(lián)網(wǎng)信息資源,如何快速而有效地獲取個性化的農(nóng)業(yè)知識和信息資源成為數(shù)字農(nóng)業(yè)迫切需要解決的問題。智能中文農(nóng)業(yè)垂直搜索引擎的出現(xiàn)將有效解決農(nóng)業(yè)信息“迷航”問題。因此研究構(gòu)建了智能中文農(nóng)業(yè)垂直搜索引擎的關(guān)鍵技術(shù),提出了基于網(wǎng)頁分類和多元線性回歸分析的信息過濾技術(shù)、分頁式倒排索引技術(shù)以及基于隨機索引和潛在語義分析的語義檢索模型。最終,構(gòu)建了功能完備的智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom。經(jīng)過實際應(yīng)用證明,該系統(tǒng)能夠為用戶提供方便、準確的農(nóng)業(yè)信息檢索服務(wù)。

參考文獻:

[1] CHRISTOPHER M, PRABHAKAR R. An Introduction to Information Retrieval[M]. Cambridge:Cambridge University Press,2008.

[2] 陳 ?苒,董占球.WWW信息搜索技術(shù)研究[J].計算機工程與應(yīng)用,2001,37(14):62-64.

[3] CHULEERAT J, CANASAI K. Building Inverted Files Through Efficient Dynamic Hashing [A].The Sixth National Computer Science and Engineering Conference[C]. Princeton, New Jersey:CiteSeer, 2002.

[4] COHEN T, SCHVANEVELDT R, WIDDOWS D.Reflective random indexing and indirect inference: A scalable method for discovery of implicit connections[J].Journal of Biomedical Informatics, 2010,43(2):240-256.

[5] DEERWESTER S,DUMAIS S T, LANDAUER T K ,et al. Indexing by latent semantic analysis[J].Journal of the Society for Information Science,1990,41(6):391-407.

[6] 單松巍,馮是聰,李曉明.幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J].計算機工程與應(yīng)用,2003,39(22):146-148.

[7] 劉艷民.中文網(wǎng)頁分類方法研究[J].微電子學與計算機,2009, 26(9):167-169.

[8] 茆詩松,程依明,濮曉龍.概率論與數(shù)理統(tǒng)計教程[M].北京:高等教育出版社,2009.

[9] NGOCANH V,ALISTATR M. Inverted index compression using word-aligned binary codes[J]. Information Retrieval, 2007,8(1):151-166.

[10] 劉小珠,彭智勇,陳 ?旭.高效的隨機訪問分塊倒排文件自索引技術(shù)[J].計算機學報, 2010,33(6):977-987.

[11] 陳燕紅,張?zhí)t,馮向萍,等.基于雙重語義空間的農(nóng)業(yè)信息檢索模型研究[J].新疆農(nóng)業(yè)大學學報,2012,35(3):253-258.

[12] LANDAUER T K,DUMAIS S T. A solution to Platos problem: The latent semantic analysis theory of acquisition,induction,and representation of knowledge[J]. Psychological Review,1997,104(2):211-240.endprint

為了提高倒排索引的檢索和更新效率,倒排索引文件在磁盤中以分頁方式存儲[10]。為了減少文件頁內(nèi)碎片,AgriRoom將倒排索引集合IT存入多個文件中,每個文件具有不同頁大小,并在配置文件中指定每個文件的路徑、文件名以及頁大?。摯笮∈俏募到y(tǒng)頁大小的整數(shù)倍)。每個倒排文件有一個頭頁(HeadPage)和若干個數(shù)據(jù)頁(DataPage)。在頭頁中存儲該文件的頁大小(PageSize)、頁個數(shù)(PageCount)以及下一個空閑頁的頁號(NextFreePageNo)。在數(shù)據(jù)頁中存儲該頁的頁號(PageNo),如果單個詞條的倒排索引數(shù)據(jù)長度大于數(shù)據(jù)頁的大小則存儲下一個數(shù)據(jù)頁的頁號(NextPageNo)、索引長度以及索引數(shù)據(jù)。一個數(shù)據(jù)頁中最多只能存一個詞條的倒排索引數(shù)據(jù)。由于HASH數(shù)據(jù)結(jié)構(gòu)在內(nèi)存中的等值查找性能最好,所以詞條集合T和倒排索引集合IT在內(nèi)存中以HASH數(shù)據(jù)結(jié)構(gòu)存儲以提高檢索效率。倒排文件和詞典文件在磁盤和內(nèi)存中的結(jié)構(gòu)如圖4所示。

2.3 ?基于雙重語義空間的語義檢索模型

檢索技術(shù)是智能中文農(nóng)業(yè)垂直搜索引擎實現(xiàn)高效檢索的核心技術(shù)之一,針對語義檢索的現(xiàn)狀和存在的問題,AgriRoom采用了一種新型的基于雙重語義空間的語義檢索模型[11]。該檢索模型的基本思路是將檢索過程分解為兩個階段:①利用改進后的隨機索引技術(shù)[11]生成農(nóng)業(yè)測試集的文檔空間和詞空間,然后獲得查詢句的語義向量,與文檔空間中的向量進行比較,獲得初選文檔列表;②利用潛在語義分析技術(shù)生成文檔空間的文檔相似度矩陣[12],利用文檔間的相似度值,對初選文檔列表中大于指定閾值的文檔查找相關(guān)文檔,并更新文檔列表,最終獲得結(jié)果列表返回給用戶。AgriRoom的語義檢索模型見圖5。

3 ?系統(tǒng)的實現(xiàn)

基于系統(tǒng)的總體設(shè)計和相關(guān)研究成果,課題組構(gòu)建了功能完備的智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom。從種子站點開始抓取互聯(lián)網(wǎng)中的相關(guān)網(wǎng)頁,并經(jīng)過信息過濾后,建立農(nóng)業(yè)網(wǎng)頁數(shù)據(jù)庫和分頁式倒排索引庫,再經(jīng)過進一步的語義分析后,建立語義索引庫,最終能夠為用戶提供方便、準確的農(nóng)業(yè)信息檢索服務(wù)。

3.1 ?開發(fā)環(huán)境與工具

系統(tǒng)開發(fā)的硬件環(huán)境為:64位曙光刀片服務(wù)器,其主要配置為4 GB內(nèi)存,260 GB硬盤容量;軟件配置為:Redhat Linux操作系統(tǒng),其內(nèi)核為2.6.31.5-127.fc12.i686.PAE,編譯器為GCC 4.4.2,Web服務(wù)器為Apache 2.x。系統(tǒng)的后臺數(shù)據(jù)庫為:MySQL。

3.2 ?系統(tǒng)運行實例

在IE地址欄內(nèi)輸入相應(yīng)網(wǎng)址訪問AgriRoom的首頁面,結(jié)果如圖6所示。

在搜索框中輸入“新疆棉花價格”后,搜索結(jié)果如圖7所示。

在檢索結(jié)果頁面內(nèi)點擊第一個結(jié)果的超鏈接即可跳轉(zhuǎn)到該網(wǎng)頁,結(jié)果如圖8所示。

4 ?小結(jié)

面對海量的互聯(lián)網(wǎng)信息資源,如何快速而有效地獲取個性化的農(nóng)業(yè)知識和信息資源成為數(shù)字農(nóng)業(yè)迫切需要解決的問題。智能中文農(nóng)業(yè)垂直搜索引擎的出現(xiàn)將有效解決農(nóng)業(yè)信息“迷航”問題。因此研究構(gòu)建了智能中文農(nóng)業(yè)垂直搜索引擎的關(guān)鍵技術(shù),提出了基于網(wǎng)頁分類和多元線性回歸分析的信息過濾技術(shù)、分頁式倒排索引技術(shù)以及基于隨機索引和潛在語義分析的語義檢索模型。最終,構(gòu)建了功能完備的智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom。經(jīng)過實際應(yīng)用證明,該系統(tǒng)能夠為用戶提供方便、準確的農(nóng)業(yè)信息檢索服務(wù)。

參考文獻:

[1] CHRISTOPHER M, PRABHAKAR R. An Introduction to Information Retrieval[M]. Cambridge:Cambridge University Press,2008.

[2] 陳 ?苒,董占球.WWW信息搜索技術(shù)研究[J].計算機工程與應(yīng)用,2001,37(14):62-64.

[3] CHULEERAT J, CANASAI K. Building Inverted Files Through Efficient Dynamic Hashing [A].The Sixth National Computer Science and Engineering Conference[C]. Princeton, New Jersey:CiteSeer, 2002.

[4] COHEN T, SCHVANEVELDT R, WIDDOWS D.Reflective random indexing and indirect inference: A scalable method for discovery of implicit connections[J].Journal of Biomedical Informatics, 2010,43(2):240-256.

[5] DEERWESTER S,DUMAIS S T, LANDAUER T K ,et al. Indexing by latent semantic analysis[J].Journal of the Society for Information Science,1990,41(6):391-407.

[6] 單松巍,馮是聰,李曉明.幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J].計算機工程與應(yīng)用,2003,39(22):146-148.

[7] 劉艷民.中文網(wǎng)頁分類方法研究[J].微電子學與計算機,2009, 26(9):167-169.

[8] 茆詩松,程依明,濮曉龍.概率論與數(shù)理統(tǒng)計教程[M].北京:高等教育出版社,2009.

[9] NGOCANH V,ALISTATR M. Inverted index compression using word-aligned binary codes[J]. Information Retrieval, 2007,8(1):151-166.

[10] 劉小珠,彭智勇,陳 ?旭.高效的隨機訪問分塊倒排文件自索引技術(shù)[J].計算機學報, 2010,33(6):977-987.

[11] 陳燕紅,張?zhí)t,馮向萍,等.基于雙重語義空間的農(nóng)業(yè)信息檢索模型研究[J].新疆農(nóng)業(yè)大學學報,2012,35(3):253-258.

[12] LANDAUER T K,DUMAIS S T. A solution to Platos problem: The latent semantic analysis theory of acquisition,induction,and representation of knowledge[J]. Psychological Review,1997,104(2):211-240.endprint

為了提高倒排索引的檢索和更新效率,倒排索引文件在磁盤中以分頁方式存儲[10]。為了減少文件頁內(nèi)碎片,AgriRoom將倒排索引集合IT存入多個文件中,每個文件具有不同頁大小,并在配置文件中指定每個文件的路徑、文件名以及頁大小(頁大小是文件系統(tǒng)頁大小的整數(shù)倍)。每個倒排文件有一個頭頁(HeadPage)和若干個數(shù)據(jù)頁(DataPage)。在頭頁中存儲該文件的頁大?。≒ageSize)、頁個數(shù)(PageCount)以及下一個空閑頁的頁號(NextFreePageNo)。在數(shù)據(jù)頁中存儲該頁的頁號(PageNo),如果單個詞條的倒排索引數(shù)據(jù)長度大于數(shù)據(jù)頁的大小則存儲下一個數(shù)據(jù)頁的頁號(NextPageNo)、索引長度以及索引數(shù)據(jù)。一個數(shù)據(jù)頁中最多只能存一個詞條的倒排索引數(shù)據(jù)。由于HASH數(shù)據(jù)結(jié)構(gòu)在內(nèi)存中的等值查找性能最好,所以詞條集合T和倒排索引集合IT在內(nèi)存中以HASH數(shù)據(jù)結(jié)構(gòu)存儲以提高檢索效率。倒排文件和詞典文件在磁盤和內(nèi)存中的結(jié)構(gòu)如圖4所示。

2.3 ?基于雙重語義空間的語義檢索模型

檢索技術(shù)是智能中文農(nóng)業(yè)垂直搜索引擎實現(xiàn)高效檢索的核心技術(shù)之一,針對語義檢索的現(xiàn)狀和存在的問題,AgriRoom采用了一種新型的基于雙重語義空間的語義檢索模型[11]。該檢索模型的基本思路是將檢索過程分解為兩個階段:①利用改進后的隨機索引技術(shù)[11]生成農(nóng)業(yè)測試集的文檔空間和詞空間,然后獲得查詢句的語義向量,與文檔空間中的向量進行比較,獲得初選文檔列表;②利用潛在語義分析技術(shù)生成文檔空間的文檔相似度矩陣[12],利用文檔間的相似度值,對初選文檔列表中大于指定閾值的文檔查找相關(guān)文檔,并更新文檔列表,最終獲得結(jié)果列表返回給用戶。AgriRoom的語義檢索模型見圖5。

3 ?系統(tǒng)的實現(xiàn)

基于系統(tǒng)的總體設(shè)計和相關(guān)研究成果,課題組構(gòu)建了功能完備的智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom。從種子站點開始抓取互聯(lián)網(wǎng)中的相關(guān)網(wǎng)頁,并經(jīng)過信息過濾后,建立農(nóng)業(yè)網(wǎng)頁數(shù)據(jù)庫和分頁式倒排索引庫,再經(jīng)過進一步的語義分析后,建立語義索引庫,最終能夠為用戶提供方便、準確的農(nóng)業(yè)信息檢索服務(wù)。

3.1 ?開發(fā)環(huán)境與工具

系統(tǒng)開發(fā)的硬件環(huán)境為:64位曙光刀片服務(wù)器,其主要配置為4 GB內(nèi)存,260 GB硬盤容量;軟件配置為:Redhat Linux操作系統(tǒng),其內(nèi)核為2.6.31.5-127.fc12.i686.PAE,編譯器為GCC 4.4.2,Web服務(wù)器為Apache 2.x。系統(tǒng)的后臺數(shù)據(jù)庫為:MySQL。

3.2 ?系統(tǒng)運行實例

在IE地址欄內(nèi)輸入相應(yīng)網(wǎng)址訪問AgriRoom的首頁面,結(jié)果如圖6所示。

在搜索框中輸入“新疆棉花價格”后,搜索結(jié)果如圖7所示。

在檢索結(jié)果頁面內(nèi)點擊第一個結(jié)果的超鏈接即可跳轉(zhuǎn)到該網(wǎng)頁,結(jié)果如圖8所示。

4 ?小結(jié)

面對海量的互聯(lián)網(wǎng)信息資源,如何快速而有效地獲取個性化的農(nóng)業(yè)知識和信息資源成為數(shù)字農(nóng)業(yè)迫切需要解決的問題。智能中文農(nóng)業(yè)垂直搜索引擎的出現(xiàn)將有效解決農(nóng)業(yè)信息“迷航”問題。因此研究構(gòu)建了智能中文農(nóng)業(yè)垂直搜索引擎的關(guān)鍵技術(shù),提出了基于網(wǎng)頁分類和多元線性回歸分析的信息過濾技術(shù)、分頁式倒排索引技術(shù)以及基于隨機索引和潛在語義分析的語義檢索模型。最終,構(gòu)建了功能完備的智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom。經(jīng)過實際應(yīng)用證明,該系統(tǒng)能夠為用戶提供方便、準確的農(nóng)業(yè)信息檢索服務(wù)。

參考文獻:

[1] CHRISTOPHER M, PRABHAKAR R. An Introduction to Information Retrieval[M]. Cambridge:Cambridge University Press,2008.

[2] 陳 ?苒,董占球.WWW信息搜索技術(shù)研究[J].計算機工程與應(yīng)用,2001,37(14):62-64.

[3] CHULEERAT J, CANASAI K. Building Inverted Files Through Efficient Dynamic Hashing [A].The Sixth National Computer Science and Engineering Conference[C]. Princeton, New Jersey:CiteSeer, 2002.

[4] COHEN T, SCHVANEVELDT R, WIDDOWS D.Reflective random indexing and indirect inference: A scalable method for discovery of implicit connections[J].Journal of Biomedical Informatics, 2010,43(2):240-256.

[5] DEERWESTER S,DUMAIS S T, LANDAUER T K ,et al. Indexing by latent semantic analysis[J].Journal of the Society for Information Science,1990,41(6):391-407.

[6] 單松巍,馮是聰,李曉明.幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J].計算機工程與應(yīng)用,2003,39(22):146-148.

[7] 劉艷民.中文網(wǎng)頁分類方法研究[J].微電子學與計算機,2009, 26(9):167-169.

[8] 茆詩松,程依明,濮曉龍.概率論與數(shù)理統(tǒng)計教程[M].北京:高等教育出版社,2009.

[9] NGOCANH V,ALISTATR M. Inverted index compression using word-aligned binary codes[J]. Information Retrieval, 2007,8(1):151-166.

[10] 劉小珠,彭智勇,陳 ?旭.高效的隨機訪問分塊倒排文件自索引技術(shù)[J].計算機學報, 2010,33(6):977-987.

[11] 陳燕紅,張?zhí)t,馮向萍,等.基于雙重語義空間的農(nóng)業(yè)信息檢索模型研究[J].新疆農(nóng)業(yè)大學學報,2012,35(3):253-258.

[12] LANDAUER T K,DUMAIS S T. A solution to Platos problem: The latent semantic analysis theory of acquisition,induction,and representation of knowledge[J]. Psychological Review,1997,104(2):211-240.endprint

猜你喜歡
體系架構(gòu)
“廣譜式”創(chuàng)新創(chuàng)業(yè)教育的體系架構(gòu)與理論價值研究
科技資訊(2017年1期)2017-03-27 10:18:43
分析智慧教育體系架構(gòu)與關(guān)鍵支撐技術(shù)
云計算:體系架構(gòu)與關(guān)鍵技術(shù)
基于SDN的OpenFlow管控標準接口協(xié)議研究
基于國產(chǎn)軟硬件的行業(yè)大數(shù)據(jù)體系架構(gòu)研究
基于分布式星群的空間信息網(wǎng)絡(luò)體系架構(gòu)與關(guān)鍵技術(shù)
關(guān)于應(yīng)急移動通信體系架構(gòu)及組網(wǎng)技術(shù)分析
智慧健康物聯(lián)網(wǎng)體系架構(gòu)研究
以培養(yǎng)工程能力為導向的工程建設(shè)管理綜合訓練中心建設(shè)實踐探索
云計算體系架構(gòu)與關(guān)鍵技術(shù)
密云县| 宝兴县| 灵石县| 简阳市| 宁德市| 老河口市| 福泉市| 江门市| 乌海市| 铜鼓县| 札达县| 天门市| 阳原县| 玉山县| 封开县| 自治县| 龙胜| 乌兰浩特市| 镇坪县| 江孜县| 台中县| 鲁甸县| 林州市| 上饶县| 阿坝| 北碚区| 宜阳县| 阜新市| 香格里拉县| 即墨市| 南开区| 上高县| 晋宁县| 工布江达县| 五常市| 兴宁市| 康马县| 神木县| 绥江县| 龙州县| 岳阳县|