卜天然
(安徽商貿(mào)職業(yè)技術(shù)學(xué)院,安徽 蕪湖 241002)
?
基于Nutch技術(shù)的垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)*1
卜天然
(安徽商貿(mào)職業(yè)技術(shù)學(xué)院,安徽 蕪湖 241002)
摘要:在研究垂直搜索引擎的設(shè)計(jì)思想、相關(guān)技術(shù)的基礎(chǔ)上,利用Nutch開源框架設(shè)計(jì)實(shí)現(xiàn)了農(nóng)業(yè)環(huán)境信息的垂直搜索引擎,支持了對(duì)特定信息的檢索服務(wù).系統(tǒng)采用了網(wǎng)頁(yè)模板技術(shù)對(duì)網(wǎng)頁(yè)信息進(jìn)行提取,采用改進(jìn)的TF-IDF算法提取特征詞,利用基于特征詞的向量空間模型進(jìn)行主題相關(guān)性判定,利用樸素貝葉斯算法對(duì)網(wǎng)頁(yè)信息進(jìn)行分類.測(cè)試結(jié)果表明,改進(jìn)后的Nutch具有更高的查詢準(zhǔn)確率.
關(guān)鍵詞:Nutch;垂直搜索;信息提取
第37次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中明確指出,截至2015年12月,中國(guó)網(wǎng)民規(guī)模達(dá)6.88億,互聯(lián)網(wǎng)普及率達(dá)到50.3%[1],網(wǎng)絡(luò)已滲入到人們工作、生活的方方面面.隨著Web2.0技術(shù)的高速發(fā)展,網(wǎng)絡(luò)資源呈幾何式增長(zhǎng).如何在海量的互聯(lián)網(wǎng)信息中快速、準(zhǔn)確地搜索到有用的信息,成為搜索引擎所要應(yīng)對(duì)的一大挑戰(zhàn).在實(shí)際使用中,通用搜索引擎由于要面對(duì)互聯(lián)網(wǎng)上所有的信息資源,使得返回給用戶的信息結(jié)果并不能達(dá)到預(yù)期的效果.所以,出現(xiàn)了只針對(duì)某一個(gè)主題下信息檢索的搜索引擎——垂直搜索引擎,垂直搜索引擎解決了通用搜索引擎對(duì)于互聯(lián)網(wǎng)信息利用率低,而對(duì)于某一領(lǐng)域信息覆蓋率又不高的問題.
1基于Nutch的搜索引擎設(shè)計(jì)思路
Nutch作為一個(gè)開源網(wǎng)絡(luò)爬蟲,其主要工作就是按照制定的規(guī)則從互聯(lián)網(wǎng)上爬取網(wǎng)頁(yè)并將爬取下來的網(wǎng)頁(yè)分析處理后提取出有用信息建立倒排索引.Nutch的整體架構(gòu)如圖1所示.
利用Nutch插件機(jī)制擴(kuò)展網(wǎng)絡(luò)爬蟲的功能,通過融入網(wǎng)頁(yè)模板、向量空間模型(VSM)、樸素貝葉斯分類算法等重要技術(shù),完成了信息提取、主題判斷、信息分類,以及索引構(gòu)建工作.該垂直搜索引擎的詳細(xì)設(shè)計(jì)思路如下:
圖1 Nutch的整體架構(gòu)圖
(1)搭建Nutch爬蟲的運(yùn)行環(huán)境.
(2)通過人工專家的方式選取網(wǎng)頁(yè)爬行的初始網(wǎng)站.
圖2 信息提取、分類、索引工作流程示意圖
(3)配置Nutch,限制Nutch可爬行的網(wǎng)站,并利用Nutch工具在限定的網(wǎng)站中爬取網(wǎng)頁(yè),獲取原始網(wǎng)頁(yè)信息.
(4)利用Nutch插件機(jī)制擴(kuò)展網(wǎng)絡(luò)爬蟲的功能,通過融入網(wǎng)頁(yè)模板、向量空間模型(VSM)、樸素貝葉斯分類算法等重要技術(shù),完成了信息提取、主題判斷、信息分類,以及索引構(gòu)建工作.其工作示意流程如圖2所示.
2特征詞庫(kù)的確定
本文設(shè)計(jì)和實(shí)現(xiàn)的垂直搜索引擎在兩個(gè)地方需要使用特征詞庫(kù),一個(gè)是在主題相關(guān)性判斷時(shí)配合向量空間模型使用的主題詞庫(kù),一個(gè)是在網(wǎng)頁(yè)信息分類時(shí)配合樸素貝葉斯分類算法使用的分類特征詞庫(kù)[2].無論是主題詞庫(kù)還是分類特征詞庫(kù)其生成方法都是對(duì)某一類樣本文檔集合中所包含的詞或短語(yǔ)的權(quán)重進(jìn)行計(jì)算,然后通過設(shè)定閥值的方式選取能夠代表該類特征的詞或短語(yǔ)構(gòu)成特征詞庫(kù).
2.1權(quán)重的計(jì)算方法
特征詞的權(quán)值計(jì)算有許多種方法,常見的有:
(1)詞文檔頻率,這是指某一個(gè)詞或短語(yǔ)在文檔集合中出現(xiàn)的次數(shù).
(2)詞頻,這是指某一個(gè)詞或短語(yǔ)在文檔集合中所有文檔集合中出現(xiàn)的總次數(shù).
(3)TF-IDF算法.該算法包含兩個(gè)因子,TF表示某個(gè)詞或短語(yǔ)在一篇文檔中出現(xiàn)的次數(shù);IDF表示逆文檔頻率,它是衡量一個(gè)詞是不是常見詞的因子,是由總文檔數(shù)目除以包含該詞的文檔數(shù)目得到的.TF-IDF算法的主要思想是如果某個(gè)詞或短語(yǔ)在某一篇文檔中出現(xiàn)的頻率高,并且在其他文檔中很少出現(xiàn),則認(rèn)為該詞或者短語(yǔ)對(duì)于該文檔具有好高的價(jià)值[3].
TF的計(jì)算公式為:
(1)
其中ci,j表示詞i在文檔j中出現(xiàn)的次數(shù),∑kck,j表示文檔j中包含的詞的次數(shù)的總和.TFi,j表示詞i的詞頻,上式除以∑kck,j是考慮到文檔有長(zhǎng)短之分,所以進(jìn)行了標(biāo)準(zhǔn)化.
IDF的計(jì)算公式為:
(2)
其中N表示文檔集合中的文檔總數(shù),ni表示包含詞i的文檔數(shù),N+2是為了防止IDFi出現(xiàn)非正數(shù)的情況,ni+1是為了防止分母為零.
這樣結(jié)合公式(1)和(2)得到求解TF-IDF的公式:
(3)
上式(3)表示詞i在文檔j中的TF-IDF值,如果求解詞i在文檔集合中的TF-IDF值,就需要將每篇文檔中關(guān)于詞i的TF-IDF值進(jìn)行求和,則式(3)變成:
TF-IDF=∑d(TFi,n*IDFi)=
(4)
本文中需要提取每一個(gè)類別文檔的特征詞,而TF-IDF算法考慮了詞或短語(yǔ)在某篇文檔中頻率,以及在文檔集合中出現(xiàn)的文檔頻率,沒有考慮到有可能存在某些權(quán)重值較高的詞或短語(yǔ)在其他類別的文檔集合中也具有較高的價(jià)值.所以本文利用IDF算法的思想,考慮如果一個(gè)詞或短語(yǔ)在多個(gè)類別中出現(xiàn),則其區(qū)分不同類別的價(jià)值就越低,反之,則越高.添加這樣的計(jì)算因子就可以體現(xiàn)出詞或短語(yǔ)在不同類別文檔之間的價(jià)值.其公式則可以寫成:
TF-IDFnew=
(5)
其中L表示總類別數(shù),L+1是為了避免出現(xiàn)非正數(shù)的情況,li表示特征詞i出現(xiàn)的類別數(shù).
2.2特征詞庫(kù)選擇步驟
本文主要根據(jù)公式(5)計(jì)算詞或短語(yǔ)的權(quán)重,通過設(shè)定閥值刪除權(quán)重低的詞或短語(yǔ).特征詞庫(kù)確定的工作步驟如下:
(1)選取不同類別的文檔作為樣本文檔.本文對(duì)于主題詞庫(kù)除了選取400篇與農(nóng)業(yè)信息環(huán)境領(lǐng)域相關(guān)的文檔也選取了400篇不相關(guān)的文檔作為樣本文檔;對(duì)于分類特征詞庫(kù),每個(gè)類別選取150篇文檔作為樣本文檔.
(2)利用IK分詞器分別對(duì)各類文本進(jìn)行中文分詞,并去除停用詞.
(3)利用Lucene技術(shù)對(duì)各類文本建立索引,并把結(jié)果保存在索引庫(kù)中.
(4)利用Lucene提供的相關(guān)方法,首先在各類別中統(tǒng)計(jì)每一個(gè)詞或短語(yǔ)在集合中的每一篇文檔中出現(xiàn)的次數(shù),以及計(jì)算該篇文檔出現(xiàn)所有詞的總次數(shù);然后統(tǒng)計(jì)該詞或短語(yǔ)在該類文檔集合中出現(xiàn)的文檔頻率,以及該類文檔集合中擁有的文檔總數(shù);最后統(tǒng)計(jì)該詞或短語(yǔ)出現(xiàn)的類別,以及總類別數(shù).
(5)利用上一步獲取的相關(guān)數(shù)據(jù),利用公式(5)計(jì)算在每一類別樣本文檔集合中的每一個(gè)詞或短語(yǔ)的權(quán)重,并將這些詞或短語(yǔ)按照權(quán)重的大小排序.
(6)通過設(shè)定閥值去除權(quán)重低的詞或短語(yǔ),確定最終的特征詞庫(kù).
特征詞庫(kù)訓(xùn)練流程如圖3所示:
3主題相關(guān)性判別的實(shí)現(xiàn)
垂直搜索引擎最后用于建立索引庫(kù)的信息都是屬于同一個(gè)主題的,這就需要在搜索引擎實(shí)現(xiàn)過程中對(duì)抓取到的信息進(jìn)行主題相關(guān)性判斷,過濾掉與主題相關(guān)度不大的信息[4].主題相關(guān)性判別保證了用戶通過垂直搜索引擎檢索所需的信息時(shí),得到的返回結(jié)果更加的專業(yè)和準(zhǔn)確.因此,搭建高性能的垂直搜索引擎,就需要選擇一個(gè)優(yōu)秀主題相關(guān)性判定方法.本文采用了基于主題詞庫(kù)的向量空間模型來進(jìn)行主題相關(guān)性判定.
3.1向量空間模型
向量空間模型(VSM)將一個(gè)文本或其中的某一個(gè)文本片段(段落或句子)看成一個(gè)文檔(Document),并認(rèn)為所有的文檔都是由一系列字、詞、短語(yǔ)組成.這些組成文檔的基本單位則稱為項(xiàng)(Term),所以一篇文本則可以表示成:
D=D(t1,t2,t3,…,tn-1,tn)
(6)
其中D表示一篇文檔,ti表示文檔中的項(xiàng),每個(gè)項(xiàng)表示一個(gè)維度,文檔可以看成是項(xiàng)的集合.
在文檔中,每個(gè)項(xiàng)對(duì)這個(gè)文檔的重要程度是不同的,所以,每個(gè)項(xiàng)都該被賦予一定的權(quán)重(Weight).這樣一篇文本則可以表示成:
D=D(t1,w1;t2,w2;t3,w3;…;tn-1,wn-1;tn,wn;)
(7)
其中wi表示項(xiàng)的權(quán)重,ti,wi表示ti在文檔D中權(quán)重為wi.實(shí)際表示中,因?yàn)槊恳黄谋局谐霈F(xiàn)的詞或短語(yǔ)都是有先后順序的,所以根據(jù)這種先后順序就可以判定每個(gè)位置上對(duì)應(yīng)的詞,所以(7)式一般可簡(jiǎn)寫成:
D=D(w1,w2,w3,…,wn-1,wn;)
(8)
在向量空間模型中,任何一篇文檔都可以用(8)式來表示成一個(gè)向量,這個(gè)向量通常稱之為該文檔的特征向量.所以如果需要計(jì)算兩篇文檔之間的相似性,則可以將兩篇文檔分別表示成向量,通過計(jì)算向量之間的相似性來確定文檔之間的相似性.文檔的相似性計(jì)算通常使用向量間的余弦距離來表示[5].如果存在兩個(gè)文檔D1和D2,它們的向量表示形式分別為D1=(W11,W12,…,W1n)和D2=(W21,W22,…,W2n),則文檔的向量空間模型圖可以用圖4所示.
圖4可以看出文檔D1和D2之間的相似度越高,則兩篇文檔表示成的向量之間的夾角θ則越小,而余弦值cosθ則越大.所以利用向量余弦值表示文本之間相似度的向量空間模型的計(jì)算公式可以表示為:
(9)
3.2主題相關(guān)性判別方法
向量空間模型可以將文檔表示成向量,可以使用向量之間的余弦距離表示文檔之間的相似度.具體實(shí)現(xiàn)方法如下:
(1)根據(jù)2.1節(jié)所提供的方式,確定農(nóng)業(yè)信息環(huán)境領(lǐng)域的主題詞庫(kù)(k1,k2,…,kn),并利用公式(5)計(jì)算詞庫(kù)中詞或短語(yǔ)k的權(quán)重W1k,得到主題詞庫(kù)的特征向量D1=(W11,W12,…,W1n),其中n表示主題詞庫(kù)中關(guān)鍵詞的個(gè)數(shù).
(2)對(duì)于網(wǎng)絡(luò)爬蟲抓取下來的原始數(shù)據(jù),通過網(wǎng)頁(yè)模板等方式獲取其中需要的內(nèi)容,再利用IK分詞器對(duì)網(wǎng)頁(yè)文本進(jìn)行分詞,得到該網(wǎng)頁(yè)的分詞集合(t1,t2,…,tm),其中m為該網(wǎng)頁(yè)中分詞的總數(shù).
(3)以主題詞庫(kù)特征向量的維度為標(biāo)準(zhǔn),根據(jù)主題詞庫(kù)中的特征詞對(duì)分詞后得到的網(wǎng)頁(yè)的分詞集合進(jìn)行相關(guān)操作[6].在網(wǎng)頁(yè)的分詞集合中去除掉主題詞庫(kù)中不存在的詞,添加在主題詞庫(kù)中存在的詞但在網(wǎng)頁(yè)分詞集合中不存在的詞,并將其權(quán)重設(shè)為0,保留在主題詞庫(kù)中也存在的詞,并將其權(quán)重設(shè)為1,最終得到與主題詞庫(kù)特征向量同樣維度的網(wǎng)頁(yè)特征向量D2=(W21,W22,…,W2n).
(4)利用公式(9),計(jì)算主題特征向量D1=(W11,W12,…,W1n)和網(wǎng)頁(yè)特征D2=(W21,W22,…,W2n)之間的余弦距離,并將得到的值作為判定該網(wǎng)頁(yè)與農(nóng)業(yè)環(huán)境信息主題領(lǐng)域的相關(guān)度大小的判定值.
設(shè)定閥值,若網(wǎng)頁(yè)與農(nóng)業(yè)環(huán)境信息主題領(lǐng)域的相關(guān)度大于設(shè)定的閥值,則認(rèn)為網(wǎng)頁(yè)所包含的信息屬于農(nóng)業(yè)環(huán)境信息主題領(lǐng)域,并在建立索引時(shí),將與網(wǎng)頁(yè)相關(guān)的信息保存在索引數(shù)據(jù)庫(kù)中;反之,則認(rèn)為該網(wǎng)頁(yè)與農(nóng)業(yè)環(huán)境信息主題領(lǐng)域無關(guān),舍棄該網(wǎng)頁(yè).
4搜索引擎系統(tǒng)模塊設(shè)計(jì)
本文實(shí)現(xiàn)的垂直搜索引擎可以分成三個(gè)模塊.第一個(gè)模塊為采集模塊,該模塊主要是使用網(wǎng)絡(luò)爬蟲在互聯(lián)網(wǎng)中抓取網(wǎng)頁(yè)信息,具體工作包括設(shè)置初始種子、生成抓取隊(duì)列、獲取原始網(wǎng)頁(yè)內(nèi)容、獲取新的URL、更新抓取隊(duì)列等.第二個(gè)模塊為索引模塊,該模塊是對(duì)采集模塊中下載的原始網(wǎng)頁(yè)進(jìn)行分析,提取其中有用的數(shù)據(jù),并把數(shù)據(jù)以Lucene索引文件形式保存起來,本文在該模塊主要的工作包括中文分詞、網(wǎng)頁(yè)信息提取、網(wǎng)頁(yè)信息分類、主題相關(guān)度判定以及索引構(gòu)建.第三個(gè)模塊為檢索模塊,該模塊主要為搜索引擎和用戶之間搭起交互的橋梁,本文在檢索模塊提供了用戶檢索接口,用戶可以在UI界面中的搜索框里輸入查詢信息從索引庫(kù)中獲取相關(guān)的信息.本文搭建的農(nóng)業(yè)環(huán)境信息垂直搜索引擎的體系結(jié)構(gòu)如圖5所示.
圖5 基于Nutch的垂直搜索引擎體系結(jié)構(gòu)圖
5搜索引擎系統(tǒng)的搭建
Nutch是一個(gè)運(yùn)行在Linux系統(tǒng)下的項(xiàng)目,在使用之前,需要先搭建它的開發(fā)環(huán)境.本文選擇在Ubuntu系統(tǒng)下搭建Nutch開發(fā)環(huán)境.搭建步驟如下:
(1)分別從官網(wǎng)上下載Tomcat、JDK、SVN工具并進(jìn)行安裝.安裝Tomcat是為了運(yùn)行Solr的Web客戶端程序;安裝JDK是為了提供Java的開發(fā)環(huán)境.Nutch是Java語(yǔ)言開發(fā)的,所以對(duì)Nutch進(jìn)行二次開發(fā),以及運(yùn)行Nutch都需要Java開發(fā)環(huán)境;安裝SVN是為了編譯Nutch項(xiàng)目,管理Nutch源代碼.
(2)下載合適的Nutch版本.Nutch下載后,需要修改conf/nutch-site.xml文件,添加自己的代理名稱.修改內(nèi)容如圖6所示.
圖6 nutch-site.xml配置代理信息
(3)使用Nutch抓取網(wǎng)站時(shí)有時(shí)會(huì)出現(xiàn)某些網(wǎng)站被跳過的情況,這是因?yàn)檫@些網(wǎng)站的頁(yè)面內(nèi)容采用了truncate的方式分段返回,而nutch默認(rèn)是不能夠處理這種情況的,這就需要修改conf/nutch-site.xml文件,使Nutch能夠處理這種方式,具體修改內(nèi)容如圖7所示.
圖7 nutch-site.xml配置網(wǎng)頁(yè)truncate方式分段返回
(4)下載合適的Solr版本.下載后,需要將Solr和Tomcat進(jìn)行整合.
首先需要將Solr中的example中solr文件夾拷貝到自己建立的Solr服務(wù)器目錄下(/home/zhangfei/spiderspace/solrhome/solr).
之后將Solr的web程序(solr.war)也拷貝出來,解壓放到Solr的web程序目錄下(/home/zhangfei/spiderspace/solrserver/solr).
(5)接下來需要在Solr配置文件solrconfig.xml中修改索引數(shù)據(jù)存放的位置,修改內(nèi)容如圖8所示.
圖8Solr管理索引數(shù)據(jù)位置
(6)最后需要在Tomcat的server.xml文件中配置Solr的相關(guān)信息,包括Solr服務(wù)器信息以及Solr的web程序相關(guān)信息,配置內(nèi)容如圖9所示.
圖9server.xml配置信息
(7)將Nutch與Solr進(jìn)行整合.Nutch與Solr進(jìn)行整合只需要將Nutch的conf目錄中的schema.xml文件拷貝到Solr的conf目錄下進(jìn)行替換.
(8)擴(kuò)展搜索引擎的分詞器,將IK中文分詞器與Solr進(jìn)行整合.將IK分詞器所需的架包拷貝到Solr的web工作目錄下的lib文件夾中,將IK分詞器的配置文件IKAnalyzer.cfg.xml,相關(guān)詞典拷貝到Solr的conf目錄下面.最后只需要在schema.xml文件中配置上IK分詞器的相關(guān)信息就可以讓Solr使用該分詞器了,配置內(nèi)容如圖10所示.
圖10配置IK分詞器
至此Nutch的開發(fā)環(huán)境就搭建完成了.如果想要使用Nutch抓取網(wǎng)頁(yè)還需要利用ANT工具對(duì)配置好的Nutch進(jìn)行編譯.完成編譯后,就可以通過輸入Nutch的抓取命令,讓Nutch按照預(yù)先設(shè)定好的規(guī)則抓取網(wǎng)頁(yè)了.
6系統(tǒng)運(yùn)行和測(cè)試
本系統(tǒng)Nutch經(jīng)過二次開發(fā)后,可使用Ant工具進(jìn)行編譯,編譯后的Nutch目錄下會(huì)出現(xiàn)一個(gè)runtime文件夾,該文件夾是Nutch的運(yùn)行文件夾,本文在runtime文件夾中選擇local本地運(yùn)行模式運(yùn)行Nutch爬蟲,通過輸入命令運(yùn)行Nutch腳本文件.Nutch抓取的運(yùn)行命令為:
bin/crawl
其中bin/crawl是Nutch運(yùn)行命令,后面的為運(yùn)行所需的參數(shù),seedDir為Nutch的種子文件存放文件夾;crawlDir為存放Nutch抓取數(shù)據(jù)、分析數(shù)據(jù)的文件夾;solrURL為配置的solr訪問地址,numberOfRounds表示爬蟲需要抓取的深度.
輸入bin/crawl urls data/crawldb http://127.0.0.1:8080/solr 1后Nutch爬蟲運(yùn)行界面如圖11所示.
圖11 Nutch運(yùn)行測(cè)試界面
在測(cè)試中,系統(tǒng)選取了400篇“農(nóng)業(yè)環(huán)境信息”作為類別特征詞庫(kù)的實(shí)驗(yàn)文檔,同樣對(duì)使用通用搜索引擎和垂直搜索引擎進(jìn)行實(shí)驗(yàn)對(duì)比,得到實(shí)驗(yàn)對(duì)比結(jié)果如表1所示.
表1 主題詞庫(kù)實(shí)驗(yàn)測(cè)試結(jié)果
通過實(shí)驗(yàn)可以看出,選擇改進(jìn)的TF-IDF算法計(jì)算詞的權(quán)重,經(jīng)過篩選構(gòu)成的特征詞庫(kù)相比其他方法在主題相關(guān)性判別中能最有效選擇農(nóng)業(yè)環(huán)境信息領(lǐng)域相關(guān)的文檔,去除非農(nóng)業(yè)環(huán)境信息領(lǐng)域相關(guān)的文檔,在信息分類中,該方法得到的特征詞庫(kù)也能夠最有效地將文檔進(jìn)行歸類,所以本文選擇這種方案進(jìn)行特征選擇.
7結(jié)束語(yǔ)
本文以搭建農(nóng)業(yè)環(huán)境信息領(lǐng)域的垂直搜索引擎為需求背景,利用Nutch開源框架,結(jié)合網(wǎng)頁(yè)模板、向量空間,以及樸素貝葉斯算法等技術(shù),實(shí)現(xiàn)了垂直搜索引擎的開發(fā).本文實(shí)現(xiàn)的搜索引擎系統(tǒng)的開發(fā)環(huán)境為Ubuntu+Eclipse+Tomcat,利用了Nutch、Solr以及Lucene開源工具完成了系統(tǒng)框架的搭建.實(shí)驗(yàn)證明,完成的搜索引擎初步實(shí)現(xiàn)了對(duì)農(nóng)業(yè)環(huán)境信息相關(guān)信息檢索的工作,降低了該領(lǐng)域工作人員信息獲取的難度.
參考文獻(xiàn):
[1]中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].2016.
[2]Guo Q, Guo H, Zhang ZQ,et al. Schema Driven and Topic Specific Web Crawling [G]//Database Systems for Advanced Applications. Springer Berlin Heidelberg,2005: 594-599.
[3]劉策.垂直搜索引擎發(fā)展前景分析[J].中國(guó)科技成果,2006(13):46-47.
[4]梁春燕.Internet主題搜索引擎設(shè)計(jì)與研究[M].北京:中國(guó)水利水電出版社,2012,2.
[5]王學(xué)松.Lucene+Nutch搜索引擎開發(fā)[M].北京:人民郵電出版社,2008.
[6]梁斌.走進(jìn)搜索引擎[M].北京:電子工業(yè)出版社,2007.
(責(zé)任編輯:王前)
DOI:10.13877/j.cnki.cn22-1284.2016.04.002
*收稿日期:2016-03-14
基金項(xiàng)目:安徽省省級(jí)自然科研重點(diǎn)課題“農(nóng)業(yè)環(huán)境信息監(jiān)測(cè)傳感器網(wǎng)絡(luò)數(shù)據(jù)采集優(yōu)化研究”(KJ2012B067)
作者簡(jiǎn)介:卜天然,男,安徽蕪湖人,講師, H3C網(wǎng)絡(luò)高級(jí)工程師.
中圖分類號(hào):TP274
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1008-7974(2016)02-0004-05