莊旭菲 田雪
摘 ?要:針對(duì)通用搜索引擎無(wú)法及時(shí)收錄校園網(wǎng)內(nèi)信息和收錄時(shí)間滯后的問(wèn)題,基于Scrapy框架和Elasticsearch全文搜索引擎,提出了一個(gè)完善的校園網(wǎng)搜索引擎解決方案。該文主要分析了Scrapy的運(yùn)行流程,對(duì)Elasticsearch的搜索機(jī)制進(jìn)行了研究,在此基礎(chǔ)上設(shè)計(jì)了校園網(wǎng)搜索引擎的系統(tǒng)架構(gòu),給出了系統(tǒng)的網(wǎng)頁(yè)抓取模塊、索引檢索模塊、頁(yè)面展示模塊的關(guān)鍵實(shí)現(xiàn)技術(shù)。最后通過(guò)實(shí)驗(yàn)驗(yàn)證,相比于傳統(tǒng)的通用搜索引擎,該文設(shè)計(jì)的校園網(wǎng)搜索引擎的搜索結(jié)果相關(guān)性更好,數(shù)量更多,對(duì)于校園網(wǎng)內(nèi)新信息的收錄情況更好。
關(guān)鍵詞:校園網(wǎng)搜索引擎 ?Scrapy ?Elasticsearch ?中文分詞
中圖分類號(hào):TP391.3;TP393.18 ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)10(b)-0012-04
近年來(lái),隨著高校數(shù)字化校園建設(shè)的不斷加快,校園網(wǎng)絡(luò)信息呈現(xiàn)出爆炸式增長(zhǎng)。高校校園內(nèi)網(wǎng)站的網(wǎng)絡(luò)拓?fù)淝闆r復(fù)雜,分布于不同技術(shù)架構(gòu)的服務(wù)器上,如果采用傳統(tǒng)的站內(nèi)搜索算法及存儲(chǔ)結(jié)構(gòu),難于實(shí)現(xiàn)高效、精準(zhǔn)的校園網(wǎng)搜索引擎。而由于校園內(nèi)網(wǎng)站多數(shù)使用二級(jí)域名或者直接使用IP地址訪問(wèn),導(dǎo)致傳統(tǒng)的通用搜索引擎無(wú)法準(zhǔn)確、及時(shí)地收錄校園網(wǎng)內(nèi)信息[1]。
為了解決現(xiàn)階段網(wǎng)絡(luò)搜索引擎在校園網(wǎng)應(yīng)用中存在的問(wèn)題,該文對(duì)網(wǎng)絡(luò)搜索引擎的核心原理、關(guān)鍵技術(shù)和工作流程進(jìn)行了深入分析,結(jié)合URL去重策略、防止爬蟲(chóng)被禁止策略、文本分詞等多門技術(shù),提出了一個(gè)基于Scrapy爬蟲(chóng)框架和Elasticsearch全文搜索引擎的校園網(wǎng)搜索引擎設(shè)計(jì)方案,并使用Django框架實(shí)現(xiàn)了搜索引擎的用戶搜索界面。
該文最后的實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的通用搜索引擎,該文設(shè)計(jì)的校園網(wǎng)搜索引擎能夠及時(shí)、準(zhǔn)確地進(jìn)行校園網(wǎng)信息搜索,搜索結(jié)果的相關(guān)性、準(zhǔn)確性及數(shù)量級(jí)要高于傳統(tǒng)的通用搜索引擎。
1 ?搜索引擎中的關(guān)鍵技術(shù)研究
1.1 Scrapy爬蟲(chóng)框架
Scrapy框架是基于異步I/O的twisted框架,所以Scrapy應(yīng)用在網(wǎng)絡(luò)爬蟲(chóng)時(shí)性能非常高。Scrapy方便擴(kuò)展,提供了很多內(nèi)置功能,這些功能可以加快開(kāi)發(fā)速度。Scrapy主要包含引擎(Scrapy Engine)、調(diào)度器(Scheduler)、下載器(Downloader)、爬蟲(chóng)(Spiders)、項(xiàng)目管道(Item Pipeline)、下載器中間件(Downloader Middlewares)、爬蟲(chóng)中間件(Spider Middlewares)等組件[2]。
Scrapy的運(yùn)行流程可以簡(jiǎn)單理解為:引擎若獲取到應(yīng)答包則發(fā)送給爬蟲(chóng),若獲取到實(shí)體則發(fā)送給實(shí)體管道,若獲取到請(qǐng)求則發(fā)送給調(diào)度器。引擎不停地從調(diào)度器中取出鏈接,封裝成requests發(fā)送給下載器,這個(gè)過(guò)程不斷往復(fù)循環(huán)就是Scrapy的數(shù)據(jù)流向。
1.2 Elasticsearch全文搜索引擎
Elasticsearch是基于Lucene的開(kāi)源搜索服務(wù)器,它在Lucene的基礎(chǔ)上做了改進(jìn),提供了多種語(yǔ)言接口,使搜索變的更加簡(jiǎn)單[3]。近年來(lái)隨著實(shí)時(shí)日志分析平臺(tái)(ELK)的廣泛使用,Elasticsearch也變得越來(lái)越流行。
Elasticsearch既有數(shù)據(jù)的存儲(chǔ),又有數(shù)據(jù)的分析,是當(dāng)前流行的企業(yè)級(jí)搜索引擎。當(dāng)前使用Elasticsearch作為搜索引擎的公司有聯(lián)想微軟、Facebook、GitHub和Adobe等。
Elasticsearch的核心功能是搜索,如圖1所示,描述了將文檔索引到Elasticsearch并從Elasticsearch中搜索到該文檔的全過(guò)程。圖1將坐標(biāo)系分為4個(gè)象限,第一到第四象限分別代表了用戶、原始文檔、Elasticsearch和搜索結(jié)果。
索引過(guò)程:存在如第二象限所示的原始文檔,它包括title與content兩個(gè)字段。在將文檔寫(xiě)入到Elasticsearch中時(shí),Elasticsearch默認(rèn)會(huì)保存兩份內(nèi)容,一份是該文檔的原始內(nèi)容,即_source中的內(nèi)容;另一份是索引時(shí)經(jīng)分詞、過(guò)濾等一系列過(guò)程生成的倒排索引文件。
搜索過(guò)程:第一象限的用戶輸入關(guān)鍵詞python對(duì)文檔進(jìn)行搜索,Elasticsearch接收到查詢關(guān)鍵詞python后到倒排索引表中查詢,通過(guò)倒排記錄表找到關(guān)鍵詞對(duì)應(yīng)的文檔集合,然后對(duì)文檔集合進(jìn)行評(píng)分、排序、高亮處理,最后將搜索結(jié)果返回給用戶。
2 ?校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
校園網(wǎng)搜索引擎分為三大模塊[4,5],分別為網(wǎng)頁(yè)抓取模塊:通過(guò)采取一定的策略從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)信息;索引檢索模塊:對(duì)獲取到的網(wǎng)頁(yè)信息建立快速高效的索引,便于檢索;頁(yè)面展示模塊:將搜索結(jié)果按評(píng)分高低進(jìn)行排序,展現(xiàn)給用戶。
2.1 網(wǎng)頁(yè)抓取模塊
在進(jìn)行網(wǎng)頁(yè)抓取之前,首先需要分析待爬取網(wǎng)站的URL結(jié)構(gòu),選取適合的網(wǎng)頁(yè)搜索策略進(jìn)行數(shù)據(jù)爬取,例如深度優(yōu)先策略、廣度優(yōu)先策略、非完全PageRank策略等。獲取到返回的網(wǎng)頁(yè)信息后,進(jìn)入解析函數(shù)進(jìn)行具體字段的提取,提取的字段信息需要在items.py數(shù)據(jù)容器文件中定義。
2.1.1 URL去重策略
在進(jìn)行數(shù)據(jù)抓取時(shí),若不進(jìn)行URL去重,不僅會(huì)降低爬蟲(chóng)的效率,還會(huì)造成硬件資源的浪費(fèi)。Scrapy框架默認(rèn)的URL去重方法由dupefilters去重器里的RFPDupeFilter類實(shí)現(xiàn),RFPDupeFilter類會(huì)對(duì)每一個(gè)傳遞過(guò)來(lái)的request請(qǐng)求生成信息指紋fp。這種URL去重方法唯一確定了一個(gè)request所指向的資源,但是這種去重方法比較耗費(fèi)內(nèi)存,采用布隆過(guò)濾器則可以改進(jìn)內(nèi)存耗費(fèi)大的問(wèn)題,但布隆過(guò)濾器有時(shí)會(huì)存在“積極的”誤判[6]。相比于互聯(lián)網(wǎng)資源,校園網(wǎng)內(nèi)的信息量較少,采用Scrapy框架默認(rèn)的URL去重方法已經(jīng)足夠。
2.1.2 防止爬蟲(chóng)被禁止策略
爬蟲(chóng)與反爬蟲(chóng)的對(duì)抗機(jī)制長(zhǎng)期存在,為了防止爬蟲(chóng)被禁止,需要采取相應(yīng)的策略[7]。(1)隨機(jī)更換user-agent。該文采用fake-useragent開(kāi)源庫(kù),利用其內(nèi)部維護(hù)的user-agent列表,實(shí)現(xiàn)隨機(jī)更換user-agent。(2)啟用自動(dòng)限速(Auto Throttle)擴(kuò)展。通過(guò)設(shè)置setting.py文件中的“AUTOTHROTTLE_ENABLED=True”即可啟用自動(dòng)限速擴(kuò)展,通過(guò)啟用自動(dòng)限速擴(kuò)展以及對(duì)相應(yīng)參數(shù)的設(shè)置,可以有效地限制爬蟲(chóng)的爬取速度。
2.2 索引檢索模塊
在網(wǎng)頁(yè)抓取模塊中,已經(jīng)從頁(yè)面解析函數(shù)中獲取到了返回的item對(duì)象,此時(shí)需要在pipeline中使用Elasticsearch-dsl將爬蟲(chóng)爬取到的數(shù)據(jù)保存到Elasticsearch中。Elasticsearch的兩大主要任務(wù)是:索引文檔與搜索文檔。索引文檔是將爬蟲(chóng)爬取到的數(shù)據(jù)分詞并構(gòu)建倒排索引,搜索文檔是將用戶輸入的關(guān)鍵詞分詞,匹配出倒排索引中的文檔。
分詞技術(shù)是搜索引擎開(kāi)發(fā)中的重要組成部分,它可以提高搜索結(jié)果的匹配度。Elasticsearch本身的分詞功能是針對(duì)英文的,對(duì)于中文分詞的支持不是很友好。該文使用插件ik提供的ik_max_word分詞器,可以對(duì)文本進(jìn)行最大數(shù)量的分詞,即將文本做最細(xì)粒度的拆分。
2.3 頁(yè)面展示模塊
該文利用Elasticsearch提供的Completion Suggester接口完成搜索建議功能。核心思想是:在index.html里編寫(xiě)一個(gè)函數(shù)用于綁定輸入框的input事件,當(dāng)input發(fā)生變化時(shí),調(diào)用get方法獲取到用戶輸入的查詢關(guān)鍵詞,并向后臺(tái)處理搜索建議的URL發(fā)起請(qǐng)求。
當(dāng)用戶在搜索引擎界面輸入查詢關(guān)鍵詞,點(diǎn)擊搜索按鈕進(jìn)行查詢時(shí),搜索結(jié)果頁(yè)面會(huì)顯示查詢到的搜索結(jié)果、用戶的搜索記錄、搜索熱詞、爬取到的網(wǎng)站的數(shù)據(jù)量和當(dāng)前系統(tǒng)的訪問(wèn)量。處理用戶搜索的核心思想是:當(dāng)用戶點(diǎn)擊搜索按鈕時(shí),調(diào)用add_search方法,獲取用戶輸入的查詢關(guān)鍵詞,并向后臺(tái)處理用戶搜索的URL發(fā)起請(qǐng)求。如果查詢關(guān)鍵詞的長(zhǎng)度大于1,則在搜索記錄數(shù)組中去重并顯示。處理用戶搜索的關(guān)鍵代碼流程如圖2所示。
該文使用Django框架實(shí)現(xiàn)搜索引擎的用戶界面,首先在項(xiàng)目目錄下新建static文件夾,用于存放靜態(tài)文件,接著在urls.py文件中進(jìn)行配置,使得訪問(wèn)http://127.0.0.1:8000/時(shí),顯示為自己定義的搜索引擎用戶界面。配置完成后,用戶搜索界面展示如圖3所示。
搜索建議界面展示如圖4所示。
搜索結(jié)果界面展示如圖5所示。
查詢時(shí),Elasticsearch會(huì)對(duì)每個(gè)符合查詢條件的文檔按照查詢關(guān)鍵詞與文檔的相關(guān)度進(jìn)行評(píng)分,搜索結(jié)果默認(rèn)按評(píng)分降序排序返回給用戶。Elasticsearch5.4之后對(duì)于text類型的字段,默認(rèn)采用BM25評(píng)分模型。
BM25模型是目前比較成功的概率檢索模型。BM25模型在二值獨(dú)立模型的基礎(chǔ)上做了改進(jìn),將文檔長(zhǎng)度、文檔詞頻、idf因子等因素考慮進(jìn)去,BM25模型的評(píng)分公式如下。
對(duì)查詢Q進(jìn)行分詞,并且依次計(jì)算文檔D中的每個(gè)單詞的分?jǐn)?shù),累加后即為文檔D的分?jǐn)?shù)。BM25模型的評(píng)分公式主要由3個(gè)部分組成:第一部分為從二值獨(dú)立模型中推導(dǎo)出來(lái)的相關(guān)性計(jì)算公式;第二部分為查詢關(guān)鍵詞在文檔D中的權(quán)值,其中fi代表詞項(xiàng)在文檔中的詞頻,k1、b是經(jīng)驗(yàn)參數(shù),K是對(duì)文檔長(zhǎng)度的考慮。當(dāng)k1取0時(shí),公式的第二部分為1,此時(shí)不考慮詞項(xiàng)在文檔中的詞頻;當(dāng)b取0時(shí),表示不考慮文檔長(zhǎng)度的因素。第三部分是查詢關(guān)鍵詞自身的權(quán)值,tfta是詞項(xiàng)t在查詢Q中的詞頻,k2是一個(gè)取正的調(diào)優(yōu)參數(shù),用于對(duì)Q中的詞項(xiàng)頻率進(jìn)行縮放,當(dāng)取0時(shí),表示不考慮詞項(xiàng)在Q中的權(quán)值。在沒(méi)有根據(jù)開(kāi)發(fā)測(cè)試集進(jìn)行優(yōu)化的前提下,實(shí)驗(yàn)結(jié)果表明參數(shù)的合理取值應(yīng)為:k1在區(qū)間(1.2,2)中,b取0.75,k2在區(qū)間(0,1000)中。
3 ?實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證該文所實(shí)現(xiàn)的校園網(wǎng)搜索引擎的可靠性,分別選取了百度站內(nèi)搜索、搜狗站內(nèi)搜索與該文設(shè)計(jì)的校園網(wǎng)搜索引擎進(jìn)行對(duì)比測(cè)試,測(cè)試的對(duì)象為內(nèi)蒙古工業(yè)大學(xué)校園網(wǎng)站,測(cè)試的指標(biāo)為,前20個(gè)搜索結(jié)果的相關(guān)度,測(cè)試的關(guān)鍵詞為“材料科學(xué)與工程學(xué)院舉辦“教授助你成才”系列講座第四期”。對(duì)比結(jié)果如表1所示。
接下來(lái)測(cè)試各搜索引擎對(duì)于校園內(nèi)新發(fā)布信息的收錄情況,測(cè)試對(duì)象與上例相同,測(cè)試的指標(biāo)為,所查詢信息是否被搜索引擎收錄,測(cè)試的關(guān)鍵詞為,內(nèi)蒙古工業(yè)大學(xué)在2019年1月10日發(fā)布的新聞信息“圖書(shū)館黨總支舉辦“中央紅軍長(zhǎng)征與長(zhǎng)征精神”主題黨課”。對(duì)比結(jié)果如表2所示。
測(cè)試結(jié)果證明了對(duì)于給定的查詢關(guān)鍵詞,該文設(shè)計(jì)的校園網(wǎng)搜索引擎的搜索結(jié)果數(shù)量更多,相關(guān)性更好,并且可以有效地解決校園內(nèi)新信息收錄不及時(shí)的問(wèn)題。
4 ?結(jié)語(yǔ)
基于Scrapy框架和Elasticsearch的校園網(wǎng)搜索引擎,成功解決了校園網(wǎng)內(nèi)信息不易被通用搜索引擎收錄與收錄不及時(shí)的問(wèn)題,滿足了校園內(nèi)師生的信息檢索需求。該文的下一步工作是在搜素引擎的基礎(chǔ)上,使用Scrapy-Redis進(jìn)行分布式爬取,提高數(shù)據(jù)爬取效率,并考慮使用布隆過(guò)濾器,降低內(nèi)存使用,進(jìn)一步提升校園內(nèi)師生的搜索體驗(yàn)。
參考文獻(xiàn)
[1] 左衛(wèi)剛.基于Python的校園網(wǎng)搜索引擎研究[J].電子技術(shù)與軟件工程,2018,144(22):40-42.
[2] 云洋.基于Scrapy的網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[J].電腦編程技巧與維護(hù),2018(9):19-21,58.
[3] 欽蔣承,沈宏良.基于Elasticsearch的校內(nèi)全文搜索平臺(tái)的研究與實(shí)現(xiàn)[J].現(xiàn)代計(jì)算機(jī):專業(yè)版,2018,634(34):98-102.
[4] Gormley C,Tong Z.Elasticsearchthedefinitiveguide:adistributedreal-timesearchandanalyticsengine[M].Sebastopol,CA:O'Reilly,2015.
[5] 王偉,魏樂(lè),劉文清,等.基于ElasticSearch的分布式全文搜索系統(tǒng)[J].電子科技,2018,31(347):60-63,69.
[6] 焦萍萍.基于python技術(shù)面向校園網(wǎng)原型搜索引擎設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2017(9):20-21,28.
[7] 韓貝,馬明棟,王得玉,等.基于Scrapy框架的爬蟲(chóng)和反爬蟲(chóng)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019,29(2):145-148.