国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于.Net 的全文搜索引擎設(shè)計(jì)與實(shí)現(xiàn)*

2014-12-31 09:04:58孫藝珍季小迪張京濤
西安科技大學(xué)學(xué)報 2014年6期
關(guān)鍵詞:爬蟲分詞搜索引擎

孫藝珍,季小迪,張京濤

(1.西安科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安710054;2.陜西百略企業(yè)管理咨詢有限公司,陜西 西安710061)

0 引 言

在互聯(lián)網(wǎng)高速發(fā)展的今天,網(wǎng)絡(luò)中充斥了各種各樣的信息,這樣就使得用戶無法準(zhǔn)確快速的找到可用的信息。在此情況下,一種能夠快速搜索和整理信息的技術(shù)日漸成為網(wǎng)絡(luò)關(guān)注的焦點(diǎn)。Kwang-ⅠYu,Shi-ping Hsu 和Peggy Otsubo1984 年在International Conference on Data Engineering 發(fā)表了《The Fast Data Finder-an architecture for very high speed data search and dissemination》,首次提出構(gòu)建一個快速數(shù)據(jù)搜索和數(shù)據(jù)傳播的框架[1]。馮飛燕1996 年翻譯的《搜索引擎-穿透Internet 的動力-搜索引擎能做些什么》一文中介紹了網(wǎng)絡(luò)搜索引擎、網(wǎng)絡(luò)蜘蛛等相關(guān)知識[2]。搜索引擎自上個世紀(jì)90 年代產(chǎn)生,經(jīng)過多年的發(fā)展,已經(jīng)逐漸成為用戶上網(wǎng)不可或缺的重要工具。國外開發(fā)的搜索引擎比較多,如Google,Yahoo,Naver,Yandex 以及微軟的Bing 等,Google 被公認(rèn)為是全世界全球最大搜索引擎,它是互連網(wǎng)上用戶運(yùn)用最多的搜索引擎網(wǎng)站。國內(nèi)比較常見搜索引擎的有baidu,sohu,sina 等,國人偏愛用百度進(jìn)行中文搜索,其優(yōu)勢在于基于中國人的搜索習(xí)慣,可以進(jìn)行中文人名的搜索、識別,簡繁體中文自動轉(zhuǎn)換,中文自動糾錯等相關(guān)功能。搜索引擎一般可分為3 種,即目錄式搜索引擎、全文搜索引擎、元搜索引擎,后來又發(fā)展了其他非主流的搜索引擎,如垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費(fèi)鏈接列表等其中使用最多的是全文搜索引擎。雖然全文搜索引擎有了長足的進(jìn)步,但是,它也存在較多的問題,例如如何提高全文搜索引擎對于文字的識別準(zhǔn)確性;如何做到語音搜索;如何能夠根據(jù)用戶興趣來篩選信息等。其下載分析端多采用C 或C+ +語言來實(shí)現(xiàn),搜索頁面設(shè)計(jì)方面主要采用PHP 和JSP.雖然效果不錯,但是其信息量重復(fù)率高,以及不能根據(jù)用戶的特定需求來篩選信息等問題也是日益凸顯。所以說,目前全文搜索引擎的開發(fā)和研究還遠(yuǎn)遠(yuǎn)不能滿足于人們的需求,全文搜索引擎的潛力還有很大的挖掘空間[3]。

文中介紹了全文搜索引擎的構(gòu)成及工作過程,設(shè)計(jì)并實(shí)現(xiàn)了一種基于. Net 的完整的全文搜索引擎原型系統(tǒng),測試結(jié)果表明其能夠完成全文搜索引擎的基本功能。與此同時,該原型系統(tǒng)中加入了用戶對于個性化的需求,即用戶能夠根據(jù)自己的需求,選擇特定的內(nèi)容進(jìn)行搜索查看。此外,搜索頁面摒棄了單調(diào)的白色布局,加入適當(dāng)?shù)慕k麗背景及優(yōu)化的按鈕;而顯示模塊方面加入了異步傳輸技術(shù),使得用戶能在不用翻頁的情況下即可查看內(nèi)容,從而提升用戶體驗(yàn)。

1 全文搜索引擎基本原理

1.1 萬維網(wǎng)與Lucene

無論是動態(tài)還是靜態(tài)網(wǎng)站,當(dāng)其需要進(jìn)入另一個網(wǎng)站的時候,都將使用連接的形式來進(jìn)行。這就將網(wǎng)站與網(wǎng)站鏈接在了一起。通常將本網(wǎng)站鏈接別的網(wǎng)站的鏈接叫做正向鏈接而鏈接到這個網(wǎng)站的鏈接叫做反向鏈接;通過Broder 的Ran-Dom-start BFS 實(shí)驗(yàn),可以展示出了萬維網(wǎng)的基本結(jié)構(gòu)是蝴蝶結(jié)型結(jié)構(gòu),而且萬維網(wǎng)其實(shí)是有直徑的,即,對于任意兩個網(wǎng)頁他們之間經(jīng)過的連接數(shù)是有極大值的,對于中國目前的網(wǎng)絡(luò)而言,一般是16,也就是說任意兩個網(wǎng)頁之間的最大距離為16個鏈接[4-7]。在這樣的網(wǎng)絡(luò)結(jié)構(gòu)中,如果要想獲取更多的網(wǎng)頁(原始數(shù)據(jù)),那么搜索系統(tǒng)就應(yīng)該選擇蝴蝶結(jié)中部以及左部的網(wǎng)站作為起始點(diǎn);而結(jié)束的標(biāo)準(zhǔn)可以是判定當(dāng)前獲取的網(wǎng)頁的連接次數(shù)是否小于17,這為搜索系統(tǒng)的開始和結(jié)束給出了具體的要求。

Lucene 是一個工作良好的全文檢索和搜索的系統(tǒng),它提供了中文分詞、搜索顯示高亮、索引相關(guān)操作。與此同時,它提供的豐富的接口給程序員,使得程序員能夠根據(jù)自己的需求重寫Lucene中的模塊或通過接口加入其它的模塊,從而豐富了Lucene 的功能,提高其工作效率及準(zhǔn)確性。其一般的工作原理是,結(jié)合中文分詞器一起工作,能夠很好的對文章進(jìn)行分析,之后建立倒排索引;接著在查詢的過程中,Lucene 調(diào)用建立好的索引文件,對經(jīng)過中文分詞的關(guān)鍵詞進(jìn)行全文搜索,并根據(jù)其自身的得分算法公式得出一個得分并排序。而在索引管理方面,Lucene 也是比較方便的,它能夠?qū)σ呀?jīng)建立的索引進(jìn)行添加,合并以及優(yōu)化。

1.2 全文搜索引擎系統(tǒng)設(shè)計(jì)

整個系統(tǒng)分為4 個部分,分別是搜索模塊,分析模塊,索引模塊以及查詢模塊[8]。

1.2.1 搜索模塊

搜索模塊由3 個部分組成,分別是:驗(yàn)證模塊、多線程網(wǎng)頁下載模塊、Robots. txt 下載模塊。3 個模塊中最為關(guān)鍵的一個就是爬蟲模塊,這個模塊采用多線程的方法[9-10],通過URL 將網(wǎng)頁從互聯(lián)網(wǎng)中下載到本地,為下面的處理程序提供主要的支持。

1.2.2 分析模塊

分析模塊主要包括了信息抽取模塊,中文分詞模塊,以及網(wǎng)頁得分模塊。信息抽取模塊的主要作用是,將爬蟲下載到本地的文件讀取出來,進(jìn)行分析處理,將特定的標(biāo)簽內(nèi)容提取出來,存入文件,并根據(jù)內(nèi)容或標(biāo)題等一系列的特征信息,將重復(fù)的網(wǎng)頁刪除,從而減少搜索的工作,減少查詢結(jié)果重復(fù)率。中文分詞模塊主要是結(jié)合索引使用的,它將對抽取之后的信息以及查詢中的關(guān)鍵詞進(jìn)行分詞,這樣當(dāng)關(guān)鍵詞的分詞與信息抽取文件的分詞相等的時候,就能使計(jì)算機(jī)識別出來。得分模塊主要的功能就是為顯示頁面的排列提供服務(wù),使得顯示頁面能夠顯示出最主要,最權(quán)威的信息。

1.2.3 索引模塊

國際標(biāo)準(zhǔn)《文獻(xiàn)工作——出版物的索引》中對于索引的定義是“按所處理的主題、人名、地區(qū)名與地名、事件以及其他項(xiàng)目排列的一種詳細(xì)目錄,并指出項(xiàng)目在出版物中的位置”。所以,在全文搜索的搜索引擎中,最好是使用索引的形式來對文章進(jìn)行存儲,這樣能夠快速、便捷的查詢到相應(yīng)的消息。

1.2.4 查詢模塊

查詢模塊是整個搜索引擎中唯一與用戶的接口,用戶通過關(guān)鍵詞與整個搜索引擎進(jìn)行交流,即當(dāng)用戶輸入關(guān)鍵詞以后,系統(tǒng)將關(guān)鍵詞分詞并查詢索引,最終在現(xiàn)實(shí)頁面顯示出查詢的結(jié)果。雖然,這僅僅是一個接口,但是其重要性不容小視,一個具有良好用戶體驗(yàn)、具有海量數(shù)據(jù)及結(jié)果合理顯示的搜索引擎能夠大大的吸引用戶,從而使得更多的人來使用搜索引擎。

1.3 全文搜索引擎的工作流程

根據(jù)全文搜索引擎的系統(tǒng)劃分,其工作流程首先從爬蟲(robots 或spider)模塊開始,從網(wǎng)絡(luò)中抓取信息,并將抓取的頁面存儲于本地;之后分析模塊分析由爬蟲抓取的信息;并運(yùn)用分析系統(tǒng)分析的結(jié)果,之后通過索引系統(tǒng)建立索引目錄;最后向用戶提供查詢結(jié)果及信息反饋。

2 全文搜索引擎的實(shí)現(xiàn)

2.1 數(shù)據(jù)存儲的設(shè)計(jì)

對于搜索模塊的數(shù)據(jù),需要兩張表來存儲。分別存放下載的URL 信息以及下載的Robots. txt信息。下載的網(wǎng)頁和Robots. txt 全部以其網(wǎng)址的MD5 碼存儲[11],便于進(jìn)行查詢和比對。

分析模塊的數(shù)據(jù)存儲分為數(shù)據(jù)庫存儲和文件存儲。數(shù)據(jù)庫主要用于存儲分析模塊對于網(wǎng)頁分析的結(jié)果簡報。文件存儲分為2 部分,其一是存儲經(jīng)分析模塊分析處理之后的文件,采用與下載頁面相同的MD5 碼來存儲;另一個是存儲刪除詞條,用于模塊分析時根據(jù)刪除詞條來刪除搜索內(nèi)容的相應(yīng)詞條,從而簡化文件的內(nèi)容,提取出真正有用的信息。

2.2 搜索模塊的實(shí)現(xiàn)

2.2.1 驗(yàn)證系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)

在搜索系統(tǒng)中有2 個驗(yàn)證系統(tǒng),其中之一是對于人工輸入的種子網(wǎng)頁或計(jì)算機(jī)本身提取出的網(wǎng)頁的URL 進(jìn)行驗(yàn)證,使之能夠符合爬蟲程序的下載要求;另一個是對于網(wǎng)站Robots.txt 文件進(jìn)行驗(yàn)證,即驗(yàn)證所要用來下載的URL 是否符合Robots.txt 的要求。當(dāng)2 個驗(yàn)證程序都通過之后,才能將這個URL 放入到數(shù)據(jù)庫中。對于Robots.txt 的檢測流程圖如圖1 所示。

圖1 Robots.txt 的檢測流程圖Fig.1 Detection flowchart of robots.txt

2.2.2 爬蟲模塊設(shè)計(jì)實(shí)現(xiàn)

對于爬蟲模塊,為了不出現(xiàn)下載網(wǎng)頁與下載Robots.txt 文件發(fā)生沖突,將2 個下載程序分開。其中網(wǎng)頁下載爬蟲將采用深度優(yōu)先的算法來進(jìn)行多線程抓取,另一個Robots.txt 文件下載程序采取單線程的下載模式。網(wǎng)頁爬蟲將采用5 只爬蟲共同抓取的策略[12]。為了避免爬蟲同一時間對于數(shù)據(jù)庫重復(fù)訪問,在爬蟲的模塊中要加入延時來控制爬蟲的產(chǎn)生,以及爬蟲訪問數(shù)據(jù)庫的速度。

在獲得網(wǎng)頁的數(shù)據(jù)流之后,需要完成兩個處理,首先是對于URL 的提取并將其存儲到數(shù)據(jù)庫中,以便爬蟲能夠訪問及下載。

本系統(tǒng)使用的是通過匹配正則表達(dá)式來獲取URL[13],正則表達(dá)式如下形式

式中具體解釋見表1.

表1 正則表達(dá)式解釋表Tab.1 Explanation of regular expressions

其次是正確獲取網(wǎng)頁的編碼,在國內(nèi)比較多的網(wǎng)站使用的都是GB2312,國際上使用最多的是UTF-8 這種編碼。本系統(tǒng)將使用通過Mozzila 的universalchardet 改造后的NUniversalCharDet 動態(tài)鏈接庫來實(shí)現(xiàn)對于編碼的識別,它使用的是一種統(tǒng)計(jì)學(xué)的方法,對放進(jìn)來的數(shù)據(jù)進(jìn)行各種編碼之后,對其進(jìn)行統(tǒng)計(jì),概率性高的就算命中,從而確定出編碼類型。爬蟲主要承擔(dān)的就是一個下載和存儲網(wǎng)頁的功能,其流程圖如圖2 所示。

2.3 分析模塊的實(shí)現(xiàn)

2.3.1 網(wǎng)頁信息抽取的設(shè)計(jì)實(shí)現(xiàn)

本系統(tǒng)使用的是HTMLParser 分析工具來實(shí)現(xiàn)對于內(nèi)容的抽取,首先將下載之后的文件從磁盤中讀取出來;之后交給HTMLParser 來根據(jù)需求標(biāo)簽提取出標(biāo)簽中的內(nèi)容;處理之后的存儲的格式為:標(biāo)題——時間——li 標(biāo)簽內(nèi)容——p 標(biāo)簽內(nèi)容——a 標(biāo)簽內(nèi)容。與此同時,要將文件的MD5碼、標(biāo)題和連接數(shù)目寫入數(shù)據(jù)庫中。

2.3.2 中文分詞

圖2 爬蟲程序的流程圖Fig.2 Flow diagram of crawlers

以中文關(guān)鍵詞進(jìn)行全文搜索,中文分詞是一個十分困難的事情。因?yàn)橹形牟幌裼⑽囊粯?,有空格可以作為天然的分割符號。中文任意兩個詞的不同組合以及不同的語境都有很多不同的意思,所以如何劃分,以及劃分的好壞直接關(guān)系到最終的結(jié)果。Lucene 的.Net 版本3.0.3 自帶的中文分詞模塊分詞效果不是很理想,因此,在本項(xiàng)目中,將使用MMseg4j,也是一個基于Chih-Hao Tsai的MMSeg 算法的中文分詞器,也是一種基于字典分詞的一種分詞方法[14-15]。

2.3.3 網(wǎng)頁得分

網(wǎng)頁得分用來確定搜索結(jié)果排序的位置。其主要分為3 個部分,第一部分為鏈接得分。其主要的思想是,以他目前的得分除以它全部的鏈接數(shù)目,而指向該網(wǎng)頁的網(wǎng)站則加上這個分?jǐn)?shù);多次的迭代之后,一個網(wǎng)站的分?jǐn)?shù)基本就固定了,也就可以比較客觀的得到一個分?jǐn)?shù)。第二個部分是Lucene 的得分系統(tǒng),這個得分系統(tǒng)根據(jù)索查詢詞語在文檔中出現(xiàn)的詞頻,倒排詞頻等一系列的項(xiàng)目綜合得到一個數(shù)值,從而表示本詞條在整個索引中的重要程度。第三個部分是用戶的愛好選擇,當(dāng)用戶選擇確定的需要查詢方向之后,其相關(guān)網(wǎng)頁的得分就會高于其他的網(wǎng)頁。根據(jù)反復(fù)的統(tǒng)計(jì)分析,得出以下公式來表示網(wǎng)頁的得分。

2.4 索引模塊的實(shí)現(xiàn)

在通過Lucene 建立索引的時候,其基本的方法是,首先建立一個空的索引,之后根據(jù)自己的需求,向索引中添加條目以及內(nèi)容。根據(jù)之前文檔的格式情況,此時的策略是,讀取第二行獲得標(biāo)題;讀取第四行獲取下載時間;行循環(huán)讀取獲得“l(fā)i”標(biāo)簽中的內(nèi)容,直到讀取行是“p”標(biāo)簽中的內(nèi)容為止;行循環(huán)讀取獲得“p”標(biāo)簽中的內(nèi)容,直到讀取行是“a”標(biāo)簽中的內(nèi)容為止;訪問數(shù)據(jù)庫獲取文檔的URL 地址。經(jīng)過以上的操作就可以從文件中提取出相應(yīng)的數(shù)據(jù),之后就可以根據(jù)索引中的條目進(jìn)行添加。

2.5 查詢模塊的實(shí)現(xiàn)

整個查詢模塊為用戶提供了搜索主頁以及結(jié)果顯示,其具體的程序流程如圖3 所示。在接收到主頁傳來的關(guān)鍵字?jǐn)?shù)據(jù)之后,查詢模塊就要調(diào)用索引,開始對關(guān)鍵詞進(jìn)行索引;并將索引的結(jié)果全部返回,之后根據(jù)得分公式算出每一個條目的得分;用快排將所有的結(jié)果從高到低排列并顯示,此處使用了異步傳輸技術(shù),能夠在不刷新整個網(wǎng)頁的情況下根據(jù)點(diǎn)擊下一頁的次數(shù)顯示全部的信息。

圖3 查詢顯示程序流程圖Fig.3 Flow diagram of query and display

3 系統(tǒng)測試及結(jié)果

系統(tǒng)實(shí)現(xiàn)之后,首先搜索模塊的測試主要進(jìn)行了網(wǎng)頁下載、Robors. txt 下載和數(shù)據(jù)庫訪問的測試。由于網(wǎng)絡(luò)的不穩(wěn)定性及網(wǎng)站訪問權(quán)限的設(shè)置,導(dǎo)致下載的速度具有變化性。經(jīng)過多次測試得到整個搜索模塊的效率大約是每小時抓取32.8個網(wǎng)頁。

分析模塊的測試是檢測對于已下載網(wǎng)頁的讀取及分析效果,該測試展現(xiàn)了數(shù)據(jù)的讀取、分析以及寫入文件的一個基本過程如圖4 所示;最終的查詢效果如圖5 所示。

圖4 信息提取過程Fig.4 Information extraction process

圖5 查詢界面Fig.5 Searching interface

4 結(jié) 論

通過測試,基于. Net 平臺的全文搜索引擎已經(jīng)實(shí)現(xiàn)了搜素引擎的基本功能,即網(wǎng)頁的抓取、分析、索引和關(guān)鍵詞的分詞、查詢;并在這個基礎(chǔ)上添加了具有較好用戶體驗(yàn)的異步傳輸技術(shù),使得用戶能夠在一頁中查看全部的消息。與此同時,還添加了一個分類查詢的效果。

該系統(tǒng)功能較為齊全,但仍然存在一些不足,在面對存在諸多的不確定性以及潛在的危險的網(wǎng)絡(luò)時,需要增加爬蟲對于網(wǎng)絡(luò)錯誤信息的處理及對于病毒網(wǎng)站的過濾,增加對各種問題進(jìn)行判斷以及預(yù)處理的能力,以此增強(qiáng)爬蟲的強(qiáng)壯性。

References

[1] Yu K,Hsu S,Otsubo P.The fast data finder-an architecture for very high speed data search and dissemination[J]. International Conference on Data Engineering,1984(4):167 -174.

[2] 馮飛燕.搜索引擎:穿透互聯(lián)網(wǎng)的動力一搜索引擎能做什么[J].電子電腦,1996(2):96 -99.FENG Fei-yan. Search engine:penetration dynamic of Internet-What can search engine do[J].PC Computing,1996(2):96 -99.

[3] 梁 斌.走進(jìn)搜索引擎[M].北京:電子工業(yè)出版社,2007.LIANG Bin. Stepping into search engine[M]. Beijing:Publishing House of Electronics Industry,2007.

[4] 陳俊杰.中文搜索引擎現(xiàn)狀與發(fā)展研究[J]. 佳木斯教育學(xué)院學(xué)報,2011(3):491 -492.CHEN Jun-jie. Situation and development of Chinese search engines[J].Journal of Jiamusi Education Institute,2011(3):491 -492.

[5] 付立東.中心方法在復(fù)雜網(wǎng)絡(luò)中的比較[J]. 西安科技大學(xué)學(xué)報,2010,30(1):107 -111.FU Li-dong.Comparison of centrality measures in complex networks[J]. Journal of Xi’an University of Science and Technology,2010,30(1):107 -111.

[6] 王知津,馬曉瑜.搜索引擎?zhèn)€性化信息服務(wù)探討[J].圖書館,2013(1):31 -35.WANG Zhi-jin,MA Xiao-yu. The personalized information service of search engines[J].Library,2013(1):31-35.

[7] 付立東.一種向量劃分的網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)方法[J]. 西安科技大學(xué)學(xué)報,2010,30(2):238 -240,254.FU Li-dong.A way of finding networks communities with vector partitioning[J]. Journal of Xi’an University of Science and Technology,2010,30(2):238 -240,254.

[8] 盧 亮,張博文.搜索引擎原理實(shí)踐與應(yīng)用[M]. 北京:電子工業(yè)出版社,2007.LU Liang,ZHANG Bo-wen. Search engine’s principle practice application[M]. Beijing:Publishing House of Electronics Industry,2007.

[9] 龔尚福,王艷君.多線程保護(hù)應(yīng)用程序自動加載研究與實(shí)踐[J].西安科技大學(xué)學(xué)報,2013,33(2):230 -234,248.GONG Shang-fu,WANG Yan-jun.Research and practice of automatic loading of applications based on multithreaded protection[J]. Journal of Xi’an University of Science and Technology,2013,33(2):230 -234,248.

[10] 陰愛英.基于線程并行計(jì)算的Apriori 算法[J].西安科技大學(xué)學(xué)報,2014,34(1):71 -74.YIN Ai-ying.Aproori algorithm based on thread parallel computing[J]. Journal of Xi’an University of Science and Technology,2014,34(1):71 -74.

[11] 戚艷軍,龔尚福. 用戶角色的XML 動態(tài)加密方法研究[J].西安科技大學(xué)學(xué)報,2012,32(1):101 -106.QI Yan-jun,GONG Shang-fu. Dynamic encryption of XML based on user roles[J].Journal of Xi’an University of Science and Technology,2012,32(1):101 -106.

[12] 劉磊安,符志強(qiáng).基于Lucene.net 網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 電腦知識與設(shè)計(jì),2010,6(8):1 870 -1 878.LIU Lei-an,F(xiàn)U Zhi-qiang. The design and implementation of web crawler based on lucene.NET[J].Computer Knowledge and Technology,2010,6(8):1 870 -1 878.

[13] 馬 俊.基于正則表達(dá)式技術(shù)的信息搜集引擎應(yīng)用研究[D].成都:電子科技大學(xué),2006.MA Jun.Research on information search engine application based on regular expression[D].Chengdu:University of Electronic of Science and Technology of China,2006.

[14] Otis Gospodnetic,Erik Hatcher.Lucene in action[M].Beijing:Publishing House of Electronics Industry,2007.

[15] 武 毅. 基于Lucene. Net 的全文檢索研究與應(yīng)用[D].長沙:國防科學(xué)技術(shù)大學(xué),2011.WU Yi. Resaerch and application of full-text retrieval based on lucene.Net[D].Changsha:National University of Defense Technology,2011.

[16] Chih-Hao Tasi.MMSEG:a word identification system for mandarin Chinese text based on two variants of the maximum matching algorithm[OL]. http://technology. chtsai.org/mmseg/,2013.

猜你喜歡
爬蟲分詞搜索引擎
利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
結(jié)巴分詞在詞云中的應(yīng)用
智富時代(2019年6期)2019-07-24 10:33:16
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
電子測試(2018年1期)2018-04-18 11:53:04
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
電子制作(2017年9期)2017-04-17 03:00:46
值得重視的分詞的特殊用法
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
高考分詞作狀語考點(diǎn)歸納與疑難解析
辰溪县| 新干县| 高要市| 资兴市| 东平县| 中超| 同心县| 当涂县| 沿河| 徐汇区| 旬阳县| 东山县| 犍为县| 安国市| 牡丹江市| 郑州市| 永州市| 定安县| 息烽县| 金秀| 甘谷县| 葵青区| 甘孜县| 红安县| 虎林市| 锡林浩特市| 万州区| 徐汇区| 隆德县| 南陵县| 志丹县| 扬州市| 鄱阳县| 道孚县| 青海省| 苏尼特右旗| 平江县| 拉萨市| 彩票| 河北省| 南华县|