周少波
摘要:隨著大數(shù)據(jù)技術(shù)的迅速發(fā)展以及智能手機的普及,其應(yīng)用已滲入到人類社會的各個領(lǐng)域并發(fā)揮越來越重要的作用。本系統(tǒng)基于SSM框架的數(shù)據(jù)采集系統(tǒng),前臺采用的是SpringBoot框架和JSP技術(shù)進行開發(fā),后臺采用HtmlUnit框架進行爬蟲業(yè)務(wù)的開發(fā),采用MySQL 數(shù)據(jù)庫及MongoDB進行數(shù)據(jù)的存儲和支撐,開發(fā)模式采用的是B/S模式的Web應(yīng)用程序。實現(xiàn)了數(shù)據(jù)抓取配置,數(shù)據(jù)提取配置,數(shù)據(jù)抓取,數(shù)據(jù)excel表格下載,關(guān)鍵字管理,登錄,修改密碼,退出系統(tǒng)等功能。在設(shè)計上具有友好的交互界面,系統(tǒng)用戶可以在管理界面上對后臺進行爬蟲配置。系統(tǒng)用戶在配置成功后,開啟爬蟲,即可不再受任何時間限制地進行數(shù)據(jù)抓取了。
關(guān)鍵詞:爬蟲;SpringBoot;數(shù)據(jù)抓取;MongoDB;B/S
中圖分類號:TP311? ? 文獻標(biāo)識碼:A? ? ? ?文章編號:1009-3044(2018)34-0045-03
1引言
隨著大數(shù)據(jù)技術(shù)的發(fā)展與其日益完善,很多傳統(tǒng)企業(yè)的運作都開始加入了大數(shù)據(jù)技術(shù),使企業(yè)能在發(fā)展市場上走在其他同行企業(yè)的前面。但是,要使用大數(shù)據(jù)技術(shù),首先要有足量大的數(shù)據(jù)作為支撐才有意義,因而,數(shù)據(jù)采集就必然是其最基礎(chǔ),最重要的部分。因此,生產(chǎn)一個高效穩(wěn)定的數(shù)據(jù)采集系統(tǒng)迫在眉睫。目前,爬蟲技術(shù)采集數(shù)據(jù)成為數(shù)據(jù)采集方式的有力補充和發(fā)展。爬蟲技術(shù)采集數(shù)據(jù)不僅減少了對數(shù)據(jù)采集的人力、物力的投入,并且突破了時間與空間的限制,不僅節(jié)省了資源,而且提高了數(shù)據(jù)采集的效率和準(zhǔn)確度??傊髷?shù)據(jù)技術(shù)在各行業(yè)的普及,爬蟲數(shù)據(jù)采集技術(shù)必將得到發(fā)展,其關(guān)注度一定會逐漸增加。為生產(chǎn)一個高效穩(wěn)定的數(shù)據(jù)抓取系統(tǒng),作者經(jīng)過研究幾種不同的爬蟲制作方案,經(jīng)充分的考慮,最后給出了一個較為理想的爬蟲制作方案,并結(jié)合當(dāng)前部署和維護方便及其擴展性較好的B/S架構(gòu)來開發(fā)一個高效穩(wěn)定的數(shù)據(jù)抓取系統(tǒng)。基于B/S模式的數(shù)據(jù)采集系統(tǒng)完美地克服了人工采集方式所帶來的人力、物力以及時間上的浪費,同時也保證了數(shù)據(jù)的產(chǎn)出速率和準(zhǔn)確率。
2? 需求分析
本系統(tǒng)需要技術(shù)人員才能進行操作,且系統(tǒng)定位為企業(yè)內(nèi)部使用系統(tǒng),所以并沒有需要對用戶類型進行過于嚴(yán)格的分類管理,因此用戶類型僅需有系統(tǒng)管理員和數(shù)據(jù)采集員兩類。
系統(tǒng)管理員需求:系統(tǒng)管理員可管理數(shù)據(jù)采集員賬戶、修改密碼、登錄系統(tǒng)、管理爬蟲規(guī)則、查看爬蟲數(shù)據(jù)、下載爬蟲數(shù)據(jù)、啟動/停止爬蟲、解析數(shù)據(jù)、開啟定時器、關(guān)鍵字管理、退出系統(tǒng)等功能。
1)登錄:因為這個系統(tǒng)目前設(shè)定為企業(yè)內(nèi)部系統(tǒng),而非商業(yè)性系統(tǒng),因此無須開放注冊功能。系統(tǒng)管理員的賬戶密碼在系統(tǒng)部署時在數(shù)據(jù)庫進行預(yù)設(shè)。所有用戶在登錄時,系統(tǒng)校驗用戶名和密碼,正確則放行,錯誤則彈出提示信息。
2)修改密碼:可以修改個人密碼和數(shù)據(jù)采集員密碼。
3)管理數(shù)據(jù)采集員賬戶:系統(tǒng)管理員可以對數(shù)據(jù)采集員賬戶進行添加、刪除、修改。
4)管理爬蟲規(guī)則:管理員可以像數(shù)據(jù)采集員一樣,對爬蟲規(guī)則進行添加、和配置刪除。
5)查看爬蟲數(shù)據(jù):查看當(dāng)前爬蟲產(chǎn)生的原數(shù)據(jù)和提取數(shù)據(jù)。
6)下載爬蟲數(shù)據(jù):爬蟲數(shù)據(jù)成功提取后,可以導(dǎo)出為excel文檔。
7)啟動/關(guān)閉爬蟲:手動開啟/關(guān)閉指定的爬蟲規(guī)則,自動功能開啟后禁用。
8)解析數(shù)據(jù):立即提取數(shù)據(jù)
9)開啟定時器:開啟后,使用預(yù)設(shè)的定時時間,定時對爬蟲規(guī)則進行定時的進行數(shù)據(jù)抓取和數(shù)據(jù)提?。ㄒ话憔W(wǎng)站都是白天的訪問量最高,晚上最低,所以可以預(yù)設(shè)時間為晚上抓取數(shù)據(jù),白天提取數(shù)據(jù)。這樣可以充分利用爬蟲系統(tǒng)的網(wǎng)絡(luò)帶寬)。
10)關(guān)鍵字管理:本數(shù)據(jù)采集系統(tǒng)的爬蟲功能將制成三種爬蟲工作模式,第一種是默認(rèn)的常規(guī)逐層爬蟲。第二種是搜索模式,通過將關(guān)鍵字輸入到網(wǎng)站搜索欄,然后進行搜索,例如對百度搜索結(jié)果進行爬蟲。第三種是URL拼接模式,按照RestFul的一個URL代表一個資源的概念,一般網(wǎng)站的URL都是設(shè)計得有規(guī)律的,URL拼接模式就是通過關(guān)鍵字拼接起來作為URL進行請求爬蟲。關(guān)鍵字管理功能就是對關(guān)鍵字進行導(dǎo)入和刪除。
11)退出系統(tǒng)功能:退出系統(tǒng)
數(shù)據(jù)采集員需求:數(shù)據(jù)采集員可修改密碼、登錄系統(tǒng)、管理爬蟲規(guī)則、查看爬蟲數(shù)據(jù)、下載爬蟲數(shù)據(jù)、啟動/停止爬蟲、解析數(shù)據(jù)、關(guān)鍵字管理、退出系統(tǒng)等功能。
① 登錄:因為這個系統(tǒng)目前設(shè)定為企業(yè)內(nèi)部系統(tǒng),而非商業(yè)性系統(tǒng),因此無須開放注冊功能。系統(tǒng)管理員的賬戶密碼在系統(tǒng)部署時在數(shù)據(jù)庫進行預(yù)設(shè)。所有用戶在登錄時,系統(tǒng)校驗用戶名和密碼,正確則放行,錯誤則彈出提示信息。
② 修改密碼:可以修改個人密碼。
③ 管理爬蟲規(guī)則:對爬蟲規(guī)則進行添加、和配置刪除。
④ 查看爬蟲數(shù)據(jù):查看當(dāng)前爬蟲產(chǎn)生的原數(shù)據(jù)和提取數(shù)據(jù)。
⑤ 下載爬蟲數(shù)據(jù):爬蟲數(shù)據(jù)成功提取后,可以導(dǎo)出為excel文檔。
⑥ 啟動/關(guān)閉爬蟲:手動開啟/關(guān)閉指定的爬蟲規(guī)則,自動功能開啟后禁用。
⑦ 解析數(shù)據(jù):立即提取數(shù)據(jù)。
⑧ 關(guān)鍵字管理:本數(shù)據(jù)采集系統(tǒng)的爬蟲功能將制成三種爬蟲工作模式,第一種是默認(rèn)的常規(guī)逐層爬蟲。第二種是搜索模式,通過將關(guān)鍵字輸入到網(wǎng)站搜索欄,然后進行搜索,例如對百度搜索結(jié)果進行爬蟲。第三種是URL拼接模式,按照RestFul的一個URL代表一個資源的概念,一般網(wǎng)站的URL都是設(shè)計得有規(guī)律的,URL拼接模式就是通過關(guān)鍵字拼接起來作為URL進行請求爬蟲。關(guān)鍵字管理功能就是對關(guān)鍵字進行導(dǎo)入和刪除。
⑨ 退出系統(tǒng)功能:退出系統(tǒng)。
3系統(tǒng)設(shè)計
3.1功能模塊劃分
3.1.1 前臺的主要功能模塊
根據(jù)需求分析,明白了本系統(tǒng)分為前臺和后臺兩個部分進行設(shè)計。前臺主要用于登錄系統(tǒng)、管理爬蟲規(guī)則、管理關(guān)鍵字、密碼修改、數(shù)據(jù)導(dǎo)出、退出系統(tǒng)等功能。后臺主要用于系統(tǒng)管理員對數(shù)據(jù)采集員的賬戶管理,系統(tǒng)設(shè)置,等功能。
本系統(tǒng)前臺可劃分為三大功能模塊,具體為:
1)系統(tǒng)操作模塊:包括登錄、密碼修改和退出系統(tǒng)功能。
2)爬蟲管理模塊:包括配置爬蟲規(guī)則、管理關(guān)鍵字功能。
3)數(shù)據(jù)管理模塊:包括啟動數(shù)據(jù)抓取、啟動數(shù)據(jù)解析和數(shù)據(jù)導(dǎo)出功能。
3.1.2 后臺的主要功能模塊
本系統(tǒng)后臺可劃分為兩大功能模塊,具體為:
1)用戶管理模塊:包括建新的用戶、修改信息、修改用戶密碼和刪除用戶等功能。
2)查詢模塊:主要是查看用戶操作日志功能。
3.2 數(shù)據(jù)庫設(shè)計
3.2.1 系統(tǒng)E-R圖
經(jīng)過分析,本系統(tǒng)主要有十三個實體,分別是用戶、基礎(chǔ)規(guī)則實體、登錄規(guī)則實體、cookie實體、內(nèi)容提取規(guī)則實體、分頁規(guī)則實體、拼接規(guī)則實體、搜索規(guī)則實體、關(guān)鍵字組實體、關(guān)鍵字實體、原數(shù)據(jù)實體、解析數(shù)據(jù)實體。系統(tǒng)E-R圖如圖1所示:
3.2.2 數(shù)據(jù)庫表設(shè)計
1)用戶表結(jié)構(gòu):用戶表-tuser用來存儲用戶信息,用于實現(xiàn)用戶信息的增、刪、改、查。在登錄時,會使用登錄信息與表內(nèi)信息進行匹配,以驗證登錄。為確保安全,驗證前,用戶的密碼會進行一次MD5加密再和用戶表的密碼進行比對。
2)爬蟲基礎(chǔ)規(guī)則表結(jié)構(gòu):爬蟲基礎(chǔ)規(guī)則表-tcrawler_rule用來存儲爬蟲配置的基本規(guī)則,用戶標(biāo)識一個爬蟲配置信息的最基本配置。該表記錄了目標(biāo)網(wǎng)站的網(wǎng)站名,域名,爬蟲運行模式,網(wǎng)站首頁,網(wǎng)站過濾字段,默認(rèn)模式用到的層級,進行爬蟲前是否需要登錄網(wǎng)站,當(dāng)前一共有多少原數(shù)據(jù),多少提取數(shù)據(jù),當(dāng)前運行狀態(tài)等信息。
3)登錄配置表結(jié)構(gòu):登錄配置表-taccount_msg用來存儲網(wǎng)站登錄配置信息的,有些網(wǎng)站在瀏覽某些數(shù)據(jù)時,可能需要處于登錄狀態(tài)才能瀏覽。那么配置如何登錄這些網(wǎng)站,顯然是必須的。該表就是記錄如登錄頁面的URL,登錄相關(guān)標(biāo)簽的標(biāo)簽,標(biāo)簽唯一屬性名,標(biāo)簽的唯一屬性值,和標(biāo)簽的類型。之所以只設(shè)置一套用于查找的標(biāo)簽的配置,是因為一般登錄的輸入框和提交按鈕都給了id作為唯一標(biāo)識,為了簡化配置,這里就只給出一套配置。
4)cookie信息表結(jié)構(gòu):Cookie信息表-tcookie_msg用來存儲Cookie信息。有些的登錄可能會比較復(fù)雜,,簡單的配置可能無法滿足,因此這里提供了Cookie配置來冒充登錄,目前大部分網(wǎng)站為了方便用戶,都會將Sessionid寫入Cookie,讓用戶重新進入網(wǎng)站時免登錄,這樣我們就可以利用這一點,將這些可以登錄網(wǎng)站的Cookie記下來,讓爬蟲系統(tǒng)去瀏覽這些網(wǎng)站時帶上Cookie,就可以實現(xiàn)免登錄了。
5)搜索信息表結(jié)構(gòu):搜索信息表-tsearch_msg用來存儲搜索信息。有時候,我們的需求不是從某個網(wǎng)站逐層查找數(shù)據(jù),而是獲取某個網(wǎng)頁的搜索結(jié)果,因此需要配置一個規(guī)則,來讓爬蟲“知道”如何進行搜索。配置信息有,搜索頁的Url,搜索的標(biāo)簽,標(biāo)簽名稱,標(biāo)簽屬性名,標(biāo)簽屬性值,填充關(guān)鍵字組的組id,標(biāo)簽的作用類型(是提交按鈕還是輸入框)。
6)拼接信息表結(jié)構(gòu):拼接信息表-tconcat_msg用來存儲拼接信息?,F(xiàn)在很多網(wǎng)站已經(jīng)用上Restful風(fēng)格的Url,來強調(diào)一個Uri代表一個資源的HtmlGet請求的原定義。因此我們可以以Url中的某一段或多段多為關(guān)鍵字拼接點,拼接出Url來請求我們需要的志愿。拼接信息表的記錄包括拼接位置,拼接用的單字串,拼接用的關(guān)鍵字組Id(單字串優(yōu)先級高于關(guān)鍵字組)。
7)內(nèi)容提取配置信息表結(jié)構(gòu):內(nèi)容提取配置信息表-tcontent_index_rule用來存儲內(nèi)容提取配置信息。用于記錄爬蟲直接挖去用于進行解析數(shù)據(jù)的Html部分,相當(dāng)于在瀏覽器中查找進行OuterHtml操作的Domcument標(biāo)簽,因為目標(biāo)可能在不同網(wǎng)頁層,也可能在同層有多個的關(guān)系,因此最復(fù)雜的配置會呈一個多叉樹森林的結(jié)構(gòu),因此與其他配置的屬性相比,多了是否深入查找的標(biāo)識,還有上層節(jié)點id(處于首層的節(jié)點ID為0)。
8)分頁配置信息表結(jié)構(gòu):分頁配置信息表-tpaging_index用來存儲分頁配置信息。有些時候,用戶要的數(shù)據(jù)不止目標(biāo)第一頁,而是所有分頁。因此我們需要提供下一頁的獲取按鈕配置提供給用戶。這些信息包括父標(biāo)簽配置,目標(biāo)標(biāo)簽配置,標(biāo)簽倒數(shù)位置(因為有時候下一頁的按鈕沒有被做嚴(yán)格的屬性區(qū)分,因此需要這個來提高獲取目標(biāo)的準(zhǔn)確度)。
9)解析規(guī)則配置信息表結(jié)構(gòu):解析規(guī)則配置信息表-textract_content_rule用來存儲解析規(guī)則配置信息。內(nèi)容提取規(guī)則拿到的數(shù)據(jù)是帶Html代碼的粗糙數(shù)據(jù),不可直接使用的。因此,需要提供解析規(guī)則來將數(shù)據(jù)與Html代碼分離,并設(shè)置在導(dǎo)出時的排列規(guī)則。
10)關(guān)鍵字組信息表結(jié)構(gòu):關(guān)鍵字組信息表-tkeyword_group用來存儲關(guān)鍵字分組信息。這個表用于存放用于搜索模式和拼接模式所用到的關(guān)鍵字組的信息。
11)關(guān)鍵字信息表結(jié)構(gòu):關(guān)鍵字信息表-tkeyword用來存儲關(guān)鍵字信息。這個表用于存放用于搜索模式和拼接模式所用到的關(guān)鍵字組所包含的關(guān)鍵字。
12)原數(shù)據(jù)集合結(jié)構(gòu):原數(shù)據(jù)集合-SourceDataBean用來存儲爬蟲原數(shù)據(jù)的Mongo集合。原數(shù)據(jù)集合就是用于存放原數(shù)據(jù)的,在uuid相等的情況下,判斷多個原數(shù)據(jù)集合構(gòu)成一條完整的數(shù)據(jù)。
13)解析數(shù)據(jù)集合結(jié)構(gòu):解析數(shù)據(jù)集合-ExtractDataBean用來存儲爬蟲解析數(shù)據(jù)的Mongo集合。解析數(shù)據(jù)集合就是用于存放數(shù)據(jù)的。其中的Map為<Integer,String>結(jié)構(gòu),Key值為數(shù)據(jù)的導(dǎo)出位置,Value為字段具體值。
4 系統(tǒng)功能實現(xiàn)
4.1 系統(tǒng)前臺功能實現(xiàn)
4.1.1 管理員登錄及數(shù)據(jù)采集員創(chuàng)建
系統(tǒng)部署時,會預(yù)先創(chuàng)建一個管理員賬戶。登錄功能是通過Spring Boot的攔截器實現(xiàn)的。當(dāng)用戶請求網(wǎng)站時,攔截器會獲取Request對象來獲取Session對象,取SessionId去Redis查找是否存在用戶信息,存在則放行,不存在則跳轉(zhuǎn)到登錄頁面。登錄驗證成功后,系統(tǒng)會以SessionId為Key,用戶信息為Value存入Redis中。管理員可在登錄后瀏覽系統(tǒng)。
4.1.2 修改密碼實現(xiàn)
已經(jīng)成功登錄的用戶可點擊導(dǎo)航欄右上角的修改密碼按鈕打開修改密碼界面。修改密碼時,系統(tǒng)會先取得頁面數(shù)據(jù)進入數(shù)據(jù)庫進行校驗,通過則允許修改密碼。輸入原密碼時會與原密碼進行校驗,并會對新密碼的長度和重復(fù)密碼進行校驗。
4.1.3 關(guān)鍵字管理實現(xiàn)
用戶成功登錄系統(tǒng)后可進行關(guān)鍵字管理,關(guān)鍵字管理的實現(xiàn)步驟如下:
1)點擊導(dǎo)航欄的關(guān)鍵字管理,打開關(guān)鍵字組列表。
2)點擊導(dǎo)入,彈出導(dǎo)入界面。
3)輸入組名并選擇好上傳文件后,上傳組名和文件選擇會有非空校驗,點擊確定即可上傳文件。在導(dǎo)入成功創(chuàng)建數(shù)據(jù)后,用戶可以選中條目點擊確定按鈕進行刪除,也可以單獨點擊條目的刪除按鈕進行刪除。
4)導(dǎo)入成功后,點擊組名,可以查詢里面的詳細(xì)關(guān)鍵字,其中點擊添加可以單獨添加一個數(shù)字,也可以點擊條目的修改按鈕進行修改。用戶可以選中條目點擊確定按鈕進行刪除,也可以單獨點擊條目的刪除按鈕進行刪除。
4.1.4 爬蟲規(guī)則管理實現(xiàn)
爬蟲規(guī)則會存儲在Mysql數(shù)據(jù)庫中,實現(xiàn)規(guī)則查詢功能,當(dāng)用戶查詢規(guī)則時,把存儲在數(shù)據(jù)庫中該用戶添加的規(guī)則的基礎(chǔ)規(guī)則列到前臺顯示。此外,用戶還可以選中規(guī)則,進行修改,刪除,查看原數(shù)據(jù),查看提取數(shù)據(jù)。
4.1.5 添加爬蟲規(guī)則實現(xiàn)
用戶可以為自己添加爬蟲規(guī)則。添加規(guī)則的第一步是點擊爬蟲規(guī)則列表的添加按鈕打開基礎(chǔ)規(guī)則添加頁面,這里由于爬蟲分三個模式,而三個模式的第一步,第二步配置均不同,因此這里會取三個例子進行配置。 基本規(guī)則添加完成并保存后,進入第二步添加抓取規(guī)則。通過第一步配置的工作模式,使用JSTL對第二步的頁面進行渲染。這一環(huán),我們主要配置數(shù)據(jù)抓取的位置規(guī)則,這里的配置,我們必須確保準(zhǔn)確。此外,本數(shù)據(jù)采集系統(tǒng)的爬蟲功能還支持搜索模式和Url拼接模式,它們?nèi)咧g的提取規(guī)則有少許不同,這里將展示搜索模式和Url拼接模式下的配置界面。第三步,添加數(shù)據(jù)提取(解析)規(guī)則。用于將爬蟲根據(jù)前面配置的規(guī)則抓出來的。添加數(shù)據(jù)提?。ń馕觯┮?guī)則完成后,系統(tǒng)將會跳轉(zhuǎn)到配置完成頁面,并于10秒后自動返回爬蟲配置列表頁面。
4.2 系統(tǒng)后臺功能實現(xiàn)
4.2.1 用戶管理實現(xiàn)
系統(tǒng)管理員賬號在這本數(shù)據(jù)采集系統(tǒng)內(nèi)有權(quán)控制所有用戶。管理員根據(jù)用戶名和密碼登錄系統(tǒng)。登錄后,主界面導(dǎo)航會比數(shù)據(jù)采集員多出一個設(shè)置導(dǎo)航。這一點通過JSTL實現(xiàn),通過獲取用戶類型,判斷是否渲染設(shè)置中心模塊。管理員將鼠標(biāo)移動到設(shè)置導(dǎo)航上會出現(xiàn)下拉菜單,其中一個就是賬戶管理,點擊該菜單即可進入賬戶管理界面。在這里,管理員可以進行與所有用戶相關(guān)的,包括創(chuàng)建新的用戶,修改信息,修改用戶密碼,刪除用戶。
4.2.2 操作日志實現(xiàn)
系統(tǒng)管理員賬號在這本數(shù)據(jù)采集系統(tǒng)內(nèi)有權(quán)查看所有用戶的操作記錄。管理員根據(jù)用戶名和密碼登錄系統(tǒng)。登錄后點擊設(shè)置中心下拉菜單中的操作日志即可查看所有用戶的操作日志。用戶在請求時,系統(tǒng)會通過反射機制,獲取傳入?yún)?shù)和預(yù)設(shè)的操作類型,將參數(shù)和類型按預(yù)設(shè)的規(guī)則進行拼接后,存入操作記錄表,就能實現(xiàn)操作日志。
4.2.3 爬蟲自動啟動實現(xiàn)
系統(tǒng)管理員登錄本數(shù)據(jù)采集系統(tǒng)后,點擊數(shù)據(jù)采集進入爬蟲規(guī)則列表頁面會多出一個更改自動啟動狀態(tài)的按鈕。系統(tǒng)部署前,使用Quartz任務(wù)調(diào)度框架設(shè)定一個定時執(zhí)行爬蟲的任務(wù),并在任務(wù)前加上一個Boolean型的靜態(tài)變量進行判斷。自動啟動按鈕就是通過修改這個靜態(tài)變量的值來實現(xiàn)開啟、關(guān)閉自動啟動功能的。
5 結(jié)論
本系統(tǒng)基于SSM框架的數(shù)據(jù)采集系統(tǒng),前臺采用的是SpringBoot框架和JSP技術(shù)進行開發(fā),后臺采用HtmlUnit框架進行爬蟲業(yè)務(wù)的開發(fā),采用MySQL 數(shù)據(jù)庫及MongoDB進行數(shù)據(jù)的存儲和支撐,開發(fā)模式采用的是B/S模式的Web應(yīng)用程序。實現(xiàn)了功能需求里面擬定的功能,各項功能都可以正常運行。
參考文獻:
[1] 于娟,劉強.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計算機工程與科學(xué),2015,37(2):231-237.
[2] 李朝奎,楊武,殷智慧,等.MongoDB的遙感影像分布式存儲策略研究[J].測繪通報,2014(5):70-72.
[3] 張樹新,吳海斌,蒙輝,湯麥倫.基于SpringCloud的航運EDI平臺IT生態(tài)環(huán)境設(shè)計[J]. 中國儲運, 2018(2):100-103.
[4] 朱亞興,余愛民.王夷.基于Redis+MySQL+MongoDB存儲架構(gòu)應(yīng)用[J].微型機與應(yīng)用,2014,33(13):3-5.
[5] 肖毅,張林,聶笑一.基于WEB挖掘的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[J].計算機系統(tǒng)應(yīng)用,2013(9):60-63.
[6] 王芳,陳海建.深入解析Web主題爬蟲的關(guān)鍵性原理[J].微型電腦應(yīng)用,2011(7):76-78.