基于SSM框架的數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)

2018-02-24 13:55:24周少波

電腦知識與技術(shù) 2018年34期

關(guān)鍵詞：爬蟲

周少波

摘要：隨著大數(shù)據(jù)技術(shù)的迅速發(fā)展以及智能手機的普及，其應(yīng)用已滲入到人類社會的各個領(lǐng)域并發(fā)揮越來越重要的作用。本系統(tǒng)基于SSM框架的數(shù)據(jù)采集系統(tǒng)，前臺采用的是SpringBoot框架和JSP技術(shù)進行開發(fā)，后臺采用HtmlUnit框架進行爬蟲業(yè)務(wù)的開發(fā)，采用MySQL 數(shù)據(jù)庫及MongoDB進行數(shù)據(jù)的存儲和支撐，開發(fā)模式采用的是B/S模式的Web應(yīng)用程序。實現(xiàn)了數(shù)據(jù)抓取配置，數(shù)據(jù)提取配置，數(shù)據(jù)抓取，數(shù)據(jù)excel表格下載，關(guān)鍵字管理，登錄，修改密碼，退出系統(tǒng)等功能。在設(shè)計上具有友好的交互界面，系統(tǒng)用戶可以在管理界面上對后臺進行爬蟲配置。系統(tǒng)用戶在配置成功后，開啟爬蟲，即可不再受任何時間限制地進行數(shù)據(jù)抓取了。

關(guān)鍵詞：爬蟲;SpringBoot;數(shù)據(jù)抓取;MongoDB;B/S

中圖分類號：TP311? ? 文獻標(biāo)識碼：A? ? ? ?文章編號：1009-3044（2018）34-0045-03

1引言

隨著大數(shù)據(jù)技術(shù)的發(fā)展與其日益完善，很多傳統(tǒng)企業(yè)的運作都開始加入了大數(shù)據(jù)技術(shù)，使企業(yè)能在發(fā)展市場上走在其他同行企業(yè)的前面。但是，要使用大數(shù)據(jù)技術(shù)，首先要有足量大的數(shù)據(jù)作為支撐才有意義，因而，數(shù)據(jù)采集就必然是其最基礎(chǔ)，最重要的部分。因此，生產(chǎn)一個高效穩(wěn)定的數(shù)據(jù)采集系統(tǒng)迫在眉睫。目前，爬蟲技術(shù)采集數(shù)據(jù)成為數(shù)據(jù)采集方式的有力補充和發(fā)展。爬蟲技術(shù)采集數(shù)據(jù)不僅減少了對數(shù)據(jù)采集的人力、物力的投入，并且突破了時間與空間的限制，不僅節(jié)省了資源，而且提高了數(shù)據(jù)采集的效率和準(zhǔn)確度?？傊髷?shù)據(jù)技術(shù)在各行業(yè)的普及，爬蟲數(shù)據(jù)采集技術(shù)必將得到發(fā)展，其關(guān)注度一定會逐漸增加。為生產(chǎn)一個高效穩(wěn)定的數(shù)據(jù)抓取系統(tǒng)，作者經(jīng)過研究幾種不同的爬蟲制作方案，經(jīng)充分的考慮，最后給出了一個較為理想的爬蟲制作方案，并結(jié)合當(dāng)前部署和維護方便及其擴展性較好的B/S架構(gòu)來開發(fā)一個高效穩(wěn)定的數(shù)據(jù)抓取系統(tǒng)。基于B/S模式的數(shù)據(jù)采集系統(tǒng)完美地克服了人工采集方式所帶來的人力、物力以及時間上的浪費，同時也保證了數(shù)據(jù)的產(chǎn)出速率和準(zhǔn)確率。

2? 需求分析

本系統(tǒng)需要技術(shù)人員才能進行操作，且系統(tǒng)定位為企業(yè)內(nèi)部使用系統(tǒng)，所以并沒有需要對用戶類型進行過于嚴(yán)格的分類管理，因此用戶類型僅需有系統(tǒng)管理員和數(shù)據(jù)采集員兩類。

系統(tǒng)管理員需求：系統(tǒng)管理員可管理數(shù)據(jù)采集員賬戶、修改密碼、登錄系統(tǒng)、管理爬蟲規(guī)則、查看爬蟲數(shù)據(jù)、下載爬蟲數(shù)據(jù)、啟動/停止爬蟲、解析數(shù)據(jù)、開啟定時器、關(guān)鍵字管理、退出系統(tǒng)等功能。

1）登錄：因為這個系統(tǒng)目前設(shè)定為企業(yè)內(nèi)部系統(tǒng)，而非商業(yè)性系統(tǒng)，因此無須開放注冊功能。系統(tǒng)管理員的賬戶密碼在系統(tǒng)部署時在數(shù)據(jù)庫進行預(yù)設(shè)。所有用戶在登錄時，系統(tǒng)校驗用戶名和密碼，正確則放行，錯誤則彈出提示信息。

2）修改密碼：可以修改個人密碼和數(shù)據(jù)采集員密碼。

3）管理數(shù)據(jù)采集員賬戶：系統(tǒng)管理員可以對數(shù)據(jù)采集員賬戶進行添加、刪除、修改。

4）管理爬蟲規(guī)則：管理員可以像數(shù)據(jù)采集員一樣，對爬蟲規(guī)則進行添加、和配置刪除。

5）查看爬蟲數(shù)據(jù)：查看當(dāng)前爬蟲產(chǎn)生的原數(shù)據(jù)和提取數(shù)據(jù)。

6）下載爬蟲數(shù)據(jù)：爬蟲數(shù)據(jù)成功提取后，可以導(dǎo)出為excel文檔。

7）啟動/關(guān)閉爬蟲：手動開啟/關(guān)閉指定的爬蟲規(guī)則，自動功能開啟后禁用。

8）解析數(shù)據(jù)：立即提取數(shù)據(jù)

9）開啟定時器：開啟后，使用預(yù)設(shè)的定時時間，定時對爬蟲規(guī)則進行定時的進行數(shù)據(jù)抓取和數(shù)據(jù)提?。ㄒ话憔W(wǎng)站都是白天的訪問量最高，晚上最低，所以可以預(yù)設(shè)時間為晚上抓取數(shù)據(jù)，白天提取數(shù)據(jù)。這樣可以充分利用爬蟲系統(tǒng)的網(wǎng)絡(luò)帶寬）。

10）關(guān)鍵字管理：本數(shù)據(jù)采集系統(tǒng)的爬蟲功能將制成三種爬蟲工作模式，第一種是默認(rèn)的常規(guī)逐層爬蟲。第二種是搜索模式，通過將關(guān)鍵字輸入到網(wǎng)站搜索欄，然后進行搜索，例如對百度搜索結(jié)果進行爬蟲。第三種是URL拼接模式，按照RestFul的一個URL代表一個資源的概念，一般網(wǎng)站的URL都是設(shè)計得有規(guī)律的，URL拼接模式就是通過關(guān)鍵字拼接起來作為URL進行請求爬蟲。關(guān)鍵字管理功能就是對關(guān)鍵字進行導(dǎo)入和刪除。

11）退出系統(tǒng)功能：退出系統(tǒng)

數(shù)據(jù)采集員需求：數(shù)據(jù)采集員可修改密碼、登錄系統(tǒng)、管理爬蟲規(guī)則、查看爬蟲數(shù)據(jù)、下載爬蟲數(shù)據(jù)、啟動/停止爬蟲、解析數(shù)據(jù)、關(guān)鍵字管理、退出系統(tǒng)等功能。

① 登錄：因為這個系統(tǒng)目前設(shè)定為企業(yè)內(nèi)部系統(tǒng)，而非商業(yè)性系統(tǒng)，因此無須開放注冊功能。系統(tǒng)管理員的賬戶密碼在系統(tǒng)部署時在數(shù)據(jù)庫進行預(yù)設(shè)。所有用戶在登錄時，系統(tǒng)校驗用戶名和密碼，正確則放行，錯誤則彈出提示信息。

② 修改密碼：可以修改個人密碼。

③ 管理爬蟲規(guī)則：對爬蟲規(guī)則進行添加、和配置刪除。

④ 查看爬蟲數(shù)據(jù)：查看當(dāng)前爬蟲產(chǎn)生的原數(shù)據(jù)和提取數(shù)據(jù)。

⑤ 下載爬蟲數(shù)據(jù)：爬蟲數(shù)據(jù)成功提取后，可以導(dǎo)出為excel文檔。

⑥ 啟動/關(guān)閉爬蟲：手動開啟/關(guān)閉指定的爬蟲規(guī)則，自動功能開啟后禁用。

⑦ 解析數(shù)據(jù)：立即提取數(shù)據(jù)。

⑧ 關(guān)鍵字管理：本數(shù)據(jù)采集系統(tǒng)的爬蟲功能將制成三種爬蟲工作模式，第一種是默認(rèn)的常規(guī)逐層爬蟲。第二種是搜索模式，通過將關(guān)鍵字輸入到網(wǎng)站搜索欄，然后進行搜索，例如對百度搜索結(jié)果進行爬蟲。第三種是URL拼接模式，按照RestFul的一個URL代表一個資源的概念，一般網(wǎng)站的URL都是設(shè)計得有規(guī)律的，URL拼接模式就是通過關(guān)鍵字拼接起來作為URL進行請求爬蟲。關(guān)鍵字管理功能就是對關(guān)鍵字進行導(dǎo)入和刪除。

⑨ 退出系統(tǒng)功能：退出系統(tǒng)。

3系統(tǒng)設(shè)計

3.1功能模塊劃分

3.1.1 前臺的主要功能模塊

根據(jù)需求分析，明白了本系統(tǒng)分為前臺和后臺兩個部分進行設(shè)計。前臺主要用于登錄系統(tǒng)、管理爬蟲規(guī)則、管理關(guān)鍵字、密碼修改、數(shù)據(jù)導(dǎo)出、退出系統(tǒng)等功能。后臺主要用于系統(tǒng)管理員對數(shù)據(jù)采集員的賬戶管理，系統(tǒng)設(shè)置，等功能。

本系統(tǒng)前臺可劃分為三大功能模塊，具體為：

1）系統(tǒng)操作模塊：包括登錄、密碼修改和退出系統(tǒng)功能。

2）爬蟲管理模塊：包括配置爬蟲規(guī)則、管理關(guān)鍵字功能。

3）數(shù)據(jù)管理模塊：包括啟動數(shù)據(jù)抓取、啟動數(shù)據(jù)解析和數(shù)據(jù)導(dǎo)出功能。

3.1.2 后臺的主要功能模塊

本系統(tǒng)后臺可劃分為兩大功能模塊，具體為：

1）用戶管理模塊：包括建新的用戶、修改信息、修改用戶密碼和刪除用戶等功能。

2）查詢模塊：主要是查看用戶操作日志功能。

3.2 數(shù)據(jù)庫設(shè)計

3.2.1 系統(tǒng)E-R圖

經(jīng)過分析，本系統(tǒng)主要有十三個實體，分別是用戶、基礎(chǔ)規(guī)則實體、登錄規(guī)則實體、cookie實體、內(nèi)容提取規(guī)則實體、分頁規(guī)則實體、拼接規(guī)則實體、搜索規(guī)則實體、關(guān)鍵字組實體、關(guān)鍵字實體、原數(shù)據(jù)實體、解析數(shù)據(jù)實體。系統(tǒng)E-R圖如圖1所示：

3.2.2 數(shù)據(jù)庫表設(shè)計

1）用戶表結(jié)構(gòu)：用戶表-tuser用來存儲用戶信息，用于實現(xiàn)用戶信息的增、刪、改、查。在登錄時，會使用登錄信息與表內(nèi)信息進行匹配，以驗證登錄。為確保安全，驗證前，用戶的密碼會進行一次MD5加密再和用戶表的密碼進行比對。

2）爬蟲基礎(chǔ)規(guī)則表結(jié)構(gòu)：爬蟲基礎(chǔ)規(guī)則表-tcrawler_rule用來存儲爬蟲配置的基本規(guī)則，用戶標(biāo)識一個爬蟲配置信息的最基本配置。該表記錄了目標(biāo)網(wǎng)站的網(wǎng)站名，域名，爬蟲運行模式，網(wǎng)站首頁，網(wǎng)站過濾字段，默認(rèn)模式用到的層級，進行爬蟲前是否需要登錄網(wǎng)站，當(dāng)前一共有多少原數(shù)據(jù)，多少提取數(shù)據(jù)，當(dāng)前運行狀態(tài)等信息。

3）登錄配置表結(jié)構(gòu)：登錄配置表-taccount_msg用來存儲網(wǎng)站登錄配置信息的，有些網(wǎng)站在瀏覽某些數(shù)據(jù)時，可能需要處于登錄狀態(tài)才能瀏覽。那么配置如何登錄這些網(wǎng)站，顯然是必須的。該表就是記錄如登錄頁面的URL，登錄相關(guān)標(biāo)簽的標(biāo)簽，標(biāo)簽唯一屬性名，標(biāo)簽的唯一屬性值，和標(biāo)簽的類型。之所以只設(shè)置一套用于查找的標(biāo)簽的配置，是因為一般登錄的輸入框和提交按鈕都給了id作為唯一標(biāo)識，為了簡化配置，這里就只給出一套配置。

4）cookie信息表結(jié)構(gòu)：Cookie信息表-tcookie_msg用來存儲Cookie信息。有些的登錄可能會比較復(fù)雜，，簡單的配置可能無法滿足，因此這里提供了Cookie配置來冒充登錄，目前大部分網(wǎng)站為了方便用戶，都會將Sessionid寫入Cookie，讓用戶重新進入網(wǎng)站時免登錄，這樣我們就可以利用這一點，將這些可以登錄網(wǎng)站的Cookie記下來，讓爬蟲系統(tǒng)去瀏覽這些網(wǎng)站時帶上Cookie，就可以實現(xiàn)免登錄了。

5）搜索信息表結(jié)構(gòu)：搜索信息表-tsearch_msg用來存儲搜索信息。有時候，我們的需求不是從某個網(wǎng)站逐層查找數(shù)據(jù)，而是獲取某個網(wǎng)頁的搜索結(jié)果，因此需要配置一個規(guī)則，來讓爬蟲“知道”如何進行搜索。配置信息有，搜索頁的Url，搜索的標(biāo)簽，標(biāo)簽名稱，標(biāo)簽屬性名，標(biāo)簽屬性值，填充關(guān)鍵字組的組id，標(biāo)簽的作用類型（是提交按鈕還是輸入框）。

6）拼接信息表結(jié)構(gòu)：拼接信息表-tconcat_msg用來存儲拼接信息?，F(xiàn)在很多網(wǎng)站已經(jīng)用上Restful風(fēng)格的Url，來強調(diào)一個Uri代表一個資源的HtmlGet請求的原定義。因此我們可以以Url中的某一段或多段多為關(guān)鍵字拼接點，拼接出Url來請求我們需要的志愿。拼接信息表的記錄包括拼接位置，拼接用的單字串，拼接用的關(guān)鍵字組Id（單字串優(yōu)先級高于關(guān)鍵字組）。

7）內(nèi)容提取配置信息表結(jié)構(gòu)：內(nèi)容提取配置信息表-tcontent_index_rule用來存儲內(nèi)容提取配置信息。用于記錄爬蟲直接挖去用于進行解析數(shù)據(jù)的Html部分，相當(dāng)于在瀏覽器中查找進行OuterHtml操作的Domcument標(biāo)簽，因為目標(biāo)可能在不同網(wǎng)頁層，也可能在同層有多個的關(guān)系，因此最復(fù)雜的配置會呈一個多叉樹森林的結(jié)構(gòu)，因此與其他配置的屬性相比，多了是否深入查找的標(biāo)識，還有上層節(jié)點id（處于首層的節(jié)點ID為0）。

8）分頁配置信息表結(jié)構(gòu)：分頁配置信息表-tpaging_index用來存儲分頁配置信息。有些時候，用戶要的數(shù)據(jù)不止目標(biāo)第一頁，而是所有分頁。因此我們需要提供下一頁的獲取按鈕配置提供給用戶。這些信息包括父標(biāo)簽配置，目標(biāo)標(biāo)簽配置，標(biāo)簽倒數(shù)位置（因為有時候下一頁的按鈕沒有被做嚴(yán)格的屬性區(qū)分，因此需要這個來提高獲取目標(biāo)的準(zhǔn)確度）。

9）解析規(guī)則配置信息表結(jié)構(gòu)：解析規(guī)則配置信息表-textract_content_rule用來存儲解析規(guī)則配置信息。內(nèi)容提取規(guī)則拿到的數(shù)據(jù)是帶Html代碼的粗糙數(shù)據(jù)，不可直接使用的。因此，需要提供解析規(guī)則來將數(shù)據(jù)與Html代碼分離，并設(shè)置在導(dǎo)出時的排列規(guī)則。

10）關(guān)鍵字組信息表結(jié)構(gòu)：關(guān)鍵字組信息表-tkeyword_group用來存儲關(guān)鍵字分組信息。這個表用于存放用于搜索模式和拼接模式所用到的關(guān)鍵字組的信息。

11）關(guān)鍵字信息表結(jié)構(gòu)：關(guān)鍵字信息表-tkeyword用來存儲關(guān)鍵字信息。這個表用于存放用于搜索模式和拼接模式所用到的關(guān)鍵字組所包含的關(guān)鍵字。

12）原數(shù)據(jù)集合結(jié)構(gòu)：原數(shù)據(jù)集合-SourceDataBean用來存儲爬蟲原數(shù)據(jù)的Mongo集合。原數(shù)據(jù)集合就是用于存放原數(shù)據(jù)的，在uuid相等的情況下，判斷多個原數(shù)據(jù)集合構(gòu)成一條完整的數(shù)據(jù)。

13）解析數(shù)據(jù)集合結(jié)構(gòu)：解析數(shù)據(jù)集合-ExtractDataBean用來存儲爬蟲解析數(shù)據(jù)的Mongo集合。解析數(shù)據(jù)集合就是用于存放數(shù)據(jù)的。其中的Map為<Integer，String>結(jié)構(gòu)，Key值為數(shù)據(jù)的導(dǎo)出位置，Value為字段具體值。

4 系統(tǒng)功能實現(xiàn)

4.1 系統(tǒng)前臺功能實現(xiàn)

4.1.1 管理員登錄及數(shù)據(jù)采集員創(chuàng)建

系統(tǒng)部署時，會預(yù)先創(chuàng)建一個管理員賬戶。登錄功能是通過Spring Boot的攔截器實現(xiàn)的。當(dāng)用戶請求網(wǎng)站時，攔截器會獲取Request對象來獲取Session對象，取SessionId去Redis查找是否存在用戶信息，存在則放行，不存在則跳轉(zhuǎn)到登錄頁面。登錄驗證成功后，系統(tǒng)會以SessionId為Key，用戶信息為Value存入Redis中。管理員可在登錄后瀏覽系統(tǒng)。

4.1.2 修改密碼實現(xiàn)

已經(jīng)成功登錄的用戶可點擊導(dǎo)航欄右上角的修改密碼按鈕打開修改密碼界面。修改密碼時，系統(tǒng)會先取得頁面數(shù)據(jù)進入數(shù)據(jù)庫進行校驗，通過則允許修改密碼。輸入原密碼時會與原密碼進行校驗，并會對新密碼的長度和重復(fù)密碼進行校驗。

4.1.3 關(guān)鍵字管理實現(xiàn)

用戶成功登錄系統(tǒng)后可進行關(guān)鍵字管理，關(guān)鍵字管理的實現(xiàn)步驟如下：

1）點擊導(dǎo)航欄的關(guān)鍵字管理，打開關(guān)鍵字組列表。

2）點擊導(dǎo)入，彈出導(dǎo)入界面。

3）輸入組名并選擇好上傳文件后，上傳組名和文件選擇會有非空校驗，點擊確定即可上傳文件。在導(dǎo)入成功創(chuàng)建數(shù)據(jù)后，用戶可以選中條目點擊確定按鈕進行刪除，也可以單獨點擊條目的刪除按鈕進行刪除。

4）導(dǎo)入成功后，點擊組名，可以查詢里面的詳細(xì)關(guān)鍵字，其中點擊添加可以單獨添加一個數(shù)字，也可以點擊條目的修改按鈕進行修改。用戶可以選中條目點擊確定按鈕進行刪除，也可以單獨點擊條目的刪除按鈕進行刪除。

4.1.4 爬蟲規(guī)則管理實現(xiàn)

爬蟲規(guī)則會存儲在Mysql數(shù)據(jù)庫中，實現(xiàn)規(guī)則查詢功能，當(dāng)用戶查詢規(guī)則時，把存儲在數(shù)據(jù)庫中該用戶添加的規(guī)則的基礎(chǔ)規(guī)則列到前臺顯示。此外，用戶還可以選中規(guī)則，進行修改，刪除，查看原數(shù)據(jù)，查看提取數(shù)據(jù)。

4.1.5 添加爬蟲規(guī)則實現(xiàn)

用戶可以為自己添加爬蟲規(guī)則。添加規(guī)則的第一步是點擊爬蟲規(guī)則列表的添加按鈕打開基礎(chǔ)規(guī)則添加頁面，這里由于爬蟲分三個模式，而三個模式的第一步，第二步配置均不同，因此這里會取三個例子進行配置。基本規(guī)則添加完成并保存后，進入第二步添加抓取規(guī)則。通過第一步配置的工作模式，使用JSTL對第二步的頁面進行渲染。這一環(huán)，我們主要配置數(shù)據(jù)抓取的位置規(guī)則，這里的配置，我們必須確保準(zhǔn)確。此外，本數(shù)據(jù)采集系統(tǒng)的爬蟲功能還支持搜索模式和Url拼接模式，它們?nèi)咧g的提取規(guī)則有少許不同，這里將展示搜索模式和Url拼接模式下的配置界面。第三步，添加數(shù)據(jù)提取（解析）規(guī)則。用于將爬蟲根據(jù)前面配置的規(guī)則抓出來的。添加數(shù)據(jù)提?。ń馕觯┮?guī)則完成后，系統(tǒng)將會跳轉(zhuǎn)到配置完成頁面，并于10秒后自動返回爬蟲配置列表頁面。

4.2 系統(tǒng)后臺功能實現(xiàn)

4.2.1 用戶管理實現(xiàn)

系統(tǒng)管理員賬號在這本數(shù)據(jù)采集系統(tǒng)內(nèi)有權(quán)控制所有用戶。管理員根據(jù)用戶名和密碼登錄系統(tǒng)。登錄后，主界面導(dǎo)航會比數(shù)據(jù)采集員多出一個設(shè)置導(dǎo)航。這一點通過JSTL實現(xiàn)，通過獲取用戶類型，判斷是否渲染設(shè)置中心模塊。管理員將鼠標(biāo)移動到設(shè)置導(dǎo)航上會出現(xiàn)下拉菜單，其中一個就是賬戶管理，點擊該菜單即可進入賬戶管理界面。在這里，管理員可以進行與所有用戶相關(guān)的，包括創(chuàng)建新的用戶，修改信息，修改用戶密碼，刪除用戶。

4.2.2 操作日志實現(xiàn)

系統(tǒng)管理員賬號在這本數(shù)據(jù)采集系統(tǒng)內(nèi)有權(quán)查看所有用戶的操作記錄。管理員根據(jù)用戶名和密碼登錄系統(tǒng)。登錄后點擊設(shè)置中心下拉菜單中的操作日志即可查看所有用戶的操作日志。用戶在請求時，系統(tǒng)會通過反射機制，獲取傳入?yún)?shù)和預(yù)設(shè)的操作類型，將參數(shù)和類型按預(yù)設(shè)的規(guī)則進行拼接后，存入操作記錄表，就能實現(xiàn)操作日志。

4.2.3 爬蟲自動啟動實現(xiàn)

系統(tǒng)管理員登錄本數(shù)據(jù)采集系統(tǒng)后，點擊數(shù)據(jù)采集進入爬蟲規(guī)則列表頁面會多出一個更改自動啟動狀態(tài)的按鈕。系統(tǒng)部署前，使用Quartz任務(wù)調(diào)度框架設(shè)定一個定時執(zhí)行爬蟲的任務(wù)，并在任務(wù)前加上一個Boolean型的靜態(tài)變量進行判斷。自動啟動按鈕就是通過修改這個靜態(tài)變量的值來實現(xiàn)開啟、關(guān)閉自動啟動功能的。

5 結(jié)論

本系統(tǒng)基于SSM框架的數(shù)據(jù)采集系統(tǒng)，前臺采用的是SpringBoot框架和JSP技術(shù)進行開發(fā)，后臺采用HtmlUnit框架進行爬蟲業(yè)務(wù)的開發(fā)，采用MySQL 數(shù)據(jù)庫及MongoDB進行數(shù)據(jù)的存儲和支撐，開發(fā)模式采用的是B/S模式的Web應(yīng)用程序。實現(xiàn)了功能需求里面擬定的功能，各項功能都可以正常運行。

參考文獻：

[1] 于娟，劉強.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計算機工程與科學(xué)，2015，37（2）：231-237.

[2] 李朝奎，楊武，殷智慧，等.MongoDB的遙感影像分布式存儲策略研究[J].測繪通報，2014（5）：70-72.

[3] 張樹新，吳海斌，蒙輝，湯麥倫.基于SpringCloud的航運EDI平臺IT生態(tài)環(huán)境設(shè)計[J]. 中國儲運， 2018（2）：100-103.

[4] 朱亞興，余愛民.王夷.基于Redis+MySQL+MongoDB存儲架構(gòu)應(yīng)用[J].微型機與應(yīng)用，2014，33（13）：3-5.

[5] 肖毅，張林，聶笑一.基于WEB挖掘的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[J].計算機系統(tǒng)應(yīng)用，2013（9）：60-63.

[6] 王芳，陳海建.深入解析Web主題爬蟲的關(guān)鍵性原理[J].微型電腦應(yīng)用，2011（7）：76-78.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于SSM框架的數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)