基于數(shù)據(jù)挖掘技術(shù)的防震減災(zāi)科普資源管理平臺(tái)

2020-04-30 14:19:26葉肇恒孟凡馨宴金旭楊璐遙

華北地震科學(xué) 2020年1期

葉肇恒，孟凡馨，宴金旭，楊璐遙

（四川省地震局，四川成都 610041）

0 引言

面對(duì)地震災(zāi)害多發(fā)的基本國(guó)情和防震減災(zāi)綜合能力相對(duì)薄弱的客觀事實(shí)，迫切需要提升防震減災(zāi)能力，夯實(shí)防震減災(zāi)事業(yè)基礎(chǔ)。習(xí)近平總書(shū)記指出，防災(zāi)減災(zāi)救災(zāi)事關(guān)人民生命財(cái)產(chǎn)安全，事關(guān)社會(huì)和諧穩(wěn)定，應(yīng)當(dāng)堅(jiān)持以防為主，防抗救相結(jié)合，應(yīng)注重“建立防災(zāi)減災(zāi)救災(zāi)宣傳教育長(zhǎng)效機(jī)制”。隨著科學(xué)技術(shù)的高速發(fā)展，科普傳播載體也發(fā)生了變化。近年來(lái)新媒體技術(shù)的廣泛運(yùn)用，對(duì)傳統(tǒng)科普觀念和形式造成了巨大的沖擊?！度窨茖W(xué)素質(zhì)行動(dòng)計(jì)劃綱要（2006—2010—2020）》明確要求研究開(kāi)發(fā)實(shí)時(shí)、交互、動(dòng)態(tài)等特點(diǎn)的網(wǎng)絡(luò)科普新途徑，云技術(shù)、大數(shù)據(jù)等技術(shù)的成熟運(yùn)用也為防震減災(zāi)科普工作提供了新的思路。

在實(shí)際工作和走訪調(diào)研中發(fā)現(xiàn)，防震減災(zāi)科普宣傳教育工作還存在許多問(wèn)題。一方面，雖然通過(guò)網(wǎng)絡(luò)檢索能夠得到圖片、文字、視頻等大量資源，但信息重復(fù)率高，資料質(zhì)量難以保證，權(quán)威科普教育資源相對(duì)缺乏[1]，這導(dǎo)致不具備專(zhuān)業(yè)知識(shí)的科普工作人員難以甄別有效信息，從而影響科普宣傳效果，甚至可能會(huì)出現(xiàn)具有誤導(dǎo)性的錯(cuò)誤信息；另一方面，相關(guān)科普宣傳教育資源具有分散性，在實(shí)際應(yīng)用中存在收集難、存儲(chǔ)難、管理難、篩選難等一系列問(wèn)題，一定程度上增加了科普宣傳工作的時(shí)間成本和人力資源成本。學(xué)校、社區(qū)、基層政府、防震減災(zāi)科普館等機(jī)構(gòu)大多缺少防震減災(zāi)專(zhuān)業(yè)人員指導(dǎo)，卻又承擔(dān)著大量的防震減災(zāi)科普宣傳教育任務(wù)，防震減災(zāi)科普教育工作任重道遠(yuǎn)。

本文從防震減災(zāi)法律法規(guī)、三大工作體系、科普宣傳形式等內(nèi)容出發(fā)，設(shè)計(jì)了科普資源庫(kù)搜索指標(biāo)和資源庫(kù)架構(gòu)，通過(guò)網(wǎng)絡(luò)爬蟲(chóng)、數(shù)據(jù)挖掘等技術(shù)，對(duì)科普資源搜索指標(biāo)數(shù)據(jù)源進(jìn)行搜集、分析、分類(lèi)等處理，設(shè)計(jì)基于web的防震減災(zāi)科普資源管理平臺(tái)架構(gòu)，為學(xué)校、社區(qū)、基層政府、防震減災(zāi)相關(guān)部門(mén)的科普宣傳提供科學(xué)的、便捷的資料獲取渠道，提升科普宣傳教育工作的便捷度和科學(xué)性。

1 防震減災(zāi)科普資源搜索指標(biāo)

隨著信息技術(shù)的發(fā)展和新媒體的興起，科普宣傳的宣傳形式、宣傳內(nèi)容等各方面都發(fā)生了巨大變化。越來(lái)越多的人，尤其是年輕人更愿意通過(guò)移動(dòng)App、門(mén)戶(hù)網(wǎng)站等來(lái)獲取防震減災(zāi)科普資源，這也造成了傳播形式呈現(xiàn)出碎片化、即時(shí)性、形象化的特點(diǎn)[2]。但無(wú)論宣傳形式如何變化，科普信息資源始終是各類(lèi)型宣傳產(chǎn)品制作開(kāi)發(fā)的基礎(chǔ)。因此，從防震減災(zāi)涵蓋的基本內(nèi)容出發(fā)，設(shè)計(jì)了科普資源搜索指標(biāo)，旨在為網(wǎng)絡(luò)爬蟲(chóng)爬取及人工上傳的科普資源劃分確定基本分類(lèi)模式。搜索指標(biāo)主要分為2級(jí)，具體劃分見(jiàn)表1。

表 1 防震減災(zāi)科普資源搜索指標(biāo)

2 平臺(tái)設(shè)計(jì)

通過(guò)專(zhuān)家咨詢(xún)、走訪調(diào)研、網(wǎng)民搜索行為研究等方式，確定了本平臺(tái)應(yīng)用方向及用戶(hù)需求。平臺(tái)設(shè)計(jì)從功能需求出發(fā)，確定平臺(tái)功能模塊，完成整體架構(gòu)設(shè)計(jì)和Hadoop架構(gòu)設(shè)計(jì)，實(shí)現(xiàn)防震減災(zāi)科普資源的科學(xué)管理，為個(gè)人、學(xué)校、企業(yè)、單位等的防震減災(zāi)科普教育工作提供搜索渠道，為科普宣傳教育產(chǎn)品、應(yīng)用開(kāi)發(fā)提供數(shù)據(jù)資源。

2.1 平臺(tái)功能設(shè)計(jì)

該平臺(tái)功能整體分為三大模塊：普通用戶(hù)模塊、管理員模塊和系統(tǒng)模塊（圖1）。

通過(guò)網(wǎng)絡(luò)爬蟲(chóng)及人工輸入，結(jié)合ETL技術(shù)，實(shí)現(xiàn)對(duì)Internet或Intranet中與防震減災(zāi)科普相關(guān)數(shù)據(jù)源的數(shù)據(jù)采集、清洗、轉(zhuǎn)換、合并及儲(chǔ)存，同時(shí)提供在線編輯、接口注冊(cè)、Excel表格導(dǎo)入、文件上傳等人工操作方式?；贖adoop架構(gòu)設(shè)計(jì)防震減災(zāi)科普資源庫(kù)，實(shí)現(xiàn)防震減災(zāi)科普數(shù)據(jù)資源的統(tǒng)一注冊(cè)、統(tǒng)一分析、統(tǒng)一監(jiān)控的全生命周期管理。

在資源庫(kù)構(gòu)建的過(guò)程中，結(jié)合防震減災(zāi)業(yè)務(wù)架構(gòu)，劃分業(yè)務(wù)關(guān)鍵詞，通過(guò)設(shè)計(jì)層次聚類(lèi)模型，挖掘數(shù)據(jù)資源之間的關(guān)聯(lián)，實(shí)現(xiàn)防震減災(zāi)科普數(shù)據(jù)資源的自動(dòng)分類(lèi)和聚合。同時(shí)提供基于資源庫(kù)的各類(lèi)應(yīng)用服務(wù)，如面向各類(lèi)用戶(hù)的防震減災(zāi)科普資源檢索，提供統(tǒng)一Web界面，用戶(hù)可輸入關(guān)鍵字查詢(xún)相關(guān)的科普資源，對(duì)得到的查詢(xún)結(jié)果進(jìn)行自定義清洗、對(duì)需要的資源進(jìn)行下載及收藏，用戶(hù)同樣可以通過(guò)在線編輯、接口注冊(cè)、Excel導(dǎo)入、文件上傳等人工注冊(cè)的方式，實(shí)現(xiàn)數(shù)據(jù)上傳。后臺(tái)管理員負(fù)責(zé)對(duì)整個(gè)系統(tǒng)的運(yùn)行進(jìn)行管理，包括用戶(hù)管理、資源分類(lèi)管理、爬蟲(chóng)設(shè)置、數(shù)據(jù)資源管理、日志管理等，同時(shí)加入專(zhuān)家評(píng)判功能，使資源管理更加科學(xué)準(zhǔn)確。整個(gè)系統(tǒng)功能結(jié)構(gòu)圖如圖2所示。

平臺(tái)采用自頂而下的模塊化設(shè)計(jì)，各模塊具有一定的獨(dú)立性，在具體劃分時(shí)，既考慮了模塊的凝聚和耦合2個(gè)指標(biāo)，也考慮了整個(gè)平臺(tái)層次結(jié)構(gòu)及功能的合并。其中，高凝聚：一個(gè)處理功能劃分為一個(gè)模塊，由于相關(guān)因素少，易于理解，獨(dú)立性強(qiáng)，便于設(shè)計(jì)，從而提高系統(tǒng)的靈活性、可修改性和可維護(hù)性；低耦合：盡量減少各模塊間的數(shù)據(jù)傳輸，以提高模塊的獨(dú)立性，從整體上提高平臺(tái)的穩(wěn)定性。

2.2 平臺(tái)架構(gòu)設(shè)計(jì)

平臺(tái)采用了分層的設(shè)計(jì)思路，可支持科普資源采集、傳輸、存儲(chǔ)、計(jì)算、分析及推薦展示等多種功能。其架構(gòu)設(shè)計(jì)包括：

圖 1 功能模塊劃分

圖 2 平臺(tái)功能結(jié)構(gòu)圖

1）源數(shù)據(jù)層：通過(guò)本地上傳和爬蟲(chóng)抓取等方法完成原始數(shù)據(jù)的采集。

2）數(shù)據(jù)傳輸層：建立各種數(shù)據(jù)傳輸適配器，接收源數(shù)據(jù)層的數(shù)據(jù)存儲(chǔ)到本地目錄；同時(shí)，ETL適配器接收通過(guò)ESB服務(wù)總線下發(fā)的控制命令，執(zhí)行數(shù)據(jù)ETL操作，將清洗后的數(shù)據(jù)傳遞到存儲(chǔ)層。

3）存儲(chǔ)層：分類(lèi)存儲(chǔ)各種資源數(shù)據(jù)，包括實(shí)時(shí)數(shù)據(jù)、歷史數(shù)據(jù)、元數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)等，能夠通過(guò)數(shù)據(jù)訪問(wèn)服務(wù)將資源數(shù)據(jù)提交計(jì)算層進(jìn)行分析和計(jì)算。

4）計(jì)算層：能夠?qū)Υ鎯?chǔ)層中的各類(lèi)資源數(shù)據(jù)執(zhí)行分析計(jì)算等處理。

5）服務(wù)層：主要包括ESB服務(wù)總線。ESB是傳統(tǒng)中間件技術(shù)與XML、Web服務(wù)等技術(shù)相互結(jié)合的產(chǎn)物，ESB的出現(xiàn)改變了傳統(tǒng)的軟件架構(gòu)，可以提供比傳統(tǒng)中間件產(chǎn)品更為廉價(jià)的解決方案，同時(shí)它還可以消除不同應(yīng)用之間的技術(shù)差異，讓不同的應(yīng)用服務(wù)器協(xié)調(diào)運(yùn)作，從而實(shí)現(xiàn)了不同服務(wù)之間的通信與整合[3]。

6）應(yīng)用層：通過(guò)ESB服務(wù)總線實(shí)現(xiàn)對(duì)資源大數(shù)據(jù)的訪問(wèn)和控制命令的下發(fā)等功能，主要包括平臺(tái)應(yīng)用、系統(tǒng)應(yīng)用及基礎(chǔ)服務(wù)等（圖3）。

圖 3 平臺(tái)架構(gòu)

2.3 平臺(tái)Hadoop架構(gòu)設(shè)計(jì)

Hadoop是一種分析和處理大數(shù)據(jù)的軟件平臺(tái)，能實(shí)現(xiàn)海量數(shù)據(jù)的分布式計(jì)算，其架構(gòu)的核心設(shè)計(jì)為分布式文件系統(tǒng)（HDFS，Hadoop Distributed File System）和分布式計(jì)算模型MapReduce[4]。HDFS具有高容錯(cuò)性的特點(diǎn)，而且它提供高吞吐量來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù)，適合有著超大數(shù)據(jù)集的應(yīng)用程序，為海量的數(shù)據(jù)提供了存儲(chǔ)。MapReduce是面向大數(shù)據(jù)并行處理的計(jì)算模型、框架和平臺(tái)，用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。因此，本平臺(tái)采用Hadoop架構(gòu)實(shí)現(xiàn)平臺(tái)的設(shè)計(jì)功能。

本平臺(tái)Hadoop架構(gòu)分為數(shù)據(jù)獲取層、數(shù)據(jù)清洗層、數(shù)據(jù)存儲(chǔ)層和數(shù)據(jù)處理層(圖4)。數(shù)據(jù)獲取層利用爬蟲(chóng)和人工上傳2種方式獲取數(shù)據(jù)文件；數(shù)據(jù)清洗層對(duì)獲取得到的數(shù)據(jù)文件進(jìn)行篩選，去除不需要的文件，并將需要的數(shù)據(jù)文件保存；數(shù)據(jù)存儲(chǔ)層在HDFS建立存儲(chǔ)目錄，在分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù)HBase中建立表單，為信息的存儲(chǔ)提供存儲(chǔ)空間；數(shù)據(jù)處理層對(duì)數(shù)據(jù)文件進(jìn)行處理，建立索引，并將索引存儲(chǔ)在HBase中，以便外部應(yīng)用對(duì)數(shù)據(jù)文件的快速獲取。

圖 4 平臺(tái)Hadoop系統(tǒng)架構(gòu)

2.3.1 數(shù)據(jù)獲取層

數(shù)據(jù)獲取層的功能是獲取數(shù)據(jù)文件，其數(shù)據(jù)文件的來(lái)源為爬蟲(chóng)爬取和人工上傳2種途徑。

1）爬蟲(chóng)爬取

利用基于Scrapy[5]框架的分布式結(jié)構(gòu)爬蟲(chóng)對(duì)目標(biāo)網(wǎng)站URL進(jìn)行數(shù)據(jù)爬取，從而達(dá)到迅速處理完成數(shù)據(jù)文件爬取任務(wù)的目的。爬蟲(chóng)工作步驟如下：

① 讀取數(shù)據(jù)庫(kù)

將包含目標(biāo)URL、爬取深度以及爬取文件類(lèi)型等設(shè)置的配置文件加載至爬蟲(chóng)配置中，采用逐層（網(wǎng)頁(yè)層數(shù)）爬取的方式，首層爬取完畢后判斷配置是否加載完成，根據(jù)配置內(nèi)容加載情況判斷是否進(jìn)入下一層工作。

② 爬取數(shù)據(jù)文件

爬蟲(chóng)按照配置文件中的預(yù)設(shè)條件，對(duì)各個(gè)網(wǎng)站URL進(jìn)行循環(huán)爬取，直至完成配置文件中的配置加載和數(shù)據(jù)爬取，爬取后的文件存放在本地的Source文件夾中（圖5）。

③ 保存文件信息

在爬取數(shù)據(jù)文件后，對(duì)數(shù)據(jù)文件的來(lái)源URL、類(lèi)型、大小、爬取日期等信息進(jìn)行保存，并存儲(chǔ)至MySQL數(shù)據(jù)庫(kù)的表中（圖6）。

2）人工上傳

利用Web管理頁(yè)面直接將數(shù)據(jù)文件分類(lèi)上傳至HDFS對(duì)應(yīng)文件夾中。

圖 5 source文件夾結(jié)構(gòu)

圖 6 爬蟲(chóng)爬取信息流程圖

2.3.2 數(shù)據(jù)清洗層

在網(wǎng)絡(luò)爬取信息資源的過(guò)程中，同一關(guān)鍵詞會(huì)出現(xiàn)許多重復(fù)的、不相關(guān)的信息數(shù)據(jù)，因此需要采用數(shù)據(jù)清洗技術(shù)對(duì)數(shù)據(jù)進(jìn)行過(guò)濾、篩選[6]。在文本過(guò)濾領(lǐng)域，向量空間模型VSM已成為最簡(jiǎn)便高效的文本表示模型之一[7]。采用基于VSM的文本內(nèi)容過(guò)濾算法提取出來(lái)的文本類(lèi)文件內(nèi)容相似度來(lái)對(duì)數(shù)據(jù)進(jìn)行清洗，過(guò)濾內(nèi)容相似度較低的數(shù)據(jù)。數(shù)據(jù)清洗層從Source文件中的日期文件夾中獲取爬蟲(chóng)爬取或人工上傳的網(wǎng)頁(yè)、文本、圖片視頻等類(lèi)型的信息資源，根據(jù)信息資源類(lèi)型的不同，提取文本內(nèi)容、文件名稱(chēng)內(nèi)容進(jìn)行清洗，將需要的數(shù)據(jù)文件保存至HDFS文件夾下的相應(yīng)類(lèi)型目錄下，以便數(shù)據(jù)存儲(chǔ)層和數(shù)據(jù)處理層的使用。

在文本清洗過(guò)程中，采用IKAnalyzer分詞技術(shù)對(duì)提取的文本內(nèi)容進(jìn)行切分[8-10]，得到能夠代表該文件文本內(nèi)容特征的字、詞等，用t表示。同時(shí)去除無(wú)用的停用詞，組成一個(gè)特征向量（t1,t2,···,tn），其中，n表示特征項(xiàng)的數(shù)量。

通過(guò)關(guān)鍵詞提取算法TF-IDF（term frequencyinverse document frequency）計(jì)算輸入文本的特征權(quán)重，當(dāng)某個(gè)特征在一篇文本中出現(xiàn)概率（TF）高，而在別的文本出現(xiàn)概率（IDF，即逆文檔頻率）低，則該特征具備較好的文本區(qū)分能力，具體公式如下：

式中： TFIDFi,j為字詞ti相對(duì)于文檔j的權(quán)重wi； TFi,j為某個(gè)給定字詞ti在指定文檔中出現(xiàn)的次數(shù)占比，這個(gè)數(shù)字可以對(duì)詞數(shù)歸一化，防止偏向長(zhǎng)文本； hi,j為該字詞在文本dj中出現(xiàn)的次數(shù)；∑m1hk,j為文本dj中所有字詞出現(xiàn)的次數(shù)之和；k∈[1,m]為去除重復(fù)后的字詞索引；m表示去除重復(fù)后的關(guān)鍵詞總數(shù)；IDF為字詞t的逆文檔頻率，|D|為文檔總數(shù)量；|{j : ti 2r Edj}|為包含字詞ti的文檔數(shù)量。

讀取數(shù)據(jù)庫(kù)清洗設(shè)置表中的關(guān)鍵詞和權(quán)重列表，將該權(quán)重列表作為模板權(quán)重向量。由于wi為字詞ti在文本中的權(quán)重，那么輸入文本就可以表示為一個(gè)以特征項(xiàng) (t1,t2,t3,...,tn)為坐標(biāo)系的n維空間中的向量（ w1,w,w3,...,wn）。通過(guò)計(jì)算2個(gè)不同文本向量之間的余弦相似度得到2個(gè)文本之間內(nèi)容的相似度：

式中：W1i表示輸入文本的權(quán)重向量，W2i表示模板權(quán)重向量。

清洗過(guò)程如圖7所示。

2.3.3 數(shù)據(jù)存儲(chǔ)層

HDFS中的文件在物理上是分塊（block）存儲(chǔ)的，客戶(hù)端上傳文件時(shí)文件會(huì)被切分成多個(gè)數(shù)據(jù)塊，這些數(shù)據(jù)塊存儲(chǔ)在若干個(gè)datanode服務(wù)節(jié)點(diǎn)中，且每一個(gè)block在集群中會(huì)存儲(chǔ)多個(gè)副本，這樣可以提高數(shù)據(jù)的可靠性及訪問(wèn)的吞吐量（圖8）。

HDFS文件系統(tǒng)會(huì)給客戶(hù)端提供一個(gè)統(tǒng)一的虛擬目錄樹(shù)，客戶(hù)端通過(guò)路徑來(lái)訪問(wèn)文件，目錄結(jié)構(gòu)及文件分塊位置信息（元數(shù)據(jù)）由namenode節(jié)點(diǎn)來(lái)管理，namenode是HDFS集群主節(jié)點(diǎn)，負(fù)責(zé)維護(hù)整個(gè)HDFS文件系統(tǒng)的目錄樹(shù)，以及每一個(gè)路徑（文件）所對(duì)應(yīng)的數(shù)據(jù)塊信息（block_id及所在的datanode服務(wù)器）。讀取文件時(shí)通過(guò)訪問(wèn)namenode節(jié)點(diǎn)中的映射關(guān)系來(lái)查找所有的數(shù)據(jù)塊。文件上傳后，提取每個(gè)文件的屬性信息，包括文件名稱(chēng)、文件URL、文件目錄、文件內(nèi)容關(guān)鍵字、文件內(nèi)容、文件類(lèi)型、文件來(lái)源、文件生成時(shí)間、文件大小、文件訪問(wèn)權(quán)限以及文件刪除標(biāo)識(shí)等，并將這些屬性信息封裝成一個(gè)文件對(duì)象存儲(chǔ)至HBase中。

圖 8 文件存儲(chǔ)及讀取

2.3.4 數(shù)據(jù)處理層

數(shù)據(jù)處理層的任務(wù)主要是根據(jù)需要對(duì)保存的數(shù)據(jù)文件進(jìn)行處理并生成文檔對(duì)象，通過(guò)合理定義文檔的索引方式來(lái)確定文檔存儲(chǔ)位置，同時(shí)建立倒排索引，以便數(shù)據(jù)的快速查找和外部應(yīng)用的快速使用。

根據(jù)數(shù)據(jù)清洗層記錄的數(shù)據(jù)文件的存儲(chǔ)地址，利用文件解釋API（Application Programming Interface，應(yīng)用程序編程接口）進(jìn)行循環(huán)讀取和解析數(shù)據(jù)文件，提取文件屬性信息，將每個(gè)文件的屬性信息封裝成一個(gè)文檔對(duì)象，通過(guò)倒排索引保存至HBase中。在HBase中建立主表、索引表。主表用于存儲(chǔ)數(shù)據(jù)文件的相關(guān)屬性信息（數(shù)據(jù)文件的名稱(chēng)、關(guān)鍵詞、內(nèi)容、大小以及類(lèi)型等），索引表用于存儲(chǔ)倒排索引（圖9）。這種儲(chǔ)存數(shù)據(jù)的方式是為了便于數(shù)據(jù)的快速查找，以及外部應(yīng)用的快速使用，如全文檢索、統(tǒng)計(jì)分析、資源管理等。

圖 9 HBase表結(jié)構(gòu)

2.4 平臺(tái)其他設(shè)計(jì)

2.4.1 平臺(tái)界面設(shè)計(jì)

平臺(tái)界面設(shè)計(jì)主要針對(duì)軟件的交互管理界面，使其具備清晰的交互邏輯、友好的操作方式和簡(jiǎn)潔的呈現(xiàn)效果，從而方便管理員對(duì)系統(tǒng)進(jìn)行管理操作，提升其良好的用戶(hù)體驗(yàn)。圖10～11展示的為登陸界面及爬蟲(chóng)設(shè)置管理界面。

圖 10 用戶(hù)登錄界面

圖 11 爬蟲(chóng)設(shè)置界面

2.4.2 平臺(tái)可靠性設(shè)計(jì)

在平臺(tái)可靠性方面，項(xiàng)目組在爬取網(wǎng)址（URL）的選擇上優(yōu)先選取了國(guó)內(nèi)權(quán)威的防震減災(zāi)部門(mén)、科普機(jī)構(gòu)、政府、新聞媒體等官方網(wǎng)站，以保證爬取信息的準(zhǔn)確性；其次，通過(guò)數(shù)據(jù)清洗技術(shù)將爬取信息做更進(jìn)一步的過(guò)濾、篩選，提高搜索內(nèi)容的相關(guān)性；最后，加入專(zhuān)家評(píng)判功能，用戶(hù)可通過(guò)向?qū)＜野l(fā)起信息咨詢(xún)確定資料的準(zhǔn)確性，從而提高平臺(tái)整體可靠性。

項(xiàng)目組通過(guò)開(kāi)源的輕量級(jí)壓力對(duì)平臺(tái)進(jìn)行測(cè)試，采用Jmeter工具測(cè)試平臺(tái)對(duì)用戶(hù)并發(fā)訪問(wèn)的承載能力。多次模擬并發(fā)量為3 000個(gè)用戶(hù)時(shí)，請(qǐng)求響應(yīng)平均耗時(shí)在300 ms左右，錯(cuò)誤率為0；當(dāng)并發(fā)量為4 000個(gè)用戶(hù)時(shí)，請(qǐng)求平均耗時(shí)400 m左右，錯(cuò)誤率接近30%。圖12與圖13分別是并發(fā)量為3 000和4 000時(shí)的測(cè)試結(jié)果。

在提高平臺(tái)搜索精度與效率方面，在全文檢索的過(guò)程中，搜索精度按照分類(lèi)檢索和文件類(lèi)型檢索2種方式，采用全字段匹配進(jìn)行精確查找，搜索結(jié)果精確度可達(dá)100%；而關(guān)鍵詞檢索是基于底層倒排索引及TFIDF算法進(jìn)行相似度運(yùn)算，全文檢索結(jié)果的精確度亦可達(dá)100%，全文檢索從發(fā)送請(qǐng)求至返回結(jié)果的平均響應(yīng)效率為835 ms/次（圖14）。

圖 12 并發(fā)量為3 000時(shí)的測(cè)試結(jié)果

圖 13 并發(fā)量為4 000時(shí)的測(cè)試結(jié)果

圖 14 Jmeter工具測(cè)試全文搜索效率

3 結(jié)語(yǔ)

隨著信息化時(shí)代的到來(lái)，信息數(shù)據(jù)的重要性愈發(fā)突顯，防震減災(zāi)科普教育資源亟需有效整合、管理，提高科普資源科學(xué)性和創(chuàng)新科普宣傳方式、方法。本文提出并設(shè)計(jì)了防震減災(zāi)科普資源搜索指標(biāo)，以此為基礎(chǔ)通過(guò)數(shù)據(jù)挖掘技術(shù)建立了防震減災(zāi)科普資源管理平臺(tái)。該平臺(tái)主要實(shí)現(xiàn)了信息檢索、收藏、上傳、下載等功能，可用于支持科普?qǐng)鲳^、學(xué)校和相關(guān)部門(mén)了解防震減災(zāi)科普宣傳工作相關(guān)信息，確定科普宣傳主題，更快速地收集所需素材，并將其制作成宣傳資料，協(xié)助開(kāi)展科普宣傳工作。為滿(mǎn)足海量數(shù)據(jù)的篩選、分類(lèi)、搜索等管理要求，本文主要采用了網(wǎng)絡(luò)爬蟲(chóng)、IKAnalyzer中文分詞、VSM算法、倒排索引等技術(shù)，實(shí)現(xiàn)防震減災(zāi)科普資源的科學(xué)管理。

下一步，項(xiàng)目組繼續(xù)優(yōu)化系統(tǒng)功能與平臺(tái)承載能力，降低多用戶(hù)訪問(wèn)時(shí)的出錯(cuò)率。同時(shí)，為了提高科普資源庫(kù)的利用率和科普資源的高效分類(lèi)，計(jì)劃采用神經(jīng)網(wǎng)絡(luò)技術(shù)優(yōu)化資源分類(lèi)目錄，并結(jié)合用戶(hù)對(duì)科普資源關(guān)鍵詞的搜索頻次，實(shí)現(xiàn)科普資源的智能化推送，完善資源庫(kù)功能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡