国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

安全類文章的多文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2020-07-21 06:43:18吳習(xí)沫朱廣宇
關(guān)鍵詞:爬蟲分詞預(yù)處理

吳習(xí)沫,朱廣宇,張 雷

(華北計(jì)算機(jī)系統(tǒng)工程研究所,北京100083)

0 引言

互聯(lián)網(wǎng)已成為信息傳播的普遍途徑,然而,由于互聯(lián)網(wǎng)中的冗余信息過多,各網(wǎng)站提供的標(biāo)簽沒有統(tǒng)一的分類標(biāo)準(zhǔn),使得整合某一特定類的文章信息所消耗的時(shí)間成本和人力成本增加。但目前為止,針對(duì)網(wǎng)絡(luò)安全類網(wǎng)站的技術(shù)類文章,還沒有一套系統(tǒng)能夠很好地解決上述對(duì)應(yīng)問題。

為迅速掌握最新的網(wǎng)絡(luò)安全信息,本文設(shè)計(jì)并實(shí)現(xiàn)了基于CNN和LSTM混合模型的安全類文章多文本分類系統(tǒng),該系統(tǒng)從多種來源收集安全類技術(shù)文本,并將它們以特定格式匯總,自動(dòng)標(biāo)記匯總后的文章內(nèi)容。就信息收集而言,系統(tǒng)主要采集近一年的安全類技術(shù)文本,收集的目標(biāo)內(nèi)容主要包括文章內(nèi)容和網(wǎng)頁(yè)自帶的標(biāo)簽,對(duì)于各網(wǎng)站自定義的文章標(biāo)簽,可作為多標(biāo)簽的一部分,供用戶參考。安全類文本與普通文本對(duì)比需要由多個(gè)標(biāo)簽對(duì)其進(jìn)行標(biāo)記分類處理。因此安全類文本的分類要難于普通文本分類處理。

面向網(wǎng)絡(luò)安全數(shù)據(jù)高并發(fā)的安全類網(wǎng)站,本文設(shè)計(jì)和實(shí)現(xiàn)了信息采集模塊,該模塊主要實(shí)現(xiàn)了基于Scrapy框架的分布式爬蟲程序設(shè)計(jì),完成了多個(gè)安全類網(wǎng)站技術(shù)類文章的文本信息數(shù)據(jù)采集。

本文設(shè)計(jì)并實(shí)現(xiàn)了信息分類模塊,它負(fù)責(zé)對(duì)所獲得的數(shù)據(jù)進(jìn)行預(yù)處理、文本表示以及文本分類,其中文本分類模塊具體提出了一種基于CNN和LSTM的混合分類模型,它綜合了CNN與LSTM的優(yōu)點(diǎn),提高了模型的特征提取能力。實(shí)驗(yàn)結(jié)果表明,基于CNN和LSTM的混合分類模型達(dá)到了比較高的準(zhǔn)確率,CNN和LSTM的混合模型的準(zhǔn)確率為91.99%。CNN-LSTM與CNN、LSTM相比分類準(zhǔn)確率提高了1.79%和1.54%。

1 相關(guān)工作

文本分詞是中文文本預(yù)處理過程中的一個(gè)重要環(huán)節(jié),分詞技術(shù)是把由字構(gòu)成的句子按語義劃分為由單詞組成的句子。由于網(wǎng)絡(luò)語言表現(xiàn)形式自由、語言不規(guī)范、內(nèi)容多樣化等特點(diǎn),傳統(tǒng)分詞算法難以充分提取特征,此外,網(wǎng)絡(luò)新詞的創(chuàng)造相對(duì)于傳統(tǒng)詞匯具有一定的變異性[1]。為了克服上述問題,本文應(yīng)用Bi-LSTM-CRF模型[2]對(duì)待分類文本進(jìn)行中文分詞。神經(jīng)網(wǎng)絡(luò)[3]通過自動(dòng)學(xué)習(xí)從樣本數(shù)據(jù)中提取文本特征,成功地克服了傳統(tǒng)人工提取方法的不足,具有廣泛的應(yīng)用范圍和廣泛的適用性。在自然語言處理方面谷歌提出的Word2Vec[4]算法在文本表示方面十分突出,該算法使得文本表示更加精準(zhǔn)而被廣泛使用,本文通過結(jié)合使用Word2Vec字向量和詞向量完成了中文文本的分詞和向量化表示。

HOCHREITER S等人[5]提出短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM),它是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)近期被AlexGraves進(jìn)行了改進(jìn)。LSTM模型一般用于多文本分類實(shí)驗(yàn),該模型的優(yōu)點(diǎn)是可以利用文本中的上下文信息和特征進(jìn)行非線性擬合,從而實(shí)現(xiàn)時(shí)間序列的處理和預(yù)測(cè)。基于該模型設(shè)計(jì)的系統(tǒng),已經(jīng)在聊天機(jī)器人、文檔摘要等相關(guān)領(lǐng)域被廣泛使用[6]。

KIM Y[7]首次將CNN模型應(yīng)用在了序列文本問題上,在效果上和LSTM模型互有所長(zhǎng),更多的研究發(fā)現(xiàn),CNN更擅長(zhǎng)提取數(shù)據(jù)不同尺度的局部相關(guān)特征,且在處理效率上相較于循環(huán)神經(jīng)網(wǎng)絡(luò)有大大提高。兩者單獨(dú)使用已經(jīng)在文本分類問題上取得一定效果。

Lai Siwei等[8]提出在文本分類問題中同時(shí)使用CNN和LSTM的混合模型,這兩種模型在文本分類中分別發(fā)揮了CNN模型和LSTM模型各自的優(yōu)勢(shì),故分類試驗(yàn)的準(zhǔn)確率將顯著高于兩種模型中任意一種單獨(dú)使用的準(zhǔn)確率。

2 系統(tǒng)設(shè)計(jì)

本系統(tǒng)包括圖1所示的兩個(gè)功能模塊:信息采集和信息分類。

圖1 系統(tǒng)組成圖

信息采集模塊包含爬蟲調(diào)度子模塊和安全類文章采集子模塊,實(shí)現(xiàn)了基于Scrapy框架對(duì)多個(gè)安全類網(wǎng)站進(jìn)行文本信息采集的相關(guān)功能。

信息分類模塊包括文本預(yù)處理及文本表示子模塊和基于LSTM-CNN模型的文本分類子模塊。

2.1 信息采集

信息采集模塊具體功能包括:獲取當(dāng)前爬蟲任務(wù)狀態(tài),對(duì)站點(diǎn)信息進(jìn)行更新和配置查詢模塊狀態(tài)從而進(jìn)行信息采集。

為實(shí)現(xiàn)該爬蟲的上述功能,如圖2所示,設(shè)計(jì)并實(shí)現(xiàn)了兩個(gè)交互頁(yè)面,分別是配置子頁(yè)面和爬蟲管理子頁(yè)面,其中頁(yè)面交互功能通過信息處理層和業(yè)務(wù)邏輯層實(shí)現(xiàn)。

圖2 爬蟲架構(gòu)圖

配置子頁(yè)面用于接收具體采集屬性信息,為便于后續(xù)消息預(yù)處理功能模塊解析,每類請(qǐng)求都有相應(yīng)的固定格式。該爬行器通過對(duì)子頁(yè)集群爬蟲的啟動(dòng)和停止進(jìn)行配置,從而實(shí)現(xiàn)了對(duì)集群爬行的實(shí)時(shí)動(dòng)態(tài)監(jiān)控。其中,Handler層的主要任務(wù)是驗(yàn)證和處理頁(yè)面發(fā)送的請(qǐng)求消息;MessagePression模塊通過自帶的計(jì)數(shù)器功能對(duì)爬蟲請(qǐng)求類型進(jìn)行計(jì)數(shù)分析處理;通過對(duì)文本信息的請(qǐng)求驗(yàn)證,將符合隊(duì)列信息的內(nèi)容放入到爬蟲請(qǐng)求隊(duì)列中,Redis的循環(huán)檢測(cè)是由Redisvisition功能模塊執(zhí)行相關(guān)的檢查處理,處理后啟動(dòng)響應(yīng)插件,以完成對(duì)請(qǐng)求的處理解析,增加Redis監(jiān)控?cái)?shù)量可以顯著提高請(qǐng)求響應(yīng)速度和可靠性[9]。

2.2 信息分類

本文提出的信息分類模塊主要包括文本預(yù)處理及文本表示子模塊和基于LSTM-CNN模型的文本分類子模塊,實(shí)現(xiàn)了三個(gè)主要功能:文本預(yù)處理,文本表示,訓(xùn)練分類模型。

2.2.1 文本預(yù)處理及文本表示

文本預(yù)處理包括文本清洗、分詞和文本表示。文本清洗主要有去停用詞,去除非文本符號(hào)等。分詞階段,本文使用了基于LSTM模型和字向量的的Bi-LSTM-CRF中文分詞模型[2]進(jìn)行分詞,通過對(duì)典型語料數(shù)據(jù)集的測(cè)試結(jié)果表明[10],對(duì)于未收錄詞的分詞準(zhǔn)確率,該模型明顯好于傳統(tǒng)的分詞方法。第二步結(jié)合Bi-LSTM-CRF的輸出結(jié)果,對(duì)中文文本進(jìn)行分詞和和索引化,并使用Word2Vec詞嵌入矩陣轉(zhuǎn)化為詞向量形式。詞向量為文本在高維空間的分布式表示,如圖3所示。文本向量化訓(xùn)練模型Word2Vec將文本中的每個(gè)單詞映射成一個(gè)固定維度的向量,這些單詞的向量組合到一起形成詞向量空間。

2.2.2 基于CNN和LSTM的文本分類

對(duì)于文本分類,若每一類的關(guān)鍵字確定、穩(wěn)定,使用正則匹配準(zhǔn)確率較高。然而,若文本分類界限無明顯區(qū)分,關(guān)鍵詞混淆、不明確,正則關(guān)鍵字匹配分類效果較差。本文的自動(dòng)化分類是基于深度學(xué)習(xí)的分類模型,采用基于CNN和LSTM的混合模型,對(duì)安全類文本進(jìn)行分類。利用K-MaxPooling方法提取更多的特征用于分類,在分類器層使用Softmax函數(shù)來計(jì)算每一類的概率?;贑NN和LSTM,本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)多文本分類模型,其總體結(jié)構(gòu)如圖4所示,模型分為9個(gè)層次:輸入層、Embedding層、雙向 LSTM層、拼接層、CNN層、K-MaxPooling層、全連接層、Softmax層、輸出層。

圖3 詞語向量化

第一層為輸入層,輸入經(jīng)過文本分詞和索引化后的文本序列。

第二層為Embedding層,作用是將輸入層傳遞來的數(shù)據(jù)中的每個(gè)數(shù)字索引轉(zhuǎn)化為對(duì)應(yīng)的詞向量[11]。

第三層為Bi-LSTM層,如圖5所示,主要負(fù)責(zé)提取句子向量的上下文信息。相較于單層的LSTM,增加了對(duì)語句逆向特征的提取能力。為了防止過擬合,結(jié)合使用了L2正則和dropout方法。

圖4 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)架構(gòu)圖

第四層為拼接層,函數(shù)主要用于拼接雙向LSTM層和Embedding層所輸出的特征向量和詞向量。在Embedding層中將LSTM層的特征向量與特征提取和原始向量相結(jié)合,可以使處理的文本更豐富,原始信息更完整。在CNN層中加入最終得到的信息,可以有效地提高CNN層次特征表達(dá)的能力。

第五層為卷積層,作用是通過卷積操作提取特征之間的局部特征。

第六層為K-MaxPooling層,主要從卷積層提取出多個(gè)最大特征值,即提取出最重要的最大特征值數(shù)量的信息。

第七層為全連接層,作用是特征降維。

第八層為分類器,通過Softmax函數(shù)將文本特征進(jìn)行類別分類。

第九層為輸出層,主要負(fù)責(zé)輸出結(jié)果數(shù)據(jù)。

3 實(shí)驗(yàn)分析

3.1 數(shù)據(jù)集

本實(shí)驗(yàn)數(shù)據(jù)集來源如表1所示,數(shù)據(jù)采集層采集多個(gè)安全類網(wǎng)站文本信息,采集內(nèi)容屬性具體包括:文章標(biāo)題、作者、文章具體內(nèi)容、原網(wǎng)頁(yè)自帶標(biāo)簽、文章發(fā)表日期。數(shù)據(jù)量為1萬條。標(biāo)注方式為人工標(biāo)注。

表1 數(shù)據(jù)集來源

3.2 基準(zhǔn)模型分類實(shí)驗(yàn)結(jié)果

如表2所示,文章內(nèi)容為采集模塊輸出的安全類文章的內(nèi)容,人工標(biāo)注的分類結(jié)果作為目標(biāo)分類結(jié)果,為CNN-LSTM模型分類結(jié)果。

表3所示為不同模型的實(shí)驗(yàn)結(jié)果,表格顯示CNN-LSTM模型比傳統(tǒng)的CNN、LST模型更準(zhǔn)確。

3.3 實(shí)驗(yàn)的參數(shù)設(shè)置

梯度更新采用動(dòng)量梯度下降算法,相比原始梯度下降算法,收斂速度更快,效果更好,公式如下:

實(shí)驗(yàn)使用Glove.Twitter.42B.300d向量作為英文詞向量表示,Glove.微博.300d向量作為中文字向量表示,相關(guān)主要超參數(shù)初始化如表4所示。

4 結(jié)論

圖5 BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)圖

表2 文本內(nèi)容及分類結(jié)果

表3 不同模型的實(shí)驗(yàn)結(jié)果對(duì)比

表4 實(shí)驗(yàn)主要超參數(shù)設(shè)置

本文設(shè)計(jì)并實(shí)現(xiàn)了安全類文章多文本分類系統(tǒng),主要包含信息采集模塊和信息分類模塊,首先通過信息采集模塊對(duì)安全類網(wǎng)站進(jìn)行大量的信息采集,將采集到的文本數(shù)據(jù)存入數(shù)據(jù)庫(kù),然后通過信息分類模塊對(duì)存入數(shù)據(jù)庫(kù)中的文本進(jìn)行了預(yù)處理及文本表示,具體包括數(shù)據(jù)清洗、文本分詞、文本表示等,將文本表示后得到的詞向量分別輸入CNN模型、LSTM模型和CNN-LSTM模型這3個(gè)文本分類模型進(jìn)行多文本分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,CNNLSTM混合模型的準(zhǔn)確率和F1值分別達(dá)到 91.99%和88.02%,均優(yōu)于CNN和LSTM模型。

猜你喜歡
爬蟲分詞預(yù)處理
利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
結(jié)巴分詞在詞云中的應(yīng)用
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
電子制作(2017年9期)2017-04-17 03:00:46
值得重視的分詞的特殊用法
淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
絡(luò)合萃取法預(yù)處理H酸廢水
基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
元谋县| 高雄县| 抚顺市| 临汾市| 兰州市| 海丰县| 木兰县| 房产| 乐清市| 县级市| 上栗县| 海南省| 湘西| 鸡东县| 新干县| 泉州市| 磐安县| 蓬安县| 都江堰市| 准格尔旗| 肥西县| 杭州市| 永定县| 临海市| 太和县| 都安| 扶沟县| 怀仁县| 保山市| 仙桃市| 北票市| 射洪县| 濉溪县| 紫金县| 财经| 凌海市| 鱼台县| 望城县| 江北区| 湘乡市| 湖南省|