国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞嵌入和BiLCNN-Attention混合模型的政務文本分類方法

2023-06-15 08:49胡文燁許鴻奎郭旭斌趙京政
計算機時代 2023年6期
關鍵詞:注意力機制卷積神經網(wǎng)絡

胡文燁 許鴻奎 郭旭斌 趙京政

摘? 要: 針對政務文本分析語境復雜、分類準確率低的問題,提出基于BERT詞嵌入和BiLCNN-Attention混合模型的文本分類方法。首先采用BERT模型對政務文本進行詞嵌入向量表示,然后混合使用雙向長短時記憶網(wǎng)絡BiLSTM和卷積神經網(wǎng)絡CNN,同時引入注意力機制進行特征提取,融合了時序特征及局部特征并使特征得到強化,最后使用Softmax進行文本分類。實驗表明,BERT詞嵌入處理后混合模型的準確率較CNN和BiLSTM模型分別提升了3.9%和2.51%。

關鍵詞: 政務文本分析; 詞嵌入; 雙向長短時記憶網(wǎng)絡; 卷積神經網(wǎng)絡; 注意力機制

中圖分類號:TP391.1? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2023)06-92-05

Method of government text classification based on word embedding

and BiLCNN-Attention hybrid model

Hu Wenye1, Xu Hongkui1,2, Guo Xubin1, Zhao Jingzheng1

(1. School of Information and Electrical Engineering, Jinan, Shandong 250000, China;

2. Shandong Provincial Key Laboratory of Intelligent Buildings Technology)

Abstract: Aiming at the problems of complex context and low classification accuracy of government texts, a text classification method based on BERT word embedding and BiLCNN-Attention hybrid model is proposed. Firstly, the BERT model is used to represent the word embedding vector of the government text. Then, BiLSTM and CNN are mixed, and the attention mechanism is introduced for feature extraction. The timing features and local features are integrated and strengthened. Finally, Softmax is used for text classification. Experiments show that the accuracy of the hybrid model after BERT word embedding is improved by 3.9% and 2.51% compared with CNN and BiLSTM models, respectively.

Key words: analysis of government texts; word embedding; bi-directional long and short-term memory (BiLSTM); convolutional neural network (CNN); attention mechanism

0 引言

信息技術的快速發(fā)展為各行業(yè)發(fā)展注入了新的活力。隨著電子政務由信息化向智慧化轉變,文本分類技術作為能夠加速政務工單審批、提高互動效率的可行途徑之一,逐漸受到了廣泛認可和關注[1]。

文本分類研究始于二十世紀五十年代[2],其方法主要包括機器學習算法和深度學習算法[3],機器學習算法如樸素貝葉斯、支持向量機等,深度學習算法如卷積神經網(wǎng)絡、循環(huán)神經網(wǎng)絡等。政務文本分析語境,其復雜性所導致的數(shù)據(jù)與算法匹配不充分問題是文本分類的一個難點。要提高文本分類準確性,分類模型構建、詞嵌入表示及特征提取是重要環(huán)節(jié)。分類模型需根據(jù)研究場景調整,文本詞嵌入在很大程度上決定了后續(xù)任務的整體性能,基于數(shù)據(jù)挖掘的特征提取可以構建數(shù)學模型,以解決傳統(tǒng)二進制表示[4]方法應用時維度災難的問題。本文采用BERT模型作為詞嵌入表示,提出了BiLCNN-Attention混合神經網(wǎng)絡,實現(xiàn)對政務文本分類效果的提升。

1 相關研究

政務文本分類場景使用神經網(wǎng)絡模型可自動提取特征并進行文本分類,而文本詞嵌入表示是提高模型效果的方法之一。2003年Bengio等人[5]提出了詞向量的概念,之后Collobert和Weston里程碑式的引入了神經網(wǎng)絡模型結構[6],2013年Tomas Mikolov[7]等提出word2vec,2018年ELMo模型[8]和BERT[9]模型相繼被提出。應用方面,文獻[10-11]實現(xiàn)了BERT模型在政民互動留言的分類,文獻[12]采用融合BERT和注意力機制的方法進行中文文本分類研究,文獻[13]將BERT與BiLSTM算法結合進行命名實體識別。

在CNN的應用發(fā)展中,2008年Collobert和Weston[14]率先提出了CNNs,2014年Kim Yoon[15]提出TextCNN模型用于文本分類。RNN也用于文本分類,并衍生出了長短期記憶網(wǎng)絡LSTM,在中文文本分類上取得了較好結果。文獻[16-17]均采用CNN與LSTM模型結合的方式提高文本分類任務的準確性,文獻[18-19]融入了注意力機制,以更好的捕捉文本數(shù)據(jù)中的局部信息。

2 BERT詞嵌入和BiLCNN-Attention混合神經網(wǎng)絡模型

2.1 BERT+BiLCNN-Attention模型

BERT+BiLCNN-Attention模型結構如圖1所示。圖1中,預處理后的政務文本數(shù)據(jù)作為輸入,利用BERT模型進行詞嵌入表示,而后輸入BiLCNN-Attention混合神經網(wǎng)絡中進行特征提取和學習并融合,經過Softmax層進行分類結果預測,輸出模型識別結果。

2.2 BERT詞嵌入模型

BERT作為動態(tài)詞嵌入模型的典型代表,既可以直接進行文本分類,也可以作為詞嵌入層處理文本數(shù)據(jù)。BERT模型架構如圖2所示,它可以共同調節(jié)left-to-right和right-to-left的transformer,并通過將預訓練模型和下游任務模型結合在一起,更注重于識別句子中單詞之間或句子之間的關系,使整體性能大大提升。

BERT詞嵌入的本質是運用自監(jiān)督的方法進行特征學習,并給目標單詞或句子賦予特征表示。經過BERT模型處理后的詞向量由三種不同向量求和而成,包括Token Embeddings、Segment Embeddings、Position Embeddings。按元素相加后得到(1,n,768)的合成表示,句向量之間的分隔以[CLS]作為開頭標記,[SEP]作為結尾標記,加入向量表示結果中即為詞嵌入層的編碼結果。

2.3 BiLCNN-Attention混合神經網(wǎng)絡

詞嵌入表示后的向量經過BiLSTM和CNN處理形成特征向量,再引入Attention機制進行參數(shù)優(yōu)化以提高模型的擬合能力,而后進行特征融合,最后經由sofmax層得到分類預測結果。圖3為BiLCNN-Attention混合神經網(wǎng)絡結構圖。

2.3.1 BiLSTM模型

原始RNN在訓練時容易出現(xiàn)梯度爆炸或梯度消失的問題,因此不能處理距離較遠的序列數(shù)據(jù),而LSTM能夠克服這一問題。LSTM通過控制細胞狀態(tài)對信息進行讀取、寫入和刪除操作,其核心結構如圖4所示。

LSTM細胞由輸入門、遺忘門、輸出門和單元狀態(tài)組成。其中輸入門決定當前時刻輸入數(shù)據(jù)量[Ct],遺忘門決定上一時刻需要保留的狀態(tài)量[Ct-1],輸出門控制輸出量。以[ht-1]代表上一時刻輸出,[xt]代表當前時刻輸入,[Vt]代表當前時刻暫時狀態(tài),[ht]代表最終輸出,其工作過程如式⑴~式⑹所示。

[ft=σWf?ht-1,xt+bf]? ⑴

[it=σWx?ht-1,xt+bi]? ⑵

[Vt=tanhWc?ht-1,xt+bc]? ⑶

[Ct=ft*Ct-1+it*Vt]? ⑷

[Ot=σWo?ht-1,xt+bo]? ⑸

[ht=Ot*tanhCt]? ⑹

其中,[W]、[b]分別表示單元的權重向量和偏置值,[σ?]表示sigmoid激活函數(shù),[tanh]表示雙曲正切激活函數(shù)。

為了在特征提取中兼顧過去和未來時刻的序列信息,Graves等人[20]提出BiLSTM模型。BiLSTM模型由前向和后向的兩個LSTM疊加構成,可以更好的捕捉雙向的語義依賴。在某一時刻[i],BiLSTM的輸出向量為前向和后向的向量按位加和操作結果,如式⑺表示:

[hi=hi⊕hi]? ⑺

2.3.2 CNN模型

CNN的核心結構包括輸入層、卷積層、池化層以及全連接層。詞向量輸入CNN模型時工作過程如下。

對于輸入序列輸入序列[S=t1,…,tn],[S∈Rd×n],其中,[ti]為詞向量,[n]為詞向量數(shù)量,[d]為詞向量的維數(shù)。設置卷積核[K]進行卷積操作[S∈Rd×h],[h]為卷積窗口取詞數(shù),則利用卷積核[K]對輸入序列[S]的卷積運算及池化運算如式⑻-式⑼表示:

[Ci=tanh+b]? ⑻

[yi=maxiCi]? ⑼

其中,[yi]為池化計算得到的向量結果,[yi∈R]。當選擇不同尺度卷積核進行卷積計算時,將[yi]進行向量合并,得到最終運算結果。利用這種方式進行卷積計算,可以更好的表征政務文本數(shù)據(jù)的特征。

2.3.3 Attention機制

注意力模型在訓練過程中將計算每個單詞的權重系數(shù),計算過程如式⑽~式⑿所示:

[ei=tanh(hi)]? ⑽

[αi=Softmax(wTiei)]? ⑾

[yi=hiαTi]? ?⑿

其中,[hi]為特征提取層的模型輸出,[αi]為注意力權重系數(shù),[wi]為權重矩陣,[yi]為注意力機制的輸出。

本文聯(lián)合使用BiLSTM及CNN神經網(wǎng)絡建立語義向量信息,在特征提取層的輸出端引入Attention機制,突顯語義信息與上下文之間的關聯(lián)性,有效增強語義信息的特征表達,從而提升模型分類性能。

3 實驗

3.1 實驗環(huán)境

實驗基于Windows10操作系統(tǒng),CPU為Intel(R) Core(TM) i5-10300H CPU@2.50 GHz,內存容量為16GB,GPU為NVIDIA GeForce GTX 1650,Python版本為3.7,Pytorch版本為1.5。

3.2 實驗數(shù)據(jù)

實驗數(shù)據(jù)來自政務熱線系統(tǒng)脫敏數(shù)據(jù),原始數(shù)據(jù)量123277條。文本類型按照政務事件處理部門進行直接劃分,類型標簽包含城管、交警、供電公司、管委會、熱電、民政、消防、林業(yè)等90個政務部門。原始數(shù)據(jù)采用隨機劃分的方式,將每個標簽對應的數(shù)據(jù)以8:1:1的比例劃分為訓練集、驗證集、測試集。使用訓練集作為模型訓練數(shù)據(jù),使用驗證集在訓練過程中評價模型性能,使用測試集在訓練完成后評價模型性能。

3.3 實驗評價指標

實驗過程中,模型性能評價指標為準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1分數(shù),其中統(tǒng)計全類別精確率、召回率、F1分數(shù)的方法為macro方法。

3.4 實驗設置

在綜合考慮實驗中的準確率與過擬合因素后,實驗參數(shù)設置方面使用Adam優(yōu)化器,詞嵌入向量維度設置768,epoch參數(shù)設置20,學習率設置1e-5。

3.5 實驗結果與分析

選擇不同的詞嵌入方式和不同的特征提取方法進行對比實驗,實驗結果如表1所示。

⑴ 在詞嵌入層上BERT模型具有明顯的性能優(yōu)勢,各項性能指標明顯高于word2vec,在與CNN、RNN/BiLSTM進行融合時,BERT+CNN的準確率比word2vec+CNN高1.71%,BERT+BiLSTM的準確率比word2vec+RNN高1.81%。

⑵ 在單一特征提取模型處理上,RNN/BiLSTM模型的處理效果優(yōu)于CNN模型,更適合處理政務文本分類任務。

⑶ BERT+BiLCNN模型準確率相較于BERT+CNN模型和BERT+BiLSTM模型分別提升了2.50%、1.11%。可見,混合神經網(wǎng)絡BiLCNN融合了BiLSTM以及CNN的特征和優(yōu)點,使得特征向量表示信息更加豐富。

⑷ BERT+BiLCNN+Attention模型相較BERT+CNN、BERT+BiLSTM以及BERT+BiLCNN模型準確率提升了3.9%、2.51%和1.4%,注意力機制的加入使得重點特征更加突出,類別間特征區(qū)分更加明顯。

4 總結

本文基于實際應用中政務熱線系統(tǒng)脫敏數(shù)據(jù)進行文本分類分析,提出了詞嵌入和BiLCNN-Attention混合神經網(wǎng)絡的文本分類方法。實驗結果表明,BERT模型相較于word2vec模型表現(xiàn)出明顯的性能優(yōu)勢,BiLCNN-Attention混合神經網(wǎng)絡能夠融合多方優(yōu)點,在特征向量表示上更加豐富,各項評價指標都有所提升。

參考文獻(References):

[1] 陳思琪.基于深度學習的電子政務文本分類算法研究[D].

碩士,西安電子科技大學,2021

[2] 畢云杉.基于深度學習的中文文本分類研究[D].碩士,浙江

科技學院,2021

[3] 賈澎濤,孫煒.基于深度學習的文本分類綜述[J].計算機與

現(xiàn)代化,2021(7):29-37

[4] 李炳臻,劉克,顧佼佼,等.卷積神經網(wǎng)絡研究綜述[J].計算機

時代,2021(4):8-12,17

[5] Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C.

(2003). A neural probabilistic language model. Journal of machine learning research,2003,3(Feb):1137-1155

[6] Collobert, R., & Weston, J. (2008). A unified architecture

for natural language processing. In Proceedings of the 25th International Conference on Machine Learning (pp. 160-167)

[7] Mikolov T, Chen K, Corrado G, et al. Efficient estimation

of word representations in vector space[J].arXiv preprint arXiv:1301.3781,2013

[8] Peters M, Neumann M, Iyyer M, et al. Deep Contextualized

Word Representations[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers),2018

[9] Devlin J, hang Mingwei, ee K, et al. BERT: Pre-training of

eep Bidirectional Transformers for Language Understanding[J]. 2018

[10] 茶麗菊.基于深度學習的政民互動留言文本分類研究[D].

碩士,東華大學,2022

[11] 范昊,何灝.融合上下文特征和BERT詞嵌入的新聞標題分

類研究[J].情報科學,2022,40(6):90-97

[12] 孫紅,陳強越.融合BERT詞嵌入和注意力機制的中文文本

分類[J].小型微型計算機系統(tǒng),2022,43(1):22-26

[13] 胡為,劉偉,石玉敬.基于BERT-BiLSTM-CRF的中醫(yī)醫(yī)案

命名實體識別方法[J].計算機時代,2022(9):119-122,135

[14] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural

language processing (almost) from scratch[J]. Journal of machine learning research,2011,12(1):2493-2537

[15] YOON KIM. Convolutional Neural Networks for

Sentence Classification[C]. //Conference on empirical methods in natural language processing, (EMNLP 2014),25-29 October 2014, Doha,Qatar:Association for Computational Linguistics,2014:1746-1751

[16] 馬正奇,呼嘉明,龍銘,等.運用CNN-LSTM混合模型的短

文本分類[J].空軍預警學院學報,2019,33(4):295-297,302

[17] 王星峰.基于CNN和LSTM的智能文本分類[J].遼東學院

學報(自然科學版),2019,26(2):126-132

[18] 趙云山,段友祥.基于Attention機制的卷積神經網(wǎng)絡文本

分類模型[J].應用科學學報,2019,37(4):541-550

[19] 汪嘉偉,楊煦晨,琚生根,等.基于卷積神經網(wǎng)絡和自注意力

機制的文本分類模型[J].四川大學學報(自然科學版),2020,57(3):469-475

[20] Graves A, Schmidhuber J. Framewise phoneme classifi-

cation with bidirectional LSTM and other neural network architectures. Neural Networks,2005,18(5-6):602-610

猜你喜歡
注意力機制卷積神經網(wǎng)絡
面向短文本的網(wǎng)絡輿情話題
基于自注意力與動態(tài)路由的文本建模方法
基于深度學習的問題回答技術研究
基于LSTM?Attention神經網(wǎng)絡的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
InsunKBQA:一個基于知識庫的問答系統(tǒng)
基于卷積神經網(wǎng)絡溫室智能大棚監(jiān)控系統(tǒng)的研究
基于深度卷積神經網(wǎng)絡的物體識別算法
深度學習算法應用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)