国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Att-CN-BiLSTM模型的中文新聞文本分類

2022-12-20 06:02:38阮進(jìn)軍
關(guān)鍵詞:注意力準(zhǔn)確率卷積

阮進(jìn)軍,楊 萍

近年來隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)信息量呈現(xiàn)爆發(fā)式增長,預(yù)計(jì)2025年全球數(shù)據(jù)總量將會達(dá)到175 ZB[1].截至2020年12月,中國的互聯(lián)網(wǎng)普及率達(dá)到了70.4%,其中網(wǎng)絡(luò)新聞用戶有7.43 億人[2].為了讓用戶能從海量新聞數(shù)據(jù)中高效獲取對自己有價(jià)值的信息,最常用的做法是采用文本分類技術(shù),根據(jù)實(shí)際需求將相應(yīng)類別的新聞推薦給用戶.但是網(wǎng)絡(luò)新聞涉及的內(nèi)容繁多,中文文本的構(gòu)詞方式比英文復(fù)雜,導(dǎo)致中文新聞文本的詞語特征維度非常大,傳統(tǒng)文本分類方法已經(jīng)不能很好地解決中文新聞文本分類問題.

1 相關(guān)工作

傳統(tǒng)機(jī)器學(xué)習(xí)算法由于需要人工經(jīng)驗(yàn)標(biāo)注原始數(shù)據(jù)樣本特征,在小型數(shù)據(jù)集上的文本分類效果較好,但在面對海量的互聯(lián)網(wǎng)新聞文本信息時數(shù)據(jù)處理性能不佳.近年來,很多學(xué)者將深度學(xué)習(xí)算法應(yīng)用于文本信息處理,獲得了較好的效果.2013年,MIKOLOV 等[3]開發(fā)的Word2Vec 模型,采用CBOW 和Skip-gram框架將高維數(shù)據(jù)嵌入到一個低維空間,優(yōu)化了文本詞向量提取流程.2014年,KIM[4]提出的TextCNN 模型通過設(shè)置不同權(quán)重的卷積核提取文本原始特征,并使用最大池化獲得了短語局部特征.SCHUSTER 等[5]設(shè)計(jì)了雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM),優(yōu)化了模型提取文本前后時序特征的性能.近年來由于注意力(Attention)機(jī)制[6]可以從眾多文本信息中挑選出與當(dāng)前任務(wù)最相關(guān)的語義特征,在文本分類任務(wù)中得到較廣泛的應(yīng)用.胡甜甜等[7]利用注意力機(jī)制改造BiLSTM 模型,提高了模型對文本重要特征的提取能力.楊秀璋等[8]提出一種基于BiLSTM-CNN 的短文本分類方法,通過CNN 卷積層和池化層提取詞向量局部特征,再利用BiLSTM 和注意力機(jī)制提取語義時序特征,提升了短文本分類效果.滕金保等[9]提出一種基于混合LSTM-Attention與CNN 的文本分類方法,將LSTM-Attention 與CNN 相結(jié)合,提高了文本語義特征提取效率.

為了進(jìn)一步提升文本分類效果,本文在上述研究基礎(chǔ)上提出基于注意力機(jī)制的Att-CN-BiLSTM 中文新聞分類模型.模型首先將中文新聞文本訓(xùn)練成連續(xù)詞向量(本文采用Word2Vec 模型的Skip-gram 框架),然后分別利用CNN 和BiLSTM 獲取文本語義特征,再將CNN 層和BiLSTM 層輸出作為Attention 層的輸入,通過計(jì)算注意力分值,有效融合了CNN 層和BiLSTM 層提取的新聞文本局部特征和前后時序特征,提升了模型中文新聞文本的分類準(zhǔn)確率.

2 Att-CN-BiLSTM 模型

本文提出的基于注意力機(jī)制的Att-CNBiLSTM 模型主要包含詞向量輸入層、三個Block 塊和全連接層,其中每個Block 塊均由CNN 卷積層、BiLSTM 層、Attention 層構(gòu)成,模型結(jié)構(gòu)如圖1所示.

圖1 Att-CN-BiLSTM 模型

2.1 詞向量輸入層

詞向量輸入層的主要任務(wù)包含數(shù)據(jù)預(yù)處理和文本向量化.數(shù)據(jù)預(yù)處理階段首先是去除文本中不規(guī)范數(shù)據(jù),再對中文文本進(jìn)行分詞操作,最后去除沒有實(shí)際意義但又頻繁出現(xiàn)的停用詞.文本向量化階段使用Word2Vec的Skip-Gram 模型訓(xùn)練連續(xù)詞向量,計(jì)算公式為:

2.2 CNN 卷積層

CNN 通常由若干個卷積層、池化層和全連接層組成,池化層不僅可以壓縮提取主要特征還減少了網(wǎng)絡(luò)計(jì)算參數(shù),但同時也會破壞卷積特征圖中隱含的其他信息.因此本文設(shè)計(jì)的CNN 層只設(shè)置了卷積操作,具體過程如下:

首先卷積層接收來自詞向量輸入層的一個k維的詞向量Rk,假設(shè)Wi是其中第i個詞向量,則一個長度為n的文本T可以表示為所有詞向量的連接,即T=(x1⊕x2⊕…⊕xn),其中⊕是連接運(yùn)算符.

隨后卷積層利用256 個h×k的卷積核(表示為t∈Rhk)進(jìn)行卷積運(yùn)算.其中h是卷積核的高度(本文設(shè)為7),k是卷積核的寬度(需要和詞向量維度保持一致,本文設(shè)為128).卷積過程中如果用xi:i+h-1表示輸入的第i個到第i+h-1 個窗口詞向量矩陣,那么由xi:i+h-1提取的一個特征yi可以表示為:

式中:W表示卷積操作權(quán)值矩陣(h×k維),b表示偏置項(xiàng),f是非線性的激活函數(shù),本文采用ReLU 函數(shù).最終卷積得到的文本短語特征表示為:

2.3 BiLSTM 層

卷積操作可以提取相鄰詞向量之間的局部特征關(guān)系,但是難以處理文本前后時序關(guān)系,單獨(dú)使用CNN 卷積模型進(jìn)行文本分類效果不佳,因此本文設(shè)計(jì)的Att-CN-BiLSTM 模型將CNN 和BiLSTM 相結(jié)合,充分發(fā)揮兩種模型優(yōu)點(diǎn),提升文本特征提取效果.BiLSTM 由正向LSTM 和逆向LSTM 組成,每個LSTM 的神經(jīng)元都有三個輸入信息,LSTM 單元結(jié)構(gòu)如圖2所示.

圖2 LSTM 單元結(jié)構(gòu)

圖2中LSTM 單元主要包括輸入門it、遺忘門ft和輸出門Ot,若當(dāng)前時刻為t,LSTM 計(jì)算公式如下所示:

式中:xt表示t時刻的輸入,σ代表Sigmod 函數(shù),tanh 代表雙曲正切函數(shù),ht是t時刻的輸出向量.LSTM 每個神經(jīng)元都通過“逐元素運(yùn)算”和“激活運(yùn)算”,選擇和傳遞狀態(tài)中有用的信息.由于LSTM 只能提取從前往后的文本前后時序特征,因此缺失了文本從后往前的時序特征.在文本分類任務(wù)中每時刻詞語特征與該時刻的輸入,以及上下文語境都相關(guān),必須考慮當(dāng)前詞語前后兩個方面的狀態(tài)關(guān)系.因此本文選擇BiLSTM 替代LSTM 模型,在每一個t時刻都要對文本序列進(jìn)行從前往后的正向處理hL和從后往前的逆向處理hR,t時刻的BiLSTM 輸出為:

2.4 Attention 層

利用注意力機(jī)制可以從眾多特征中挑選出最重要的語義特征.本文通過計(jì)算CNN 層和BiLSTM 層輸出的注意力分值,有效融合了CNN 層和BiLSTM 層提取的新聞文本語義特征.具體方法是首先根據(jù)式(6)計(jì)算CNN 卷積結(jié)果yi和BiLSTM 輸出特征ht的余弦相似度Si,再根據(jù)式(7)利用Si計(jì)算注意力機(jī)制對應(yīng)的權(quán)重值αi,最后根據(jù)式(8)利用αi計(jì)算得到融合后的文本特征向量v.

2.5 全連接層

模型通過堆疊3 層Block 完成文本語義特征提取后,將Block3 的輸出特征向量v傳遞到全連接層,最后由Softmax 層輸出類別標(biāo)簽的概率分布,其中概率值最大的類別標(biāo)簽就是模型預(yù)測結(jié)果,定義如下:

式中:W是參數(shù)矩陣,b是偏置值.

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)

本文實(shí)驗(yàn)環(huán)境采用64 位Windows10 操作系統(tǒng),Core(TM)i7-7700K 4.20 GHz,NVIDIA GeForce RTX 2080Ti,16 GB 內(nèi)存,11 GB 顯存,編程語言選擇Python3.8,深度學(xué)習(xí)框架為TensorFlow2.6.

本文實(shí)驗(yàn)數(shù)據(jù)集采用清華大學(xué)自然語言處理實(shí)驗(yàn)室推出的新浪中文新聞THUCnews數(shù)據(jù)集子集,數(shù)據(jù)集中有10 個新聞類別,共計(jì)65 000 條新聞數(shù)據(jù),實(shí)驗(yàn)隨機(jī)選擇其中50 000條作為訓(xùn)練集,10 000 條作為驗(yàn)證集、剩余的5 000 條作為測試集.

3.2 參數(shù)設(shè)置

本文提出的Att-CN-BiLSTM 模型訓(xùn)練采用mini-batch 梯度下降法,每個批次為128.參數(shù)設(shè)置如表1所示.

表1 參數(shù)設(shè)置

3.3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)評判標(biāo)準(zhǔn)采用分類任務(wù)中常用的準(zhǔn)確率、精確率、召回率和F1 值.為了測試本文提出的Att-CN-BiLSTM 模型分類性能,將其與TextCNN、BiLSTM、Att-BiLSTM、BiLSTM-CNN 和MLACNN 模型進(jìn)行對比實(shí)驗(yàn).各模型的實(shí)驗(yàn)結(jié)果如表2所示.

表2 模型實(shí)驗(yàn)結(jié)果對比

分析對比表2數(shù)據(jù)可以發(fā)現(xiàn),Att-CN-BiLSTM 模型的文本分類實(shí)驗(yàn)結(jié)果數(shù)據(jù)最優(yōu)秀.相較于TextCNN、BiLSTM 和Att-BiLSTM,模型文本分類準(zhǔn)確率分別提升了8.2%、3.5% 和3.1%.Att-CN-BiLSTM 通過計(jì)算注意力分值,實(shí)現(xiàn)了對CNN 和BiLSTM 提取新聞文本語義特征的有效融合,文本分類準(zhǔn)確率明顯優(yōu)于采用單一模型的TextCNN 和BiLSTM,此外Att-BiLSTM 由于采用注意力機(jī)制增強(qiáng)了模型對詞義中間特征重要程度的辨別,緩解了詞義特征錯誤丟棄現(xiàn)象,與單一BiLSTM 模型相比文本分類效果更好,這表明注意力機(jī)制獲取與當(dāng)前任務(wù)相關(guān)的重要特征能力在文本分類任務(wù)中是有效的.Att-CN-BiLSTM 相較于同樣采用CNN 和BiLSTM 混合模型結(jié)構(gòu)的BiLSTM-CNN 和MLACNN,文本分類準(zhǔn)確率分別提升了2.8%和2.7%.主要原因是BiLSTM-CNN模型將CNN 卷積結(jié)果輸出到最大池化層壓縮特征,丟失了文本原始信息的部分關(guān)鍵信息.MLACN 混合模型將數(shù)據(jù)同時輸入到CNN 和BiLSTM 層后,再對兩個模型的輸出做了簡單拼接處理,沒有通過注意力機(jī)制實(shí)現(xiàn)兩個模型的有效融合,導(dǎo)致文本語義特征提取不完善.從表2可以看出,Att-CN-BiLSTM 模型不僅文本分類準(zhǔn)確率高于所有對比模型,其他性能指標(biāo)也很優(yōu)異.模型與分類效果較好的MLACNN 相比,精確率、召回率和F1 值分別提升了2.6%、2.7%和2.6%,進(jìn)一步驗(yàn)證了Att-CN-BiLSTM 模型具備良好的文本分類效果.

為了進(jìn)一步分析不同分類模型之間的差異,本文對各個模型的訓(xùn)練過程做進(jìn)一步的探究,得出了各模型在訓(xùn)練集和驗(yàn)證集上的訓(xùn)練準(zhǔn)確率和損失,如圖3~圖6所示.

圖3 模型訓(xùn)練集準(zhǔn)確率

圖4 模型驗(yàn)證集準(zhǔn)確率

圖5 模型訓(xùn)練集損失

圖6 模型驗(yàn)證集損失

由圖3~圖6可以看出.由于采用梯度下降和Adam 優(yōu)化算法,實(shí)驗(yàn)?zāi)P驮谟?xùn)練集上的訓(xùn)練速率都很高,損失收斂的速度也很快.但是大部分模型在訓(xùn)練集和驗(yàn)證集上的準(zhǔn)確率差異較大,在訓(xùn)練第10 個周期附近,除本文提出的Att-CN-BiLSTM 模型外,所有模型的驗(yàn)證集損失都出現(xiàn)了較大幅度增長,這表明隨著訓(xùn)練迭代次數(shù)的增加大多數(shù)對比模型都出現(xiàn)了過擬合.由此可見,Att-CN-BiLSTM 模型對比其他模型在中文新聞文本分類方面具有更好的有效性和泛化能力.

4 結(jié)語

本文提出一種基于Att-CN-BiLSTM 模型的中文新聞分類方法,該方法首先利用Word2Vec 將文本詞向量訓(xùn)練成連續(xù)的詞向量表示,再多次使用包含CNN 卷積層、BiLSTM層、Attention 層的Block 塊提取文本語義特征.由于模型采用注意力機(jī)制優(yōu)化了特征提取流程,大幅度提升了中文新聞文本分類的準(zhǔn)確率.通過與其他模型對比實(shí)驗(yàn),驗(yàn)證了Att-CN-BiLSTM 模型的優(yōu)越性,下一階段的研究工作是進(jìn)一步優(yōu)化模型結(jié)構(gòu),并應(yīng)用于其他新聞數(shù)據(jù)集,提升模型的適應(yīng)性.

猜你喜歡
注意力準(zhǔn)確率卷積
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
蕉岭县| 府谷县| 平阳县| 长沙市| 龙井市| 页游| 枣阳市| 威宁| 庆安县| 安阳县| 巴马| 西乌珠穆沁旗| 邛崃市| 都安| 定边县| 江安县| 汉川市| 武义县| 武安市| 临夏县| 平罗县| 鹤庆县| 抚州市| 中阳县| 增城市| 浦东新区| 农安县| 河曲县| 遵义市| 泸溪县| 车致| 九龙坡区| 安阳县| 广汉市| 北京市| 北票市| 横峰县| 平阴县| 基隆市| 广元市| 枞阳县|