劉景霞
(河南省駐馬店市上蔡縣衛(wèi)生計生監(jiān)督所,河南駐馬店 463800)
傳統(tǒng)電子檔案依靠人工分類,存在效率較低、易出錯等缺點(diǎn)[1-2],如何快速且準(zhǔn)確地區(qū)分檔案類型,是檔案管理急需解決的重要難題。
機(jī)器學(xué)習(xí)方法[3]無法確保提取特征的準(zhǔn)確性。文獻(xiàn)[4]采用FastText 模型對檔案進(jìn)行分類,文獻(xiàn)[5]提出了BERT-BiLSTM 模型,BiLSTM 缺乏對局部語義的學(xué)習(xí)。文獻(xiàn)[6]提出了BERT-CNN 模型,CNN 提取文本局部特征。文獻(xiàn)[7]提出了ERNIE2.0-BiLSTMAtt 模型,注意力[8]能有效提升分類性能。以上模型無法完整地捕捉檔案語義特征。
該文采用ALBERT 提取檔案文本動態(tài)詞向量、多通道特征網(wǎng)絡(luò)捕捉局部語義和序列特征,軟注意力負(fù)責(zé)識別關(guān)鍵特征。
融合ALBERT 與多通道特征網(wǎng)絡(luò)的檔案數(shù)據(jù)分類模型主要由ALBERT 預(yù)訓(xùn)練語言模型、多通道特征網(wǎng)絡(luò)二次語義提取、軟注意力機(jī)制和線性分類層構(gòu)成。模型整體結(jié)構(gòu)如圖1 所示。
圖1 模型整體結(jié)構(gòu)
對檔案數(shù)據(jù)文本進(jìn)行字符級別的分詞操作,由大規(guī)模語言模型ALBERT 提取檔案文本的動態(tài)詞向量表示,多通道特征網(wǎng)絡(luò)捕捉不同尺度下字、詞和短語級別的全局上下文特征,軟注意力計算每個特征對檔案分類結(jié)果的貢獻(xiàn)程度,識別出關(guān)鍵特征,線性分類層調(diào)整特征維度,由分類概率分布得出當(dāng)前批檔案樣本的標(biāo)簽。
預(yù)訓(xùn)練模型ALBERT[9]提出了多種降低參數(shù)量的策略和增強(qiáng)模型語義理解能力的預(yù)訓(xùn)練任務(wù)。采用段落連續(xù)性預(yù)訓(xùn)練任務(wù)替代下一句預(yù)測任務(wù),顯著提升下游多句子編碼任務(wù)的性能,提升模型對語料的建模能力。ALBERT 模型結(jié)構(gòu)如圖2 所示。
圖2 ALBERT模型結(jié)構(gòu)
E1,E2,…,Em為輸入向量,由字向量、位置向量和分割向量相加而成,相關(guān)計算過程如圖3 所示。
圖3 輸入向量構(gòu)成
經(jīng)多層Transform 編碼器動態(tài)語義學(xué)習(xí)后,得到文本特征矩陣T1,T2,…,Tm,Ti表示文檔案文本中第i個詞的向量表示。
多通道特征網(wǎng)絡(luò)由時間卷積網(wǎng)絡(luò)[10]模塊和多尺度卷積網(wǎng)絡(luò)構(gòu)成。多尺度卷積網(wǎng)絡(luò)通過設(shè)置不同尺寸的卷積核,捕獲字、詞和短語級別的局部語義特征。對ALBERT 模型輸出的動態(tài)特征表示T進(jìn)行卷積操作,為降低語義損失,不加入池化操作,得到新的特征表示ci。計算過程如式(1)-(2)所示。
其中,w為卷積核;b為偏置值;m為滑動窗口大?。?為卷積操作;f為非線性激活函數(shù)Relu();Ti:i+m-1表示T中第i到i+m-1 行詞向量。設(shè)置卷積核心為(2,3,4),卷積得到特征c2、c3和c4。
時間卷積網(wǎng)絡(luò)(TCN)相較于傳統(tǒng)循環(huán)網(wǎng)絡(luò)BiGRU[11]和BiLSTM[12],能避免循環(huán)依賴機(jī)制導(dǎo)致訓(xùn)練速度慢的問題,計算效率更高。TCN 由多個殘差塊連接而成,單個殘差塊則由膨脹因果卷積層、歸一化權(quán)重、激活函數(shù)ReLU 和Dropout 層構(gòu)成。膨脹因果卷積層確保從未來到過去沒有出現(xiàn)信息泄漏并構(gòu)建非常長的有效歷史大小。殘差連接是搭建TCN 深度網(wǎng)絡(luò)的關(guān)鍵前提,避免網(wǎng)絡(luò)隨深度增加產(chǎn)生退化現(xiàn)象。歸一化權(quán)重能夠加快收斂速度,降低模型訓(xùn)練成本。TCN 模型結(jié)構(gòu)如圖4 所示。
圖4 時間卷積模塊結(jié)構(gòu)
將卷積網(wǎng)絡(luò)得到的局部特征c2、c3、c4和原始文本語義向量T分別輸入到TCN 網(wǎng)絡(luò),經(jīng)上下文序列特征提取后得到多通道特征H,如式(3)所示。
將多通道時間卷積網(wǎng)絡(luò)TCN 輸出H送入軟注意力層計算每個特征注意力得分ai,加權(quán)求和后得到注意力特征A。相關(guān)計算過程如式(4)-(6)所示。
將注意力特征A通過線性層轉(zhuǎn)換到具體分類空間,Softmax 函數(shù)計算得到檔案類別概率分布Ps,取行最大值對應(yīng)的檔案類別標(biāo)簽作為分類結(jié)果。其過程如式(7)-(8)所示。
為驗(yàn)證該文模型在檔案數(shù)據(jù)文本自動分類任務(wù)上的有效性,采用復(fù)旦大學(xué)檔案文檔數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。由于數(shù)據(jù)存在類別不平衡現(xiàn)象,選取其中數(shù)量較多的五個類別檔案文本進(jìn)行實(shí)驗(yàn)。其中,檔案文本內(nèi)容作為訓(xùn)練內(nèi)容,分類標(biāo)簽用分隔符 進(jìn)行區(qū)分。采用五折交叉驗(yàn)證方法劃分訓(xùn)練集和測試集,將平均值作為最終實(shí)驗(yàn)結(jié)果,降低隨機(jī)誤差對結(jié)果造成影響。具體檔案各類別數(shù)量如表1 所示。
表1 檔案樣本數(shù)量
為客觀評價模型性能表現(xiàn),實(shí)驗(yàn)采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1 值作為評價指標(biāo),相關(guān)計算過程如式(9)-(12)所示。
其中,TP 代表樣本為正例且預(yù)測為正例,TN 代表樣本為負(fù)例且預(yù)測為負(fù)例,F(xiàn)N 代表樣本為正例但預(yù)測為負(fù)例,F(xiàn)P 代表樣本為負(fù)例但預(yù)測為正例。
深度學(xué)習(xí)模型訓(xùn)練需要耗費(fèi)大量的計算資源,因此需要配置高性能計算服務(wù)器。該文實(shí)驗(yàn)采用的軟硬件環(huán)境設(shè)置如表2 所示。
表2 軟硬件配置
模型綜合訓(xùn)練參數(shù)如表3 所示。Ranger 優(yōu)化器通過結(jié)合優(yōu)化策略RAdam[13]和LookAhead[14]兩者的優(yōu)勢,自適應(yīng)調(diào)整學(xué)習(xí)率的大小,并加快模型收斂速度,提升訓(xùn)練效果。
表3 綜合訓(xùn)練參數(shù)
模型訓(xùn)練參數(shù)設(shè)定的好壞影響著分類性能表現(xiàn),通過多次實(shí)驗(yàn)調(diào)整參數(shù)后得到最優(yōu)參數(shù)設(shè)定如下:ALBERT 預(yù)訓(xùn)練模型采用中文基礎(chǔ)版本,參數(shù)量大小為4 MByte,詞向量維度為768;TCN 膨脹系數(shù)為1,層數(shù)為2;注意力機(jī)制維度為256,全連接層神經(jīng)元數(shù)量為128個;多尺度卷積網(wǎng)絡(luò)卷積核數(shù)量為3個,特征圖數(shù)量為128 幅。
各模型實(shí)驗(yàn)結(jié)果如表4 所示。由表4 結(jié)果可知,該文模型ALBERT-MCFN-Att 檔案文本分類準(zhǔn)確率達(dá)到了97.51%,優(yōu)于實(shí)驗(yàn)對比的優(yōu)秀模型BERTBiLSTM、BERT-TextCNN 和ERNIE2.0-BiLSTM-Att,準(zhǔn)確率分別提高了2.98%、2.84%和1.41%,證明了結(jié)合ALBERT 與-MCFN-Att 模塊能準(zhǔn)確地識別出檔案文本類別,實(shí)現(xiàn)快速分類。
表4 模型實(shí)驗(yàn)結(jié)果
為驗(yàn)證語言模型ALBERT 提取檔案文本特征向量的有效性,采用Word2vec[15]和BERT[16]作為詞嵌入實(shí)驗(yàn)對比。由結(jié)果可知,ALBERT準(zhǔn)確率較Word2vec和BERT分別提升了4.61%和2.23%,說明了ALBERT能夠通過結(jié)合詞的上下文動態(tài)學(xué)習(xí)向量表征,得到更為準(zhǔn)確的語義表示。
為驗(yàn)證模型各個模塊對整體性能的貢獻(xiàn)程度,設(shè)置消融實(shí)驗(yàn)。與ALBERT-TCN 和ALBERT-MCNN模型相比較,ALBERT-MCFN 模型準(zhǔn)確率分別提升了1.17%和1.31%,說明了單一特征提取模塊性能較差,將兩者整合為多通道特征網(wǎng)絡(luò)后能有效提升分類性能。ALBERT-MCFN 模型在加入注意力模塊后準(zhǔn)確率提高了1.07%,注意力能夠?yàn)檎w模型提供聚焦于關(guān)鍵特征的能力,降低噪聲詞對結(jié)果的影響。
各模型在每個類別上的F1值如圖5所示。由圖5可得,該文模型在各類別上的F1 值均高于實(shí)驗(yàn)對比模型,平均值達(dá)到了97.59%。
圖5 在各個類別上的F1值
各個模型準(zhǔn)確率和損失值隨訓(xùn)練輪次的變化趨勢如圖6、7 所示。
圖6 準(zhǔn)確率變化趨勢圖
圖7 損失值變化趨勢圖
由圖6、7 可知,該文模型ALBERT-MCFN-Att 訓(xùn)練過程穩(wěn)定性更好,在較少輪次便達(dá)到較高的準(zhǔn)確率和較低的損失值,隨后趨于穩(wěn)定,而其他模型則存在一定幅度的波動[17-18]。
針對檔案數(shù)據(jù)文本自動分類任務(wù),提出了結(jié)合ALBERT 與多通道特征網(wǎng)絡(luò)的檔案數(shù)據(jù)分類模型。采用ALBERT 雙向動態(tài)語言模型提取檔案文本特征向量表示,解決傳統(tǒng)詞向量無法結(jié)合上下文學(xué)習(xí)當(dāng)前詞語義的問題,在檔案數(shù)據(jù)文本分類任務(wù)上的應(yīng)用性能更好;多通道特征網(wǎng)絡(luò)全面地捕捉檔案文本多尺度局部語義和上下文序列特征,增強(qiáng)了模型整體的特征學(xué)習(xí)能力;軟注意力機(jī)制賦予模型關(guān)注重點(diǎn)特征的能力,有效提升模型性能,在公開數(shù)據(jù)上的實(shí)驗(yàn)驗(yàn)證了該文模型的有效性。接下來的研究將進(jìn)一步增強(qiáng)模型特征捕捉的全面性以及降低模型參數(shù)量。