国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Albert-TextCNN模型的多標簽新聞文本分類

2024-12-05 00:00:00麥詠欣林志豪葸娟霞
現(xiàn)代信息科技 2024年20期

摘 要:針對智能信息推送管理者的多標簽新聞文本分類任務,提出了基于ALBERT-CNN模型的解決方案。利用ALBERT預訓練模型和TextCNN卷積神經(jīng)網(wǎng)絡,充分進行語義理解和特征提取。通過ALBERT模型進行語義篩選,精準把握新聞文本內(nèi)容和主題,再傳遞給TextCNN模型進行分類和標簽預測。采用Sigmoid函數(shù)輸出每個標簽的概率,實現(xiàn)精準的多標簽分類。實驗驗證382 688條來自今日頭條客戶端的數(shù)據(jù),ALBERT-CNN模型的F1-Score達到92.05%,召回率達到96.8%,精確率達到90%,相比于優(yōu)于傳統(tǒng)的ALBERT和ALBERT-Denses模型的F1-Score和召回率有所提升。在精確率上略低于AlBERT-Dense。該研究為提高信息推送效率和降低誤導性信息的傳播提供了一個新的解決方案。

關鍵詞:多標簽分類;ALBERT;TextCNN;自然語言處理

中圖分類號:T391.1 文獻標識碼:A 文章編號:2096-4706(2024)20-0031-06

Multi-label News Text Classification Based on AlBERT-TextCNN Model

MAI Yongxin, LIN Zhihao, XI Juanxia

(School of Information Management and Engineering, Neusoft Institute Guangdong, Foshan 528225, China)

Abstract: Aiming at the multi-label news text classification task of intelligent information push managers, a solution based on ALBERT-CNN model is proposed. The ALBERT pre-trained model and TextCNN Convolutional Neural Network are employed to comprehensively understand semantics and extract features. Semantic filtering is performed through the ALBERT model to accurately grasp the contAZ6CqoBAwzn42GewLMeHwX0fKKEGlJ6FoIH9+AxHSGU=ent and themes of news texts, which are then passed to the TextCNN model for classification and label prediction. The sigmoid function is utilized to output the probability of each label, achieving precise multi-label classification. The experiment verifies 382 688 data from the Toutiao client. The F1-Score of ALBERT-CNN model reaches 92.05%, the Recall reaches 96.8%, and the Precision reaches 90%. Compared with the traditional ALBERT and ALBERT-Dense models, it has improved in F1-Score and Recall. It is slightly lower than ALBERT-Dense model in Precision. This study provides a new solution for enhancing information push efficiency and reducing the spread of misleading information.

Keywords: multi-label classification; ALBERT; TextCNN; NLP

0 引 言

在信息爆炸的時代,面對信息過載、信息準確性和時效性的問題,5G技術的普及為智能信息推送管理帶來了新機遇[1]。然而,目前市場上缺乏能夠精準投遞用戶自定義標簽信息的軟件,現(xiàn)有通知權限開關也難以滿足用戶個性化需求[2]。因此,本研究選擇關注該領域,提出了一種基于ALBERT-CNN模型的新聞文本分類方法,結合了ALBERT預訓練模型、CNN和中文文本分類技術,以應對“知趣”軟件中的多標簽文本分類任務,提供更加個性化、精準的信息推送服務[3]。通過用戶標簽化設計和個性化選擇,用戶可以根據(jù)個人興趣和需求定制信息推送,從而提高了信息查看的效率,避免錯過重要通知,并減少了無用消息的干擾,進而提升使用體驗[4]。本研究將詳細介紹ALBERT-CNN模型的設計和實現(xiàn),并對實驗設置和結果進行分析,以驗證方法的有效性和性能,并期望通過本研究為智能信息推送管理領域的發(fā)展做出貢獻,提升信息獲取體驗和效率,降低虛假信息獲取的概率[5]。

最終通過實時數(shù)據(jù)庫中的數(shù)據(jù),加載模型進行分類,并將最終的分類結果進行可視化呈現(xiàn)。這種可視化方式能夠讓用戶直觀地了解信息分類的結果,幫助他們更好地理解和利用推薦的內(nèi)容。通過將分類結果以圖表或其他形式展示,我們可以為用戶提供直觀、易于理解的信息服務,從而提高用戶體驗和信息獲取效率。同時根據(jù)數(shù)據(jù)庫不斷新增的數(shù)據(jù)量,在一定增加閾值后進行模型續(xù)練。

1 系統(tǒng)模型構建

1.1 AlBERT模型

隨著深度學習的發(fā)展,Google AI Language團隊提出了基于Transformer的雙向編碼器BERT(Bidirectional Encoder Representations from Tranformers)模型,該模型由多個相同的Transformer編碼器堆疊而成,BERT模型結構如圖1所示。

Transformer模型由編碼器(Encoder)和解碼器(Decoder)兩部分組成,由于在ALBERT以及BERT中僅關注Transformer模型的編碼器(Encoder)部分,故本文不對解碼器(Decoder)進行具體闡述。編碼器部分由6個相同的編碼器層組成,輸入文本首先通過詞嵌入得到位置編碼后進入Transformer模塊,首先通過多頭自注意力機制(Multi-Head Self-Attention)在自注意力機制中,模型可以同時關注輸入序列中的所有位置,并計算每個位置的注意力權重。多頭自注意力機制允許模型使用多組注意力權重來學習不同類型的語義信息。通過這種方式,模型可以更好地理解輸入序列的全局信息和局部信息,從而更好地捕捉上下文之間的依賴關系。

在多頭自注意力機制之后,編碼器層還包含一個前饋神經(jīng)網(wǎng)絡(Feedforward Neural Network),用于對自注意力機制的輸出進行進一步的非線性變換。前饋神經(jīng)網(wǎng)絡通常是一個兩層的全連接神經(jīng)網(wǎng)絡,其中包含一個隱藏層和一個激活函數(shù),如ReLU。這個前饋神經(jīng)網(wǎng)絡在每個位置上獨立地應用,使得模型可以學習到位置特定的特征表示。

在每個編碼器層的兩個主要組件(多頭自注意力機制和前饋神經(jīng)網(wǎng)絡)之間,采用了殘差連接。殘差連接將編碼器層的輸入直接添加到其輸出中,從而允許信息直接流經(jīng)網(wǎng)絡層,避免了梯度消失和梯度爆炸問題。在殘差連接之后,每個子層的輸出會應用層標準化。層標準化有助于確保數(shù)據(jù)在每一層的流動穩(wěn)定性,并且可以加速模型的訓練過程。編碼器層的結構如圖2所示。

而AlBERT模型是在BERT模型的基礎上設計的一個精簡模型。它通過參數(shù)共享、矩陣分解等技術來減少BERT參數(shù)過大的缺點。AlBERT使用了SOP(Sentence Order Prediction)代替了NSP(Next Sentence Prediction)作為損失函數(shù),這一變化提升了下游任務的性能表現(xiàn)。雖然AlBERT的層數(shù)并未減少,導致在模型推理時間上相對于BERT并沒有改進,但由于參數(shù)量的減少使得模型的訓練速度變快。因此,在相同的訓練時間下,AlBERT的訓練效果會優(yōu)于BERT模型[6]。AlBERT模型結構中采用了Transformer和GELU激活函數(shù)[7]。其創(chuàng)新主要體現(xiàn)在三點,首先ABERT將輸入文本的詞嵌入表示(E)和模型中用于處理和學習文本特征的隱藏層(H)進行解綁,通過加入一個矩陣進行維度變換。這樣的做法將原本的參數(shù)數(shù)量從VH降低為VE+E×H,在隱藏層增大時能夠顯著降低參數(shù)數(shù)量。其次是傳統(tǒng)的Transformer每一層參數(shù)都是獨立的,包括各層的Self-Attention和全連接。而AlBERT嘗試將所有層的參數(shù)進行共享,之后的所有層都重復使用第一層的參數(shù),而不是每一層都學習不同的參數(shù)。最后AlBERT將NSP任務轉(zhuǎn)變?yōu)镾OP(句子詞序趨勢預測)任務,更加注重句子順序的語義關系而不是簡單地判斷兩個句子之間是否相鄰。

為了更好地適用于特定文本領域的任務,AlBERT進行了兩個預訓練任務:MLM(Masked LM)和SOP。在Masked LM任務中,模型的輸入文本中的一些單詞會被隨機遮蓋,然后模型需要預測這些被遮蓋的單詞。這個任務旨在讓模型學會理解上下文,并預測缺失的單詞,從而提高模型對語言的理解能力。具體流程如下:輸入文本中的部分單詞被隨機遮蓋,用[MASK]符號表示。遮蓋后的文本作為模型的輸入。模型通過編碼器將輸入文本轉(zhuǎn)換成隱藏層表示。使用一個全連接層將隱藏層的表示映射到詞匯表大小的輸出向量。對于被遮蓋的單詞位置,模型在輸出向量中選擇相應的位置作為預測結果。計算損失函數(shù)并更新模型參數(shù)。在SOP任務中,模型會接收一對句子作為輸入,并預測這兩個句子是否按照自然語言的邏輯順序排列。這個任務旨在讓模型學習捕捉句子之間的語義關系和邏輯連貫性。具體流程如下:輸入為一對句子,例如句子1和句子2。模型通過編碼器將兩個句子分別轉(zhuǎn)換成隱藏層表示。將隱藏層表示通過一些全連接層和激活函數(shù)進行處理。處理后的表示輸入到一個二元分類器中,預測兩個句子的順序是否正確[8]。計算損失函數(shù)并更新模型參數(shù)。具體流程如圖3所示。

1.2 TextCNN模型

TextCNN是一種用于文本分類的卷積神經(jīng)網(wǎng)絡模型,其靈感源自傳統(tǒng)的計算機視覺領域中的卷積神經(jīng)網(wǎng)絡。該模型由Yoon于2014年的論文《Convolutional Neural Networks for Sentence Classification》中首次提出。TextCNN利用不同大小的kernel能夠捕捉文本中的局部特征,并通過卷積操作將這些特征提取出來,從而進行分類[9]。TextCNN主要由四個部分組成[10],其中第一層為輸入層(嵌入層)。輸入層的任務是對輸入的文本進行分詞,通常采用詞嵌入技術(如Word2Vec、GloVe等)將輸入的單詞映射到連續(xù)的向量空間中。這樣做的目的是為了能夠?qū)卧~的語義信息納入模型中。只有將文本進行向量化后,才能進行后續(xù)的卷積和池化等操作。具體來說,文本向量化包括以下幾個步驟:文本分詞、詞向量矩陣初始化[11]、輸入文本向量化。文本分詞是將輸入文本分割為若干個詞語,將其轉(zhuǎn)換為一個詞語列表。詞向量矩陣包含所有單詞向量所表示的矩陣,通常以JSON格式存在,通過字典的形式存儲單詞與鍵的映射,根據(jù)詞向量文件找到對應的詞向量。詞向量矩陣的初始化有隨機初始化和預訓練兩種方法。在預訓練的情況下,使用預先訓練好的詞向量文件初始化詞向量矩陣,可以獲取到富含語義信息的詞向量。輸入文本向量化根據(jù)文本分詞的結果以及詞向量文件的鍵,找出每個單詞所對應的向量,按照文本中原有的順序?qū)⑦@些向量組合起來,形成輸入文本的向量表示。

在完成文本向量化后進入第二層進行卷積操作,卷積操作用于從文本中提取重要的局部特征,通過使用多個不同大小的卷積核來捕獲不同長度的特征,舉例來說特征Ci是由高度H的窗口為產(chǎn)生的,對于輸入矩陣,可以通過卷積操作計算特征圖:

其中,f表示激活函數(shù),ωi表示卷積和,bi表示偏置項,卷積操作的最終結果是一組特征圖,每個特征圖運用于一個卷積核[12]。在此之后通過滑動窗口的方式在文本序列上移,針對每個窗口應用卷積和,然后對于每個窗口,一般通過一個非線性函數(shù),例如ReLU(Rectified Linear Unit)來激活卷積的結果:

在卷積操作完成后,通過應用池化層[13]來進行池化操作從而對特征進行降維的同時保留最重要的特征,在TextCNN中通常采用最大池化,例如,對于大小為3×300的特征圖,我們從中選擇每個通道的最大值,得到一個長度為300的特征向量。上述操作可以得知當值越大的時候代表越重要,同時另一個好處是可以處理長度浮動的句子(由于最后仍然是取最大值作為結果,所以最終僅有一個輸出)。之后,將所有池化后的特征連接起來,并通過一個或多個全連接層將其映射到輸出類別上。全連接層通常包括一個或多個隱藏層,每個隱藏層都使用激活函數(shù)(如ReLU)來引入非線性。最終,將通過帶Dropout[14]的全連接層的輸出通過Softmax函數(shù)進行歸一化,得到每個類別的概率分布。模型預測的類別是具有最高概率的類別。在此過程中引入了正則化的過程來避免模型過擬合的問題,在倒數(shù)第二層網(wǎng)絡中,加上Dropout可以在一定概率下使得神經(jīng)元不工作,以此來增加模型的泛化能力。

1.3 Sigmoid函數(shù)

在多分類的情況下,Sigmoid允許處理非獨占標簽(也稱為多標簽)[15],而Softmax處理獨占類。本文中需要對新聞文本進行分類,而一則文章中可能不僅僅只有一種標簽。使用了Sigmoid函數(shù)進行處理,Sigmoid是一種具有S型曲線的數(shù)學函數(shù),常被用作激活函數(shù):

該函數(shù)將輸出限制在0與1之間,具有單調(diào)性和可導性,使得其在概率預測中起到較大的作用。Sigmoid函數(shù)在原點的導數(shù)最大,而在兩端逐漸趨近于零。這意味著在反向傳播過程中,通過Sigmoid函數(shù)傳播的梯度可以保持一定的大小,從而減少了梯度消失的可能。

1.4 ALBERT-TextCNN模型的構建

本文將數(shù)據(jù)集文本先經(jīng)過將AlBERT模型所傳出的三維向量output_layer_init:(batch_size,sequence_length,hidden_size)傳入TextCNN中,最后通過全連接層將TextCNN的輸出映射到標簽結果上。其中AlBERT和TextCNN的具體參數(shù)設置如表1、表2所示。

其中表1中的hidden_act表示隱藏層中應用的激活函數(shù),hidden_size表示隱藏層的大小,決定了隱藏層的神經(jīng)元數(shù)量。embedding_size表示詞嵌入的維度大小。num_attention_heads表示注意力頭的數(shù)量(在transformer模型中的自注意力機制可以分為多個頭進行計算),有助于模型學習多種不同的特征表示,vocab_size表示詞匯表大小,intermediate_size表示中間層的大小。表2中的num_filters表示卷積層中過濾器的數(shù)量,filter_sizes表示卷積核的大小,由于中文詞匯中可能存在5個字、6個字、7個字和8個字的短語以及詩詞,所以在原ixW51xbIOtVl5Swrsm89Hw==本提供的2、3、4的卷積核大小下增加了新高度的卷積核,keep_prob表示Dropout層的保留概率,模型的具體結構如圖4所示。

2 實驗設置以及結果與分析

2.1 實驗數(shù)據(jù)集

本文中所用到的實驗數(shù)據(jù)來源于今日頭條客戶端所提取的382 688條數(shù)據(jù),訓練集與驗證集的比例設置為8:2。每一條標簽樣本數(shù)據(jù)都帶有各自的文本類別標簽。其中數(shù)據(jù)集中共有15個類別標簽,數(shù)據(jù)集中采用了one-hot獨熱編碼方式[16]對數(shù)據(jù)進行排布,具體的樣本標簽種類包括:民生、體育、汽車、軍事、證券、文化、財經(jīng)、教育、旅游、農(nóng)業(yè)、娛樂、房產(chǎn)、科技、國際、電競等。

2.2 實驗環(huán)境

在此實驗中,關鍵硬件采用了i7-12700H處理器,16 GB內(nèi)存以及3070顯卡。在軟件環(huán)境方面,我們選擇了基于Windows平臺的Python 3.7.0版本進行程序開發(fā)。主要依賴的第三方庫是TensorFlow 1.15.4+nv,這是針對英偉達30系顯卡特別編譯的版本,利用CUDA 11.2.2實現(xiàn)了GPU加速,從而提升了訓練效率。

2.3 實驗評估標準與對比

2.3.1 評估指標

在分類問題中,為了更加方便地查看模型的性能,通過會采用精確率(P)、召回率(R)和F1-Score(F)來進行模型評估,然而在多標簽分類中,上述指標的計算標準可能并不合適,但是仍然可以將標簽的類別劃分為正樣本和負樣本,在給出的多標簽中,模型本身關注的對象標簽即為正樣本,其余則為負樣本。則針對多標簽分類模型采用上述指標模型的精度進行評估。對于精確率來說,其具體的計算公式為:

其中,SFNi表示把應有標簽的位置預測為無標簽,或者無法正確預測有標簽位置。對于F1-Score來說,其具體的計算公式為:

2.3.2 對比算法

為了驗證ALBERT-TextCNN模型能夠提升在多標簽任務場景下對新聞文本的分類性能,在實驗中,本文設計ALBERT和ALBERT-Denses兩個模型作為對比實驗。ALBERT文本分類模型,通過ALBERT預訓練好的模型進行詞向量提取,利用一個神經(jīng)元,實現(xiàn)文本多標簽分類。ALBERT-Denses模型采用ALBERT預訓練語言模型進行詞向量提取后,通過多個二分類[17](全連接層)來解決多標簽文本的分類問題的二元分類預測。

2.3.3 AlBERT-TextCNN實驗結果分析

針對模型收斂效果,對AlBERT-TextCNN的損失(Loss)以及精確率(Accuracy)進行了圖形繪制,具體結果如圖5、圖6所示。

通過圖表分析可得,在多標簽文本訓練的過程中,Loss的下降幅度非常快,但此時并不代表模型已經(jīng)收斂,當Loss到達0.000 1~0.000 2區(qū)間時,模型的Loss以及Accuracy變化浮動較小,故認為模型在Loss值置于0.000 1~0.000 2區(qū)間時,模型已經(jīng)達到收斂。最終模型的F1-Score、召回率以及精確率分別為92.05%、96.80%、90.00%。

2.4 對比算法結果分析

最終三個模型的F1-Score、召回率以及精確率如表3所示。

通過上述表格分析我們可以觀察到,AlBERT-TextCNN在F1-Score上略高于ALBERT和ALBERT-dense,但三者之間的差距不大,說明它們在模型的整體性能上基本持平。AlBERT-TextCNN的準確率稍高于其他兩個模型,這可能意味著它在正確分類樣本方面稍微更加出色。而AlBERT-dense在精確率上略高于其他兩個模型,這表明它在避免誤分類負面樣本方面表現(xiàn)會更好一些。通過疊加TextCNN的模型結構通常能夠更加有效地捕獲局部特征和模式,使其適用于文本分類等任務。

3 結 論

本論文提出了一種基于ALBERT-CNN模型的多標簽新聞文本分類方法,旨在應對智能信息推送管理者領域的挑戰(zhàn)。通過結合ALBERT預訓練模型和卷積神經(jīng)網(wǎng)絡(TextCNN),以及特定于中文文本分類的技術,實現(xiàn)了對新聞文本的多標簽分類。實驗結果表明,本文提出的ALBERT-TextCNN模型在F1-Score、召回率以及精確率等評估指標上均取得了較好的效果,其中F1-Score和召回率在該模型在上表現(xiàn)出了較高的效率。但Precision相較于AlBERT-dense略有下降,后續(xù)將對數(shù)據(jù)集以及模型進行進一步優(yōu)化,并最終將模型與實際應用結合起來,通過與數(shù)據(jù)庫建立連接,將實時數(shù)據(jù)進行分類。通過上述流程實現(xiàn)了新聞輿情監(jiān)測功能。通過這些工作,我們期望能夠提高信息推送的個性化和精準度,為用戶提供更好的信息服務。未來的工作將繼續(xù)完善數(shù)據(jù)集,優(yōu)化模型性能,挖掘數(shù)據(jù)集中標簽更深層次的信息,考慮標簽之間的關聯(lián)性,使其更加適用于實際場景。

參考文獻:

[1] LI T,DONG Y,ZHANG B. Algorithm Based Personalized Push Research on “Information Cocoon Room” [C]//2023 8th International Conference on Information Systems Engineering (ICISE).Dalian:IEEE,2023:286-289.

[2] KUANG A H. Construction of Personalized Advertising Accuracy Model Based on Artificial Intelligence [C]//2022 International Conference on Artificial Intelligence and Autonomous Robot Systems (AIARS).Bristol:IEEE,2022:395-398.

[3] 陳敏,王雷春,徐瑞,等.基于XLNet和多粒度對比學習的新聞主題文本分類方法 [J/OL].鄭州大學學報:理學版,2024:1-8.https://doi.org/10.13705/ j.issn.1671-6841.2023164.

[4] 郝超,裘杭萍,孫毅,等.多標簽文本分類研究進展 [J].計算機工程與應用,2021,57(10):48-56.

[5] 劉超民.生成式人工智能場景下虛假信息風險特殊性透視及應對 [J].中國海洋大學學報:社會科學版,2024(2):112-121.

[6] LAN Z Z,CHEN M D,GOODMAN S,et al. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations [J/OL].arXiv:1909.11942[cs.CL].(2019-09-26).https://arxiv.org/abs/1909.11942.

[7] 高瑋軍,趙華洋,李磊,等.基于ALBERT-HACNN-TUP模型的文本情感分析 [J].計算機仿真,2023,40(5):491-496.

[8] 劉曉明,李丞正旭,吳少聰,等.文本分類算法及其應用場景研究綜述 [J].計算機學報,2024,47(6):1244-1287.

[9] KIM Y. Convolutional Neural Networks for Sentence Classification [J/OL].arXiv:1408.5882[cs.CL].(2014-08-25).https://arxiv.org/abs/1408.5882v2.

[10] 萬錚,王芳,黃樹成.基于權重詞向量與改進TextCNN的中文新聞分類 [J].軟件導刊,2023,22(9):59-64.

[11] 張超軼,陳媛,張聚偉.融合術語信息的神經(jīng)機器翻譯參數(shù)初始化研究 [J].河南科技大學學報:自然科學版,2022,43(4):61-66+75+7.

[12] 錢華,祁樞杰,顧涔,等.基于近鄰卷積神經(jīng)網(wǎng)絡的油畫分類方法研究 [J].蘇州科技大學學報:自然科學版,2024,41(1):69-75.

[13] 郭銳,熊風光,謝劍斌,等.基于改進殘差池化層的紋理識別 [J].計算機技術與發(fā)展,2023,33(9):37-44.

[14] 齊悅,謝泰,沙琨.基于Grid-Search的Dropout-LSTM模型在新冠肺炎預測中的應用 [J].微型電腦應用,2024,40(2):211-216.

[15] 潘兵宏,章澤龍,周乾,等.基于sigmoid換道模型的匝道連續(xù)分流間距 [J].長安大學學報:自然科學版,2023,43(6):37-48.

[16] 姚佼,吳秀榮,李皓,等.基于改進K-means算法的物流配送中心選址研究 [J].物流科技,2024,47(5):10-13+19.

[17] 周慧穎,汪廷華,張代俐.多標簽特征選擇研究進展 [J].計算機工程與應用,2022,58(15):52-67.

作者簡介:麥詠欣(2002—),女,漢族,廣東江門人,本科在讀,研究方向:大健康數(shù)據(jù)處理與機器學習;林志豪(2004—),男,漢族,福建福清人,本科在讀,研究方向:機器學習;蕙娟霞(1992—),女,漢族,甘肅白銀人,助教,碩士,研究方向:機器學習智能信息處理。

隆安县| 宝山区| 台南市| 门源| 牟定县| 湖北省| 遂川县| 新乐市| 天峨县| 建昌县| 汉川市| 江口县| 平乡县| 华安县| 许昌市| 瓮安县| 尉犁县| 清水河县| 修武县| 桐庐县| 新干县| 乌兰察布市| 嘉黎县| 株洲市| 葫芦岛市| 克东县| 抚顺市| 德格县| 绥中县| 贺州市| 苏尼特右旗| 丰宁| 长沙市| 曲阳县| 义马市| 普安县| 明星| 长兴县| 搜索| 深泽县| 特克斯县|