董佳鑫 羅婷
摘要:當(dāng)今社會智能手機已經(jīng)成為人們生活的必需品,龐大的智能手機用戶數(shù)量使得垃圾短信充斥在整個通訊網(wǎng)絡(luò)環(huán)境中,因此對于大量垃圾短信識別的研究非常重要。文章基于一種將BERT 模型和TextCNN 模型融合的垃圾短信識別方法,同時聚焦于垃圾短信文本的上下文語義以及關(guān)鍵詞特征。該方法利用開源的垃圾短信數(shù)據(jù)集進行試驗,試驗結(jié)果表明,BERT-TextCNN 融合模型在垃圾短信的識別在精準(zhǔn)度、召回率以及F1 值這些指標(biāo)上都有不錯的表現(xiàn),相較于現(xiàn)有模型有明顯提高。
關(guān)鍵詞: 文本分類;TextCNN;BERT;垃圾短信;融合模型
中圖分類號:TP391 文獻標(biāo)識碼:A
文章編號:1009-3044(2024)06-0001-04