国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于ERNIE的新聞標(biāo)題文本分類

2023-04-20 05:23徐云鵬曹暉
關(guān)鍵詞:文本分類注意力機(jī)制

徐云鵬 曹暉

關(guān)鍵詞:文本分類;EWLTC; ERNIE;注意力機(jī)制

中圖法分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

隨著時(shí)代的發(fā)展,文本數(shù)據(jù)從傳統(tǒng)的實(shí)體化向數(shù)字化、虛擬化方向發(fā)展。新聞文本是我們生活中接觸最為廣泛的一種文本數(shù)據(jù),但由于新聞來(lái)源渠道復(fù)雜多樣,需要對(duì)其進(jìn)行準(zhǔn)確的分類。

一方面,準(zhǔn)確的新聞?lì)悇e標(biāo)簽可以幫助用戶快速地檢索感興趣的新聞;另一方面,根據(jù)用戶的使用需求進(jìn)行標(biāo)簽化、類別化推薦,需要將新聞文本存儲(chǔ)至不同類別庫(kù)中。隨著信息的爆炸式增長(zhǎng),人工標(biāo)注數(shù)據(jù)完成分類任務(wù)極為耗時(shí),且易受到標(biāo)注人主觀意識(shí)的影響。對(duì)于快速實(shí)現(xiàn)文本分類的需求日漸增加,自動(dòng)文本分類技術(shù)應(yīng)運(yùn)而生。深度學(xué)習(xí)方法作為該領(lǐng)域的主流研究方向,突破以往機(jī)器學(xué)習(xí)的瓶頸,給文本分類領(lǐng)域帶來(lái)重大機(jī)遇。

ERNIE (Enhanced

Representation

throughKnowledge Integration)是百度發(fā)布的預(yù)訓(xùn)練模型。它將Google發(fā)布的BERT( Bidirectional EncoderRepresentation from Transformers)中單詞級(jí)別的MASK拓展成3種級(jí)別的Knowledge Masking,從而讓模型學(xué)習(xí)到更多語(yǔ)言知識(shí),在多項(xiàng)任務(wù)實(shí)踐效果上超越了BERT。

Jawahar等在2019年分別通過(guò)短語(yǔ)語(yǔ)法(Phrasal Syntax)、探測(cè)任務(wù)(Probing Task)、主謂一致(Subject-Verb Agreement)、組成結(jié)構(gòu)(Compositional Structure)4個(gè)實(shí)驗(yàn)發(fā)現(xiàn),以BERT為代表的預(yù)訓(xùn)練模型編碼了豐富的語(yǔ)言學(xué)層次信息:表層信息特征在底層網(wǎng)絡(luò),句法信息特征在中間層網(wǎng)絡(luò),語(yǔ)義信息特征在高層網(wǎng)絡(luò)。Encoder層越淺,句子向量越能代表低級(jí)別語(yǔ)義信息,Encoder層越深,句子向量越能代表更高級(jí)別的語(yǔ)義信息。因此,本文EWLTC模型為了獲取不同級(jí)別的語(yǔ)義信息,提升模型分類效果,將預(yù)訓(xùn)練模型ERNIE Encoder層輸出的第1個(gè)token向量[CLS]通過(guò)注意力機(jī)制進(jìn)行加權(quán)求和,并作為后續(xù)全連接層的輸入,增加了語(yǔ)義信息的融入,使得新聞標(biāo)題文本結(jié)果優(yōu)于ERNIE以及傳統(tǒng)的文本分類模型。

1相關(guān)工作

文本分類(Text Classification,TC)作為自然語(yǔ)言處理領(lǐng)域的重要研究領(lǐng)域,主要分為淺層學(xué)習(xí)和深度學(xué)習(xí)兩個(gè)發(fā)展階段。淺層學(xué)習(xí)在1960~2010年占據(jù)文本分類模型的主導(dǎo)地位。淺層學(xué)習(xí)模型主要是基于統(tǒng)計(jì)學(xué)習(xí)的模型,如樸素貝葉斯(Naive Bayes,NB),K近鄰(k-Nearest Neighbor,KNN)和支持向量機(jī)(Support Vector Machine,SVM)等。盡管與早期基于規(guī)則的分類方法相比,淺層學(xué)習(xí)模型(Shallow Learning)在準(zhǔn)確性和穩(wěn)定性方面具有顯著優(yōu)勢(shì),但淺層模型的堆疊層數(shù)僅有1~2層,導(dǎo)致模型的表達(dá)能力極為有限,并且樣本的特征提取極其依賴先驗(yàn)知識(shí)進(jìn)行手動(dòng)抽取,反復(fù)的實(shí)驗(yàn)摸索耗費(fèi)大量的人力物力,極大地限制了淺層模型的效果。

2006年,Hinton提出深度學(xué)習(xí)(Deep Learning)的概念,使用多隱藏層的人工神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行樣本的特征抽取與學(xué)習(xí),克服了淺層學(xué)習(xí)依賴人工的缺點(diǎn),由此成為目前自然語(yǔ)言處理的主流研究方法。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)與遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是用于文本分類任務(wù)的2種主流深度學(xué)習(xí)方法,TCNN與RNN模型相較于淺層學(xué)習(xí)模型,CNN的并行計(jì)算效率高,RNN則更注重文本的序列特征,二者都可以顯著提高文本分類性能。隨后,研究人員將人類視覺(jué)注意力機(jī)制的原理引入自然語(yǔ)言處理任務(wù)中,其基本原理為在眾多的輸入信息中聚焦于對(duì)當(dāng)前任務(wù)更為關(guān)鍵的信息,而降低對(duì)其他信息的關(guān)注度,甚至過(guò)濾掉無(wú)關(guān)信息,將其與深度學(xué)習(xí)模型相結(jié)合,有效提升了文本分類的計(jì)算效率與準(zhǔn)確率。

2018年,BERT的出現(xiàn)在自然語(yǔ)言處理領(lǐng)域具有里程碑式的意義,其在多個(gè)自然語(yǔ)言處理(Natural Language Processing,NLP)任務(wù)中獲得了新的SOTA(state-of-the-art)的結(jié)果,其強(qiáng)大的模型特征抽取能力使大量研究工作圍繞其展開(kāi),自然語(yǔ)言處理研究進(jìn)入大數(shù)據(jù)時(shí)代,ERNIE模型是BERT的眾多改進(jìn)模型之一。

2模型描述

ERNIE總體模型結(jié)構(gòu)和BERT -致,使用的是Transformer Encoder,輸入與輸出的個(gè)數(shù)保持一致。相較于BERT,ERNIE的改進(jìn)主要分為兩方面。

(1)采用新的Mask方法。BERT初次提出了MLM方法,以15%的概率用mask token([MASK])隨機(jī)對(duì)每一個(gè)訓(xùn)練序列中的token進(jìn)行替換,然后預(yù)測(cè)出[MASK]位置原有的單詞。BERT是基于字的MASK,ERNIE是基于詞語(yǔ)的MASK。假設(shè)訓(xùn)練句子為“哈爾濱是黑龍江省的省會(huì)城市”,BERT會(huì)將哈爾濱隨機(jī)遮蓋為哈“mask”濱,無(wú)法學(xué)習(xí)到哈爾濱是一個(gè)重要的地點(diǎn)實(shí)體。ERNIE則隨機(jī)遮擋掉地名實(shí)體黑龍江,此模型能夠在一定程度上學(xué)習(xí)到“哈爾濱”與“黑龍江省”的關(guān)系,即模型能夠?qū)W習(xí)到更多語(yǔ)義知識(shí)。相較于BERT,ERNIE成了一個(gè)具有更多知識(shí)的預(yù)訓(xùn)練模型。

(2)增加預(yù)訓(xùn)練任務(wù):通過(guò)增加對(duì)話預(yù)料的訓(xùn)練,判斷兩句話是否屬于同一句話取代BERT原有的NSP(Next Sentence Prediction)任務(wù)。

ERNIE由12層編碼網(wǎng)絡(luò)組成,每層的隱藏狀態(tài)hidden_size為768,并且有12個(gè)z注意力頭(Attention-Head),總計(jì)110 M參數(shù)。ERNIE在每一層網(wǎng)絡(luò)都使用第一個(gè)輸入符號(hào)([CIJS])輸出進(jìn)行表征計(jì)算,通過(guò)自注意力機(jī)制匯聚了所有真實(shí)符號(hào)的信息表征。

ERNIE的每層輸出分別為last_hidden_state,pooler_output, hidden_states, attentions,其中,hidden_states是每層輸出的模型隱藏狀態(tài)加上可選的初始嵌入輸出。選取其中12層Encoder層的輸出,總計(jì)12個(gè)元組:12*(batch_size,sequence_length,hidden_size)。但12層cls每層的特征信息對(duì)于預(yù)測(cè)的貢獻(xiàn)不同,無(wú)法簡(jiǎn)單相加,為此通過(guò)引入注意力機(jī)制實(shí)現(xiàn)對(duì)12個(gè)向量的加權(quán)求和,在模型訓(xùn)練中自動(dòng)分配權(quán)重給對(duì)象的cls向量。最終將求和后的向量輸入至全連接層進(jìn)行預(yù)測(cè)訓(xùn)練。

3實(shí)驗(yàn)結(jié)果與分析

3.1實(shí)驗(yàn)數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)中,采用新聞文本分類中常使用的THUCNews,根據(jù)新浪新聞RSS訂閱頻道2005~2011年的歷史數(shù)據(jù)篩選過(guò)濾生成。本次實(shí)驗(yàn)選取其中的5萬(wàn)條數(shù)據(jù)集。本文使用目前通用評(píng)價(jià)指標(biāo)來(lái)評(píng)估模型的優(yōu)劣,即精確率(Precision)和召回率(Recall)。精確率指正確的正樣本個(gè)數(shù)占分類器判定為正樣本的樣本個(gè)數(shù)的比例,召回率是指分類正確的正樣本個(gè)數(shù)占真正的正樣本個(gè)數(shù)的比例。

3.2實(shí)驗(yàn)對(duì)比

本文使用五折交叉驗(yàn)證(5-fold cross-validation)來(lái)測(cè)試EWTLC型的效果,該方法的基本思路是:將所有的數(shù)據(jù)集平均分為5個(gè)部分,依次抽取4個(gè)部分當(dāng)作訓(xùn)練集,剩下1個(gè)部分當(dāng)作測(cè)試集進(jìn)行測(cè)試,然后將5輪訓(xùn)練與預(yù)測(cè)后的結(jié)果進(jìn)行平均,將平均值作為模型最后的估計(jì)結(jié)果。

參與對(duì)比的網(wǎng)絡(luò)模型主要包括:(1)FastText模型,采用Facebook AI Research開(kāi)源的機(jī)器學(xué)習(xí)訓(xùn)練工具FastText對(duì)新聞標(biāo)題進(jìn)行標(biāo)簽分類;(2)TextCNN模型,采用文本卷積神經(jīng)網(wǎng)絡(luò)TextCNN模型對(duì)新聞標(biāo)題進(jìn)行標(biāo)簽分類;(3)BiLSTM模型,采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)BiLSTM模型對(duì)新聞標(biāo)題進(jìn)行標(biāo)簽分類:(4)BERT+FP模型,基于BERT預(yù)訓(xùn)練模型和全連接層Fully Connected Layers對(duì)新聞標(biāo)題進(jìn)行標(biāo)簽分類;(5)EWLTC模型,采用EWLTC模型對(duì)新聞標(biāo)題進(jìn)行標(biāo)簽分類。實(shí)驗(yàn)結(jié)果如表1所列。

(1)通過(guò)對(duì)比實(shí)驗(yàn)1和實(shí)驗(yàn)3結(jié)果發(fā)現(xiàn),利用FastText模型相較于BiLSTM模型、TextCNN更為優(yōu)秀,主要原因是FastText克服word2vec中單詞內(nèi)部形態(tài)信息丟失的問(wèn)題;(2)對(duì)比實(shí)驗(yàn)4與實(shí)驗(yàn)1結(jié)果發(fā)現(xiàn),采用預(yù)訓(xùn)練模型ERNIE的實(shí)驗(yàn)結(jié)果是在FastText的基礎(chǔ)上大幅度的提升,原因在于預(yù)訓(xùn)練模型有助于更好地抽取文本特征,生成文本向量;(3)通過(guò)對(duì)比實(shí)驗(yàn)5結(jié)果與實(shí)驗(yàn)4結(jié)果發(fā)現(xiàn),相較于原本的預(yù)訓(xùn)練語(yǔ)言模型只提取最后一層的輸出,EWLTC可以學(xué)習(xí)更多特征、獲取更好的分類效果。

4結(jié)束語(yǔ)

本文EWLTC模型進(jìn)一步增強(qiáng)了文本的特征提取與表示能力,實(shí)現(xiàn)了更好的文本分類效果。

作者簡(jiǎn)介:

徐云鵬(1997—),碩士,研究方向:人工智能。

曹暉(1971—),博士,研究方向:人工智能(通信作者)。

猜你喜歡
文本分類注意力機(jī)制
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動(dòng)態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問(wèn)題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中的研究
InsunKBQA:一個(gè)基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)
基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
基于貝葉斯分類器的中文文本分類
基于蟻群智能算法的研究文本分類
基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)