国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT的民間文學(xué)文本預(yù)訓(xùn)練模型

2022-11-25 02:56陶慧丹王笳輝
關(guān)鍵詞:民間文學(xué)語(yǔ)義詞語(yǔ)

陶慧丹,段 亮,王笳輝,岳 昆

(1.云南大學(xué) 信息學(xué)院,云南 昆明 650500;2.云南大學(xué) 云南省智能系統(tǒng)與計(jì)算重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

0 引 言

民間文學(xué)以“講唱”形式構(gòu)成龐大的文本知識(shí)體系,融入大量神話、故事與歌謠,是特殊的社會(huì)生活方式的匯總。有效提取民間文學(xué)信息有助于學(xué)者研究民間文學(xué)文化,將民間文學(xué)文化與商業(yè)融合能推動(dòng)經(jīng)濟(jì)發(fā)展、激發(fā)商業(yè)價(jià)值。傳統(tǒng)民間文學(xué)資源與計(jì)算機(jī)技術(shù)有效結(jié)合才能憑借新的載體煥發(fā)新活力。因此,結(jié)合計(jì)算機(jī)技術(shù)對(duì)民間文學(xué)文本進(jìn)行數(shù)據(jù)整理、挖掘和開發(fā)具有重要意義。

預(yù)訓(xùn)練模型能夠?qū)W習(xí)文本中的隱含知識(shí)并用語(yǔ)言模型進(jìn)行表示[1]。大量研究表明,預(yù)訓(xùn)練模型有利于提高下游自然語(yǔ)言處理(Natural Language Processing,NLP)任務(wù)的性能[2],對(duì)知識(shí)圖譜[3]等實(shí)際應(yīng)用有巨大的推動(dòng)作用。Devlin等提出預(yù)訓(xùn)練模型BERT[4](Bidirectional Encoder Representations from Transformers)在NLP任務(wù)上表現(xiàn)優(yōu)異。然而,傳統(tǒng)預(yù)訓(xùn)練模型是由通用領(lǐng)域文本訓(xùn)練而成,無(wú)法直接應(yīng)用于生物醫(yī)學(xué)[5-7]、金融[8]和視覺(jué)語(yǔ)言[9]等特定領(lǐng)域文本。此外,BERT的字隱蔽策略是對(duì)輸入序列隨機(jī)隱蔽,民間文學(xué)文本中隨機(jī)隱蔽不能有效地學(xué)習(xí)到注釋詞語(yǔ)與句子的關(guān)系、建模句子的關(guān)鍵信息和注釋句的重要特征。如何利用計(jì)算機(jī)技術(shù)有效地處理民間文學(xué)文本,還存在以下挑戰(zhàn):

(1)特定領(lǐng)域文本與通用領(lǐng)域文本間的巨大差異。民間文學(xué)文本語(yǔ)言簡(jiǎn)潔、表達(dá)細(xì)膩、內(nèi)容豐富[10],會(huì)有不斷重復(fù)語(yǔ)句加強(qiáng)情感表達(dá),而且包含大量專業(yè)名詞和相關(guān)領(lǐng)域的常識(shí)性知識(shí)。許多詞語(yǔ)與現(xiàn)代漢語(yǔ)詞語(yǔ)含義相差較大,存在古今異義和一詞多義等問(wèn)題;許多擬人、比喻等修辭手法,蘊(yùn)含豐富的情感,加大了預(yù)訓(xùn)練模型學(xué)習(xí)民間文學(xué)文本深層語(yǔ)義的難度[11]。

(2)BERT隨機(jī)隱蔽策略不適用于民間文學(xué)文本。BERT中所有字的隱蔽概率相同,忽略民間文學(xué)文本中注釋腳注的重要性。民間文學(xué)人名、地名等名詞較長(zhǎng),僅對(duì)字進(jìn)行隱蔽會(huì)導(dǎo)致詞語(yǔ)語(yǔ)義信息的缺失,難以識(shí)別詞與詞的邊界。

因此,該文結(jié)合BERT及民間文學(xué)特定領(lǐng)域語(yǔ)料開展預(yù)訓(xùn)練,得到民間文學(xué)文本的預(yù)訓(xùn)練語(yǔ)言模型MythBERT,主要貢獻(xiàn)包括以下幾個(gè)方面:(1)利用民間文學(xué)文本的注釋增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型,將注釋腳注中的解釋詞語(yǔ)替換原句抽象詞語(yǔ),緩解民間文學(xué)文本與通用領(lǐng)域文本差異大、一詞多義、古今異義、指代關(guān)系和隱藏關(guān)系等問(wèn)題;(2)利用民間文學(xué)文本的注釋增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型,考慮全詞隱蔽方法(Whole Word Masking),重點(diǎn)關(guān)注腳注的注釋詞語(yǔ),減小BERT隱蔽的隨機(jī)性,有利于學(xué)習(xí)詞語(yǔ)語(yǔ)義信息;(3)利用情感分析、語(yǔ)義相似度、命名實(shí)體識(shí)別和問(wèn)答四個(gè)下游任務(wù)對(duì)民間文學(xué)預(yù)訓(xùn)練模型微調(diào),改善實(shí)體難以識(shí)別邊界和修辭手法中復(fù)雜情感表達(dá)的問(wèn)題;(4)使用BERT模型的初始權(quán)重,減少了重新訓(xùn)練預(yù)訓(xùn)練模型帶來(lái)的巨大開銷,并有助于理解民間文學(xué)通用知識(shí)。在民間文學(xué)文本數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了MythBERT的有效性。另外,對(duì)不同下游任務(wù)進(jìn)行了測(cè)試,進(jìn)一步證明了MythBERT對(duì)不同任務(wù)的性能都有顯著提升。

1 相關(guān)工作

預(yù)訓(xùn)練模型按照訓(xùn)練文本語(yǔ)料庫(kù)可以分為通用領(lǐng)域文本和特定領(lǐng)域文本兩類。

1.1 通用領(lǐng)域文本預(yù)訓(xùn)練模型

通用文本預(yù)訓(xùn)練模型使用大規(guī)模無(wú)標(biāo)注語(yǔ)料庫(kù)進(jìn)行訓(xùn)練以獲得文本深層雙向語(yǔ)義表示,并通過(guò)微調(diào)直接應(yīng)用于特定NLP任務(wù)中。BERT是最具有代表性的預(yù)訓(xùn)練模型,大部分模型在此基礎(chǔ)上對(duì)隱蔽策略、預(yù)訓(xùn)練任務(wù)、生成任務(wù)等進(jìn)行改進(jìn)。目前通用文本的預(yù)訓(xùn)練模型大部分是BERT和基于BERT的變種。BERT-WWM(訊飛)[12]在預(yù)訓(xùn)練時(shí)使用全詞隱蔽策略,以詞粒度進(jìn)行隱蔽;SpanBERT[13]對(duì)隨機(jī)的相鄰分詞使用掩碼,導(dǎo)致預(yù)測(cè)掩碼困難。RoBERTa(Facebook)[14]使用精細(xì)調(diào)參、動(dòng)態(tài)掩碼機(jī)制等,實(shí)驗(yàn)證明BERT的下一句子預(yù)測(cè)任務(wù)意義不大;XLNet[15]使用排序語(yǔ)言模型學(xué)習(xí)雙向上下文語(yǔ)境,解決預(yù)訓(xùn)練-微調(diào)階段標(biāo)記不一致的問(wèn)題,以大量參數(shù)為代價(jià)換取效果,提升效果有限;ALBERT[16]引入句子順序預(yù)測(cè),解決BERT的下一句子預(yù)測(cè)任務(wù)低效的問(wèn)題。ERNIE(1.0)[17]引入三個(gè)階段屏蔽策略知識(shí),改善了結(jié)構(gòu)化知識(shí)問(wèn)題;ERNIE(THU)[18]引入知識(shí)將實(shí)體向量與文本表示融合,但構(gòu)建知識(shí)圖譜需要耗費(fèi)大量的資源。MT-DNN(微軟)[19]利用多個(gè)任務(wù)微調(diào)共享層和任務(wù)特定層的參數(shù),但規(guī)模巨大、超參數(shù)太多不便于調(diào)參,需要較多的時(shí)間和硬件資源。

雙向語(yǔ)言模型使用某種網(wǎng)絡(luò)作為特征抽取器,將兩個(gè)不同方向上抽取到的文本表示簡(jiǎn)單拼接,缺點(diǎn)是只利用了上文或者下文單一的信息,不能同時(shí)利用上下文雙向信息[20];隱蔽語(yǔ)言模型作為預(yù)訓(xùn)練任務(wù),對(duì)堆疊多層的Transformer結(jié)構(gòu)難度較低,導(dǎo)致模型無(wú)法有效率的學(xué)習(xí),并且存在訓(xùn)練階段有MASK標(biāo)記和微調(diào)階段無(wú)MASK標(biāo)記文本不一致的問(wèn)題,自然語(yǔ)言生成任務(wù)中性能較低;排序語(yǔ)言模型保留自回歸語(yǔ)言模型的優(yōu)點(diǎn),捕獲上下文語(yǔ)境,解決訓(xùn)練階段和微調(diào)階段存在不一致的問(wèn)題。特定領(lǐng)域的民間文學(xué)文本與一般文本在語(yǔ)言表達(dá)上存在差異,通用文本預(yù)訓(xùn)練模型不能學(xué)習(xí)專業(yè)領(lǐng)域語(yǔ)料庫(kù)中的術(shù)語(yǔ)和表達(dá),無(wú)法在特定領(lǐng)域的NLP任務(wù)中獲得高性能。

1.2 特定領(lǐng)域文本預(yù)訓(xùn)練模型

在生物醫(yī)學(xué)領(lǐng)域,BioBERT[5]使用生物醫(yī)學(xué)領(lǐng)域的文章和摘要預(yù)訓(xùn)練,評(píng)估生物醫(yī)學(xué)任務(wù),有助于其理解復(fù)雜的生物醫(yī)學(xué)文獻(xiàn);ClinicalBERT[6]使用大量臨床記錄和出院總結(jié)文本,提高臨床NLP任務(wù)的性能;SCIBERT[7]使用大量生物醫(yī)學(xué)領(lǐng)域論文和少量計(jì)算機(jī)科學(xué)領(lǐng)域的論文預(yù)訓(xùn)練,評(píng)估生物醫(yī)學(xué)NLP任務(wù),有助于學(xué)習(xí)專業(yè)領(lǐng)域名詞;在金融領(lǐng)域,F(xiàn)inBERT[8]使用金融新聞和財(cái)經(jīng)文章預(yù)訓(xùn)練,增加預(yù)訓(xùn)練任務(wù),評(píng)估NLP任務(wù),捕捉金融領(lǐng)域語(yǔ)言知識(shí)和語(yǔ)義信息;在多模態(tài)領(lǐng)域,VL-BERT[9]將視覺(jué)和語(yǔ)言作為輸入,在大規(guī)模的概念標(biāo)注數(shù)據(jù)集和純文本語(yǔ)料庫(kù)訓(xùn)練,評(píng)估視覺(jué)NLP任務(wù),提高對(duì)視覺(jué)-語(yǔ)言線索的融合和對(duì)齊能力。因此,對(duì)特定領(lǐng)域語(yǔ)料預(yù)訓(xùn)練,有助于識(shí)別特定領(lǐng)域的專有名詞、捕捉常識(shí)性知識(shí)和語(yǔ)義信息,提高特定領(lǐng)域下游任務(wù)的性能。

隨機(jī)隱蔽會(huì)忽略民間文學(xué)文本中注釋腳注的重要性,對(duì)字進(jìn)行隱蔽導(dǎo)致詞語(yǔ)語(yǔ)義信息的缺失。因此,該文采用改進(jìn)掩碼方式的方法,將民間文學(xué)注釋中的注釋釋義詞語(yǔ)重點(diǎn)隱蔽,通過(guò)注釋增強(qiáng)語(yǔ)言模型的學(xué)習(xí)理解能力。傳統(tǒng)的語(yǔ)言模型都是基于通用的現(xiàn)代語(yǔ)言語(yǔ)料庫(kù)無(wú)監(jiān)督訓(xùn)練而來(lái),而民間文學(xué)文本中,聯(lián)合注釋加以理解,有助于預(yù)訓(xùn)練模型學(xué)習(xí)更好的語(yǔ)義表示。

2 MythBERT模型

2.1 模型結(jié)構(gòu)

根據(jù)BERT輸入規(guī)則,給定民間文學(xué)文本數(shù)據(jù)集序列A=x1,x2,…,xm,輸入序列B=y1,y2,…,yn,增加句首和句子分隔的特殊標(biāo)記得到[CLS]x1,x2,…,xm,[SEP]y1,y2,…,yn,[SEP],[CLS]表示句首,[SEP]表示句子分隔符。面向民間文學(xué)文本的BERT預(yù)訓(xùn)練模型結(jié)構(gòu)如圖1所示,在BERT模型上改進(jìn)了文本輸入預(yù)處理方式,對(duì)應(yīng)的Token Embeddings也變成MASK后的字向量。利用民間文學(xué)注釋詞語(yǔ)(即書籍文本中對(duì)難詞、難句加以解釋的腳注)進(jìn)行中文分詞,對(duì)詞語(yǔ)MASK標(biāo)記替換。將注釋句定位到原文句子尾部,利用注釋句對(duì)照原句,便于模型加深理解語(yǔ)義。重點(diǎn)關(guān)注注釋詞語(yǔ),構(gòu)造預(yù)訓(xùn)練任務(wù)所需要的訓(xùn)練數(shù)據(jù),即[MASK]標(biāo)記替換得到[CLS]x1,x2,…,xm,[SEP][MASK],[MASK],…,yn,[SEP],[MASK]表示詞隱蔽替換。將輸入文本序列中每一個(gè)字對(duì)應(yīng)的字向量、分段向量和位置向量相加得到輸入向量,輸入至多層雙向Transformer網(wǎng)絡(luò),通過(guò)自注意力(Self-attention)機(jī)制學(xué)習(xí)文本表示,對(duì)其上下文信息進(jìn)行編碼,以預(yù)測(cè)輸入文本中被MASK后的詞語(yǔ)信息。

2.2 數(shù)據(jù)預(yù)處理

提取民間文學(xué)文本注釋句中的實(shí)體名詞便于分詞。將注釋句分為指代關(guān)系注釋、古今異義注釋和其他注釋三種情況,書籍中的注釋根據(jù)注釋序號(hào)“①、②、…”依次定位到對(duì)應(yīng)民間文學(xué)文本的原句末尾。另外,將指代關(guān)系注釋和古今異義注釋中實(shí)體名詞替換成注釋中的實(shí)際意義名詞。對(duì)預(yù)處理后的注釋數(shù)據(jù)添加一個(gè)N標(biāo)記,有助于判斷是否是注釋句,對(duì)注釋句中的詞語(yǔ)進(jìn)行掩碼。

由于民間文學(xué)文本中的注釋句不多,該文提取注釋名詞作為字典,對(duì)民間文學(xué)文本分詞,在百度百科和新華詞典數(shù)據(jù)集中搜索分詞后有具體意義的實(shí)體名詞釋義。對(duì)一詞多義的名詞釋義進(jìn)行篩選,留下正確的注釋并添加到民間文學(xué)文本對(duì)應(yīng)句子末尾。

2.3 民間文學(xué)文本預(yù)訓(xùn)練模型

BERT的字隱蔽策略是對(duì)輸入序列隨機(jī)隱蔽,所有的字隱蔽概率相同。民間文學(xué)文本中隨機(jī)隱蔽不能很好地學(xué)習(xí)到注釋詞語(yǔ)與注釋句的關(guān)系、建模句子的關(guān)鍵信息和學(xué)習(xí)到注釋句的重要特征。因此,MythBERT對(duì)BERT隱蔽語(yǔ)言模型的隨機(jī)隱蔽策略進(jìn)行改進(jìn),對(duì)普通詞語(yǔ)的隱蔽策略不變,重點(diǎn)關(guān)注注釋句中的釋義詞語(yǔ)。

2.3.1 民間文學(xué)文本預(yù)訓(xùn)練

該文使用官方的BERT-base(中文)預(yù)訓(xùn)練模型的初始權(quán)重對(duì)民間文學(xué)文本語(yǔ)料庫(kù)預(yù)訓(xùn)練。將添加注釋處理的民間文學(xué)文本數(shù)據(jù),經(jīng)過(guò)中文分詞后作為數(shù)據(jù)輸入,使用詞語(yǔ)隱蔽語(yǔ)言模型,對(duì)BERT的隱蔽語(yǔ)言模型中的隱蔽策略進(jìn)行改進(jìn),重點(diǎn)關(guān)注注釋句中的釋義詞語(yǔ)。MythBERT相關(guān)符號(hào)及含義如表1所示。

表1 符號(hào)及含義

(1)普通詞語(yǔ)隱蔽策略。MythBERT和BERT使用的隱蔽策略類似,對(duì)輸入序列中15%的詞語(yǔ)替換。其中,替換的詞語(yǔ)有80%的概率替換成[MASK]標(biāo)記,10%的概率替換成隨機(jī)詞語(yǔ),10%不進(jìn)行替換。該文對(duì)普通詞只是將字隱蔽改為詞隱蔽,BERT的隨機(jī)概率并未改變。

(2)注釋詞語(yǔ)隱蔽策略。如果當(dāng)前處理的句子是民間文學(xué)文本原句(即不含N標(biāo)記),則對(duì)50%的概率的注釋詞語(yǔ)替換成[MASK]標(biāo)記,另外50%不進(jìn)行替換。

MythBERT隱蔽策略具體步驟見算法1。

算法1:MythBERT隱蔽策略

輸入:A=x1,x2,…,xm,B=y1,y2,…,yn

輸出:詞向量T=T0,T1,…,Tm+n+3

步驟:

1.sentence←分詞(A,B)

2.FORi=1 TonDo

3.IFt>Maxmask THEN

//t控制序列最大MASK的個(gè)數(shù)

4. break

5. END IF

6. IFA∈Notes ORB∈Notes THEN

//注釋句則不做MASK替換

7. break

8. END IF

9. IF sentencei=普通詞語(yǔ) THEN

10. 普通詞語(yǔ)隱蔽策略

11.END IF

12.IF sentencei=注釋詞語(yǔ) THEN

13. 注釋詞語(yǔ)隱蔽策略

14. END IF

15.t←t+1

16.END FOR

2.3.2 微調(diào)MythBERT

MythBERT與BERT的微調(diào)過(guò)程相同,對(duì)于每個(gè)下游任務(wù),只需要將各個(gè)任務(wù)對(duì)應(yīng)的輸入和輸出送入MythBERT結(jié)構(gòu)中。使用民間文學(xué)預(yù)訓(xùn)練模型只需要將文中模型替換原來(lái)的中文BERT預(yù)訓(xùn)練模型,不需要更改配置和詞匯表文件。該文在以下四個(gè)有代表性的民間文學(xué)文本挖掘任務(wù)上對(duì)MythBERT進(jìn)行微調(diào)。

(1)民間文學(xué)情感分析對(duì)帶有強(qiáng)烈情感色彩的文本分析和推理。民間文學(xué)文本中帶有大量的比喻、擬人的修辭手法,生動(dòng)形象地表達(dá)主人公的情感色彩。以四句民間文學(xué)文本作為一條數(shù)據(jù),分為積極、消極或中性的情感,標(biāo)簽依次為1、-1和0。

(2)民間文學(xué)語(yǔ)義相似度根據(jù)輸入的兩個(gè)句子A和B,判斷其語(yǔ)義是否相似,意圖是否相同。以任意兩句作為一條數(shù)據(jù),將文本中的比喻、擬人都判斷為語(yǔ)義相同。例如:“可惜我們相差太遠(yuǎn)”和“好像大刀和斧頭”判為語(yǔ)義相同,標(biāo)簽記為1,否則記為0。

(3)民間文學(xué)命名實(shí)體識(shí)別。民間文學(xué)文本涉及到大量特定領(lǐng)域的專有名詞,識(shí)別人、地點(diǎn)、組織是一件非常具有挑戰(zhàn)的事情。采用BIO標(biāo)注方法,將命名實(shí)體分為人物(PER)、地點(diǎn)(LOC)、組織(ORG)和未知實(shí)體(UNK)四類,未知實(shí)體包括動(dòng)物、植物、工具等。以句子作為輸入,文本和標(biāo)簽分開存在文件中。

(4)民間文學(xué)問(wèn)答。從民間文學(xué)文本中給出一個(gè)問(wèn)題和一段包含答案的段落,問(wèn)答任務(wù)輸出預(yù)測(cè)文章答案的跨度。將輸入的問(wèn)題和段落表示為一個(gè)單獨(dú)的序列,句子A表示問(wèn)題,句子B表示段落。微調(diào)時(shí),起始向量S∈RH,結(jié)束向量E∈RH。第i個(gè)單詞作為答案跨度開始的概率Pi是Ti和S之間的點(diǎn)積,然后經(jīng)過(guò)Softmax變化得到,如公式(1)所示。

(1)

用戶通過(guò)問(wèn)答任務(wù)可以根據(jù)自己想要了解的民間文學(xué)知識(shí)進(jìn)行提問(wèn)得到解答。

3 實(shí) 驗(yàn)

該文使用BERTBase(L=12,H=768,A=12)對(duì)民間文學(xué)文本進(jìn)行預(yù)訓(xùn)練,L表示layers層數(shù)(即Transformer塊數(shù)),H表示隱藏層,A表示自注意力機(jī)制的頭數(shù)。本章將介紹民間文學(xué)預(yù)訓(xùn)練模型在4項(xiàng)NLP任務(wù)上的測(cè)試結(jié)果。為了進(jìn)行公平的預(yù)訓(xùn)練模型比較,每個(gè)模型都使用相同的超參數(shù),預(yù)訓(xùn)練時(shí)各個(gè)模型的初始學(xué)習(xí)率都設(shè)為2e-5,句子最大長(zhǎng)度為128。微調(diào)時(shí)初始學(xué)習(xí)率為5e-5,最大長(zhǎng)度為128。

3.1 實(shí)驗(yàn)設(shè)置

(1)數(shù)據(jù)集。采用云南大學(xué)文學(xué)院提供的民間文學(xué)文本數(shù)據(jù)集《云南少數(shù)民族古典史詩(shī)全集》、《傣族民間故事選》、《娥并與桑洛》和《千瓣蓮花》等,共計(jì)25.3萬(wàn)條句子。

(2)測(cè)試任務(wù)。針對(duì)情感分析、語(yǔ)義相似度、命名實(shí)體識(shí)別和問(wèn)答任務(wù)設(shè)置不同評(píng)價(jià)指標(biāo)。先進(jìn)行人工標(biāo)注,再按照8∶1∶1隨機(jī)劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集防止過(guò)擬合,具體任務(wù)數(shù)據(jù)集如表2所示。評(píng)價(jià)指標(biāo)所用到的計(jì)算公式如式(2)~式(5)所示。TP表示正確分類到該類的總數(shù),TP+TN表示正確分類的總數(shù),TP+FP表示預(yù)測(cè)分類到該類的總數(shù),TP+FN表示該類的總數(shù)。準(zhǔn)確率ACC表示被預(yù)測(cè)正確的樣本概率;精確率Precision表示預(yù)測(cè)為正確的樣本,有多少是真正的正樣本。召回率Recall表示標(biāo)記為正的樣本,有多少被預(yù)測(cè)為正。F1值表示預(yù)測(cè)答案與真實(shí)答案部分一致的匹配程度。

表2 測(cè)試任務(wù)數(shù)據(jù)集 條

(2)

(3)

(4)

(5)

(3)實(shí)驗(yàn)環(huán)境。實(shí)驗(yàn)基于Win10操作系統(tǒng),采用的CPU為Intel酷睿i9-10850K,GPU為NVIDIA TITAN V。開發(fā)語(yǔ)言Python3.6,采用深度學(xué)習(xí)框架Tensorflow 1.11。

3.2 對(duì)比模型

選取中文民間文學(xué)數(shù)據(jù)集,對(duì)比BERT、BERT-WWM、RoBERTa及該文提出的MythBERT。

(1)BERT[4]:預(yù)訓(xùn)練階段使用隱蔽語(yǔ)言模型和下一句預(yù)測(cè)任務(wù),MLM模型對(duì)15%的token進(jìn)行mask標(biāo)記,80%以[MASK]標(biāo)記代替,10%以隨機(jī)token代替以增加噪聲,10%不改變?cè)紅oken。

(2)BERT-WWM[12]:如果一個(gè)完整詞的部分子詞被掩碼,則同屬完整詞的其他子詞也會(huì)被掩碼。

(3)RoBERTa[14]:使用精細(xì)調(diào)參、動(dòng)態(tài)掩碼機(jī)制等,將預(yù)訓(xùn)練的文本復(fù)制10份,每一份隨機(jī)掩碼。同一文本會(huì)有10種不同的掩碼方式,每個(gè)序列被掩碼的詞不斷改變。

3.3 實(shí)驗(yàn)結(jié)果

將BERT、BERT-WWM、RoBERTa和MythBERT預(yù)訓(xùn)練模型分別在以下四個(gè)下游任務(wù)上進(jìn)行了對(duì)比,所有對(duì)比模型都在原模型上對(duì)民間文學(xué)語(yǔ)料庫(kù)預(yù)訓(xùn)練后得到。為了進(jìn)行公平比較,對(duì)每個(gè)數(shù)據(jù)集,訓(xùn)練和微調(diào)時(shí)都使用相同的超參數(shù)。該文分別測(cè)試超參數(shù)epochs分別取2、5、8、10、25、50、100時(shí)對(duì)下游任務(wù)準(zhǔn)確率、精確率和F1的影響。四個(gè)民間文學(xué)自然處理任務(wù)結(jié)果如表3所示。

表3 四個(gè)民間文學(xué)自然語(yǔ)言處理任務(wù)結(jié)果

(1)情感分析。

MythBERT在情感分析上取得了最好的效果。民間文學(xué)驗(yàn)證集準(zhǔn)確率達(dá)到83.5%,對(duì)比BERT、BERT-WWM和RoBERTa分別提升了1.5個(gè)百分點(diǎn)、2.5個(gè)百分點(diǎn)和1.5個(gè)百分點(diǎn);測(cè)試集準(zhǔn)確率達(dá)到89.8%,分別提升了1.8個(gè)百分點(diǎn)、1.0個(gè)百分點(diǎn)和0.5個(gè)百分點(diǎn)。因此,MythBERT有助于捕捉民間文學(xué)文本中的內(nèi)在情感。

不同epochs的情感分析準(zhǔn)確率如圖2所示,epochs=2時(shí),MythBERT和RoBERTa的準(zhǔn)確率比BERT和BERT-WWM高的多。隨著epochs的增加,各個(gè)模型的準(zhǔn)確率差距縮小,BERT和BERT-WWM收斂較慢。MythBERT在各個(gè)epochs的取值時(shí),情感分析的準(zhǔn)確率都是最高的。

(2)語(yǔ)義相似度。

MythBERT在語(yǔ)義相似度上取得了最好的效果。民間文學(xué)驗(yàn)證集準(zhǔn)確率達(dá)到82.4%,相較于BERT、BERT-WWM和RoBERTa分別提升了4.4個(gè)百分點(diǎn)、4.0個(gè)百分點(diǎn)和2.8個(gè)百分點(diǎn);測(cè)試集準(zhǔn)確率達(dá)到96.8%,分別提升了2.0個(gè)百分點(diǎn)、1.6個(gè)百分點(diǎn)和1.2個(gè)百分點(diǎn)。因此,MythBERT有助于學(xué)習(xí)民間文學(xué)文本中的句間關(guān)系。

不同epochs的語(yǔ)義相似度準(zhǔn)確率如圖3所示,MythBERT不斷增大epochs后,逐漸穩(wěn)定在96.8%附近。MythBERT在各個(gè)epochs的取值時(shí),語(yǔ)義相似度的準(zhǔn)確率都是最高的,比其他模型更能學(xué)習(xí)句間關(guān)系。

(3)命名實(shí)體識(shí)別。

MythBERT在命名實(shí)體識(shí)別上取得了最好的效果,有著明顯的提升。民間文學(xué)驗(yàn)證集F1值達(dá)到68.3%,相較于BERT、BERT-WWM和RoBERTa分別提升了1.7個(gè)百分點(diǎn)、1.0個(gè)百分點(diǎn)和1.8個(gè)百分點(diǎn);精確率達(dá)到64.7%,分別提升了2.5個(gè)百分點(diǎn)、0.9個(gè)百分點(diǎn)和2.6個(gè)百分點(diǎn)。測(cè)試集F1值達(dá)到66.0%,分別提升了1.0個(gè)百分點(diǎn)、0.8個(gè)百分點(diǎn)和4.0個(gè)百分點(diǎn);精確率達(dá)到61.8%,分別提升了1.8個(gè)百分點(diǎn)、1.1個(gè)百分點(diǎn)和5.4個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明詞MASK策略可以更好地識(shí)別詞與詞的邊界,有助于NER任務(wù)的提升。

不同epochs命名實(shí)體識(shí)別F1值如圖4所示,MythBERT的性能在不同epochs時(shí)均優(yōu)于其他模型。epochs=5時(shí),MythBERT逐漸收斂,有著上升的趨勢(shì)。而RoBERTa的性能大部分時(shí)候遠(yuǎn)低于其他三個(gè)模型。RoBERTa雖證明去掉NSP任務(wù)效果更好,但對(duì)代詞多,命名實(shí)體復(fù)雜和句子關(guān)聯(lián)密切的民間文學(xué)文本,NSP任務(wù)至關(guān)重要。MythBERT在預(yù)訓(xùn)練時(shí)額外增加隨機(jī)MASK注釋詞語(yǔ),因此,模型訓(xùn)練收斂,需要更多的epochs。

(4)問(wèn)答。

民間文學(xué)測(cè)試集F1值達(dá)到36.6%,比BERT、BERT-WWM和RoBERTa分別提升了4.9個(gè)百分點(diǎn)、2.4個(gè)百分點(diǎn)和4.9個(gè)百分點(diǎn),MythBERT與其他模型相比有著顯著的提升。推測(cè)與命名實(shí)體識(shí)別任務(wù)的提高有關(guān),答案大多來(lái)源于實(shí)體名詞,且詞語(yǔ)隱蔽策略都比BERT有著明顯的提升效果。

不同epochs的問(wèn)答F1值如圖5所示,當(dāng)epochs為2時(shí),MythBERT性能大大領(lǐng)先于其他模型。隨著epochs不斷增大,其他模型也相繼收斂,逐漸逼近MythBERT。但MythBERT在各個(gè)epochs值都仍然優(yōu)于其他模型。

4 結(jié)束語(yǔ)

該文提出了一種基于注釋增強(qiáng)的民間文學(xué)文本預(yù)訓(xùn)練模型MythBERT,該模型改進(jìn)了BERT的隱蔽語(yǔ)言模型策略,對(duì)民間文本中的注釋詞語(yǔ)進(jìn)行重點(diǎn)關(guān)注,并通過(guò)情感分析、語(yǔ)義相似度、命名實(shí)體識(shí)別和問(wèn)答這四個(gè)下游任務(wù)對(duì)民間文學(xué)預(yù)訓(xùn)練模型微調(diào)。在上述四個(gè)任務(wù)上的實(shí)驗(yàn)驗(yàn)證了MythBERT的有效性,尤其是在命名實(shí)體識(shí)別和問(wèn)答任務(wù)上有較大提升。提出的方法能以較低成本構(gòu)建民間文學(xué)領(lǐng)域的預(yù)訓(xùn)練模型,該思路也可應(yīng)用到那些具有較多注釋的文本中,如文言文書籍等。該文的下游任務(wù)還集中在民間文學(xué)數(shù)據(jù)集,在數(shù)據(jù)集規(guī)模、預(yù)訓(xùn)練語(yǔ)言模型對(duì)比、下游任務(wù)對(duì)比、模型性能評(píng)價(jià)指標(biāo)等各個(gè)方面還有待拓展。

猜你喜歡
民間文學(xué)語(yǔ)義詞語(yǔ)
濟(jì)慈長(zhǎng)詩(shī)《拉米婭》中的民間文學(xué)“母題”
容易混淆的詞語(yǔ)
真實(shí)場(chǎng)景水下語(yǔ)義分割方法及數(shù)據(jù)集
中國(guó)民間文學(xué)藝術(shù)發(fā)展現(xiàn)狀與保護(hù)
找詞語(yǔ)
《神話與民間文學(xué)
——李福清漢學(xué)論集》
“吃+NP”的語(yǔ)義生成機(jī)制研究
情感形容詞‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的語(yǔ)義分析
一枚詞語(yǔ)一門靜
漢語(yǔ)依憑介詞的語(yǔ)義范疇