国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于預訓練語言模型的中文地址命名實體識別

2022-10-11 03:01李廷元
現(xiàn)代計算機 2022年15期
關(guān)鍵詞:命名語義實體

李廷元,楊 勇

(中國民用航空飛行學院計算機學院,廣漢 618307)

0 引言

命名實體識別(named entity recognition,NER)是自然語言處理和構(gòu)建知識圖譜的基礎(chǔ)任務(wù),其目的是從海量的原始數(shù)據(jù)中準確識別出時間、地點、人物、組織等實體信息。命名實體識別的效果直接影響到其下游任務(wù)效果,因此顯得格外重要。通過從快遞單中識別姓名、電話、省、市、區(qū)等關(guān)鍵實體內(nèi)容,形成組織結(jié)構(gòu)清晰的結(jié)構(gòu)化數(shù)據(jù),可以幫助物流行業(yè)從業(yè)者快速地進行有效信息提取,從而減少客戶填單的時間成本,最終達到提高物流行業(yè)從業(yè)者工作效率的目的。

目前,常見的命名實體識別方法包括基于規(guī)則和詞典的方法、基于機器學習的方法和基于深度學習的方法這三大類。早期的命名實體識別任務(wù)中采用的方法是基于規(guī)則和詞典的方法,需要專家手動構(gòu)建規(guī)則,將給定的文本數(shù)據(jù)與規(guī)則進行匹配從而得到相應(yīng)的命名實體信息。該方法在處理小規(guī)模的數(shù)據(jù)時精確度會很高,但是隨著數(shù)據(jù)集的增大,規(guī)則的構(gòu)建會更加復雜且困難,耗時耗力且可移植性差。

基于機器學習的方法主要包括隱馬爾可夫模型(hidden Markov model,HMM)、最大熵模型(maximum entropy,ME)、支 持 向 量 機(SVM)和條件隨機場(conditional random field,CRF)等模型。雖然相較于基于規(guī)則和字典的方法,實體識別的效果得到了進一步的提高,但是統(tǒng)計模型的狀態(tài)搜索空間龐大、訓練時間長、過于依賴特征選取及數(shù)據(jù)集,耗時耗力且實驗效果不顯著。

伴隨著深度學習的發(fā)展,將神經(jīng)網(wǎng)絡(luò)應(yīng)用于處理命名實體識別任務(wù),成為目前較為流行的一種方式。Huang等提出使用長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、雙向長短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)等模型來對文本中的上下文特征進行提取,最后通過條件隨機場(conditional random fields,CRF)來獲取最優(yōu)的序列,得出實驗最優(yōu)結(jié)果。李綱等在已建立BiLSTM-CRF算法模型的基礎(chǔ)之上,為了達到更好的命名實體識別效果,其通過結(jié)合垂直領(lǐng)域的先驗經(jīng)驗,使得實體識別的效果更佳。相較于之前傳統(tǒng)的機器學習方法,在命名實體識別任務(wù)上基于深度學習方法表現(xiàn)更加出色,但是依然存在著一些局限性,如對語義特征的獲取不夠豐富,無法充分理解語義特征,訓練后的詞向量是屬于靜態(tài)編碼的一種,是固定的,無法解決一詞多義的問題,從而導致算法模型對文本數(shù)據(jù)的理解與表達的意思依舊存在一些偏差。對此,為了提高深度學習在特征提取這一方面的能力,增加其對語義特征豐富度獲取的能力,Vaswani等提出了Transformer機制。該機制通過Attention機制直接對輸入序列進行建模,極大地提高了模型的并行計算能力。之后,2018年Devlin等在Transformer機制的基礎(chǔ)上,提出了BERT(bidirectional encoder representation from transformer)模型,可以獲取更加豐富的語義特征,同時也極大地縮減了訓練時間。

本 文 旨 在 探 究 預 訓 練 模 型BERT、ERNIE、NEZHA結(jié)合BiGRU-CRF模型在中文地址命名實體識別上的性能。首先對以上三種預訓練模型從原理及結(jié)構(gòu)兩個角度進行簡單介紹,之后在此基礎(chǔ)之上搭建算法模型,令其與BiGRU及CRF結(jié)合。將構(gòu)建好的算法模型應(yīng)用于指定的數(shù)據(jù)集中進行命名實體識別任務(wù)。最后分析實驗過程及其原因得出最終結(jié)果。

1 預訓練模型結(jié)構(gòu)及原理介紹

1.1 BERT

BERT模型是由Google公司于2018年提出的基于Transformer機制的預訓練模型。BERT采用雙向Transformer網(wǎng)絡(luò)結(jié)構(gòu),

采用大規(guī)模的文本語料進行預訓練操作,并且其在處理單個單詞的時候,還能夠考慮到該詞之前與之后的單詞,從而得到更加豐富的上下文語義特征,最終得到一個無監(jiān)督的、泛化的預訓練模型。BERT采用新的MLM(masked language model)的方式進行預訓練,不同于傳統(tǒng)那樣采用單個單方向的語言模型進行預訓練或者是將兩個單方向預訓練的語言模型進行簡單拼接的方式進行預訓練過程,通過新的方式進行預訓練可以獲取到更為深層次的語言特征信息,使得預訓練的效果更優(yōu)。BERT設(shè)計了兩個任務(wù)來預訓練該模型,第一個任務(wù)是采用MLM的方式來訓練語言模型,MLM簡單來說就是以15%的概率用mask token([MASK])對任意一個訓練序列中的token進行隨機替換,之后對原[MASK]位置的字符進行預測。它通過預測被替換的字符來學習句子內(nèi)部字符之間的關(guān)系,從而達到雙向預測的目的。第二個任務(wù)是采用下一句預測的方式,對句子級別的上下文關(guān)系進行獲取,從而達到預訓練效果的提升。引入這個任務(wù)可以讓模型更好地學到連續(xù)的文本片段之間的關(guān)系,從而獲取更為豐富的語義信息,使得實驗效果更佳。

從結(jié)構(gòu)層面分析,BERT是由多個Transformer編碼器以某種方式疊加在一起,來對文本中的語義特征進行捕獲。而其中每一個Transformer編碼器又是由自注意力機制(selfattention)層和前饋神經(jīng)網(wǎng)絡(luò)層兩部分組成。其中,自注意力機制是Transformer的核心機制,使用自注意力機制的優(yōu)勢在于,它不僅考慮了單個單詞對于整個文本的重要性,同時還解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)中存在的長期依賴的問題,在此基礎(chǔ)上模型的并行計算能力也得到了很大的提升。

1.2 ERNIE

ERNIE(enhanced representation through knowledge integration)是 百 度 公 司 于2019年4月 對BERT模型做了進一步的優(yōu)化后所提出的預訓練模型。ERNIE被提出之后,先是針對BERT中使用的遮掩策略進行了進一步的優(yōu)化與改正。它在預訓練時采用的遮掩策略是對文本數(shù)據(jù)中整個詞進行屏蔽,在此基礎(chǔ)上來學習詞與實體的表達,相對于BERT模型中僅僅只針對單個字符進行遮掩,這種方式訓練效果更好,采用這種方式不僅增強了語義表示能力,還使得在語言推斷任務(wù)上的效果更為顯著。由此可以看出,ERNIE1.0僅僅只是優(yōu)化了BERT遮掩詞策略就取得了不錯的效果,那如果使用更多較好的學習任務(wù)來訓練模型,是否會取得更好的效果?在這一想法的驅(qū)使下,ERNIE2.0應(yīng)運而生。它采用多任務(wù)學習增量式方式來組建預訓練任務(wù),同時通過持續(xù)學習的語義理解來構(gòu)建預訓練框架,從而從多個維度來獲取文本數(shù)據(jù)的語法、句法、語義等信息,極大地提升了語義特征的豐富度。使得在多種自然語言處理任務(wù)中呈現(xiàn)的效果都優(yōu)于BERT。

1.3 NEZHA

NEZHA(Neural ContextualiZed Representation for CHinese LAnguage Understanding)是由華為諾亞方舟實驗室研發(fā)推出的中文預訓練模型。NEZHA是分別從模型、預訓練任務(wù)和訓練算法三個方面對BERT模型進行改進的預訓練模型,一經(jīng)推出就備受關(guān)注。

模型方面的改進是采用相對位置編碼方式取代了BERT中的絕對位置編碼,經(jīng)過大規(guī)模的文本訓練,實驗結(jié)果表明,采用相對位置編碼方式使得模型在各個下游任務(wù)中的效果得到明顯提高,更優(yōu)于采用BERT中的絕對位置編碼。

預訓練任務(wù)方面的改進是引入Span預測任務(wù),其采用全詞Mask技術(shù)取代了原始BERT模型中Mask單個中文字或單個英文字符技術(shù),從而獲取更為豐富的語義特征,模型訓練效果表現(xiàn)更佳。

訓練算法方面的改進是采用混合精度訓練(mixed precision tranining)方式結(jié)合LAMB優(yōu)化器,使得模型訓練時即使采用較大的批量大小,也可以明顯提升模型的訓練速度,從而得到較為可觀的訓練效果。

2 基于預訓練模型的中文地址命名實體識別模型搭建

首先采用預訓練模型對給定的數(shù)據(jù)集進行語義特征提取,根據(jù)文本的上下文信息生成動態(tài)詞向量,再將預訓練的結(jié)果輸入到BiGRU模型中進行進一步的訓練,最后通過CRF對Bi-GRU訓練出的結(jié)果進行修正,得到輸出的最優(yōu)標注序列。本文之所以選擇BiGRU而不使用BiLSTM,是因為相對于BiLSTM來說,BiGRU的結(jié)構(gòu)更為簡單,也可以和BiLSTM達到同樣的訓練效果。基于預訓練模型的中文地址命名實體識別模型如圖1所示。

圖1 預訓練模型-BiGRU-CRF算法模型

3 實驗

3.1 數(shù)據(jù)集

本文采用阿里中文地址要素解析比賽數(shù)據(jù)集來訓練模型。數(shù)據(jù)集采用BIOES標注方式進行標注,B代表begin,用來標注實體的開始部分;I代表inside,用來標注實體的中間部分;O代表other,用來標注與實體無關(guān)的信息;E代表end,用來標注實體的結(jié)尾部分;S代表single,用來標注單一的實體;數(shù)據(jù)集中包括訓練集、驗證集和測試集。

3.2 評估標準

本文對其評價指標包括:準確率(Precision)、召回率(Recall)和1值,計算公式如下:

其中,T為正確識別的實體個數(shù),F代表識別錯誤的實體個數(shù),F代表未識別的實體個數(shù)。

3.3 參數(shù)設(shè)置

BERT中文預訓練模型(bert-base-chinese)具有12個表示層,768維隱藏層,12頭注意力機制,參數(shù)大小為108M;ERNIE預訓練模型(ernie-1.0)具有12個表示層,768維隱藏層,12頭注意力機制,參數(shù)大小為108M;NEZHA預訓練模型(nezha-base-chinese)具有12個表示層,768維隱藏層,12頭注意力機制,參數(shù)大小為108 M。本次實驗采用的優(yōu)化器為AdamW,它在Adam的基礎(chǔ)上加了權(quán)重衰減的優(yōu)化器,可以解決L2正則表達化失效問題。學習率設(shè)置為2×10,batch_size設(shè)置 為300,訓 練epoch設(shè)置為10,dropout設(shè)置為0.3來避免過擬合。

3.4 實驗結(jié)果

本次實驗搭建了不同的預訓練模型與BiGRU及CRF進行組合,本次實驗環(huán)境基于相同的軟硬件環(huán)境進行執(zhí)行,設(shè)計了多組對比實驗,從而驗證基于不同的預訓練模型的命名實體識別模型在中文地址識別過程中所展示的實驗效果。實驗結(jié)果如表1所示。

表1 不同模型實驗結(jié)果對比

通過比較不同的預訓練模型與BiGRU及CRF相結(jié)合組成的算法模型在數(shù)據(jù)集上得出的訓練結(jié)果可知,預訓練模型可以獲取更加豐富的語義信息,在訓練過程中,預訓練模型可以更好地結(jié)合文本數(shù)據(jù)的上下文語義信息,能夠很好地對詞向量進行表示,使得預訓練模型對于實體識別的效果更好。根據(jù)實驗結(jié)果呈現(xiàn)的數(shù)據(jù)來看,相較于ERNIE和BERT,NEZHA的實驗結(jié)果表現(xiàn)更佳,性能也更優(yōu)。

由此我們可以得出實驗結(jié)論:預訓練模型具有泛化性,可以在訓練過程中獲取更為豐富的語義信息,解決了一詞多義的問題,在命名實體識別任務(wù)中表現(xiàn)好、精度高,但是也依舊存在著一些問題,比如對詞邊界問題考慮不周,易對詞匯邊界識別出錯、重疊等缺陷。

4 結(jié)語

目前,國內(nèi)外學者已經(jīng)在中文命名實體識別方面做了很多研究工作?;谏疃壬窠?jīng)網(wǎng)絡(luò)的預訓練模型在自然語言處理方面有著很好的表現(xiàn)。在未來工作中,也會傾向于預訓練模型方面的研究。下一步將會著手于在進行預訓練模型之前對數(shù)據(jù)預處理方面的研究,嘗試對文本數(shù)據(jù)進行分詞,分清詞邊界,解決詞匯重疊等一些問題,在提高模型實體識別精確度的基礎(chǔ)上,對模型的性能方面做出改善,使得中文地址實驗效果表現(xiàn)更好。

猜你喜歡
命名語義實體
我國第三艘航空母艦下水命名“福建艦”
基于ColBert-EL 和MRC 模型的零樣本實體鏈接
韓國語“容入-離析”關(guān)系表達及認知語義解釋
實體錢
有一種男人以“暖”命名
2017實體經(jīng)濟領(lǐng)軍者
淺析新課程標準下《苯的同系物的命名》
過足官癮
池州市| 莲花县| 吉林省| 调兵山市| 手游| 金阳县| 天门市| 建平县| 孙吴县| 新泰市| 华池县| 祁东县| 巧家县| 赤城县| 漳平市| 平顶山市| 固阳县| 三门县| 唐河县| 兴业县| 来宾市| 华蓥市| 德庆县| 云浮市| 连州市| 商水县| 辰溪县| 白城市| 恭城| 四会市| 红桥区| 黄石市| 文成县| 沙坪坝区| 龙州县| 深泽县| 信阳市| 金塔县| 亳州市| 卫辉市| 湘潭县|