国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于預(yù)訓(xùn)練模型的命名實(shí)體識(shí)別研究

2023-09-18 18:55:23胡叮叮張琛王之原
現(xiàn)代信息科技 2023年15期

胡叮叮 張琛 王之原

摘? 要:目前中文命名實(shí)體識(shí)別存在的主要的問(wèn)題有:實(shí)體的邊界模糊,實(shí)體邊界和非實(shí)體之間也存在邊界模糊問(wèn)題,并且在小數(shù)據(jù)集下模型識(shí)別效果不明顯。為了解決以上問(wèn)題,通過(guò)加強(qiáng)對(duì)文本上下文語(yǔ)義特征的提取能力,使模型能夠根據(jù)上下文語(yǔ)義特征來(lái)精準(zhǔn)地推測(cè)出實(shí)體,提出一種BERT_BiLSTM_CRF的模型,BERT可以根據(jù)文本上下文信息,使每個(gè)詞在文本語(yǔ)義中對(duì)應(yīng)一個(gè)低緯的稠密的詞向量,BiLSTM可以捕獲時(shí)序特征,并且使用CRF來(lái)對(duì)輸出標(biāo)簽的順序進(jìn)行約束。經(jīng)實(shí)驗(yàn)表明,使用預(yù)訓(xùn)練模型獲取的動(dòng)態(tài)詞向量比隨機(jī)初始化的詞嵌入有顯著提高。

關(guān)鍵詞:預(yù)訓(xùn)練模型;命名實(shí)體識(shí)別;動(dòng)態(tài)詞向量;BiLSTM;CRF

中圖分類號(hào):TP391.1;TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2023)15-0078-05

Research on Named Entity Recognition Based on Pre-training Model

HU Dingding, ZHANG Chen, WANG Zhiyuan

(Gansu University of Political Science and Law, Lanzhou? 730070, China)

Abstract: The main problems in Chinese named entity recognition are the boundary of entities is blurry, the boundary between entity boundary and non-entity is also blurry, and the recognition effect of small data set model is not obvious. In order to solve the above problems, by strengthening the extraction ability of semantic features of the text context, this paper makes the model can accurately infer the entity according to the context semantic features, and proposes a BERT _BiLSTM_ CRF model. According to the text context information, BERT can make each word in the text semantic to correspond to a dense word vector at low latitude. BiLSTM can capture temporal features, and use the CRF to constraint the order of output labels. The experiments show that the acquired dynamic word vector by using the pre-training model improves significantly over the randomly initialized word embedding.

Keywords: pre-training model; named entity recognition; dynamic word vector; BiLSTM; CRF

0? 引? 言

隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,網(wǎng)絡(luò)上產(chǎn)生了海量的數(shù)據(jù),同時(shí)這些海量的數(shù)據(jù)又促進(jìn)了數(shù)據(jù)處理技術(shù)的發(fā)展。以文本為信息載體的數(shù)據(jù)形式,即自然語(yǔ)言,在網(wǎng)絡(luò)數(shù)據(jù)中占據(jù)一定的比例。研究如何自動(dòng)化地從這些文本數(shù)據(jù)中挖掘出有價(jià)值的信息,是自然語(yǔ)言處理的一個(gè)熱門方向。命名實(shí)體識(shí)別任務(wù)研究如何從文本中自動(dòng)化地將實(shí)體提取出來(lái)的一門技術(shù),主要是識(shí)別出文本中的人名,地名,機(jī)構(gòu)名等,對(duì)下游任務(wù)的進(jìn)行起到基礎(chǔ)性的作用,比如知識(shí)圖譜的構(gòu)建。命名實(shí)體作為自然語(yǔ)言處理的上游任務(wù),其抽取的準(zhǔn)確率對(duì)于后續(xù)的文本處理任務(wù)具有重要的意義。

命名實(shí)體識(shí)別[1]任務(wù)中最基礎(chǔ)的一步是文本向量表示,一個(gè)好的文本向量表示是下游任務(wù)的關(guān)鍵。文本向量表示最簡(jiǎn)單的方式是獨(dú)熱編碼(one-hot),但其僅可以獲得詞頻和詞共現(xiàn)的特征,丟失了文本時(shí)序信息。隨后Bengio [2]等人2003年提出神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,通過(guò)高維空間連續(xù)稠密的詞向量解決one-hot編碼中稀疏的問(wèn)題,神經(jīng)網(wǎng)絡(luò)獲得更好的泛化能力。并且首次提出詞向量的概念。詞向量的引入解決了統(tǒng)計(jì)語(yǔ)言模型部分相似性的問(wèn)題,為后續(xù)NLP(Natural Language Processing)詞向量時(shí)代的發(fā)展做了鋪墊。但是作為早期的文本表示方法,依然存在一些問(wèn)題,比如訓(xùn)練時(shí)間長(zhǎng)、學(xué)習(xí)出的詞向量效果一般等。隨后Word2Vec[3]出現(xiàn),在經(jīng)過(guò)大量的中文語(yǔ)料進(jìn)行無(wú)監(jiān)督的學(xué)習(xí),最終得到的詞向量具有一定的通用性,但Word2Vec是一種靜態(tài)的詞向量,Word2Vec無(wú)法應(yīng)對(duì)靈活多變的中文多義詞情況,此種情況下對(duì)文本的理解會(huì)產(chǎn)生歧義,從而導(dǎo)致命名實(shí)體識(shí)別的識(shí)別效果不夠準(zhǔn)確。

2018年,預(yù)訓(xùn)練語(yǔ)言模型BERT [4]橫空出世,學(xué)者們將BERT應(yīng)用于NLP各項(xiàng)任務(wù),比如文本分類任務(wù)[5]、序列標(biāo)注任務(wù)[6]等,因其可以根據(jù)文本上下文動(dòng)態(tài)地表示詞向量,解決了一詞多義問(wèn)題。Wen等人[7]在中醫(yī)中使用BERT進(jìn)行了實(shí)體識(shí)別,證明了預(yù)訓(xùn)練的語(yǔ)言模型在中醫(yī)文本的命名實(shí)體識(shí)別任務(wù)中的有效性。

本文使用BERT作為命名實(shí)體識(shí)別的詞向量表示模型。在模型特征提取過(guò)程中使用BiLSTM模型,其由兩個(gè)單向的長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)組成,最終形成的詞向量作為該詞的最終特征表達(dá)。這種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型對(duì)文本特征的提取效率和性能要優(yōu)于單個(gè)LSTM結(jié)構(gòu)模型。由于CRF(Conditional random field)[8]可以對(duì)輸出序列的順序進(jìn)行約束而被廣泛用于序列標(biāo)注任務(wù)中,本文在模型的最后加上CRF作為模型最終的輸出,進(jìn)一步提高輸出序列的精度。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,本文提出的模型在命名實(shí)體識(shí)別任務(wù)上較其他模型的精度有所提高。

1? 相關(guān)技術(shù)

1.1? 詞向量

詞向量主要有靜態(tài)詞向量和動(dòng)態(tài)詞向量。靜態(tài)詞向量最典型且使用最廣泛的是Word2Vec,雖然在各個(gè)領(lǐng)域上具有一定的通用性,但其無(wú)法解決一詞多義問(wèn)題,即一個(gè)詞只對(duì)應(yīng)一個(gè)固定的向量,而現(xiàn)實(shí)情況是,根據(jù)不同的語(yǔ)境,同一個(gè)詞會(huì)有多種含義,使用靜態(tài)詞向量就會(huì)導(dǎo)致無(wú)法正確理解文本的含義。而動(dòng)態(tài)詞向量,顧名思義,是可以根據(jù)文本上下文信息來(lái)動(dòng)態(tài)地表示每個(gè)詞在文本中的意思。例如“我喜歡蘋果”這句話,如果沒(méi)有下文,“蘋果”一般會(huì)被認(rèn)為是一種實(shí)體,但是接了下文,比如“像素高”,“蘋果”和“像素高”產(chǎn)生了關(guān)聯(lián),那么“蘋果”對(duì)應(yīng)的詞向量表示會(huì)大不一樣。而靜態(tài)詞向量,即一個(gè)詞只能有一個(gè)固定的含義,而現(xiàn)實(shí)情況是,中文在不同的語(yǔ)境下有多種含義,靜態(tài)詞向量容易產(chǎn)生歧義。而動(dòng)態(tài)詞向量是通過(guò)周圍詞的關(guān)聯(lián)來(lái)確定的,就不存在多義詞問(wèn)題,獲取動(dòng)態(tài)詞向量的方式主要介紹兩種:隨機(jī)初始化的Embedding和預(yù)訓(xùn)練模型。

隨機(jī)初始化Embedding,主要的實(shí)現(xiàn)過(guò)程是先統(tǒng)計(jì)出整個(gè)語(yǔ)料所有不同字的字?jǐn)?shù)為n,并且預(yù)先設(shè)定每個(gè)字以多少維度的向量表示,假設(shè)以d維向量表示每個(gè)字,隨機(jī)初始化一個(gè)二維的矩陣H n×d,H相當(dāng)于一個(gè)詞表,通過(guò)梯度下降,更新這個(gè)詞表。假設(shè)Embedding層的輸入形狀為b×m(b為batch_size,m是序列的長(zhǎng)度),則輸出的形狀是b×m×d。

預(yù)訓(xùn)練模型是設(shè)計(jì)較為復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,由雙向的Tranformer的encoder組成,整體是一個(gè)自編碼語(yǔ)言模型,從損壞的輸入數(shù)據(jù)中預(yù)測(cè)重建原始數(shù)據(jù),核心技術(shù)就是自注意力機(jī)制[9],如圖1所示。第一個(gè)任務(wù)是采用MaskLM的方式來(lái)訓(xùn)練語(yǔ)言模型,思路是在輸入一句話,隨機(jī)地選15%的進(jìn)行掩蓋,用一個(gè)特殊的符號(hào)[mask]來(lái)代替被掩蓋的詞,然后讓模型根據(jù)所給的標(biāo)簽去預(yù)測(cè)這些被掩蓋的詞。第二個(gè)任務(wù)是在雙向語(yǔ)言模型的基礎(chǔ)上增加了一個(gè)句子級(jí)別的連續(xù)性預(yù)測(cè)任務(wù),即預(yù)測(cè)輸入BERT的兩段文本是否為連續(xù)的文本,引入這個(gè)任務(wù)可以更好地讓模型學(xué)到連續(xù)的文本片段之間的關(guān)系。BERT相較于原來(lái)的RNN、LSTM可以做到并發(fā)執(zhí)行,同時(shí)提取詞在句子中的關(guān)系特征,并且能在多個(gè)角度提取關(guān)系特征,進(jìn)而更全面反映句子語(yǔ)義。相較于Word2Vec,其又能根據(jù)句子上下文獲取詞義,從而避免歧義出現(xiàn)。BERT作為一種預(yù)訓(xùn)練模型,在特定場(chǎng)景使用時(shí)不需要用大量的語(yǔ)料來(lái)進(jìn)行訓(xùn)練,節(jié)約時(shí)間效率高效,泛化能力較強(qiáng),在小數(shù)據(jù)集下通過(guò)微調(diào),也能夠取得不錯(cuò)的效果。BERT是一種端到端的模型,不需要調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),只需根據(jù)下游任務(wù)在最后加上特定的輸出層即可。

1.2? BiLSTM模型

長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM是屬于循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,在時(shí)序數(shù)據(jù)預(yù)測(cè)上表現(xiàn)出不錯(cuò)的效果,例如語(yǔ)音識(shí)別、文本翻譯等領(lǐng)域。LSTM作為RNN的有效改進(jìn),解決了長(zhǎng)距離信息丟失的問(wèn)題。在命名實(shí)體識(shí)別領(lǐng)域,LSTM可以有效提取文本時(shí)序特征,從而能夠更好地理解文本內(nèi)容。而雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)BiLSTM在提取文本特征上更進(jìn)一步。BiLSTM由前向LSTM與后向LSTM組合而成,在時(shí)序數(shù)據(jù)的序列輸入中,當(dāng)前的輸出不僅與前面的文本有關(guān)系,也與后面的文本有關(guān)系,單向的LSTM只能按照從前往后的順序進(jìn)行更新隱藏層狀態(tài),無(wú)法利用序列的后文信息,而B(niǎo)iLSTM可以捕捉雙向語(yǔ)義,即可以捕獲輸出序列從前往后的信息,也可以獲得輸出序列的從后往前的信息。最后將兩者不同的順序進(jìn)行結(jié)合,得到BiLSTM模型的輸出,BiLSTM的結(jié)構(gòu)如圖2所示。

1.3? 條件隨機(jī)場(chǎng)

條件隨機(jī)場(chǎng)(CRF)是一種判別式的模型,在通過(guò)輸入文本序列中建立遠(yuǎn)程依賴關(guān)系,從全局的角度獲得最優(yōu)的預(yù)測(cè)標(biāo)簽序列。假設(shè)給定輸入文本序列x,和對(duì)應(yīng)的標(biāo)簽序列y。對(duì)文本序列對(duì)應(yīng)的打分如下:

式中:A表示轉(zhuǎn)移概率矩陣,是序列標(biāo)簽的個(gè)數(shù),另外兩維是起始狀態(tài)和結(jié)束狀態(tài), 表示由標(biāo)簽轉(zhuǎn)移到標(biāo)簽的轉(zhuǎn)移得分,Pij表示第i個(gè)字為j的概率得分,整個(gè)序列的分?jǐn)?shù)總數(shù)等于各個(gè)位置的打分之和。因?yàn)轭A(yù)測(cè)的序列有很多種情況,種類為標(biāo)簽的排列組合大小。只需選取得分最大的組合,通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練使得最大得分的Score在所有Score中的比重越大越好。最后使用Softmax函數(shù)歸一化得到所有的標(biāo)簽序列的概率。如式所示:

1.4? 序列標(biāo)注

在命名實(shí)體識(shí)別任務(wù)中通常采用序列標(biāo)注的形式,即對(duì)文本中每一個(gè)漢字給出一個(gè)對(duì)應(yīng)的標(biāo)簽,例如使用最簡(jiǎn)單的BIO標(biāo)注方式。B表示實(shí)體的開(kāi)頭,I表示實(shí)體的除了開(kāi)頭的其他部分,O表示其他的詞。如B-PER、I-PER代表人名首字、人名非首字的其他部分,B-LOC、I-LOC代表地名的首字、地名非首字的其他部分,而B(niǎo)-ORG、I-ORG同理代表組織機(jī)構(gòu)的相應(yīng)位置。模型通過(guò)大量的訓(xùn)練,最后預(yù)測(cè)出輸入文本對(duì)應(yīng)的標(biāo)簽。

2? 模型構(gòu)建

2.1? 模型整體架構(gòu)

提出的模型由BERT、BiLSTM和CRF三部分組成,如圖3所示。輸入序列經(jīng)過(guò)BERT得到序列中每個(gè)字的向量表示,然后在特征提取層,使用BiLSTM層提取序列的時(shí)序特征,最后將經(jīng)過(guò)BiLSTM得到的輸出作為CRF算法的輸入,對(duì)標(biāo)簽序列的順序進(jìn)行約束,得到最終輸出的標(biāo)簽序列。

2.2? BERT層

首先將文本輸入序列的每個(gè)字進(jìn)行id映射,變成機(jī)器能夠識(shí)別的數(shù)值型,此過(guò)程為文本的token嵌入,再將輸入序列進(jìn)行位置編碼,融入每個(gè)字的位置信息,然后進(jìn)行分段編碼,分段編碼將整個(gè)輸入句子編碼為0,最后將三個(gè)嵌入向量對(duì)應(yīng)位置進(jìn)行相加,得到BERT的輸入。由于訓(xùn)練BERT預(yù)訓(xùn)練模型需要花費(fèi)大量的時(shí)間和算力,因此本文下載已經(jīng)訓(xùn)練好的模型參數(shù)作為初始化參數(shù)。假設(shè)xi表示輸入句子的第i個(gè)詞的id,經(jīng)過(guò)BERT模型,每個(gè)字對(duì)應(yīng)的輸出維度是768,每個(gè)字對(duì)應(yīng)的動(dòng)態(tài)向量具體為:

vwi=BERT(wi)(3)

2.3? BiLSTM層

前向LSTM和后向LSTM同時(shí)進(jìn)行訓(xùn)練,輸出也是由前向隱藏狀態(tài)和后向隱藏狀態(tài)共同決定,即將雙向的LSTM的每個(gè)時(shí)刻的輸出進(jìn)行向量拼接,得到某一時(shí)刻的狀態(tài)輸出,t時(shí)刻的BiLSTM的輸出如下:

2.4? CRF層

CRF層的作用就是對(duì)最終序列標(biāo)注進(jìn)行約束,由式(2)得到每個(gè)輸出序列標(biāo)簽的概率,目標(biāo)是使得其中的一組輸出序列的概率最大。假設(shè)y′表示真實(shí)標(biāo)簽,Yc表示所有可能標(biāo)簽的集合空間,然后使用最大似然函作為損失函數(shù)來(lái)優(yōu)化模型參數(shù),最后利用維特比算法求得全局最優(yōu)序列,最優(yōu)序列為最終序列標(biāo)注任務(wù)的標(biāo)簽序列結(jié)果。最終的損失函數(shù)如下:

模型以預(yù)測(cè)出概率最高的標(biāo)注序列為目標(biāo)進(jìn)行訓(xùn)練,通過(guò)梯度下降法,使得Loss的值下降,最終轉(zhuǎn)為求Loss最小值的數(shù)學(xué)問(wèn)題。

3? 實(shí)驗(yàn)及結(jié)果分析

3.1? 實(shí)驗(yàn)數(shù)據(jù)集

本章所有實(shí)驗(yàn)數(shù)據(jù)來(lái)源自Aishell 3語(yǔ)音對(duì)應(yīng)的文本內(nèi)容,經(jīng)分析發(fā)現(xiàn)該數(shù)據(jù)集含有大量的實(shí)體數(shù)據(jù),涉及智能家具、無(wú)人駕駛、工業(yè)生產(chǎn)等11個(gè)領(lǐng)域,因此作為本實(shí)驗(yàn)的訓(xùn)練語(yǔ)料。在實(shí)驗(yàn)數(shù)據(jù)上選取了句子長(zhǎng)度在5個(gè)到25個(gè)之間的數(shù)據(jù),選取了5 000條數(shù)據(jù)作為模型的訓(xùn)練集,500條作為模型的驗(yàn)證集。

3.2? 預(yù)訓(xùn)練模型的微調(diào)方式

訓(xùn)練BERT模型需大量的時(shí)間和算力,而且需要大量的語(yǔ)料作為訓(xùn)練集,并且從頭開(kāi)始訓(xùn)練,對(duì)于BERT具有千萬(wàn)參數(shù)量的大型神經(jīng)網(wǎng)絡(luò)是不現(xiàn)實(shí)的。因此本文采用訓(xùn)練好的已經(jīng)發(fā)布的“bert-base-chinese”模型,并在此基礎(chǔ)上進(jìn)行微調(diào)。微調(diào)的方式有以下兩種:

1)固定預(yù)訓(xùn)練模型的所有參數(shù),只對(duì)自定義的網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練。

2)不固定任何的參數(shù),將預(yù)訓(xùn)練模型的參數(shù)作為整個(gè)模型的初始化,并且更新整個(gè)網(wǎng)絡(luò)的參數(shù)。

第一種方式因?yàn)橹挥?xùn)練自定義的網(wǎng)絡(luò),更新的參數(shù)量少,節(jié)省計(jì)算時(shí)間和成本,但是只訓(xùn)練自定義的網(wǎng)絡(luò),在一些非通用數(shù)據(jù)集上效果往往不明顯。因此,本文選擇第二種方式,使用經(jīng)過(guò)大量語(yǔ)料訓(xùn)練后的預(yù)訓(xùn)練模型參數(shù)進(jìn)行模型的部分初始化,然后在本文提出的數(shù)據(jù)集上進(jìn)行模型的訓(xùn)練,在訓(xùn)練過(guò)程中不斷地更新網(wǎng)絡(luò)中的所有參數(shù)。

3.3? 參數(shù)設(shè)置

優(yōu)化器使用Adam(Adaptive Moment Estimation),學(xué)習(xí)率設(shè)為0.001,批處理為64,BERT的隱藏單元數(shù)為768,BiLSTM的隱藏單元為768,為了防止模型過(guò)擬合,除了Embedding模型,所有的模型都設(shè)置了dropout,且都設(shè)為0.2。

3.4? 評(píng)價(jià)指標(biāo)

為了準(zhǔn)確評(píng)估所提出模型的命名實(shí)體識(shí)別性能,使用精確率P(precision)、召回率R(recall)和F1評(píng)價(jià)指標(biāo)在驗(yàn)證集上來(lái)衡量模型的準(zhǔn)確度?;煜仃嚨囊话阈问饺绫?所示。

評(píng)價(jià)方法:采用精確率P,召回率R,和F1為模型評(píng)價(jià)指標(biāo),其計(jì)算式如下。

P的公式可以表示:

3.5? 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證BERT對(duì)文本表示向量的準(zhǔn)確性,選取了隨機(jī)初始化的Embedding作為模型的對(duì)比,也為了驗(yàn)證加入的深度學(xué)習(xí)模型BiLSTM和CRF能夠提高命名實(shí)體識(shí)別性能,設(shè)置了一組消融實(shí)驗(yàn),如只有簡(jiǎn)單的BERT和全連接層FC、BERT_CRF,并在自選的小數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果如圖表2所示。

從表2可以看出,隨機(jī)初始化的詞嵌入模型Embedding_CRF模型和使用BERT_CRF模型的F1的值相差約26%,由此可見(jiàn)使用BERT模型具有明顯的優(yōu)勢(shì),說(shuō)明經(jīng)過(guò)大量的中文語(yǔ)料的學(xué)習(xí),預(yù)訓(xùn)練模型可以學(xué)習(xí)到更多的文本語(yǔ)義信息。隨機(jī)初始化的Embedding雖然可以經(jīng)過(guò)反向傳播進(jìn)行更新網(wǎng)絡(luò)參數(shù),學(xué)習(xí)到詞與詞之間的關(guān)系,但是所得的動(dòng)態(tài)詞向量依然達(dá)不到文本表示向量精確度的要求,并且和預(yù)訓(xùn)練模型存在較大的差距。分析其原因有:第一,在小數(shù)據(jù)集下,訓(xùn)練文本語(yǔ)料不足,而預(yù)訓(xùn)練模型是經(jīng)過(guò)大量的文本語(yǔ)料的學(xué)習(xí)從而模型具有強(qiáng)大的泛化能力,在小數(shù)據(jù)集上同樣也表現(xiàn)出較好的效果。第二,網(wǎng)絡(luò)的設(shè)計(jì),Embedding模型的網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,最重要的網(wǎng)絡(luò)結(jié)構(gòu)只有線性層網(wǎng)絡(luò),而B(niǎo)ERT的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)復(fù)雜,有多頭注意力層、歸一化層、前饋神經(jīng)網(wǎng)絡(luò)層和殘差網(wǎng)絡(luò),其中最重要的多頭注意力層可以從文本的多個(gè)角度來(lái)提取文本特征,從而使得BERT在文本表示上具有顯著的效果。

BERT和BERT_CRF模型的對(duì)比實(shí)驗(yàn)中加入了CRF,F(xiàn)1的值提升了1%,說(shuō)明CRF對(duì)模型的最終輸出序列的順序起到了約束的作用,這種約束規(guī)范有助于提高模型的準(zhǔn)確率。模型BERT_BiLSTM_CRF和模型BERT_CRF對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)加入了BiLSTM比沒(méi)有加入的模型,提取效果有了一定的提高,說(shuō)明BiLSTM捕獲雙向的時(shí)序信息,對(duì)模型的準(zhǔn)確率起到了一定的作用。

4? 結(jié)? 論

針對(duì)命名實(shí)體存在邊界模糊和在小數(shù)據(jù)集下效果不明顯的問(wèn)題,本文主要從提高文本表示能力角度出發(fā),提出使用預(yù)訓(xùn)練模型獲得動(dòng)態(tài)詞向量。該動(dòng)態(tài)詞向量攜帶了大量的語(yǔ)義信息,可以更加精確地表示文本。在特征提取模塊,選擇了BiLSTM,可以從文本前后兩個(gè)角度深入提取文本特征,在最終輸出的標(biāo)簽序列使用CRF對(duì)標(biāo)簽序列輸出順序進(jìn)行約束,減少非法的輸出,來(lái)獲得最優(yōu)的輸出序列。實(shí)驗(yàn)和隨機(jī)初始化的詞嵌入方式進(jìn)行對(duì)比,發(fā)現(xiàn)預(yù)訓(xùn)練模型在命名實(shí)體識(shí)別中,效果有顯著提高,說(shuō)明了預(yù)訓(xùn)練模型作為文本表示具有明顯的而優(yōu)勢(shì),并且通過(guò)消融實(shí)驗(yàn)發(fā)現(xiàn),加入了BiLSTM和CRF模型具有更好的特征提取能力。

雖然使用預(yù)訓(xùn)練模型進(jìn)行中文命名實(shí)體識(shí)別取得了較好的效果,但是依然存在一些問(wèn)題,如BERT預(yù)訓(xùn)練模型的參數(shù)量大,導(dǎo)致訓(xùn)練時(shí)間過(guò)長(zhǎng),后續(xù)的研究將選取一個(gè)輕量級(jí)的預(yù)訓(xùn)練模型,并搭配不同的神經(jīng)網(wǎng)絡(luò)模型,進(jìn)一步尋找文本序列內(nèi)部聯(lián)系。

參考文獻(xiàn):

[1] 王穎潔,張程燁,白鳳波,等.中文命名實(shí)體識(shí)別研究綜述[J].計(jì)算機(jī)科學(xué)與探索,2023,17(2):324-341.

[2] BENGIO Y,DUCHARME R,VINCENT P,et al. A Neural Probabilistic Language Model [J].Journal of Machine Learning Research,2003(3):1137–1155.

[3] MIKOLOV T,CHEN K,CORRADO G,et al. Efficient Estimation of Word Representations in Vector Space [J/OL].arXiv: 1301.3781 [cs.CL].(2013-01-16).https://arxiv.org/abs/1301.3781v1.

[4] DEVLIN J,CHANG W,LEE K,et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv: 1810.04805 [cs.CL].(2018-10-11).https://arxiv.org/abs/1810.04805.

[5] 苗將,張仰森,李劍龍.基于BERT的中文新聞標(biāo)題分類[J].計(jì)算機(jī)工程與設(shè)計(jì),2022,43(8):2311-2316.

[6] 李雪思,張智雄,劉歡.一種基于序列標(biāo)注的概念短語(yǔ)抽取方法[J].圖書情報(bào)工作,2022,66(11):121-128.

[7] WEN S,ZENG B,LIAO W X. Named entity recognition for instructions of Chinese medicine based on pre-trained language model [C]//Proceedings of the 2021 3rd International Conference on Natural Language Processing.Piscataway:IEEE,2021:139-144.

[8] 宋功鵬,李陽(yáng),安新周,等.基于CRF和LSTM的文本序列標(biāo)注方法研究[J].信息技術(shù)與信息化,2022(7):129-132.

[9] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is all you need [C]//NIPS'17:Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach:Curran Associates Inc,2017:6000-6010.

江孜县| 勃利县| 芦溪县| 南澳县| 遂昌县| 土默特右旗| 正阳县| 无棣县| 肇东市| 津市市| 寿阳县| 竹溪县| 尼勒克县| 江安县| 凌海市| 苍山县| 凤山市| 依兰县| 巴林右旗| 淮安市| 河北区| 邢台县| 维西| 米林县| 丁青县| 涪陵区| 榆树市| 吐鲁番市| 镇远县| 永善县| 乐清市| 岫岩| 天门市| 教育| 辰溪县| 微博| 新乐市| 古交市| 崇文区| 天祝| 类乌齐县|