李洋, 蔡紅珍, 邢林林, 蘇展鵬
(1.山東理工大學(xué)農(nóng)業(yè)工程與食品科學(xué)學(xué)院, 淄博 255000; 2.山東省清潔能源工程技術(shù)研究中心, 淄博 255000;3.山東理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 淄博 255000)
復(fù)合材料[1]相比傳統(tǒng)材料而言,具有強(qiáng)度高、耐高溫、成型工藝簡(jiǎn)單等特性,目前中國(guó)的復(fù)合材料種類、產(chǎn)量全球領(lǐng)先,對(duì)其屬性的檢測(cè)需求也隨之增多。由于復(fù)合材料的特性復(fù)雜,檢驗(yàn)檢測(cè)流程多變,不同的檢測(cè)機(jī)構(gòu)的檢測(cè)能力也大不相同,用戶難以高效、準(zhǔn)確地發(fā)掘與自身材料屬性所契合的目標(biāo)機(jī)構(gòu)。隨著人工智能[2]的不斷發(fā)展,各種新式的計(jì)算機(jī)技術(shù)為傳統(tǒng)生產(chǎn)行業(yè)提供了前進(jìn)的動(dòng)力,基于材料描述文本的命名實(shí)體識(shí)別技術(shù)可以有效地解決一系列的領(lǐng)域性問(wèn)題。
圖1 BERT-AdBC模型Fig.1 BERT-AdBC model
命名實(shí)體識(shí)別技術(shù)[3]可以整合復(fù)雜文本中的實(shí)體標(biāo)簽,識(shí)別出文本信息中具有特定含義的實(shí)體及實(shí)體的邊界范圍,然后將實(shí)體分配到預(yù)先規(guī)定的標(biāo)簽類型,使用戶能夠更加精確地查詢目標(biāo)信息。命名實(shí)體識(shí)別技術(shù)應(yīng)用廣泛,在中文簡(jiǎn)歷識(shí)別中, Yan等[4]提出了一種XLNet預(yù)訓(xùn)練模型結(jié)合Bi-LSTM-CRF來(lái)提升小數(shù)據(jù)集識(shí)別能力,XLNet提取語(yǔ)句特征,Bi-LSTM模型進(jìn)行特征獲取,最終識(shí)別效果得到了提升;在農(nóng)業(yè)領(lǐng)域,趙鵬飛等[5]構(gòu)建了自注意力機(jī)制結(jié)合Bi-LSTM-CRF的神經(jīng)網(wǎng)絡(luò)模型,解決了命名實(shí)體識(shí)別過(guò)程中實(shí)體名稱多樣導(dǎo)致標(biāo)注不一致的問(wèn)題;姜同強(qiáng)等[6]針對(duì)食品案件糾紛領(lǐng)域?qū)嶓w識(shí)別任務(wù)準(zhǔn)確率不足的問(wèn)題,在傳統(tǒng)模型基礎(chǔ)之上融合BERT預(yù)訓(xùn)練模型和自注意力機(jī)制,更深層次地捕捉上下文之間的語(yǔ)義關(guān)系,解決了領(lǐng)域中丟失字的多義性問(wèn)題;在反恐信息領(lǐng)域中,焦凱楠等[7]針對(duì)領(lǐng)域數(shù)據(jù)信息缺乏、實(shí)體信息類型復(fù)雜不定等問(wèn)題制定了細(xì)粒度的領(lǐng)域識(shí)別體系,引入MacBERT預(yù)訓(xùn)練模型獲得動(dòng)態(tài)字向量表達(dá);在信息處理領(lǐng)域,Cao等[8]針對(duì)微博數(shù)據(jù)集和國(guó)際漢語(yǔ)數(shù)據(jù)集提出了一種對(duì)抗訓(xùn)練結(jié)合自注意力機(jī)制的深度學(xué)習(xí)模型,能夠更加充分利用共享邊界信息,提升模型識(shí)別效果;唐善成等[9]針對(duì)傳統(tǒng)字向量表達(dá)模型忽略中文漢字機(jī)結(jié)構(gòu)問(wèn)題,利用字形編碼器獲取字形向量和字義向量,最后融合形成二者的融合字向量表示,進(jìn)一步提升了命名實(shí)體識(shí)別性能;Chen等[10]發(fā)現(xiàn)如果資源較少的語(yǔ)言想要獲取優(yōu)秀的識(shí)別效果,往往依賴于大量的人工標(biāo)記,因此提出了一種基于微調(diào)和預(yù)訓(xùn)練相結(jié)合的模型,向資源較少的目標(biāo)領(lǐng)域進(jìn)行微調(diào)并添加源域數(shù)據(jù),最終融合數(shù)據(jù)集與訓(xùn)練模型微調(diào)結(jié)束,實(shí)驗(yàn)結(jié)果表明,此方法由于常規(guī)方法。但是,在復(fù)合材料檢測(cè)領(lǐng)域中,服務(wù)方與委托方的名稱使用隨意、標(biāo)簽長(zhǎng)度過(guò)長(zhǎng),如果單純采用人工標(biāo)注和神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行識(shí)別,很難取得良好的效果;而且分詞任務(wù)(Chinese word segmentation,CWS)和命名實(shí)體識(shí)別任務(wù)(named entity recognition, NER)都共享著較多的邊界信息[11],邊界混淆會(huì)給命名實(shí)體識(shí)別的準(zhǔn)確性造成一定的影響。
因此,針對(duì)復(fù)合材料檢驗(yàn)檢測(cè)領(lǐng)域中邊界混淆、專業(yè)名詞過(guò)多和數(shù)據(jù)集規(guī)模小等問(wèn)題,現(xiàn)設(shè)計(jì)基于BERT嵌入與對(duì)抗訓(xùn)練相結(jié)合的神經(jīng)網(wǎng)絡(luò)模型,能幫助用戶挖掘整合復(fù)合材料檢測(cè)領(lǐng)域?qū)嶓w信息,提升產(chǎn)業(yè)效率。引入BERT解決傳統(tǒng)嵌入模型過(guò)度依賴數(shù)據(jù)規(guī)模而造成遷移效果差的問(wèn)題;通過(guò)對(duì)抗訓(xùn)練[12]處理分詞任務(wù)所夾雜的噪聲信息,使分詞任務(wù)和實(shí)體識(shí)別任務(wù)的共享信息提升實(shí)體邊界信息識(shí)別準(zhǔn)確率;同時(shí)Bi-LSTM對(duì)字詞向量進(jìn)行特征提取,與多頭注意力機(jī)制結(jié)合抓取細(xì)節(jié)信息;最終條件隨機(jī)場(chǎng)CRF保證輸出結(jié)果的準(zhǔn)確性,生成最優(yōu)序列。
常規(guī)的字詞嵌入模型如Word2vec[13]、Glove[14]等在字詞向量轉(zhuǎn)化過(guò)程中無(wú)法實(shí)現(xiàn)一詞多義,例如,在檢驗(yàn)檢測(cè)領(lǐng)域當(dāng)中“產(chǎn)品性能好”“訂單按照用戶偏好”,2個(gè)“好”字在此語(yǔ)境下所表示的含義完全不同。如圖2所示,本文引入BERT預(yù)訓(xùn)練模型采用雙向transformer編碼器(Trm)將上下文信息進(jìn)行充分融合,實(shí)現(xiàn)字詞的多義性的表達(dá)。
圖2 Transformer結(jié)構(gòu)圖Fig.2 Transformer structure diagram
通過(guò)將字向量、詞向量、句子向量充分融合的表示方式,彌補(bǔ)了傳統(tǒng)模型“一詞一義”的缺點(diǎn),如圖3所示。CLS符號(hào)和SEP符號(hào)分別表示文本分類任務(wù)的輸入表示和劃分句子;句向量用于區(qū)分不同語(yǔ)句,位置向量用于表示語(yǔ)句序列;隨后將疊加的向量[X1,X2,…,Xn]傳至Bi-LSTM特征提取層。
圖3 BERT向量表示Fig.3 The representation of BERT vectors
圖4 長(zhǎng)短期記憶網(wǎng)絡(luò)Fig.4 Bi-LSTM model
針對(duì)復(fù)合材料領(lǐng)域文本中的長(zhǎng)距離依賴問(wèn)題,引入雙向LSTM模型。LSTM[15]具有強(qiáng)大的序列建模和神經(jīng)網(wǎng)絡(luò)擬合非線性能力,模型構(gòu)成如圖4所示,其單元結(jié)構(gòu)主要由遺忘門(mén)、輸出門(mén)、更新門(mén)和記憶細(xì)胞構(gòu)成,遺忘門(mén)針對(duì)上一節(jié)點(diǎn)所傳達(dá)的信息進(jìn)行選擇性的忘記,保留重要的相關(guān)信息;記憶階段通過(guò)當(dāng)前階段的輸入進(jìn)行選擇性的記憶。Bi-LSTM模型采取兩個(gè)獨(dú)立的LSTM模型,將輸入的信息按照正序和逆序的方式提取特征向量,隨后將向量進(jìn)行簡(jiǎn)單拼接后形成詞的特征表達(dá)形式,Bi-LSTM模型的優(yōu)勢(shì)在于保持強(qiáng)大的序列建模和神經(jīng)網(wǎng)絡(luò)擬合非線性能力的同時(shí),不僅可以更好地利用以前的上下文信息,還可以利用未來(lái)的上下文信息。
Bi-LSTM模型的計(jì)算過(guò)程可以分為以下步驟。
(1)
將BERT嵌入處理好的向量[X1,X2,…,Xn]依次輸入Bi-LSTM特征提取層中,Bi-LSTM遍歷整體序列向量,實(shí)現(xiàn)包含上下文語(yǔ)義信息的文本序列雙向表達(dá),前后方向的LSTM可表示為
(2)
(3)
式中:ht為方向不同的隱藏層狀態(tài)。最終Bi-LSTM的輸出結(jié)果為兩維矩陣H:
(4)
在命名實(shí)體識(shí)別任務(wù)中采用Bi-LSTM可以很好地處理長(zhǎng)距離的語(yǔ)義關(guān)系,但是無(wú)法解決臨近的標(biāo)簽依賴關(guān)系,本文研究中通過(guò)引入條件隨機(jī)場(chǎng)CRF[16]計(jì)算輸出序列中的最優(yōu)概率,從而保證預(yù)測(cè)標(biāo)簽的合法性。
預(yù)測(cè)序列Score函數(shù)(S)定義為
(5)
輸入序列用Z={z1,z2,…,zn}表示,在命名實(shí)體識(shí)別框架中所得到的預(yù)測(cè)序列為Y={y1,y2,…,yn},Wyi,yi+1為標(biāo)簽轉(zhuǎn)移分?jǐn)?shù),Pi,yi為字符的第yi個(gè)標(biāo)簽分?jǐn)?shù),n為輸入語(yǔ)句的長(zhǎng)度。
輸出最佳序列標(biāo)注的概率公式為
(6)
式(6)中:YZ為相應(yīng)概率集合;S(Z,Y)為評(píng)估分?jǐn)?shù),預(yù)測(cè)序列Y的產(chǎn)生概率為采用極大似然估計(jì)原理,通過(guò)取對(duì)數(shù)得到預(yù)測(cè)序列Y的似然函數(shù)。
(7)
基于極大似然估計(jì)原理,優(yōu)化目標(biāo)函數(shù),直至迭代結(jié)束。
(8)
式(8)中:W為分?jǐn)?shù)權(quán)重;b為可優(yōu)化參數(shù)。
復(fù)合材料檢測(cè)領(lǐng)域文本語(yǔ)句相對(duì)較長(zhǎng),不同實(shí)體所呈現(xiàn)的表達(dá)方法不同,在文本中實(shí)體也會(huì)搭配出現(xiàn),這會(huì)導(dǎo)致Bi-LSTM在訓(xùn)練的過(guò)程中丟失關(guān)鍵數(shù)據(jù)信息,忽視整體文本的語(yǔ)境。例如,“青島科創(chuàng)質(zhì)量檢測(cè)有限公司提供木塑復(fù)合材料的物理性能、阻隔性能、化學(xué)性能等檢測(cè)內(nèi)容?!币虼?本文研究中采用的多頭注意力機(jī)制[17]解決LSTM在訓(xùn)練過(guò)程中的遺失問(wèn)題,提高模型的整體識(shí)別效果。通過(guò)前一部分Bi-LSTM的特征提取,得到輸出值H=[h1,h2,…,hn]∈Rn×2d,其包含神經(jīng)網(wǎng)絡(luò)編碼后的所有信息;多頭注意機(jī)制基于查詢矩陣Q、關(guān)鍵矩陣K和價(jià)值矩陣V,且Q=K=V=H=[h1,h2,…,hn]∈Rn×2d,通過(guò)相似度計(jì)算得到Q和K的權(quán)重。dk表示K矩陣的維度,使用softmax函數(shù)將Q和K進(jìn)行歸一化處理,并且與V計(jì)算乘積得到權(quán)重求和結(jié)果,即
(9)
每個(gè)頭的注意力機(jī)制權(quán)重headi為
(10)
M=Multihead(Q,K,V)
=Concat[headi(Q,K,V)]W0
(11)
最終所引入多頭注意力機(jī)制Multihead由每個(gè)頭的乘積所得,其中Q、K、V分別代表從一開(kāi)始輸入的向量矩陣,通過(guò)參數(shù)矩陣Wo的線性變化和合并數(shù)組Concat合并得到多頭注意力數(shù)值。
考慮到分詞任務(wù)與命名實(shí)體識(shí)別任務(wù)之間可能存在大量的邊界共享信息,如表1所示,上海中悅作為公司名稱在文本中出現(xiàn),CWS與NER將上海劃分成了位置信息,CWS則將中悅檢測(cè)公司名稱劃分成兩個(gè)序列,這種邊界混淆會(huì)給命名實(shí)體識(shí)別準(zhǔn)確性造成一定的影響。因此,對(duì)抗訓(xùn)練的引入可以充分利用雙方之間的共享信息,從而提升命名實(shí)體識(shí)別任務(wù)的整體效果。
對(duì)抗訓(xùn)練過(guò)程中,BERT-AdBC模型首先提取分詞任務(wù)和實(shí)體識(shí)別任務(wù)的共享邊界信息,隨之提取分詞任務(wù)和實(shí)體識(shí)別任務(wù)各自的編碼信息;通過(guò)設(shè)計(jì)對(duì)抗網(wǎng)絡(luò)任務(wù)判別器來(lái)判斷句子的信息是來(lái)自于分詞任務(wù)還是實(shí)體識(shí)別任務(wù)。其中判別器的表達(dá)式為
Ds=Attentionpooling(M-shared)
(12)
D(s′k,θd)=softmax(Wds′k+bd)
(13)
式中:Attentionpooling為注意力層池化;(M-shared)∈Rn×2d為由多頭注意力機(jī)制所輸出的結(jié)果;s′k為隱藏特征;Wd為注意力機(jī)制的權(quán)重向量;bd∈RdDs為偏置向量,其中dDs為注意力機(jī)制池化層的隱藏維度。最后通過(guò)softmax函數(shù)進(jìn)行輸出。
在共享層中,本文設(shè)計(jì)了一種對(duì)抗損失Lossadv來(lái)抑制任務(wù)鑒別器的識(shí)別能力,使其無(wú)法辨別任務(wù)來(lái)源,降低了分類效果,表達(dá)式為
(14)
表1 NER與CWS對(duì)比Table 1 The comparison between NER and CWS
式(14)中:K為任務(wù)來(lái)源數(shù)量;Ak為訓(xùn)練語(yǔ)句;ai為第ith句輸入,并通過(guò)極大極小算法來(lái)做出最優(yōu)選擇,經(jīng)過(guò)對(duì)抗損失后,任務(wù)鑒別器辨別提取特征信息的能力得到了抑制,其無(wú)法從共享層中區(qū)分任務(wù)來(lái)源。
在訓(xùn)練階段,首先通過(guò)在每一次的迭代過(guò)程中選擇實(shí)體識(shí)別任務(wù)或者分詞任務(wù)進(jìn)行參數(shù)的更新,再選擇Adam[18]優(yōu)化器來(lái)優(yōu)化損失,最終損失計(jì)算公式為
Finalloss=LossNERI(x)+LossCWS[1-I(x)]+γLossadv
(15)
式(15)中:I(x)用于參數(shù)的輸入來(lái)源;γ為超參數(shù);在訓(xùn)練過(guò)程中,如果信息來(lái)源于分詞任務(wù),設(shè)置I(x)為1;信息來(lái)源于識(shí)別任務(wù),設(shè)置I(x)為0。LossNER為命名實(shí)體識(shí)別任務(wù)損失函數(shù);LossCWS則為分詞任務(wù)損失函數(shù),分詞任務(wù)可能和實(shí)體識(shí)別任務(wù)的收斂速度不同,因此當(dāng)雙方的收斂速度趨于平穩(wěn)時(shí)停止訓(xùn)練。
選取人民日?qǐng)?bào)數(shù)據(jù)集作為源域,驗(yàn)證所搭建的神經(jīng)網(wǎng)絡(luò)模型識(shí)別效果,構(gòu)建復(fù)合材料檢測(cè)領(lǐng)域文本數(shù)據(jù)集作為目標(biāo)領(lǐng)域,將效果最優(yōu)模型及其參數(shù)由源域遷移至目標(biāo)領(lǐng)域。
人民日?qǐng)?bào)數(shù)據(jù)集作為公開(kāi)的中文命名實(shí)體識(shí)別數(shù)據(jù)集,數(shù)據(jù)規(guī)模大且質(zhì)量高,源域數(shù)據(jù)規(guī)模信息如表2所示。
復(fù)合材料檢驗(yàn)領(lǐng)域數(shù)據(jù)集來(lái)源為多個(gè)檢驗(yàn)檢測(cè)服務(wù)網(wǎng)站的數(shù)據(jù)爬取,例如,我要測(cè)、華測(cè)檢測(cè)等相關(guān)檢測(cè)網(wǎng)站的官方新聞,實(shí)體標(biāo)簽類型包括位置信息(LOC)、機(jī)構(gòu)名稱(ORG)及檢測(cè)內(nèi)容(PRO),數(shù)據(jù)集規(guī)模如表3所示。
數(shù)據(jù)標(biāo)注方式選擇BIO,B表示實(shí)體的開(kāi)頭,I表示實(shí)體的其余部分,O則表示不屬于任何實(shí)體類型。
表2 源數(shù)據(jù)集信息Table 2 Source dataset
表3 復(fù)合材料檢測(cè)領(lǐng)域數(shù)據(jù)集標(biāo)簽信息Table 3 Composite material testing field dataset
選擇廣泛應(yīng)用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的準(zhǔn)確率(Precision, P),召回率(Recall, R),和F1作為本文實(shí)驗(yàn)的評(píng)價(jià)指標(biāo),其計(jì)算公式為
(15)
(16)
(17)
實(shí)驗(yàn)環(huán)境配置如表4所示。
表4 實(shí)驗(yàn)環(huán)境Table 4 Experimental environment
基于Tensorflow進(jìn)行模型搭建,BERT-AdBC模型中:BERT-embedding size為768,雙向LSTM神經(jīng)元層數(shù)為128,詞向量維度為100,學(xué)習(xí)率learn_rate設(shè)置1×10-3,迭代次數(shù)設(shè)置為100,批次batch_size設(shè)置為30,多頭注意力機(jī)制設(shè)置為8。
為驗(yàn)證所搭建的模型在復(fù)合材料檢測(cè)領(lǐng)域的中文實(shí)體識(shí)別有效性,本文進(jìn)行了如下實(shí)驗(yàn)。
2.4.1 源域識(shí)別效果
首先選擇不同神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于源域以驗(yàn)證模型的識(shí)別效果,選擇效果最優(yōu)的模型應(yīng)用于復(fù)合材料檢測(cè)領(lǐng)域。選擇HMM、CRF、Bi-LSTM、Bi-LSTM-CRF、BERT-AdBC(源域)模型進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)效果如表5所示。
在源數(shù)據(jù)域上,BERT-AdBC相比于傳統(tǒng)的識(shí)別模型,在三種評(píng)價(jià)標(biāo)準(zhǔn)上效果最優(yōu),分別可以達(dá)到90%以上的效果。本文所構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型已經(jīng)滿足源域識(shí)別效果,因此不再優(yōu)化源域的模型識(shí)別效果,后續(xù)將針對(duì)復(fù)合材料檢測(cè)領(lǐng)域繼續(xù)驗(yàn)證提出模型效果。
表5 源域模型識(shí)別效果Table 5 NER results in the source domain
在參數(shù)調(diào)節(jié)過(guò)程中,學(xué)習(xí)率的不同對(duì)識(shí)別效果影響較為明顯,其中訓(xùn)練學(xué)習(xí)率以Training表示,測(cè)試學(xué)習(xí)率以test表示,遷移過(guò)程中訓(xùn)練和測(cè)試的學(xué)習(xí)率以Tr-training和Tr-test表示。如圖5所示,學(xué)習(xí)率為5×10-3時(shí)呈現(xiàn)出較為明顯的波動(dòng)且效果偏低,而學(xué)習(xí)率調(diào)整為1×10-3時(shí)模型整體效果由低至高并逐漸平穩(wěn);Transformer相比于一般的參數(shù)遷移方法,使模型在檢驗(yàn)檢測(cè)領(lǐng)域的訓(xùn)練起始階段就可以取得良好的初始化效果,節(jié)省了訓(xùn)練時(shí)間、提升了模型的學(xué)習(xí)效率。其次,本文研究中在嵌入層和特征提取層添加了Dropout防止梯度爆炸,Dropout在模型訓(xùn)練過(guò)程中按照概率隨機(jī)丟棄部分信息,使得某兩個(gè)神經(jīng)元不一定每次都在一個(gè)子網(wǎng)絡(luò)結(jié)構(gòu)中出現(xiàn)可以減少神經(jīng)元之間復(fù)雜的共適應(yīng)關(guān)系?;诖藱?quán)值的更新不再依賴于固定關(guān)系的隱含節(jié)點(diǎn)的共同作用,使得了在丟失某些特定信息的情況下依然可以從其他信息中學(xué)到一些模式,迫使網(wǎng)絡(luò)去學(xué)習(xí)更加魯棒的特征消除了神經(jīng)網(wǎng)絡(luò)模型節(jié)點(diǎn)之間的聯(lián)合適應(yīng)性,故增強(qiáng)了所構(gòu)建模型泛化能力。
圖5 學(xué)習(xí)率及遷移學(xué)習(xí)效果Fig.5 The effect of transfer learning with different learning rate
2.4.2 復(fù)合材料領(lǐng)域?qū)褂?xùn)練及不同嵌入方式效果
將源域效果最優(yōu)模型及其參數(shù)遷移至復(fù)合材料檢測(cè)領(lǐng)域,通過(guò)結(jié)合對(duì)抗訓(xùn)練來(lái)驗(yàn)證實(shí)體識(shí)別效果是否得到提升;選擇Word2vec及BERT兩種不同嵌入方式獲得向量表示,并通過(guò)不同基礎(chǔ)模型驗(yàn)證嵌入效果,實(shí)驗(yàn)效果如表6所示。
表6 不同嵌入方式和對(duì)抗訓(xùn)練效果對(duì)比Table 6 The comparison of different embedding methods and adversarial training effect
2.4.3 復(fù)合材料檢測(cè)領(lǐng)域不同標(biāo)簽識(shí)別效果
在復(fù)合材料檢測(cè)領(lǐng)域中,識(shí)別效果較好的標(biāo)簽為位置信息和檢測(cè)設(shè)備,F(xiàn)1達(dá)到了80%以上,因?yàn)榇祟悓?shí)體形式較為固定,識(shí)別難度較低;在數(shù)據(jù)集構(gòu)建過(guò)程中,ORG標(biāo)簽標(biāo)記難度較大,存在標(biāo)記重復(fù)過(guò)多,數(shù)據(jù)分散的情況,因此當(dāng)模型面對(duì)較為復(fù)雜的ORG標(biāo)簽時(shí),總體識(shí)別效果保持在75%左右,如表7所示。
實(shí)驗(yàn)結(jié)論分析如下。
(1)BERT嵌入方式的有效性。在復(fù)合材料檢測(cè)領(lǐng)域數(shù)據(jù)集中,基于BERT嵌入方式所呈現(xiàn)的識(shí)別效果要優(yōu)于Word2vec嵌入,如圖6所示;在相同模型(BERT-AdBC)結(jié)合對(duì)抗訓(xùn)練情況下,采用BERT嵌入的模型三種評(píng)價(jià)指標(biāo)總體提升為0.68%、1.96%和1.34%,這說(shuō)明采用BERT嵌入方式與神經(jīng)網(wǎng)絡(luò)模型相結(jié)合能夠增強(qiáng)理解輸入內(nèi)容的語(yǔ)義關(guān)系,解決領(lǐng)域中的專業(yè)名詞及文本信息復(fù)雜的問(wèn)題。
表7 不同標(biāo)簽識(shí)別效果Table 7 The NER result of different tags
圖6 嵌入方式有效性Fig.6 The performance of different embedding methods
(2)對(duì)抗訓(xùn)練對(duì)識(shí)別效果的提升。在嵌入方式相同情況下,對(duì)抗訓(xùn)練結(jié)合Bi-LSTM-CRF_self-att所表現(xiàn)出的識(shí)別效果要優(yōu)于Bi-LSTM-CRF和Bi-LSTM-CRF_self-att,如圖7所示。
與前兩種模型比較,采用對(duì)抗訓(xùn)練的模型Precisen提升為5.44%和3.61%,Recall提升為7.45%和4.64%,F(xiàn)1提升為6.48%和4.14%。這表明對(duì)抗訓(xùn)練的引入降低了分詞任務(wù)與實(shí)體識(shí)別任務(wù)之間的相互影響,提升了領(lǐng)域識(shí)別性能。
分詞任務(wù)和實(shí)體識(shí)別任務(wù)的Loss曲線如圖8所示,隨著訓(xùn)練程度的遞增首先表現(xiàn)出迅速下降并且逐漸平穩(wěn)的狀態(tài)。分詞任務(wù)的整體Loss值要高于實(shí)體識(shí)別任務(wù),原因可能在于檢驗(yàn)檢測(cè)領(lǐng)域數(shù)據(jù)集的場(chǎng)景眾多,實(shí)體種類參差不齊且使用隨意,這在一定程度上給模型的訓(xùn)練帶來(lái)了影響。
隨后在輸出結(jié)果中驗(yàn)證實(shí)體識(shí)別效果,如表8所示。本文所提出的對(duì)抗訓(xùn)練結(jié)合遷移學(xué)習(xí)的方式很好地解決了長(zhǎng)標(biāo)簽和邊界信息的問(wèn)題,同時(shí)也驗(yàn)證了BERT-AdBC的模型效果,自注意力機(jī)制的結(jié)構(gòu)不僅可以抓取短標(biāo)簽的特征結(jié)構(gòu),還可以學(xué)習(xí)長(zhǎng)標(biāo)簽的語(yǔ)義信息特征。
圖7 對(duì)抗訓(xùn)練有效性Fig.7 The performance of adversarial training
圖8 分詞任務(wù)和實(shí)體識(shí)別Loss變化曲線Fig.8 The loss change between CWS and NER
表8 輸出結(jié)果實(shí)例Table 8 The example of output result
針對(duì)復(fù)合材料檢測(cè)階段中存在專業(yè)名詞過(guò)多及邊界混淆等問(wèn)題,挖掘并整理了復(fù)合材料檢測(cè)領(lǐng)域數(shù)據(jù)集,提出了一種基于對(duì)抗訓(xùn)練與BERT嵌入相結(jié)合的BERT-Ad-BC神經(jīng)網(wǎng)絡(luò)模型,并將應(yīng)用命名實(shí)體識(shí)別技術(shù)實(shí)際應(yīng)用解決復(fù)合材料檢測(cè)領(lǐng)域相關(guān)問(wèn)題。實(shí)驗(yàn)表明,該方法相較于傳統(tǒng)的機(jī)器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)模型,準(zhǔn)確性、召回率和F1都有較大提升;BERT嵌入解決了目標(biāo)領(lǐng)域數(shù)據(jù)集規(guī)模小而導(dǎo)致的學(xué)習(xí)能力差的問(wèn)題;對(duì)抗訓(xùn)練與搭建模型的協(xié)同作用緩解了領(lǐng)域中所存在的邊界混淆問(wèn)題。在未來(lái)的研究工作中,將完善深度學(xué)習(xí)模型,同時(shí)對(duì)領(lǐng)域數(shù)據(jù)集數(shù)量進(jìn)行擴(kuò)充,以促進(jìn)產(chǎn)業(yè)信息化的集成,將命名實(shí)體識(shí)別技術(shù)更好地應(yīng)用在領(lǐng)域當(dāng)中。