国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向聯(lián)合收割機(jī)故障領(lǐng)域的命名實(shí)體識(shí)別研究

2024-12-31 00:00:00楊寧,錢曄,陳健
關(guān)鍵詞:收割機(jī)編碼器命名

摘要:聯(lián)合收割機(jī)作為一種機(jī)械化設(shè)備不可避免地會(huì)出現(xiàn)機(jī)械故障,為快速地找出并解決機(jī)械故障,提出一種面向聯(lián)合收割機(jī)故障領(lǐng)域的命名實(shí)體識(shí)別模型RP-TEBC(RoBERTa-wwm-ext+PGD+Transformer-Encoder+BiGRU+CRF)。RP-TEBC使用動(dòng)態(tài)編碼的RoBERTa-wwm-ext預(yù)訓(xùn)練模型作為詞嵌入層,利用自適應(yīng)Transformer編碼器層融合雙向門控單元(BiGRU)作為上下文編碼器,利用條件隨機(jī)場(chǎng)(CRF)作為解碼層,使用維特比算法找出最優(yōu)的路徑輸出。同時(shí),RP-TEBC模型在詞嵌入層中通過添加一些擾動(dòng),生成對(duì)抗樣本,經(jīng)過對(duì)模型不斷的訓(xùn)練優(yōu)化,可以提高模型整體的魯棒性和泛化性能。結(jié)果表明,在構(gòu)建的聯(lián)合收割機(jī)故障領(lǐng)域命名實(shí)體識(shí)別數(shù)據(jù)集上,相比于基線模型,該模型的準(zhǔn)確率、召回率、F1值分別提高1.79%、1.01%、1.46%。

關(guān)鍵字:聯(lián)合收割機(jī);故障領(lǐng)域;命名實(shí)體識(shí)別;知識(shí)圖譜;預(yù)訓(xùn)練模型;對(duì)抗樣本

中圖分類號(hào):S225; TP391.1" " " 文獻(xiàn)標(biāo)識(shí)碼:A" " " 文章編號(hào):2095?5553 (2024) 08?0338?06

Research on named entity recognition for combine harvester fault domain

Yang Ning1, Qian Ye1, 2, Chen Jian1

(1. College of Big Data, Yunnan Agricultural University, Kunming, 650201, China;2. Agricultural Big Data Engineering Research Center of Yunnan Province, Kunming, 650201, China)

Abstract: Combine harvesters as a kind of mechanized equipment will inevitably have mechanical failure, in order to quickly find out the relevant fault entity and solve the mechanical failure, a named entity recognition model RP-TEBC (RoBERTa-wwm-ext+PGD+Transformer-Encoder+BiGRU+CRF) for combine harvester fault field is proposed. RP-TEBC uses the dynamically encoded RoBERTa-wwm-ext pre-trained model as the word embedding layer, uses the adaptive Transformer encoder layer to fuse the Bidirectional Gating Unit (BiGRU) as the context encoder, and finally uses the conditional random field (CRF) as the decoder layer, using the Viterbi algorithm to find the optimal path output. At the same time, the RP-TEBC model generates adversarial samples by adding some perturbations in the word embedding layer. Through continuous training and optimization of the model, the overall robustness and generalization performance of the model can be improved. On the constructed named entity recognition data set in the field of combine harvester faults, experiments have shown that compared with the baseline model, the accuracy, recall rate, and F1 value of this model have increased by 1.79%, 1.01%, and 1.46% respectively.

Keywords: combine harvester; fault domain; named entity recognition; knowledge graph; pre?trained model; adversarial sample

0 引言

近年來,隨著我國(guó)農(nóng)業(yè)機(jī)械化的不斷發(fā)展,聯(lián)合收

割機(jī)作為一種有效的農(nóng)作物收割工具得到大量生產(chǎn)和廣泛應(yīng)用。與聯(lián)合收割機(jī)維修相關(guān)的非結(jié)構(gòu)化文本數(shù)據(jù)也在持續(xù)增長(zhǎng),如何在這些紛繁復(fù)雜的數(shù)據(jù)中高效精準(zhǔn)地檢索出所需信息,成為當(dāng)前要解決的問題。

命名實(shí)體識(shí)別(NER)作為自然語(yǔ)言處理(NLP)信息抽取領(lǐng)域一項(xiàng)基本任務(wù),近年來得到了廣泛研究,其本質(zhì)上是在句子中查找實(shí)體的開始和結(jié)束并為此實(shí)體分配類別的任務(wù)。隨著深度學(xué)習(xí)技術(shù)的不斷創(chuàng)新和發(fā)展,命名實(shí)體識(shí)別任務(wù)也從早期的基于規(guī)則和機(jī)器學(xué)習(xí)的方法朝著向深度學(xué)習(xí)的方法發(fā)展,并取得了不錯(cuò)的成效。Hammerton[1]首次將長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)用于命名實(shí)體任務(wù),這也是首次將神經(jīng)網(wǎng)絡(luò)模型用于命名實(shí)體識(shí)別任務(wù)。Collobert等[2]使用CNN-CRF的模型結(jié)構(gòu)達(dá)到了和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法相媲美的結(jié)果。Huang等[3]首次將雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)和條件隨機(jī)場(chǎng)(CRF)相結(jié)合用于命名實(shí)體識(shí)別任務(wù)。在中文命名實(shí)體識(shí)別領(lǐng)域中,由于中文句子中詞與詞之間連接在一起,不像英語(yǔ)有著天然的空格分割符,所以中文的命名實(shí)體識(shí)別相較于英文更加困難,因此中文的命名識(shí)別任務(wù)的首要任務(wù)是先分詞,將詞級(jí)的命名實(shí)體識(shí)別模型用于分詞后的句子。但是再好的分詞工具也會(huì)出現(xiàn)一些分詞錯(cuò)誤的現(xiàn)象,這也會(huì)導(dǎo)致在進(jìn)行命名實(shí)體識(shí)別模型訓(xùn)練的時(shí)候出現(xiàn)實(shí)體邊界的檢測(cè)和識(shí)別類別的預(yù)測(cè)錯(cuò)誤的情況,從而影響模型的整體效果。為了解決這個(gè)問題,一些直接在字符級(jí)別執(zhí)行中文命名識(shí)別的方法開始得到研究,經(jīng)過相關(guān)試驗(yàn)證明在字符級(jí)別執(zhí)行命名實(shí)體識(shí)別不僅避免了分詞錯(cuò)誤對(duì)模型的影響,而且模型的效果也得到了提升。Dong等[4]是第一個(gè)將基于字符的BiLSTM-CRF神經(jīng)架構(gòu)用于中文命名實(shí)體識(shí)別任務(wù)。Ma等[5]將單詞詞典合并到字符表示中,巧妙的結(jié)合了詞典的信息,使得模型的穩(wěn)健性得到進(jìn)一步提升。受到在計(jì)算機(jī)視覺中對(duì)抗訓(xùn)練的啟發(fā),相關(guān)研究人員也開始在自然語(yǔ)言處理任務(wù)加入對(duì)抗訓(xùn)練,來提升模型的泛化能力,Zhou等[6]提出雙對(duì)抗轉(zhuǎn)移網(wǎng)絡(luò)(DATNet),通過在詞嵌入層增加噪聲解決了在低資源下的命名實(shí)體任務(wù)。

目前大多數(shù)的命名實(shí)體模型都是針對(duì)通用領(lǐng)域而設(shè)計(jì)的,針對(duì)特定領(lǐng)域的命名實(shí)體識(shí)別模型研究較少,有關(guān)聯(lián)合收割機(jī)故障領(lǐng)域的命名實(shí)體識(shí)別研究還尚未見報(bào)道。由于在聯(lián)合收割故障診斷方面缺乏相關(guān)的數(shù)據(jù)集,因此本文需自行標(biāo)注。針對(duì)現(xiàn)有的命名實(shí)體識(shí)別模型,實(shí)體識(shí)別準(zhǔn)確率不高、一詞多義等問題。本文在聯(lián)合收割機(jī)故障領(lǐng)域方面提出RP-TEBC命名實(shí)體識(shí)別模型。RP-TEBC模型采用動(dòng)態(tài)編碼的RoBERTa-wwm-ext預(yù)訓(xùn)練模型作為詞嵌入層,能夠很好地解決一詞多義的問題。通過使用自適應(yīng)Transformer編碼器層融合雙向門控循環(huán)單元(BiGRU)可以更好地學(xué)習(xí)文本中的語(yǔ)義信息。同時(shí),添加對(duì)抗訓(xùn)練有幫助模型提升魯棒性和泛化能力。

1 構(gòu)建數(shù)據(jù)集

通過爬蟲、PDF轉(zhuǎn)換文字等技術(shù)手段共收集到聯(lián)合收割機(jī)故障領(lǐng)域領(lǐng)域非結(jié)構(gòu)化文本文字約13萬字。利用YEDDA標(biāo)注工具對(duì)原始語(yǔ)料庫(kù)進(jìn)行標(biāo)注。將標(biāo)記的實(shí)體分為四個(gè)類別:故障名稱(Fault)、故障原因(Cause)、故障部位(Position)以及故障維修(Repaies),對(duì)這四類實(shí)體均采用BIO的標(biāo)注形式進(jìn)行標(biāo)注,“B”代表實(shí)體的開始部位,“I”代表實(shí)體的中間及結(jié)束部位,“O”代表不是實(shí)體。數(shù)據(jù)標(biāo)注示例如表1所示。將構(gòu)建好的數(shù)據(jù)集隨機(jī)打亂后,按照8∶2的比例來劃分訓(xùn)練集和測(cè)試集,詳細(xì)數(shù)據(jù)類別分布如圖1所示。

2 命名實(shí)體識(shí)別模型

針對(duì)聯(lián)合收割機(jī)故障領(lǐng)域命名實(shí)體識(shí)別,提出RP-TEBC模型。該模型結(jié)構(gòu)主要分為四個(gè)部分,使用RoBERTa-wwm-ext預(yù)訓(xùn)練模型作為詞嵌入層;通過在每個(gè)嵌入的詞向量中加入對(duì)抗訓(xùn)練生成對(duì)抗樣本來用來提升模型的健壯性和泛化性;利用自適應(yīng)Transformer編碼器融合雙向門控循環(huán)單元(BiGRU)作為上下文編碼器;最后使用條件隨機(jī)場(chǎng)(CRF)作為預(yù)測(cè)標(biāo)簽的輸出層,得到輸入文本中的實(shí)體。模型總體結(jié)構(gòu)如圖2所示。

2.1 詞嵌入層

在中文語(yǔ)句中相同的詞語(yǔ)出現(xiàn)在句中不同的位置往往所表達(dá)語(yǔ)義會(huì)不相同,例如“他用小米手機(jī)掃碼付錢在超市買了一袋小米?!敝械摹靶∶住痹诘谝淮纬霈F(xiàn)的位置表示的意思就是手機(jī)品牌,在第二次出現(xiàn)的位置表示的就是糧食名稱。由于Word2vec、GloVe等傳統(tǒng)的詞向量訓(xùn)練方法其向量表示都是恒定不變的,不能夠跟隨上下文變化而變化,因此很難表達(dá)一個(gè)詞在不同上下文或不同語(yǔ)境中不同語(yǔ)義信息。針對(duì)這個(gè)問題Devlin等[7]基于深層的Transformer結(jié)構(gòu)提出了BERT預(yù)訓(xùn)練模型。其在Transformer編碼結(jié)構(gòu)中引入多頭注意力機(jī)制來獲取輸入文本的語(yǔ)義信息,運(yùn)用遮蔽語(yǔ)言模型(MLM)和下一句預(yù)測(cè)(NSP)的子任務(wù)來訓(xùn)練語(yǔ)料的詞向量表示。在這種表示方法中,詞向量是由當(dāng)前詞所在的上下文計(jì)算獲得,所以相同的詞出現(xiàn)同一句話不同地方,詞向量表示是不相同的,所表達(dá)語(yǔ)義也就不相同,BERT預(yù)訓(xùn)練模型整體結(jié)構(gòu)如圖3所示。

從圖3可以看出,模型的輸入是由兩段文本拼接而成,經(jīng)過BERT的建模獲取到輸出文本的上下文語(yǔ)義表示,最終學(xué)習(xí)掩碼語(yǔ)言模型和下一句預(yù)測(cè)。RoBERTa預(yù)訓(xùn)練模型是在BERT模型的基礎(chǔ)改進(jìn)而來,RoBERTa預(yù)訓(xùn)練模型使用動(dòng)態(tài)掩碼策略和更多樣的訓(xùn)練數(shù)據(jù),在訓(xùn)練過程中取消了NSP,通過改進(jìn)使得RoBERTa預(yù)訓(xùn)練模型的性能要比BERT預(yù)訓(xùn)練模型的性能更加出色。RoBERTa-wwm-ext是根據(jù)Cui等[8]提出的全詞遮蔽(WWM)策略使用中文數(shù)據(jù)集重新訓(xùn)練RoBERTa所得到的一種新的預(yù)訓(xùn)練模型。全詞遮蔽策略是對(duì)詞語(yǔ)作遮蔽語(yǔ)言訓(xùn)練,因?yàn)橹形牡脑~語(yǔ)由多個(gè)字符組成,直接遮蔽單個(gè)字符可能會(huì)導(dǎo)致語(yǔ)義信息的丟失。通過使用全詞遮蔽策略,能夠更好地捕捉中文詞語(yǔ)的完整語(yǔ)義,從而提高模型在中文自然語(yǔ)言處理任務(wù)中的表現(xiàn)。

2.2 上下文編碼器層

上下文編碼器層的主要構(gòu)成是自適應(yīng)Transformer編碼器和雙向門控循環(huán)單元(BiGRU)。Transformer編碼器不同于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)類型的編碼器,利用多頭注意力機(jī)制可以更好地學(xué)習(xí)到輸入文本的上下文信息,解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)較長(zhǎng)輸入文本時(shí)所存在的梯度消失和梯度爆炸的問題。但是傳統(tǒng)的Transformer編碼器在命名實(shí)體識(shí)別任務(wù)中性能表現(xiàn)遠(yuǎn)不如在其他自然語(yǔ)言處理任務(wù)中的表現(xiàn),因此本文利用Yan等[9]所提出自適應(yīng)Transformer編碼器對(duì)輸入文本的字符級(jí)特征和字級(jí)特征進(jìn)行編碼用于命名實(shí)體識(shí)別任務(wù)。原始的Transformer編碼器中的正弦位置嵌入對(duì)距離感知較為敏感,但對(duì)方向感知卻不怎么敏感。針對(duì)這個(gè)問題自適應(yīng)Transformer編碼器采用了相對(duì)位置編碼,并對(duì)相對(duì)位置編碼進(jìn)行改進(jìn),改進(jìn)后相對(duì)位置編碼不僅使用參數(shù)更少而且性能也更好。

考慮到傳統(tǒng)的Transformer編碼器的注意力分布是縮放和平滑的,但是在命名實(shí)體識(shí)別的任務(wù)中并不是所有的詞都需要值得去注意,因此對(duì)于命名實(shí)體識(shí)別任務(wù)來說一個(gè)稀疏的注意力機(jī)制顯然是更加合適的。對(duì)此自適應(yīng)Transformer編碼器使用了一個(gè)非縮放和尖銳的注意力機(jī)制,計(jì)算如式(1)~式(4)所示。

[Q,K,V=HWq,Hdk,HWv]" " " " " " " " " " " " " " " " " (1)

式中:Q,K,V——查詢向量、鍵向量和數(shù)值向量;

[Wq]、[Wv]——權(quán)重參數(shù);

H——參數(shù)矩陣;

[Hdk]——矩陣的運(yùn)算結(jié)果;

[Rt-j=…sin(t-j1 0002i/dk)cos(t-j1 0002i/dk)…T] (2)

式中:[Rt-j]——相對(duì)位置編碼,[ Rt-j]∈[Rdk];

t——目標(biāo)詞的索引;

j——上下文詞的索引;

i——索引變量,范圍為[0,[dk2]]。

[Arelt,j=QtKTj+QtRTt-j+uKTj+vRTt-j] (3)

式中:[Arelt,j]——相對(duì)注意力;

[QtKTj]——Qt和Kj標(biāo)記之間的注意力得分;

[QtKTt-j]——對(duì)特定相對(duì)距離的偏差;

[uKTj]——對(duì)標(biāo)記的偏差;

[vRTt-j]——特定距離和方向的偏差項(xiàng)。

[Attn(Q,K,V)=softmax(Arelt,j)V] (4)

[Rt,R-t=sin(c0t)cos(c0t)" " " " "?sin(cd2-1t)cos(cd2-1t),-sin(c0t)cos(c0t)" " " " " "?-sin(cd2-1t)cos(cd2-1t)]" " (5)

式中:c0——位置標(biāo)記。

d——維度。

由于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在時(shí)間方向進(jìn)行反向傳播更新梯度參數(shù)時(shí)會(huì)流經(jīng)[tanh]節(jié)點(diǎn)和矩陣乘積節(jié)點(diǎn)。[y=tanh (x)]的導(dǎo)數(shù)為[dydx=1-y2],根據(jù)其導(dǎo)數(shù)可知,當(dāng)導(dǎo)數(shù)的值小于1時(shí),隨著[x]的值在正數(shù)方向不斷增加,導(dǎo)數(shù)的值是越來越接近于0的,這就意味著如果梯度經(jīng)過[tanh]節(jié)點(diǎn)過多的話,導(dǎo)數(shù)的值就會(huì)慢慢趨近于0,從而出現(xiàn)梯度消失的現(xiàn)象。一旦出現(xiàn)梯度消失,權(quán)重參數(shù)將無法進(jìn)行更新,這也是傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)無法學(xué)習(xí)到長(zhǎng)時(shí)序依賴的主要原因之一。當(dāng)梯度經(jīng)過矩陣乘機(jī)節(jié)點(diǎn)時(shí)梯度會(huì)隨這時(shí)間步的增加呈現(xiàn)出指數(shù)級(jí)別的增長(zhǎng),當(dāng)梯度過于龐大時(shí)就會(huì)出現(xiàn)非數(shù)值,導(dǎo)致神經(jīng)網(wǎng)絡(luò)無法進(jìn)行學(xué)習(xí),從而引發(fā)梯度爆炸。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)通過引進(jìn)輸入門、遺忘門和輸出門在一定程度緩解了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)所帶來的問題。LSTM在進(jìn)行反向傳播時(shí)是采用的是對(duì)應(yīng)元素乘積的運(yùn)算,對(duì)應(yīng)的元素每次都會(huì)根據(jù)不同的門值進(jìn)行相應(yīng)的乘積運(yùn)算,所以緩解了梯度消失和梯度爆炸的問題。門控循環(huán)單元(GRU)是對(duì)LSTM進(jìn)行的一次升級(jí)改進(jìn),GRU由于只有重置門和更新門,所以計(jì)算成本和參數(shù)相比與LSTM更少,性能也能和LSTM相媲美。GRU計(jì)算圖如圖4所示,計(jì)算如式(6)~式(9)所示。

[z=σ(xt1W(z)x+ht1-1W(z)h+b(z))]" "(6)

[r=σ(xt1W(r)x+ht1-1W(r)h+b(r))]" "(7)

[h=tanh(xt1Wx+(r☉ht-1)Wh+b)]" "(8)

[ht=(1-z)☉ht-1+z☉h]" "(9)

式中:z——更新門;

r——重置門;

[h]——隱藏狀態(tài);

[ht1]——時(shí)間步t1時(shí)刻的隱藏狀態(tài);

[xt1]——時(shí)間步t1時(shí)刻的輸入;

b——偏置項(xiàng);

W——權(quán)重。

對(duì)于命名實(shí)體識(shí)別任務(wù)來說目標(biāo)詞的詞性不僅和前面的詞相關(guān),后面的詞也會(huì)影響著目標(biāo)詞的詞性。但是無論是傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)還是LSTM,GRU信息都是單向流動(dòng)的,因此只能利用前面詞的信息而利用不到后面詞的信息。為解決這個(gè)問題,本文引入了雙向門控循環(huán)單元(BiGRU),一層GRU根據(jù)輸入文本從頭到尾對(duì)文本進(jìn)行編碼,另一層則從尾到頭對(duì)輸入文本進(jìn)行編碼,這樣便可以同時(shí)利用到上下文的信息。BiGRU網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

自適應(yīng)Transformer編碼器能夠更好地學(xué)習(xí)輸入文本的語(yǔ)義信息,雙向門控循環(huán)單元可以更好地區(qū)分目標(biāo)詞的上下文信息。通過融合兩個(gè)模型的優(yōu)點(diǎn)對(duì)輸入文本進(jìn)行編碼使之更加適合于命名實(shí)體識(shí)別任務(wù)。

2.3 解碼器層

為了利用不同標(biāo)簽之間的依賴性,本文使用條件隨機(jī)場(chǎng)(CRF)作為RP-TEBC模型的解碼層。條件隨機(jī)場(chǎng)是在隱馬爾可夫模型(HMM)和最大熵模型(EM)的基礎(chǔ)提出的,打破了隱馬爾可夫假設(shè)使得標(biāo)簽的預(yù)測(cè)更加合理,同時(shí)也修正了EM模型存在標(biāo)簽偏差的問題,使其可以做到全局歸一化。給定一個(gè)序列[s=[s1,s2,…,sT]]其對(duì)應(yīng)標(biāo)簽序列為[y=[y1,y2,…,yT]],[Y(s)]代表所有有效標(biāo)簽的序列,[y]的概率可由式(10)計(jì)算。在式(10)中[f(yt-1,yt,s)]是計(jì)算[yt-1]到[yt]的轉(zhuǎn)化分?jǐn)?shù),來最大化[P(y|s)],使用維特比算法找到最優(yōu)的標(biāo)簽路徑輸出。

[P(y|s)=t=1Tef(yt-1,yt,s)y'Y(s)t=1Tef(y't-1,y't,s)] (10)

2.4 對(duì)抗訓(xùn)練

在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型的時(shí)候很容易受到對(duì)抗性示例的影響,這些對(duì)抗數(shù)據(jù)很難讓模型和正常數(shù)據(jù)相區(qū)分,從而造成錯(cuò)誤分類的結(jié)果。圍繞對(duì)模型的對(duì)抗性和魯棒性進(jìn)行的優(yōu)化的思路,Madry等[10]提出的PGD(Projected Gradient Descent)對(duì)抗訓(xùn)練算法為解決這個(gè)問題提供了很好地幫助。假設(shè)考慮一個(gè)標(biāo)準(zhǔn)的分類任務(wù)的數(shù)據(jù)分布為[D],數(shù)據(jù)[x∈Rd],標(biāo)簽[y∈[k]],損失函數(shù)為[L(θ,x,y)],θ為固定的參數(shù),利用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)找到模型最優(yōu)的參數(shù)即:[minθE(x,y)~D[L(x,y,θ)]]。但是ERM不會(huì)產(chǎn)生對(duì)對(duì)抗數(shù)據(jù)具有魯棒性的模型,因此需要來擴(kuò)充ERM范式。通過對(duì)每個(gè)數(shù)據(jù)點(diǎn)[x]引入一組擾動(dòng),擾動(dòng)的大小為[S],利用原始樣本生成對(duì)抗樣本,再利用對(duì)抗樣本求得期望,這就是著名的[Min-Max]公式,如式(11)所示。[Min-Max]主要有內(nèi)部損失最大化和外部經(jīng)驗(yàn)最小化組成,內(nèi)部最大化問題的目的是找到給定數(shù)據(jù)點(diǎn)[x]的對(duì)抗樣本,做到最高損失;外部經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化是找到模型的最優(yōu)參數(shù),使對(duì)抗性損失最小化。PGD通過“小步幅的走,一點(diǎn)一點(diǎn)靠近”的策略來保證擾動(dòng)不要太大,如果走出擾動(dòng)半徑就重新映射會(huì)“球面”上,計(jì)算如式(12)所示。

[minθρ(θ),whereρ(θ) = E(x,y)~D[maxδ ∈ SL(θ,x +δ,y)]] (11)

[xt+1=x+S(xt+∝sgn(?xL(θ,x,y)))]" " " "(12)

式中:x——原始輸入文本;

[y]——真實(shí)的標(biāo)簽;

[∝]——小步步長(zhǎng);

[θ]——固定參數(shù)。

RP-TEBC通過利用PGD對(duì)抗訓(xùn)練算法,在詞嵌入層輸入到上下文編碼器前,通過添加擾動(dòng)來增加模型的魯棒性和泛化性。

3 試驗(yàn)與分析

3.1 評(píng)估指標(biāo)

本文試驗(yàn)中采用精確率P(Precision),召回率R(Recall)和F1(F1-measure)值作為評(píng)價(jià)指標(biāo)。精確率是指在預(yù)測(cè)的結(jié)果中預(yù)測(cè)正確的數(shù)量占全部結(jié)果的比重,召回率是指在預(yù)測(cè)正確樣本被找出來的比重。由于召回率和精確率難以平衡,因此引入調(diào)和平均F1值,只有精確率和召回率比較高的情況下才能有較高的F1值。P、R、F1計(jì)算如式(13)~式(15)所示。

[P=TPTP+FP×100%]" " " " " " " "(13)

[R=TPTP+FN×100%]" " " " " " " " (14)

[F1=2×P×RP+R]" " " " " " " " (15)

式中:P——陽(yáng)性;

N——陰性;

TP——預(yù)測(cè)是P,答案果然是P;

FP——預(yù)測(cè)是P,答案是N,因此是假的P;

FN——預(yù)測(cè)是N,答案是P,因此是假的N。

3.2 試驗(yàn)配置

試驗(yàn)所使用的編程語(yǔ)言為Python3.9,使用一塊NVIDIA 3090顯卡,在CUP型號(hào)為Intel(R) Xeon(R) Silver 4210R CPU @ 2.40 GHz,操作系統(tǒng)為L(zhǎng)inux的服務(wù)器,利用Pytorch1.12.1深度學(xué)習(xí)框架進(jìn)行命名實(shí)體識(shí)別試驗(yàn)。試驗(yàn)中所使用的超參數(shù)配置如表2所示。

3.3 與其他模型的對(duì)比試驗(yàn)

為了驗(yàn)證RP-TEBC模型對(duì)聯(lián)合收割機(jī)故障領(lǐng)域命名實(shí)體識(shí)別的有效性,本文在相同的試驗(yàn)環(huán)境下進(jìn)行了對(duì)比試驗(yàn),試驗(yàn)結(jié)果如表3所示。

試驗(yàn)以目前主流的命名實(shí)體識(shí)別模型BERT+BiLSTM+CRF為基線模型,從表3中可以看出,RP-TEBC模型相比于基線模型準(zhǔn)確率、召回率和F1值分別提高了1.79%、1.01%、1.46%,證明RP-TEBC模型對(duì)聯(lián)合收割機(jī)故障領(lǐng)域命名實(shí)體識(shí)別的效率均優(yōu)于傳統(tǒng)的模型。

3.4 消融試驗(yàn)

為了驗(yàn)證加入自適應(yīng)Transformer編碼器和引入對(duì)抗訓(xùn)練對(duì)于聯(lián)合收割機(jī)故障領(lǐng)域命名實(shí)體識(shí)別的有效性。故進(jìn)行了消融試驗(yàn),結(jié)果如表4所示。+TR表示加入了自適應(yīng)Transformer編碼器層,+PGD表示加入對(duì)抗訓(xùn)練。

由表4可知,2號(hào)模型在加入自適應(yīng)Transformer編碼器后使得模型可以更好的學(xué)習(xí)到輸入文本的語(yǔ)義信息。相比于1號(hào)模型(RoBERTa-wwm-ext+BiGRU+CRF),2號(hào)模型在準(zhǔn)確率上提升了0.17%,召回率提升了0.46%,F(xiàn)1值提升了0.29%。3號(hào)模型引入對(duì)抗訓(xùn)練使得模型的泛化性和魯棒性得到了提升,相比于1號(hào)模型3號(hào)模型的準(zhǔn)確率提升了0.83%,召回率提升了0.65%,F(xiàn)1值提升了0.75%。4號(hào)模型(RP-TEBC)同時(shí)加入了自適應(yīng)Transformer編碼器和對(duì)抗訓(xùn)練使得模型,不僅可以很好地學(xué)習(xí)到輸入文本的語(yǔ)義信息而且還增加了模型的泛化性和魯棒性,使得4號(hào)模型的準(zhǔn)確率、召回率和F1值都比1號(hào)、2號(hào)、3號(hào)模型要高。由此可以得出,加入自適應(yīng)Transformer編碼器的同時(shí)引入對(duì)抗訓(xùn)練是可以提高聯(lián)合收割機(jī)故障領(lǐng)域命名實(shí)體識(shí)別的效果。

4 結(jié)論

1) 本文為實(shí)現(xiàn)聯(lián)合收割機(jī)故障診斷命名實(shí)體識(shí)別任務(wù)構(gòu)建一套專門的數(shù)據(jù)集。

2) 提出RP-TEBC命名實(shí)體識(shí)別模型。利用自適應(yīng)Transformer編碼器使得模型對(duì)輸入文本的編碼更加適合于命名實(shí)體識(shí)別任務(wù),通過引入對(duì)抗訓(xùn)練使得模型在泛化性和魯棒性上得到提升。相比于傳統(tǒng)的BERT-BiLSTM-CRF模型,實(shí)體識(shí)別的準(zhǔn)確率提升1.79%,召回率提升1.01%,F(xiàn)1值提升1.46%。RP-TEBC模型的提出為農(nóng)機(jī)故障領(lǐng)域的命名實(shí)體識(shí)別模型研究提供參考,同時(shí)也為構(gòu)建相關(guān)農(nóng)機(jī)故障領(lǐng)域的知識(shí)圖譜提供一種新的模型工具。

3) 考慮到原始數(shù)據(jù)不足對(duì)模型性能的影響,未來還應(yīng)標(biāo)注更多農(nóng)機(jī)故障領(lǐng)域數(shù)據(jù),為農(nóng)機(jī)故障領(lǐng)域命名實(shí)體識(shí)別研究提供可靠的數(shù)據(jù)支撐。

參 考 文 獻(xiàn)

[ 1 ] Hammerton J. Named entity recognition with long short?term memory [C]. Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003, 2003: 172-175.

[ 2 ] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch [J]. Journal of Machine Learning Research, 2011, 12: 2493-2537.

[ 3 ] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging [J]. arxiv preprint arxiv: 1508.01991, 2015.

[ 4 ] Dong C, Zhang J, Zong C, et al. Character?based LSTM-CRF with radical?level features for Chinese named entity recognition [C]. Natural Language Understanding and Intelligent Applications: 5th CCF Conference on Natural Language Processing and Chinese Computing, NLPCC 2016, and 24th International Conference on Computer Processing of Oriental Languages, ICCPOL 2016, Kunming, China, December 2-6, 2016, Proceedings 24. Springer International Publishing, 2016: 239-250.

[ 5 ] Ma R, Peng M, Zhang Q, et al. Simplify the usage of lexicon in Chinese NER [J]. arxiv preprint arxiv: 1908. 05969, 2019.

[ 6 ] Zhou J T, Zhang H, Jin D, et al. Dual adversarial neural transfer for low?resource named entity recognition [C]. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019: 3461-3471.

[ 7 ] Devlin J, Chang M W, Lee K, et al. Bert: Pre?training of deep bidirectional transformers for language understanding [J]. arxiv preprint arxiv: 1810.04805, 2018.

[ 8 ] Cui Y, Che W, Liu T, et al. Pre?training with whole word masking for chinese bert [J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3504-3514.

[ 9 ] Yan H, Deng B, Li X, et al. TENER: Adapting transformer encoder for named entity recognition [J]. arxiv preprint arxiv: 1911.04474, 2019.

[10] Madry A, Makelov A, Schmidt L, et al. Towards deep learning models resistant to adversarial attacks [J]. arxiv preprint arxiv: 1706.06083, 2017.

猜你喜歡
收割機(jī)編碼器命名
用履帶收割機(jī)送柴油
命名——助力有機(jī)化學(xué)的學(xué)習(xí)
自走式油葵收割機(jī)研發(fā)成功
基于FPGA的同步機(jī)軸角編碼器
有一種男人以“暖”命名
東方女性(2018年3期)2018-04-16 15:30:02
為一條河命名——在白河源
未來的收割機(jī)
基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
麥?zhǔn)諘r(shí)如何進(jìn)行聯(lián)合收割機(jī)跨區(qū)作業(yè)
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
電子器件(2015年5期)2015-12-29 08:42:24
读书| 北川| 丽水市| 汉寿县| 陆河县| 汝州市| 颍上县| 鲜城| 灵宝市| 山西省| 隆安县| 托克托县| 龙山县| 吉木萨尔县| 祥云县| 灵寿县| 讷河市| 洪湖市| 遵义市| 息烽县| 平安县| 上林县| 溆浦县| 绥宁县| 湘潭县| 怀化市| 祁东县| 库伦旗| 和田县| 措美县| 齐河县| 元朗区| 宜州市| 甘南县| 宜城市| 镇赉县| 固原市| 二连浩特市| 彭水| 黎城县| 涞源县|