国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Transformer優(yōu)化及其在蘋果病蟲命名實(shí)體識(shí)別中的應(yīng)用

2023-06-20 04:51:52聶炎明黃鋁文
關(guān)鍵詞:病蟲名稱實(shí)體

蒲 攀 張 越 劉 勇 聶炎明 黃鋁文,2

(1.西北農(nóng)林科技大學(xué)信息工程學(xué)院, 陜西楊凌 712100; 2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)物聯(lián)網(wǎng)重點(diǎn)實(shí)驗(yàn)室, 陜西楊凌 712100)

0 引言

我國(guó)是世界第一大蘋果生產(chǎn)國(guó)[1],果業(yè)病蟲害問(wèn)題對(duì)我國(guó)蘋果產(chǎn)業(yè)影響顯著,進(jìn)而直接關(guān)系到國(guó)家和從業(yè)者的經(jīng)濟(jì)收益提升。基于知識(shí)圖譜的問(wèn)答系統(tǒng)通過(guò)對(duì)實(shí)體間關(guān)系描述能夠幫助蘋果種植人員快速準(zhǔn)確獲得病蟲管理專業(yè)知識(shí),命名實(shí)體識(shí)別作為一種智能化實(shí)體抽取方法,是構(gòu)建高質(zhì)量蘋果知識(shí)圖譜的關(guān)鍵環(huán)節(jié)。因此,如何準(zhǔn)確識(shí)別出蘋果病蟲領(lǐng)域相關(guān)實(shí)體對(duì)于蘋果種植信息化發(fā)展具有重要作用。

近年來(lái),命名實(shí)體識(shí)別技術(shù)被廣泛應(yīng)用在農(nóng)業(yè)[2]、醫(yī)學(xué)[3]等領(lǐng)域,文獻(xiàn)[4]通過(guò)融合ALBERT與規(guī)則,針對(duì)小麥病蟲害16類實(shí)體進(jìn)行識(shí)別,其F1值達(dá)到94.97%;文獻(xiàn)[5]提出基于多核的卷積神經(jīng)網(wǎng)絡(luò),對(duì)水產(chǎn)醫(yī)學(xué)領(lǐng)域動(dòng)物名稱、發(fā)病部位、病原體等6項(xiàng)實(shí)體進(jìn)行識(shí)別,其F1值達(dá)到88.48%。雖然已開展了豐富的相關(guān)研究工作,然而在現(xiàn)有的農(nóng)業(yè)命名實(shí)體識(shí)別的研究中仍存在以下問(wèn)題:對(duì)沒(méi)有明顯邊界特征的詞匯識(shí)別率較低,如文獻(xiàn)[6-7]中對(duì)于病原的識(shí)別F1值僅為88%和81.48%;現(xiàn)有研究中常用BiLSTM來(lái)捕捉文本長(zhǎng)距離依賴信息,但當(dāng)文本距離過(guò)長(zhǎng)時(shí),其獲取長(zhǎng)距離依賴信息的能力會(huì)有所下降;對(duì)蘋果病蟲害實(shí)體識(shí)別方面的研究較少,同時(shí)缺乏公開權(quán)威的數(shù)據(jù)集,文獻(xiàn)[8]構(gòu)建了蘋果病蟲相關(guān)的ApdCNER語(yǔ)料庫(kù),提出將字典和相似詞匯合并到基于字符的模型中,解決實(shí)體類別分布不均、別名和稀有實(shí)體識(shí)別困難的問(wèn)題,其F1值盡管達(dá)到92.14%,但是該方法需要依靠專家手動(dòng)構(gòu)建領(lǐng)域字典,容易對(duì)一些實(shí)體產(chǎn)生遺漏。此外,不同的人對(duì)一些相同實(shí)體可能也存在不一樣的認(rèn)識(shí)標(biāo)準(zhǔn),進(jìn)而字典構(gòu)建的質(zhì)量將直接影響模型的識(shí)別性能。

Transformer可以實(shí)現(xiàn)并行化計(jì)算,同時(shí)處理長(zhǎng)序列樣本,常用于自然語(yǔ)言處理中的機(jī)器翻譯[9]、文本生成[10]等領(lǐng)域。但是由于文本信息中不同位置的語(yǔ)義信息差別,其內(nèi)部的絕對(duì)位置編碼不能很好地表征位置信息,進(jìn)而對(duì)中文語(yǔ)義信息的提取造成了困難。國(guó)內(nèi)外學(xué)者對(duì)Transformer的文本性能優(yōu)化做出了一系列改進(jìn)。在較長(zhǎng)序列建模方面,文獻(xiàn)[11]引入段級(jí)遞歸,將絕對(duì)位置編碼改為相對(duì)位置編碼,提出了Transfortmer-XL模型。為降低文本分類復(fù)雜性,文獻(xiàn)[12]使用星型拓?fù)浯嫒B通的注意力連接,提出了Star Transformer模型。在命名實(shí)體識(shí)別領(lǐng)域,文獻(xiàn)[13]通過(guò)改進(jìn)的相對(duì)位置編碼,使用非縮放的點(diǎn)乘注意力,提出TENER模型。

為提高蘋果生產(chǎn)領(lǐng)域?qū)嶓w識(shí)別的準(zhǔn)確性,本文基于以上研究,通過(guò)融合文本的位置特征與語(yǔ)義特征,實(shí)現(xiàn)一種新的Transformer優(yōu)化模型。該模型通過(guò)結(jié)合字向量與詞向量以豐富語(yǔ)義信息,平均集成BiLSTM和Transformer,并引入具有方向和距離感知的注意力機(jī)制,結(jié)合文本上下文依賴特征和位置特征,最后通過(guò)條件隨機(jī)場(chǎng)(Conditional random fields, CRF)得到最優(yōu)預(yù)測(cè)序列。

1 材料與方法

1.1 數(shù)據(jù)來(lái)源與標(biāo)注

實(shí)驗(yàn)數(shù)據(jù)來(lái)源于中國(guó)農(nóng)化招商網(wǎng)(http:∥www.1988.tv/bch/list-4.html)爬取的農(nóng)業(yè)知識(shí),在西北農(nóng)林科技大學(xué)國(guó)家級(jí)蘋果試驗(yàn)示范站的植保和栽培專家團(tuán)隊(duì)指導(dǎo)和協(xié)助下,人工對(duì)所爬取數(shù)據(jù)進(jìn)行去空格、空行及特殊符號(hào)處理,去除重復(fù)數(shù)據(jù)和無(wú)效數(shù)據(jù)。綜合《中國(guó)蘋果病害病原菌物名錄》電子版數(shù)據(jù),建立蘋果病蟲知識(shí)數(shù)據(jù)集,其中包含3 928個(gè)病蟲相關(guān)實(shí)體。

本文采用“BIO”的標(biāo)注方式進(jìn)行實(shí)體標(biāo)注,其中,B標(biāo)注實(shí)體名稱的開始,I標(biāo)注實(shí)體名稱的內(nèi)部信息,O標(biāo)注語(yǔ)料中的非實(shí)體部分。實(shí)體名稱共包括DIS、PES、NAM、PAR、MED、CAU共6種,DIS表示蘋果病害名稱,PES表示蘋果蟲害名稱,NAM表示蘋果病蟲害的別稱,PAR表示為害部位名稱,MED表示防治藥劑名稱,CAU表示病原名稱。將B、I、O三元組與實(shí)體名稱進(jìn)行結(jié)合,形成標(biāo)簽,可得B-DIS、B-PES、B-NAM、B-PAR、B-MED、B-CAU、I-DIS、I-PES、I-NAM、I-PAR、I-MED、I-CAU、O共計(jì)13種實(shí)體標(biāo)簽,并以8∶1∶1將數(shù)據(jù)集分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,數(shù)據(jù)集劃分如表1所示。蘋果樹腐爛病是我國(guó)西北地區(qū)蘋果樹常發(fā)病害,以蘋果樹腐爛病為例,依據(jù)此標(biāo)簽進(jìn)行數(shù)據(jù)標(biāo)注,標(biāo)注示例如圖1所示。

表1 蘋果知識(shí)數(shù)據(jù)集Tab.1 Dataset of apple knowledge

1.2 特征分析

與通用語(yǔ)料相比,蘋果病蟲領(lǐng)域內(nèi)的實(shí)體名稱在結(jié)構(gòu)和專業(yè)性等方面有明顯自身特點(diǎn),具體體現(xiàn)為以下4方面:

(1)構(gòu)成成分多。蘋果病蟲領(lǐng)域的實(shí)體命名除了單純的文字外,還常由數(shù)字、特殊符號(hào)等多種符號(hào)構(gòu)成,如藥劑名稱“蘇脲1號(hào)”、“多菌靈·異菌脲懸浮劑”等。

(2)生僻字較多。在藥劑實(shí)體和病原實(shí)體中常出現(xiàn)生僻字,如藥劑“噻霉酮”,病原“河口槭膠銹菌”,從而造成模型在識(shí)別上的困難。

(3)嵌套實(shí)體較常見(jiàn)。在藥劑名稱中常出現(xiàn)由多個(gè)子實(shí)體構(gòu)成的實(shí)體,如“阿維菌素·噠螨靈乳油”易被拆分為“阿維菌素”“噠螨靈”“乳油”,容易干擾模型判斷。

(4)一詞多義現(xiàn)象較多存在。與其他農(nóng)業(yè)作物病蟲害實(shí)體不同的是,在中文文本中,“蘋果”具有水果名稱和商品品牌(手機(jī)、服裝)多種含義,在蘋果病蟲領(lǐng)域,“蘋果”一詞出現(xiàn)在不同位置,代表著不同標(biāo)簽。如“蘋果”在“蘋果褐斑病”中的正確標(biāo)簽為“B-DIS I-DIS”,在病原實(shí)體“蘋果星殼孢”中的正確標(biāo)簽應(yīng)為“B-CAU I-CAU”,但其單獨(dú)出現(xiàn)時(shí)又不是病蟲相關(guān)實(shí)體,其具體標(biāo)簽由上下文語(yǔ)義共同決定,這給模型提取上下文關(guān)系帶來(lái)難度。

2 模型框架

本文所提模型的整體結(jié)構(gòu)包含嵌入層、Transformer層、BiLSTM層、特征融合層和CRF層5部分,其基本構(gòu)成如圖2所示。其中,x1、x2、x3、x4、x5、x6為嵌入層輸出;LSTM為長(zhǎng)短時(shí)記憶網(wǎng)絡(luò);BiLSTM為雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò);Multi-Head Attention為多頭注意力機(jī)制;Add&Norm為殘差和標(biāo)準(zhǔn)化;Feed Forward為前饋神經(jīng)網(wǎng)絡(luò);CRF為條件隨機(jī)場(chǎng)。

圖2 模型結(jié)構(gòu)Fig.2 Model structure

2.1 嵌入層

由于中文分詞存在錯(cuò)誤拆分的現(xiàn)象[7],如病害名稱“斑點(diǎn)落葉病”的分詞結(jié)果為“斑點(diǎn)/落葉/病”,蟲害實(shí)體“金紋細(xì)蛾”的分詞結(jié)果為“金/紋/細(xì)/蛾”,這些實(shí)體的錯(cuò)誤拆分會(huì)導(dǎo)致模型不能正確獲取實(shí)體特征[14]。雖有研究表明,在嵌入層中基于字符的模型比基于單詞的模型性能要好[15],但在中文里單個(gè)字符可表達(dá)的語(yǔ)義有限,而通過(guò)使用預(yù)先訓(xùn)練的詞嵌入作為特征可進(jìn)行改進(jìn)。本文使用Lattice LSTM[16]模型提供的預(yù)訓(xùn)練向量集,同時(shí)采用基于字向量與詞向量拼接的嵌入方式來(lái)增強(qiáng)文本的語(yǔ)義信息。

2.2 Transformer層

在中文命名實(shí)體識(shí)別任務(wù)中,文本的位置與語(yǔ)義密切相關(guān)。已有的多數(shù)研究更偏重文本的語(yǔ)義特征、偏旁特征或拼音特征,而忽略了文本的位置特征。而傳統(tǒng)的Transformer模型在嵌入層引入了絕對(duì)位置編碼,其計(jì)算方式為

Pt,2i=sin(t/10 0002i/d)

(1)

Pt,2i+1=cos(t/10 0002i/d)

(2)

式中t——文本位置

i——維度位置索引

Pt,2i——第t個(gè)token在偶數(shù)維度的位置編碼

Pt,2i+1——第t個(gè)token在奇數(shù)維度的位置編碼

d——輸入維度

在傳統(tǒng)的Transformer注意力計(jì)算方法中,序列中第t個(gè)字和第j個(gè)字的注意力分?jǐn)?shù)計(jì)算公式為

(3)

式中WQ、WK、WV——輸入字符的查詢向量Q、鍵向量K、值向量V的權(quán)重參數(shù)矩陣

X——字嵌入向量

P——位置編碼

j——token的索引

(4)

由三角函數(shù)的性質(zhì)cos(x)=cos(-x)可知,傳統(tǒng)計(jì)算方式所得出的相對(duì)位置信息僅有兩個(gè)token之間的距離關(guān)系,而對(duì)于兩個(gè)token的位置無(wú)法判斷,例如在“蘋果”與“果蘋”中,兩個(gè)字相對(duì)位置雖不同,但其位置編碼乘積相同,同時(shí)這樣的位置信息在經(jīng)過(guò)查詢向量和鍵向量的映射后會(huì)消失。

為了充分利用中文文本的位置特征,本文改進(jìn)使用

(Q,K,V)=(HWQ,HWK,HWV)

(5)

(6)

(7)

A(Q,K,V)=softmax(S)V

(8)

式中H——嵌入層輸出

u、v——可學(xué)習(xí)的參數(shù)

Rt-j——相對(duì)位置編碼

St,j——第t、j個(gè)token之間相似度得分

Qt,Kj——第t、j個(gè)token的查詢向量和鍵向量

A——注意力得分

來(lái)計(jì)算整體注意力分?jǐn)?shù),通過(guò)式(6)計(jì)算位置編碼,利用三角函數(shù)的性質(zhì),通過(guò)正弦函數(shù)捕捉方向性,余弦函數(shù)捕捉字符的絕對(duì)位置關(guān)系,從而解決傳統(tǒng)Transformer模型相對(duì)位置信息易丟失的問(wèn)題。通過(guò)式(7)計(jì)算輸入序列中每個(gè)單詞之間的相關(guān)性得分,式(8)對(duì)于輸入序列中每個(gè)單詞之間的相關(guān)性得分進(jìn)行了歸一化,使每個(gè)字與其他字的注意力權(quán)重之和為1。

通過(guò)計(jì)算每個(gè)字與其他字的相關(guān)性,即可獲得全局特征表示。當(dāng)實(shí)體中的生僻字缺失語(yǔ)義信息時(shí),根據(jù)其與前后文本的位置關(guān)系,依然可以依據(jù)其他文本而獲取到。如病原實(shí)體中常以“菌”、“殼”、“孢”等字結(jié)尾,在實(shí)體“河口槭膠銹菌”中,“槭”為生僻字,但由于其后面的“菌”通常是病原中最后一字,且僅相隔兩個(gè)字,根據(jù)其位置信息也可確定其為病原實(shí)體的一部分。

2.3 BiLSTM層

通過(guò)分析蘋果病蟲數(shù)據(jù)集發(fā)現(xiàn),在長(zhǎng)句子中常會(huì)出現(xiàn)多類實(shí)體,且實(shí)體長(zhǎng)度不一,為害部位大多常以兩個(gè)字符出現(xiàn),而部分藥劑名稱則多達(dá)9個(gè)字符,如“代森錳鋅可濕性粉劑”。使用LSTM[17]不僅可以處理長(zhǎng)序列問(wèn)題,同時(shí)解決了RNN在訓(xùn)練時(shí)所產(chǎn)生的梯度爆炸或梯度消失現(xiàn)象[18-19],而且能夠有效利用上一時(shí)刻特征來(lái)判斷下一時(shí)刻特征,因此本文使用LSTM網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)局部語(yǔ)義特征的提取。

在命名實(shí)體識(shí)別任務(wù)中,句子的前向信息和后向信息都很關(guān)鍵,而普通LSTM只能捕獲前向信息[20]。如病害實(shí)體“斑點(diǎn)落葉病”,LSTM提取到“葉”字時(shí)需提取到之前的“斑點(diǎn)落”幾個(gè)字的特征,而無(wú)法考慮到與后面“病”字的關(guān)系。針對(duì)上述問(wèn)題,本文選擇雙向LSTM(BiLSTM)[21]結(jié)構(gòu)實(shí)現(xiàn)對(duì)句子級(jí)別的特征提取,以更好地解決蘋果領(lǐng)域中一詞多義的問(wèn)題。

2.4 特征融合層

在命名實(shí)體識(shí)別研究中,許多研究者采用基于CNN、基于LSTM和基于Transformer等方法作為上下文編碼器,但是采用單一的編碼器通常也會(huì)引起特征提取不充分問(wèn)題。LSTM模型雖然能夠在序列信息建模方面凸顯優(yōu)勢(shì),卻存在冗余信息;Transformer能夠關(guān)注重點(diǎn)詞匯特征和加速訓(xùn)練速度,但存在上下文信息建模不足的缺陷?;谏鲜銮闆r,本研究使用平均融合法實(shí)現(xiàn)對(duì)特征的融合,以降低模型陷入局部極小點(diǎn)的可能,進(jìn)而達(dá)到提高識(shí)別率的目的。本文設(shè)計(jì)平均法、投票法、拼接法3種方案,其對(duì)應(yīng)的計(jì)算公式分別為

(9)

(10)

H(x)=h(x)⊕f(x)

(11)

式中h(x)、f(x)——Transformer、BiLSTM的輸出

N——模型個(gè)數(shù)

wj——第j個(gè)模型的權(quán)重

pi,j,k——第j個(gè)模型對(duì)樣本i的預(yù)測(cè)結(jié)果為類別k的概率

2.5 CRF層

BiLSTM與Transformer雖然適合處理長(zhǎng)距離的文本信息,但都忽略了標(biāo)簽之間的依賴關(guān)系[22],而在命名實(shí)體識(shí)別任務(wù)中,如果不考慮字符標(biāo)簽與相鄰標(biāo)簽的相關(guān)性則極可能會(huì)給出錯(cuò)誤標(biāo)簽。CRF[23]能通過(guò)訓(xùn)練數(shù)據(jù)學(xué)習(xí)到標(biāo)簽之間的約束性[4-5],并通過(guò)這種約束性獲得一個(gè)最優(yōu)的預(yù)測(cè)序列,具體約束性主要有以下兩點(diǎn):①句子中的第一個(gè)字的標(biāo)簽只能是“B-”或者“O”,不能是“I-”。②語(yǔ)句中的標(biāo)簽“B-label I-label I-label”,“l(fā)abel”應(yīng)該是相同的命名實(shí)體標(biāo)簽,如“褐斑病”的標(biāo)簽應(yīng)為“B-DIS I-DIS I-DIS”,而在蘋果病蟲數(shù)據(jù)集中,當(dāng)“蘋果”后為病害實(shí)體時(shí),通常當(dāng)作一個(gè)整體,如“蘋果褐斑病”的標(biāo)簽為“B-DIS I-DIS I-DIS I-DIS I-DIS”;“蘋果”后為病原實(shí)體時(shí),如“蘋果鏈核盤菌”,其標(biāo)簽應(yīng)為“B-CAU I-CAU I-CAU I-CAU I-CAU I-CAU”。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)環(huán)境搭建和模型參數(shù)設(shè)置

實(shí)驗(yàn)運(yùn)行系統(tǒng)為Ubuntu 18.04,顯卡型號(hào)NVIDIA GeForce RTX 3080 Ti,編程語(yǔ)言使用Python 3.7版本,采用Pytorch 1.7.1深度框架完成模型構(gòu)建和訓(xùn)練評(píng)估。在實(shí)驗(yàn)過(guò)程中,所使用的模型參數(shù),是通過(guò)前期的實(shí)驗(yàn)參數(shù)優(yōu)化調(diào)整所得的最優(yōu)參數(shù)組合:即迭代次數(shù)為35,學(xué)習(xí)率0.000 6,多頭注意力數(shù)量為4,每個(gè)頭維度為48,批量大小4,隨機(jī)失活率0.45。由參數(shù)優(yōu)化實(shí)驗(yàn)發(fā)現(xiàn),學(xué)習(xí)率過(guò)大,會(huì)造成網(wǎng)絡(luò)不能收斂,而學(xué)習(xí)率過(guò)小容易陷入局部最優(yōu)解,進(jìn)而造成識(shí)別效果變差;批量大小設(shè)置過(guò)小會(huì)不利于收斂,過(guò)大容易陷入局部最小值;為防止模型過(guò)擬合,本文添加了隨機(jī)失活率來(lái)減少神經(jīng)元之間的復(fù)雜關(guān)系,以增強(qiáng)模型魯棒性。本文使用的優(yōu)化實(shí)驗(yàn)參數(shù)如表2所示。對(duì)實(shí)體抽取模型結(jié)果和各項(xiàng)性能進(jìn)行定量分析,所采用的評(píng)價(jià)指標(biāo)為精確率、召回率、F1值[24]。

表2 BIO標(biāo)注的實(shí)驗(yàn)參數(shù)Tab.2 Experimental parameters of BIO

3.2 實(shí)驗(yàn)結(jié)果與分析

3.2.1不同模型實(shí)驗(yàn)結(jié)果對(duì)比

為了對(duì)比所提方法的識(shí)別效果,本文基于相同數(shù)據(jù)集,選取命名實(shí)體識(shí)別領(lǐng)域的3種傳統(tǒng)常用模型BiLSTM-CRF、Transformer-CRF和TENER模型分別進(jìn)行了性能對(duì)比實(shí)驗(yàn)。各個(gè)模型的性能結(jié)果如表3所示。

表3 不同模型對(duì)比實(shí)驗(yàn)結(jié)果Tab.3 Comparative experimental results of different models %

從表3可以看出,使用BiLSTM對(duì)序列提取特征,F1值僅為85.46%,其可能原因是當(dāng)文本序列長(zhǎng)度過(guò)長(zhǎng)時(shí)BiLSTM對(duì)上下文特征的提取能力會(huì)下降;而在傳統(tǒng)的Transformer模型中,其位置編碼信息沒(méi)有得到充分利用,較于BiLSTM模型其僅在召回率和F1值上有所提高;TENER通過(guò)改進(jìn)位置編碼函數(shù),采用非縮放點(diǎn)積的注意力機(jī)制,與Transformer相比精確率、召回率和F1值分別提高3.67、2.47、1.29個(gè)百分點(diǎn)。本文提出的模型利用了TENER的優(yōu)勢(shì),使用了具有方向和距離感知的注意力機(jī)制,充分結(jié)合了文本的位置特征,同時(shí)通過(guò)引入BiLSTM增強(qiáng)了上下文語(yǔ)義特征,使模型對(duì)上下文相關(guān)性的提取能力有所提高,其精確率、召回率和F1值分別達(dá)到94.08%、91.28%和92.66%,在所比較模型中均達(dá)到最高。對(duì)比結(jié)果表明所提方法對(duì)于句子語(yǔ)義特征的學(xué)習(xí)是有效的。

3.2.2不同實(shí)體類別實(shí)驗(yàn)結(jié)果對(duì)比

為了驗(yàn)證模型在各類實(shí)體上的提取能力,表4列出了所提方法在蘋果病蟲數(shù)據(jù)集中對(duì)各類實(shí)體的識(shí)別結(jié)果。從表中可知,本文方法對(duì)病害名稱、蟲害名稱、為害部位、藥品名稱、病原5類實(shí)體的F1值均在90%以上,但對(duì)別名的F1值僅為83.33%,這可能是由于在數(shù)據(jù)集中別名實(shí)體數(shù)量較少,同時(shí)病害與蟲害的別名通常具有相同的邊界特征,如病害名稱與其別名都常以“病”字結(jié)尾,導(dǎo)致模型在判斷中容易混淆,造成F1值較低。

表4 Transformer優(yōu)化模型在各類實(shí)體上的表現(xiàn)Tab.4 Optimized Transformer’s performance on various entities %

圖3~5展示了不同模型在各實(shí)體上的性能表現(xiàn)對(duì)比,本文方法在藥品名稱(MED)、病害名稱(DIS)、病原(CAU)、為害部位(PAR)、別名(NAM)實(shí)體上的F1值均優(yōu)于其他模型。對(duì)實(shí)體蟲害名稱(PES)的F1值為92.78%,低于其他模型,原因可能是在蟲害實(shí)體中,大多以“蟲”、“蛾”、“蚜”等特征詞作為結(jié)尾,但存在部分蟲害名稱中不存在這些特征詞,如“金龜子”,從而導(dǎo)致模型易將這些蟲害實(shí)體識(shí)別錯(cuò)誤。參考蘋果病蟲領(lǐng)域的實(shí)體特征,一詞多義、生僻字、構(gòu)成成分多等情況通常多出現(xiàn)在藥品名稱、病原、別名的實(shí)體中,因此,可以說(shuō)明本文方法能夠有效解決蘋果病蟲領(lǐng)域的命名實(shí)體識(shí)別問(wèn)題。

圖3 各實(shí)體精確率對(duì)比Fig.3 Comparison of precision of each entity

圖4 各實(shí)體召回率對(duì)比Fig.4 Comparison of recall rate of each entity

圖5 各實(shí)體F1值對(duì)比Fig.5 Comparison of F1 score of each entities

以上結(jié)果表明,本文利用了Transformer中注意力機(jī)制,使模型具有更加關(guān)注重點(diǎn)詞、抑制無(wú)用詞的特點(diǎn)。采用具有方向和距離感知的注意力機(jī)制來(lái)充分利用文本位置特征,通過(guò)引入BiLSTM來(lái)增強(qiáng)上下文信息,在本文所構(gòu)建的數(shù)據(jù)集中綜合識(shí)別能力優(yōu)于所比較的其他傳統(tǒng)模型。

3.2.3Transformer與不同模型融合結(jié)果對(duì)比

學(xué)習(xí)任務(wù)假設(shè)空間往往很大,會(huì)有多個(gè)假設(shè)在訓(xùn)練集上達(dá)到同等性能,使用單一學(xué)習(xí)器可能會(huì)出現(xiàn)泛化能力不佳的情況,通過(guò)結(jié)合多個(gè)學(xué)習(xí)器可以有效降低這一風(fēng)險(xiǎn)。為了得到最佳的模型,本文設(shè)計(jì)了Transformer分別與RNN、LSTM、BiLSTM和BiGRU進(jìn)行融合,實(shí)驗(yàn)結(jié)果如表5所示。

表5 Transformer與不同模型融合結(jié)果Tab.5 Transformer integrated with different models %

由表5可以看到,與傳統(tǒng)RNN進(jìn)行融合,模型精確率為92.87%。而LSTM與GRU都屬于門控RNN,更適合處理長(zhǎng)序列數(shù)據(jù),與LSTM融合后的精確率達(dá)到93.06%。為了可以更好地捕捉雙向的語(yǔ)義依賴,選擇分別與BiGRU和BiLSTM模型進(jìn)行融合,在精確率和F1值上均有提高,結(jié)果表明,BiLSTM模型可以更大范圍地補(bǔ)充Transformer提取不到的依賴關(guān)系和語(yǔ)義特征,因此與BiLSTM融合的效果更好。

3.2.4不同融合方法對(duì)模型的影響

為了選擇最佳的特征融合方法,本文使用3種不同的融合方法(平均法、投票法、拼接融合法),比較不同融合方法對(duì)于模型性能的影響。在不同融合方法下,模型的性能參數(shù)結(jié)果如表6所示。

表6 不同融合方法對(duì)比

實(shí)驗(yàn)表明,使用簡(jiǎn)單拼接融合效果最差,平均法效果最好,其可能原因是拼接融合將多個(gè)特征向量拼接在一起,其中一些特征可能存在多個(gè)特征重復(fù)出現(xiàn),導(dǎo)致模型在進(jìn)行訓(xùn)練時(shí)過(guò)度依賴重復(fù)特征,從而降低模型性能。而由于本文蘋果數(shù)據(jù)集中實(shí)體占比較小,投票法可能會(huì)受到噪聲數(shù)據(jù)的干擾,從而導(dǎo)致錯(cuò)誤的預(yù)測(cè)結(jié)果。平均融合法通過(guò)平均多個(gè)模型的預(yù)測(cè)結(jié)果,可以減少單個(gè)模型的偏差和方差,從而提高整體的準(zhǔn)確性。

3.2.5與同領(lǐng)域相似研究比較

文獻(xiàn)[9]通過(guò)整理蘋果病蟲領(lǐng)域相關(guān)書籍,構(gòu)建了包含130 448個(gè)漢字的蘋果病蟲害庫(kù)ApdCNER,共標(biāo)注相關(guān)實(shí)體11 876個(gè);本文先通過(guò)爬蟲技術(shù)爬取網(wǎng)頁(yè)中對(duì)蘋果病蟲害的描述,隨后在專家指導(dǎo)下進(jìn)行修正,構(gòu)建了蘋果病蟲語(yǔ)料庫(kù),共標(biāo)注127 572個(gè)漢字,包含3 928個(gè)實(shí)體,與文獻(xiàn)[9]相比,本文構(gòu)建的數(shù)據(jù)集中各實(shí)體數(shù)量相對(duì)更少,分布更稀疏;在實(shí)體的標(biāo)注方面,文獻(xiàn)[9]將蘋果相關(guān)各實(shí)體分為21個(gè)類別,更考驗(yàn)?zāi)P偷奶崛∧芰?。在本文?gòu)建的數(shù)據(jù)集中根據(jù)日常使用情況將實(shí)體分為6個(gè)類別,更適用于普通問(wèn)答系統(tǒng)的構(gòu)建;在模型提取能力方面,文獻(xiàn)[9]將蘋果數(shù)據(jù)集中的字典和類似的單詞納入BiLSTM CRF模型,其精確率、召回率和F1值分別為92.29%、91.99%和92.14%,本文所提方法的精確率、召回率和F1值分別為94.08%、91.28%、92.66%,F1值相較提高0.52個(gè)百分點(diǎn),表明了本文方法與當(dāng)前同領(lǐng)域較先進(jìn)的模型達(dá)到同等性能水平??紤]到所需的樣本數(shù)量,本方法對(duì)小樣本量的蘋果領(lǐng)域命名實(shí)體識(shí)別任務(wù)具有較高的特征提取能力。

另外,由于與文獻(xiàn)[9]采用了不同的實(shí)體標(biāo)注方式,為了排除標(biāo)注方法的可能影響,本文又使用文獻(xiàn)[9]的BMES標(biāo)注方式對(duì)所建數(shù)據(jù)集進(jìn)行了實(shí)體標(biāo)注,B表示該漢字是一個(gè)詞語(yǔ)的開頭,E表示該漢字是一個(gè)詞語(yǔ)的結(jié)尾,M表示該漢字是一個(gè)詞語(yǔ)的中間部分,S則表示該漢字單獨(dú)構(gòu)成一個(gè)詞語(yǔ),該標(biāo)注方法對(duì)所標(biāo)注實(shí)體增加了對(duì)應(yīng)標(biāo)簽,而對(duì)于實(shí)體數(shù)量較BIO標(biāo)注并未發(fā)生改變。BMES標(biāo)注后重新訓(xùn)練該模型并對(duì)識(shí)別性能評(píng)估,模型的優(yōu)化實(shí)驗(yàn)參數(shù)如表7所示,重新標(biāo)注后所建模型的精確率為94.40%、召回率為92.21%、F1值達(dá)到93.29%。對(duì)比3.2.1節(jié)使用BIO標(biāo)注方法的模型運(yùn)行結(jié)果,可以發(fā)現(xiàn)兩種標(biāo)注方法的運(yùn)行效果基本達(dá)到相同水平,使用BMES方法更加準(zhǔn)確地標(biāo)注出每個(gè)漢字的位置和類型,提供了比BIO方法更多的信息,方便后續(xù)進(jìn)行分詞處理,因而是其F1值略有提升的可能原因。對(duì)比表7與表2可以看到,模型的優(yōu)化參數(shù)會(huì)受標(biāo)注方式影響。

表7 BMES標(biāo)注的實(shí)驗(yàn)參數(shù)Tab.7 Experimental parameters of BMES

最后,為了測(cè)試所建模型在實(shí)際使用過(guò)程中的有效性,通過(guò)百度貼吧平臺(tái)抽取了蘋果種植相關(guān)的問(wèn)題,并使用本文模型對(duì)文本數(shù)據(jù)進(jìn)行了實(shí)體識(shí)別,結(jié)果如表8所示,本模型對(duì)實(shí)際病蟲提問(wèn)均準(zhǔn)確提取出了問(wèn)題中的實(shí)體。

表8 識(shí)別結(jié)果示例Tab.8 Examples of recognition results

4 結(jié)論

(1)針對(duì)蘋果生產(chǎn)領(lǐng)域存在病蟲害相關(guān)數(shù)據(jù)集缺失的問(wèn)題,本文基于西北農(nóng)林科技大學(xué)在陜西省渭南市白水縣的蘋果試驗(yàn)示范站所收集的蘋果病蟲知識(shí),以及通過(guò)爬取中國(guó)農(nóng)化招商網(wǎng),綜合《中國(guó)蘋果病害病原菌物名錄》電子版數(shù)據(jù),建立了蘋果病蟲知識(shí)數(shù)據(jù)集。

(2)為提高蘋果病蟲害實(shí)體識(shí)別的準(zhǔn)確性,本文通過(guò)在Transformer中引入具有方向和距離感知的注意力機(jī)制,融合BiLSTM提取到的語(yǔ)義特征來(lái)提高Transformer在蘋果病蟲害實(shí)體識(shí)別領(lǐng)域的識(shí)別效果,通過(guò)對(duì)比BiLSTM-CRF、Transformer-CRF、TENER模型,驗(yàn)證了傳統(tǒng)Transformer模型在命名實(shí)體識(shí)別領(lǐng)域的不足。實(shí)驗(yàn)結(jié)果表明,本文所提方法在蘋果命名實(shí)體識(shí)別中的F1值可達(dá)92.66%。相較于傳統(tǒng)的識(shí)別方法,其性能進(jìn)一步提升,對(duì)小樣本量數(shù)據(jù)集優(yōu)勢(shì)明顯。

猜你喜歡
病蟲名稱實(shí)體
果園病蟲無(wú)公害防治助農(nóng)提質(zhì)增效
玉米中后期病蟲防控技術(shù)
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
選用對(duì)口藥劑 適期防治病蟲
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
滬港通一周成交概況
滬港通一周成交概況
滬港通一周成交概況
荃湾区| 忻城县| 迁西县| 寿阳县| 普格县| 三明市| 白河县| 伊金霍洛旗| 肃北| 南宁市| 逊克县| 广东省| 高要市| 凤庆县| 尖扎县| 莎车县| 江都市| 抚顺市| 分宜县| 抚远县| 北京市| 阆中市| 安义县| 手机| 新化县| 广丰县| 巍山| 东平县| 东光县| 萨嘎县| 章丘市| 宁陕县| 松桃| 江阴市| 桂阳县| 夏河县| 密山市| 莆田市| 乐安县| 南平市| 磴口县|