国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙重注意力機(jī)制的漁業(yè)標(biāo)準(zhǔn)實(shí)體關(guān)系抽取

2021-10-12 10:53孫哲濤劉巨升楊惠寧張思佳于英囡
關(guān)鍵詞:漁業(yè)標(biāo)簽實(shí)體

楊 鶴,于 紅,孫哲濤,劉巨升,楊惠寧,張思佳,孫 華,姜 鑫,于英囡

(1.大連海洋大學(xué)信息工程學(xué)院,大連 116023;2.設(shè)施漁業(yè)教育部重點(diǎn)實(shí)驗(yàn)室,大連 116023;3.遼寧省海洋信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,大連 116023)

0 引 言

數(shù)字漁業(yè)是中國鄉(xiāng)村振興戰(zhàn)略的重要組成部分,也是數(shù)字中國的重要內(nèi)容。漁業(yè)現(xiàn)代化和漁業(yè)標(biāo)準(zhǔn)化是數(shù)字漁業(yè)發(fā)展的重要方向[1],漁業(yè)現(xiàn)代化需要智能養(yǎng)殖技術(shù)服務(wù)[2]做支撐,漁業(yè)標(biāo)準(zhǔn)化需要以精準(zhǔn)的標(biāo)準(zhǔn)服務(wù)為依托。知識(shí)圖譜對(duì)解決領(lǐng)域問題有重要作用[3],張善文等[4]提出一種基于知識(shí)圖譜和 BiLSTM模型結(jié)合的小麥銹病預(yù)測方法,提高了病害預(yù)測的精度,為小麥條銹病的預(yù)報(bào)預(yù)警和綜合防治提供科學(xué)依據(jù)。奧德瑪?shù)萚5]利用自然語言處理和文本挖掘技術(shù),構(gòu)建了中文醫(yī)學(xué)知識(shí)圖譜CMeKG,為智慧醫(yī)療提供專業(yè)知識(shí)基礎(chǔ)。漁業(yè)標(biāo)準(zhǔn)知識(shí)圖譜是表示漁業(yè)標(biāo)準(zhǔn)文本中實(shí)體之間關(guān)系的語義網(wǎng)絡(luò)系統(tǒng),是精準(zhǔn)描述養(yǎng)殖技術(shù)和標(biāo)準(zhǔn)信息的重要載體,可以為漁業(yè)生產(chǎn)技術(shù)人員提供高質(zhì)量知識(shí),是實(shí)現(xiàn)智能養(yǎng)殖技術(shù)服務(wù)和標(biāo)準(zhǔn)精準(zhǔn)服務(wù)的基礎(chǔ)。關(guān)系抽取是構(gòu)建知識(shí)圖譜的關(guān)鍵技術(shù),有效的關(guān)系抽取技術(shù)可以提升構(gòu)建知識(shí)圖譜的質(zhì)量和效率,進(jìn)而推動(dòng)漁業(yè)現(xiàn)代化的進(jìn)程,助力鄉(xiāng)村振興。

漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別和漁業(yè)標(biāo)準(zhǔn)實(shí)體關(guān)系抽取是構(gòu)建漁業(yè)標(biāo)準(zhǔn)知識(shí)圖譜的基礎(chǔ)工作。程名等[6]提出了融合注意力機(jī)制和BiLSTM+CRF的漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別,取得較好的結(jié)果,但沒有解決部分實(shí)體樣本分布稀疏,導(dǎo)致識(shí)別效果不好的問題。楊鶴等[7]針對(duì)該問題,提出了多元組合數(shù)據(jù)增廣方法,有效擴(kuò)充了數(shù)據(jù)集,提升了命名實(shí)體識(shí)別的整體效果。上述研究可知,針對(duì)漁業(yè)標(biāo)準(zhǔn)文本命名實(shí)體識(shí)別的研究已經(jīng)取得了較好效果,但還沒有針對(duì)漁業(yè)標(biāo)準(zhǔn)文本關(guān)系抽取任務(wù)的研究工作。

早期關(guān)系抽取任務(wù)主要是基于規(guī)則[8-10]和機(jī)器學(xué)習(xí)[11-12]的方法,基于規(guī)則的方法嚴(yán)重依賴于規(guī)則制定,難以解決海量信息和復(fù)雜的信息抽取任務(wù),基于機(jī)器學(xué)習(xí)的方法可以解決這一不足,并且能夠明顯提升召回率,應(yīng)用領(lǐng)域也更廣泛,但其需要手動(dòng)提取文本特征,模型泛化能力較差。

基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取方法不需要人工提取特征且具有較高精確度,近年來逐漸成為研究熱點(diǎn)[13-16]。丁澤源等[17]基于深度學(xué)習(xí)方法提出了中文生物醫(yī)學(xué)實(shí)體關(guān)系抽取系統(tǒng),對(duì)于識(shí)別的準(zhǔn)確率有較大提升,使更多關(guān)系得到正確識(shí)別;鄭麗敏等[18]針對(duì)實(shí)體關(guān)系抽取受中文復(fù)雜語法特性限制的問題,提出一種基于深度學(xué)習(xí)的新聞文本的實(shí)體關(guān)系抽取方法,取得較好效果。與通用領(lǐng)域相比,漁業(yè)標(biāo)準(zhǔn)文本領(lǐng)域的語料包含漁業(yè)標(biāo)準(zhǔn)號(hào)以及大量專有名詞,其信息抽取任務(wù)難點(diǎn)在于指標(biāo)名特殊性和實(shí)體間存在較多的重疊關(guān)系,為了解決該問題,本文提出了一種基于雙重注意力機(jī)制的漁業(yè)標(biāo)準(zhǔn)實(shí)體關(guān)系抽取方法并改進(jìn)了 Zheng等[19]的標(biāo)注方法,提出了句式分類的標(biāo)注策略。主要研究如下:針對(duì)漁業(yè)標(biāo)準(zhǔn)文本中存在大量重疊關(guān)系而傳統(tǒng)標(biāo)注方法對(duì)重疊關(guān)系沒有明確定義這一問題,提出句式分類標(biāo)注策略,添加重疊標(biāo)簽,以解決漁業(yè)標(biāo)準(zhǔn)文本重疊關(guān)系無法抽取問題;為了識(shí)別結(jié)構(gòu)化信息和位置信息并利用字級(jí)別注意力機(jī)制和句子級(jí)別注意力機(jī)制,更好的分配權(quán)重、排除噪音、提高準(zhǔn)確性,提出基于雙重注意力機(jī)制與 BERT-BiLSTM-CRF的漁業(yè)標(biāo)準(zhǔn)關(guān)系抽取模型,以期為其他領(lǐng)域的信息抽取任務(wù)提供參考。

1 數(shù)據(jù)采集與標(biāo)注

1.1 數(shù)據(jù)采集

試驗(yàn)數(shù)據(jù)來自漁業(yè)生產(chǎn)技術(shù)人員日常養(yǎng)殖參照的漁業(yè)標(biāo)準(zhǔn)文本,該類標(biāo)準(zhǔn)文本大部分以書籍、PDF文件、圖片等形式存在且缺少公開的數(shù)據(jù)集,通過爬蟲技術(shù)、圖文轉(zhuǎn)換等方法收集數(shù)據(jù)并進(jìn)行人工校對(duì),構(gòu)建DLOU-FSI語料庫,共計(jì)343篇,36萬字符。

針對(duì)DLOU-FSI語料庫中7種關(guān)系類型進(jìn)行抽取工作,分別為引用、規(guī)定、發(fā)布、提出、起草、歸口和比較。關(guān)系類別及實(shí)例如表1所示,在標(biāo)注過程中取所有關(guān)系類別的字符拼音首位字母作為對(duì)應(yīng)標(biāo)簽,例如,引用關(guān)系對(duì)應(yīng)“YY”標(biāo)簽。

表1 漁業(yè)標(biāo)準(zhǔn)文本中的關(guān)系類型實(shí)例Table 1 Examples of relation types in fishery standard texts

1.2 語料標(biāo)注

通過對(duì)漁業(yè)標(biāo)準(zhǔn)文本特性分析,發(fā)現(xiàn)漁業(yè)標(biāo)準(zhǔn)文本中存在大量重疊關(guān)系,因此,改進(jìn)了Zheng等[19]的標(biāo)注方法,針對(duì)其方法無法解決重疊關(guān)系抽取問題,提出了句式分類標(biāo)注策略,實(shí)體關(guān)系抽取標(biāo)簽由4部分組成分別為:實(shí)體邊界[20]、關(guān)系類別、重疊句式標(biāo)簽、位置標(biāo)簽[21]。

Zheng等[19]的標(biāo)注策略使用最近距離匹配原則抽取句子中的關(guān)系三元組,且遵循每個(gè)實(shí)體只能參與 1個(gè)關(guān)系的抽取規(guī)則,因此,其無法解決漁業(yè)標(biāo)準(zhǔn)文本中重疊關(guān)系的抽取問題。針對(duì)漁業(yè)標(biāo)準(zhǔn)文本存在的重疊關(guān)系問題,對(duì)含有重疊關(guān)系句子進(jìn)行分類,主要分為3種類型,如表2所示。3種重疊關(guān)系句式分別由標(biāo)簽7、8、9來定義,其中7表示普通關(guān)系類型即單個(gè)實(shí)體1對(duì)應(yīng)單個(gè)實(shí)體2,生成一個(gè)三元組。8表示一對(duì)多重疊關(guān)系即單個(gè)實(shí)體1對(duì)應(yīng)多個(gè)實(shí)體2,生成多個(gè)三元組。9表示多對(duì)一重疊關(guān)系即為多個(gè)實(shí)體1對(duì)應(yīng)單個(gè)實(shí)體2,生成多個(gè)三元組。通過不同的標(biāo)簽來決定三元組的組成方式。漁業(yè)標(biāo)準(zhǔn)文本中的三種重疊關(guān)系句式類型如表2所示。

表2 漁業(yè)標(biāo)準(zhǔn)文本中的關(guān)系句式類型實(shí)例Table 2 Examples of relation sentence types in fishery standard texts

實(shí)體位置標(biāo)簽是由1和2來定義的,1表示該實(shí)體是三元組中的頭實(shí)體,2表示該實(shí)體是三元組中的尾實(shí)體。當(dāng)實(shí)體位置標(biāo)簽為1時(shí),向后查找最近的實(shí)體2與之匹配,當(dāng)實(shí)體位置標(biāo)簽為2時(shí),向前查找最近的實(shí)體1進(jìn)行匹配。普通關(guān)系類型最后抽取結(jié)果為:{實(shí)體 1,關(guān)系類型,實(shí)體 2}。在一對(duì)多重疊關(guān)系類中抽取結(jié)果為:多組{實(shí)體1,關(guān)系類型,實(shí)體2(1、2、3....n)}。在多對(duì)一重疊關(guān)系類中抽取結(jié)果為:多組{實(shí)體1(1、2、3....n),關(guān)系類型,實(shí)體2}。句式標(biāo)注實(shí)例如圖1所示。

2 基于雙重注意力機(jī)制關(guān)系抽取模型

針對(duì)漁業(yè)標(biāo)準(zhǔn)文本實(shí)體關(guān)系抽取任務(wù)中長序列前段語義稀釋和向量權(quán)重分配不合理的問題,提出了基于雙重注意力機(jī)制與 BERT-BiLSTM-CRF( Bidirectional Encoder Representations from Transformers-Bi-directional Long Short-Term Memory-Conditional Random Field)漁業(yè)標(biāo)準(zhǔn)實(shí)體關(guān)系抽取模型。自下而上分別為:BERT層、BiLSTM層、字注意力機(jī)制、句子注意力機(jī)制和 CRF輸出層五部分。BERT模型是預(yù)訓(xùn)練模型,利用其雙層雙向轉(zhuǎn)換解碼的特性,自動(dòng)學(xué)習(xí)句子特征信息,獲取句子的向量表示;BiLSTM模型從BERT輸出中學(xué)習(xí)到目標(biāo)實(shí)體的上下文特征信息;字級(jí)別和句子級(jí)別注意力機(jī)制層用來提高目標(biāo)詞語和句子在段落中的權(quán)重;CRF解碼器把注意力機(jī)制層的輸出以序列標(biāo)簽形式輸出?;陔p重注意力機(jī)制與BERT-BiLSTM-CRF模型框架如圖2所示。

2.1 BERT

BERT預(yù)訓(xùn)練模型網(wǎng)絡(luò)架構(gòu)使用了多層 Transformer編碼器[22]進(jìn)行編碼,隨后采用自注意力機(jī)制將句子中的每一個(gè)詞建立了線性相關(guān),得到更為全面的詞向量、段向量和位置向量,有效解決了自然語言處理任務(wù)中長期依賴問題。

在漁業(yè)標(biāo)準(zhǔn)文本實(shí)體關(guān)系抽取任務(wù)中,漁業(yè)標(biāo)準(zhǔn)號(hào)結(jié)構(gòu)較為復(fù)雜均是由多個(gè)字母、數(shù)字組合而成,所以詞向量、段向量和位置向量在漁業(yè)標(biāo)準(zhǔn)文本任務(wù)中具有重要作用,同時(shí) BERT模型可以獲取更多特征信息和上下文信息,提升實(shí)體關(guān)系識(shí)別效果。因此將 BERT模型引入漁業(yè)標(biāo)準(zhǔn)實(shí)體關(guān)系抽取模型框架中。BERT模型輸入表示實(shí)例如圖3所示。

2.2 BiLSTM

為了解決RNN在自然語言處理任務(wù)中容易出現(xiàn)梯度消失和梯度爆炸問題,研究者們提出了LSTM,LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,可以實(shí)現(xiàn)長序列記憶功能。通過對(duì)漁業(yè)標(biāo)準(zhǔn)文本的分析發(fā)現(xiàn),漁業(yè)標(biāo)準(zhǔn)文本中實(shí)體長度較長,且與上下文存在著較大依賴關(guān)系,雖然LSTM解決了文本任務(wù)中長距離依賴問題,但是只能得到目標(biāo)實(shí)體的上文信息,所以引用 BiLSTM[23]模型取代LSTM模型。BiLSTM模型是由正反兩個(gè)LSTM模型疊加而成,彌補(bǔ)了目標(biāo)實(shí)體無法接取到下文信息的問題。BiLSTM模型結(jié)構(gòu)如圖4所示。

2.3 雙重注意力機(jī)制

注意力機(jī)制提出后在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛應(yīng)用[24-26],后被引入文本領(lǐng)域[27]。本文采用雙重注意力機(jī)制,分別為字注意力機(jī)制和句子注意力機(jī)制。字注意力機(jī)制是在一個(gè)句子中將更高的權(quán)重賦予需要抽取的目標(biāo)字符,例如:GB/T27520—2011規(guī)定了暗紋東方鲀的種質(zhì)檢測,抽取結(jié)果為{GB/T27520—2011,規(guī)定,暗紋東方鲀的種質(zhì)檢測},基于字注意力機(jī)制在抽取過程中會(huì)賦予“規(guī)”“定”及兩個(gè)實(shí)體更高的權(quán)重以得到正確結(jié)果。在進(jìn)行關(guān)系抽取任務(wù)過程中語料內(nèi)很多句子不包含關(guān)系三元組,不能作為我們目標(biāo)句子進(jìn)行關(guān)系抽取,例如:暗紋東方鲀?yōu)橐淮萎a(chǎn)卵型魚類。雖然包含了暗紋東方鲀實(shí)體但是不存在關(guān)系三元組,對(duì)關(guān)系抽取任務(wù)是無效的,因此使用句子注意力機(jī)制對(duì)存在關(guān)系三元組的目標(biāo)句子賦予更高的權(quán)重,能夠有效地提高關(guān)系抽取結(jié)果。因此引用了字級(jí)別和句子級(jí)別雙層注意力機(jī)制,相對(duì)于單層注意力機(jī)制能夠更好地排除噪音干擾,提高準(zhǔn)確性。

2.3.1 字級(jí)別注意力

基于字級(jí)別注意力機(jī)制:通過計(jì)算每個(gè)字符與預(yù)測目標(biāo)實(shí)體的匹配程度,構(gòu)建字級(jí)別的權(quán)重矩陣,將字向量組合成句子向量,從而得到每一個(gè)句子的分布式表達(dá),具體算法[28]流程如下

式中H是上一層BiLSTM的輸出集合;M是全連接的隱藏表示;α是權(quán)重矩陣;β是訓(xùn)練好的參數(shù);βT和T α為β和α的轉(zhuǎn)置;r′是句子分布式表達(dá)式;r為最終分類句子表達(dá)式。

2.3.2 句子級(jí)別注意力

基于句子級(jí)別注意力機(jī)制:以字注意力機(jī)制層的輸出作為輸入,通過計(jì)算每個(gè)實(shí)體對(duì)句子與預(yù)測的關(guān)系類匹配程度,構(gòu)建句子級(jí)別權(quán)重矩陣,最終得到句子的向量表示,具體算法[29]流程如下

式中s是字注意力機(jī)制層的輸出向量表示;αi是每個(gè)句子向量ri的權(quán)重;函數(shù)ki表示每個(gè)句子ri與輸入句子r預(yù)測關(guān)系的準(zhǔn)確性;N為權(quán)重α的對(duì)角矩陣;T為所有關(guān)系向量組成矩陣;s為實(shí)值向量;b是偏置矩陣;O為神經(jīng)網(wǎng)絡(luò)的輸出。

2.4 CRF

CRF層[30]以BERT層、BiLSTM層和雙重注意力機(jī)制層提取的上下文特征向量為輸入,其主要功能是對(duì)語句進(jìn)行序列標(biāo)注。CRF能充分考慮到標(biāo)簽與標(biāo)簽的依賴關(guān)系,利用先前學(xué)習(xí)到的正確標(biāo)簽信息,來為當(dāng)前位置進(jìn)行標(biāo)簽預(yù)測,在輸出標(biāo)簽時(shí),CRF模型可以為標(biāo)簽添加約束,避免出現(xiàn)不合法的標(biāo)簽輸出序列,輸出全局最優(yōu)解。

在進(jìn)行關(guān)系抽取的標(biāo)注任務(wù)中,對(duì)于目標(biāo)句子X(x1,x2,x3...xi)的識(shí)別與標(biāo)注流程為:首先,通過學(xué)習(xí)特征向量與標(biāo)注結(jié)果的依賴關(guān)系,獲得特征到標(biāo)簽的預(yù)測概率,由此得到每一個(gè)字符xi對(duì)應(yīng)的標(biāo)簽,得到句子X預(yù)測的標(biāo)簽序列y(y1,y2,y3...yi),最后,運(yùn)用句式分布的標(biāo)注策略對(duì)預(yù)測的標(biāo)簽序列Y進(jìn)行約束和調(diào)整,即可得到目標(biāo)句子X的最佳標(biāo)簽序列。CRF層具體算法流程如下

式中A為轉(zhuǎn)移矩陣,Pi,yi表示句子中第i個(gè)字的第y個(gè)標(biāo)簽的概率;輸入序列為X;輸出序列為y。

2.5 試驗(yàn)設(shè)置

本文全部試驗(yàn)都是在Windows 10下進(jìn)行,所使用顯卡為GeForce RTX 2080Ti,其配置如表3所示。

表3 GeForce RTX 2080Ti顯卡配置Table 3 GeForce RTX 2080Ti graphics card configuration

試驗(yàn)環(huán)境為基于Google公司的機(jī)器學(xué)習(xí)框架Keras,Python版本為3.6。整個(gè)網(wǎng)絡(luò)的權(quán)重按照均值為0,標(biāo)準(zhǔn)差為0.1的高斯分布進(jìn)行初始化。考慮到Adam優(yōu)化算法[31]具有所占資源少,模型收斂快等優(yōu)點(diǎn),因此采用Adam 算法。

本文還對(duì)模型的學(xué)習(xí)率(learning rate)、丟棄率(dropout)、批次處理大?。╞atch-size)和迭代次數(shù)(Epoch)4個(gè)模型參數(shù)對(duì)模型性能影響進(jìn)行分析,具體如圖5所示。初始學(xué)習(xí)率的設(shè)定會(huì)對(duì)模型的識(shí)別效果產(chǎn)生影響,過大會(huì)導(dǎo)致模型不收斂,過小則導(dǎo)致模型收斂特別慢或者無法學(xué)習(xí),通過試驗(yàn)發(fā)現(xiàn),選用初始學(xué)習(xí)率為0.002時(shí)模型的效果較佳。丟棄率可以有效緩解過擬合的發(fā)生,在一定程度上達(dá)到正則化的效果,結(jié)果表明,當(dāng)丟棄率為0.5時(shí)模型擬合程度較好。批量處理大小決定了數(shù)量梯度下降的方向,選用批量處理大小為32時(shí)效果較佳,過小則更難以收斂,噪聲也相應(yīng)增加,過大則會(huì)使梯度方向基本穩(wěn)定,容易陷入局部最優(yōu)解,降低精度。隨著迭代次數(shù)增加,模型的準(zhǔn)確率也隨之增加,當(dāng)?shù)螖?shù)達(dá)到150次時(shí)模型的F1值達(dá)到最高值92.67%,隨后模型的識(shí)別精度趨于穩(wěn)定。

2.6 評(píng)價(jià)方法

對(duì)漁業(yè)標(biāo)準(zhǔn)文本實(shí)體關(guān)系抽取任務(wù)結(jié)果,使用 3個(gè)評(píng)價(jià)指標(biāo)[32]分別為準(zhǔn)確率(Precision)、召回率(Recall)、F1值(F1-score),F(xiàn)1值是P值和R值的綜合評(píng)價(jià)指標(biāo)。

3 結(jié)果與分析

試驗(yàn)使用DLOU-FSI語料庫(36萬字符),按8∶2的比例隨機(jī)分成兩部分,其中28.8萬字符作為訓(xùn)練集,7.2萬字符作為測試集,消除試驗(yàn)過程中訓(xùn)練集和測試集不同帶來的結(jié)果誤差。

為了驗(yàn)證所提出句式分類的標(biāo)注策略和基于雙重注意力機(jī)制與BERT-BiLSTM-CRF模型對(duì)漁業(yè)標(biāo)準(zhǔn)文本實(shí)體關(guān)系抽取效果的提升,設(shè)計(jì)了 3組對(duì)比試驗(yàn)分別為:標(biāo)記方法間效果對(duì)比試驗(yàn)、添加不同注意力機(jī)制性能對(duì)比和模型對(duì)所有關(guān)系類別提升效果對(duì)比。

為了驗(yàn)證提出的句式分類標(biāo)注策略能有效解決漁業(yè)標(biāo)準(zhǔn)文本中的重疊關(guān)系,分別使用 Zheng等[19]的標(biāo)注策略和句式分類標(biāo)注策略(our method),進(jìn)行語料標(biāo)注。試驗(yàn)采用本文提出的 BERT-BiLSTM-Att(s)-CRF模型和 DLOU-FSI語料庫,對(duì)所有關(guān)系類型進(jìn)行抽取任務(wù),試驗(yàn)結(jié)果如表4所示。

表4 不同標(biāo)注方法對(duì)關(guān)系抽取結(jié)果影響Table 4 The effect of different labeling methods on the results of relation extraction

Zheng的標(biāo)注方法采用最近距離匹配原則,并遵循每個(gè)實(shí)體只能參加 1個(gè)關(guān)系的規(guī)則,在漁業(yè)標(biāo)準(zhǔn)文本語料庫 DLOU-FSI完成關(guān)系抽取任務(wù)時(shí)會(huì)造成關(guān)系丟失,重疊關(guān)系無法抽取等問題,導(dǎo)致關(guān)系抽取任務(wù)召回率和F1值較低。使用句式分類的標(biāo)注策略有效的解決了漁業(yè)標(biāo)準(zhǔn)文本中重疊關(guān)系無法抽取的問題,準(zhǔn)確率、召回率和F1值分別提升了7.93個(gè)百分點(diǎn)、29.82個(gè)百分點(diǎn)和20.56個(gè)百分點(diǎn),大幅度提升了關(guān)系抽取任務(wù)的召回率和F1值。說明本文提出的句式分類的標(biāo)注策略有效提高了漁業(yè)標(biāo)準(zhǔn)文本實(shí)體關(guān)系抽取任務(wù)的結(jié)果。

為了驗(yàn)證所提出的雙重注意力機(jī)制有助于提升漁業(yè)標(biāo)準(zhǔn)文本關(guān)系抽取任務(wù)的結(jié)果,分別在沒有添加注意力機(jī)制[33](BERT-BiLSTM-CRF)、單層字注意力機(jī)制[34](BERT-BiLSTM-Att-CRF)、雙重注意力機(jī)制(BERT-BiLSTM-Att(s)-CRF)3種情況下對(duì)所有關(guān)系類別進(jìn)行實(shí)體關(guān)系抽取任務(wù),試驗(yàn)結(jié)果如表5所示。

表5 不同注意力機(jī)制的抽取結(jié)果Table 5 The extraction results of different attention

結(jié)果表明,在只添加字注意力機(jī)制情況下試驗(yàn)結(jié)果有一定的提升,準(zhǔn)確率、召回率、F1值分別達(dá)到 90.49%、89.82%、90.15%。在使用雙重注意力機(jī)制時(shí),關(guān)系抽取結(jié)果有顯著提升,三項(xiàng)指標(biāo)分別提升了 2.18個(gè)百分點(diǎn)、2.49個(gè)百分點(diǎn)和 2.34個(gè)百分點(diǎn),說明了 BERT-BiLSTMAtt(s)-CRF模型有效提升了關(guān)系抽取整體效果。

為驗(yàn)證本文提出的模型是否能夠提高所有關(guān)系類型的抽取效果,對(duì) 7種實(shí)體關(guān)系進(jìn)行對(duì)比試驗(yàn),試驗(yàn)結(jié)果如表6所示。

表6 漁業(yè)標(biāo)準(zhǔn)文本實(shí)體關(guān)系識(shí)別結(jié)果Table 6 Recognition result of entity relationship in fishery standard text

由表6試驗(yàn)結(jié)果可知,提出的基于雙重注意力機(jī)制的BERT-BiLSTM-CRF在7種關(guān)系類別的抽取任務(wù)中識(shí)別準(zhǔn)確率均高于其他模型。其中引用關(guān)系、規(guī)定、發(fā)布、提出、起草和歸口這6種關(guān)系類別準(zhǔn)確率、召回率和F1值均有較大的提升均達(dá)到 90%以上,其原因是,本文提出的模型能夠充分地利用句子結(jié)構(gòu)信息,更好地分配權(quán)重,適配于漁業(yè)標(biāo)準(zhǔn)文本的關(guān)系抽取任務(wù)。但在比較關(guān)系類別對(duì)比試驗(yàn)中,隨著模型算法的改進(jìn),關(guān)系抽取結(jié)果并沒有得到較大提升,召回率還有些許回落。通過分析發(fā)現(xiàn)其原因是,比較關(guān)系這一關(guān)系類別句子樣本分布稀疏,在 DLOU-FSI語料庫中,每篇漁業(yè)標(biāo)準(zhǔn)文本只包含0-3個(gè)比較關(guān)系三元組,不足所有關(guān)系類三元組總數(shù)的1%,使模型無法學(xué)習(xí)到更全面的關(guān)系特征,導(dǎo)致實(shí)體關(guān)系抽取任務(wù)識(shí)別效果較差。

由上述分析可知,在漁業(yè)標(biāo)準(zhǔn)文本關(guān)系抽取任務(wù)中,除了模型算法的改進(jìn),語料庫質(zhì)量也十分重要,深度學(xué)習(xí)模型訓(xùn)練學(xué)習(xí)數(shù)據(jù)越多質(zhì)量越高,模型識(shí)別效果也就越準(zhǔn)確。在模型算法適配的情況下,試驗(yàn)結(jié)果達(dá)到一定數(shù)值且無法有較大提升時(shí),需要對(duì)數(shù)據(jù)進(jìn)行有效擴(kuò)充,增加樣本數(shù)量和多樣性,以提升關(guān)系抽取的整體效果。

4 結(jié) 論

1)針對(duì)漁業(yè)標(biāo)準(zhǔn)文本中存在大量重疊關(guān)系等問題,提出了一種句式分類的標(biāo)注方法,通過重疊關(guān)系標(biāo)簽解決了重疊關(guān)系無法抽取的問題,為其他領(lǐng)域關(guān)系抽取任務(wù)提供了新思路。

2)提出基于雙重注意力機(jī)制與BERT-BiLSTM-CRF的漁業(yè)標(biāo)準(zhǔn)實(shí)體關(guān)系抽取模型,利用模型框架中的字級(jí)別注意力機(jī)制和句子級(jí)別注意力機(jī)制更好的分配權(quán)重,排除噪音,提高實(shí)體關(guān)系抽取的識(shí)別精度,準(zhǔn)確率、召回率、F1值達(dá)到了92.67%、92.31%、92.49%,為構(gòu)建漁業(yè)標(biāo)準(zhǔn)知識(shí)圖譜提供參考。

在漁業(yè)標(biāo)準(zhǔn)文本中仍存在一些有抽取意義的關(guān)系三元組,由于其樣本稀疏且句式多樣導(dǎo)致抽取效果不夠好,例如“比較”關(guān)系。因此,下一步工作是如何提高少樣本關(guān)系類別的抽取結(jié)果,以提升漁業(yè)標(biāo)準(zhǔn)文本實(shí)體關(guān)系抽取的整體結(jié)果。

猜你喜歡
漁業(yè)標(biāo)簽實(shí)體
湖南省2021年漁業(yè)經(jīng)濟(jì)形勢
2022第十六屆上海國際漁業(yè)博覽會(huì)
山西進(jìn)行漁業(yè)養(yǎng)殖“三區(qū)”劃分
一圖看懂貴州生態(tài)漁業(yè)發(fā)展
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
實(shí)體書店步入復(fù)興期?
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”