国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機(jī)制和深度學(xué)習(xí)模型的外來海洋生物命名實(shí)體識別

2021-06-21 09:03:00賀琳張雨巴韓飛
關(guān)鍵詞:海洋生物特征向量命名

賀琳,張雨,巴韓飛

(大連海事大學(xué) 航運(yùn)經(jīng)濟(jì)與管理學(xué)院,遼寧 大連 116026)

外來海洋生物入侵是全球生物多樣性喪失的主要原因之一。中國海岸線綿長,整個(gè)海域跨越溫帶、亞熱帶和熱帶3個(gè)氣候帶,生態(tài)系統(tǒng)類型較多,這些自然特征使中國更易受到外來海洋生物入侵的危害[1]。目前,針對外來海洋生物數(shù)據(jù)還未有一個(gè)完善的數(shù)據(jù)庫可供使用和研究,因此,無法對外來海洋生物的來源地、現(xiàn)存地、生存環(huán)境和物種特性等進(jìn)行深入研究分析。互聯(lián)網(wǎng)中存在大量的外來海洋生物的文本信息,但其較為分散且大多都是非結(jié)構(gòu)化的,而知識圖譜作為顯示科學(xué)知識發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的可視化工具可以較好地解決這一問題。面對目前已有的分散雜亂的外來海洋生物文本信息,通過實(shí)體識別、關(guān)系識別、實(shí)體對齊等知識圖譜構(gòu)建流程,整合互聯(lián)網(wǎng)上的文本信息,構(gòu)建外來海洋生物知識圖譜并將其可視化,有利于外來海洋生物信息的檢索和獲取;通過對知識圖譜的深入分析,還可以充分發(fā)掘外來海洋生物之間的關(guān)聯(lián)信息,有利于海關(guān)相關(guān)管理部門及研究機(jī)構(gòu)對外來海洋生物進(jìn)行統(tǒng)一的風(fēng)險(xiǎn)識別及監(jiān)督管理。命名實(shí)體識別屬于知識圖譜的構(gòu)建流程中最關(guān)鍵的部分,外來海洋生物命名實(shí)體識別的質(zhì)量直接決定了知識圖譜的優(yōu)劣。因此,對互聯(lián)網(wǎng)上的外來海洋生物信息進(jìn)行命名實(shí)體識別研究具有重要的意義。

命名實(shí)體識別研究目前主要集中在兩個(gè)方面,即通用領(lǐng)域文本識別和特定領(lǐng)域文本識別。通用領(lǐng)域文本識別的方法主要包括基于規(guī)則的實(shí)體識別方法、基于條件隨機(jī)場的識別方法和基于深度學(xué)習(xí)的方法。何炎祥等[2]提出使用條件隨機(jī)場(conditional random field,CRF)和規(guī)則相結(jié)合的方法進(jìn)行地理命名實(shí)體識別,最終的地名實(shí)體識別結(jié)果的F1值達(dá)到了91.61%。王世昆等[3]從命名實(shí)體識別的方法出發(fā),對比了CRF與支持向量機(jī)、最大熵模型等常見的命名實(shí)體識別方法,指出了CRF在該任務(wù)上的有效性。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,該技術(shù)已經(jīng)廣泛應(yīng)用于命名實(shí)體識別中,Chen等[4]提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)作為文本建模工具,首次將雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型(bidirectional long short-term memory neural network,BiLSTM)結(jié)合CRF網(wǎng)絡(luò)模型用于命名實(shí)體識別任務(wù)中。面對海量互聯(lián)網(wǎng)文本數(shù)據(jù),長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的實(shí)體識別效果較傳統(tǒng)方法有了較大提升,但是其網(wǎng)絡(luò)模型結(jié)構(gòu)復(fù)雜,存在運(yùn)行時(shí)間較長等問題?;诖?,相關(guān)學(xué)者提出門控神經(jīng)網(wǎng)絡(luò)概念并應(yīng)用于文本識別中,李一斌等[5]提出使用雙向門控循環(huán)單元網(wǎng)絡(luò)與條件隨機(jī)場算法相結(jié)合進(jìn)行中文包裝產(chǎn)品的命名實(shí)體識別,識別結(jié)果的F1值較BiLSTM+CRF網(wǎng)絡(luò)模型識別結(jié)果的F1值提高了6%。通用領(lǐng)域?qū)嶓w相對簡單,且大多有可以參考的領(lǐng)域數(shù)據(jù)庫或已標(biāo)注文本數(shù)據(jù),因此,往往不需要對文本特征進(jìn)行深層次挖掘就能取得較好的效果,目前,通用領(lǐng)域命名實(shí)體識別的主流識別方法為門控循環(huán)神經(jīng)單元(gated recurrent unit,GRU)網(wǎng)絡(luò)和條件隨機(jī)場相結(jié)合進(jìn)行實(shí)體的識別,實(shí)體識別的效果較好。相比于通用領(lǐng)域文本實(shí)體識別,特定領(lǐng)域具有實(shí)體結(jié)構(gòu)更為復(fù)雜且實(shí)體識別中可供使用的標(biāo)注語料和資源較少等特點(diǎn),因此,僅依靠構(gòu)造詞向量進(jìn)行特定領(lǐng)域?qū)嶓w識別往往效果不佳,需要充分挖掘文本中的特征才能有效提高實(shí)體抽取的準(zhǔn)確率。仇瑜等[6]根據(jù)財(cái)經(jīng)領(lǐng)域的實(shí)體特征,使用一種基于字、詞特征相結(jié)合的深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行實(shí)體識別,最終證明較傳統(tǒng)方法命名實(shí)體識別效果有顯著提升。馬建紅等[7]面向新能源汽車專利領(lǐng)域文本提出了一種基于注意力(attention)機(jī)制的雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)與CRF相結(jié)合的領(lǐng)域術(shù)語抽取網(wǎng)絡(luò)模型,利用BiLSTM網(wǎng)絡(luò)模型,可以解決目前機(jī)器學(xué)習(xí)中過度依賴領(lǐng)域知識及人工定義特征問題,實(shí)現(xiàn)了端到端的命名實(shí)體識別模式。顧溢[8]在進(jìn)行復(fù)雜中文命名實(shí)體識別的過程中,使用改進(jìn)的中文字符級特征表示替代基礎(chǔ)Word2vec訓(xùn)練出的字向量,網(wǎng)絡(luò)模型的識別效果有顯著提升。通過添加人工特征的方法能在一定程度上提高特定領(lǐng)域命名實(shí)體識別的準(zhǔn)確率,但是網(wǎng)絡(luò)模型實(shí)現(xiàn)比較復(fù)雜,消耗成本較多,而大多數(shù)難以達(dá)到滿意的效果,因此,目前并沒有一種通用的適合于特定領(lǐng)域的命名實(shí)體識別網(wǎng)絡(luò)模型。

外來海洋生物領(lǐng)域命名實(shí)體識別屬于特定領(lǐng)域的命名實(shí)體識別問題,具有如下特點(diǎn):

1) 實(shí)體名稱長且復(fù)雜。外來海洋生物名稱有多個(gè)獨(dú)立詞組合而成,而且生僻字詞較多。例如,“細(xì)鱗大麻哈魚”由“細(xì)”“鱗”“大”“馬哈魚”多個(gè)字詞組合形成,在實(shí)體識別的過程中如果僅僅使用構(gòu)造字向量作為門控神經(jīng)網(wǎng)絡(luò)的輸入,較難準(zhǔn)確識別出其中的實(shí)體,甚至出現(xiàn)錯(cuò)誤識別。

2) 實(shí)體名稱相互嵌套。即一個(gè)實(shí)體中包含另外一個(gè)實(shí)體的現(xiàn)象,如外來海洋生物文本中的“南非毛皮海獅 ”這一單個(gè)生物實(shí)體就包含“南非”和“毛皮海獅”兩個(gè)實(shí)體,所以在實(shí)體識別過程中極易誤檢。

外來海洋生物文本數(shù)據(jù)實(shí)體復(fù)雜且實(shí)體識別過程中無相關(guān)的語料庫可供參考,因此,在實(shí)體識別過程中網(wǎng)絡(luò)模型需要強(qiáng)化文本的特征提取。雙向門控循環(huán)單元網(wǎng)絡(luò)(bidirectional gated cyclic neural unit network,BiGRU)能夠?qū)ξ谋揪渥訉蛹壍男畔⑦M(jìn)行學(xué)習(xí)和表示,能夠較好地考慮文本的上下文信息,但是無法解決外來海洋生物文本中出現(xiàn)的長距離依賴問題,其對細(xì)粒度的字詞特征抽取也較差[9]。使用注意力機(jī)制在提取特征時(shí)可以強(qiáng)化與外來海洋生物實(shí)體相關(guān)的語義特征權(quán)重,進(jìn)而提升特征提取的效果。卷積神經(jīng)網(wǎng)絡(luò)能夠充分利用多層感知器的結(jié)構(gòu),具備較好的學(xué)習(xí)復(fù)雜、高維和非線性映射關(guān)系的能力,因此,逐漸被應(yīng)用到自然語言處理領(lǐng)域。Denil等[10]提出把CNN應(yīng)用于自然語言處理,并設(shè)計(jì)了一個(gè)動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)模型,以處理不同長度的文本。在命名實(shí)體識別過程中,卷積神經(jīng)網(wǎng)絡(luò)能夠較好地提取出文本中較細(xì)粒度的字詞的前后綴特征,對文本的字詞層級的信息進(jìn)行學(xué)習(xí)和表示。為此,本研究中,提出了基于CNN-BiGRU-CRF網(wǎng)絡(luò)模型,用于外來海洋生物命名實(shí)體識別,旨在為提高外來海洋生物領(lǐng)域命名實(shí)體識別的效果。

1 CNN-BiGRU-CRF網(wǎng)絡(luò)模型構(gòu)建

針對外來海洋生物領(lǐng)域?qū)嶓w文本結(jié)構(gòu)的數(shù)據(jù)特點(diǎn),本研究中提出融合多特征向量的CNN-BiGRU-CRF網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型首先將外來海洋生物文本數(shù)據(jù)進(jìn)行分詞、人工標(biāo)注等處理工作,然后將詞向量、詞性、詞長等特征向量與卷積神經(jīng)網(wǎng)絡(luò)獲取的字的前后綴特征向量進(jìn)行拼接,將組合向量輸入到BiGRU層提取文本中的上下文特征,再將BiGRU層獲取的特征向量輸入注意力機(jī)制層分配不同的注意力權(quán)重,最終通過條件隨機(jī)場解碼,獲取外來海洋生物的預(yù)測標(biāo)簽序列。本文中提出的命名實(shí)體識別網(wǎng)絡(luò)模型流程如圖1所示,輸入層的文本數(shù)據(jù)如“巨藻生長于美國”,經(jīng)數(shù)據(jù)預(yù)處理、CNN層后獲得該文本聯(lián)合特征向量,特征向量經(jīng)過BiGRU層獲取文本的上下文特征,然后通過注意力機(jī)制層進(jìn)行注意力權(quán)重的分配,最終通過CRF層解碼獲得該文本的預(yù)測標(biāo)簽序列。

圖1 CNN-BiGRU-CRF網(wǎng)絡(luò)模型實(shí)體識別流程

1.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)主要由卷積層、池化層和激活層等組成,通過對網(wǎng)絡(luò)模型的輸入進(jìn)行加工、變化,最終在連接層實(shí)現(xiàn)輸入與輸出間的映射,卷積神經(jīng)網(wǎng)絡(luò)用于識別較細(xì)粒度的特征,目前主要應(yīng)用于圖像識別領(lǐng)域[11]。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,其主要過程包括字向量生成、卷積、池化和字符特征向量獲取。在數(shù)據(jù)的預(yù)處理中使用Word2vec將文本中的每個(gè)字都轉(zhuǎn)化為字向量,然后通過卷積層中的濾波器對句子進(jìn)行卷積操作,提取句子的局部特征,由于卷積核存在權(quán)值共享的特點(diǎn),所以CNN一般會(huì)使用多核卷積,每個(gè)卷積核都能學(xué)習(xí)到不同的特征,以此完善特征提取效果。對卷積操作得到的局部特征采用最大池化的方法提取值最大的特征以代替整個(gè)局部特征,通過池化操作可以大幅降低特征向量的大小。最終將池化得到的所有特征在全連接層進(jìn)行組合輸出字符特征向量。輸出的字符特征向量通過輸入softmax分類器進(jìn)行分類,卷積神經(jīng)網(wǎng)絡(luò)通過分類的標(biāo)簽使用反向傳播算法進(jìn)行參數(shù)的優(yōu)化。目前,在自然語言處理領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)已有較多的應(yīng)用。

1.2 門控循環(huán)單元網(wǎng)絡(luò)

門控循環(huán)單元(GRU)是一種常用的門控循環(huán)神經(jīng)網(wǎng)絡(luò),能夠更好地捕捉序列中時(shí)間步距離較大的依賴關(guān)系,其簡化了長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)的結(jié)構(gòu),使運(yùn)算加快,同時(shí)也能實(shí)現(xiàn)長期記憶[12]。門控循環(huán)單元網(wǎng)絡(luò)通過使用重置門和更新門兩個(gè)門結(jié)構(gòu)控制記憶存儲(chǔ)器,GRU的結(jié)構(gòu)如圖2所示,其中,zt為更新門,用來控制當(dāng)前狀態(tài)中前序記憶與候選記憶所占的比例,而rt為重置門,用以控制當(dāng)前內(nèi)容是否被記憶。GRU中的門控單元能夠通過偏置和相關(guān)參數(shù)來實(shí)時(shí)靈活的調(diào)整激活函數(shù)的輸入,從而控制門的開啟和關(guān)閉,保存和更新有用信息,因此,門控神經(jīng)網(wǎng)絡(luò)與一般神經(jīng)網(wǎng)絡(luò)相比,收斂速度快且不易發(fā)生梯度消失的情況,使得門控神經(jīng)網(wǎng)絡(luò)具有高效的性能。

圖2 門控循環(huán)單元結(jié)構(gòu)

GRU網(wǎng)絡(luò)前向傳播權(quán)重參數(shù)更新公式為

從圖1數(shù)據(jù)可得出,48.84%的學(xué)生是進(jìn)校學(xué)習(xí)一段時(shí)間后才發(fā)現(xiàn)自己不適合這個(gè)專業(yè)想轉(zhuǎn)專業(yè),這從側(cè)面也反映出了學(xué)生對專業(yè)本身不了解,因此高校需要做的是如何在學(xué)生填報(bào)志愿前讓學(xué)生真正了解這個(gè)專業(yè)。竟然有半數(shù)的學(xué)生是在收到錄取通知書以及剛進(jìn)校時(shí)產(chǎn)生了轉(zhuǎn)專業(yè)的念頭,出乎意料,但仔細(xì)研究可能還是專業(yè)的問題,有可能是被調(diào)劑的專業(yè),有可能是看到的專業(yè)與實(shí)際的差距等。

zt=σ(wxzxt+whzht-1+bz),

(1)

rt=σ(wxrxt+whrht-1+br),

(2)

(3)

(4)

在句子中命名實(shí)體識別過程中,實(shí)體的上下文對預(yù)測標(biāo)簽都很重要,如果能夠獲取文本中過去和將來的上下文信息,對命名實(shí)體識別任務(wù)很有幫助。然而GRU的隱藏狀態(tài)ht僅從過去獲取信息,不能獲取未來的信息,因此,命名實(shí)體識別采用雙向門控循環(huán)單元網(wǎng)絡(luò)(BiGRU)進(jìn)行。在雙向門控循環(huán)單元網(wǎng)絡(luò)中,輸入會(huì)同時(shí)提供給兩個(gè)方向相反的 GRU,而輸出則由這兩個(gè)單向 GRU 共同決定。使用雙向的門控神經(jīng)網(wǎng)絡(luò)不僅能通過正向的GRU考慮文本的前序信息,還可通過反向的GRU同時(shí)提取到文本中后續(xù)信息的特征,有效提高命名實(shí)體識別的效果。

1.3 注意力機(jī)制

注意力機(jī)制(attention mechanism)是一種受人類視覺神經(jīng)系統(tǒng)啟發(fā)的信息處理機(jī)制。注意力最早出現(xiàn)在計(jì)算機(jī)視覺領(lǐng)域,其主要原理是將有限的注意力選擇性地分配給更重要的信息,近年來,注意力機(jī)制已經(jīng)廣泛應(yīng)用于命名實(shí)體識別、關(guān)系抽取、文本分類等自然語言處理任務(wù)中[13]。注意力機(jī)制在實(shí)體識別中作為組件,主要用于文本關(guān)鍵信息的篩選,從輸入信息中選取相關(guān)的信息。通過使用注意力機(jī)制可以動(dòng)態(tài)地生成不同連接的權(quán)重,并將輸出序列進(jìn)行加權(quán)計(jì)算后得到標(biāo)注分?jǐn)?shù)值,從而強(qiáng)化與外來海洋生物實(shí)體有關(guān)的語義特征權(quán)重,獲取文本的整體特征。

注意力機(jī)制的計(jì)算步驟如下[14]:定義{x1,x2,…,xM}為BiGRU網(wǎng)絡(luò)輸入的聯(lián)合特征向量序列,S={s1,s2,…,sw}為BiGRU神經(jīng)網(wǎng)絡(luò)輸出的聯(lián)合向量序列,αmw為歸一化的權(quán)重,βmj為注意力貢獻(xiàn)矩陣,即注意力機(jī)制給特征向量賦予的權(quán)重,且

(5)

(6)

其中:c、w、u為權(quán)重矩陣;vm-1為上一時(shí)刻注意力機(jī)制的狀態(tài)。

注意力機(jī)制最后的輸出狀態(tài)為

(7)

1.4 條件隨機(jī)場

條件隨機(jī)場(CRF)是在一組輸入隨機(jī)變量給定的條件下輸出另外一組隨機(jī)變量的條件概率分布網(wǎng)絡(luò)模型[15]。條件隨機(jī)場是一種判別式的概率無向圖網(wǎng)絡(luò)模型,常用在自然語言處理和圖像處理領(lǐng)域,在自然語言處理中,CRF是用于標(biāo)注和劃分序列數(shù)據(jù)的概率化網(wǎng)絡(luò)模型,相對序列就是給定觀測序列X和輸出序列Y,通過定義條件概率P(Y|X)來描述網(wǎng)絡(luò)模型。目前,常見的條件隨機(jī)場網(wǎng)絡(luò)模型是指定義在線性鏈上的特殊的條件隨機(jī)場,被稱為線性鏈條件隨機(jī)場[16]。

2 外來海洋生物領(lǐng)域命名實(shí)體識別試驗(yàn)

2.1 試驗(yàn)數(shù)據(jù)、字詞特征和評價(jià)指標(biāo)

2.1.1 數(shù)據(jù)預(yù)處理 本研究中,將從百度百科、知網(wǎng)、海洋生物學(xué)網(wǎng)站等爬取的1 500條外來海洋生物相關(guān)文本數(shù)據(jù)作為試驗(yàn)的數(shù)據(jù)集,獲取的數(shù)據(jù)集包含字?jǐn)?shù)共計(jì)12萬字符。首先,對爬取的數(shù)據(jù)使用正則表達(dá)式進(jìn)行格式轉(zhuǎn)換和數(shù)據(jù)清洗工作,去除文本中包含的空格、表情符號等無關(guān)的內(nèi)容,將來源不同的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式。然后收集海洋生物及地域海域?qū)嶓w信息,構(gòu)建外來海洋生物名稱實(shí)體和地名實(shí)體識別分詞語料庫,該語料庫的構(gòu)建可使得實(shí)體識別的分詞、詞性標(biāo)注等過程更加準(zhǔn)確。

2.1.2 特征提取 選取外來海洋生物文本的詞特征、詞性特征、詞長、詞的前后綴特征、上下文特征作為外來海洋生物文本的特征進(jìn)行實(shí)體識別。

1) 詞特征。詞特征是自然語言處理領(lǐng)域最基礎(chǔ)的特征,它是指詞本身具有的特征,詞特征的表達(dá)形式是詞向量。本研究中詞向量使用Word2vec軟件進(jìn)行訓(xùn)練,詞向量使用矩陣形式表示。

2) 詞性特征。中文漢字的詞性包括動(dòng)詞、名詞、介詞、形容詞、副詞、量詞、代詞等12類[17],如外來海洋生物文本中關(guān)于海洋生物實(shí)體和地名實(shí)體的相關(guān)文本中經(jīng)常會(huì)出現(xiàn)“帶來”、“引進(jìn)”等動(dòng)詞,根據(jù)詞性特征可有效輔助外來海洋生物文本中海洋生物名稱實(shí)體和地名實(shí)體的識別。本研究中的詞性選擇使用jieba分詞后的詞性,詞性特征維度設(shè)置為12維,如名詞的詞性特征向量表示為[1,0,0,0,0,0,0,0,0,0,0,0]。

3) 詞的長度。外來海洋生物實(shí)體名稱長度較長,如“眼點(diǎn)擬微綠藻”就是由6個(gè)字組成,通過將詞長作為特征可較好區(qū)分外來海洋生物實(shí)體。本研究中將詞長作為特征進(jìn)行實(shí)體識別,詞長特征維度設(shè)置為8維,如“眼點(diǎn)擬微綠藻”的詞長向量表示為[0,0,0,0,0,1,0,0]。

4) 詞的前后綴特征。在英文實(shí)體識別領(lǐng)域,應(yīng)用詞的前后綴特征進(jìn)行實(shí)體識別的案例較多,且識別效果較好,但在中文命名實(shí)體識別中應(yīng)用較少,對特殊領(lǐng)域的實(shí)體而言,其實(shí)體的前后綴往往具有較明顯的特征,因此,特殊領(lǐng)域?qū)嶓w可以通過構(gòu)建實(shí)體前后綴特征增強(qiáng)識別效果。外來海洋生物領(lǐng)域詞的前后綴特征主要指外來海洋生物實(shí)體和地名實(shí)體的前后綴特征,如生物實(shí)體的后綴往往包含藻、鮑、蝦等后綴詞,地名實(shí)體的后綴往往具有海、洲等后綴詞。CNN 對于每個(gè)詞將使用一個(gè)卷積層和一個(gè)池化層完成特征的抽取。根據(jù) CNN 窗口的大小,每個(gè)詞會(huì)有不同個(gè)數(shù)的填充向量[18]。此處,CNN 的超參數(shù)包括窗口尺寸的大小和輸出向量的大小。本研究中使用隨機(jī)初始化值,設(shè)置維度為30。

5) 上下文特征。上下文特征是指文本的語境信息表示,本研究中使用BiGRU網(wǎng)絡(luò)進(jìn)行文本中上下文特征的抽取,使用BiGRU能對句子中此詞之前及之后的信息進(jìn)行特征的抽取。

在正式訓(xùn)練網(wǎng)絡(luò)模型之前,首先對外來海洋生物文本數(shù)據(jù)進(jìn)行實(shí)體類型標(biāo)注,數(shù)據(jù)集采用BIO格式規(guī)范標(biāo)注,得到的部分訓(xùn)練結(jié)果如表1所示,其中B表示實(shí)體詞首,I表示實(shí)體詞中或詞尾,O表示外來海洋生物實(shí)體名、時(shí)間名、地名以外的其他詞。

表1 實(shí)體識別試驗(yàn)數(shù)據(jù)集標(biāo)注格式(部分)

對標(biāo)注好的數(shù)據(jù)進(jìn)行實(shí)體個(gè)數(shù)統(tǒng)計(jì),結(jié)果如表2所示,本研究中共標(biāo)注實(shí)體數(shù)目3 528個(gè),其中,外來海洋生物名稱實(shí)體1 562個(gè),時(shí)間實(shí)體個(gè)數(shù)879個(gè),地名實(shí)體個(gè)數(shù)為1 087個(gè)。

表2 外來海洋生物文本標(biāo)注實(shí)體數(shù)量統(tǒng)計(jì)

2.1.3 網(wǎng)絡(luò)模型評估指標(biāo)及參數(shù)設(shè)置

1) 網(wǎng)絡(luò)模型的評估指標(biāo)。網(wǎng)絡(luò)模型的評估指標(biāo)使用識別結(jié)果的準(zhǔn)確率、召回率和F1值進(jìn)行評估,各指標(biāo)的計(jì)算公式[19]為

準(zhǔn)確率(P)=識別結(jié)果中正確的實(shí)體數(shù)量/識別出的總實(shí)體數(shù)量×100%,

(8)

召回率(R)=識別結(jié)果中正確的實(shí)體數(shù)量/實(shí)際總的實(shí)體數(shù)量×100%,

(9)

F1=2×P×R/(P+R)×100%。

(10)

2) 網(wǎng)絡(luò)模型的參數(shù)設(shè)置。對于已經(jīng)預(yù)處理好的數(shù)據(jù)集,將70%的數(shù)據(jù)集作為訓(xùn)練集,30%的數(shù)據(jù)集作為測試集,將處理好的數(shù)據(jù)導(dǎo)入 Tensorflow 庫。為了尋找網(wǎng)絡(luò)模型的最優(yōu)參數(shù)設(shè)置,首先,通過固定一個(gè)參數(shù)而不斷修改其他參數(shù)的方法對數(shù)據(jù)集進(jìn)行參數(shù)最優(yōu)搜索。通過對訓(xùn)練集上的數(shù)據(jù)進(jìn)行參數(shù)訓(xùn)練,從而得到網(wǎng)絡(luò)模型的最優(yōu)參數(shù),即詞向量維度為100,詞長特征向量維度為8,詞性特征向量維度為12,每層GPU維度為150,Drop Out值為0.5,一次網(wǎng)絡(luò)讀入的數(shù)據(jù)大小(Batch-size)為30,學(xué)習(xí)率為0.001,優(yōu)化算法使用Adam算法。

2.2 網(wǎng)絡(luò)模型運(yùn)行結(jié)果及討論

使用訓(xùn)練集訓(xùn)練好的參數(shù)作為驗(yàn)證集數(shù)據(jù)的網(wǎng)絡(luò)模型參數(shù),本研究中主要進(jìn)行了以下兩個(gè)試驗(yàn):1) 對比CRF、BiLSTM -CRF、BiGRU-CRF等傳統(tǒng)命名實(shí)體識別方法與本研究中提出的CNN-BiGRU-Attention-CRF網(wǎng)絡(luò)模型在外來海洋生物文本數(shù)據(jù)上的識別結(jié)果; 2) 通過引入詞向量、詞性特征等特征模板與CNN處理過的字符向量結(jié)合,作為CNN-BiGRU-Attention-CRF網(wǎng)絡(luò)模型的輸入向量模型,對不同網(wǎng)絡(luò)模型下的訓(xùn)練結(jié)果進(jìn)行評估。各個(gè)網(wǎng)絡(luò)模型實(shí)體識別的準(zhǔn)確率、召回率、F1值結(jié)果如表3、表4和表5所示。

本研究中提出的使用CNN-BiGRU-Attention-CRF網(wǎng)絡(luò)模型進(jìn)行外來海洋生物命名實(shí)體識別的平均F1值達(dá)到了81.67%,識別結(jié)果較BiGRU-CRF網(wǎng)絡(luò)模型平均F1值提升了4.25%,準(zhǔn)確率和召回率均具有較大提升(表3~表5),這證明在命名實(shí)體識別過程中引入CNN和注意力機(jī)制能夠較好地提取字符前后綴特征,解決文本的長距離依賴問題,從而提升了外來海洋生物命名實(shí)體識別的效果。

表3 各個(gè)網(wǎng)絡(luò)模型對外來海洋生物命名實(shí)體識別結(jié)果的準(zhǔn)確率(P)

表4 各個(gè)網(wǎng)絡(luò)模型對外來海洋生物命名實(shí)體識別結(jié)果的召回率(R)

表5 各個(gè)網(wǎng)絡(luò)模型對外來海洋生物命名實(shí)體識別結(jié)果的F1值

各個(gè)網(wǎng)絡(luò)模型的命名實(shí)體識別結(jié)果中,外來海洋生物名稱實(shí)體識別的準(zhǔn)確率相比時(shí)間實(shí)體和地名實(shí)體較低(表3),這是因?yàn)橥鈦砗Q笊锩Q長度較長且結(jié)構(gòu)復(fù)雜,且同一生物往往具有不同的表述名稱,在進(jìn)行實(shí)體識別時(shí)較為復(fù)雜,因此,外來海洋生物名稱實(shí)體相比時(shí)間和地點(diǎn)實(shí)體識別結(jié)果的準(zhǔn)確率和召回率偏低。

將文本中的詞長和詞性特征等特征向量加入CNN-BiGRU-Attention-CRF網(wǎng)絡(luò)模型中,多特征組合下的CNN-BiGRU-Attention-CRF網(wǎng)絡(luò)模型對各類實(shí)體識別結(jié)果中平均F1值達(dá)到了90.05%,相比單一CNN-BiGRU-Attention-CRF網(wǎng)絡(luò)模型的識別結(jié)果提高了8.38%,這表明通過引入人工構(gòu)造特征模板可以有效提升實(shí)體識別的效果,尤其是對于外來海洋生物實(shí)體名稱這一較為復(fù)雜的實(shí)體而言,通過構(gòu)造詞長、詞性等特征可以較好地解決外來海洋生物實(shí)體存在的復(fù)雜嵌套等問題,提升實(shí)體識別的準(zhǔn)確率。

3 結(jié)論

1)面對外來海洋生物領(lǐng)域信息分散且透明度較低,外來海洋生物領(lǐng)域?qū)嶓w構(gòu)造較長且存在嵌套等問題,本研究中提出使用多特征組合下的CNN-BiGRU-Attention-CRF網(wǎng)絡(luò)模型進(jìn)行外來海洋生物文本的命名實(shí)體識別,網(wǎng)絡(luò)模型將文本中的詞性特征、詞長特征等特征向量與卷積神經(jīng)網(wǎng)絡(luò)提取出的字的前后綴特征向量組合作為門控神經(jīng)網(wǎng)絡(luò)的輸入,可以充分提取文本的全部特征,試驗(yàn)證明在外來海洋生物數(shù)據(jù)集上的識別效果較好。

2)本研究中提出的融合多特征向量的CNN-BiGRU-Attention-CRF網(wǎng)絡(luò)模型構(gòu)建較為煩瑣復(fù)雜,且需要人工構(gòu)造特征模板,因此,在未來研究中可以就特定領(lǐng)域命名實(shí)體識別過程如何構(gòu)建通用的特征模板,以及如何減少構(gòu)建特征向量時(shí)的工作量進(jìn)行深入研究。

3)本研究中提出的外來海洋生物命名實(shí)體識別網(wǎng)絡(luò)模型可為其他特定領(lǐng)域的命名實(shí)體識別提供借鑒和參考,網(wǎng)絡(luò)模型識別出的實(shí)體信息可以為外來海洋生物的分析研究提供有效的數(shù)據(jù)支撐。

猜你喜歡
海洋生物特征向量命名
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
神奇的海洋生物
中外文摘(2022年15期)2022-11-15 11:16:24
海洋生物動(dòng)起來
克羅內(nèi)克積的特征向量
命名——助力有機(jī)化學(xué)的學(xué)習(xí)
什么樣的海洋生物會(huì)發(fā)光
海洋生物
幽默大師(2019年11期)2019-11-23 08:47:42
一類特殊矩陣特征向量的求法
有一種男人以“暖”命名
東方女性(2018年3期)2018-04-16 15:30:02
為一條河命名——在白河源
散文詩(2017年17期)2018-01-31 02:34:08
大安市| 布拖县| 黔西县| 新津县| 镇赉县| 五原县| 吉木乃县| 诏安县| 晴隆县| 桐梓县| 离岛区| 阿合奇县| 抚宁县| 吕梁市| 长阳| 阜宁县| 鱼台县| 驻马店市| 沂南县| 龙泉市| 依安县| 温泉县| 通海县| 邹平县| 蛟河市| 海晏县| 南通市| 平舆县| 教育| 庆云县| 富川| 南安市| 织金县| 灵台县| 怀柔区| 隆化县| 宁国市| 武强县| 墨玉县| 贵港市| 汉寿县|