国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Transformer-BiLSTM-CRF的橋梁檢測領(lǐng)域命名實(shí)體識別

2021-05-27 05:32:00楊建喜莫天金蔣仕新
中文信息學(xué)報 2021年4期
關(guān)鍵詞:字符語料命名

李 韌,李 童,楊建喜,莫天金,蔣仕新,李 東

(重慶交通大學(xué) 信息科學(xué)與工程學(xué)院,重慶 400074)

0 引言

作為文本信息抽取的基礎(chǔ)性工作之一,命名實(shí)體識別研究多年來一直受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。以條件隨機(jī)場(conditional random field,CRF)為代表的概率圖模型成為命名實(shí)體識別任務(wù)的經(jīng)典方法。近年來,隨著雙向長短期記憶(bidirectional long short-term Memory,BiLSTM)網(wǎng)絡(luò)和文本分布式表示等理論方法的長足發(fā)展,面向通用領(lǐng)域人名、地名和組織機(jī)構(gòu)名等目標(biāo)的命名實(shí)體識別方法取得了較大幅度的性能提升[1],并為智能問答、知識圖譜構(gòu)建等任務(wù)奠定了基礎(chǔ)。與此同時,國內(nèi)外學(xué)者也針對中文電子病歷[2]、軍事文本[3]和生物醫(yī)學(xué)[4]等特定領(lǐng)域命名實(shí)體識別方法進(jìn)行了許多有益探索。

隨著交通基礎(chǔ)設(shè)施建設(shè)的快速發(fā)展,我國已有80余萬座公路橋梁建成服役。以《公路橋涵養(yǎng)護(hù)規(guī)范》和《公路橋梁技術(shù)狀況評定標(biāo)準(zhǔn)》等行業(yè)規(guī)范為指導(dǎo),在一定實(shí)施周期或特殊服役狀態(tài)條件下,開展以結(jié)構(gòu)構(gòu)件表觀病害、材料性能劣化和結(jié)構(gòu)幾何變形等為主要內(nèi)容的橋梁檢測,已成為當(dāng)前我國公路橋梁管理養(yǎng)護(hù)業(yè)務(wù)體系中最重要的工作內(nèi)容之一[5]。目前,業(yè)界已積累了大量橋梁檢測文本數(shù)據(jù),其中蘊(yùn)含了豐富的橋梁結(jié)構(gòu)參數(shù)、結(jié)構(gòu)病害檢測結(jié)論及養(yǎng)護(hù)維修處置建議等重要信息。對橋梁檢測文本開展以命名實(shí)體識別為基礎(chǔ)的關(guān)鍵信息抽取方法研究,可為科學(xué)化、智能化的橋梁管理養(yǎng)護(hù)決策及領(lǐng)域知識共享奠定基礎(chǔ),也是人工智能時代橋梁工程領(lǐng)域的迫切需求和發(fā)展趨勢[6]。然而,雖然業(yè)界已有少量面向橋梁檢測領(lǐng)域的命名實(shí)體識別研究成果[7],但現(xiàn)有方法僅針對英文橋梁檢測文本,適應(yīng)于中文語境的相關(guān)方法研究尚未有效開展。正如本文第2小節(jié)分析所述,由于橋梁檢測文本中包含較多專業(yè)術(shù)語,并且待識別的命名實(shí)體存在地名或路線名嵌套、字符多義、上下文位置相關(guān)和方向敏感等較強(qiáng)特性,需要探尋一種適用于該問題域的實(shí)體識別解決方案。

本文面向橋梁管理養(yǎng)護(hù)實(shí)際行業(yè)需求及其檢測文本領(lǐng)域特性,結(jié)合Transformer的長距離位置依賴關(guān)系建模和BiLSTM的雙向序列特征提取能力,提出一種基于Transformer-BiLSTM-CRF聯(lián)合模型的橋梁檢測領(lǐng)域命名實(shí)體識別方法。通過構(gòu)建橋梁檢測命名實(shí)體語料,并在無預(yù)訓(xùn)練模型和有預(yù)訓(xùn)練模型支撐兩種場景下,與當(dāng)前主流的命名實(shí)體識別神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比實(shí)驗,本文提出的方法在實(shí)驗數(shù)據(jù)集下具有更好的綜合識別效果。

本文的組織結(jié)構(gòu)如下:第1節(jié)對國內(nèi)外相關(guān)研究現(xiàn)狀進(jìn)行介紹。第2節(jié)提出橋梁檢測領(lǐng)域命名實(shí)體識別的具體目標(biāo)并分析其領(lǐng)域特性。第3節(jié)闡述提出的Transformer-BiLSTM-CRF模型架構(gòu)及其命名實(shí)體識別方法。第4節(jié)在介紹實(shí)驗語料和實(shí)驗設(shè)置的基礎(chǔ)上,對實(shí)驗結(jié)果進(jìn)行分析。第5節(jié)給出本文結(jié)論及后續(xù)工作展望。

1 相關(guān)工作

由于基于規(guī)則或統(tǒng)計機(jī)器學(xué)習(xí)的傳統(tǒng)命名實(shí)體識別方法依賴于人工構(gòu)建文本特征,基于深度神經(jīng)網(wǎng)絡(luò)模型的“端到端”識別方法成為當(dāng)前主要研究方向[8]。例如,Huang等[9]提出了BiLSTM-CRF模型,并將其應(yīng)用于命名實(shí)體識別和詞性標(biāo)注等序列標(biāo)注任務(wù)。該網(wǎng)絡(luò)結(jié)構(gòu)成為后續(xù)眾多模型方法擴(kuò)展的基礎(chǔ)。另外,Collobert等[10]提出了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)與CRF相結(jié)合的命名實(shí)體識別方法,在CONLL2003語料上取得了較好的識別效果。李麗雙等[11]提出了基于CNN-BiLSTM-CRF聯(lián)合模型的生物醫(yī)學(xué)命名實(shí)體識別方法,通過CNN獲取字符級特征補(bǔ)充詞向量,在Biocreative Ⅱ GM和JNLPBA2004語料中實(shí)驗的F1值分別達(dá)到89.09%和74.40%。

在中文命名實(shí)體識別任務(wù)方面,由于不準(zhǔn)確的中文分詞可能會造成誤差傳遞問題,以字向量作為輸入特征成為中文語境下的另一解決方案[12]。除此以外,張海楠等[13]提出基于字詞聯(lián)合特征編碼的深度神經(jīng)網(wǎng)絡(luò)模型,在人民日報語料的人名、地名和組織機(jī)構(gòu)名實(shí)體識別取得了F1值的有效提升。盛劍等[14]面向多場景、多領(lǐng)域文本環(huán)境,提出了基于BiLSTM-CRF模型并引入CNN特征提取模塊的細(xì)粒度命名實(shí)體識別方法,面向全領(lǐng)域?qū)嶓w識別平均F1值達(dá)到80%左右。禤鎮(zhèn)宇等[15]面向影評人名實(shí)體識別具體問題,將預(yù)訓(xùn)練字向量和邊界特征、用字特征等人工特征相結(jié)合,并采用了BiLSTM-CRF模型進(jìn)行字符序列標(biāo)注。2018年,Zhang等[16]提出了基于Lattice-LSTM模型的命名實(shí)體識別方法,通過字符和詞特征的聯(lián)合表示,并在外部大規(guī)模詞典嵌入的支撐下取得了較好的通用領(lǐng)域數(shù)據(jù)集評測效果。由此可見,當(dāng)前基于深度神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識別方法總體上可以規(guī)約為由嵌入層、編碼層和解碼層構(gòu)成的三層模型架構(gòu),其中適宜的特征表示和深度網(wǎng)絡(luò)模型是實(shí)現(xiàn)識別性能提升的關(guān)鍵。

近年來,為克服傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)模型在長程記憶能力等方面存在的不足,國內(nèi)外學(xué)者開始將注意力(attention)機(jī)制引入深度神經(jīng)網(wǎng)絡(luò)模型,并在自然語言處理研究領(lǐng)域取得了較好的應(yīng)用效果[17]。例如,楊培等[18]將注意力機(jī)制加入到BiLSTM-CRF模型中,在化學(xué)藥物命名實(shí)體識別任務(wù)中取得了較好效果。2017年,Vaswani等[19]提出了融合多頭注意力(multi-head attention)和位置編碼(positional encoding)等機(jī)制的Transformer模型。在此基礎(chǔ)上,Devlin等[20]提出了BERT(bidirectional encoder representations from transformers)預(yù)訓(xùn)練模型,并在通用領(lǐng)域的11項文本分析任務(wù)中取得了當(dāng)時的最佳效果,成為當(dāng)前國內(nèi)外自然語言處理領(lǐng)域關(guān)注的焦點(diǎn)。在此基礎(chǔ)上,Sehanobish等[21]提出了基于中文字形的命名實(shí)體識別方法,通過聯(lián)合BERT文本預(yù)訓(xùn)練模型與基于CNN的中文字符圖片預(yù)訓(xùn)練模型作為輸入,在BiLSTM-CRF網(wǎng)絡(luò)模型中進(jìn)行實(shí)體識別,并取得了較好的實(shí)驗效果。然而,開源的BERT模型通?;谕ㄓ妙I(lǐng)域文本進(jìn)行預(yù)訓(xùn)練,對于含有大量專業(yè)術(shù)語和語法結(jié)構(gòu)的特定領(lǐng)域很難直接適用。另外,Sehanobish等的方法需要海量中文字符圖片作為支撐,且引入更多模型參數(shù),需要海量數(shù)據(jù)作為訓(xùn)練樣本支撐,這一前提條件對語料資源相對匱乏的特定領(lǐng)域是極大挑戰(zhàn)。

針對橋梁檢測領(lǐng)域文本的信息抽取任務(wù),目前僅有Liu等[7]提出了基于BridgeOnto本體和半監(jiān)督CRF的結(jié)構(gòu)狀態(tài)和養(yǎng)護(hù)活動命名實(shí)體識別方法。然而,該方法僅面向英文橋梁檢測報告,適用于中文橋梁檢測文本描述方式特性的命名實(shí)體識別方法仍有待進(jìn)一步研究。

2 橋梁檢測領(lǐng)域命名實(shí)體識別目標(biāo)與特性

通過收集多地區(qū)真實(shí)橋梁檢測報告并分析其特性發(fā)現(xiàn),該領(lǐng)域文本通常包含了橋梁基本信息、檢測內(nèi)容、檢測工具、檢測結(jié)果和后續(xù)管養(yǎng)處治建議等章節(jié),其中蘊(yùn)含的橋梁名稱、橋梁結(jié)構(gòu)部件或構(gòu)件描述、病害檢測結(jié)果等是橋梁工程業(yè)界最關(guān)心的業(yè)務(wù)內(nèi)容。因此,在充分考慮我國公路橋梁業(yè)主需求的基礎(chǔ)上,參照橋梁結(jié)構(gòu)劃分、病害表征及技術(shù)狀況評定方法等行業(yè)規(guī)范,將橋梁檢測領(lǐng)域命名實(shí)體定義為六大類別,分別是橋梁實(shí)體(BRI)、橋梁結(jié)構(gòu)實(shí)體(ENT)、結(jié)構(gòu)元素實(shí)體(ENTE)、結(jié)構(gòu)位置實(shí)體(ENTL)、結(jié)構(gòu)病害實(shí)體(DIS)和病害否定修飾(UND)。在“不重疊、不嵌套、不包含停頓標(biāo)點(diǎn)符號”的常用原則下,本文面向最小粒度的上述實(shí)體進(jìn)行識別,即若文本中有描述“重慶長江大橋橋墩”,那么“重慶長江大橋”為BRI實(shí)體,“橋墩”為ENT實(shí)體。表1給出了橋梁檢測領(lǐng)域命名實(shí)體類型及其示例。

表1 橋梁檢測領(lǐng)域命名實(shí)體類型及其示例

除了上述橋梁檢測領(lǐng)域命名實(shí)體識別目標(biāo)與通用領(lǐng)域的人名、地名、組織機(jī)構(gòu)名等存在較大區(qū)別以外,由于橋梁結(jié)構(gòu)屬性參數(shù)及其檢測文本信息具有一定的隱私性要求,難以獲取到類似于通用領(lǐng)域的海量語料。與此同時,上述各類型命名實(shí)體還存在以下領(lǐng)域特性。

(1) 由于我國公路橋梁通常以所在地區(qū)或者服務(wù)路線為命名基礎(chǔ),因此,BRI實(shí)體通常嵌套有城市地名、路線樁號等信息,并伴有英文或數(shù)字的聯(lián)合表達(dá),以及存在不同風(fēng)格的縮寫形式。例如,橋梁名“重慶大佛寺長江大橋”包含有“重慶”和“大佛寺”兩個地名,并且可能簡稱為“大佛寺大橋”。“X655線李渡長江大橋”同時包含了英文和數(shù)字組合構(gòu)成的路線及地名信息。

(2) 相同字可能存在于多種類型領(lǐng)域命名實(shí)體中,并具有較強(qiáng)的字符多義性、上下文位置相關(guān)性和方向敏感性。例如,“橋”通常作為BRI實(shí)體結(jié)束字,也可能描述“橋墩”“橋臺”等某一類型結(jié)構(gòu)構(gòu)件并作為ENT實(shí)體的開始字。在描述某一具體構(gòu)件時,會存在類似于“0#橋臺”的表述方式,而“橋”字在該ENT實(shí)體的中間位置處出現(xiàn),并伴隨在數(shù)字和特殊符號之后。

(3) 各類型領(lǐng)域?qū)嶓w之間存在較強(qiáng)的上下文位置關(guān)聯(lián)性。結(jié)構(gòu)病害DIS實(shí)體通常出現(xiàn)在ENT、ENTE或者ENTL實(shí)體之后。例如,在結(jié)構(gòu)病害描述的“橋臺泥沙淤積”中“橋臺”為ENT實(shí)體,“泥沙淤積”為DIS實(shí)體?!?#梁段存在網(wǎng)狀裂縫”中“3#梁段”為ENTE實(shí)體,“網(wǎng)狀裂縫”為DIS實(shí)體。否定修飾UND實(shí)體可能對ENT和DIS等多種實(shí)體進(jìn)行描述。例如,“沒有明顯開裂現(xiàn)象”中的“沒有明顯”為UND,“開裂”為DIS實(shí)體,“未設(shè)置伸縮縫”中“未設(shè)置”為UND,“伸縮縫”為ENT實(shí)體。

由此可見,該領(lǐng)域命名實(shí)體識別任務(wù)涉及較多專業(yè)術(shù)語與各類型實(shí)體間的位置關(guān)聯(lián)性特征,以及中文字符多義性和方向敏感性特征等。以滿足上述目標(biāo)任務(wù)和適應(yīng)該領(lǐng)域文本特性為動機(jī),本文結(jié)合Transformer模型在長距離位置依賴關(guān)系特征建模、BiLSTM模型在文本方向性特征建模,以及CRF模型在標(biāo)簽約束關(guān)系預(yù)測方面的優(yōu)勢,開展橋梁檢測領(lǐng)域命名實(shí)體識別方法研究,并提出基于該聯(lián)合模型的解決方案。

3 Transformer-BiLSTM-CRF模型

圖1為本文提出的橋梁檢測領(lǐng)域命名實(shí)體識別的Transformer-BiLSTM-CRF模型架構(gòu)。該模型由Transformer模塊、BiLSTM模塊和CRF模塊三部分組成。其基本思想是:以橋梁檢測語料字符序列為輸入,首先在Transformer模塊中對上下文長距離的位置依賴特征進(jìn)行提取,以此作為BiLSTM模塊的輸入。BiLSTM模塊進(jìn)行文本序列的方向敏感性特征提取,并在CRF模塊中對上下文標(biāo)注進(jìn)行約束,最終輸出序列標(biāo)注結(jié)果。

圖1 橋梁檢測領(lǐng)域命名實(shí)體識別的Transformer-BiLSTM-CRF模型架構(gòu)

3.1 Transformer模塊

如文獻(xiàn)[18]所述,面向機(jī)器翻譯等Seq2Seq任務(wù)的Transformer模型主要包含編碼器(encoder)和解碼器(decoder)兩個主要部件。本文提出模型僅使用其中的編碼器進(jìn)行橋梁檢測語料文本序列的長距離位置依賴關(guān)系特征建模。

該模塊首先對輸入文本序列進(jìn)行劃分和字嵌入,得到輸入張量Xinput∈b×l×d,其中b為批次大小,l為序列長度,d是字嵌入維度。然后,按式(1)對序列字符按sin和cos函數(shù)的線性變換進(jìn)行位置編碼,獲取字符在當(dāng)前句子中的位置信息。

(1)

其中,pos表示字符位置,i表示字符向量維度。每個編碼器由多頭自注意力和前饋神經(jīng)網(wǎng)絡(luò)兩個內(nèi)部層次構(gòu)成。將位置編碼與字嵌入元素相加后得到的Xembedding按式(2)分解為Q(h)、K(h)和V(h),并作為Transformer Encoder模塊的輸入。

其中,WQ、WK和Wv為權(quán)重參數(shù)矩陣,h∈[1,n]為head索引,head數(shù)n為超參數(shù)。然后,按式(3)進(jìn)行注意力運(yùn)算,在獲取句子中每一個字與其他字相關(guān)性的同時,使得每個字向量都含有當(dāng)前句子中其他相關(guān)字向量信息。多頭自注意力計算的結(jié)果按式(4)進(jìn)行拼接。

然后,將多頭注意力計算的MultiHead(Q,K,V)與Xembedding進(jìn)行殘差連接得到Xattention,并進(jìn)行歸一化計算,得標(biāo)準(zhǔn)正態(tài)分布,從而加速訓(xùn)練和收斂。

編碼器中的全連接前饋神經(jīng)網(wǎng)絡(luò)層以Xattention為輸入,如式(5)所示,使用ReLU作為激活函數(shù)并進(jìn)行兩次線性映射,分別完成維度的擴(kuò)展與壓縮。

其中,W1,W2,b1和b2分別為對應(yīng)的權(quán)重矩陣和偏置。最后,F(xiàn)FN(X)與Xattention再進(jìn)行一次殘差連接和歸一化計算,得到編碼器的輸出Xhidden。

在實(shí)際的聯(lián)合模型構(gòu)建過程中,編碼器模塊可以進(jìn)行多次疊加。除了最底層的編碼器以隨機(jī)初始化字向量或者預(yù)訓(xùn)練字向量為輸入以外,其余層級的編碼器均以上一層次輸出的Xhidden為輸入,并且計算過程中的Xinput,Xembedding,Xattention和Xhidden均有相同的維度,即實(shí)現(xiàn)輸入文本序列在位置編碼和多頭自注意力機(jī)制下的字符級特征無監(jiān)督學(xué)習(xí)與表征。

3.2 BiLSTM模塊

BiLSTM模塊由前向LSTM和后向LSTM組成,能夠從前后兩個方向獲取序列的上下文信息。作為一種特殊循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型,每個LSTM包含了輸入門、遺忘門和輸出門三種“門”節(jié)點(diǎn),以克服傳統(tǒng)RNN模型在面向長序列特征提取過程中存在的梯度消失等問題。式(6)描述了LSTM具體計算過程。

(6)

其中,σ是sigmoid函數(shù),tanh為雙曲正切函數(shù);Wi,Wf,Wo分別是輸入門、遺忘門和輸出門的權(quán)重矩陣,bi,bf,bo為對應(yīng)的偏置。首先,以t-1時刻的隱藏層狀態(tài)ht-1和當(dāng)前t時刻的字向量xt為輸入,分別計算出遺忘門值ft,輸入門值it。以此為基礎(chǔ),結(jié)合t-1時刻的細(xì)胞狀態(tài)Ct-1計算出當(dāng)前的細(xì)胞狀態(tài)值Ct。然后,在計算輸出門值ot的基礎(chǔ)上,得到當(dāng)前時刻的隱藏層輸出ht。

為應(yīng)對訓(xùn)練過程中可能存在的過擬合問題,在BiLSTM兩端分別設(shè)置了Dropout層,并將t時刻的正向LSTM輸出和反向LSTM輸出進(jìn)行拼接,得到該模塊的最終輸出結(jié)果。

3.3 CRF模塊

以Transformer和BiLSTM模塊提取的上下文特征為輸入,CRF模塊考慮序列標(biāo)簽之間的相鄰依賴關(guān)系,并對最優(yōu)標(biāo)簽序列進(jìn)行求解。即對于一個輸入序列S={x1,x2,…,xn},以及對應(yīng)的預(yù)測標(biāo)簽序列y={y1,y2,…,yn},n為序列長度。CRF模型的評估得分如式(7)所示。

在訓(xùn)練過程的標(biāo)記序列的似然函數(shù)如式(9)所示。

其中,YX為所有標(biāo)記集合。最終,輸出如式(10)所示的整體概率得分最大的一組序列。

4 實(shí)驗及結(jié)果分析

4.1 實(shí)驗語料準(zhǔn)備

由于當(dāng)前業(yè)界還沒有公開的橋梁檢測領(lǐng)域文本語料,本文搜集了我國多個省份的真實(shí)橋梁檢測報告100余份,包含了梁橋、拱橋、斜拉橋和懸索橋結(jié)構(gòu)形式。人工篩選出重點(diǎn)章節(jié)內(nèi)容,并刪除了其中表格和圖片等信息,剩下文本共計12萬余字。采用BIO標(biāo)注策略對上述文本進(jìn)行標(biāo)注。以句子為單位,按8∶2的比例將語料劃分為訓(xùn)練集與測試集,對應(yīng)的標(biāo)簽信息如表2所示。實(shí)驗語料中各類型實(shí)體總數(shù)及訓(xùn)練集、測試集數(shù)據(jù)統(tǒng)計情況如表3所示。

表2 實(shí)驗語料中標(biāo)簽設(shè)置情況

表3 實(shí)驗語料中各類型實(shí)體信息統(tǒng)計

4.2 實(shí)驗環(huán)境與參數(shù)設(shè)置

實(shí)驗采用Python編程語言3.6.5版本,基于Tensorflow 1.12版本對本文方法和對比實(shí)驗方法進(jìn)行程序?qū)崿F(xiàn)。實(shí)驗程序部署于配置為6核AMD 3600 CPU、16 GB DDR 4內(nèi)存、Nividia Geforce 2060 8 GB顯卡、512 GB硬盤空間并安裝Ubuntu 16.04操作系統(tǒng)的主機(jī)。

為驗證本文Transformer-BiLSTM-CRF模型的識別效果,選取了當(dāng)前本領(lǐng)域主流的CNN-CRF,BiLSTM-CRF與CNN-BiLSTM-CRF作為對比基準(zhǔn)模型。為了對Transformer Encoder模塊和 BiLSTM 模塊在上下文長距離位置依賴和方向敏感性特征提取方面的有效性進(jìn)行驗證,選取了Trans-CRF模型進(jìn)行對比分析。另外,使用Google開源的中文BERT預(yù)訓(xùn)練模型評估本文方法在有預(yù)訓(xùn)練模型條件下的識別性能。由于Lattice-LSTM-CRF模型引入了外部詞典嵌入模型,因此,將其視為有預(yù)訓(xùn)練模型支撐進(jìn)行對比分析。

在訓(xùn)練主要超參數(shù)方面,設(shè)置文本序列最大長度為100,Epoch迭代次數(shù)為100次,批次大小為128,學(xué)習(xí)率為0.001,Dropout率為0.1,Transformer中Encoder的Block數(shù)為6,Head數(shù)為8,字嵌入維度為512。

實(shí)驗結(jié)果采用了命名實(shí)體識別領(lǐng)域常用的正確率(Precision,P)、召回率(Recall,R)和F1值作為評價指標(biāo),其中P為正確識別實(shí)體與識別結(jié)果總數(shù)的占比,R為正確識別實(shí)體與測試集實(shí)體總數(shù)占比,F(xiàn)1為P和R的調(diào)和平均值,體現(xiàn)模型的綜合命名實(shí)體識別性能。

4.3 實(shí)驗結(jié)果與分析

表4和表5分別描述了無預(yù)訓(xùn)練模型和BERT預(yù)訓(xùn)練模型兩組實(shí)驗條件下不同模型的綜合對比結(jié)果??傮w而言,本文模型在兩組實(shí)驗中的精確率、召回率和F1值三方面均優(yōu)于其他對比實(shí)驗?zāi)P停哂懈训木C合識別效果。

表4 無預(yù)訓(xùn)練模型條件下不同模型的對比實(shí)驗結(jié)果 (單位:%)

表5 預(yù)訓(xùn)練模型條件下不同模型的對比實(shí)驗結(jié)果 (單位:%)

在第一組無預(yù)訓(xùn)練模型實(shí)驗條件下,所有對比模型均基于隨機(jī)初始化的字向量。Trans-CRF模型的實(shí)驗結(jié)果較差,F(xiàn)1指標(biāo)僅有73.27%。其原因主要在于該模型僅使用了Transformer Encoder作為字符特征提取單元,位置編碼和自注意力機(jī)制僅考慮了上下文的位置依賴相關(guān)性特征,對于字符級命名實(shí)體的前后順序方向性特征提取能力不足,導(dǎo)致識別效果較差。類似地,CNN-CRF模型的F1值也僅有78.37%,綜合識別效果也有待提升。

BiLSTM-CRF是當(dāng)前基于深度神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識別主流模型架構(gòu)。由于BiLSTM能夠從前后兩個方向?qū)ξ谋拘蛄凶址卣鬟M(jìn)行學(xué)習(xí),在第一組實(shí)驗中,該模型測試F1值達(dá)到87.71%。與CNN-CRF模型相比,BiLSTM-CRF模型的正確率提升9.38%,召回率提升9.29%,F(xiàn)1值也提升9.34%。由于CNN模塊的卷積操作能進(jìn)一步提取字符的上下文局部特征,CNN-BiLSTM-CRF模型的正確率、召回率和F1值三個指標(biāo)方面分別超過BiLSTM-CRF模型0.55%、2.91%和1.78%。

正如本文第2節(jié)所述,除了蘊(yùn)含豐富的專業(yè)術(shù)語以外,橋梁檢測領(lǐng)域命名實(shí)體還具有較強(qiáng)的字符多義性、位置相關(guān)性以及方向敏感性等特點(diǎn),結(jié)合了Transformer Encoder和BiLSTM特征提取能力的本文方法能夠同時捕獲長距離和方向性特征,相較于CNN-BiLSTM-CRF模型,對比實(shí)驗結(jié)果的正確率提升了1.02%,召回率提升了1.45%,F(xiàn)1值提升了1.24%,取得了在第一組實(shí)驗測試集下的綜合最優(yōu)效果。

第二組實(shí)驗采用BERT中文預(yù)訓(xùn)練模型將輸入序列字符映射為字向量,并固定BERT模塊參數(shù),對下游對比模型進(jìn)行參數(shù)微調(diào)。如表5所示的實(shí)驗結(jié)果表明,BERT預(yù)訓(xùn)練模型的引入對所有實(shí)驗對比模型的識別性能均有較大提升作用,第一組實(shí)驗中效果較差的Trans-CRF模型識別F1值達(dá)到86.51%,相較于第一組實(shí)驗結(jié)果提升了13.24%。CNN-CRF模型的F1值提升至88.89%。本文提出的Transformer-BiLSTM-CRF模型的識別正確率提升至95.79%,召回率提升至95.36%,F(xiàn)1值為95.57%,優(yōu)于Lattice-LSTM-CRF模型F1值2.29%,仍然具有實(shí)驗測試集下最優(yōu)的綜合識別效果。

為進(jìn)一步分析各個模型對橋梁檢測領(lǐng)域各類型命名實(shí)體在兩組實(shí)驗中的具體識別效果,統(tǒng)計了如表6和表7所示的實(shí)驗對比結(jié)果F1值。

表6 無預(yù)訓(xùn)練模型條件下各類命名實(shí)體識別的實(shí)驗F1值對比 (單位:%)

表7 預(yù)訓(xùn)練模型支持下各類命名實(shí)體識別的實(shí)驗F1值對比 (單位:%)

如第2節(jié)所述,BRI實(shí)體通常以“橋”作為結(jié)束字,同時可能嵌套有地名或者具有縮寫形式,并且BRI實(shí)體包含的字符數(shù)可能較大。例如,經(jīng)統(tǒng)計,測試集中BRI實(shí)體最多包含11個中文字符,最少存在兩個字符。由于Transformer能對整個句子進(jìn)行特征提取,具有較好的長距離依賴關(guān)系表征能力,并通過進(jìn)一步結(jié)合BiLSTM的雙向上下文順序特征提取能力,本文方法在兩組實(shí)驗中均有最佳的BRI實(shí)體識別F1值。

在本文定義的ENT實(shí)體為橋梁結(jié)構(gòu)部件或者具體某一構(gòu)件,是《公路橋梁技術(shù)狀況評定標(biāo)準(zhǔn)》等行業(yè)規(guī)范中的檢測信息記錄基礎(chǔ),因此在訓(xùn)練集和測試集中的占比最大。本文方法對ENT實(shí)體的識別結(jié)果在兩組實(shí)驗中均優(yōu)于對比模型,F(xiàn)1值分別達(dá)到92.03%和94.58%。

ENTE實(shí)體是組成橋梁構(gòu)件的更細(xì)粒度元素,存在“左腹板”和“前墻”等嵌套有方位描述的實(shí)體,或者“后澆翼緣板”等特殊詞匯,識別難度較大。因此,在第一組實(shí)驗中,雖然本文方法取得了74.19%的最優(yōu)F1值,但整體效果均偏低。在第二組實(shí)驗的BERT預(yù)訓(xùn)練模型支撐下,ENTE實(shí)體的識別效果大幅度提升,達(dá)98.04%。

ENTL描述檢測病害相對于ENT或者ENTE實(shí)體的具體發(fā)生位置,所包含的字符數(shù)較少,描述形式與通用領(lǐng)域相差不大。在第一組實(shí)驗中,CNN-BiLSTM-CRF模型取得了最優(yōu)的F1值,優(yōu)于本文方法0.99%。第二組實(shí)驗中,BiLSTM-CRF模型也優(yōu)于本文方法0.97%。

DIS實(shí)體是結(jié)構(gòu)病害的具體描述,具有較強(qiáng)專業(yè)特殊性,規(guī)范性較強(qiáng),但可能存在人為書寫習(xí)慣的差異性。例如,“破損露筋”可能被記錄為“破損、露筋”,進(jìn)而需要被識別為兩個實(shí)體。兩組實(shí)驗中,本文方法都取得了最優(yōu)的F1值。

UND實(shí)體對病害或結(jié)構(gòu)構(gòu)件進(jìn)行否定描述,在第一組實(shí)驗中Transformer-BiLSTM-CRF模型取得了91.16%的最佳F1值。由于UND實(shí)體的描述方式相對固定和常見,在BERT預(yù)訓(xùn)練模型支撐的第二組實(shí)驗中,各對比模型的識別效果提升明顯,BiLSTM-CRF和CNN-BiLSTM-CRF的F1值均達(dá)到97%以上,本文方法提升至98.46%。

為驗證本文方法在通用領(lǐng)域命名實(shí)體識別任務(wù)中的泛化性,選擇了MSRA語料并在無預(yù)訓(xùn)練模型條件下與上述主流模型進(jìn)行了對比分析,其實(shí)驗結(jié)果如表8所示。綜合分析MSRA結(jié)果發(fā)現(xiàn),本文提出的方法雖然具有最優(yōu)的F1值,但相較于BiLSTM-CRF模型優(yōu)勢并不明顯,并且BiLSTM- CRF有更好的識別正確率。其主要原因在于MSRA語料中各實(shí)體相對稀疏,輸入文本中各個命名實(shí)體之間的方向敏感性特征占主導(dǎo)作用。

表8 MSRA語料下不同模型的對比實(shí)驗結(jié)果 (單位:%)

綜合分析實(shí)驗結(jié)果,本文提出的Transformer- BiLSTM-CRF模型具有更好的綜合識別性能,并且對于領(lǐng)域性較強(qiáng)的實(shí)體具有更明顯優(yōu)勢。

5 總結(jié)與展望

作為當(dāng)前我國公路橋梁管理養(yǎng)護(hù)業(yè)務(wù)體系中的重要數(shù)據(jù)源,橋梁檢測文本蘊(yùn)含了大量橋梁結(jié)構(gòu)構(gòu)件和檢測病害等關(guān)鍵業(yè)務(wù)信息,對其開展以命名實(shí)體識別為基礎(chǔ)的信息抽取方法研究是促進(jìn)橋梁管理養(yǎng)護(hù)智能化發(fā)展的重要內(nèi)容之一。

在上述的目標(biāo)任務(wù)驅(qū)動下,針對我國橋梁檢測文本領(lǐng)域特性,本文提出一種基于Transformer- BiLSTM-CRF模型的橋梁檢測領(lǐng)域命名實(shí)體識別方法。該方法通過Transformer Encoder提取字符上下文長距離位置依賴性特征,并采用BiLSTM提取字符方向敏感性特征,最終使用CRF進(jìn)行領(lǐng)域命名實(shí)體的序列標(biāo)注。實(shí)驗結(jié)果表明,該方法能有效識別橋梁名、結(jié)構(gòu)構(gòu)件、結(jié)構(gòu)病害等領(lǐng)域?qū)嶓w,與現(xiàn)有方法相比,具有更好的正確率、召回率和F1值。與此同時,在大規(guī)模文本預(yù)訓(xùn)練模型的支撐下,本文方法能取得較大幅度識別性能提升。本文工作在面向橋梁檢測領(lǐng)域特定任務(wù)的同時,也對其他具有相似特性的領(lǐng)域命名實(shí)體識別研究工作有一定借鑒作用。

由于本文以最小粒度實(shí)體為目標(biāo),尚未考慮該領(lǐng)域?qū)嶓w的嵌套性。因此,在未來的研究工作方面,更大規(guī)模語料庫的構(gòu)建,以及面向最外層實(shí)體和多層嵌套實(shí)體識別及其關(guān)系抽取方法研究是后續(xù)重要任務(wù)。與此同時,如果將該領(lǐng)域的先驗知識與數(shù)據(jù)驅(qū)動方法相結(jié)合,在通用領(lǐng)域BERT預(yù)訓(xùn)練模型基礎(chǔ)上構(gòu)建融合領(lǐng)域知識語義的預(yù)訓(xùn)練模型,并結(jié)合Sehanobish等[21]提出的字符圖像特征融合機(jī)制,進(jìn)一步提升實(shí)體識別或關(guān)系抽取性能也是值得深入探究的研究內(nèi)容。

猜你喜歡
字符語料命名
尋找更強(qiáng)的字符映射管理器
命名——助力有機(jī)化學(xué)的學(xué)習(xí)
字符代表幾
一種USB接口字符液晶控制器設(shè)計
電子制作(2019年19期)2019-11-23 08:41:50
消失的殖民村莊和神秘字符
有一種男人以“暖”命名
東方女性(2018年3期)2018-04-16 15:30:02
為一條河命名——在白河源
散文詩(2017年17期)2018-01-31 02:34:08
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
交口县| 商南县| 南安市| 广宁县| 南雄市| 宁都县| 方山县| 大理市| 泰安市| 如皋市| 汉寿县| 精河县| 郎溪县| 确山县| 沁阳市| 大方县| 黔西县| 梓潼县| 湖北省| 都江堰市| 石河子市| 斗六市| 桑日县| 龙口市| 宿松县| 久治县| 定陶县| 深泽县| 资源县| 来安县| 若尔盖县| 同江市| 铜梁县| 阿鲁科尔沁旗| 孟连| 淄博市| 云龙县| 曲水县| 凤翔县| 宽甸| 富蕴县|