国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合多種使用詞信息方法的命名實體識別研究

2021-10-19 13:16郭鵬劉俊南
現(xiàn)代信息科技 2021年6期
關(guān)鍵詞:命名實體模型

郭鵬 劉俊南

摘 ?要:文章對融合詞信息增強中文命名實體識別問題進(jìn)行了研究,提出一種用于中文命名實體識別的融合詞信息神經(jīng)網(wǎng)絡(luò)模型系統(tǒng)。首先使用預(yù)訓(xùn)練語言模型Bert對字進(jìn)行編碼得到字標(biāo)識,然后使用SoftLexicon基于統(tǒng)計的方法將詞統(tǒng)計語義信息融合進(jìn)入字表示中,之后使用設(shè)計的GraphLexicon根據(jù)文本內(nèi)字、詞之間的交互關(guān)系圖結(jié)構(gòu),將字詞信息表示相互融合,達(dá)到較高的命名實體識別準(zhǔn)確率。

關(guān)鍵字:中文命名實體識別;圖神經(jīng)網(wǎng)絡(luò);融合;詞信息;字詞交互;圖結(jié)構(gòu)

中圖分類號:TP183 ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2021)06-0025-04

Research on Named Entity Recognition Based on Multiple Words Used

Information Methods

GUO Peng,LIU Junnan

(Innovem Technology (Tianjin)Co.,Ltd.,Tianjin ?300384,China)

Abstract:In this paper,the problem of enhancing Chinese named entity recognition by fusing word information is studied,and a neural network model system based on fusing word information for Chinese named entity recognition is proposed. First,the pre training language model Bert is used to encode the character to get the character identification,and then the statistic based approach SoftLexicon is used to fuse the word statistical semantic information into the character representation. Then,according to the structure of the interaction graph between characters and words in the text,the character and word information representation are fused to achieve a high accuracy of named entity recognition.

Keywords:Chinese named entity recognition;graph neural network;fuse;word information;character and word interaction;graph structure

0 ?引 ?言

中文命名實體(Named Entity Recognize,NER)[1]識別是指標(biāo)記識別出輸入文本中特定的實體,并確定該識別類型,例如人名,地名,機構(gòu)名稱,手術(shù)名稱,患病部位等。命名實體識別經(jīng)常作為其他自然語言處理系統(tǒng)的預(yù)處理步驟,例如關(guān)系抽取,事件抽取,問答系統(tǒng)等。作為自然語言文本結(jié)構(gòu)化系統(tǒng)的重要部分,為了構(gòu)建結(jié)構(gòu)化系統(tǒng),提升中文命名實體識別的準(zhǔn)確率是非常重要的。

早期的命名實體識別大多是基于規(guī)則的方法,但是由于語言結(jié)構(gòu)本身具有不確定性,制定出統(tǒng)一完整的規(guī)則難度較大?,F(xiàn)階段針對命名實體識別問題最有效的方法是機器學(xué)習(xí)的方法。傳統(tǒng)的機器學(xué)習(xí)的命名實體識別方法大多采用有監(jiān)督的機器學(xué)習(xí)模型,如SVM、HMM、CRF等。最近幾年深度學(xué)習(xí)在自然語言處理上得到廣泛的應(yīng)用,如循環(huán)神經(jīng)網(wǎng)絡(luò)BiLSTM-CRF,卷積循環(huán)神經(jīng)網(wǎng)絡(luò)BiLSTM-CNN-CRF,圖神經(jīng)網(wǎng)絡(luò)模型GraphNN以及許多其他方案模型,如將命名實體識別作為問答解決的變體模型。谷歌在2018年發(fā)布預(yù)訓(xùn)練語言模型BERT[2],將多項自然語言處理任務(wù)的結(jié)果精度推到了更高的精確度。

相對于英文命名實體識別,中文沒有明顯的詞邊界,因此直覺上會認(rèn)為對于中文自然語言處理只使用字信息就足夠完成命名實體識別任務(wù),雖然這樣會缺失詞信息。然而詞信息對于中文命名實體識別乃至其他中文自然語言處理任務(wù)都是十分有價值的,例如識別機構(gòu)名“北京機場”時,如果輸入有詞“北京”“機場”的邊界信息和詞信息,會增加機構(gòu)名的識別概率。

本文結(jié)構(gòu)為:第一章介紹詞信息的命名實體識別相關(guān)工作,第二章介紹本文設(shè)計的模型結(jié)構(gòu),第三章通過實驗對比其他方法模型并進(jìn)行分析,第四章對本文工作進(jìn)行總結(jié)。

1 ?相關(guān)工作

由于引入詞信息可以增強命名實體識別準(zhǔn)確率,出現(xiàn)了很多方法將詞信息融合到命名實體識別任務(wù)中,如:聯(lián)合學(xué)習(xí)中文分詞(Chinese word segment,CWS)和命名實體識別,但聯(lián)合學(xué)習(xí)方法需要詞邊界標(biāo)注信息,需要花費大量精力進(jìn)行額外的分詞標(biāo)注。又如:使用word2vec,word2vec使用大量領(lǐng)域內(nèi)文本進(jìn)行訓(xùn)練得到。Word2vec包含了詞邊界信息和詞語義信息。相對于聯(lián)合方案,word2vec更容易獲得,并且不需要額外的分詞標(biāo)注,例如Lattice-LSTM將詞信息融合進(jìn)入LSTM網(wǎng)絡(luò)結(jié)構(gòu)中,F(xiàn)latBert將詞信息和字信息展平,通過Attention模型進(jìn)行注意力計算[3]。

然而融合詞信息的方法多種多樣,怎么有效的融合詞信息仍是一個開放挑戰(zhàn),Lattice-LSTM為了融合詞信息,會將詞作為文本內(nèi)的子序列,在字序列上為詞子序列增加大量額外鏈接,極大的加劇了訓(xùn)練和推斷的時間,并且由于模型的復(fù)雜結(jié)構(gòu),導(dǎo)致該方法無法遷移使用到其他結(jié)構(gòu)中。SoftLexicon通過使用BMES(begin,middle,end,single),在字序列上通過融合詞的不同交互位置的統(tǒng)計信息和詞語義信息,實現(xiàn)利用詞信息。這樣的方法使用了很多統(tǒng)計信息,而統(tǒng)計信息隨著訓(xùn)練數(shù)據(jù)量的降低,會降低模型準(zhǔn)確率。CGN(Collaborative Graph Network)[4]方法,構(gòu)建字詞的多種不同的鄰接圖,然后通過圖神經(jīng)網(wǎng)絡(luò),將詞信息融合進(jìn)入命名實體識別系統(tǒng),該方案因為構(gòu)建了多種圖結(jié)構(gòu),存在多次重復(fù)的交互計算,模型計算復(fù)雜,沒有充分利用圖神經(jīng)網(wǎng)絡(luò)能力。

本文在CGN模型基礎(chǔ)上通過改進(jìn)其鄰接圖的設(shè)計方法,融合其設(shè)計的不同的網(wǎng)絡(luò)結(jié)構(gòu),只構(gòu)建一個鄰接圖。進(jìn)一步利用SoftLexicon在領(lǐng)域數(shù)據(jù)上的詞統(tǒng)計信息的使用方法,構(gòu)建一個多種利用詞信息的模型方法。經(jīng)過在多個數(shù)據(jù)集上的測試,發(fā)現(xiàn)本文設(shè)計的方法達(dá)到當(dāng)前最佳模型系統(tǒng)效果。

2 ?模型結(jié)構(gòu)

本文設(shè)計的命名實體識別模型,利用兩種使用詞信息的方式,在不同角度上將詞信息和字詞關(guān)系融合進(jìn)入字表示,來增強模型的命名實體識別性能。首先使用Bert[2]預(yù)訓(xùn)練模型,對輸入字符進(jìn)行編碼得到字表示,然后使用SoftLexicon得到的字對應(yīng)的BMES詞表示,通過拼接方式融合到字表示中。然后改進(jìn)CGN使用字詞交互信息的方式,通過GAT(Graphs Attention[5])層將字詞相關(guān)矩陣和詞信息融合進(jìn)入字表示中,最后通過CRF層對編碼表示進(jìn)行解碼,得到命名實體識別標(biāo)簽序列。記本文設(shè)計的模型為Graph+Soft。

接下來,介紹模型詳細(xì)模塊結(jié)構(gòu),包括編碼模塊、SoftLexicon詞統(tǒng)計信息融合模塊和構(gòu)建字詞相關(guān)關(guān)系圖和字詞交互圖注意力網(wǎng)絡(luò)模塊。

2.1 ?編碼

設(shè)輸入序列S={c1,c2,…,cn}為輸入文本,ci為輸入文本序列的第i個字,通過編碼器將輸入序列編碼為特征序列X={x1,x2,…,xn}。

2.2 ?SoftLexicon

SoftLexicon方法在領(lǐng)域文本內(nèi)對詞典內(nèi)詞進(jìn)行詞頻統(tǒng)計,以用作將詞表示(word embedding)融合進(jìn)入字表示的融合權(quán)重。首先,獲得輸入序列的每個字的字表示(char embedding)。然后,構(gòu)建SoftLexicon特征,并拼接在字表示上,增強字表示。整體結(jié)構(gòu)如圖1所示(圖中實線框表示字或詞,虛線框代表與該字具有BMES交互位置相關(guān)的詞)。

對詞在數(shù)據(jù)集文本內(nèi)進(jìn)行詞頻統(tǒng)計,z(w)代表詞w在數(shù)據(jù)集中的出現(xiàn)次數(shù)。注意,如果w被另外一個詞覆蓋,則這個樣本內(nèi)w不進(jìn)行計數(shù)。

對每個詞ci搜索獲得文本內(nèi)對應(yīng)的所有匹配詞W(ci),然后將W(ci)根據(jù)ci在詞w中的位置BMES(開始,中間,結(jié)束,單個)分成四類,構(gòu)成四個詞序列WB(ci),WM(ci),WE(ci),WS(ci)。

獲得BMES序列后,以統(tǒng)計計數(shù)作為權(quán)重和詞表示,每個序列加權(quán)平均得到一個新的與字相關(guān)的融合表示,eW為詞向量表。BMES對應(yīng)的字相關(guān)詞信息的計算公式為:

(1)

(2)

將字表示和詞統(tǒng)計語義信息在特征維度上進(jìn)行拼接融合得到新的字表示:

(3)

2.3 ?GraphLexicon

在使用SoftLexicon方法通過BMES序列強化實體邊界和引入詞信息后,模型還通過字詞相關(guān)關(guān)系圖注意力網(wǎng)絡(luò)融合字詞信息,進(jìn)一步利用詞信息,即將字詞信息按照字詞間的關(guān)系以圖方式進(jìn)行交互,進(jìn)而實現(xiàn)將字詞間關(guān)系和詞信息融合進(jìn)入字序列表示。

CGN方法詳盡地描述了字詞之間的關(guān)系,但是由于每種關(guān)系分別進(jìn)行圖注意力計算,導(dǎo)致計算冗余,三種關(guān)系結(jié)果的拼接融合信息利用不充分。

本文設(shè)計GraphLexicon模塊,修改CGN方法,通過合并多種關(guān)系圖結(jié)構(gòu),將字與其所有有關(guān)的字和詞都構(gòu)建成為一個統(tǒng)一的相關(guān)關(guān)系圖,然后使用圖神經(jīng)網(wǎng)絡(luò)通過該相關(guān)關(guān)系圖將字相關(guān)的字和詞信息融合到字序列中,實現(xiàn)字詞相關(guān)融合,減少冗余計算,不用拼接融合不同的信息,提升圖結(jié)構(gòu)的使用效率,如圖2所示。

圖2中,字與字之間存在鄰接關(guān)系,字與詞之間存在鄰接關(guān)系、包含關(guān)系、邊界關(guān)系。這里實線代表字詞間的包含關(guān)系,虛線代表字詞間的鄰接關(guān)系,詞和字邊界的關(guān)系包含在了包含關(guān)系中,輸入字序列表示為Xci,長度為N,詞序列表示為XWi,長度為M,構(gòu)建成展平的表示序列F={XC,XW},長度為L=N+M。此時特征序列表示為F={f1,f2,…,fN+M},根據(jù)字詞相關(guān)關(guān)系圖構(gòu)建關(guān)系矩陣A,如果fi,fj存在關(guān)系,則Aij=1否則Aij=0 。

具體計算流程如式(4)~式(9)所示:

fih=Wfi ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (4)

att1=Repeat(α1fih,n=L,dim=-1) ? ? ? ? ? ?(5)

att2=Repeat(α2fih,n=L,dim=-1) ? ? ? ? ? ?(6)

att=att1+att2 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (7)

(8)

(9)

W,α1,α2為可訓(xùn)練參數(shù),W將特征維度Fin變換為Fout,α1,α2將特征加權(quán)平均計算得到權(quán)值,Repeat()為復(fù)制操作,在dim維度上,復(fù)制n份。

此時G∈RFOUT×(N+M),保留了融合后的字表示和詞表示。通過切片操作最終只保留融合信息后的字表示Q=G[:,0:N]。

至此,將字詞相關(guān)關(guān)系和詞表示XW通過字詞相關(guān)關(guān)系A(chǔ)ij融合進(jìn)入了字表示Xc中,經(jīng)過一個殘差層,強化字表示R=W1Xc+W2Q。

2.4 ?解碼

本文使用標(biāo)準(zhǔn)的CRF層來進(jìn)行序列標(biāo)簽解碼,給定一個句子S={c1,c2,…,cn},CRF層的輸入是R={r1,r2,…,rn},真實標(biāo)簽序列為Y={y1,y2,…,yn},其概率為:

(10)

其中,W yi為激發(fā)矩陣,T為轉(zhuǎn)移矩陣,使用Viterbi算法進(jìn)行解碼,來獲得得分概率最高的標(biāo)簽序列。

3 ?實驗

3.1 ?實驗設(shè)置

本文設(shè)置使用三個公開的中文命名實體識別數(shù)據(jù)集進(jìn)行測試實驗,分別是Weibo NER,MSRA NER和Resume NER。其中Weibo是社交領(lǐng)域的命名實體識別數(shù)據(jù)集,MSRA和Resume都是新聞領(lǐng)域命名實體識別數(shù)據(jù)集。進(jìn)行兩個對比實驗,分別實驗本文修改的GraphLexicon和Graph+Soft的準(zhǔn)確率和性能。本文在評價模型進(jìn)行命名實體識別任務(wù)的效果時,采取通用的查準(zhǔn)率和召回率結(jié)合之后的F1值指標(biāo),F(xiàn)1值越大,說明模型識別的效果越好。

3.2 ?實驗結(jié)果及分析

為了方便對比,由于SoftLexicon和CGN在原論文實現(xiàn)中,沒有使用Bert作為字表示的編碼器,本文Bert作為編碼器重新實現(xiàn)得到SoftLexicon-bert和CGN-bert模型。

GraphLexicon是本文設(shè)計修改了CGN的方法,以Bert為編碼器。

表1顯示了GraphLexicon和本文提出的Graph+Soft在三個數(shù)據(jù)集上和其他方法的對比結(jié)果。在三個數(shù)據(jù)集上,本文修改的GraphLexicon方法,相對于原始CGN-bert方法F1(%)值都有提升,對應(yīng)為3.63,0.62,0.08。本文提出的Graph+Soft,對比CGN-bert兩個方法F1(%)值分別提升5.03,1.76,0.05(CGN-bert)和4.55,1.90,0.39(SoftLexicon-bert)。結(jié)果顯示本文修改的GraphLexicon和本文提出的Graph+Soft命名實體識別模型結(jié)構(gòu),都達(dá)到了極高的準(zhǔn)確率(為更直觀體現(xiàn)對比結(jié)果,表1中各項最高值加粗表示)。

表1 ?GraphLexicon和Graph+Soft與其他方法在NER

數(shù)據(jù)集上進(jìn)行的對比實驗

表2GraphLexicon和Graph+Soft逐條測試1 000條文本所需時間對比顯示,GraphLexicon相對CGN-bert識別速度提升11.25%。同時對比表1GraphLexicon和Graph+Soft與其他方法在NER數(shù)據(jù)集上進(jìn)行的對比實驗中CGN-bert和GraphLexicon的實驗結(jié)果發(fā)現(xiàn),CGN-Bert原始設(shè)計的三個鄰接矩陣需要對三個不同的字詞關(guān)系圖,進(jìn)行三次字詞圖注意力網(wǎng)絡(luò)計算,耗時較大,并且識別結(jié)果交叉,說明計算性能不高,本文修改的使用統(tǒng)一的字詞相關(guān)關(guān)系圖進(jìn)行一次圖注意力網(wǎng)絡(luò)計算,不僅提升了模型準(zhǔn)確率,并且提升了模型效率。

表2 ?GraphLexicon和Graph+Soft逐條測試1 000條文本所需時間對比

4 ?結(jié) ?論

在本文工作中,我們?yōu)榱诉M(jìn)一步利用詞信息,從兩個角度使用詞信息融合進(jìn)入字表示中,并修改了CGN網(wǎng)絡(luò)方法,提升識別準(zhǔn)確率的同時,提升了模型性能。本文提出的模型結(jié)構(gòu)在詞信息的利用上簡單易用,后續(xù)可以輕易擴展到相關(guān)的自然語言處理任務(wù)上,例如信息抽取、事件抽取等序列標(biāo)記任務(wù)。

參考文獻(xiàn):

[1] DAVID N,SATOSHI S. A survey of named entity recognition and classification [J].Lingvistic Investigationes.International Journal of Linguistics and Language Resources,2007,30(1):3-26.

[2] DEVLIN J,CHANG M,KENTON L,et al. Bert:Pre-training of deep bidirectional transformers for language understanding.arXiv preprint arXiv:1810.04805.

[3] MA R,PENG M,ZHANG Q,WEI Z,et al. Simplify the Usage of Lexicon in Chinese NER [C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.2019:5951-5960.

[4] SUI D B,CHEN Y B,LIU K,et al. Leverage Lexical Knowledge for Chinese Named Entity Recognition via Collaborative Graph Network [C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP).Hong Kong:Association for Computational Linguistics,2019:3830-3840.

[5] VELI?KOVI? P,CUCURULL G,CASANOVA A,et al. Graph Attention Networks [J/OL].arXiv:1710.10903v1 [stat.ML].(2018-02-04).https://arxiv.org/abs/1710.10903v1.

作者簡介:郭鵬(1988—),男,漢族,河南信陽人,總工程師,碩士研究生,研究方向:無線通信,人工智能;劉俊南(1990—),男,漢族,天津人,中級軟件工程師,本科,研究方向:語音識別,自然語言處理。

猜你喜歡
命名實體模型
自制空間站模型
實體錢
有一種男人以“暖”命名
2017實體經(jīng)濟領(lǐng)軍者
模型小覽(二)
重振實體經(jīng)濟
圓周運動與解題模型
離散型隨機變量分布列的兩法則和三模型
淺析新課程標(biāo)準(zhǔn)下《苯的同系物的命名》
過足官癮
武宣县| 平山县| 南阳市| 雅安市| 临沭县| 财经| 易门县| 巨野县| 沈阳市| 新野县| 中卫市| 庄河市| 胶州市| 通州区| 依兰县| 自贡市| 灵山县| 镇平县| 金寨县| 东兰县| 三门峡市| 宾川县| 喀什市| 海口市| 辰溪县| 崇阳县| 溧水县| 富蕴县| 资源县| 宝清县| 扶风县| 永泰县| 元氏县| 康定县| 阳山县| 中卫市| 建平县| 镇雄县| 盐边县| 枝江市| 泗水县|