王騰科,朱廣麗+,李瀚臣,劉云朵,張順香
(1.安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001; 2.合肥綜合性國(guó)家科學(xué)中心 人工智能研究院,安徽 合肥 230088)
中文專利主要由非結(jié)構(gòu)化的文本數(shù)據(jù)組成,對(duì)中文專利文本進(jìn)行命名實(shí)體識(shí)別(named entity recognition,NER)研究可以促進(jìn)專利行業(yè)中專利審查[1]、專利檢索[2]和專利主題挖掘[3]等相關(guān)技術(shù)發(fā)展,為行業(yè)加快信息化和智能化奠定基礎(chǔ)[4]。中文專利文本包含大量專業(yè)詞匯,這些專業(yè)詞匯語義豐富,信息量大。為了豐富文本特征表示,大多數(shù)模型通過修改模型結(jié)構(gòu)來融合詞信息,但在融合過程中詞內(nèi)字符和邊界字符的位置信息未得到充分利用,難以區(qū)分相同字符在詞首和詞尾的特征差異。
為了利用詞信息提高中文專利命名實(shí)體識(shí)別的準(zhǔn)確率,需要考慮以下幾點(diǎn):①如何利用字詞位置關(guān)系信息優(yōu)化字詞融合,從而豐富文本特征表示;②如何利用字詞融合后的文本特征表示來提高專利實(shí)體識(shí)別準(zhǔn)確率。
基于上述考慮,提出一種基于字詞融合和多頭注意力的專利實(shí)體識(shí)別模型(CWMA),用于提高中文專利實(shí)體識(shí)別的準(zhǔn)確率。該模型主要通過構(gòu)建詞集來區(qū)分詞首、詞內(nèi)和詞尾3種位置關(guān)系,再以拼接的方式融合字詞語義,從而豐富文本特征表示;并且借助多頭注意力調(diào)整權(quán)重來捕獲上下文的重要信息,增強(qiáng)模型的特征提取能力。
專利實(shí)體識(shí)別是指從專利文獻(xiàn)中識(shí)別反映技術(shù)特點(diǎn)的命名實(shí)體。目前的研究方法可分為基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。
基于機(jī)器學(xué)習(xí)的方法將NER轉(zhuǎn)化為序列標(biāo)注任務(wù)。陳偉等[5]利用維特比算法識(shí)別專利實(shí)體,但是隨著文本長(zhǎng)度的增加,算法復(fù)雜度會(huì)隨之增加。Arora等[6]使用支持向量機(jī)(support vector machine,SVM)對(duì)不同類型的損失分配權(quán)重來提高性能,但是SVM面對(duì)大規(guī)模數(shù)據(jù)的處理能力不佳。Xu等[7]結(jié)合多特征和CRF對(duì)產(chǎn)品評(píng)論文本進(jìn)行半監(jiān)督學(xué)習(xí),CRF[8]不僅能較好地捕獲全局上下文信息,而且對(duì)大規(guī)模數(shù)據(jù)的處理能力較強(qiáng)。Jang等[9]通過句法結(jié)構(gòu)分析處理專利數(shù)據(jù),從名詞短語和SAO(subject action object)結(jié)構(gòu)中獲得候選實(shí)體,并通過中心性指標(biāo)來評(píng)判候選實(shí)體的重要性,進(jìn)而識(shí)別專利實(shí)體?;跈C(jī)器學(xué)習(xí)的方法因依賴特征工程建設(shè)而需要消耗大量人力成本。
隨著神經(jīng)網(wǎng)絡(luò)的火熱,基于深度學(xué)習(xí)的方法在NER中廣受歡迎。雙向門控循環(huán)單元BiGRU[10]在NER中常用于處理長(zhǎng)距離的上下文信息。An等[11]引入多頭注意力來學(xué)習(xí)文本的全局信息和多層次語義特征,用于增強(qiáng)特征表示的多樣性。近年來,在中文命名實(shí)體識(shí)別(Chinese named entity recognition,CNER)中引入詞信息被驗(yàn)證是有效的。面向中文生物專利文本,Saad等[12]發(fā)現(xiàn)使用字和詞的聯(lián)合嵌入方法要優(yōu)于僅使用詞嵌入的方法。Zhang等[13]利用Lattice結(jié)構(gòu)將詞信息嵌入到字符嵌入向量中,但將模型輸入從鏈?zhǔn)叫蛄修D(zhuǎn)化為圖結(jié)構(gòu)的方法,會(huì)增加模型的計(jì)算成本。Liu等[14]在Latticce基礎(chǔ)上,將詞信息編碼成一個(gè)固定大小的向量,優(yōu)化模型的計(jì)算復(fù)雜度,在Resume數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了95.27%。羅藝雄等[15]融合字符、拼音、五筆等特征,在自建新能源領(lǐng)域?qū)@麛?shù)據(jù)集上的準(zhǔn)確率達(dá)到了90.58%。
從上述研究中發(fā)現(xiàn),字詞融合在CNER中能取得較好的成果,但是在面向?qū)@谋緯r(shí),準(zhǔn)確率顯著下降。本文通過依據(jù)字詞之間的位置關(guān)系來優(yōu)化字詞融合過程,用于豐富文本特征表示,并利用多頭注意力增強(qiáng)字符之間的依賴關(guān)系,從而提高專利實(shí)體識(shí)別的準(zhǔn)確率。
(1)
基于字符在詞中位置,為字符構(gòu)造詞首、詞內(nèi)、詞尾3種詞集,將包含該字符的潛在詞劃分到不同詞集,用于表示同一個(gè)字符在不同位置所表達(dá)的語義信息。詞集的構(gòu)建如圖1所示。
圖1 詞集構(gòu)建方法
定義1 詞首、詞內(nèi)和詞尾3種詞集。設(shè)P(ci) 表示以字符ci為開頭的詞wi,j集合,即詞首詞集;M(ck) 表示字符ck在其內(nèi)部的詞wi,j集合(其中i P(ci)={wi,k,?wi,k∈L,i (2) M(ci)={wi,k,?wi,k∈L,1≤j (3) S(ci)={wj,i,?wj,i∈L,1≤j (4) 其中,L表示詞典,該詞典是在CTB(Chinese Treebank 6.0)語料庫(kù)上訓(xùn)練得到的。如果詞集為空,即無匹配詞,則會(huì)在詞集中添加特殊詞“None”。 定義2 加權(quán)求和方法。加權(quán)求和法依據(jù)詞的頻率來調(diào)整權(quán)重,對(duì)詞集內(nèi)的詞進(jìn)行加權(quán)求和。設(shè)z(w) 表示詞w在數(shù)據(jù)樣本中的頻率。其中Z表示字符的3種詞集中所有詞頻的總和,如式(5)所示,其中P、M和S是與字符ci相關(guān)的3種詞集的簡(jiǎn)寫 (5) 設(shè)v(S) 表示詞集S的詞向量,詞集S的加權(quán)求和過程如式(6)所示,其中ew(w) 表示由Word2Vec訓(xùn)練得到的詞向量 (6) 基于位置關(guān)系的字詞融合方法先構(gòu)建詞集,隨后將詞集編碼成固定大小的詞向量,再與字向量進(jìn)行拼接融合得到嵌入向量,其過程如圖2所示。 圖2 基于位置關(guān)系的字詞融合方法 首先,構(gòu)造當(dāng)前字符ci的詞集P(ci)、M(ci) 和S(ci), 依據(jù)字符在詞中位置,將詞分配到對(duì)應(yīng)詞集?;赪ord2Vec技術(shù)得到詞向量,依據(jù)詞頻對(duì)詞集內(nèi)所有詞向量進(jìn)行加權(quán)求和,將詞集的詞信息壓縮到一個(gè)固定維度的詞向量?jī)?nèi),獲得v(P)、v(M) 和v(S)。 最終將3種詞向量拼接后得到與當(dāng)前字符相關(guān)的詞向量v(ci), 如式(7)所示 v(ci)=[v(P);v(M);v(S)] (7) 最后,把字符的詞向量拼接在字符的字向量之后得到嵌入向量xi,如式(8)所示 (8) 算法1:融合字詞信息的文本特征表示算法。 輸入:輸入的文本字符序列C={c1,c2,…,cn}, 數(shù)據(jù)集dataset; 輸出:嵌入向量序列X={x1,x2,…,xn}; (2)forcinC (3) build word sets (P(c),M(c),S(c)) (4)end for (5)forcinC (6)xc=BERT(c) (7)v(P),v(M),v(S) = WeightedSum(P(c),M(c),S(c),Dict) (8)x=concatenate(v(P);v(M);v(S);v(c)) (9)end for (10)returnX={x1,x2,…,xn} 算法說明:算法1依據(jù)字詞位置關(guān)系,融合字詞獲得嵌入向量,作為文本特征表示。首先,步驟(1)是基于數(shù)據(jù)集文本統(tǒng)計(jì)詞頻;步驟(2)~步驟(4)是為每一個(gè)字符c構(gòu)建3種詞集P(c),M(c),S(c); 步驟(5)~步驟(9)是由預(yù)訓(xùn)練模型獲取每一個(gè)字符的字向量xc和詞集向量v(c), 具體方法如式(1)和式(6)所示,步驟(8)是通過拼接融合字詞語義信息,最后步驟(10)返回嵌入向量序列作為文本特征表示X。 假設(shè)輸入序列的長(zhǎng)度為n,構(gòu)建詞集的過程需要遍歷輸入序列,時(shí)間復(fù)雜度為O(n);獲取字向量和詞向量時(shí)間復(fù)雜度都為O(n)。綜上所述,算法總體復(fù)雜度為O(n)。 CWMA模型的如圖3所示,整體結(jié)構(gòu)自下而上分為4部分:①文本特征表示,通過基于位置關(guān)系的字詞融合方法得到文本特征向量;②上下文信息提取,利用BiGRU編碼器從文本特征向量中獲取上下文信息;③多頭注意力,利用多頭注意力調(diào)整上下文信息的權(quán)重來增強(qiáng)字符之間的依賴關(guān)系;④標(biāo)簽解碼,依據(jù)相鄰標(biāo)簽之間的制約關(guān)系對(duì)輸出進(jìn)行解碼并生成實(shí)體標(biāo)簽。 專利文本的語句長(zhǎng)度較長(zhǎng),使用傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN會(huì)出現(xiàn)梯度爆炸和梯度消失的問題。GRU憑借門控結(jié)構(gòu)可以過濾傳輸信息,極大緩解這類問題。對(duì)于給定輸入嵌入向量X={x1,x2,…,xn}, 每個(gè)時(shí)刻t中各單元的隱藏狀態(tài)ht計(jì)算如式(9)~式(12)所示 zt=σ(Wz[ht-1,xt]) (9) rt=σ(Wr[ht-1,xt]) (10) hct=tanh(Wh[rtht-1,xt]) (11) (12) 其中,zt和rt分別是t時(shí)刻更新門和重置門的狀態(tài);hct為t時(shí)刻候選隱藏層的狀態(tài);ht為t時(shí)刻隱藏層的狀態(tài);Wz、Wr、Wh為狀態(tài)更新時(shí)的權(quán)重矩陣。 面向?qū)@谋緯r(shí),采用BiGRU實(shí)現(xiàn)前后文的交互,使模型能捕獲序列中每個(gè)字符對(duì)于當(dāng)前字符的關(guān)聯(lián)語義。BiGRU通過構(gòu)造正反兩個(gè)方向的GRU隱藏層,得到隱藏信息輸出ht如式(13)~式(15)所示 (13) (14) (15) 雖然通過BiGRU編碼器可以獲取語句中上下文信息,但是無法突出上下文的關(guān)鍵信息。上下文中不同的字符對(duì)當(dāng)前字符的關(guān)聯(lián)依賴程度是不同的,而BiGRU編碼器只能對(duì)信息進(jìn)行保留和刪除。本文引入多頭注意力來克服BiGRU對(duì)上下文信息權(quán)重分配單一的問題。注意力機(jī)制先通過目標(biāo)向量Q和上下文信息向量K進(jìn)行相似度計(jì)算得到注意力權(quán)重,依據(jù)權(quán)重來重構(gòu)原始向量V,得到新向量。計(jì)算如式(16)所示,其中Attention(Q,K,V) 是重構(gòu)后的V向量 (16) 式中:dk是目標(biāo)向量Q和上下文信息向量K的維度。多頭注意力多用于獲取文本的多重特征,表示多個(gè)字符之間的依賴關(guān)系。利用訓(xùn)練后的權(quán)重矩陣對(duì)Q、K、V進(jìn)行k次映射,將表示不同特征的結(jié)果拼接得到字符的最終特征表示向量b,多頭注意力的計(jì)算公式如式(17)、式(18)所示 (17) b=Concat(head1,head2,…,headk)WO (18) BiGRU編碼器的輸出序列H={h1,h2,…,hn}, 經(jīng)過多頭注意力調(diào)整權(quán)重來增強(qiáng)字符之間的緊密關(guān)系后生成序列B={b1,b2,…,bn}。 使用CRF對(duì)經(jīng)BiGRU和多頭注意力處理后的編碼序列B={b1,b2,…,bn} 進(jìn)行解碼,生成標(biāo)簽序列Y={y1,y2,…,yn} 的概率計(jì)算過程如式(19)所示 (19) loss=-log(P(Y|S)) (20) 表1 CCP數(shù)據(jù)集中各類實(shí)體數(shù)量 采取準(zhǔn)確率P、召回率R和綜合評(píng)估指標(biāo)F1作為實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn),如式(21)~式(23)所示 (21) (22) (23) 其中,TP是邊界和類別都被預(yù)測(cè)準(zhǔn)確的實(shí)體數(shù)量;FP是邊界或類別被識(shí)別錯(cuò)誤的實(shí)體數(shù)量;FN是沒有被識(shí)別的實(shí)體數(shù)量。 為了驗(yàn)證模型CWMA的有效性,對(duì)以下6種模型在兩個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。 ①BiLSTM-CRF:結(jié)合BiLSTM和CRF的經(jīng)典神經(jīng)網(wǎng)絡(luò)模型。②BiGRU-CRF:在①的基礎(chǔ)上使用BiGRU替換BiLSTM。③BiGRU-MA-CRF:在②中,引入多頭注意力在BiGRU和CRF之間,在獲得上下文信息后,利用多頭注意力用于捕獲字符間依賴關(guān)系。④Lattice-LSTM[13]:構(gòu)建Lattice-LSTM神經(jīng)網(wǎng)絡(luò)將詞信息嵌入到詞尾字符中用于豐富文本表示。⑤CAN-NER[16]:使用基于字符的卷積神經(jīng)網(wǎng)絡(luò)來捕獲語句中潛在詞信息,再利用GRU和全局注意力獲取全局上下文信息。⑥CWMA:本文提出的模型。 模型的訓(xùn)練環(huán)境主要由處理器i5-12400F和顯卡NVIDIA GeForce RTX 3060構(gòu)成,使用的PyTorch版本為1.11.0。在訓(xùn)練過程中,使用bert-base-chinese(https://huggingface.co/bert-base-chinese)生成維度為768的字向量,使用Word2Vec生成維度為40的詞集向量。訓(xùn)練的初始學(xué)習(xí)率設(shè)置為0.0015,模型優(yōu)化采用Adam。 在專利文本的實(shí)驗(yàn)中,考慮到摘要文本長(zhǎng)度普遍在300字左右的特點(diǎn),相較于面向Resume數(shù)據(jù)集的模型輸入的最大序列長(zhǎng)度250,在面向CCP數(shù)據(jù)集的實(shí)驗(yàn)中設(shè)置最大序列長(zhǎng)度為350。 實(shí)驗(yàn)一:CWMA模型在公共數(shù)據(jù)集上的有效性驗(yàn)證。6種模型在Resume數(shù)據(jù)集上的結(jié)果見表2。 表2 各模型在Resume數(shù)據(jù)集上的結(jié)果對(duì)比 從表2中可以看出,本文提出的CWMA模型表現(xiàn)的性能最優(yōu),在準(zhǔn)確率、召回率和F1值3個(gè)指標(biāo)上都達(dá)到了最優(yōu),分別是95.82%、95.35%和95.59%。對(duì)比前3個(gè)模型的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),BiGRU的性能優(yōu)于BiLSTM,并且引入多頭注意力機(jī)制能提高模型的性能。其中,后3個(gè)模型代表字詞融合方法,其模型性能要優(yōu)于前3個(gè)代表字粒度的模型,對(duì)于中文命名實(shí)體識(shí)別,字詞融合方法可以為字粒度模型提供更豐富的語義信息,獲得更優(yōu)的性能。同時(shí),在3個(gè)字詞融合模型中CWMA的實(shí)驗(yàn)結(jié)果是最優(yōu)的,在字詞融合過程中考慮字與詞的位置關(guān)系,并依據(jù)位置關(guān)系訓(xùn)練詞集向量,能夠更好地表示文本語義。 實(shí)驗(yàn)二:CWMA模型在專利數(shù)據(jù)集上的有效性驗(yàn)證。6種模型在CCP數(shù)據(jù)集上的結(jié)果見表3。 比較表2和表3的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn):面向?qū)@谋镜拿麑?shí)體識(shí)別更具有挑戰(zhàn)性,相同模型在專利數(shù)據(jù)集上的3個(gè)指標(biāo)都低于Resume數(shù)據(jù)集。但是相較于BiGRU-CRF,在專利數(shù)據(jù)上的CWMA模型準(zhǔn)確率提高了11.36%,大于在Resume數(shù)據(jù)上所提升的2.08%。驗(yàn)證了字詞融合方法在專利實(shí)體識(shí)別的性能提升更顯著。這是因?yàn)閷@写嬖诖罅坑啥鄠€(gè)詞組成的復(fù)雜實(shí)體,例如:“三維圖像框架數(shù)據(jù)庫(kù)”等,依據(jù)位置信息構(gòu)建詞集可以有效地區(qū)分不同詞對(duì)當(dāng)前字符的影響,從而提高模型的準(zhǔn)確率。而相比CAN-NER,CWMA在專利數(shù)據(jù)上在3個(gè)指標(biāo)上分別提高了3.96%、3.68%和3.83%??傮w而言,提出的CWMA模型在實(shí)驗(yàn)中表現(xiàn)最好,對(duì)專利實(shí)體識(shí)別提升幅度大。 表3 各模型在CCP數(shù)據(jù)集上的結(jié)果對(duì)比 為了研究模型各組成部分的貢獻(xiàn),在CCP數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4和圖4所示。 表4 在CCP數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果 圖4 消融實(shí)驗(yàn)結(jié)果 本文對(duì)字詞融合方法的3個(gè)步驟以及模型中的多頭注意力機(jī)制進(jìn)行消融實(shí)驗(yàn)。其中,Exper0表示本文提出的CWMA模型;Exper1的“-PMS”表示在CWMA模型上去除構(gòu)建詞集的步驟,只對(duì)詞進(jìn)行加權(quán)求和;Exper2的“-M”表示在CWMA模型的嵌入向量中不引入M詞集,只融合B和E詞集;Exper3的“均值法”表示不引入詞頻信息,使用均值法取代CWMA模型的加權(quán)求和法;Exper4表示在CWMA模型中去除多頭注意力模塊。 Exper1、Exper2、Exper3分別驗(yàn)證了字詞融合方法中的3個(gè)步驟都能豐富文本特征表示。其中構(gòu)建詞集的步驟對(duì)于模型影響最大,分別下降了5.77%、8.03%和6.86%,在字詞融合中考慮字與詞之間的位置信息能有效提高模型性能。在對(duì)比實(shí)驗(yàn)中LatticeLSTM未給詞內(nèi)字符融合相關(guān)詞信息,而本文引入M詞集能夠緩解詞內(nèi)字符丟失詞信息的問題。同時(shí),加權(quán)求和法優(yōu)于均值法的結(jié)果證明依據(jù)統(tǒng)計(jì)數(shù)據(jù)中的詞頻是有效的。 Exper4驗(yàn)證了多頭注意力對(duì)CWMA模型有著明顯的提升。去除多頭注意力后,3種指標(biāo)分別下降了3.72%、5.22%和4.44%,表明使用多頭注意力能有效地關(guān)注到語句中字符之間的依賴關(guān)系。 本文提出的基于字詞融合和多頭注意力的專利實(shí)體識(shí)別模型CWMA,依據(jù)字符在詞中位置信息進(jìn)行拼接融合字詞語義信息,獲取了更完整的文本表示特征,并結(jié)合BiGRU和多頭注意力共同對(duì)文本特征進(jìn)行提取,提高了專利實(shí)體識(shí)別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,利用字符在詞中位置來豐富文本表示和增強(qiáng)字符之間依賴關(guān)系對(duì)于中文命名實(shí)體識(shí)別是有必要的。未來工作將考慮在模型中引入自動(dòng)識(shí)別技術(shù)詞的機(jī)制來緩解詞典的滯后性問題。2.3 基于位置關(guān)系的字詞融合
3 基于字詞融合和多頭注意力的專利實(shí)體識(shí)別模型
3.1 文本特征表示
3.2 上下文信息提取
3.3 多頭注意力
3.4 標(biāo)簽解碼
4 實(shí)驗(yàn)與結(jié)果分析
4.1 數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)
4.2 實(shí)驗(yàn)方法和模型參數(shù)
4.3 對(duì)比實(shí)驗(yàn)
4.4 消融實(shí)驗(yàn)
5 結(jié)束語