秦煜峰,劉 爽
(大連民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧 大連 116650)
近些年來電子商務(wù)在國內(nèi)飛速發(fā)展,淘寶、京東、拼多多等電商已經(jīng)成為人們購物的不二選擇[1]。隨著電商熱潮的到來,如何從海量異構(gòu)的商品信息中提取有效的實(shí)體,為構(gòu)建精準(zhǔn)的推薦、搜索和智能客服系統(tǒng)提供數(shù)據(jù)基礎(chǔ)成為熱點(diǎn)話題。
命名實(shí)體識別(Named Entity Recognition,NER),是指在給定文本中識別出具有特定意義的字或詞[2],并將這些特殊字詞映射到預(yù)先設(shè)定好的類別中。目前被廣泛的應(yīng)用在信息檢索[3]、自動問答系統(tǒng)[4]、機(jī)器翻譯[5]以及知識圖譜構(gòu)建[6]等大型自然語言處理應(yīng)用系統(tǒng)中。
目前,命名實(shí)體識別方法大致可分為三類:(1)基于規(guī)則匹配的方法,依賴手工規(guī)則的協(xié)同,根據(jù)文本語法的特點(diǎn)以及實(shí)體的結(jié)構(gòu)建立匹配模板,并利用建立好的模板進(jìn)行實(shí)體匹配和提取。但是基規(guī)則的方法,通常需要根據(jù)不同的語言風(fēng)格和應(yīng)用領(lǐng)域制定不同的匹配規(guī)則,需要耗費(fèi)大量的時(shí)間成本。 (2)基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,是指利用大規(guī)模已經(jīng)標(biāo)注好的語料來學(xué)習(xí)出標(biāo)注模型,對句子的每個(gè)位置進(jìn)行標(biāo)注,常見的模型有生成式模型隱馬爾可夫 (Hidden Markov Models,HMM) 模型[7]和判別式模型條件隨機(jī)場 (Conditional Random Field,CRF) 模型[8]。兩種模型中CRF模型的應(yīng)用更為廣泛,CRF是一個(gè)序列標(biāo)注模型,它的目標(biāo)函數(shù)不僅考慮輸入的狀態(tài)特征函數(shù),而且還包含了標(biāo)簽轉(zhuǎn)移特征函數(shù)[9]。CRF的優(yōu)點(diǎn)在于其為一個(gè)位置進(jìn)行標(biāo)注的過程中可以利用豐富的內(nèi)部及上下文特征信息,可以充分考慮詞與詞之間的依賴關(guān)系,克服了HMM模型輸出獨(dú)立行假設(shè)帶來的缺陷。(3)基于深度學(xué)習(xí)的方法,隨著硬件計(jì)算能力的發(fā)展以及詞的分布式表示(word embedding)的提出,神經(jīng)網(wǎng)絡(luò)已經(jīng)在多種大型自然語言處理任務(wù)中得到應(yīng)用[10]。Hammertond等人[11]首次使用長短期記憶模型(Long Short Term Memory,LSTM)進(jìn)行命名實(shí)體識別任務(wù)。Chiu等人[12]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)應(yīng)用于序列標(biāo)注問題中,并取得了當(dāng)時(shí)最好的結(jié)果。Strubell 等人提出使用迭代膨脹卷積神經(jīng)網(wǎng)絡(luò)(Iterated dilated Convolutional Neural Network,IDCNN)進(jìn)行英文命名實(shí)體識別任務(wù),Devlin等人[13]提出了BERT預(yù)訓(xùn)練模型,將語義信息融入了詞向量,提高了命名實(shí)體識別任務(wù)的總體效果。楊飄等人[14],結(jié)合BERT預(yù)訓(xùn)練模型,使用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)和條件隨機(jī)場方法進(jìn)行命名實(shí)體識別,在多個(gè)數(shù)據(jù)集上均取得很好的成績。蘇劍林[15]在BERT的基礎(chǔ)上提出Rotary Transformer(RoFormer)預(yù)訓(xùn)練模型,為Transformer結(jié)構(gòu)設(shè)計(jì)了新的旋轉(zhuǎn)式位置編碼(Rotary Position Embedding,RoPE),RoPE具有良好的理論性質(zhì),是目前唯一一種可以應(yīng)用到線性Attention的相對位置編碼,得益于新的位置編碼方式RoFormer在多項(xiàng)中文NLP任務(wù)中均超越BERT。
鑒于RoFormer的良好性能,本文將RoFormer引入到命名實(shí)體識別任務(wù)中,并使用BiLSTM和IDCNN分別對輸入文本進(jìn)行特征提取,此外,為了提高模型對有用字詞的關(guān)注能力,本文還引用了多頭注意力機(jī)制。最后通過,CRF對電商領(lǐng)域?qū)嶓w進(jìn)修正并輸出,該模型能充分利用詞的語義和位置信息,實(shí)驗(yàn)結(jié)果也表明,本文所提出的融合注意力機(jī)制的RoFormer-BiLSTM-IDCNN-CRF電商領(lǐng)域命名實(shí)體識別模型具有更高的優(yōu)越性。
本文所使用數(shù)據(jù)來自京東平臺商品信息的自建數(shù)據(jù)集,因?yàn)樵紨?shù)據(jù)并不規(guī)范其中存在大量的HTML標(biāo)簽,所以需要使用正則表達(dá)式對數(shù)據(jù)進(jìn)行清洗,獲取規(guī)范的數(shù)據(jù)。
本文針對電商商品信息語料中的4類實(shí)體,采用BIO標(biāo)注模式對文本中的實(shí)體進(jìn)行標(biāo)注,B表示實(shí)體的第一個(gè)字符,I表示實(shí)體的中間或最后一個(gè)字符,O表示其他字符或者非規(guī)定范圍內(nèi)的實(shí)體字符[16]。B-HCCX和I-HCCX分別代表商品的開頭和中間字符;B-MISC和I-MISC代表商品產(chǎn)地的開頭和中間字符;B-HPPX和I-HPPX代表商品的品牌的開頭和中間字符;B-XH和I-XH代表商品規(guī)格的開頭和中間字符。序列標(biāo)注樣例見表1。
表1 序列標(biāo)注樣例
該數(shù)據(jù)集共有8 006條,并按照6:1:1的比例劃分訓(xùn)練集、驗(yàn)證集和測試集,各類實(shí)體統(tǒng)計(jì)見表2。
表2 電商數(shù)據(jù)實(shí)體統(tǒng)計(jì)
針對自建的電商商品信息數(shù)據(jù)集,本文采用融合多頭注意力機(jī)制的RoFormer-BiLSTM-IDCNN-CRF網(wǎng)絡(luò)模型結(jié)構(gòu)做命名實(shí)體識別任務(wù)如圖1。模型主要由RoFormer預(yù)訓(xùn)練模型、BiLSTM與IDCNN特征提取融合層、多頭注意力機(jī)制層和CRF推理層組成。
圖1 命名實(shí)體識別模型結(jié)構(gòu)
模型使用RoFormer所提供的字典將字映射為單字ID,再通過RoFormer完成詞嵌入,獲得動態(tài)詞向量,將RoFormer輸出的詞向量輸入到BiLSTM和IDCNN中,分別進(jìn)行特征提取,得到序列的特征表示,再將提取到的特征通過拼接方式進(jìn)行融合,輸入到多頭注意力層中,進(jìn)一步提取對于序列標(biāo)注具有關(guān)鍵作用的特征,最后,利用CRF對注意力層的輸入進(jìn)行解碼并輸出,獲得每個(gè)字的序列標(biāo)注。
本文所提出的模型,具有三方面的優(yōu)勢,首先,使用RoFormer中文預(yù)訓(xùn)練模型,相較于BERT預(yù)訓(xùn)練模型,同級別的RoFormer得益于其獨(dú)特的位置編碼能夠獲得更豐富的字詞特征。其次,BiLSTM可以獲取到輸入句子中字詞的上下文特征,但是會忽略掉一部分的局部特征,而IDCNN則可以很好的提取到局部特征,將BiLSTM和IDCNN進(jìn)行特征融合,可以提高模型特征提取的能力。最后引入多頭注意力機(jī)制,可以強(qiáng)化關(guān)鍵特征,進(jìn)一步提升了模型的整體效果。
RoFormer由蘇劍林團(tuán)隊(duì)于2020年3月發(fā)布,相較于谷歌團(tuán)隊(duì)發(fā)布的BERT,RoFormer主要在字的位置編碼上做了改進(jìn)。在BERT中采用正余弦位置編碼,這種方式是Vaswani等人[17]提出并用在Transformer模型中,其位置編碼方式為
PE(pos,2i+1)=sin(pos/100002i/dmodel),
(1)
PE(pos,2i+1)=cos(pos/100002i/dmodel)。
(2)
其中,pos代表當(dāng)前詞在句子中的位置,i指向量中每個(gè)值的index,在偶數(shù)位置使用正弦編碼,在奇數(shù)位置,使用余弦編碼[18]。這種編碼形式屬于絕對位置編碼不能考慮到句子中詞與詞之間的位置關(guān)系。
通過分析相對位置編碼和絕對位置編碼的優(yōu)缺點(diǎn),蘇劍林團(tuán)隊(duì)提出了旋轉(zhuǎn)位置編碼(Rotary Position Embedding,RoPE),二維情況下用復(fù)數(shù)表示的RoPE計(jì)算方式如下:
(3)
根據(jù)復(fù)數(shù)乘法的幾何意義,上式變換實(shí)際上對應(yīng)著向量的旋轉(zhuǎn),它還可以寫成矩陣的形式。
(4)
將二維向量推導(dǎo)致n維可以得到RoPE在維情況下的公式如下:
(5)
通過上述公式發(fā)現(xiàn)給位置m的向量n乘上矩陣Rm、位置n的向量k乘上矩陣Rn,變換后的Q,K序列做Attention,那么Attention就自動包含相對位置新信息。RoPE是一種配合Attention機(jī)制能達(dá)到“絕對位置編碼的方式實(shí)現(xiàn)相對位置編碼效果”的設(shè)計(jì)。RoFormer和其他模型位置編碼對比見表3。
在短文本任務(wù)上RoFormer預(yù)訓(xùn)練模型和WoBERT預(yù)訓(xùn)練模型表現(xiàn)類似,而在長文本任務(wù)中,RoFormer得益于旋轉(zhuǎn)位置編碼,其表現(xiàn)要優(yōu)于其他預(yù)訓(xùn)練模型。
表3 預(yù)訓(xùn)練模型位置編碼對比
長短期記憶神經(jīng)網(wǎng)絡(luò)[19](long short-term memory,LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neutural Network,RNN)[20],相較于普通的RNN,LSTM引入了細(xì)胞狀態(tài),有效的解決了長序列在訓(xùn)練過程中出現(xiàn)的梯度消失和梯度爆炸的問題[21],因此LSTM在處理長文本的問題上有更好的表現(xiàn)。
同其他的循環(huán)神經(jīng)網(wǎng)絡(luò)一樣,LSTM也具有鏈?zhǔn)浇Y(jié)構(gòu), LSTM由四個(gè)門控單元組成,它們分別是輸入門、遺忘門、輸出門和記憶控制器。LSTM模型結(jié)構(gòu)如圖2。
圖2 LSTM模型結(jié)構(gòu)
LSTM單元具體實(shí)現(xiàn)方程組為
ft=σ(Wf·[ht-1,xt]+bf),
(6)
it=σ(Wi·[ht-1,xt]+bi),
(7)
(8)
Qt=σ(Wo[ht-1,xt]+bo),
(9)
(10)
ht=ot*tanh(Ct)。
(11)
式中:ft為遺忘門,決定將那部分信息從細(xì)胞狀態(tài)中舍去;it為輸入門,決定將多少信息加入到細(xì)胞狀態(tài)中;ot為輸出門,決定最終輸出的值。
LSTM只能計(jì)算上文的信息,對下文的信息不能考慮在內(nèi),所以采用BiLSTM模型如圖3,即兩層的LSTM結(jié)構(gòu),在計(jì)算過程中,同時(shí)將序輸入到正向和反向的LSTM中,對同一時(shí)刻的輸出結(jié)果合并,樣就能充分獲得輸入序列的上下文信息。
圖3 BiLSTM模型結(jié)構(gòu)
迭代膨脹卷積神經(jīng)網(wǎng)絡(luò)(Iterated Dilated Convolutional Neural Network,IDCNN)是由多層膨脹卷積神經(jīng)網(wǎng)絡(luò)[22](Dilated Convolutional Neural Network ,DCNN)組成,其目的是擴(kuò)大感受野,盡可能多的提取有用的特征。膨脹卷積網(wǎng)絡(luò)通過增加膨脹度,來增大卷積核尺寸進(jìn)而增加了感受野[23]如圖4。a的卷積核和感受野均為3×3,接著將a中卷積的膨脹寬度設(shè)為2,得到了的3×3大小的卷積核b,其感受野為7×7。而IDCNN通過DCNN的逐層疊加,其感受野也呈指數(shù)增長,因此能更加充分提取文本的局部特征,對BiLSTM起到補(bǔ)充的作用。
a)膨脹度為1 b)膨脹度為2圖4 膨脹卷積示意圖
多頭注意力機(jī)制(Multi-head attention)可以讓模型更加關(guān)注重點(diǎn)信息,隨著輸入序列的不斷增長,會帶來一定的信息損失,將多頭注意力機(jī)制作用于BiLSTM和IDCNN的融合序列,可以增加對分類有意義特征的權(quán)重,減小無關(guān)特征的權(quán)重,從而提高模型輸出的準(zhǔn)確率。多頭注意力機(jī)制結(jié)構(gòu)圖如圖5。
對于融合后的特征進(jìn)行線性變換,生成Q(query)、K(key)和V(value)三個(gè)向量,注意力權(quán)重計(jì)算公式如下:
(12)
其中,dk表示矩陣K的維度,將Q,K點(diǎn)乘后通過softmax函數(shù)進(jìn)行歸一化處理,再與V相乘即可得到注意力權(quán)重。
圖5 多頭注意力機(jī)制結(jié)構(gòu)圖
訓(xùn)練好的權(quán)重參數(shù)Q,K,V乘上Wo進(jìn)行線性轉(zhuǎn)換,即可得到最終的多頭注意力值。對于head數(shù)為h的注意力值計(jì)算如公式如下所示:
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)Wo。
(13)
headi的計(jì)算公式如下所示:
(14)
條件隨機(jī)場(Conditional Random Field,CRF)是序列標(biāo)注算法, CRF可以在訓(xùn)練過程中自動學(xué)習(xí)到一寫限制條件,保證最后輸出預(yù)測標(biāo)簽的合法性[24]。
X={X1,X2,…,Xn},Y={Y1,Y2,…,Yn}均為線性鏈表示的隨機(jī)變量序列,通過計(jì)算X的評分函數(shù),得到預(yù)測序列Y產(chǎn)生的概率,再計(jì)算當(dāng)預(yù)測序列產(chǎn)生概率的似然函數(shù)為最大時(shí)的預(yù)測標(biāo)簽作為輸出。Y的計(jì)算公式如下:
(15)
對于輸入序列X={x1,x2,…,xn},可以將輸出最佳序列y的概率為
(16)
其中,p(w|s)表示輸入序列與標(biāo)簽序列的對應(yīng)概率,Ws代表標(biāo)簽序列。
在開源平臺TensorFlow中使用keras框架構(gòu)建融合注意力機(jī)制的RoFormer-BiLSTM-IDCNN-CRF實(shí)體識別模型并調(diào)參,訓(xùn)練過程如圖6。為了證明模型的有效性,本次實(shí)驗(yàn)還在同一數(shù)據(jù)集上做了多組對比實(shí)驗(yàn)以及消融實(shí)驗(yàn)。
圖6 模型訓(xùn)練過程
本次實(shí)驗(yàn)運(yùn)行環(huán)境見表5。
表5 實(shí)驗(yàn)環(huán)境
訓(xùn)練過程中使用學(xué)習(xí)率預(yù)熱策略AdamWarmup,增強(qiáng)模型的穩(wěn)定性,讓模型更快達(dá)到收斂狀態(tài)。同時(shí)還引入了對抗訓(xùn)練Fast Gradient Method(FGM )提高模型的魯棒性和泛化能力,具體參數(shù)配置見表6。
表6 參數(shù)配置表
3.3.1 對比實(shí)驗(yàn)
實(shí)驗(yàn)過程中,只有當(dāng)一個(gè)實(shí)體的類型和邊界完全正確時(shí),才算正確的預(yù)測出實(shí)體。采用精確率P、召回率R和模型評價(jià)標(biāo)準(zhǔn)F1作為評價(jià)指標(biāo)。
為了驗(yàn)證模型的效果,實(shí)驗(yàn)選取基于機(jī)器學(xué)習(xí)的“CRF”模型、基于深度學(xué)習(xí)的“BiLSTM-CRF”模型、“IDCNN-CRF”模型以及“BERT-BiLSTM-CRF”模型與所搭建的“融合注意力機(jī)制的RoFormer-BiLSTM-IDCNN-CRF”模型在相同實(shí)驗(yàn)環(huán)境,對同一數(shù)據(jù)集進(jìn)行訓(xùn)練和驗(yàn)證。對商品(HCCX)、產(chǎn)地(MISC)、品牌(HPPX)、規(guī)格(HX)四類實(shí)體進(jìn)行識別,實(shí)驗(yàn)結(jié)果也表明,融合注意力機(jī)制的 RoFormer-BiLSTM-IDCNN-CRF命名實(shí)體識別模型具有更高的優(yōu)越性。本次實(shí)驗(yàn)結(jié)果見表7~10。
表7 商品實(shí)體識別結(jié)果
表8 產(chǎn)地實(shí)體識別結(jié)果
由實(shí)驗(yàn)結(jié)果可以看出,深度學(xué)習(xí)模型實(shí)驗(yàn)結(jié)果要遠(yuǎn)優(yōu)于CRF模型,這是因?yàn)樯疃葘W(xué)習(xí)模型具有較強(qiáng)的學(xué)習(xí)能力,能充分提取文本特征。而預(yù)訓(xùn)練模型的引入,可以獲得更加豐富的語義表示, 因此BERT-BiLSTM-CRF模型相較于BiLSTM-CRF模型有了較大地提高。本文所提出的模型,使用到了RoFormer預(yù)訓(xùn)練模型能夠更充分的挖掘語義信息,而IDCNN能充分提取文本的局部特征彌補(bǔ)了BiLSTM提取局部特征的不足,因此本文所提出的模型評價(jià)結(jié)果要優(yōu)于其他的對比模型。
表9 品牌實(shí)體識別結(jié)果
表10 規(guī)格實(shí)體識別結(jié)果
3.3.2消融實(shí)驗(yàn)
為了驗(yàn)證多頭注意力機(jī)制在模型中的有效性,在本次實(shí)驗(yàn)所用的電商商品信息數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),在相同的數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境下,對比模型損失下降的速度以及模型的準(zhǔn)確率得到了如圖7~8的實(shí)驗(yàn)結(jié)果。
通過對比圖7的實(shí)驗(yàn)結(jié)果可以看出,模型在引入了多頭注意力機(jī)制后,對融合后的特征進(jìn)行了權(quán)重的分配,增大了對分類影響較大的特征權(quán)重,減小了無關(guān)特征的權(quán)重,所以具有多頭注意力機(jī)制的模型損失下降得更快,模型更易達(dá)到收斂,同時(shí)在預(yù)測結(jié)果上也有了一定的提升。
圖7 損失對比
圖8 模型準(zhǔn)確率對比
本文以電商平臺的商品信息作為數(shù)據(jù)集,提出了一種基于RoFormer的電商信息命名實(shí)體識別模型RoFormer-BiLSTM-IDCNN-CRF ,通過RoFormer獲取到字向量,再將經(jīng)過BiLSTM層和IDCNN層提取并融合后的信息輸入到多頭注意力層中學(xué)習(xí)重要的特征,最后,通過CRF模型進(jìn)行實(shí)體標(biāo)注,從而識別電商信息中的有效實(shí)體。通過對比目前命名實(shí)體識別領(lǐng)域的主流模型,進(jìn)一步證明了本文所提出模型的優(yōu)越性。本次實(shí)驗(yàn)識別出的實(shí)體可用于構(gòu)建電商領(lǐng)域知識圖譜,為實(shí)現(xiàn)智能推薦和搜索系統(tǒng)提供數(shù)據(jù)基礎(chǔ)。在后續(xù)的研究中,將進(jìn)一步擴(kuò)大電商商品信息的語料,優(yōu)化訓(xùn)練集中實(shí)體樣本的分布,提升識別的效果。
大連民族大學(xué)學(xué)報(bào)2022年5期