葛海波,車虹葵,趙其實(shí),安 康
(西安郵電大學(xué) 電子工程學(xué)院,陜西 西安 710121)
命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理中一個(gè)重要領(lǐng)域[1],旨在檢測(cè)給定文本中的實(shí)體,并將其分類到預(yù)定義的類別中。NER生成的結(jié)果是問(wèn)答系統(tǒng)、機(jī)器翻譯和對(duì)話系統(tǒng)等許多下游任務(wù)的關(guān)鍵。
近年來(lái),物聯(lián)網(wǎng)領(lǐng)域發(fā)展迅速,其設(shè)備外延從傳統(tǒng)的感知器、執(zhí)行器向更多元化發(fā)展。為解決物聯(lián)網(wǎng)實(shí)體多樣化帶來(lái)實(shí)體信息形式多樣化和對(duì)實(shí)體信息的理解能力不足的問(wèn)題,研究者們將語(yǔ)義網(wǎng)[2]中的智能化特征引入到物聯(lián)網(wǎng)中。由此,物聯(lián)網(wǎng)由傳統(tǒng)的物聯(lián)網(wǎng)(Internet of Things,IoT)向基于語(yǔ)義技術(shù)的萬(wàn)維物聯(lián)網(wǎng)(Web of Things,WoT)邁進(jìn),WoT技術(shù)的核心是構(gòu)建一個(gè)高可用實(shí)體庫(kù)。目前,針對(duì)物聯(lián)網(wǎng)領(lǐng)域暫無(wú)已經(jīng)做好標(biāo)注的語(yǔ)料,且無(wú)特定的物聯(lián)網(wǎng)領(lǐng)域命名實(shí)體模型。對(duì)于物聯(lián)網(wǎng)領(lǐng)域的命名實(shí)體識(shí)別研究的難點(diǎn)主要體現(xiàn)在物聯(lián)網(wǎng)實(shí)體種類多樣化和實(shí)體命名不規(guī)范等方面。在研究過(guò)程中需要根據(jù)物聯(lián)網(wǎng)實(shí)體特征構(gòu)建模型,把握好實(shí)體邊界的劃分。
如何自動(dòng)化構(gòu)建物聯(lián)網(wǎng)本體庫(kù)是WoT發(fā)展的核心需求,而構(gòu)建物聯(lián)網(wǎng)本體庫(kù)的前提是能夠在非機(jī)構(gòu)化的語(yǔ)料中識(shí)別出物聯(lián)網(wǎng)實(shí)體,針對(duì)上述問(wèn)題,研究自然語(yǔ)言處理中的NER技術(shù),將NER應(yīng)用到物聯(lián)網(wǎng)領(lǐng)域中,提出基于XLNet的物聯(lián)網(wǎng)領(lǐng)域NER模型,以期在物聯(lián)網(wǎng)數(shù)據(jù)集中取得較好效果。
NER的主要技術(shù)方法包括基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法[3]?;谝?guī)則的方法依賴領(lǐng)域?qū)<抑贫ㄒ?guī)則模版,其識(shí)別效果對(duì)規(guī)則的依賴性高,且不同場(chǎng)景下的實(shí)體識(shí)別規(guī)則不同,可擴(kuò)展性弱。
基于機(jī)器學(xué)習(xí)的方法主要是對(duì)于特征的學(xué)習(xí),并將特征添加到特征向量中,主要方法有隱馬爾可夫模型 (Hidden Markov Model ,HMM )[4]、支持向量機(jī) (Support Vector Machine ,SVM )[5]和決策樹(shù)[6]等。該類方法對(duì)特征的選取要求較高,比較依賴語(yǔ)料的質(zhì)量。
隨著深度學(xué)習(xí)的發(fā)展,利用深度神經(jīng)網(wǎng)絡(luò)模型完成NER別任務(wù)成為一種趨勢(shì)。Hammerton[7]首次使用長(zhǎng)短期記憶模型(Long Short Term Memory,LSTM)進(jìn)行NER任務(wù)。以LSTM為基礎(chǔ),后續(xù)產(chǎn)生較好的LSTM-CRF命名實(shí)體識(shí)別框架。Tomas等[8]提出Word2Vec模型,對(duì)文本進(jìn)行了低維稠密的向量化表示,但是Word2Vec不能解決多義詞的向量映射問(wèn)題。Peter等[9]提出詞嵌入模型(Embeddings from Language Models,ELMO)有效解決了一詞多義問(wèn)題。Alec等[10]針對(duì)中文電子病例命名實(shí)體識(shí)別,提出基于Transformer的NER模型,F(xiàn)1值高達(dá)95.02%。Devlin[11]等提出了BERT(Bidirectional Encoder Representation form Transformers)預(yù)訓(xùn)練模型,楊飄等[12]將BERT模型應(yīng)用在命名實(shí)體模型,提高了中文命名實(shí)體識(shí)別效果。BERT模型基于Transformer模型并結(jié)合遮罩(Mask)語(yǔ)言模型,使得模型考慮到文本的上下文信息,Mask語(yǔ)言模型在預(yù)訓(xùn)練和微調(diào)中階段的不對(duì)稱性在具體任務(wù)時(shí)會(huì)影響精確度。Yang等[13]提出廣義自回歸語(yǔ)言模型(XLNet),該模型引入排列語(yǔ)言模型思想,在預(yù)訓(xùn)練階段應(yīng)用Transformer-XL[14]相對(duì)位置編碼,能夠考慮序列歷史信息,使得該模型有強(qiáng)大的表義能力,基于XLNet優(yōu)秀的語(yǔ)義表征能力,并考慮模型在實(shí)體識(shí)別中標(biāo)簽依賴問(wèn)題,基于XLNet在上層搭建模型解決物聯(lián)網(wǎng)領(lǐng)域命名實(shí)體識(shí)別問(wèn)題。
許多組織及個(gè)人針對(duì)物聯(lián)網(wǎng)不同應(yīng)用場(chǎng)景下的語(yǔ)義需求,提出不同概念的系統(tǒng)本體,歐盟首次將語(yǔ)義技術(shù)引入物聯(lián)網(wǎng)[15]。Sheth[16]提出使用設(shè)備自描述信息中的時(shí)空信息以及傳感觀測(cè)信息對(duì)感知數(shù)據(jù)進(jìn)行標(biāo)注,該方法包含的語(yǔ)義屬性較少,缺少與通用知識(shí)庫(kù)數(shù)據(jù)的對(duì)齊。物聯(lián)網(wǎng)行業(yè)的快速發(fā)展,其外延在不斷擴(kuò)大和發(fā)展,感知器、執(zhí)行器、各種智能設(shè)備和微電子機(jī)械被包含其中,進(jìn)一步加劇物聯(lián)網(wǎng)系統(tǒng)的泛在性和動(dòng)態(tài)性特征。為了應(yīng)對(duì)物聯(lián)網(wǎng)更智能化的需求,需要一種更為高級(jí)和抽象的數(shù)據(jù)模型表示物理網(wǎng)領(lǐng)域設(shè)備和數(shù)據(jù)服務(wù)。
為了對(duì)物聯(lián)網(wǎng)內(nèi)數(shù)據(jù)及服務(wù)進(jìn)行語(yǔ)義化標(biāo)注,在傳統(tǒng)物聯(lián)網(wǎng)架構(gòu)增加了資源抽象層,由物理設(shè)備層、數(shù)據(jù)層、資源抽象層和應(yīng)用服務(wù)層等4層組成,其整體架構(gòu)如圖1所示。
圖1 物聯(lián)網(wǎng)架構(gòu)模型
物理設(shè)備層包括物聯(lián)網(wǎng)系統(tǒng)中所有完成物理環(huán)境感知和控制任務(wù),數(shù)據(jù)層是對(duì)物理設(shè)備層的軟硬件進(jìn)行分類抽象,資源抽象層是對(duì)物聯(lián)網(wǎng)應(yīng)用系統(tǒng)內(nèi)的數(shù)據(jù)、服務(wù)進(jìn)行語(yǔ)義化標(biāo)注,應(yīng)用服務(wù)層為開(kāi)發(fā)者所搭建的服務(wù)應(yīng)用。為了正確表示物聯(lián)網(wǎng)領(lǐng)域?qū)嶓w,需要涵蓋幾個(gè)重要概念,如表1所示。
表1 物聯(lián)網(wǎng)領(lǐng)域?qū)嶓w模型標(biāo)簽
參考自然語(yǔ)言處理通用實(shí)體劃分,根據(jù)物聯(lián)網(wǎng)領(lǐng)域特點(diǎn)加入領(lǐng)域內(nèi)主要概念類型,并去除領(lǐng)域關(guān)聯(lián)較少的實(shí)體,將物聯(lián)網(wǎng)實(shí)體分為人物、地名、組織機(jī)構(gòu)名、時(shí)間、傳感器、執(zhí)行器、應(yīng)用名稱、電子器件名稱、數(shù)據(jù)流名稱和其他實(shí)體。
1.3.1 數(shù)據(jù)預(yù)處理
語(yǔ)料數(shù)據(jù)來(lái)自Wiki百科中文數(shù)據(jù)集以及爬取物聯(lián)網(wǎng)領(lǐng)域相關(guān)文本。通過(guò)爬取獲得的語(yǔ)料數(shù)據(jù),存在大量非文本標(biāo)簽影響文本標(biāo)注。通過(guò)預(yù)定義的清理規(guī)則,刪除非法格式的文本數(shù)據(jù),獲取規(guī)范的物聯(lián)網(wǎng)語(yǔ)料庫(kù)數(shù)據(jù)。
1.3.2 數(shù)據(jù)標(biāo)注
實(shí)體標(biāo)注使用BIO標(biāo)注方式,其中,B表示實(shí)體開(kāi)始,I表示實(shí)體結(jié)尾或者中間部分,O表示其他實(shí)體或非實(shí)體。根據(jù)物聯(lián)網(wǎng)實(shí)體命名分類,實(shí)體標(biāo)簽如表2所示。
表2 物聯(lián)網(wǎng)領(lǐng)域?qū)嶓w標(biāo)簽
基于XLNet強(qiáng)大的語(yǔ)義表征能力,提出了基于XLNet命名實(shí)體識(shí)別模型,該模型由XLNet層、Bi-LSTM層、Attention層和CRF層等4個(gè)部分組成,結(jié)構(gòu)如圖2所示。該模型通過(guò)XLNet模型提取字向量特征,將字向量拼接后作為Bi-LSTM層輸入,經(jīng)過(guò)Bi-LSTM層對(duì)語(yǔ)義進(jìn)一步編碼獲取隱藏層輸出并輸入Attention層,CRF層專注于上下文注釋信息,最終輸出概率最大序列標(biāo)簽。該模型使用XLNet可以獲得更佳的詞向量表示,再經(jīng)過(guò)“Bi-LSTM+Attention”層利用字符上下文信息,最后通過(guò)CRF層降低非法標(biāo)注出現(xiàn)的概率。
圖2 “XLNet+Bi-LSTM+Attention+CRF”模型結(jié)構(gòu)
無(wú)監(jiān)督學(xué)習(xí)模型分為自回歸(Autoregressive,AR)語(yǔ)言模型和自編碼(Autoencoding,AE)語(yǔ)言模型。與傳統(tǒng)AR語(yǔ)言模型不同的是,以BERT為代表的AE語(yǔ)言模型實(shí)現(xiàn)了雙向預(yù)測(cè)。
圖3 XLNet模型Mask機(jī)制
給定序列長(zhǎng)度為T,排序方式總數(shù)m=T!,模型可以通過(guò)m種排列方式學(xué)習(xí)到各種上下文,在實(shí)際應(yīng)用中,XLNet隨機(jī)采樣m中的部分排列,其全排列模型的公式為
(1)
其中:E表示序列集合;z~ZT為所有可能的文本排列方式;xz,t表示當(dāng)前詞;Xz XLNet的核心為Transformer-XL,在Transformer結(jié)構(gòu)基礎(chǔ)上引入相對(duì)位置編碼思想和循環(huán)機(jī)制。Transformer在訓(xùn)練中規(guī)定輸入序列是定長(zhǎng)序列,長(zhǎng)序列在訓(xùn)練中分割后模型利用不到片段之間的聯(lián)系,會(huì)造成信息缺失問(wèn)題。Transformer-XL在片段之間插入隱狀態(tài)信息,在當(dāng)前段的預(yù)測(cè)通過(guò)隱狀態(tài)信息可以利用前一段的信息,模型可以學(xué)習(xí)更為長(zhǎng)遠(yuǎn)的語(yǔ)義信息。兩個(gè)片段之間循環(huán)機(jī)制的信息傳遞方式如圖4所示,灰線表示記憶信息,在Sgment2段訓(xùn)練中可以利用Segment1段的Cache信息,XLNet通過(guò)該機(jī)制實(shí)現(xiàn)歷史信息的傳遞。 圖4 XLNet循環(huán)機(jī)制 Transformer通過(guò)正弦函數(shù)的形式將絕對(duì)位置編碼成一個(gè)向量,上層可以通過(guò)該向量學(xué)習(xí)兩個(gè)詞的相對(duì)位置的關(guān)系,計(jì)算公式為 hr+1=f(hr,Dsr+1+U1:L) (2) hr=f(hr-1,Dsr+U1:L) (3) 其中:hr表示r時(shí)刻向量編碼;Dsr表示當(dāng)前片段文本向量位置編碼;U1:L表示位置編碼,不同片段中U1:L一樣,模型無(wú)法通過(guò)向量準(zhǔn)確判斷是哪個(gè)片段的具體位置。絕對(duì)位置編碼對(duì)于每個(gè)片段的相同位置編碼都是相同的,而Transformer-XL可以利用不同片段的歷史信息,考慮到片段不同而位置編碼相同的詞對(duì)于當(dāng)前片段的信息貢獻(xiàn)度不同,因此,Transformer-XL使用相對(duì)位置編碼思想,其在計(jì)算Attention時(shí)根據(jù)當(dāng)前位置和需要利用到的位置計(jì)算相對(duì)距離。 XLNet以Transformer-XL框架為核心,通過(guò)引入循環(huán)機(jī)制和相對(duì)位置編碼,充分考慮雙向語(yǔ)義信息和挖掘較為長(zhǎng)遠(yuǎn)的歷史信息,可以獲得更為準(zhǔn)確的詞向量表示。 LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),其單元結(jié)構(gòu)如圖5所示。傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)在實(shí)際應(yīng)用存在梯度消失和梯度爆炸的問(wèn)題,其記憶長(zhǎng)度有限。LSTM通過(guò)控制門選擇“記憶”當(dāng)前信息和“遺忘”歷史信息,解決了長(zhǎng)依賴問(wèn)題,其內(nèi)部包含輸入門、輸出門、遺忘門和記憶單元等4個(gè)部分。 圖5 LSTM單元結(jié)構(gòu) LSTM單元具體實(shí)現(xiàn)的方程組為 (4) 其中:it為輸入門;ft為遺忘門;ot為輸出門;ct和ht指t時(shí)刻的候選記憶單元、新記憶單元和隱藏狀態(tài);ct-1和ht-1指模型t-1時(shí)刻的記憶單元和隱藏狀態(tài);σ是Sigmoid的函數(shù);W為權(quán)重矩陣;b表示偏置。 實(shí)驗(yàn)采取雙向LSTM實(shí)現(xiàn)對(duì)上下文信息的共同編碼。Bi-LSTM層的輸入為從ALNet層得到的詞向量,該層由多個(gè)Bi-LSTM單元組成,并分別輸出各時(shí)刻的隱狀態(tài)。 考慮實(shí)體在文本中多次出現(xiàn)且表述方式不同,通過(guò)Attention機(jī)制計(jì)算實(shí)體不同時(shí)刻的特征向量權(quán)重,關(guān)注實(shí)體的重要特征信息,減少實(shí)體標(biāo)注不一致問(wèn)題。Attention層實(shí)現(xiàn)的方程組為 (5) 式中:s為當(dāng)前時(shí)間字符得分;v表示當(dāng)前狀態(tài);A表示當(dāng)前字符權(quán)重;M表示得分的總數(shù);g表示含有各字符信息的特征向量。通過(guò)Attention機(jī)制增強(qiáng)語(yǔ)料中上下文之間實(shí)體聯(lián)系,得到更準(zhǔn)確的實(shí)體信息。 在標(biāo)記序列中,標(biāo)簽之間存在著依賴關(guān)系,該依賴性可以看作約束條件。如實(shí)體標(biāo)記的第一個(gè)字應(yīng)該為B,不能為I;一組實(shí)體序列開(kāi)始與結(jié)尾標(biāo)記類型應(yīng)該相同。CRF可以關(guān)注標(biāo)簽之間的相鄰關(guān)系得到最優(yōu)標(biāo)簽序列,提高實(shí)體識(shí)別精度。 給定輸入n維序列x=(x1,x2,x3,…,xn)和對(duì)應(yīng)標(biāo)簽序列y=(y1,y2,y3,…,yn),定義評(píng)價(jià)方法的表達(dá)式為 (6) 其中:Vyi-1,yi表示標(biāo)簽轉(zhuǎn)移分?jǐn)?shù);Qi,yi表示該字符被定義為第yi的概率。CRF的訓(xùn)練使用最大條件似然估計(jì),似然函數(shù)表達(dá)式為 (7) 其中,概率Q的表達(dá)式為 (8) 在構(gòu)建的物聯(lián)網(wǎng)領(lǐng)域數(shù)據(jù)集上驗(yàn)證模型的識(shí)別性能。該數(shù)據(jù)集約57 780條句子,將該數(shù)據(jù)集按比例8∶1∶1分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,各類實(shí)體統(tǒng)計(jì)如表3所示。 表3 標(biāo)記實(shí)體類型統(tǒng)計(jì) 3.2.1 環(huán)境配置 實(shí)驗(yàn)運(yùn)行環(huán)境如表4所示。 表4 實(shí)驗(yàn)環(huán)境 3.2.2 參數(shù)設(shè)置 實(shí)驗(yàn)中模型參數(shù)配置如表5所示。 表5 參數(shù)配置 對(duì)于命名實(shí)體識(shí)別的評(píng)價(jià)標(biāo)準(zhǔn)為精確率P、召回率R和模型評(píng)價(jià)標(biāo)準(zhǔn)F1值,其定義分別為 (9) 其中:TP表示模型所正確識(shí)別的實(shí)體總數(shù);FP表示模型識(shí)別錯(cuò)誤的實(shí)體總數(shù);FN表示模型未能識(shí)別出的實(shí)體數(shù)。 為了驗(yàn)證模型的效果,實(shí)驗(yàn)選取機(jī)器學(xué)習(xí)中的CRF模型、基于深度學(xué)習(xí)中的“Bi-LSTM+CRF”模型和“BERT+Bi-LSTM+CRF”作對(duì)比,與所搭建“XLNet+Bi-LSTM+Attention+CRF”模型對(duì)同一數(shù)據(jù)集進(jìn)行訓(xùn)練和驗(yàn)證,對(duì)比結(jié)果如表6所示。 表6 實(shí)驗(yàn)結(jié)果 由表6可以看出,CRF模型評(píng)價(jià)結(jié)果最低。Bi-LSTM可以融合輸入序列的上下文語(yǔ)義信息,有著更強(qiáng)的語(yǔ)言表征能力,因此,“Bi-LSTM+CRF”模型F1值比CRF模型高12.94% ,提高了命名實(shí)體識(shí)別的F1值。Word2Vec只是在句子的表面對(duì)上下文信息進(jìn)行提取表示,沒(méi)有融入更多的內(nèi)部特征,而B(niǎo)ERT可以利用到上下文信息,能夠更好地挖掘語(yǔ)義信息,因此,“BERT+Bi-LSTM+CRF”比Bi-LSTM模型F1值高出1.98%?;赬LNet的“XLNet+Bi-LSTM+Attention+CRF”模型,通過(guò)XLNet訓(xùn)練得到具有更好的表征能力字向量,識(shí)別效果最好,優(yōu)于其他模型。 “XLNet+Bi-LSTM+Attention+CRF”有著更好的實(shí)體識(shí)別效果,該模型對(duì)于物聯(lián)網(wǎng)各個(gè)實(shí)體的識(shí)別效果如表7所示。 表7 實(shí)體評(píng)價(jià)結(jié)果 表7中,時(shí)間、組織機(jī)構(gòu)、傳感器、數(shù)據(jù)流和電子器件這幾類實(shí)體規(guī)律性,如“組織機(jī)構(gòu)”類實(shí)體一般格式為“××地××組織”,命名方式規(guī)范。因此,這幾類實(shí)體識(shí)別效果較好?!皯?yīng)用名稱”類命名規(guī)律性較差,且該類數(shù)據(jù)集較少,訓(xùn)練出的模型對(duì)于該類的識(shí)別效果較差,導(dǎo)致F1值較低。 基于物聯(lián)網(wǎng)本體的語(yǔ)義特征,歸納出物聯(lián)網(wǎng)核心語(yǔ)義概念,提出新型命名模型,該模型涵蓋物聯(lián)網(wǎng)領(lǐng)域中物理設(shè)備層、數(shù)據(jù)層、資源抽象層和應(yīng)用服務(wù)層,將其具體化為感知單元、計(jì)算單元、執(zhí)行單元、消息單元、服務(wù)單元、位置單元和觀測(cè)單元,基于該命名規(guī)范特點(diǎn)搭建4個(gè)物聯(lián)網(wǎng)領(lǐng)域本體命名實(shí)體識(shí)別模型。通過(guò)實(shí)驗(yàn)分析對(duì)比,可以得出“XLNet+Bi-LSTM+Attention+CRF”模型的效果最好,為以后該模型的下游任務(wù)應(yīng)用的研究奠定了基礎(chǔ)。對(duì)于后續(xù)研究,主要考慮基于知識(shí)蒸餾對(duì)于原有模型進(jìn)行壓縮,使得模型滿足物聯(lián)網(wǎng)應(yīng)用場(chǎng)景輕量化的需求。2.2 Bi-LSTM層
2.3 Attention層
2.4 CRF層
3 實(shí)驗(yàn)及結(jié)果分析
3.1 實(shí)驗(yàn)數(shù)據(jù)
3.2 實(shí)驗(yàn)環(huán)境
3.3 評(píng)價(jià)標(biāo)準(zhǔn)
3.4 實(shí)驗(yàn)結(jié)果與分析
4 結(jié)語(yǔ)