基于深度神經(jīng)網(wǎng)絡的維吾爾文命名實體識別研究

2019-04-17 03:56王路路艾山吾買爾吐爾根依布拉音買合木提買買提卡哈爾江阿比的熱西提

中文信息學報 2019年3期

王路路，艾山·吾買爾，吐爾根·依布拉音，買合木提·買買提，卡哈爾江·阿比的熱西提

(1. 新疆大學信息科學與工程學院，新疆烏魯木齊 830046；2. 新疆大學新疆多語種信息技術實驗室，新疆烏魯木齊 830046)

0 引言

隨著信息化進程的加快，互聯(lián)網(wǎng)上維吾爾文的信息資源呈逐漸增長趨勢，從而使維吾爾文信息化研究顯得越來越重要，由此維吾爾語自然語言處理應運而生。命名實體識別作為自然語言處理中的一項基礎性任務，旨在從非結構化文本中抽取出具有特定意義的實體，如人名、地名、機構名，并且在信息抽取、機器翻譯、問答系統(tǒng)等領域中發(fā)揮著重要作用。

隨著深度學習研究的不斷深入，基于神經(jīng)網(wǎng)絡的命名實體識別已在漢語[1-2]、英語[3-4]等大規(guī)模語種上呈現(xiàn)了很好的性能。然而，維吾爾文命名實體識別尚處于起步階段，面臨的主要問題如下: ①維吾爾語是形態(tài)豐富的典型性黏著語言，通過附加不同的詞綴，一個詞將有多種形態(tài)，容易造成數(shù)據(jù)稀疏，從而帶來未登錄詞問題(OOV)； ②維吾爾文命名實體中沒有大小寫特征； ③沒有公開的數(shù)據(jù)集，數(shù)據(jù)規(guī)模的有限性將會影響神經(jīng)網(wǎng)絡方法的識別性能。此外，現(xiàn)有維吾爾文命名實體識別研究主要采用基于統(tǒng)計的方法[5]或者統(tǒng)計與規(guī)則相結合的方法[6-7]，而這些方法嚴重依賴于人工提取的特征工程和領域知識。

為了避免繁瑣的特征工程，本文提出了基于深度神經(jīng)網(wǎng)絡的維吾爾文命名實體識別的方法。本文的主要工作內容如下: ①實現(xiàn)了對維吾爾文中的人名、地名、機構名同時識別； ②將神經(jīng)網(wǎng)絡方法應用在維吾爾文命名實體識別上； ③分別使用直接串聯(lián)法和基于注意力機制的加權求和法將詞向量和字符級向量進行聯(lián)合，來動態(tài)學習形態(tài)豐富的維吾爾文字符間的特征，并對比Bi-LSTM和Bi-LSTM-CRF兩種模型的識別效果； ④以聯(lián)合向量表示作為輸入的Bi-LSTM-CRF方法取得較佳的性能，同時有效緩解了未登錄詞的識別。

1 相關工作

基于神經(jīng)網(wǎng)絡的方法已經(jīng)成功地運用在命名實體識別序列標注任務上。Collobert等[8]于2011年提出了基于CNN-CRF神經(jīng)網(wǎng)絡模型并進行了命名實體識別研究，隨后一系列借鑒此方法的深度神經(jīng)網(wǎng)絡方法被應用于序列標注任務中。Huang等[9]提出了一種以人工提取的特征向量和詞向量的拼接向量作為輸入的Bi-LSTM-CRF模型，在CONLL2003數(shù)據(jù)集上F1值達到了90.10%；Lample等[3]引入了由Bi-LSTM獲取的字符級向量，F(xiàn)1值達到了90.94%； Rei等[10]提出了利用注意力機制獲取字符級向量和詞向量的聯(lián)合向量；Ma等[4]構建了BiLSTM-CNNs-CRF神經(jīng)網(wǎng)絡模型，通過CNN學習字符級向量且優(yōu)于其他模型。張海楠等[1]提出了一種基于深度神經(jīng)網(wǎng)絡的字詞聯(lián)合方法以實現(xiàn)中文命名實體識別，有效解決了字詞稀疏的不足之處；Dong等[11]利用BLSTM-CRF神經(jīng)網(wǎng)絡模型有效結合了字向量和偏旁向量。

相比于漢語或者英語等大規(guī)模語種，維吾爾文命名實體識別研究起步較晚，近幾年許多學者針對命名實體中某一類別展開研究。艾斯卡爾·肉孜等[5]利用條件隨機場，引入了詞性、詞干、音節(jié)等特征進行人名的識別；加日拉·買買提熱衣木等[12]提出了統(tǒng)計與規(guī)則相結合來識別維吾爾人名，主要借用邊界詞提取人名；塔什甫拉提·尼扎木丁等[7]從維吾爾語黏著特點出發(fā)，利用條件隨機場識別維吾爾文人名，然后再用基于規(guī)則的方法對漢族人名識別進行優(yōu)化；買合木提·買買提等[6]采用條件隨機場和規(guī)則相結合的方法研究了維吾爾文地名識別，并取得了較高的性能；麥合甫熱提等[13]提出了利用語法語義知識實現(xiàn)了基于規(guī)則的維吾爾文機構名識別；阿依古麗·哈力克等[14]提出了基于正則表達式對維吾爾語中的時間、數(shù)字、量詞進行識別。以上維吾爾文命名實體識別的研究主要采用基于規(guī)則的方法或者基于統(tǒng)計的方法，而這些方法較為傳統(tǒng)，在分析語言特性時常常需要人工編制規(guī)則或者構建復雜的特征工程，因此維吾爾文命名實體識別具有一定的改進空間。

2 特征向量表示

近年來，分布式向量表示已廣泛應用于自然語言處理領域，尤其是深度學習研究。本文采用詞向量作為基本的特征，引入字符級向量來驗證詞向量和字符級向量的聯(lián)合向量表示對維吾爾文命名實體識別的影響，本文將考慮以下特征向量。

2.1 詞向量

分布式向量表示能夠從大規(guī)模的未標注語料中獲取單詞的語義信息，與one-hot向量表示相比，它可以有效地降低維度，獲取單詞間的語義相關性。Word2Vec[15]和Glove[16]是目前常用于訓練分布式詞向量的自然語言處理開源工具，其中Word2Vec包括CBOW和Skip-gram兩種模型。為了獲取高質量的詞向量，本文利用新疆多語種信息技術實驗室自然語言處理組搜集的385萬句的維吾爾文語料，采用Word2Vec中Skip-gram模型獲取預訓練的300維向量，詞向量表中共包含1 249 649個單詞/字符及其實數(shù)值向量。本文通過詞向量查找表獲取輸入文本中每個token的預訓練詞向量，如果某個token不在表中，將被映射到一個統(tǒng)一的向量表中。

2.2 聯(lián)合向量表示

維吾爾語屬于形態(tài)豐富的黏著語，通過在詞根的前后附加不同的詞綴來實現(xiàn)語法功能，因此詞匯量龐大，容易造成未登錄詞問題。單純的詞向量對未登錄詞問題處理仍存在不足。但是字符級向量包含豐富的結構特征，對于形態(tài)豐富的語言來說字符級向量是非常有用的，它能夠學習前綴和后綴信息等形態(tài)信息，從而緩解數(shù)據(jù)稀疏問題。此外，字符級向量能夠有效地處理語言模型或者詞性標注中的未登錄詞問題[17]。

首先，隨機初始化包含不同字符的字符向量查找表；然后，將單詞word中每個字符的向量通過Bi-LSTM模型獲取單詞的前向傳播向量lword和反向傳播向量rword；最后將前向傳播向量lword和反向傳播向量rword進行拼接獲取cword=[lword;rword]。

假設單詞word在詞向量查找表中的向量為wword，字符級向量為cword，本文將討論以下兩種聯(lián)合向量方法。

(1) 基于直接串聯(lián)的聯(lián)合向量表示。將wword和cword直接拼接構成的串聯(lián)向量作為序列標注模型的輸入向量eword，即eword=[wword;cword]，如圖1所示。

圖1 基于直接串聯(lián)的聯(lián)合向量表示

(2) 基于注意力機制的聯(lián)合向量表示。本文借鑒Rei等[10]的方法使用注意力機制將詞向量和字符級向量加權求和進行聯(lián)合，如圖2所示。其中注意力機制的權重a是通過兩層前饋神經(jīng)網(wǎng)絡學習的。

eword=a·wword+(1-a)·cword

(1)

(2)

圖2 基于注意力機制的聯(lián)合向量表示

3 基于Bi-LSTM-CRF的維吾爾文命名實體識別

將聯(lián)合向量表示作為Bi-LSTM模型的輸入，獲取前向傳播向量和反向傳播向量；然后將兩個向量的拼接向量表示輸入序列，再通過tanh層將向量縮小至[-1,1]；最后通過條件隨機場判斷出最優(yōu)的標記序列。為了充分理解維吾爾文命名實體識別研究，本文以拉丁維吾爾文“men junggoni s?yimen” (中文意思: 我愛中國)進行舉例。

3.1 Bi-LSTM

循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network，RNN)是處理序列標注問題的一種神經(jīng)網(wǎng)絡語言模型，它能夠利用歷史信息處理長距離依賴信息，但是未能有效地解決梯度消失和梯度爆炸問題。長短時記憶網(wǎng)絡(LSTM)[18]是RNN的變種，明顯在該問題上表現(xiàn)占優(yōu)，主要通過記憶單元連接各個門結構使得模型記憶有效的上下文信息。LSTM門結構有輸入門、遺忘門、輸出門。LSTM的形式化表示如式(3)所示。

(3)

其中，σ是非線性sigmoid函數(shù)，⊙代表點乘運算，tanh表示雙曲正切函數(shù)，xt、ht-1、ct-1分別表示t時刻的輸入、上一時刻的輸出、上一時刻的單元狀態(tài)。W、U、V分別表示對應門或者狀態(tài)的權重，b表示偏值項。

為了充分利用上下文信息，本文將采用Bi-LSTM模型。Bi-LSTM 在LSTM的基礎上增加了反向傳播層，可以將信息序列分別從兩個方向出發(fā)輸入模型，然后經(jīng)過隱含層保存兩個方向的信息序列，即歷史信息與未來信息。對于輸入序列S=(e1,e2,…,en)，Bi-LSTM將獲取前向傳播向量l=(l1,l2,…,ln)和反向傳播向量r=(r1,r2,…,rn)，則Bi-LSTM的最終輸出為ti=(li;ri)，在Bi-LSTM之上的tanh層用于預測每個單詞所有可能標記序列的置信度，如式(4)所示。

hi=tanh(Whti)

(4)

其中，Wh表示隱藏層的權重矩陣。

Softmax作為Bi-LSTM的輸出層，可以對各個位置獨立進行多分類。Softmax函數(shù)是計算每個單詞的所有可能標記信息的歸一化概率分布,如式(5)所示。

(5)

其中，p(yi=j|ht)表示輸入序列中第i個單詞對應的標記yi是j的概率，K表示標簽集合。在訓練過程中通過最小化負對數(shù)似然函數(shù)優(yōu)化模型,如式(6)所示。

(6)

3.2 Bi-LSTM-CRF

本文將維吾爾文命名實體識別看作序列標注任務并采用了BIO標注形式，這種標記形式有很強的約束性，例如“I-ORG”之前不可能是“B-LOC”或者O。若僅僅用Bi-LSTM則不能充分解決此類問題，但是CRF能夠考慮上下文標簽之間的關系，從而能代替softmax層獲取全局最優(yōu)的標記序列，因此最終本文考慮將Bi-LSTM和CRF結合，即將Bi-LSTM-CRF模型用于維吾爾文命名實體識別中，如圖3所示。

圖3 基于Bi-LSTM-CRF的維吾爾文命名實體識別

首先將第2節(jié)中的特征向量表示作為Bi-LSTM的輸入向量，通過Bi-LSTM編碼器獲取輸出結果P(原理同2.1節(jié))，其中P的大小為n*k，n表示輸入序列的長度，k表示標簽集合的大小，則其第i列是由式(4)獲取的向量hi，Pi,j表示輸入序列中第i個單詞對應第j個標記的分數(shù)。通過引入轉移矩陣T作為CRF模型的參數(shù)，Ti,j表示連續(xù)單詞由標簽i到標簽j的轉移概率。對于輸入序列預測的標簽序列y={y1,y2,…,yn}，定義概率表示如式(7)所示。

(7)

得到概率后利用最大似然函數(shù)訓練模型，如式(8)所示。

(8)

在預測過程中尋找條件概率最大的輸出序列y*,如式(9)所示。

(9)

4 實驗結果與分析

本文進行了多組對比實驗來驗證深度神經(jīng)網(wǎng)絡對維吾爾文命名實體識別的有效性，并探索不同的輸入向量對識別效果的影響。

4.1 實驗數(shù)據(jù)

本文采用新疆多語種信息技術實驗室標注的命名實體數(shù)據(jù)集，共計39 027條句子，包含命名實體102 360個，人名、地名、機構名占比分別約為27.81%、41.60%、30.58%。按照交叉驗證法將數(shù)據(jù)集以7.5∶1∶1.5的比例分為訓練集、驗證集、測試集。具體的分布信息如表1～表3所示，其中NE表示命名實體，OOV表示未登錄詞(未在訓練集中出現(xiàn)的詞)，ROOV表示未登錄詞的占比。

表1 維吾爾文命名實體識別數(shù)據(jù)集的統(tǒng)計信息

表2 開發(fā)集OOV統(tǒng)計信息

表3 測試集OOV統(tǒng)計信息

4.2 評測指標

實驗采用F-值(F1)來評測命名實體識別效果，其中F-值由準確率(P)、召回率(R)來決定。計算如式(10)～式(12)所示。

4.3 參數(shù)設置

本文參考前人的工作[10]，采用基于batch的梯度下降優(yōu)化超參數(shù)，其中batch的大小為64，使用Adadelta優(yōu)化算法，并設置其初始學習率為1.0；為了防止過擬合問題，設置Dropout參數(shù)為0.5； LSTM的前向傳播和反向傳播的字符向量維度均為50；LSTM中隱藏層節(jié)點數(shù)為200；在Bi-LSTM頂部上tanh層的大小設置為50。根據(jù)維吾爾文命名實體識別的詞向量驗證，最終確定訓練詞向量采用Skip-gram模型且其維度為300維；具體參數(shù)設置如表4所示。

表4 參數(shù)設置

4.4 實驗設置與結果分析

為了驗證基于神經(jīng)網(wǎng)絡的維吾爾文命名實體識別方法的有效性，本文以基于CRF和半監(jiān)督學習的維吾爾文命名實體識別方法為基線系統(tǒng)(新疆多語種信息技術實驗室自然語言處理組提供的服務)，分別以詞向量、基于直接串聯(lián)的聯(lián)合向量表示、基于注意力機制的聯(lián)合向量作為輸入向量，在Bi-LSTM和Bi-LSTM-CRF兩種模型上進行實驗，實驗結果如表5所示。

表5 不同模型的對比實驗結果

從表5中看出，與基線系統(tǒng)相比，Bi-LSTM和Bi-LSTM-CRF兩種模型僅在詞向量為輸入向量的情況下在命名實體識別上表現(xiàn)稍弱，但是在聯(lián)合向量表示為輸入向量的情況下均有提高，說明引入字符級向量的聯(lián)合向量表示方法進一步提高了維吾爾文命名實體識別的性能，同時能夠有效地減少人工提取領域特征的工作量；從總體上看，Bi-LSTM-CRF模型優(yōu)于Bi-LSTM，說明條件隨機場能夠有效學習相鄰標記之間的關系，從而聯(lián)合解碼以得到最優(yōu)序列標注；相較于詞向量，兩種聯(lián)合向量表示在Bi-LSTM和Bi-LSTM-CRF模型中的識別效果明顯提高，說明引入字符級向量，能夠有效地學習形態(tài)特征，從而緩解形態(tài)豐富語言面臨的問題；在Bi-LSTM模型上，與兩種聯(lián)合向量表示相比，基于注意力機制的聯(lián)合向量表示在開發(fā)集上稍有提高，測試集略低；在Bi-LSTM-CRF上，對輸入向量進行比較，發(fā)現(xiàn)基于注意力機制的聯(lián)合向量表示在整體的命名實體識別上F-值達到了90.13%，且高于基于直接串聯(lián)的聯(lián)合向量表示，說明基于注意力機制的聯(lián)合向量表示能夠使Bi-LSTM-CRF模型動態(tài)地選擇詞向量和字符級向量中的信息，且適用于形態(tài)豐富的維吾爾語。

為了更好地驗證深度神經(jīng)網(wǎng)絡模型的影響，本文將開發(fā)集和測試集中所有的OOV抽取出來，進一步對OOV識別進行了分析，如表6所示。

表6 OOV識別的對比實驗

從表6中可知，神經(jīng)網(wǎng)絡模型在OOV識別上優(yōu)于基線系統(tǒng)；無論是哪種神經(jīng)網(wǎng)絡模型，引入字符級向量，OOV識別性能幾乎都提高2%左右，說明聯(lián)合向量表示可以有效緩解未登錄詞的識別；基于直接串聯(lián)的聯(lián)合向量表示與基于注意力機制的聯(lián)合向量表示相比，在OOV識別上相差不大，由此可以說明基于直接串聯(lián)的聯(lián)合向量表示在非OOV上識別效果略差，進一步說明了基于注意力機制的聯(lián)合向量表示能夠充分地學習有效信息。

5 結束語

現(xiàn)有的維吾爾文命名實體識別研究依賴于人工的特征工程和領域知識，針對該問題，本文提出了基于深度神經(jīng)網(wǎng)絡的方法，主要采用基于不同輸入向量的Bi-LSTM-CRF的神經(jīng)網(wǎng)絡模型。首先通過大規(guī)模的無監(jiān)督學習語料訓練詞向量以建立詞向量查找表，從而獲取每個單詞具有語義的詞向量；然后由Bi-LSTM獲取的字符級向量進行聯(lián)合，分別獲取基于直接串聯(lián)的聯(lián)合向量表示和基于注意力機制的聯(lián)合向量表示；最后通過Bi-LSTM-CRF神經(jīng)網(wǎng)絡模型對進行實體標注。實驗表明，基于注意力機制向量表示的Bi-LSTM-CRF方法的識別效果最佳，由此說明基于注意力機制的聯(lián)合向量表示能夠使模型動態(tài)地利用字符級向量或者詞向量中的有效信息。

在未來的研究工作中，我們將繼續(xù)研究基于深度神經(jīng)網(wǎng)絡的維吾爾文命名實體識別，探索其他神經(jīng)網(wǎng)絡模型組合或者在模型中引入注意力機制，驗證出最適合于維吾爾文命名實體識別的模型；此外，將利用遷移學習實現(xiàn)其他黏著語種的命名實體識別。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡