基于改進(jìn)分詞標(biāo)注集的中文微博命名實體識別方法?

2019-03-01 02:52:18王超王崢

計算機(jī)與數(shù)字工程 2019年1期

王超王崢

（1.南京烽火星空通信發(fā)展有限公司南京 210019）（2.武漢郵電科學(xué)研究院武漢 430074）

1 引言

隨著社交網(wǎng)絡(luò)的近幾年的快速發(fā)展，推特、微博、微信等以短文本為主的社交網(wǎng)絡(luò)平臺已成為實時信息的主要來源，對社交媒體的分析也受到越來越多的關(guān)注［1～2］。目前在國內(nèi)，微博平臺發(fā)展迅猛，其用戶量大，傳播速度快，貼近日常生活，在熱點事件的報導(dǎo)和傳播方面占據(jù)主導(dǎo)地位［3］，諸多基于此類社交網(wǎng)絡(luò)的應(yīng)用如關(guān)系抽取以及實體鏈接［4～5］等，首先必須依賴于微博文本中所涉及到的命名實體，因此對微博文本內(nèi)容進(jìn)行命名實體識別，從而挖掘出社交媒體中的包含的信息如人物關(guān)系、輿論走向、熱點事件跟蹤等是一項很有意義的研究。

目前，國內(nèi)外命名實體識別的研究已趨于成熟，但主要是針對正式文本［6～8］，而對非正式文本的研究也多集中在英文［9］，針對中文非正式文本如中文微博的研究則相對較少［10～11］。對于亞洲語種（中文，日文，韓文等），詞與詞之間沒有固定的分隔符，對中文進(jìn)行分詞通常是處理中文信息任務(wù)的基礎(chǔ)，因此分詞的準(zhǔn)確性會很大程度上影響命名實體識別效果，加之微博文本本身文本短，用語不規(guī)范，詞匯新奇，噪聲多的特點，使得分詞的準(zhǔn)確性大大降低，從而導(dǎo)致傳統(tǒng)命名實體識別方法的性能在微博文本上會下降 20%［12］。

文獻(xiàn)［12］提出了基于拼音相似距離以及文本相似距離聚類算法對微博文本進(jìn)行規(guī)范化，消除了微博的語言表達(dá)不規(guī)范造成的干擾。文獻(xiàn)［13］則是字位置嵌入來表征分詞信息，即在字嵌入的基礎(chǔ)上附加字的位置信息，其研究表明字的位置信息對命名實體識別有較大影響。

本文結(jié)合文獻(xiàn)［13］的研究，首先構(gòu)建微博語料對到LSTM中文分詞模型進(jìn)行訓(xùn)練，以提高分詞的準(zhǔn)確性，然后對的分詞結(jié)果標(biāo)注集合進(jìn)行改進(jìn)，使其分詞結(jié)果不僅攜帶字的位置信息，而且附加詞性信息，根據(jù)分詞結(jié)果選取適當(dāng)?shù)腃RFs的特征模板，提高了命名實體識別的效果。

2 模型

2.1 字嵌入

詞嵌入通過在一個連續(xù)的低維度空間中表示單詞，能夠捕獲詞匯的語義或語法的屬性，即相似的單詞會用相似的低維度向量表示，詞嵌入已經(jīng)在各種自然語言處理任務(wù)中取得了較好的效果［14］。而對于中文語言處理，由于沒有詞邊界，因此會為每一個漢字訓(xùn)練一個字嵌入，這時通常會存在一個大小為|C|字符字典C，該字符字典一般從訓(xùn)練集中提取，部分未知字符將會人工標(biāo)注為一個特定的符號添加到字典中去。每一個中文字符c∈C會被表示成一個實向量vc∈Rd，其中d為向量空間的維數(shù)，然后該向量會被加入到字嵌入矩陣M∈Rd×||C中去。在本文中，字嵌入向量將通過word2vec［15］獲取，作為2.2中分詞系統(tǒng)的輸入。

2.2 LSTM中文分詞

LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的擴(kuò)展，用來避免RNN長期依賴問題，是目前應(yīng)用廣泛的分詞模型，它的核心是一個記憶細(xì)胞c用來保持和更新當(dāng)前狀態(tài)。記憶細(xì)胞的行為由三個“門”控制：輸入門（i）、忘記門（f）和輸出門（o）。定義在門上的操作為元素依次相乘，因此當(dāng)門為非零向量是可以對輸入進(jìn)行縮放，當(dāng)門為零向量時可以忽略此時的輸入。輸出門上的輸出將會反饋給下一時刻t+1作為隱藏狀態(tài)以及作為神經(jīng)網(wǎng)絡(luò)當(dāng)前時刻t的上一層輸入?！伴T”的定義以及細(xì)胞的更新和輸出如下：

其中σ表示sigmoid函數(shù)，tanh表示雙曲正切函數(shù)；i(t)，f(t)，o(t)，c(t)，分表示表示輸入門，忘記門，輸出門以及記憶細(xì)胞在時刻t的激活向量，均與隱藏向量h(t)∈RH2大小相同；帶有不同下標(biāo)的參數(shù)矩陣Ws均為方陣，其中Wic，Wfc，Woc為對角矩陣。

在中文分詞任務(wù)中，LSTM記憶單元的輸入來自上下文窗口的漢字，對于每一個漢字，記憶單元的輸入為

由c(t-k1):(t+k2)中的字嵌入連接而成，其中k和k12分別表示距離當(dāng)前漢字向左或向右的索引位置。其輸出會經(jīng)過一個線性變換：

之后，通過推理函數(shù)：

來計算整個句子分詞標(biāo)注序列級總得分。

已有的研究工作中常用的標(biāo)注集有三種［16］：二詞位、四詞位和六詞位標(biāo)注集，各詞位標(biāo)注集的定義如表1所示。

表1 三類詞位標(biāo)注集的定義

以上各詞位標(biāo)注都是在不斷強(qiáng)化詞位置信息，而忽略了詞性信息，考慮到詞性是信息抽取中一個常用且有效的特征，且命名實體大多為名詞和動詞，極少含有形容詞、量詞和代詞等其他詞性的詞語且大多數(shù)命名實體都在兩個字及意思，為了減少標(biāo)記任務(wù)的求解空間，本文采用三詞性-四詞位標(biāo)注集作為LSTM的分詞標(biāo)注，標(biāo)注集的定義如表2所示。

表2 三詞性-四詞位標(biāo)注集

2.3 CRFs命名實體識別

條件隨機(jī)場（Conditional random fields）是一種用來計算在給定輸入隨機(jī)變量時，輸出隨機(jī)變量的條件概率的無向圖模型，它結(jié)合了最大熵模型和隱馬爾可夫模型的特征，具有表達(dá)長距離依賴性和交疊性特征的能力，能夠較好地解決標(biāo)注偏置等問題，因此在命名實體識別等方面有著廣泛的應(yīng)用。

線性鏈CRFs是基于一階馬爾科夫鏈的假設(shè)，對于給定的觀測序列o=＜o(jì)1,o2,…oT＞，其對應(yīng)的狀態(tài)序列s‘的概率定義如式（9）：

其中Λ為模型的參數(shù)集，Z0為所有狀態(tài)序列上的歸一化因子，λk為特征權(quán)重可在模型訓(xùn)練中采用極大似然估計獲得，fk為二值特征函數(shù)。

本文利用鏈?zhǔn)綏l件隨機(jī)場的推理過程對微博文本的觀測序列和訓(xùn)練產(chǎn)生的參數(shù)λ，找出一個能夠準(zhǔn)確標(biāo)注微博文本中命名實體的最優(yōu)標(biāo)記，利用維特比算法求取后驗概率Y*=argmaxp(Y|X)最大時的標(biāo)記序列。

確定求解過程之后，需要選擇對應(yīng)的文本特征，此處特征選取依然基于字級別的特征，由于2.2中的LSTM中文分詞已經(jīng)提供了當(dāng)前字符詳細(xì)的分詞信息，因此可以大大簡化特征模板。文獻(xiàn)［17］選取了比較合適的基于詞語的特征模板和標(biāo)記集合用于微博命名實體識別以及事件抽取，并取得相對較好的結(jié)果，本文將其特征模板和標(biāo)記集合進(jìn)行適當(dāng)修改，選取了一個大小為5的觀測窗口用來提取當(dāng)前字符的上下文特征，用來構(gòu)建特征模板，具體含義如表3所示。

表3 CRFs特征模板

由于特征模板是基于字級別的特征，所以本文定義了一個基于實體位置的標(biāo)記集合用來表示當(dāng)前字的實體類型，如表4所示。

表4 實體類型標(biāo)注集合

3 實驗與分析

3.1 數(shù)據(jù)集

本文利用新浪微博平臺提供的接口隨機(jī)抽取了2015年9月到2017年4月份的21之間的未標(biāo)注的1，404，026條微博用于訓(xùn)練word2vec字嵌入，word2vec采用Skip-Gram訓(xùn)練目標(biāo)，參數(shù)設(shè)置為默認(rèn)值，所有的字嵌入為100維。

然后又抽取了同時間段的2600條至少包含三個命名實體的微博作為命名實體識別的語料庫，其中1800條經(jīng)過人工添加分詞標(biāo)注以及命名實體類型標(biāo)注作為訓(xùn)練集，剩下未標(biāo)注800條作為測試集。

3.2 實驗設(shè)計

本文設(shè)置了3組實驗。

1）ICTCLAS+四詞位標(biāo)注：利用ICTCLAS2016分詞軟件對微博文本進(jìn)行分詞，然后依照2.3構(gòu)建CRFs特征模板進(jìn)行命名實體識別。

2）LSTM+四詞位標(biāo)注：利用LSTM神經(jīng)網(wǎng)絡(luò)模型對微博文本進(jìn)行中文分詞，沿用文獻(xiàn)［18］的LSTM分詞模型的參數(shù)設(shè)置，分詞結(jié)果采用四位詞標(biāo)注結(jié)果，然后依照2.3構(gòu)建CRFs特征模板進(jìn)行命名實體識別。

3）LSTM+三詞性-四詞位標(biāo)注：用LSTM神經(jīng)網(wǎng)絡(luò)模型對微博文本進(jìn)行中文分詞沿用Chen等LSTM分詞模型參數(shù)設(shè)置，分詞結(jié)果采用三詞性-四詞位標(biāo)注結(jié)果，然后依照2.3構(gòu)建CRFs特征模板進(jìn)行命名實體識別。

3.3 實驗結(jié)果

在命名實體識別性能評估中，采用了的P（準(zhǔn)確率）、R（召回率）和F（綜合指F值）等評測指標(biāo)，以F值為主要評測指標(biāo)。

通過對測試集中的800條微博文本人工標(biāo)記命名實體類型，將以上三組實驗的處理結(jié)果與人工標(biāo)注結(jié)果進(jìn)行對比，分別得到每組實驗的P值，R值以及F值如表5所示。

表5 不同實驗結(jié)果的比較

實驗表明，相比于通用分詞軟件，本文使用特定的微博文本對LSTM神經(jīng)網(wǎng)絡(luò)分詞模型進(jìn)行訓(xùn)練得到的分詞結(jié)果能夠明顯提升中文微博命名實體識別的效果；而在分詞標(biāo)注中添加了詞性信息在一定程度上也提高了命名實體識別的的效果。

4 結(jié)語

本文結(jié)合目前應(yīng)用廣泛的LSTM中文分詞模型以及CRFs命名實體識別模型，通過特定的訓(xùn)練集以及改進(jìn)的分詞標(biāo)注集，能夠有效提升中文微博命名實體識別的效果，但也存在以下兩點不足：1）只能針對特定中文微博文本領(lǐng)域；2）需要大量的人工標(biāo)注。因此后續(xù)的研究工作要著重于將該方法應(yīng)用到開放領(lǐng)域，以及尋找一種自動標(biāo)注的機(jī)器學(xué)習(xí)方法進(jìn)行改善。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡