劉彤 魏靜 倪維健 陳思源
摘 要:傳統(tǒng)基于統(tǒng)計(jì)的命名實(shí)體識(shí)別方法存在需要大量人工標(biāo)注的缺陷,導(dǎo)致識(shí)別準(zhǔn)確率較低。為了提升識(shí)別效果,提出一種基于條件隨機(jī)場的半監(jiān)督學(xué)習(xí)方法(S-CRF)對命名實(shí)體進(jìn)行識(shí)別。該方法將實(shí)體識(shí)別看作序列標(biāo)注問題,對少量數(shù)據(jù)進(jìn)行人工標(biāo)注并構(gòu)建實(shí)體集,通過K-means聚類算法選取有代表性的未標(biāo)注數(shù)據(jù)文本進(jìn)行自動(dòng)標(biāo)注,采用條件隨機(jī)場對語料進(jìn)行訓(xùn)練測試。選取中文應(yīng)急預(yù)案文檔進(jìn)行實(shí)驗(yàn),該方法在各個(gè)標(biāo)簽上的識(shí)別效果分別達(dá)到93.52%、93.04%、95.81%。實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于傳統(tǒng)規(guī)則方法,能有效提高應(yīng)急預(yù)案命名實(shí)體的識(shí)別效果。
關(guān)鍵詞:應(yīng)急預(yù)案;命名實(shí)體識(shí)別;條件隨機(jī)場;半監(jiān)督學(xué)習(xí)
DOI:10. 11907/rjdk. 192096
中圖分類號(hào):TP301 ? 文獻(xiàn)標(biāo)識(shí)碼:A??????????????? 文章編號(hào):1672-7800(2020)003-0035-04
Entity Identification Based on Semi-supervised Learning and CRF
LIU Tong, WEI Jing, NI Wei-jian, CHEN Si-yuan
(College of Computer Science and Engineering,Shandong University of Science and Technology,Qingdao 266590,China)
Abstract:The traditional statistical-based named entity recognition method requires large number of manual labeling defects, resulting in low recognition accuracy. In order to improve the recognition effect, we propose a method of conditional random field semi-supervised learning method (S-CRF) to identify and extract named entities. This method regards the entity recognition as the sequence labeling problem, manually label small amounts of data and constructed entity set. The K-means clustering algorithm is used to select representative unlabeled data texts for automatic labeling, and the conditional random field is used to sequence the corpus. The Chinese emergency plan document was selected for experiment. The accuracy of the B, M, and O labels reached 93.52%, 93.04% and 95.81%, respectively. The experimental results show that the method is superior to the traditional rules method and can effectively improve the identification effect of named entity of the contingency plan.
Key Words: emergency plan; named entity identification; conditional random field; semi-supervised learning
0 引言
現(xiàn)代社會(huì)中出現(xiàn)的各種突發(fā)事件通常具有規(guī)模大、復(fù)雜度高等特征,各級政府和單位需要設(shè)置合理的機(jī)構(gòu)應(yīng)對突發(fā)事件。因此,各省都制定了多種類型且精準(zhǔn)的應(yīng)急預(yù)案體系。自然語言作為一個(gè)應(yīng)急預(yù)案文檔的主要組成成分,其包含命名實(shí)體和非命名實(shí)體,其中命名實(shí)體是指人名、地名、機(jī)構(gòu)名等專有名詞及其它名稱實(shí)體(時(shí)間、日期等)[1]。命名實(shí)體識(shí)別是指對這些詞進(jìn)行識(shí)別、整理歸類與分析。命名實(shí)體識(shí)別是NLP處理領(lǐng)域的問題,在機(jī)器翻譯和信息檢索抽取等方面應(yīng)用廣泛,能否正確識(shí)別命名實(shí)體決定著信息抽取效率[1]。目前,國內(nèi)外針對命名實(shí)體識(shí)別的研究方法主要有傳統(tǒng)識(shí)別方法和神經(jīng)網(wǎng)絡(luò)方法,對諸多領(lǐng)域的命名實(shí)體識(shí)別研究已較為成熟,并且取得了較好效果,但對中文應(yīng)急預(yù)案文本方面的研究較少。因此,對中文應(yīng)急預(yù)案文本進(jìn)行命名實(shí)體識(shí)別,提取出其中的組織機(jī)構(gòu)名,對于后續(xù)組織間關(guān)系效率研究具有一定的實(shí)際意義。
本文選擇中文應(yīng)急預(yù)案文本為實(shí)例展開研究,采用提出的基于半監(jiān)督學(xué)習(xí)與傳統(tǒng)規(guī)則的條件隨機(jī)場(CRF)方法提取組織機(jī)構(gòu),將中文命名實(shí)體識(shí)別任務(wù)分為兩步:首先通過NLPIR漢語系統(tǒng)進(jìn)行分詞,在分詞基礎(chǔ)上人工標(biāo)注命名實(shí)體,獲得少量標(biāo)注數(shù)據(jù);其次考慮到機(jī)構(gòu)名在文本中出現(xiàn)的頻率與上下文語境不同,導(dǎo)致識(shí)別出的組織機(jī)構(gòu)名不準(zhǔn)確,因此在提取的基礎(chǔ)上用命名實(shí)體詞表對未標(biāo)注文本進(jìn)行自動(dòng)標(biāo)注,并采用條件隨機(jī)場模型(CRF)進(jìn)行訓(xùn)練測試。實(shí)驗(yàn)結(jié)果表明,本文方法引入自動(dòng)標(biāo)注后,對機(jī)構(gòu)名識(shí)別的準(zhǔn)確率高于傳統(tǒng)基于條件隨機(jī)場的方法,可有效提升識(shí)別效果。
1 相關(guān)工作
1995年11月,第六屆 MUC會(huì)議(MUC-6,the Sixth Message Understanding Conferences)上首次提出命名實(shí)體識(shí)別任務(wù)。命名實(shí)體識(shí)別主要是對文中的地名、人名、機(jī)構(gòu)名等進(jìn)行識(shí)別,目前用于命名實(shí)體識(shí)別的方法主要有基于規(guī)則的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法與基于深度學(xué)習(xí)的方法。如Collins等[2]提出DL-CoTrain 方法,該方法首先定義規(guī)則集Decision List,然后通過對該集合進(jìn)行無監(jiān)督訓(xùn)練獲得更多規(guī)則,其對人名、地名與機(jī)構(gòu)名的分類準(zhǔn)確率均達(dá)到91%; Cucerzan等[3]基于知識(shí)數(shù)據(jù)庫與手動(dòng)注釋語料庫成本,提出用Bootstrapping 自動(dòng)進(jìn)行規(guī)則生成的方法;朱顥東等[1]提出一種將規(guī)則與統(tǒng)計(jì)相結(jié)合的中文微博命名實(shí)體識(shí)別方法,該方法首先利用微博主題標(biāo)簽對數(shù)據(jù)進(jìn)行篩選,選擇適當(dāng)?shù)奶卣髂0澹缓罄肅RF進(jìn)行實(shí)體識(shí)別,有效提高了實(shí)體識(shí)別效果;孫靜等[4]首先利用詞典對文本進(jìn)行詞性標(biāo)注,獲得初始標(biāo)注語料,然后利用CRFs進(jìn)行反復(fù)訓(xùn)練,使最終識(shí)別準(zhǔn)確率提高了1.88%~2.26%;鄔倫等[5]將地名構(gòu)成與使用特征融入到條件隨機(jī)場方法中,通過引入語言學(xué)知識(shí),將地名識(shí)別問題轉(zhuǎn)化為序列標(biāo)注問題,使地名識(shí)別召回率、準(zhǔn)確率和F值分別達(dá)到92.69%、96.37%和94.67%,有效提高了識(shí)別效果;彭嘉毅等[6]提出一種基于字符特征、雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)與條件隨機(jī)場(CRF)的信息安全領(lǐng)域命名實(shí)體識(shí)別方法,該方法無需人工提取特征,而是利用CRF對神經(jīng)網(wǎng)絡(luò)模型標(biāo)注的序列進(jìn)行約束,有效提高了識(shí)別準(zhǔn)確率。基于以上分析,命名實(shí)體識(shí)別方法已應(yīng)用十分廣泛,因此本文考慮到應(yīng)急預(yù)案組織機(jī)構(gòu)名種類繁雜,以及上下文語義和機(jī)構(gòu)名全稱與簡稱,提出一種基于條件隨機(jī)場的半監(jiān)督學(xué)習(xí)方法(S-CRF)對機(jī)構(gòu)名進(jìn)行識(shí)別與提取。
2 條件隨機(jī)場模型介紹
JohnLafferty 等在2001年首次提出一種判別式概率—條件隨機(jī)場模型(Conditional Random Fields,CRF),該模型已被應(yīng)用于實(shí)體識(shí)別、信息抽取等相關(guān)領(lǐng)域。
在應(yīng)急預(yù)案命名實(shí)體識(shí)別任務(wù)中,設(shè)[P(y|x)]為線性條件隨機(jī)場模型,則在給定觀察序列x={x1,x2,…,xi}和預(yù)測序列y={y1,y2, …,yi}條件下定義為以下形式:
式(1)中,[tk]、[sl]為自定義特征模板函數(shù),[λk]、[ul]為學(xué)習(xí)得到的參數(shù),即特征權(quán)值。式(2)中的Z(x)為歸一化函數(shù),使所有可能序列標(biāo)注和為1。本文采用開源條件隨機(jī)場工具包CRF++0.58,在尋找特征后可以自動(dòng)生成特征函數(shù)。
3 命名實(shí)體識(shí)別
本文將從應(yīng)急預(yù)案中抽取組織機(jī)構(gòu)的過程抽象化為序列標(biāo)注問題,即對文本中的組織機(jī)構(gòu)附以相應(yīng)標(biāo)簽,根據(jù)標(biāo)簽提取出各個(gè)組織機(jī)構(gòu)。序列標(biāo)注問題采用傳統(tǒng)條件隨機(jī)場(Conditional Random Fields,CRF)監(jiān)督屬性實(shí)體識(shí)別方法。
3.1 文本序列標(biāo)注
本文采用常用的BMO三標(biāo)注法對組織機(jī)構(gòu)進(jìn)行標(biāo)注,B表示當(dāng)前組織機(jī)構(gòu)的開始;M表示當(dāng)前組織機(jī)構(gòu)的延續(xù)和結(jié)束;O表示任意非實(shí)體。圖1為一個(gè)文本標(biāo)注實(shí)例,各標(biāo)簽具體含義如表1所示。
3.2 基于半監(jiān)督學(xué)習(xí)的CRF模型
對于傳統(tǒng)監(jiān)督學(xué)習(xí),訓(xùn)練數(shù)據(jù)模型需要大量已標(biāo)注數(shù)據(jù),由于文本數(shù)量大且類型繁多,人工標(biāo)注時(shí)間成本有限,因此需要從眾多未標(biāo)注文本中選擇代表性的文本進(jìn)行自動(dòng)標(biāo)注。如王新建等[7]采用隨機(jī)選取的方法獲取所需的自動(dòng)標(biāo)注文本集,但隨機(jī)選取的方法容易使選出的樣本不具有代表性,使得最終的準(zhǔn)確率較低。因此,本文在已有研究基礎(chǔ)上采用K-means聚類算法對未標(biāo)注文本進(jìn)行劃分。該算法思想是先采用K-means聚類算法對未標(biāo)注文本進(jìn)行聚類,將其分成不同類型的集合,最后從不同類型集合中選取有代表性的文本進(jìn)行自動(dòng)標(biāo)注,獲得自動(dòng)標(biāo)注文本集。該算法流程如圖2所示。
基于以上算法對不同類型文本中經(jīng)常出現(xiàn)的組織機(jī)構(gòu)進(jìn)行自動(dòng)標(biāo)注,以圖1所示的文本標(biāo)注為例,“市應(yīng)急委員會(huì)辦公室”和“市信息辦”是在各市區(qū)常設(shè)的組織機(jī)構(gòu),在很多應(yīng)急預(yù)案文本中都會(huì)出現(xiàn)。已標(biāo)注實(shí)體在一定程度上能反映未標(biāo)注文本中出現(xiàn)的實(shí)體信息,但由于實(shí)體所在文本位置中的上下文語義不同,可能導(dǎo)致無法識(shí)別,從而使最終準(zhǔn)確率較低?;谝陨戏治?,對文本進(jìn)行自動(dòng)預(yù)標(biāo)注步驟如下:
Step 1:構(gòu)建實(shí)體詞表。根據(jù)人工標(biāo)注結(jié)果構(gòu)建實(shí)體詞表。
Step 2:對應(yīng)急預(yù)案文本進(jìn)行預(yù)處理。
Step 3:自動(dòng)預(yù)標(biāo)注。利用構(gòu)建的實(shí)體詞表對未標(biāo)注文本進(jìn)行處理,如果文本中的實(shí)體出現(xiàn)在實(shí)體詞表中,則直接被標(biāo)注為相應(yīng)實(shí)體標(biāo)簽。
Step 4:重復(fù)Step 3,直到所有未標(biāo)注文本全部自動(dòng)標(biāo)注完畢。
3.3 特征模板選取
特征模板是對自然語言文本結(jié)構(gòu)與規(guī)律的表示,對組織機(jī)構(gòu)進(jìn)行標(biāo)注后,需要設(shè)計(jì)合理的特征模板以生成訓(xùn)練語料庫。每個(gè)應(yīng)急預(yù)案中組織機(jī)構(gòu)名存在的語義環(huán)境不同,因此在定義條件隨機(jī)場特征模板時(shí),要考慮上下文特征與詞性特征。上下文特征是指將當(dāng)前詞位置前n個(gè)詞與后n個(gè)詞融合的信息,詞性特征是指將實(shí)體詞所在當(dāng)前位置前后詞詞性融合的信息。文本標(biāo)注實(shí)例如表2所示。
根據(jù)表2的文本標(biāo)注實(shí)例,考慮到上下文語義和詞性特征,設(shè)置特征模板如下:
# Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U05:%x[-1,0]/%x[0,0]
U07:%x[0,0]/%x[1,0]
U08:%x[-1,1]/%x[0,1]/%x[1,1]
U09:%x[0,1]/%x[1,1]/%x[2,1]
U10: %x[-1,1]/%x[0,1]
U11: %x[0,1]/%x[1,1]
U12: %x[-1,1]
U13: %x[0,1]
…
4 實(shí)驗(yàn)部分
4.1 實(shí)驗(yàn)數(shù)據(jù)
本文選擇中文應(yīng)急預(yù)案文本為實(shí)例展開研究,爬取各省人民政府網(wǎng)站中的應(yīng)急預(yù)案文本共902篇作為實(shí)驗(yàn)數(shù)據(jù)。針對各省不同類型的預(yù)案選取50篇文檔,對文本實(shí)體進(jìn)行人工標(biāo)注,采用K-means聚類算法[9]進(jìn)行聚類后,選取100篇有代表性的未標(biāo)注文本進(jìn)行自動(dòng)標(biāo)注,并賦予相應(yīng)標(biāo)簽,然后用條件隨機(jī)場模型進(jìn)行訓(xùn)練測試,并從標(biāo)注文檔中隨機(jī)選取20篇文檔作為測試數(shù)據(jù)用于模型評價(jià)。
4.2 應(yīng)急預(yù)案文檔規(guī)范化
中文應(yīng)急預(yù)案文本命名實(shí)體識(shí)別的困難之處主要是預(yù)案類型多,包含的實(shí)體名比較繁雜,實(shí)體所在位置前后語義也會(huì)對識(shí)別造成干擾。因此,對文本作進(jìn)一步規(guī)范化處理是十分必要的,如去除文本中的干擾符號(hào)。由于文本的多樣化,其包含許多標(biāo)點(diǎn)符號(hào)和其它語言文本(如:市、縣(市、區(qū))抗震救災(zāi)指揮部等構(gòu)成),這些標(biāo)點(diǎn)符號(hào)在實(shí)體識(shí)別過程中會(huì)造成一定干擾,因此可以直接刪除。
4.3 對比實(shí)驗(yàn)
為了驗(yàn)證本文方法的有效性,分別對本文提出的實(shí)體識(shí)別方法(S-CRF)、傳統(tǒng)條件隨機(jī)場模型(CRF)與基于規(guī)則(RULL)的方法進(jìn)行對比分析。
(1) S-CRF方法:人工標(biāo)注50篇文檔與自動(dòng)標(biāo)注100篇文檔構(gòu)成訓(xùn)練實(shí)體模型。
(2) 傳統(tǒng)條件隨機(jī)場模型(CRF):人工隨機(jī)標(biāo)注50篇文檔進(jìn)行CRF模型訓(xùn)練。
(3) 基于規(guī)則(RULL)的方法:通過制定相應(yīng)規(guī)則對機(jī)構(gòu)名進(jìn)行識(shí)別。
實(shí)驗(yàn)中采用準(zhǔn)確率(Precision)、召回率(Re-call)與F值評價(jià)識(shí)別效果,各方法識(shí)別結(jié)果分別如表3-表5所示。
從表中可以看出,在只利用條件隨機(jī)場模型與基于規(guī)則進(jìn)行命名實(shí)體識(shí)別的情況下,準(zhǔn)確率、召回率和F值都較低,而在加入自動(dòng)標(biāo)注和條件隨機(jī)場模型識(shí)別的情況下,準(zhǔn)確率和召回率都得到了提升。上述3個(gè)實(shí)驗(yàn)結(jié)果表明,本文提出的實(shí)體識(shí)別方法(S-CRF)能夠提高識(shí)別效果。
5 結(jié)語
本文提出采用基于條件隨機(jī)場的半監(jiān)督學(xué)習(xí)方法(S-CRF)提取中文應(yīng)急預(yù)案組織機(jī)構(gòu)名,將該任務(wù)視為序列標(biāo)注問題,利用少量標(biāo)注文本對未標(biāo)注文本進(jìn)行自動(dòng)標(biāo)注,并將其應(yīng)用于中文應(yīng)急預(yù)案組織機(jī)構(gòu)識(shí)別中,對收集的數(shù)據(jù)進(jìn)行規(guī)范化處理。綜合考慮組織機(jī)構(gòu)詞性特征和上下文語義特征,為條件隨機(jī)場構(gòu)建合適的特征模板和訓(xùn)練語料,采用自動(dòng)標(biāo)注彌補(bǔ)了傳統(tǒng)命名實(shí)體識(shí)別需要大量人工標(biāo)注數(shù)據(jù)的缺陷。通過對比實(shí)驗(yàn)表明,該方法能有效提高應(yīng)急預(yù)案命名實(shí)體識(shí)別效果。然而,本文研究還有待完善,下一步研究工作應(yīng)根據(jù)實(shí)際應(yīng)用進(jìn)一步優(yōu)化識(shí)別算法,將多模型融合與本文提出方法結(jié)合應(yīng)用到命名實(shí)體識(shí)別中,從而提高識(shí)別準(zhǔn)確率,同時(shí)還可將該方法應(yīng)用到人名、地名識(shí)別中。
參考文獻(xiàn):
[1]朱顥東,楊立志,丁溫雪,等.? 基于主題標(biāo)簽和 CRF的中文微博命名實(shí)體識(shí)別[J]. 華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,52(3):316-321.
[2]COLLINS M, SINGER Y. Unsupervised models for named entity classification[C]. Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, 1999: 100-110.
[3]CUCERZAN S,YAROWSKY D. Language independent named entity recognition combining morphological and contextual evidence[C]. Proceedings of the 1999 Joint SIGDAT Conference on EMNLP and VLC, 1999: 90-99.
[4]孫靜,李軍輝,周國棟. 基于條件隨機(jī)場的無監(jiān)督中文詞性標(biāo)注[J]. 計(jì)算機(jī)應(yīng)用與軟件,2011,28(4):21-23,46.
[5]鄔倫,劉磊,李浩然,等. 基于條件隨機(jī)場的中文地名識(shí)別方法[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2017, 42(2):150-156.
[6]彭嘉毅,方勇,黃城,等. 基于深度主動(dòng)學(xué)習(xí)的信息安全領(lǐng)域命名實(shí)體識(shí)別研究[J]. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,56(3):457-462.
[7]王新建,羅光舂,秦科,等. —種基于SVM和主動(dòng)學(xué)習(xí)的圖像檢索方法[J]. 計(jì)算機(jī)應(yīng)用研究,2016(12):3836-3838,3846.
[8]姚明海, 陳志浩.? 基于深度主動(dòng)學(xué)習(xí)的磁片表面缺陷檢測[J].? 計(jì)算機(jī)測量與控制, 2018(9):29-33.
[9]CSDN. K-means[EB/OL]. https://blog.csdn.net/zengxiantao1994/article/details/73441922.
[10]孫鎮(zhèn),王惠臨. 命名實(shí)體識(shí)別研究進(jìn)展綜述[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2010,26(6):42-47.
[11]CHADI H,SHADY E. Arabic named entity recognition via deep co-learning[J]. Artificial Intelligence Review,2019,52 (1):197-215.
[12]閆海磊,施水才. 一種面向時(shí)政新聞的命名實(shí)體識(shí)別方法[J]. 北京信息科技大學(xué)學(xué)報(bào),2018,33(6):23-43.
[13]房輝,湯文兵,桂海霞,等. 基于眾包標(biāo)注的中文微博命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)應(yīng)用與軟件,2019,36(3):255-270.
[14]張海楠,伍大勇,劉悅,等. 基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別[J]. 中文信息學(xué)報(bào),2017,31(4): 28-35.
[15]楊飄,董文永. 基于BERT嵌入的中文命名實(shí)體識(shí)別方法[J]. 計(jì)算機(jī)工程:1-7[2019-11-02]. https://doi.org/10.19678/j.issn. 1000-3428.0054272.
[16]張應(yīng)成,楊洋,蔣瑞,等. 基于BiLSTM-CRF的商情實(shí)體識(shí)別模型[J]. 計(jì)算機(jī)工程,2019,45(5):308-314.
[17]武惠,呂立,于碧輝. 基于遷移學(xué)習(xí)和 BiLSTM-CRF 的中文命名實(shí)體識(shí)別[J]. 小型微型計(jì)算機(jī)系統(tǒng),2019,40(6):1142-1147.
[18]陳鵬. 基于多核融合的中文領(lǐng)域?qū)嶓w關(guān)系抽取研究[D]. 昆明:昆明理工大學(xué),2014.
[19]唐釗. 條件隨機(jī)場模型在中文人名識(shí)別中的研究與實(shí)現(xiàn)[J]. 現(xiàn)代計(jì)算機(jī),2012,14(7):3-7.
(責(zé)任編輯:黃 健)
收稿日期:2019-08-02
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(71704096,61602278);青島市社科規(guī)劃項(xiàng)目(QDSKL1801122)
作者簡介:劉彤(1982-),女,博士,山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院副教授、碩士生導(dǎo)師,研究方向?yàn)閿?shù)據(jù)挖掘、人工智能;魏靜(1991-),女,山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院碩士研究生,研究方向?yàn)橹悄苄畔⑻幚怼⑿畔⑼诰?倪維?。?981-),男,博士,山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院副教授、碩士生導(dǎo)師,研究方向?yàn)槲谋就诰颉⑦^程挖掘;陳思源(1993-),女,山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院碩士研究生,研究方向?yàn)橹悄苄畔⑻幚?。本文通訊作者:倪維健。