李書欽 劉召 史運濤
摘? 要: 針對食品安全領域案件高發(fā)的突出問題,采用條件隨機場模型對食品安全裁判文書的命名實體進行識別?;贖anLP平臺和引入自定義詞典,識別裁判文書中的人名、地名、機構(gòu)名、食品、毒害物、危害后果等命名實體,取得了較好的識別效果。實驗結(jié)果表明,基于條件隨機場模型的命名實體識別方法是有效的,有助于自動識別食品安全裁判文書中的相關(guān)實體,構(gòu)建食品安全知識圖譜。
關(guān)鍵詞: 食品安全; 裁判文書; 條件隨機場; 命名實體識別
中圖分類號:TP391.1? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2020)10-01-03
Abstract: Aiming at the prominent problem of high incidence of cases in the field of food safety, the conditional random field model is adopted to identify named entities of food safety judgment documents. Based on HanLP platform, the custom dictionary was introduced to identify the person name, place name, organization name, food name, poison content and harmful consequences, and other named entities in the food safety judgment documents, which achieves good recognition effect. The experimental results show that the named entity recognition method based on conditional random field model is effective, which can help to automatically identify the related entities in the food safety judgment documents and construct the food safety knowledge graph.
Key words: food safety; judgment document; conditional random field; named entity recognition
0 引言
在命名實體識別研究領域,徐飛等[1]根據(jù)食品安全事件語料庫,構(gòu)造內(nèi)部和外部特征模板,實現(xiàn)了人名和機構(gòu)名兩類命名實體的識別。唐釗[2]基于條件隨機場模型,通過二次識別,解決了上下文環(huán)境中的人名識別問題。張劍[3]等用自定義標注集對農(nóng)業(yè)命名實體進行標注,通過ICTCLAS分詞系統(tǒng)進行分詞,添加多種特征提高了識別率。張華平等[4]采用Viterbi算法進行模式匹配和角色標注,實現(xiàn)了真實語料庫中的中國人名識別。俞鴻魁等[5]采用層疊隱馬爾科夫模型,識別出大規(guī)模真實語料庫中的人名、地名和機構(gòu)名。郭劍毅等[6]基于層疊條件隨機場模型,結(jié)合旅游景點常用特征詞典和復雜特征,實現(xiàn)旅游領域景點、特產(chǎn)風味和地點的識別,相比HMM模型,具有較高的正確率和召回率。葉楓等[7]利用條件隨機場工具CRF++,以詞性、詞邊界、構(gòu)詞特征、上下文等為特征集,對中文病歷中的疾病、臨床癥狀和手術(shù)操作三類命名實體進行識別,取得了良好效果。楊錦鋒等[8]構(gòu)建了中文電子病歷標注語料庫,用于電子病例命名實體識別,對于個性化醫(yī)療服務和臨床決策支持具有重要意義。鞠久朋等[9]提出一種CRF與規(guī)則相結(jié)合的方法,識別地理空間中的地名及機構(gòu)名,具有較高的識別準確率。
2014年1月1日,《最高人民法院關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》正式實施,覆蓋民事、刑事、賠償、執(zhí)行等不同案件類型的裁判文書在互聯(lián)網(wǎng)公開。本文擬面向食品安全裁判文書,識別其中的人名、地名、機構(gòu)名、食品、毒害物、危害后果等命名的實體,對食品安全案件的預測預警和情報分析提供參考,顯著提升針對食品犯罪活動的主動發(fā)現(xiàn)能力。
1 命名實體識別
命名實體識別(Named Entity Recognition,NER)是自然語言處理中重要的預處理模塊,是機器翻譯、句法分析、信息抽取等任務的基礎。MUC-7(The Seventh Message Understanding Conferences)會議將命名實體細化為7類:人名(Person)、地名(Location)、機構(gòu)名(Organization)、日期(data)、時間(time)、百分數(shù)(percentage)、金額(monetary value)等。中文命名實體識別的核心在于確定文本中命名實體的邊界,由于中文不同于西方語言,沒有明確的詞語邊界,不具備良好的字形特征,在實體詞之間,實體詞與非實體詞之間存在邊界模糊等問題,使得中文命名實體識別難度較大。
本文從食品安全裁判文書中,快速、準確地識別相關(guān)命名實體,先提取人名、地名、組織機構(gòu)名,比如人名實體包括:原告、被告、法官、委托代理人等;組織機構(gòu)名主要指與案情相關(guān)的機構(gòu),如公安機關(guān)、法院、律師事務所等;地名實體用來表達案發(fā)地點。由于面向食品安全領域,在對通用的命名實體進行識別之后,還需識別食品、毒害物、危害后果等命名實體。本文采用的命名實體識別流程如圖1所示,首先對食品安全裁判文書中的文本進行句子分割,得到字符串序列,然后進行中文分詞,得到標識后的句子,接著進行詞性標注,返回標注后的句子,在此基礎上,進行命名實體識別,最終得到分塊后的句子,即命名實體。
2 基于條件隨機場的命名實體識別
條件隨機場CRF(Conditional Random Fields)是一種無向圖模型,在給定輸入結(jié)點值時,計算指定輸出結(jié)點值的條件概率,該模型有效地解決了隱馬爾科夫模型的獨立性假設、基于最大熵的馬爾科夫模型標記偏執(zhí)等問題,在分詞和命名實體識別領域有較高的識別率。CRF采用基于序列標注的機器學習方法,主要涉及中文分詞、詞性標注、訓練語料生成、特征定義和模型訓練。
則稱[P(Y|X)]為線性鏈CRF。在標注問題中,[X]表示輸入觀測序列,[Y]表示對應的狀態(tài)序列或輸出標記序列。已知訓練數(shù)據(jù)集,線性鏈CRF可通過極大似然估計得到條件概率模型。CRF通過定義權(quán)重系數(shù)和特征函數(shù)轉(zhuǎn)化為機器學習問題,具有如下形式:
其中,[P(y|x)]表示某個標簽序列的概率,[λa]和[μb]表示對應特征函數(shù)的權(quán)重參數(shù),[ta]代表定義在[Y]節(jié)點上下文的特征函數(shù),[Sb]為定義在[Y]節(jié)點上的特征函數(shù)[10]。CRF的預測問題是在給定[P(Y|X)]和輸入序列[x]的前提下,求條件概率最大的輸出序列[y*]。CRF預測算法如下所示。
3 實驗結(jié)果與分析
本研究從無訟網(wǎng)公開的裁判文書中,下載3000余份食品安全相關(guān)文書,使用語言技術(shù)平臺HanLP[11]進行分詞、詞性標注及命名實體識別處理,與名詞實體相關(guān)的HanLP詞性標注集如表1所示。
以裁判文書文本“2017年1月19日,被告人王從華在蕭縣文化路某排檔鹵制羊蹄時添加了過量的亞硝酸鹽。被害人金某食用后發(fā)生中毒。被告人王從華于2017年3月15日17時許到蕭縣公安局投案?!睘槔?,分詞結(jié)果為“2017/m,年/qt,1月/t,19/m,日/b,,/w,被告人/n,王從華/nr,在/p,蕭縣/ns,文化路/ns,某/rz,排檔/nz,鹵制/n,羊蹄/nz,時/qt,添加/v,了/ule,過量/vi,的/ude1,亞硝酸鹽/n,。/w,被害人/n,金某/nr,食用/vn,后/f,發(fā)生/v,中毒/vi,。/w,被告人/n,王從華/nr,于/p,2017/m,年/qt,3月/t,15/m,日/b,17/m,時許/nr,到/v,蕭縣公安局/nto,投案/vi,。/w”。統(tǒng)計出的命名實體如表2所示。
參考一系列食品安全國家標準(GB 2760-2017,GB 2761-2017等),收集整理食品詞典共370個詞,毒害物詞典320個詞,危害后果詞典30個詞,將上述詞典增加到HanLP平臺的自定義詞典中,重新分詞,結(jié)果為“/w,2017/m,年/qt,1月/t,19/m,日/b,,/w,被告人/n,王從華/nr,在/p,蕭縣/ns,文化路/ns,某/rz,排檔/nz,鹵/n,制/v,羊蹄/food,時/qt,添加/v,了/ule,過量/vi,的/ude1,亞硝酸鹽/poison,。/w,被害人/n,金某/nr,食用/vn,后/f,發(fā)生/v,中毒/consequence,。/w,被告人/n,王從華/nr,于/p,2017/m,年/qt,3月/t,15/m,日/b,17/m,時許/nr,到/v,蕭縣公安局/nt,投案/vi,。/w”。自定義詞典識別出的命名實體為:食品/羊蹄,毒害物/亞硝酸鹽,危害后果/中毒。
從以上結(jié)果可以看出,默認情況下,HanLP平臺將食品“羊蹄”識別為“其他專名”,將毒害物“亞硝酸鹽”識別為“名詞”,將危害后果“中毒”識別為“動詞”。在加入自定義詞典后,將“羊蹄”識別為“食品名稱”,將“亞硝酸鹽”識別為“毒害物名稱”,將 “中毒”識別為“危害后果”,模型對食品安全相關(guān)命名實體的識別效果也有了相應的提高。
4 結(jié)束語
本研究采用基于條件隨機場的命名實體識別方法,以無訟案例網(wǎng)中3000余例食品安全裁判文書為數(shù)據(jù)樣本,進行自然語言分析,實現(xiàn)了非結(jié)構(gòu)化文本數(shù)據(jù)中關(guān)鍵命名實體(人名、地名、組織機構(gòu)名、食品、毒害物、危害后果)的提取,取得了比較好的效果,對于食品安全相關(guān)案件的犯罪預測預警,具有重要的理論和實踐意義。下一步,在命名實體識別的基礎上,繼續(xù)研究食品安全實體關(guān)系抽取,進而構(gòu)建食品安全知識圖譜。
參考文獻(References):
[1] 徐飛,宋英華.海量食品安全事件下的命名實體識別研究[J].科研管理,2018.39(7):131-138
[2] 唐釗.條件隨機場模型在中文人名識別中的研究與實現(xiàn)[J].現(xiàn)代計算機(專業(yè)版),2012.21:3-7
[3] 張劍,吳青,羊昕旖等.基于條件隨機場的農(nóng)業(yè)命名實體識別[J].計算機與現(xiàn)代化,2018.1:123-126
[4] 張華平,劉群.基于角色標注的中國人名自動識別研究[J].計算機學報,2004.1:85-91
[5] 俞鴻魁,張華平,劉群等.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學報,2006.2:87-94
[6] 郭劍毅,薛征山,余正濤等.基于層疊條件隨機場的旅游領域命名實體識別[J].中文信息學報,2009.23(5):47-52
[7] 葉楓,陳鶯鶯,周根貴等.電子病歷中命名實體的智能識別[J].中國生物醫(yī)學工程學報,2011.30(2):256-262
[8] 楊錦鋒,關(guān)毅,何彬等.中文電子病歷命名實體和實體關(guān)系語料庫構(gòu)建[J].軟件學報,2016.27(11):2725-2746
[9] 鞠久朋,張偉偉,寧建軍,等.CRF與規(guī)則相結(jié)合的地理空間命名實體識別[J].計算機工程,2011.37(7):210-212,215
[10] 李航.統(tǒng)計學習方法[M].清華大學出版社,2012.
[11] https://github.com/hankcs/HanLP.