国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

智能問答系統(tǒng)中命名實體識別問題研究

2017-09-09 15:08費建軍

費建軍

摘要:信息化時代的到來,人們從互聯(lián)網(wǎng)中快速獲得大量的信息。如何高效的從海量數(shù)據(jù)中獲取有用的資源的需求和人工智能的興起,促進了問答系統(tǒng)的發(fā)展。問答系統(tǒng)是構(gòu)架于信息抽取之上,其影響著知識庫的結(jié)構(gòu)和解析問句的方式。命名實體是信息抽取領(lǐng)域的一個子集。所以本文主要是針對實體識別模型進行研究,本文介紹了三中主流實體識別模型的,并將股票實體作為研究對象,最終采用了CRF(Conditional Random Field)條件隨機場模型。在該模型基礎(chǔ)上根據(jù)上下文和詞性特征,提出了CC-CRF識別算法。利用CRF++訓(xùn)練得到能夠識別代碼和名稱的CC-CRF實體識別模型。

關(guān)鍵詞:股票;命名實體識別;CRF模型

中圖分類號:TP391.6 文獻標識碼:A 文章編號:1007-9416(2017)07-0093-04

命名實體通常指的是現(xiàn)實中獨立存在的具體的或者抽象的事物[2]。如何使計算機能夠理解自然語言是智能問答系統(tǒng)需要解決的一個關(guān)鍵問題。自然語言處理的研究范圍包括詞法分析、信息抽取、自動文摘等[1]。 信息抽取領(lǐng)域中,命名實體識別作為重要分支[3],其任務(wù)是標注語句中的實體,所以命名實體的識別有著非常關(guān)鍵的意義。作為文本的基本單位,它包含大量的語義信息,因此對命名實體進行識別可以保證最簡單快捷的獲得文本信息。他存在的價值就是標注語句中的實體,實體的識別對正確解析自然語言有著極其重要的作用。識別的實體領(lǐng)域一般為人名、機構(gòu)名、地名以及專有名詞等。在實際研究中,還需要根據(jù)具體要求來確定。本文中,要識別的實體為股票名稱與股票代碼[4]。命名實體識別在問句處理和知識庫的構(gòu)建方面發(fā)揮著關(guān)鍵性的作用。

命名實體識別的方法主要有:基于規(guī)則和詞典的方法、基于統(tǒng)計的方法和二者混合的方法[5]。

本文介紹了四種命名實體識別模型(基于規(guī)則和詞典的方法、隱馬爾科模型、最大熵模型、條件隨機場模型)以及每種模型的優(yōu)缺點。在經(jīng)過對比并且結(jié)合股票命名實體的特點,選擇條件隨機場作為投資領(lǐng)域命名實體的模型。并在此基礎(chǔ)上提出了引入了上下文特征和詞性特征的CC-CRF識別算法。使用該模型對語料訓(xùn)練得到CC-CRF模型,并對模型的識別效果進行測試。

1 相關(guān)工作與常規(guī)實體識別模型

1.1 基于規(guī)則和詞典的方法

基于規(guī)則和詞典的方法的核心是規(guī)則模板構(gòu)造,但是模板的構(gòu)造必須由相關(guān)領(lǐng)域的專業(yè)人士來進行。用其來識別該領(lǐng)域的命名實體。這種方式是該領(lǐng)域剛剛起步時候的識別方式。這種方式的缺點十分明顯:成本太高、需要大量的人力時間構(gòu)造相關(guān)領(lǐng)域規(guī)則模板、可移植性差。因此此類方法不是本文的研究重點。

1.2 基于統(tǒng)計的方法

基于統(tǒng)計的方法的核心是機器學(xué)習(xí)。此類方法以訓(xùn)練語料為輸入,利用語料對模型進行訓(xùn)練,最終得到命名實體識別模型并輸出?;诮y(tǒng)計的方式不需要專業(yè)的語言學(xué)人才,也極大地降低了時間成本?;诮y(tǒng)計的方法主要包括:隱馬爾科夫模型、條件隨機場、最大熵模型等[6]。

1.2.1 隱馬爾科夫模型

馬爾科夫模型[7]用來描述一個隨機過程,該隨機過程不可被直接觀察,但是可以通過另外一個可觀察的隨機過程間接觀察。該模型有其局限性,他必須是建立在以下的條件上:嚴格的獨立性假設(shè),即觀察值只受狀態(tài)的影響,而不受其他條件的影響。并且作為一種產(chǎn)生式模型,它需要通過枚舉出所有可能的觀察序列來獲得標注序列和觀察序列的聯(lián)合概率。這對于長距離序列來說,窮舉所有的觀察序列是不現(xiàn)實的。

1.2.2 最大熵模型

為了保證概率預(yù)測的隨機性和正確性,在推測一個隨機事件的概率時,不要作出除了客觀約束條件規(guī)定以外的任何干涉。滿足上述要求的模型,熵值一定是最大的[8]。在自然語言處理中,熵就是信息的不確定程度。熵值越大,分布所受的干涉越少,預(yù)測越接近真實情況。最大熵模型不需要嚴格的獨立性假設(shè),上下文信息可以被充分挖掘。它避免了隱馬爾科夫模型的缺陷。另外,最大熵模型只需考慮如何選擇特征。但是最大熵模型的時間復(fù)雜度非常高,而且可能發(fā)生標記偏置的情況。

1.2.3 條件隨機場模型(CRF)

條件隨機場(conditional random field,CRF)模型指的是給定輸入變量的條件下得到輸出變量的條件概率[9]。對應(yīng)到命名實體識別中,條件隨機場即為判別給定觀察序列的標注序列的條件概率模型。條件隨機場模型既保留了最大熵模型和隱馬爾可夫模型的優(yōu)點,又克服了他們存在的缺陷。CRF模型不需要獨立性假設(shè)。它也避免了標記偏置問題。而且在性能上,條件隨機場要優(yōu)于其他兩種方式。然而,較高的時間和空間消耗是制約條件隨機場性能的缺點。

CRF模型一般被看做無向圖模型。設(shè)G=(V,E)為一個無向圖,其中的頂點集合為V,邊的集合為E。X為觀察序列,Y為對應(yīng)的標注序列。則標注序列中的隨機變量與G中的點V對應(yīng)。馬爾科夫特性指的是某點是頂點的概率只和與它相連接的頂點有關(guān)。如果任一個隨機變量都服從馬爾科夫特性,即:

,

則將符合上述條件的(X,Y)稱為條件隨機場。

設(shè)表示線性鏈條件隨機場,則有如下等式:

2 CC-CRF命名實體識別算法

CC-CRF識別算法在CRF模型的基礎(chǔ)上引入了上下文特征(Context)和詞性特征(Characteristic)。提出面向股票領(lǐng)域的CC-CRF實體識別算法。使用CRF++在此算法上對標注好的股票相關(guān)語料進行訓(xùn)練,得到CRF模型。最后并對模型進行測試,并對識別結(jié)果進行分析。

CC-CRF算法具體的實現(xiàn)方式如下:

(1)進行語料標注。根據(jù)2.3章節(jié)中的表3、表4進行語料標注。具體請參照2.3章節(jié)。

(2)定義特征模板。根據(jù)2.1、2.2章節(jié)中的表1、表2寫入CRF++的template文件中,完成CRF++的特征模板設(shè)定。具體請參照2.1、2.2章節(jié)。endprint

(3)模型訓(xùn)練。本文的實驗環(huán)境是ubuntu 14.04,在終端中執(zhí)行如下代碼:

crf_learn -f 3 -c 4.0 template corpus_train.txt crf_model

其中 -f為使用屬性的出現(xiàn)次數(shù) -c為代價參數(shù),訓(xùn)練結(jié)果將產(chǎn)生一個CRF模型——crf_model。

2.1 上下文特征說明

為了更好的描述模型,CRF的特征模板可以借助上下文信息,充分的挖掘其內(nèi)在的規(guī)律加以利用。在實際訓(xùn)練中,上下文的長度將會對結(jié)果產(chǎn)生影響。過長會增加模板的數(shù)量、訓(xùn)練時間的空耗、極大可能產(chǎn)生擬合;過短則會使信息挖掘力度不夠不能產(chǎn)生最優(yōu)特征函數(shù)。在股票領(lǐng)域的文本中,股票名稱往往和“股票”等詞相連,并且股票代碼一般緊挨著股票名稱”出現(xiàn)。因此,上下文特征的引用可以增加股票實體識別的精準率。在本文中,選擇設(shè)置上下文信息長度為2。上下文特征模板如表1所示。

2.2 詞性特征說明

除了上下文特征外[10],詞性特征也可以反映文本中和實體有關(guān)的信息。一般來說,股票名是名詞(n),代碼是數(shù)詞(m),股票一般是名詞和動詞(v)連在一起。因此,也將詞性特征引入股票實體的識別模型中。詞性特征模板如表2所示。

2.3 訓(xùn)練語料制作和標注

本文主要針對投資領(lǐng)域中的股票類命名實體進行識別,標注文本中的股票名稱和股票代碼。由于并沒有投資領(lǐng)域語料庫,因此相關(guān)訓(xùn)練語料需要人工獲取并制作。本文在同花順財經(jīng)上抓取了股票相關(guān)的文本,主要范圍是財經(jīng)新聞及題目,從中挑選了800條語句作為實驗材料。從這800條語句中,隨機抽取100條來制作測試用語句,其余用來制作訓(xùn)練語料。

在CRF的訓(xùn)練中,語料必須遵循嚴格的格式要求:每個字(詞)及其屬性為一行。因此,在得到分詞結(jié)果后,再對分詞結(jié)果進行格式處理,分別得到11316條訓(xùn)練語料和5018條測試語料。

在得到語料后,還需要對語料進行標注。本文定義的標注集如表3所示。

在確定了標注集以后,手工標注訓(xùn)練語料和測試語料。標注樣例如表4所示。

最后得到本文CRF模型訓(xùn)練所需的語料,將標注好的11316條語料寫入文件corpus_train.txt作為訓(xùn)練語料,剩下的寫入文件corpus_test.txt作為測試語料。

3 結(jié)果與分析

在終端中執(zhí)行如下代碼:crf_test -m crf_model test_001 > result.txt

執(zhí)行完該語句后,模型將對測試語料test_001進行命名實體識別并且標注,生成結(jié)果寫入文件result.txt中。測試結(jié)果圖1所示。

3.1 結(jié)果分析

在對模型進行測試后,需要分析標注結(jié)果。準確率、召回率和F值可以全面的反映識別的性能。

設(shè)識別出的正確的實體數(shù)量為n*,識別出的全部實體數(shù)量為n,集合中全部正確的實體數(shù)量為N,則有:

準確率:

召回率:

F值:

其中,F(xiàn)值綜合了P值和R值,F(xiàn)值越高,說明P值和R值越高,模型的性能越好。通過對test_result.txt的處理,得到CC-CRF模型的識別結(jié)果如表5所示。

3.2 實驗總結(jié)

從結(jié)果來看,CC-CRF算法在股票實體方面的識別效果已經(jīng)非常好。CC-CRF保證了模型效果的均衡性和穩(wěn)定性,在準確率和召回率方面基本比較優(yōu)秀。

4 結(jié)語

信息化時代的到來,人們從互聯(lián)網(wǎng)中快速獲得大量的信息。如何高效的從海量數(shù)據(jù)中獲取有用的資源的需求和人工智能的興起,促進了問答系統(tǒng)的發(fā)展。而本文講述的命名實體對智能問答系統(tǒng)的架構(gòu)和發(fā)展也起到著非常關(guān)鍵的作用。

本文的主要內(nèi)容是研究以命名實體識別為代表的信息抽取問題。在綜合研究面向的對象以及三種常見模型的優(yōu)缺點后,并以股票為例進行說明,選擇條件隨機場作為投資領(lǐng)域命名實體的模型。并且在CRF模型的基礎(chǔ)上,引入了上下文特征和詞性特征,提出了CC-CRF識別算法。通過數(shù)據(jù)收集、語料制作、訓(xùn)練、識別等步驟,利用CRF++訓(xùn)練出了針對股票代碼和股票名稱的CC-CRF模型。其結(jié)果在準確率與召回率方面均比較優(yōu)秀。為智能投資問答系統(tǒng)的架構(gòu)和實現(xiàn)做到了拋磚引玉。

參考文獻

[1]李生.自然語言處理的研究與發(fā)展[J].燕山大學(xué)學(xué)報,2013,(05):377-384.

[2]楊燕.面向電商領(lǐng)域的智能問答系統(tǒng)若干關(guān)鍵技術(shù)研究[D].華東師范大學(xué),2016.

[3]郭喜躍,何婷婷.信息抽取研究綜述[J].計算機科學(xué),2015,(02):14-17+38.

[4]吳陽.財經(jīng)領(lǐng)域命名實體識別方法的研究與系統(tǒng)實現(xiàn)[D].哈爾濱工業(yè)大學(xué),2015.

[5]孫鎮(zhèn),王惠臨.命名實體識別研究進展綜述[J].現(xiàn)代圖書情報技術(shù),2010,(06):42-47.

[6]王峰.基于CRF的中文命名實體識別方法研究[D].中北大學(xué),2011.

[7] Liu J. Chinese named entity recognition algorithm based on the improved hidden Markov model [J].Journal of Chemical & Pharmaceutical Research, 2014, 6(7): 1474-1478.

[8]Ratnaparkhi A. Maximum Entropy Models for Natural Language Processing [J]. Encyclopedia of Machine Learning, 2011, (25):647-651.

[9]Baltrusaitis T, Banda N, Robinson P. Dimensional affect recognition using Continuous Conditional Random Fields[J]. Automatic Face and Gesture Recognition (FG), 2013, 4(26):1-8.

[10]史海峰.基于CRF的中文命名實體識別研究[D].蘇州大學(xué),2010.endprint

宁蒗| 宜阳县| 金平| 奉贤区| 梨树县| 凤城市| 潮安县| 靖安县| 平罗县| 马鞍山市| 兴文县| 高州市| 丹东市| 中牟县| 通江县| 达尔| 双辽市| 武鸣县| 田阳县| 枝江市| 仁寿县| 儋州市| 桃源县| 台州市| 海兴县| 青铜峡市| 壤塘县| 甘南县| 陇南市| 辉县市| 太白县| 曲阜市| 洪泽县| 贺兰县| 合肥市| 清远市| 日喀则市| 康乐县| 青铜峡市| 镇宁| 清水县|