房敏
摘要:最大分詞方法是一種基于統(tǒng)計(jì)的分詞方法,一個(gè)待分割的字符串有多種分詞結(jié)果,最大概率分詞的原則是將其中可能性的最大的那個(gè)詞語作為該字符串的分詞結(jié)果。本文主要圍繞最大概率分詞法,詳述了最大分詞法的算法思想,并且對(duì)算法的性能進(jìn)行分析。
1 現(xiàn)有分詞方法概述
漢字的表達(dá)式以字為單位的,但是在自然語言處理中,詞是最小的,有意義的語言成分。中文分詞就是將沒有分割標(biāo)志的字符串轉(zhuǎn)化為具有實(shí)際意義的詞串。由于漢字自動(dòng)分詞在文本分類,信息檢索,信息過濾,文獻(xiàn)自動(dòng)標(biāo)引,摘要自動(dòng)生成等中文信息處理中的關(guān)鍵技術(shù),故對(duì)分詞算法的研究是十分有必要性的。
現(xiàn)有的分詞方法主要可以分為以下四類:基于字符串匹配的分詞方法,基于理解的分詞方法,基于統(tǒng)計(jì)的分詞方法和基于語義的分詞方法。
2 簡(jiǎn)述最大概率分詞方法
隨著近年來大規(guī)模語料庫的建立,機(jī)器學(xué)習(xí)方法的蓬勃發(fā)展,基于統(tǒng)計(jì)的中文分詞方法逐漸成為了主流分詞方法。最大概率分詞是一種最基本的統(tǒng)計(jì)分詞方法,假設(shè)Z=z1z2…zn是輸入的漢子串,W=w1w2…wn,是與之對(duì)應(yīng)的可能的詞串,那么,漢語自動(dòng)分詞可以看作是是概率P(W|Z)的最大的詞串。
3 最大概率分詞算法
1)得到一個(gè)待分詞的字符串,按照從左到右的順序取出全部候選詞 w1,w2…wn
2)在所建立的語料庫中查找每個(gè)候選詞的概率P(wi)
3)計(jì)算每個(gè)候選詞的累計(jì)概率(累積概率為前一個(gè)節(jié)點(diǎn)的累積概率與該節(jié)點(diǎn)的概率的乘積的最大者),同時(shí)保存得到每個(gè)候選詞的最佳的左鄰詞。
4)按照動(dòng)態(tài)規(guī)劃的方法依次計(jì)算每個(gè)詞的最大累積概率,直到找到尾詞wn。
5)從wn開始,依次找尋其最佳左鄰詞,并按照從右到左的順序依次輸出這些詞匯,即S的分詞結(jié)果。
4 算法示例
對(duì)“結(jié)合成分子時(shí)”從左到右進(jìn)行掃描,統(tǒng)計(jì)每個(gè)候選詞的累計(jì)概率值,并且記錄其最佳左鄰詞。
5 算法性能
最大概率法能夠發(fā)現(xiàn)切分歧義,但是很大程度上取決于統(tǒng)計(jì)語言模型的精度和決策算法,而且需要大量的標(biāo)注材料。
參考文獻(xiàn):
[1]自然語言處理基本理論和方法[M].哈爾濱工業(yè)大學(xué)出版社,2013.8.
[2]基于最大概率分詞算法的中文分詞方法研究[J].科技信息,2010
[3]李家福,張亞非一種基于概率模型的分詞系統(tǒng)[J].系統(tǒng)仿真學(xué)報(bào),2002,14(5):544一550.