国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

最大概率分詞方法研究

2018-08-09 09:08房敏
科學(xué)與財(cái)富 2018年18期
關(guān)鍵詞:詞串詞法字符串

房敏

摘要:最大分詞方法是一種基于統(tǒng)計(jì)的分詞方法,一個(gè)待分割的字符串有多種分詞結(jié)果,最大概率分詞的原則是將其中可能性的最大的那個(gè)詞語作為該字符串的分詞結(jié)果。本文主要圍繞最大概率分詞法,詳述了最大分詞法的算法思想,并且對(duì)算法的性能進(jìn)行分析。

1 現(xiàn)有分詞方法概述

漢字的表達(dá)式以字為單位的,但是在自然語言處理中,詞是最小的,有意義的語言成分。中文分詞就是將沒有分割標(biāo)志的字符串轉(zhuǎn)化為具有實(shí)際意義的詞串。由于漢字自動(dòng)分詞在文本分類,信息檢索,信息過濾,文獻(xiàn)自動(dòng)標(biāo)引,摘要自動(dòng)生成等中文信息處理中的關(guān)鍵技術(shù),故對(duì)分詞算法的研究是十分有必要性的。

現(xiàn)有的分詞方法主要可以分為以下四類:基于字符串匹配的分詞方法,基于理解的分詞方法,基于統(tǒng)計(jì)的分詞方法和基于語義的分詞方法。

2 簡(jiǎn)述最大概率分詞方法

隨著近年來大規(guī)模語料庫的建立,機(jī)器學(xué)習(xí)方法的蓬勃發(fā)展,基于統(tǒng)計(jì)的中文分詞方法逐漸成為了主流分詞方法。最大概率分詞是一種最基本的統(tǒng)計(jì)分詞方法,假設(shè)Z=z1z2…zn是輸入的漢子串,W=w1w2…wn,是與之對(duì)應(yīng)的可能的詞串,那么,漢語自動(dòng)分詞可以看作是是概率P(W|Z)的最大的詞串。

3 最大概率分詞算法

1)得到一個(gè)待分詞的字符串,按照從左到右的順序取出全部候選詞 w1,w2…wn

2)在所建立的語料庫中查找每個(gè)候選詞的概率P(wi)

3)計(jì)算每個(gè)候選詞的累計(jì)概率(累積概率為前一個(gè)節(jié)點(diǎn)的累積概率與該節(jié)點(diǎn)的概率的乘積的最大者),同時(shí)保存得到每個(gè)候選詞的最佳的左鄰詞。

4)按照動(dòng)態(tài)規(guī)劃的方法依次計(jì)算每個(gè)詞的最大累積概率,直到找到尾詞wn。

5)從wn開始,依次找尋其最佳左鄰詞,并按照從右到左的順序依次輸出這些詞匯,即S的分詞結(jié)果。

4 算法示例

對(duì)“結(jié)合成分子時(shí)”從左到右進(jìn)行掃描,統(tǒng)計(jì)每個(gè)候選詞的累計(jì)概率值,并且記錄其最佳左鄰詞。

5 算法性能

最大概率法能夠發(fā)現(xiàn)切分歧義,但是很大程度上取決于統(tǒng)計(jì)語言模型的精度和決策算法,而且需要大量的標(biāo)注材料。

參考文獻(xiàn):

[1]自然語言處理基本理論和方法[M].哈爾濱工業(yè)大學(xué)出版社,2013.8.

[2]基于最大概率分詞算法的中文分詞方法研究[J].科技信息,2010

[3]李家福,張亞非一種基于概率模型的分詞系統(tǒng)[J].系統(tǒng)仿真學(xué)報(bào),2002,14(5):544一550.

猜你喜歡
詞串詞法字符串
基于文本挖掘的語詞典研究
靈動(dòng)的詞串,寫話的紐帶
報(bào)紙新聞標(biāo)題中的“熱詞群”和“熱詞串”
應(yīng)用于詞法分析器的算法分析優(yōu)化
談對(duì)外漢語“詞法詞”教學(xué)
美語口語詞串You Know What探析
一種新的基于對(duì)稱性的字符串相似性處理算法
依據(jù)字符串匹配的中文分詞模型研究
一種針對(duì)Java中字符串的內(nèi)存管理方案
2010年高考英語“相似”考題例析
来凤县| 乐山市| 西宁市| 攀枝花市| 长岛县| 扶余县| 正安县| 湟中县| 徐州市| 镇雄县| 丹东市| 浦城县| 金秀| 永宁县| 阳高县| 绥化市| 祁门县| 三门峡市| 双牌县| 嵊州市| 容城县| 楚雄市| 永顺县| 涞水县| 三原县| 永丰县| 台北市| 兴安县| 苏尼特右旗| 台中县| 淮北市| 聂荣县| 忻州市| 监利县| 屏东县| 林口县| 米易县| 自治县| 蒲江县| 韶关市| 抚州市|