中文詞性標(biāo)注：?jiǎn)尾綐?biāo)注還是同步標(biāo)注？基于詞還是基于字？

2013-09-03 06:32魏小雨張?zhí)煊?/span>

中國信息化·學(xué)術(shù)版 2013年7期

關(guān)鍵詞：同步分詞

魏小雨張?zhí)煊?/p>

【摘要】中文詞性標(biāo)注給中文語句中的每一個(gè)字分配一個(gè)POS標(biāo)簽。但是，由于中文詞語在句子中不能被精確切分，所以若想進(jìn)行中文詞性標(biāo)注，需要詞語切分作為前提條件。我們可以在分詞之后進(jìn)行詞性標(biāo)注，或者將詞性標(biāo)注與分詞進(jìn)行組合，兩者同時(shí)進(jìn)行。此外，我們可以選擇在基于詞的基礎(chǔ)上進(jìn)行詞性標(biāo)注，利用上下文語意，或者基于字符的基礎(chǔ)。本文提出一種利用最大熵值框架方法針對(duì)中文詞性標(biāo)注等架構(gòu)處理和特征表示的深入研究。我們發(fā)現(xiàn)分詞與標(biāo)注同步進(jìn)行的基于字符的方法是最好的，基于字符單步（once-at-a-time）進(jìn)行的標(biāo)注方法是值得商榷和完善的，在精確度上略差于同步（all-at-once）進(jìn)行方法，但是它的運(yùn)行時(shí)間更短些。

【關(guān)鍵詞】詞性標(biāo)注；分詞；單步；同步

【中圖分類號(hào)】G623.31【文獻(xiàn)標(biāo)識(shí)碼】A【文章編號(hào)】1672-5158（2013）07-0354-02

1.引言

大多數(shù)基于語料庫語言處理的研究，主要集中在對(duì)英文的處理。理論上，我們應(yīng)該只能使用基于語料庫的端口，因?yàn)檎Z言的機(jī)器學(xué)習(xí)技術(shù)在很大的程度上獨(dú)立于語言。但是，實(shí)際上，不同語言的特性帶來了復(fù)雜性。尤其是中文，詞語在一條語句中不能被準(zhǔn)確的劃分。因此在我們進(jìn)行標(biāo)注和解析等工作之前需要先進(jìn)行分詞，因?yàn)橹形脑~性標(biāo)注是對(duì)每一個(gè)詞進(jìn)行標(biāo)注，并且一條語句的解析樹是詞。

進(jìn)行中文部分詞語標(biāo)注時(shí)，會(huì)遇到以下問題：

（1）我們應(yīng)該嚴(yán)格按照先分詞后標(biāo)注的方法進(jìn)行標(biāo)注還是分詞與標(biāo)注同時(shí)進(jìn)行？

（2）我們應(yīng)該基于上下文（基于詞）進(jìn)行標(biāo)注，還是基于字符進(jìn)行標(biāo)注？

本文提出一種利用最大熵值框架方法針對(duì)詞性標(biāo)注等問題的深入研究。我們分析了不同方法的運(yùn)行結(jié)果，試圖找尋最優(yōu)化的方法。

2.分詞

作為我們調(diào)查研究的第一步，我們創(chuàng)建一種不進(jìn)行詞性標(biāo)注的中文分詞。由于在使用單步方法時(shí)，分詞中的錯(cuò)誤將傳遞到詞語標(biāo)注階段，為了我們研究的準(zhǔn)確性，我們使用最先進(jìn)的分詞技術(shù)。我們的分詞類似于采用最大熵值分詞法（Xue and Shen， 2003）。它根據(jù)上下文得來的特性對(duì)每個(gè)詞進(jìn)行分類。每個(gè)詞被分配一個(gè)由4個(gè)邊界值組成的標(biāo)簽：“b”表示一個(gè)詞的開始，“m”表示一個(gè)詞的中間的字，“e”表示一個(gè)詞的結(jié)尾，“e”表示該表示的詞是單個(gè)字的詞。

2.1 分詞特點(diǎn)

我們提出了另外三種能夠提高分詞精確度的功能（如下模板（d）-（f））。在我們的分詞中去掉了默認(rèn)功能（Xue and Shen， 2003），因?yàn)樵谖覀兊姆衷~中默認(rèn)功能不能夠提高我們的精確度。

以下的功能模板在我們的分詞中被使用，W指代詞，C指代字。（a）-（c）指的是含有5個(gè)字的內(nèi)容。 0C表示當(dāng)前字符， nC表示當(dāng)前字符的前后n位置上的字符。

英文與中文的語言差別直接影響到英文詞性標(biāo)注方法在中文環(huán)境下的運(yùn)行結(jié)果，得到是無效的結(jié)果。中文里個(gè)別字符編碼信息有助于詞性標(biāo)注。使用基于字符方法的中文詞性標(biāo)注優(yōu)于使用基于詞方法的中文詞性標(biāo)注。我們的研究還表明，與之前提出的同步基于字符方法相比，單步基于字符方法達(dá)到了相當(dāng)良好的詞性標(biāo)注精確度，并且可以大大縮減運(yùn)行時(shí)間。

參考文獻(xiàn)

[1] H.Jing，R.Florian， X. Luo， T. Zhang， and A.Ittycheriah. 2003. HowtogetaChineseName（Entity）：segmentation and combination issues.In Proc. of EMNLP

[2] O.Y.Kwong and B. K. Tsou. 2003. Categorial fluidity in Chinese and its implications for part-of-speech tagging. In Proc. of EACL

[3] X.Luo. 2003. A maximum entropy Chinese characterbased parser. In Proc. of EMNLP

[4] A.Ratnaparkhi. 1996. A maximum entropy model for part-of-speech tagging. In Proc. of EMNLP

[5] R. Sproat， C. Shih， W. Gale， and N. Chang. 1996. A stochastic finite-state wordsegmentation algorithm for Chinese. Computational Linguistics， 22（3）：377-404

[6] R.Sproat and T.Emerson. 2003. The first international Chinese word segmentation bakeoff. In Proc. of SIGHAN Workshop.

[7] W.J.Teahan，Y.Wen，R.McNab， and I. H. Witten. 2000. A compression-based algorithm for Chinese word segmentation Computational Linguistics，26（3）：375-393

[8] F.Xia， M. Palmer，N.Xue， M. E. Okurowski， J. Kovarik， F-D Chiou，S.Huang，T.Kroch，and M. Marcus. 2000. Developing guidelines and ensuring consistency for Chinese text annotation. In Proc. of LREC

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

中文詞性標(biāo)注：?jiǎn)尾綐?biāo)注還是同步標(biāo)注？基于詞還是基于字？

中文詞性標(biāo)注：?jiǎn)尾綐?biāo)注還是同步標(biāo)注？基于詞還是基于字？