国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于回溯法的中文分詞技術(shù)

2020-01-16 05:57周寅黃鋆
電子技術(shù)與軟件工程 2019年21期
關(guān)鍵詞:成詞詞尾剪枝

文/周寅 黃鋆

1 引言

在海量文本數(shù)據(jù)處理的當下,多個領(lǐng)域運用到自然語言處理的技術(shù),在多個任務(wù)處理中,任重而道遠的關(guān)鍵技術(shù)—中文分詞。在中文信息處理中,中文分詞占據(jù)著重要的地位,然而在中文分詞技術(shù)中,歧義詞和未登錄詞是該技術(shù)的重難點。清華大學的黃昌寧老先生[2],總結(jié)出了中文分詞存在的四個重難點:

(1)漢語切分的規(guī)范問題;

(2)分詞和理解誰先誰后;

(3)中文分詞出現(xiàn)的歧義消解;

(4)識別未登錄詞。

2 基于回溯法的中文分詞技術(shù)的研究

對文本數(shù)據(jù)的標注大致分為三種:

2-tag:對中文文本進行標注I,O。I表示詞首;O表示詞尾。

例如:武漢船舶職業(yè)技術(shù)學院。

武 I 漢 O 船 I 舶 O 職 I 業(yè) O 技 I 術(shù) O 學 I 院 O

4-tag:對中文文本進行標注S,B,M,E。S表示字單獨成詞;B:表示詞的第一個字;M:表示詞的中間位置的字;E:表示詞的位置位于詞尾。

例如:武漢船舶職業(yè)技術(shù)學院。

武 B 漢 E 船 B 舶 E 職 B 業(yè) E 技 B 術(shù) E 學 B 院 E 。 S

6-tag:即對文本中詞語進行S,B,M1,M2,M3,E標注。S:表示文本中的字單獨成詞;B:表示文本中的字所在詞語中的首位;M1:標識詞組首個字符;M2:標識詞組第二個字符;M3:標志文本中詞語的中間位置;E:標志文本詞尾。由于在中文詞典中,詞語的最長極限就是六個字構(gòu)成的詞語。

根據(jù)字向量的技術(shù),將文本數(shù)據(jù)中的有用信息進行學習,生成字向量。利用條件隨機場,對文本數(shù)據(jù)中的生成的標簽進行學習,產(chǎn)生最優(yōu)解。

我們的方法,利用回溯法中的左剪枝法,將詞標注的出現(xiàn)關(guān)聯(lián)詞相同的情況,將其剪枝;利用右剪枝法,將單獨成詞的后序文字剪掉,節(jié)省了時間復(fù)雜度,因此使得分詞的技術(shù)達到最佳?;厮莘P椭形姆衷~如圖1所示。

實驗結(jié)果如圖2。

根據(jù)圖2而言,在準確率中,調(diào)劑隨機場結(jié)合詞向量的技術(shù)明顯優(yōu)于單純的條件隨機場技術(shù)的中文分詞,然而相對于回溯法的中文分詞技術(shù),要明顯的不足。在召回率方面,我們的技術(shù)明顯優(yōu)于前兩者,并且F值也是要高于前兩者。詳見表1。

表1

圖1:回溯法模型中文分詞

圖2:搜狗語料庫實驗對比圖

3 實驗小結(jié)

實驗中我們利用回溯法進行對文本的操作,發(fā)現(xiàn)用我們的回溯法改進的中文分詞技術(shù)比傳統(tǒng)的條件隨機場方法中的準確率要高出5.9%,相對條件隨機場與詞向量的合作要高出0.6%。召回率也高出了條件隨機場的3.3%,比條件隨機場和詞向量的要高出0.8%。在F值中也要明顯的優(yōu)于前兩者。

4 展望與發(fā)展

今后的學習中,我們將進一步利用基礎(chǔ)的算法分析案例,對中文分詞進行改進與優(yōu)化,使得我們的精確度和召回率都有所提升。

猜你喜歡
成詞詞尾剪枝
人到晚年宜“剪枝”
基于YOLOv4-Tiny模型剪枝算法
-CK Sounds
詞尾與詞綴的區(qū)別研究
再論“睡覺”成詞的時代
剪枝
“企業(yè)”的成詞及詞義內(nèi)涵考釋
一種面向不平衡數(shù)據(jù)分類的組合剪枝方法