基于回溯法的中文分詞技術(shù)

2020-01-16 05:57周寅黃鋆

電子技術(shù)與軟件工程 2019年21期

文/周寅黃鋆

1 引言

在海量文本數(shù)據(jù)處理的當下，多個領(lǐng)域運用到自然語言處理的技術(shù)，在多個任務(wù)處理中，任重而道遠的關(guān)鍵技術(shù)—中文分詞。在中文信息處理中，中文分詞占據(jù)著重要的地位，然而在中文分詞技術(shù)中，歧義詞和未登錄詞是該技術(shù)的重難點。清華大學的黃昌寧老先生[2]，總結(jié)出了中文分詞存在的四個重難點：

（1）漢語切分的規(guī)范問題；

（2）分詞和理解誰先誰后；

（3）中文分詞出現(xiàn)的歧義消解；

（4）識別未登錄詞。

2 基于回溯法的中文分詞技術(shù)的研究

對文本數(shù)據(jù)的標注大致分為三種：

2-tag：對中文文本進行標注I,O。I表示詞首；O表示詞尾。

例如：武漢船舶職業(yè)技術(shù)學院。

武 I 漢 O 船 I 舶 O 職 I 業(yè) O 技 I 術(shù) O 學 I 院 O

4-tag：對中文文本進行標注S,B,M,E。S表示字單獨成詞；B：表示詞的第一個字；M：表示詞的中間位置的字；E：表示詞的位置位于詞尾。

例如：武漢船舶職業(yè)技術(shù)學院。

武 B 漢 E 船 B 舶 E 職 B 業(yè) E 技 B 術(shù) E 學 B 院 E 。 S

6-tag：即對文本中詞語進行S,B,M1,M2,M3,E標注。S：表示文本中的字單獨成詞；B：表示文本中的字所在詞語中的首位；M1：標識詞組首個字符；M2：標識詞組第二個字符；M3：標志文本中詞語的中間位置；E：標志文本詞尾。由于在中文詞典中，詞語的最長極限就是六個字構(gòu)成的詞語。

根據(jù)字向量的技術(shù)，將文本數(shù)據(jù)中的有用信息進行學習，生成字向量。利用條件隨機場，對文本數(shù)據(jù)中的生成的標簽進行學習，產(chǎn)生最優(yōu)解。

我們的方法，利用回溯法中的左剪枝法，將詞標注的出現(xiàn)關(guān)聯(lián)詞相同的情況，將其剪枝；利用右剪枝法，將單獨成詞的后序文字剪掉，節(jié)省了時間復(fù)雜度，因此使得分詞的技術(shù)達到最佳?；厮莘Ｐ椭形姆衷~如圖1所示。

實驗結(jié)果如圖2。

根據(jù)圖2而言，在準確率中，調(diào)劑隨機場結(jié)合詞向量的技術(shù)明顯優(yōu)于單純的條件隨機場技術(shù)的中文分詞，然而相對于回溯法的中文分詞技術(shù)，要明顯的不足。在召回率方面，我們的技術(shù)明顯優(yōu)于前兩者，并且F值也是要高于前兩者。詳見表1。

表1

圖1：回溯法模型中文分詞

圖2：搜狗語料庫實驗對比圖

3 實驗小結(jié)

實驗中我們利用回溯法進行對文本的操作，發(fā)現(xiàn)用我們的回溯法改進的中文分詞技術(shù)比傳統(tǒng)的條件隨機場方法中的準確率要高出5.9%，相對條件隨機場與詞向量的合作要高出0.6%。召回率也高出了條件隨機場的3.3%，比條件隨機場和詞向量的要高出0.8%。在F值中也要明顯的優(yōu)于前兩者。

4 展望與發(fā)展

今后的學習中，我們將進一步利用基礎(chǔ)的算法分析案例，對中文分詞進行改進與優(yōu)化，使得我們的精確度和召回率都有所提升。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于回溯法的中文分詞技術(shù)

1 引言

2 基于回溯法的中文分詞技術(shù)的研究

3 實驗小結(jié)

4 展望與發(fā)展