文/周寅 黃鋆
在海量文本數(shù)據(jù)處理的當下,多個領(lǐng)域運用到自然語言處理的技術(shù),在多個任務(wù)處理中,任重而道遠的關(guān)鍵技術(shù)—中文分詞。在中文信息處理中,中文分詞占據(jù)著重要的地位,然而在中文分詞技術(shù)中,歧義詞和未登錄詞是該技術(shù)的重難點。清華大學的黃昌寧老先生[2],總結(jié)出了中文分詞存在的四個重難點:
(1)漢語切分的規(guī)范問題;
(2)分詞和理解誰先誰后;
(3)中文分詞出現(xiàn)的歧義消解;
(4)識別未登錄詞。
對文本數(shù)據(jù)的標注大致分為三種:
2-tag:對中文文本進行標注I,O。I表示詞首;O表示詞尾。
例如:武漢船舶職業(yè)技術(shù)學院。
武 I 漢 O 船 I 舶 O 職 I 業(yè) O 技 I 術(shù) O 學 I 院 O
4-tag:對中文文本進行標注S,B,M,E。S表示字單獨成詞;B:表示詞的第一個字;M:表示詞的中間位置的字;E:表示詞的位置位于詞尾。
例如:武漢船舶職業(yè)技術(shù)學院。
武 B 漢 E 船 B 舶 E 職 B 業(yè) E 技 B 術(shù) E 學 B 院 E 。 S
6-tag:即對文本中詞語進行S,B,M1,M2,M3,E標注。S:表示文本中的字單獨成詞;B:表示文本中的字所在詞語中的首位;M1:標識詞組首個字符;M2:標識詞組第二個字符;M3:標志文本中詞語的中間位置;E:標志文本詞尾。由于在中文詞典中,詞語的最長極限就是六個字構(gòu)成的詞語。
根據(jù)字向量的技術(shù),將文本數(shù)據(jù)中的有用信息進行學習,生成字向量。利用條件隨機場,對文本數(shù)據(jù)中的生成的標簽進行學習,產(chǎn)生最優(yōu)解。
我們的方法,利用回溯法中的左剪枝法,將詞標注的出現(xiàn)關(guān)聯(lián)詞相同的情況,將其剪枝;利用右剪枝法,將單獨成詞的后序文字剪掉,節(jié)省了時間復(fù)雜度,因此使得分詞的技術(shù)達到最佳?;厮莘P椭形姆衷~如圖1所示。
實驗結(jié)果如圖2。
根據(jù)圖2而言,在準確率中,調(diào)劑隨機場結(jié)合詞向量的技術(shù)明顯優(yōu)于單純的條件隨機場技術(shù)的中文分詞,然而相對于回溯法的中文分詞技術(shù),要明顯的不足。在召回率方面,我們的技術(shù)明顯優(yōu)于前兩者,并且F值也是要高于前兩者。詳見表1。
表1
圖1:回溯法模型中文分詞
圖2:搜狗語料庫實驗對比圖
實驗中我們利用回溯法進行對文本的操作,發(fā)現(xiàn)用我們的回溯法改進的中文分詞技術(shù)比傳統(tǒng)的條件隨機場方法中的準確率要高出5.9%,相對條件隨機場與詞向量的合作要高出0.6%。召回率也高出了條件隨機場的3.3%,比條件隨機場和詞向量的要高出0.8%。在F值中也要明顯的優(yōu)于前兩者。
今后的學習中,我們將進一步利用基礎(chǔ)的算法分析案例,對中文分詞進行改進與優(yōu)化,使得我們的精確度和召回率都有所提升。