覃 俊,林葉川,易云飛
(1 中南民族大學 計算機科學學院,武漢430074;2 河池學院 計算機與信息工程學院,宜州 546300)
基于互信息改進算法和t-測試差的壯文分詞算法研究
覃 俊1,林葉川1,易云飛2,*
(1 中南民族大學 計算機科學學院,武漢430074;2 河池學院 計算機與信息工程學院,宜州 546300)
針對傳統(tǒng)的壯文分詞方法將單詞之間的空格作為分隔標志,在多數(shù)情況下,會破壞多個單詞關(guān)聯(lián)組合而成的語義詞所要表達的完整且獨立的語義信息,在借鑒前人使用互信息MI方法來度量相鄰單詞間關(guān)聯(lián)程度的基礎(chǔ)上,首次采用互信息改進算法MIk和t-測試差對壯文文本分詞,并結(jié)合兩者在評價相鄰單詞間的靜態(tài)結(jié)合能力和動態(tài)結(jié)合能力的各自優(yōu)勢,提出了一種MIk和t-測試差相結(jié)合的TD-MIk混合算法對壯文文本分詞,并對互信息改進算法MIk、t-測試差、TD-MIk混合算法三種方法的分詞效果進行了比較.使用人民網(wǎng)壯文版上的文本集作為訓練及測試語料進行了實驗,結(jié)果表明:三種分詞方法都能夠較準確而有效地提取文本中的語義詞,并且TD-MIk混合算法的分詞準確率最高.
壯文分詞;MI改進算法;t-測試差;混合算法;語義詞
壯語是漢藏語系壯侗語族壯傣語支的一種語言,目前存世的壯族文字有古壯文和現(xiàn)代壯文,其中,現(xiàn)代壯文(簡稱壯文)是一種拼音文字[1,2].在互聯(lián)網(wǎng)發(fā)展迅速的時代,專注于壯文交流的有人民網(wǎng)壯文版、壯族在線、鼓歌壯族、壯族娛樂網(wǎng)等.分詞是文本信息處理的第一道“工序”,在自然語言處理的許多應用領(lǐng)域,如機器翻譯、文本分類、信息檢索等扮演著極其重要的角色.目前,在分詞這個研究領(lǐng)域,漢文分詞的研究成果已經(jīng)很多也相對成熟,漢文分詞技術(shù)發(fā)展到今天,大體上可以將其分為這幾類:基于詞典的分詞方法(又稱機械分詞)、基于統(tǒng)計的分詞方法、基于理解的分詞方法、詞典與統(tǒng)計相結(jié)合的分詞方法[3].漢文分詞的難點主要有兩個:消除歧義和未登錄詞.對于消除歧義問題,需要結(jié)合上下文語境,因此,基于理解的分詞方法能夠較好的克服這個難點,而基于統(tǒng)計的分詞可以較好地克服未登錄詞這個難點[4].壯文分詞與漢文有很大的相似性,但是,對壯文的文本信息處理的研究成果較少:2011年南寧平方軟件開發(fā)了一款壯漢翻譯試驗系統(tǒng),翻譯結(jié)果的可理解率大約在40%;同年,廣西民族大學的學生開發(fā)了一款基于短語的漢壯統(tǒng)計機器翻譯系統(tǒng)[2];2016年由中國民族語文翻譯局與東北大學自然語言處理實驗室共同研發(fā)的壯文與漢文智能翻譯系統(tǒng)正式上線運行,這是國內(nèi)首套壯文與漢文雙向翻譯系統(tǒng);除此之外,對于壯文文本信息處理的研究成果基本沒有較為詳實的公開報道.因此,對于壯文分詞算法的研究具有重要意義.
壯文文本是一種以空格分隔開的詞序列,傳統(tǒng)的壯文分詞只需把空格標志作為分詞方法即可.但在很多情況下,壯文中的多個單詞的關(guān)聯(lián)組合模式,也是一種不可分割的獨立語言單元,這種多個單詞的組合將會表達一個具體而獨立的語義信息,用空格隔開的分詞方法將會喪失這種單詞組合所要表達的完整語義信息.這樣獲取的單詞就難以在文本標引中發(fā)揮詞的作用,相應的各種文本處理效果也很不理想[5,6].
在壯文的機器翻譯中,按傳統(tǒng)的分詞方法翻譯,例如“raemx hawq raen bya”,這是一個固定的詞組,漢文意思是“水落石出”,如果以空格分隔,借助Stoneman、honghlaj等制作的Sawloih Cuengh-Gun壯漢詞典,按每個單詞去翻譯,意思就變?yōu)椤八梢娚?石)”.這樣就很難正確表達出一個單詞組合所要表達的語義信息,大大降低了翻譯的準確性.
在信息檢索中,用傳統(tǒng)的分詞方法檢索出來的文本信息并不全是與搜索關(guān)鍵字相關(guān)的結(jié)果.例如關(guān)鍵字“sevei cujyi”(社會主義),傳統(tǒng)分詞會把它分成“sevei”和“cujyi”.用該關(guān)鍵字在百度上進行測試,返回了相關(guān)結(jié)果約6440個,其中返回的第一個頁面的10個結(jié)果中,有4個結(jié)果是與該關(guān)鍵字不相關(guān)的(2017年5月10日測試),結(jié)果不令人滿意.
此外,傳統(tǒng)的空格分詞方法還會在文本主題詞提取、文本分類及聚類等文本處理中產(chǎn)生負面的影響.因此,研究一種能夠從壯文文本中獲取結(jié)構(gòu)穩(wěn)定、語義完整而獨立的壯文單詞的組合將對壯文的各種文本處理效果起到重要的積極作用.本文從漢文分詞和其他一些少數(shù)民族語言(如維吾爾文)的相關(guān)研究工作中得到啟發(fā),使用互信息的方法作為壯文相鄰單詞間關(guān)聯(lián)程度的度量,切分壯文文本中能夠獨立表達完整的語義信息的單詞組,并提出一種基于互信息改進算法MIk和t-測試差相結(jié)合的TD-MIk混合算法,更準確而有效地提取文本中的語義詞.
根據(jù)互信息原理,對于以空格分隔的壯文詞串序列WiWi+1、單詞Wi和Wi+1之間的互信息MI(Mutual Information)定義如下:
(1)
其中,P(Wi,Wi+1)表示詞串序列WiWi+1在文本集中出現(xiàn)的概率;P(Wi)表示單詞Wi在文本集中出現(xiàn)的概率;P(Wi+1)表示單詞Wi+1在文本集中出現(xiàn)的概率.互信息MI(Wi,Wi+1)反映了相鄰單詞Wi和Wi+1之間的關(guān)聯(lián)程度:若MI(Wi,Wi+1)≥0,則WiWi+1間是強關(guān)聯(lián)的,當MI(Wi,Wi+1)大于給定的一個閾值時,認為WiWi+1可以構(gòu)成一個不可分割的獨立語言單元;若MI(Wi,Wi+1)≈0,則WiWi+1間是弱關(guān)聯(lián)的,表示W(wǎng)iWi+1很難構(gòu)成一個獨立語言單元;若MI(Wi,Wi+1)<0,則WiWi+1間是互斥的,表示W(wǎng)iWi+1間基本不能構(gòu)成一個獨立語言單元.
基于互信息MI的壯文分詞過程如下:每次從句子文本集S中依次讀取一個句子Si(1≤i≤n),并從Si中的第一個單詞開始,從左到右依次掃描詞串,以兩個單詞為一組,統(tǒng)計單詞Wi,Wi+1以及它們的組合WiWi+1在訓練文本集Ds中的頻度,并根據(jù)公式(1)計算WiWi+1間的互信息MI(Wi,Wi+1).若MI(Wi,Wi+1)≥Ti(Ti為給定的閾值),則認為當前組合可以構(gòu)成一個獨立的語義詞.然后把WiWi+1看成一個新的單詞,并與下一個單詞Wi+2組合(本文限制最大詞串的單詞數(shù)為4),同樣地計算它們之間的互信息;依此類推,將問題始終簡化為計算相鄰兩個單詞之間的互信息,判斷它們是否能構(gòu)成獨立的語義詞.組詞過程如圖1所示.
圖1 組詞過程圖Fig.1 The graph of Lexical process
互信息的計算公式始終不變,在組詞過程中,當計算得到的互信息小于對應的閾值時,說明后續(xù)新加入單詞更不可能構(gòu)成詞.所以,應把當前加入的新的單詞作為第一個單詞,開始新一輪的組詞.考慮到組詞長度(單詞個數(shù))的影響,根據(jù)組詞長度的增加,其對應的閾值也相應地變小(T1>T2>T3>…>Tn-1).
基于互信息MI的壯文分詞的特點是算法簡單、速度快.但在分詞過程中發(fā)現(xiàn),存在部分兩個低頻單詞且總是一起出現(xiàn)的詞串,MI方法會過高地估計包含這些低頻詞串的結(jié)合強度.例如,“daihheiq mokfaenx”(大氣霧霾)、“canzciz ginhyinz”(殘疾軍人)等這些低頻詞在訓練語料中低頻且總是相鄰出現(xiàn),這些詞串的MI值非常高,導致包含這些低頻詞的垃圾詞串相應的MI值也非常高,例如“gij daihheiq mokfaenx”(的大氣霧霾),明顯不符合分詞要求.為了過濾掉這些垃圾詞串,克服高估低頻詞串結(jié)合強度這個缺點,我們首次采用改進互信息MIk算法對壯文進行分詞,MIk算法是在MI方法基礎(chǔ)上引進一個或者多個字串A與B的聯(lián)合概率因子P(A,B)[7,8].MIk算法的定義如下:
(2)
其中P(A)、P(B)分別表示單詞A、B的概率,P(A,B)表示詞串AB的聯(lián)合概率,MIk(A,B)表示詞串AB之間的相關(guān)度,也稱MIk值.特殊地,當k=1時,MIk算法即為MI算法[9,10].我們分別對k值在1~10之間的取值做了實驗,得到當k=2或3時,分詞效果有比較明顯地提高,k的取值對分詞準確率的影響見第3節(jié)實驗.
MIk算法的壯文分詞思路:對于每一個由四個單詞組成的壯文詞串序列xABy,計算中間兩個單詞串AB和前面兩個單詞串xA的MIk值的平均值average1以及中間兩個單詞串AB和后面兩個單詞串By的MIk值的平均值average2.計算公式如下:
(3)
(4)
對于詞串序列xABy,如果滿足:
MIk(A,B)>MIk(x,A)+average1,
(5)
MIk(A,B)>MIk(B,y)+average2,
(6)
則認為詞串AB能構(gòu)成獨立語義詞或者是獨立語義詞組成的一部分的概率較大;否則,認為單詞AB是各自成詞或者是詞的邊界的概率較大.
從互信息的計算公式(1)和(2)可知,互信息考慮的是相鄰單詞之間的內(nèi)部結(jié)合強度,與上下文無關(guān),反映了單詞之間的靜態(tài)結(jié)合能力.實驗發(fā)現(xiàn),改進的互信息方法不僅能夠有效過濾掉低頻詞的垃圾詞串,還能夠更好地保證由多個單詞組成的長詞串語義詞不被遺漏,像“it rangh it loh”(一帶一路)等這樣的新詞串能夠更好地提取出來,但同時也存在不足的地方,在連接詞的切分準確度較低.例如“caenleix caeuq fazcanj”(真理和發(fā)展),MIk算法把這三個單詞組合當作一個獨立的語義詞,因為這三個單詞組合的頻度較高,它只考慮了單詞間的靜態(tài)結(jié)合,但沒有考慮上下文單詞之間結(jié)合趨勢.而正確的分詞結(jié)果應該以中間的連詞“caeuq”為邊界切分成三個詞.因此,如果能有一種能夠衡量上下文單詞間的動態(tài)結(jié)合趨勢的方法,來彌補互信息這種靜態(tài)結(jié)合的局限性,分詞的準確性將會提高.
為尋找一種能夠衡量壯文上下文單詞間的動態(tài)結(jié)合趨勢的方法,我們首次采用t-測試差對壯文進行分詞.Church[11]等首次引入t-測試,以度量一個英文單詞A與其它任意兩個單詞x和y的結(jié)合緊密程度.根據(jù)定義,壯文單詞串xyz的t-測試值如下公式所示:
(7)
其中p(y|x),p(z|y)分別是y關(guān)于x,z關(guān)于y的條件概率,σ2(p(y|x)),σ2(p(z|y))代表各自的方差.由t-測試值的定義可知:若tx,z(y)>0,則y與后繼z的結(jié)合強度大于與前驅(qū)x的結(jié)合強度,此時y應與x分開,而與z組詞;若tx,z(y)=0,則無法判斷y要與哪個分開或者組詞;若tx,z(y)<0,則y與前驅(qū)x的結(jié)合強度大于與后繼z的結(jié)合強度,此時y應與z分開,而與x組詞.
t-測試是基于字的統(tǒng)計量,而不是基于字間位置,因此為了能夠在漢文分詞中直接用來計算相鄰字間連斷概率,清華大學孫茂松教授等人提出了t-測試差的概念[12].根據(jù)定義,對于壯文單詞串xABY,相鄰單詞A,B之間的t-測試差值計算如下所示:
TD(A,B)=tx,B(A)-tA,y(B).
(8)
當TD(A,B)>T(T為閾值)時,AB的單詞間位置更傾向于連,反之傾向于斷.與互信息不同,t-測試差考慮的是單詞之間的相對結(jié)合強度,是一個單詞與上下文的結(jié)合趨向,反映了相鄰單詞之間的動態(tài)結(jié)合能力.從分詞的結(jié)果發(fā)現(xiàn),t-測試差方法在連接詞的切分準確度更高,例如“caenleix caeuq fazcanj”(真理和發(fā)展),t-測試差能夠?qū)⑦@個詞串分成3個詞.
從前面的分析中可以知道,互信息反映的是單詞之間的靜態(tài)結(jié)合能力,而t-測試差反映的是單詞之間的動態(tài)結(jié)合能力,兩種方法在壯文的分詞中各有優(yōu)勢,但各自又存在局限性.例如:改進互信息MIk方法能夠準確提取“it rangh it loh”(一帶一路)等這樣的新詞串,而t-測試差方法不能;t-測試差方法能夠準確地把“caenleix caeuq fazcanj”(真理和發(fā)展)切分成三個詞,而改進互信息MIk方法不能.因此,如果能夠把互信息和t-測試差這兩個統(tǒng)計原理相結(jié)合,起到互補效果的可行性極大.鑒于此,我們將改進的互信息方法MIk與t-測試差相結(jié)合發(fā)現(xiàn),該方法能夠在一定程度起到互補的作用,既能提取“it rangh it loh”,又能將“caenleix caeuq fazcanj”正確切分成三個詞.MIk與t-測試差組合的TD-MIk的混合算法的計算公式如下:
TD-MIk(A,B)=α*TD(A,B)+β*Mlk(A,B),
(9)
其中,α、β分別是t-測試差和MIk算法的權(quán)重因子,它們的和為1,具體取值見下一節(jié)實驗判斷合適的取值.
TD-MIk混合算法的分詞思路:對于壯文單詞串xABy,計算中間詞串AB的TD-MIk的值,當TD-MIk(A,B)>T(T為閾值)時,則認為詞串AB能構(gòu)成獨立語義詞或者是獨立語義詞組成的一部分的概率較大;否則,認為詞串AB是各自成詞或者是詞的邊界的概率較大.TD-MIk(A,B)既能在TD(A,B)和MIk(A,B)兩者判斷一致時保持判斷不變,又能在兩者判斷不一致時,在一定程度上得到互補.例如:“caeuq fazcanj”的MIk值為-5.97,判斷為連,而TD值為-9.78,判斷為斷,混合后的TD-MIk值為-8.26,判斷為斷,把兩個單詞切分開.
為了驗證算法的可行性及準確率,從人民網(wǎng)壯文版搜集所有壯文文本,隨機選取一組文章作為測試文本,并以中國民族語文翻譯局的翻譯系統(tǒng)為輔助工具,對測試文本做人工標記.壯文文本訓練語料的大小約為2.8MB,主要為政府工作報告文章及政治新聞文章.
本文采用準確率、召回率和F值3個指標來衡量分詞算法的性能,計算公式如下:
(10)
(11)
(12)
其中,切分結(jié)果正確的詞數(shù)(C1)是指測試文本根據(jù)分詞算法切分后切分正確的詞數(shù);切分結(jié)果的總詞數(shù)(C2)是指測試文本根據(jù)分詞算法切分后得到的總詞數(shù);分詞后應得到的總詞數(shù)(C3)是指測試文本人工切分后得到的總詞數(shù);F值反應的是根據(jù)準確率和召回率得出的算法的綜合性能指標.
使用C++語言,Visual Studio 2015為實驗工具,對壯文進行分詞實驗.對于改進互信息MIk算法中,k值的選取與準確率變化的趨勢圖如圖2所示.
圖2 隨著k值變化的準確率變化趨勢Fig.2 The change tendency of accuracy with the change of k value
從圖2中可以看出,當k=2或3時,分詞準確率有比較明顯的提高.
在TD-MIk混合算法中α、β的取值實驗如圖3所示.
圖3 隨著α值變化的準確率變化趨勢Fig.3 The change tendency of accuracy with the change of alpha value
圖3中α是t-測試差的權(quán)重因子,相應的MIk算法的權(quán)重因子β值為1-α.從圖中可看出當α=0.6時為圖中曲線波峰,分詞的準確率最高.
分別用傳統(tǒng)分詞方法、改進互信息的MIk算法、基于t-測試差算法以及TD-MIk混合算法對測試文本進行切分得到四種詞匯表,如表1所示.其中,測試文本分詞后應得到的總詞數(shù)即人工切分后得到的總詞數(shù)C3為9384.
表1 不同分詞方法對應切分結(jié)果詞匯表
從表1可以看出傳統(tǒng)的分詞方法將文本集中大約25%的單詞組合而成的語義詞拆分成單個單詞,而這種多個單詞的組合將會表達一個具體而獨立的語義信息,包括一些人名、成語、專有名詞等,拆分成多個單詞將會喪失這種單詞組合所要表達的完整語義信息.因此,用傳統(tǒng)分詞方法獲取的單詞就難以在文本標引中發(fā)揮詞的作用,相應的各種文本處理效果也會受到消極影響.相比較而言,使用改進互信息的MIk算法、基于t-測試差算法以及TD-MIk混合算法作為分詞算法所獲得的詞語不止有單個詞,還有雙詞、三詞、四詞,這樣的詞就能更好的表達完整的語義信息,構(gòu)成更能表達文本信息的語義詞,這將有助于提升各種文本處理的效果.例如,在文本的主題詞提取中,一般的主題詞都是由多個單詞組合而成的,這樣就有效地提高了主題詞提取的準確性.表2中列舉了2個例句的分詞實驗結(jié)果.
表2 分詞實驗結(jié)果舉例
表2的第一個例句中的“diuz roen seicouz”(絲綢之路)由3個單詞組成一個專有名詞,是不可分割的,實驗結(jié)果表明本文使用的分詞算法能夠正確地把這單詞組合切分出來.此外,壯文在某些方面與漢文有很大的相似性,漢文方面,兩個單一的字組合成一個詞語,例如“建設(shè)”是一個詞語;在壯文方面,第二個例句中的“l(fā)ai guek”(多國),也是由兩個單詞組合成一個詞語,把這樣的單詞組合切分出來對后續(xù)的機器翻譯或者信息檢索等都有很大的促進作用.顯然,本文使用的分詞算法很好的切分出壯文句子中獨立而完整的語義詞,且切分效果也是令人滿意的.
本文使用的幾種分詞方法由于分詞的策略不同,在分詞的效果上也有差異.不同分詞方法的分詞效果差異對比如表3所示.
表3 分詞方法效果對比
從表3可以看出,本文使用的分詞方法都能得到較高的準確率和召回率,對應的F值也較高.互信息反映的是單詞之間的靜態(tài)結(jié)合能力,而t-測試差反映的是單詞之間的動態(tài)結(jié)合能力,兩者都各有優(yōu)勢,t-測試差的分詞準確率相比改進互信息MIk方法稍微好一些,而TD-MIk混合算法則結(jié)合兩者的特點,分詞的準確率和召回率分別提高了3.77%和4.7%.
本文分析了壯文文本中多個單詞組合所表達的完整而獨立的語義信息,以及傳統(tǒng)壯文分詞方法對這種完整而獨立的語義信息的破壞,同時在各種文本信息處理中所獲得的結(jié)果不令人滿意.為了能夠更好地提取文本中的這種能夠更好的表達完整的語義信息的語義詞,在使用互信息MI方法來度量壯文相鄰單詞間關(guān)聯(lián)程度的基礎(chǔ)上,提出一種基于互信息改進算法MIk和t-測試差相結(jié)合的TD-MIk混合算法對壯文文本分詞,并用準確率、召回率和F值對分詞結(jié)果進行評價.實驗表明本文的分詞算法的分詞結(jié)果得到較高的準確率和召回率,能夠較準確而有效地提取文本中的語義詞,提出的TD-MIk混合算法也有效地提高了分詞的準確率.另外,由于目前網(wǎng)上的壯文文本大都是政府工作報告文章和政治類新聞文章,所以本文的分詞算法在對在政府工作報告和政治類壯文文本的分詞效果相對較好,該分詞算法同樣也適用于壯文的其他各類文本.
[1] 韋景云,覃曉航.狀語通論[M].北京:中央民族大學出版社,2006:3-110.
[2] 劉連芳,顧 林,黃家裕,等. 壯文與壯文信息處理[J]. 中文信息學報,2011,25(6):175-182.
[3] 趙秦怡,王麗珍. 一種基于互信息的串掃描中文文本分詞方法[J]. 情報雜志,2010,29(7):161-162.
[4] Min K, Ma C, Zhao T,et al. BosonNLP: An ensemble approach for word segmentation and POS tagging[C]// Springer. The 4th CCF Conference on Natural Language Processing and Chinese Computing (NLPCC2015).Berlin: Springer, 2015:520-526.
[5] 吐爾地·托合提,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉. 基于互信息的維吾爾文自適應組詞算法[J]. 計算機應用研究,2013,30(2):429-431.
[6] 吐爾地·托合提,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉. 語義詞特征提取及其在維吾爾文文本分類中的應用[J]. 中文信息學報,2014,28(4):140-144.
[7] Bouma G. Normalized (pointwise) mutual information in collocation extraction [C]// UIMA. Proceedings of German Society for Computational Linguistics (GSCL 2009), Potsdam:UIMA, 2009: 31-40.
[8] Pazienza M, Pennacchiotti M, Zanzotto F. Terminology extraction: an analysis of linguistic and statistical approaches[J]. Springer Berlin Heidelberg, 2005,185: 255-279.
[9] 杜麗萍,李曉戈,于 根,等. 基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J]. 北京大學學報(自然科學版),2016,52(1):35-40.
[10] 杜麗萍,李曉戈,周元哲,等. 互信息改進方法在術(shù)語抽取中的應用[J]. 計算機應用,2015,35(4):996-1000.
[11] Church K W, Gale W, Hanks P, et al. Using Statistics in Lexical Analysis[M].Hillsdale NJ :Lawrence Erlbaum Associates,1991:115-164.
[12] 孫茂松,肖 明,鄒嘉彥. 基于無指導學習策略的無詞表條件下的漢語自動分詞[J]. 計算機學報,2004,27(6):736-742.
The traditional method of Zhuangwen word segmentation is to use the space between words as a separation mark.But in most cases, the word segmentation method will destroy multiple words association combination of semantic words which express the complete and independent semantic information. For the first time we use the mutual information to improve algorithm MIkandt-test difference in Zhuangwen text word segmentation that based on the use of mutual information MI method to measure the degree of correlation between adjacent words, and combine with the two in the evaluation of adjacent words’static binding ability and dynamic binding ability, a TD-MIkhybrid algorithm based on the MIkandt-test difference is proposed. The segmentation effects of MIk,t-test difference and TD-MIkhybrid algorithm are compared. We use the text set on the People′s network in Zhuangwen as a training and test corpus to do the experiments. The experimental results show that the three segmentation methods can extract the semantic words in text accurately and efficiently,and TD-MIkhybrid algorithm has the highest accuracy of word segmentation .
zhuangwen word segmentation;MI improved algorithm;t-test difference;hybrid algorithm;semantic word
2017-09-01 *
易云飛,研究方向:智能計算,E-mail:gxyiyf@163.com
覃 俊(1968-),女,教授,博士,研究方向:智能優(yōu)化、數(shù)據(jù)挖掘,E-mail:498011695@qq.com
國家科技支撐計劃項目子課題(2015BAD29B01);中南民族大學研究生學術(shù)創(chuàng)新基金項目(2017sycxjj051)
TP391
A
1672-4321(2017)04-0100-06
ResearchonZhuangwenWordSegmentationAlgorithmBasedonMutualInformationImprovedAlgorithmandt-testDifference
QinJun1,LinYechuan1,YiYunfei2
(1 College of Computer Science,South-Central University for Nationalities,Wuhan 430074, China;
2 College of Computer and Information Engineering, Hechi University, Yizhou 546300,China)