邢恩軍 趙富強(qiáng)
1(天津大學(xué)管理與經(jīng)濟(jì)學(xué)部 天津 300072)2(天津財(cái)經(jīng)大學(xué)信息科學(xué)與技術(shù)系 天津 300222)
?
基于上下文詞頻詞匯量指標(biāo)的新詞發(fā)現(xiàn)方法
邢恩軍1,2趙富強(qiáng)2
1(天津大學(xué)管理與經(jīng)濟(jì)學(xué)部天津 300072)2(天津財(cái)經(jīng)大學(xué)信息科學(xué)與技術(shù)系天津 300222)
摘要提出一種基于上下文詞頻詞匯量的統(tǒng)計(jì)指標(biāo)。該指標(biāo)通過(guò)修改信息熵公式中參數(shù)的定義,即將鄰接字符串在語(yǔ)料集中出現(xiàn)的次數(shù)改成鄰接字符串集合的大小,克服了左右信息熵在識(shí)別新詞時(shí)特征不夠明顯的缺點(diǎn)。同時(shí)提出一種遞歸的基于鄰接關(guān)系的字符串連接方法,克服了N-gram方法采用固定滑動(dòng)窗口大小的缺點(diǎn)。實(shí)證分析表明該新詞發(fā)現(xiàn)方法有較高的準(zhǔn)確率,通過(guò)選取不同的詞頻詞匯量指標(biāo)值作為閾值,能夠在發(fā)現(xiàn)更多新詞和提高發(fā)現(xiàn)新詞的準(zhǔn)確率方面進(jìn)行靈活調(diào)整,為新詞發(fā)現(xiàn)提供一種實(shí)用的方法。
關(guān)鍵詞新詞發(fā)現(xiàn)上下文信息熵詞頻詞匯量指標(biāo)
0引言
隨著社會(huì)經(jīng)濟(jì)、文化、科技水平的不斷提高,新詞一直在大量且迅速地涌現(xiàn)。新詞發(fā)現(xiàn)作為自然語(yǔ)言處理、文本挖掘等研究中的一個(gè)基礎(chǔ)環(huán)節(jié),對(duì)于提高后續(xù)信息處理的效果有重要意義[1,2]。
新詞發(fā)現(xiàn)方法可以粗略地分為基于語(yǔ)言規(guī)則的方法和基于統(tǒng)計(jì)學(xué)習(xí)的方法[3,4]。語(yǔ)言規(guī)則的構(gòu)造與維護(hù)需要由語(yǔ)言學(xué)家進(jìn)行,不僅耗費(fèi)時(shí)間而且很難擴(kuò)展。統(tǒng)計(jì)學(xué)習(xí)的方法主要依賴于大規(guī)模的語(yǔ)料,通過(guò)計(jì)算成詞概率,詞頻、左信息熵、右信息熵等統(tǒng)計(jì)特征作為識(shí)別新詞的依據(jù)。本質(zhì)上,統(tǒng)計(jì)特征是對(duì)漢字構(gòu)詞能力的量化。
在對(duì)語(yǔ)料進(jìn)行切分組合方面,比較常見(jiàn)的是采用N-gram模型,在切分字符串的基礎(chǔ)上,將文本內(nèi)容按大小為N的滑動(dòng)窗口操作,形成長(zhǎng)度為N的字符串[5,6]。另外還有將新詞發(fā)現(xiàn)與分詞工具進(jìn)行結(jié)合,在分詞之后或分詞的同時(shí),依據(jù)詞性及其他組合規(guī)則進(jìn)行新詞發(fā)現(xiàn)[1,7]。
在統(tǒng)計(jì)分析方面,采用的指標(biāo)和方法比較多樣,比較常見(jiàn)的是詞頻、左右信息熵、獨(dú)立成詞概率、構(gòu)詞規(guī)則等。鄒綱[8]等通過(guò)統(tǒng)計(jì)不同時(shí)間段和不同來(lái)源所獲取的語(yǔ)料,比較其中的差別得到新詞。羅智勇[9]等通過(guò)采用PAT-Array數(shù)據(jù)結(jié)構(gòu)表示字符串之間的鄰接關(guān)系,通過(guò)計(jì)算候選字符串的左右信息熵、似然比等進(jìn)行統(tǒng)計(jì)分析,從而獲得新詞。賀敏[10]等提出了一種在統(tǒng)計(jì)重復(fù)串的基礎(chǔ)上,通過(guò)判斷上下文鄰接類別,首尾單字位置成詞概率以及雙字耦合度等語(yǔ)言特征,將詞串的外部語(yǔ)言環(huán)境和內(nèi)部構(gòu)成相結(jié)合的新詞識(shí)別方法。Wu[10]等使用獨(dú)立成詞概率和構(gòu)詞方式作為判斷新詞的標(biāo)準(zhǔn)。陳飛[12]等利用條件隨機(jī)場(chǎng)CRF(conditionrandomfield)可對(duì)序列輸入標(biāo)注的特點(diǎn),將新詞發(fā)現(xiàn)問(wèn)題轉(zhuǎn)化為預(yù)測(cè)已分詞詞語(yǔ)邊界是否為新詞邊界的問(wèn)題。Sun[13]等提出了利用半馬爾可夫條件隨機(jī)場(chǎng)模型結(jié)合潛在動(dòng)態(tài)條件隨機(jī)場(chǎng)和詞性標(biāo)注識(shí)別新詞的方法。丁建立[14]等提出一種應(yīng)用免疫遺傳算法的網(wǎng)絡(luò)新詞識(shí)別方法, 利用漢語(yǔ)詞群現(xiàn)象和詞位的概念提取和注入抗體。Sun[15]等提出了根據(jù)查詢?nèi)罩痉治鲇脩粜袨榱?xí)慣并結(jié)合詞性詞頻等指標(biāo)進(jìn)行新詞發(fā)現(xiàn)的方法。
1基于上下文詞頻詞匯量指標(biāo)的方法
在新詞發(fā)現(xiàn)研究中,普遍采用的N-gram方法通過(guò)選取不同的滑動(dòng)窗口大小來(lái)限定候選詞的長(zhǎng)度,不能很好地適應(yīng)不同長(zhǎng)度的詞語(yǔ)。
左信息熵和右信息熵是常用的判定新詞的統(tǒng)計(jì)指標(biāo)。在實(shí)驗(yàn)中發(fā)現(xiàn),左信息熵和右信息熵較大的漢字或詞其獨(dú)立成詞能力較強(qiáng),一般不會(huì)與其他漢字或詞構(gòu)成新詞,可以作為停用詞的主要候選對(duì)象。但是,信息熵公式的特點(diǎn)是傾向于具有最小的鄰接字符串集合的漢字或詞。例如:在實(shí)驗(yàn)中發(fā)現(xiàn),語(yǔ)料庫(kù)中“不足為慮”僅出現(xiàn)一次,它的唯一左鄰接字符串為“或許”,其左信息熵為0,僅依據(jù)信息熵作為判斷標(biāo)準(zhǔn)的話,“或許不足為慮”作為一個(gè)新詞的可能性很高。所以采用信息熵作為統(tǒng)計(jì)指標(biāo)時(shí),必須結(jié)合詞頻以及其他一些統(tǒng)計(jì)指標(biāo)。
針對(duì)以上兩點(diǎn)不足,本文提出了基于上下文詞頻詞匯量指標(biāo)的方法。
1.1方法概述
本方法所使用的語(yǔ)料庫(kù)是通過(guò)爬取網(wǎng)頁(yè)并抽取其標(biāo)題及正文部分構(gòu)成的。
首先,將文本內(nèi)容按照標(biāo)點(diǎn)符號(hào)、特殊字符、數(shù)字等分割成短句。然后,使用jcseg中文分詞器進(jìn)行分詞。將分詞結(jié)果中的每個(gè)字符串、字符串的左鄰接字符串、字符串的右鄰接字符串、詞頻等信息記錄下來(lái)。依據(jù)上述信息進(jìn)行統(tǒng)計(jì)計(jì)算,發(fā)現(xiàn)其中出現(xiàn)的新詞。最后針對(duì)發(fā)現(xiàn)的新詞進(jìn)行后處理,刪除新詞首尾出現(xiàn)的停用詞,過(guò)濾掉某些特定的錯(cuò)誤組合。
1.2方法采用的數(shù)據(jù)結(jié)構(gòu)
設(shè)字符串s的左鄰接字符串集合為L(zhǎng)={l1,l2,…,lm},右鄰接字符串集合為R={r1,r2,…,rn}。cls(li,s)為字符串lis在語(yǔ)料集中出現(xiàn)的次數(shù),csr(s,ri)為字符串sri在語(yǔ)料集中出現(xiàn)的次數(shù)。
使用LSR(s,ri)表示字符串sri的左鄰接字符串集合。使用RLS(li,s)表示字符串lis的右鄰接字符串集合。LSR(s,ri)和RLS(li,s)的作用是關(guān)聯(lián)左右鄰接字符串,保證在后續(xù)合成新詞的時(shí)候,能夠正確地將s的左鄰接字符串、字符串s和s的右鄰接字符串合并在一起,進(jìn)而遞歸地結(jié)合更多的字符串。
記錄每一個(gè)字符串s及相關(guān)信息的數(shù)據(jù)結(jié)構(gòu)如圖1所示。
圖1 記錄每個(gè)字符串及相關(guān)信息的數(shù)據(jù)結(jié)構(gòu)
1.3左信息熵和右信息熵
左信息熵和右信息熵較大的漢字或詞其獨(dú)立成詞能力較強(qiáng),在本方法中用于選取停用詞。
根據(jù)信息熵公式[16,17]:
(1)
字符串s的左信息熵定義為:
(2)
字符串s的右信息熵定義為:
(3)
1.4詞頻詞匯量指標(biāo)
字符串s的左詞頻詞匯量指標(biāo)定義為:
(4)
其中k為集合L的大小。每一個(gè)左鄰接字符串li對(duì)詞頻詞匯量指標(biāo)的貢獻(xiàn)值為:
(5)
s的右詞頻詞匯量指標(biāo)定義為:
(6)
其中k為集合R的大小。每一個(gè)右鄰接字符串ri對(duì)詞頻詞匯量指標(biāo)的貢獻(xiàn)值為:
(7)
其中,CDL(li,s)和CDR(s,ri)表示字符串s與某個(gè)鄰接字符串結(jié)合緊密程度的指標(biāo)。CL(s)和CR(s)對(duì)應(yīng)CDL(li,s)和CDR(s,ri)的均值,表示字符串s與左右鄰接字符串結(jié)合緊密程度的指標(biāo),即s獨(dú)立成詞能力的指標(biāo)。
2實(shí)驗(yàn)
本文實(shí)驗(yàn)所采用的語(yǔ)料是從搜狐財(cái)經(jīng)、新浪財(cái)經(jīng)、網(wǎng)易財(cái)經(jīng)等13個(gè)網(wǎng)站,爬取到的2014年7月14日到8月13日2594個(gè)網(wǎng)頁(yè),并抽取其中的文章標(biāo)題和正文部分。
2.1停用詞的產(chǎn)生
通過(guò)計(jì)算每一個(gè)字符串s的左信息熵HL(s)并對(duì)結(jié)果進(jìn)行排序,可以得到如圖2所示結(jié)果。
圖2 左鄰接字符串的信息熵
橫軸為按左信息熵排序后的字符串s的索引??v軸為每個(gè)字符串的左信息熵。
以同樣方法計(jì)算右信息熵HR(s)并繪圖,可以得到幾乎完全一樣的圖形。
分析數(shù)據(jù)可以發(fā)現(xiàn),HL(s)=0的字符串,在語(yǔ)料庫(kù)中出現(xiàn)次數(shù)基本都在3次以下,并且其左鄰接字符串大多只有1個(gè)。HL(s)最大的一系列字符串在語(yǔ)料庫(kù)中出現(xiàn)次數(shù)多,并且其左鄰接字符串比較多,如表1所示。
表1 左信息熵最大的幾個(gè)字符串
HL(s)取其他值的情況,可以從圖2中看出,其曲線的趨勢(shì)比較平緩,沒(méi)有特別明顯的特征。這是基于統(tǒng)計(jì)學(xué)方法進(jìn)行新詞發(fā)現(xiàn)的研究中,采用信息熵作為統(tǒng)計(jì)指標(biāo)的主要缺點(diǎn)。
所以在本方法中左右信息熵僅作為選取停用詞的指標(biāo)。在本實(shí)驗(yàn)中,選取HL(s)大于6的字符串構(gòu)成左停用詞表,選取HR(s)大于6的字符串構(gòu)成右停用詞表。
2.2詞頻詞匯量指標(biāo)計(jì)算結(jié)果
采用詞頻詞匯量指標(biāo),對(duì)相同的語(yǔ)料進(jìn)行分析,按照CL(s)排序,結(jié)果如圖3所示。
圖3 左鄰接字符串的詞頻詞匯量指標(biāo)
圖中左側(cè)豎直狀的數(shù)據(jù)表明字符串s與其左鄰接字符串有很高的成詞概率。而圖中下側(cè)水平狀的數(shù)據(jù)表明字符串s與其左鄰接字符串有很低的成詞概率。將圖3和圖2進(jìn)行對(duì)比,可以看出詞頻詞匯量指標(biāo)比信息熵指標(biāo)特征更為明顯。
為了觀察方便,僅保留實(shí)驗(yàn)數(shù)據(jù)中CL(s)數(shù)據(jù)最密集的部分,重新畫(huà)圖,可以得到更清晰的特征,如圖4所示。
圖4 左鄰接字符串的詞頻詞匯量指標(biāo)
選取特定的CL(s)作為CDL(li,s)和CDR(s,ri)的閾值,進(jìn)行字符串的合并可獲得新詞。
在實(shí)驗(yàn)中,依次選取了從0到14作為閾值,并對(duì)比了實(shí)驗(yàn)結(jié)果,并對(duì)其中出現(xiàn)的各種可能的錯(cuò)誤組合原因進(jìn)行分析。
2.3錯(cuò)誤組合原因分析
(1) 過(guò)濾掉停用詞時(shí)造成一些新詞被截?cái)?。這是因?yàn)槟承┳址幢闫湫畔㈧睾艽螅阅軌蚺c其他字符串組合成新詞,如: “中信建投”被截?cái)喑伞靶沤ㄍ丁?,因?yàn)椤爸小笔峭S迷~。
(2) 字符串s有大量其他組合,甚至其中有更高頻的組合,造成某些詞的詞頻詞匯量指標(biāo)降低到小于閾值。如:“封閉回款”被截?cái)喑伞胺忾]回”,是因?yàn)椤盎亍钡挠亦徑幼址?8個(gè),其中高頻組合有“回購(gòu)”、“回調(diào)”等,雖然“回款”的詞頻排在第三位,但其CDR(s,ri)已經(jīng)降低到了-28.2318,遠(yuǎn)遠(yuǎn)小于閾值。隨著分詞工具所使用的詞庫(kù)不斷豐富,這類錯(cuò)誤能夠逐漸消失。
(3) 生成多個(gè)詞,有正確有錯(cuò)誤。如:“湘財(cái)證券”被分詞程序分成“湘”、“財(cái)”、“證券”三個(gè)詞,在處理“湘”時(shí)能夠得到“湘財(cái)”,處理“財(cái)”時(shí)能夠得到“湘財(cái)證券”,而處理“證券”時(shí),能夠得到“財(cái)證券”。因?yàn)樵谶f歸向左搜索鄰接字符串時(shí),“財(cái)”的CL(s)數(shù)值為-2.8804不符合要求。這樣做是為了避免過(guò)度搜索,CL(s)過(guò)小意味著字符串s與左鄰接字符串的關(guān)系不密切,自身獨(dú)立成詞能力較高。雖然有CDL(li,s)符合要求,也終止搜索,因?yàn)橛写罅孔址即嬖贑DL(li,s)較大的鄰接字符串。在后處理過(guò)程中,針對(duì)這種錯(cuò)誤情況進(jìn)行了過(guò)濾。
(4) 中文分詞器造成的錯(cuò)誤。如:字符串“有害物質(zhì)的”被分詞為“有害物”和“質(zhì)的”,合并后成為錯(cuò)誤的新詞。
(5) 由數(shù)字造成的錯(cuò)誤。本文提出的方法在處理過(guò)程中把文本按照標(biāo)點(diǎn)符號(hào)、特殊字符、數(shù)字等分割成短句,當(dāng)語(yǔ)料中出現(xiàn)“47號(hào)文”、“48號(hào)文”這類詞語(yǔ)時(shí),會(huì)得出“號(hào)文”這類錯(cuò)誤的新詞。
(6) 由高頻出現(xiàn)的詞匯組合造成的錯(cuò)誤。本文提出的方法采用最長(zhǎng)匹配原則,當(dāng)遇到高頻的詞匯組合時(shí),會(huì)產(chǎn)生一些過(guò)長(zhǎng)的新詞。如:“第一財(cái)經(jīng)日?qǐng)?bào)記者”、“雪佛蘭產(chǎn)品”,以及類似“習(xí)近平總書(shū)記”這類“職務(wù)+姓名”或“姓名+職務(wù)”組成的詞。在后處理過(guò)程中,針對(duì)這種錯(cuò)誤情況進(jìn)行過(guò)濾。
2.4后處理
針對(duì)新詞的后處理包含兩部分內(nèi)容:
(1) 刪除新詞首尾出現(xiàn)的停用詞。在計(jì)算得出新詞后,需要根據(jù)停用詞表刪除掉左右停用詞。
(2) 過(guò)濾掉某些特定的錯(cuò)誤組合。針對(duì)上述錯(cuò)誤組合原因分析中出現(xiàn)的第3種錯(cuò)誤情況,在后處理時(shí),找出結(jié)果中具有包含關(guān)系的所有新詞,根據(jù)組成新詞的每個(gè)部分的CDL(li,s)和CDR(s,ri)進(jìn)行判斷,將錯(cuò)誤的新詞過(guò)濾掉。針對(duì)上述錯(cuò)誤原因分析中出現(xiàn)的第6種錯(cuò)誤情況,統(tǒng)計(jì)出常見(jiàn)的表示各種稱謂的詞語(yǔ)補(bǔ)充到停用詞表中,在刪除左右停用詞時(shí)將其處理掉。由于這種處理可能會(huì)造成結(jié)果中出現(xiàn)重復(fù)的新詞,所以需要將重復(fù)詞過(guò)濾掉。
2.5實(shí)驗(yàn)結(jié)果
對(duì)新詞的正確率進(jìn)行統(tǒng)計(jì),結(jié)果如表2所示。
表2 不同參數(shù)下的實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)結(jié)果所采用的閾值是依據(jù)圖4中所顯示的特征選擇的,處于曲線的過(guò)渡部分。從結(jié)果可以看出,隨著閾值的增大,所發(fā)現(xiàn)的新詞數(shù)量持續(xù)減少,而正確率持續(xù)增加。通過(guò)采用不同的閾值,能夠在發(fā)現(xiàn)更多新詞和提高新詞的準(zhǔn)確率方面進(jìn)行靈活調(diào)整。
3結(jié)語(yǔ)
針對(duì)新詞發(fā)現(xiàn)研究中常用的N-gram方法和信息熵指標(biāo)的不足,本文提出了基于上下文詞頻詞匯量指標(biāo)的方法,并且對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析。本方法沒(méi)有N-gram方法中窗口大小的限制,詞頻詞匯量指標(biāo)結(jié)合了左右鄰接字符串的詞頻和左右鄰接字符串的數(shù)量?jī)蓚€(gè)關(guān)鍵數(shù)據(jù),顯示出非常明顯的特征。本方法與領(lǐng)域無(wú)關(guān),對(duì)新詞的長(zhǎng)度沒(méi)有限制,僅采用一個(gè)統(tǒng)計(jì)指標(biāo)就能取得較好的效果。
下一步的工作主要是針對(duì)實(shí)驗(yàn)中發(fā)現(xiàn)錯(cuò)誤組合情況優(yōu)化算法,以及結(jié)合更多的統(tǒng)計(jì)指標(biāo)改善新詞發(fā)現(xiàn)的正確率。另外,可能的進(jìn)一步工作是改造本方法,使其能夠不依賴分詞工具直接進(jìn)行新詞發(fā)現(xiàn)。
參考文獻(xiàn)
[1]PengFC,FengFF,McCallumA.Chinesesegmentationandnewworddetectionusingconditionalrandomfields[C]//InternatioalConferenceonComputationalLinguistics.Stroudsburg,2004.
[2]SproatR,EmersonT.FirstinternationalChinesewordsegmentationbakeoff[C]//ProceedingsoftheSecondSIGHANWorkshoponChineseLanguageProcessing,2003.
[3] 張海軍,史樹(shù)敏,朱朝勇,等.中文新詞識(shí)別技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2010,37(3):6-10.
[4]NieJY,HannanML,JinW.UnknownworddetectionandsegmentationofChineseusingstatisticalandheuristicknowledge[J].CommunicationsofCOLIPS,1995,5(1):47-57.
[5] 曹艷,杜慧平,劉竟,等.基于詞表和N-gram算法的新詞識(shí)別實(shí)驗(yàn)[J].情報(bào)科學(xué),2007,25(11):1687-1691.
[6]GaoJF,GoodmanJ,LiMJ,etal.TowardaunifiedapproachtostatisticallanguagemodelingforChinese[J].ACMTransactionsonAsianLanguageInformationProcessing,2002,1(1):3-33.
[7]ZhangK,LiuQ,ZhangH,etal.AutomaticrecognitionofChineseunknownwordsbasedonrolestagging[C]//ProceedingsofthefirstSIGHANworkshoponChineselanguageprocessing-Volume18.AssociationforComputationalLinguistics,2002:1-7.
[8] 鄒綱,劉洋,劉群,等.面向Internet的中文新詞語(yǔ)檢測(cè)[J].中文信息學(xué)報(bào),2004,18(6):1-9.
[9] 羅智勇,宋柔.基于多特征的自適應(yīng)新詞識(shí)別[J].北京工業(yè)大學(xué)學(xué)報(bào),2007,33(7):718-725.
[10] 賀敏,龔才春,張華平,等.一種基于大規(guī)模語(yǔ)料的新詞識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(21):157-159.
[11]WuA,JiangZ.Statistically-EnhancedNewwordidentificationinarule-basedChinesesystem[C]//ProceedingsoftheSecondChineseLanguageProcessingWorkshop.HongKong,China,2000:46-51.
[12] 陳飛,劉奕群,魏超,等.基于條件隨機(jī)場(chǎng)方法的開(kāi)放領(lǐng)域新詞發(fā)現(xiàn)[J].軟件學(xué)報(bào),2013,24(5):1051-1060.
[13]SunX,HuangDG,SongHY,etal.Chinesenewwordidentification:ALatentDiscriminativeModelwithGlobalFeatures[J].JournalofComputerScienceandTechnology,2011,26(1):14-24.
[14] 丁建立,慈祥,黃劍雄.一種基于免疫遺傳算法的網(wǎng)絡(luò)新詞識(shí)別方法[J].計(jì)算機(jī)科學(xué),2011,38(1):240-245.
[15]SunR,JinP,LaiJ.AmethodfornewwordextractiononChineselarge-scalequerylogs[C]//2012EighthInternationalConferenceonComputationalIntelligenceandSecurity.IEEE,2011:1256-1259.
[16]BordaM.Fundamentalsininformationtheoryandcoding[M].Springer,2011.
[17]HanTS,KobayashiK.Mathematicsofinformationandcoding[M].AmericanMathematicalSociety,2002.
A NOVEL APPROACH FOR CHINESE NEW WORD IDENTIFICATION BASED ONCONTEXTUALWORDFREQUENCY-CONTEXTUALWORDCOUNT
Xing Enjun1,2Zhao Fuqiang2
1(College of Management and Economics,Tianjin University,Tianjin 300072,China)2(Department of Information Science and Technology,Tianjin University of Finance and Economics,Tianjin 300222,China)
AbstractThis article presents a statistic index which is based on contextual word frequency-contextual word count (WF-CWC). WF-CWC, by modifying the definition of the parameters in information entropy formula, i.e., changing the occurrence frequency of adjacent strings in corpus to the size of the adjacent strings collection, overcomes the defect of left and right information entropies being not significant in characteristics when identifying new words. Meanwhile, this paper presents a recursive and adjacent relation-based string concatenation method, which overcomes the disadvantage of the fixed sliding window size in N-gram model. Empirical analysis indicates that this new word identification method has higher accuracy. Through selecting different WF-CWC as the thresholds, it can make flexible adjustment in finding more new words or improve the accuracy of new words identification, and this provides a practical approach for new words identification.
KeywordsNew word identificationInformation entropy of contextContext word frequency-context word count
收稿日期:2015-01-09。國(guó)家自然科學(xué)基金青年基金項(xiàng)目(6100 4056);天津自然科學(xué)基金資助項(xiàng)目(15JCYBJC16000);天津市哲學(xué)社會(huì)科學(xué)研究規(guī)劃基金資助項(xiàng)目(TJTJ15-002)。邢恩軍,講師,主研領(lǐng)域:文本挖掘。趙富強(qiáng),副教授。
中圖分類號(hào)TP391.1
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.06.016