段 磊,韓 芳,宋繼華
(北京師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100875)
在漢語中,字和詞不是同一個(gè)概念。詞是語言中可以獨(dú)立運(yùn)用的最小表意單位,而字是詞的記錄符號(hào)[1]。
與現(xiàn)代漢語中雙字詞和多字詞居多的情況不同,在古漢語中,多數(shù)為單字詞,少數(shù)為多字詞,因而增加了多字詞獲取的難度。但由于古漢語句式簡(jiǎn)單、單句字?jǐn)?shù)少,反而減少了對(duì)多字詞獲取結(jié)果的干擾。所以將詞匯獲取的統(tǒng)計(jì)模型應(yīng)用于古漢語,可以更加客觀地評(píng)價(jià)各種獲取方法的性能。對(duì)古代漢語詞匯的自動(dòng)獲取方法進(jìn)行研究,其成果不但將對(duì)古漢語詞典編撰等古籍的信息化處理應(yīng)用起到不可忽視的作用,同時(shí)也會(huì)促進(jìn)古漢語語法研究與現(xiàn)代漢語語法研究的結(jié)合,推動(dòng)現(xiàn)代漢語語法研究的深入展開。
我國(guó)歷史悠久,文化遺產(chǎn)豐富,用文言記錄的典章制度及史料,用文言撰寫的文學(xué)作品,多到不可計(jì)數(shù)。由于時(shí)間跨度大(上下三千多年),不同時(shí)代,不同體裁的文言作品,其語言特點(diǎn)有很大差異。而最能反映古漢語原貌的,莫過于先秦兩漢的作品[1]。由我國(guó)西漢著名史學(xué)家司馬遷撰寫的紀(jì)傳體史書——《史記》,是先秦兩漢文學(xué)作品中最具有代表性的典籍之一,被譽(yù)為“史家之絕唱,無韻之《離騷》”。
已有相關(guān)的統(tǒng)計(jì)自然語言處理專著[2]及論文[3]曾對(duì)搭配獲取方法進(jìn)行過闡述。在自然語言處理領(lǐng)域中,“搭配”一般指兩個(gè)或多個(gè)連續(xù)的詞序列構(gòu)成的某種習(xí)慣性的表達(dá),是詞與詞的關(guān)系[4]。本文針對(duì)古漢語雙字詞的自動(dòng)獲取問題,通過考察字與字的關(guān)系,以《史記》全文語料庫為例,分別應(yīng)用了基于頻率、互信息(包括點(diǎn)互信息、三次互信息)、假設(shè)檢驗(yàn)(包括t檢驗(yàn),卡方檢驗(yàn),似然比)等獲取搭配的統(tǒng)計(jì)方法對(duì)古漢語雙字詞進(jìn)行獲取,并將獲取結(jié)果與人工標(biāo)注結(jié)果進(jìn)行了詳細(xì)的比較,評(píng)價(jià)了各方法的優(yōu)缺點(diǎn)及可靠性,為不同應(yīng)用背景下的古漢語雙字詞自動(dòng)獲取提供了相應(yīng)的解決方案,從而找到針對(duì)不同需求的古漢語雙字詞獲取的有效方法。
一個(gè)n元組是指一個(gè)含n個(gè)相鄰字的字串。由單字生成n元組的唯一條件是它們?cè)谖谋局羞B續(xù)出現(xiàn)。以《史記》第一篇《本紀(jì)—五帝本紀(jì)》第一句為例:
黃帝者,少典之子,姓公孫,名曰軒轅。
從該句中抽取n元組,其結(jié)果為:
二元組: 黃帝、帝者、少典、典之、之子、姓公、公孫、名曰、曰軒、軒轅(10個(gè));
三元組: 黃帝者、少典之、典之子、姓公孫、名曰軒、曰軒轅(6個(gè));
四元組: 少典之子、名曰軒轅(2個(gè))。
本文主要對(duì)古漢語中雙字詞的自動(dòng)獲取進(jìn)行研究,所以只考慮二元組的情況: 將《史記》中出現(xiàn)的所有二元組作為雙字詞的候選集,利用統(tǒng)計(jì)方法進(jìn)行雙字詞的自動(dòng)獲取。
在語料庫中尋找雙字詞的最簡(jiǎn)單的方法就是計(jì)數(shù)。如果某個(gè)二元組出現(xiàn)了很多次,那么這就是一個(gè)證據(jù),說明此二元組中的兩個(gè)字之間存在著某種聯(lián)系。從形式上看,詞是穩(wěn)定的字的組合,字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。因此在上下文中,二元組出現(xiàn)的次數(shù)越多,組成此二元組的兩個(gè)字就越有可能構(gòu)成一個(gè)詞?;陬l率信息的雙字詞獲取方法以二元組出現(xiàn)的次數(shù),即觀察頻率(Observed Frequency)為依據(jù)來進(jìn)行計(jì)算。
對(duì)于雙字詞的獲取,一種以信息論為根據(jù)的方法是互信息?;バ畔Ⅲw現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)兩個(gè)字的緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為這兩個(gè)字可能構(gòu)成了一個(gè)詞。利用互信息進(jìn)行雙字詞獲取的方法還可以細(xì)分為兩種: 點(diǎn)互信息和三次互信息。
2.3.1 點(diǎn)互信息(PMI)
在雙字詞抽取中,點(diǎn)互信息表示連續(xù)出現(xiàn)的兩個(gè)字中,一個(gè)字的出現(xiàn)所提供的關(guān)于另一個(gè)字出現(xiàn)的信息量,其公式如式(1)所示:
其中,P(w1,w2)表示二元組(w1,w2)在語料中出現(xiàn)的概率;P(w1),P(w2)分別表示漢字w1,w2在語料中各自出現(xiàn)的概率;C12表示二元組(w1,w2)在語料中出現(xiàn)的次數(shù),C1,C2分別表示漢字w1,w2在語料中各自出現(xiàn)的次數(shù),N表示語料庫中二元組的總次數(shù)(下同)。點(diǎn)互信息值越高,w1和w2組成雙字詞的可能性越大,點(diǎn)互信息值越低,w1和w2之間存在搭配邊界的可能性越大[5]。
點(diǎn)互信息的一個(gè)致命缺點(diǎn)在于,它不能很好地解決低頻率事件,容易受到數(shù)據(jù)稀疏的影響??紤]一種極端情況: 某兩個(gè)字的出現(xiàn)是完全互相依賴的(它們都是一起出現(xiàn)),此時(shí):
也就是說,在完全依賴的二元組中,兩個(gè)字出現(xiàn)的次數(shù)減少時(shí),他們的點(diǎn)互信息增加。
另一種極端情況: 某兩個(gè)字的出現(xiàn)是完全獨(dú)立的(一個(gè)字的出現(xiàn)不能給出關(guān)于另一個(gè)字出現(xiàn)的任何信息),此時(shí):
=log21=0
(3)
由此可見,點(diǎn)互信息是衡量獨(dú)立性的一種很好的方法。接近0的點(diǎn)互信息值表明了兩個(gè)字完全獨(dú)立,而對(duì)于依賴性來說,點(diǎn)互信息值是由單獨(dú)字的頻率來決定的,在其他條件相等的情況下,由低頻單字組成的二元組的點(diǎn)互信息值要大于高頻單字組成的二元組的點(diǎn)互信息值。點(diǎn)互信息傾向于為低頻二元組賦予較高的值。
2.3.2 三次互信息(MI3)
三次互信息是在點(diǎn)互信息的基礎(chǔ)上提出的[6],其公式如式(4)所示:
其中,各參數(shù)的意義與點(diǎn)互信息的公式相同,主要區(qū)別在于對(duì)C12取三次方,擴(kuò)大兩個(gè)字同現(xiàn)次數(shù)對(duì)于評(píng)價(jià)指數(shù)的影響,來增加高頻事件與低頻事件的差距,從而解決點(diǎn)互信息對(duì)低頻事件賦予較高的值的問題。
假設(shè)檢驗(yàn)是數(shù)理統(tǒng)計(jì)學(xué)中根據(jù)一定假設(shè)條件由樣本推斷總體的一種方法,基本思想是先對(duì)某事做出某種假設(shè),然后根據(jù)統(tǒng)計(jì)量的數(shù)值結(jié)果來判斷所做的假設(shè)是否可信,從而肯定或否定這個(gè)假設(shè)[7]。本文所介紹的用于雙字詞獲取的假設(shè)檢驗(yàn)方法包括t檢驗(yàn)法、卡方檢驗(yàn)法、似然比。
2.4.1 t檢驗(yàn)(t Test)
t檢驗(yàn)用t分布理論來推斷差異發(fā)生的概率,從而判定兩個(gè)平均數(shù)的差異是否顯著。其中,H0表示二元組的組成單字為獨(dú)立無關(guān)的情況,H1表示二元組為雙字詞的情況。具體計(jì)算公式如式(5)所示:
所以,
t檢驗(yàn)考慮了二元組的出現(xiàn)次數(shù)相對(duì)于其中每個(gè)字的出現(xiàn)頻率的比例。如果二元組的出現(xiàn)頻率接近于其中每個(gè)字,或某一個(gè)字的出現(xiàn)頻率,那么它的t值就會(huì)較高[2],以此來檢驗(yàn)二元組是否為雙字詞。
2.4.2 卡方檢驗(yàn)(Chi-square Test)
卡方檢驗(yàn)是以卡方分布為基礎(chǔ)的一種常用假設(shè)檢驗(yàn)方法,用途很廣,主要用于分類變量[8]。在應(yīng)用卡方檢驗(yàn)到雙字詞獲取的過程中時(shí),我們利用下面兩個(gè)對(duì)立假設(shè)來解釋二元組w1w2的出現(xiàn)頻率。
假設(shè)H0: 行分類變量與列分類變量無關(guān)聯(lián)
假設(shè)H1: 行分類變量與列分類變量有關(guān)聯(lián)
卡方檢驗(yàn)值計(jì)算了觀測(cè)值和期望值之間的差別的總和,為:
其中Oij表示表單元(i,j)的觀測(cè)值,Eij是在H0為真的情況下表單元(i,j)的理論數(shù)(期望值),i為表中的行變量,j為表中的列變量。
在H0為真時(shí),實(shí)際觀察數(shù)與理論數(shù)之差Oij-Eij應(yīng)該比較接近0。
通過計(jì)算邊緣分布可以得到期望頻度Eij的值,計(jì)算方法為: 將表中的頻度值轉(zhuǎn)換為比例值后按行和列計(jì)算總數(shù)。
表1 表明單字“諸”和“侯”出現(xiàn)次數(shù)之間的依賴關(guān)系的2×2列聯(lián)表
卡方檢驗(yàn)從理論上講適用于各種大小的表,但是對(duì)于2×2形式的列聯(lián)表格(表1)的表達(dá)形式相對(duì)簡(jiǎn)單。針對(duì)雙字詞的具體計(jì)算公式如式(9)所示:
(9)
2.4.3 似然比(Likelihood Ratios)
似然比是反映真實(shí)性的一種指標(biāo),屬于同時(shí)反映靈敏度和特異度的復(fù)合指標(biāo)。在應(yīng)用似然比檢驗(yàn)到雙字詞獲取的過程中時(shí),我們利用下面兩個(gè)對(duì)立假設(shè)來解釋二元組w1w2的出現(xiàn)頻率。
假設(shè)H0:P(w2|w1)=P=P(w2|w1)
假設(shè)H1:P(w2|w1)P1 ≠P2=P(w2|w1)
假設(shè)H0是獨(dú)立性假設(shè)的形式化,而假設(shè)H1則是非獨(dú)立性假設(shè)的形式化。
使用最大似然估計(jì)的方法計(jì)算P,P1和P2,則得:
(10)
表2所示為如何計(jì)算似然比檢驗(yàn)。
表2 似然比計(jì)算方法
H0似然值:
L(H0)=B(C12;C1,P)B(C2-C12;N-C1,P)
(11)
H1似然值:
L(H1)=B(C12;C1,P1)B(C2-C12;N-C1,P2)
(12)
似然比λ的對(duì)數(shù)值:
由于在不同的應(yīng)用中對(duì)詞匯的定義有著不同的理解,因此對(duì)詞匯獲取方法也存在著不同的評(píng)價(jià)標(biāo)準(zhǔn),有專家進(jìn)行人工評(píng)價(jià)的,也有利用已有詞典進(jìn)行評(píng)價(jià)的。本文利用中國(guó)臺(tái)灣“中央研究院”發(fā)布的帶有分詞和詞類標(biāo)注信息的《史記》全文語料(后文簡(jiǎn)稱“熟語料”),從中得到所有雙字詞集合,即標(biāo)注者認(rèn)為的雙字詞集合,作為計(jì)算獲取準(zhǔn)確率的目標(biāo)集合,從而評(píng)價(jià)雙字詞獲取方法的效果。
為了更準(zhǔn)確地分析對(duì)比各方法的性能,需要將二元組做停詞篩選: 如二元組包含停詞表中的字,則將其剔除,不做考慮。本文所使用的停詞表包括文言助詞、虛詞以及數(shù)詞的簡(jiǎn)約停詞表,共26字: “之乎者也是于於何而以為所不無其曰一二三四五六七八九十”。
從語料庫中抽取二元組后,可以根據(jù)第二節(jié)中介紹的統(tǒng)計(jì)模型,計(jì)算組成二元組的兩個(gè)字的關(guān)聯(lián)強(qiáng)度值,按其排序,取出排名靠前,或關(guān)聯(lián)強(qiáng)度值大于某一閾值的若干二元組,得到最終結(jié)果集。本文使用的《史記》全文語料,排除表格等無語句信息的部分,并經(jīng)過停詞處理后,共保留501 995字,其中產(chǎn)生的二元組的次數(shù)(token)為283 052,形數(shù)(type)為110 409。
從熟語料中統(tǒng)計(jì)出所有雙字詞及其實(shí)際頻率(Actual Frequency,即雙字詞在熟語料中出現(xiàn)的頻率),數(shù)據(jù)如表3所示。
表3 熟語料庫中雙字詞統(tǒng)計(jì)頻度
實(shí)際頻率大于100的雙字詞及其實(shí)際頻率如表4所示。
表4 實(shí)際頻率為100以上的雙字詞
續(xù)表
為觀察各方法的性能,表5列出了經(jīng)各方法計(jì)算后,將統(tǒng)計(jì)指標(biāo)最高的前N項(xiàng)結(jié)果作為結(jié)果集時(shí),該結(jié)果集的準(zhǔn)確率。圖1列出了隨著保留數(shù)的變化,各方法準(zhǔn)確率的變化趨勢(shì)。
從表5和圖1中可以看出,總體上三次互信息的準(zhǔn)確率明顯高于其他方法,其次是似然比;頻率、點(diǎn)互信息、t檢驗(yàn)、卡方檢驗(yàn)在結(jié)果集的保留數(shù)不同時(shí),曲線走向又有各自的特點(diǎn)。隨著保留數(shù)的增加,所有方法的準(zhǔn)確率都呈現(xiàn)出緩慢下降,并逐漸趨于平穩(wěn)的趨勢(shì)。下面結(jié)合每種方法獲取到的前20項(xiàng)結(jié)果,對(duì)各自的獲取性能和特點(diǎn)進(jìn)行說明。
表5 各方法結(jié)果集在保留數(shù)取不同值時(shí)的準(zhǔn)確率
圖1 各方法結(jié)果集在保留數(shù)的不同取值下的準(zhǔn)確率的散點(diǎn)圖
從表5和圖1可以看出,基于頻率的獲取方法在獲取高頻雙字詞方面表現(xiàn)尚可,但隨著保留數(shù)的增加,該方法的準(zhǔn)確率下降得很明顯。在保留數(shù)達(dá)到2 000時(shí),準(zhǔn)確率已經(jīng)下降到了50%以下??梢娫诖罅康孬@取雙字詞方面,基于頻率的獲取方法表現(xiàn)得并不理想。表6列出了觀察頻率(區(qū)別于實(shí)際頻率)最高的前20個(gè)二元組及其相關(guān)信息(本文所使用的詞類系統(tǒng)為中國(guó)臺(tái)灣“中央研究院”發(fā)布的上古漢語詞類標(biāo)記系統(tǒng),所列出的雙字詞的詞類為該詞在熟語料中出現(xiàn)次數(shù)最多的詞類,下同)。
表6 觀察頻率最高的前20個(gè)二元組及其相關(guān)信息
續(xù)表
顯而易見,同現(xiàn)頻率很高的兩個(gè)字在很多情況下并不是雙字詞,而很可能是一個(gè)功能性短語,例如,“以為”、“而不”、“之所”等。雖然經(jīng)過停詞處理后,過濾掉了很多功能性短語,但還是不可避免地出現(xiàn)不是雙字詞的短語,如表6中的“使人”。該方法的優(yōu)點(diǎn)為計(jì)算簡(jiǎn)單,運(yùn)行速度快,缺點(diǎn)是會(huì)抽取出很多包含常用字的非詞二元組,而且因?yàn)槠渫耆蕾囉陬l率,這就使得其無法獲取到低頻率雙字詞,所獲取的雙字詞的詞類也以常出現(xiàn)的集體名詞和有生名詞等常見的詞類為主。如果對(duì)結(jié)果精度要求不高,不需要獲取特定詞類的雙字詞,并且只希望迅速找出高頻率的雙字詞,利用一個(gè)設(shè)計(jì)合理的停詞表,基于頻率的獲取方法不失為一個(gè)較好的選擇。
從表5和圖1可以看出,在保留數(shù)較小的區(qū)域,點(diǎn)互信息的走勢(shì)會(huì)出現(xiàn)一個(gè)小幅波峰,而且這種方法對(duì)于低頻二元組的獲取性能明顯低于其他方法,這也印證了本文在2.3.1節(jié)的論述。然而利用點(diǎn)互信息對(duì)低頻事件賦予較高值的特點(diǎn),我們可以通過過濾掉低頻二元組,從而獲取到特定頻率范圍內(nèi)的雙字詞。表6列出了過濾掉觀察頻率小于等于10的二元組后,點(diǎn)互信息最高的前20個(gè)二元組及其相關(guān)信息。
表6 點(diǎn)互信息值最高的前20個(gè)二元組及其相關(guān)信息(觀察頻率大于10)
經(jīng)計(jì)算,觀察頻率大于10,并且點(diǎn)互信息最高的前100個(gè)二元組組成的結(jié)果集,其準(zhǔn)確率達(dá)到了90%。從表6可以看出,其獲取的結(jié)果在熟語料中作為雙字詞時(shí)出現(xiàn)的次數(shù)基本處于10到20之間,所獲取的雙字詞的詞類不再局限于常出現(xiàn)的集體名詞和有生名詞,而是更加偏重于特定頻率下的人獸名和事物名等命名實(shí)體。由此可見,在獲取特定頻率范圍內(nèi)的雙字詞方面,點(diǎn)互信息有很好的性能。同時(shí),對(duì)點(diǎn)互信息值最小的100個(gè)二元組進(jìn)行統(tǒng)計(jì),其中只包含11個(gè)雙字詞。可見,點(diǎn)互信息也可以應(yīng)用于檢驗(yàn)二元組中兩個(gè)字的無關(guān)性。
從表5和圖1可以看出,三次互信息在點(diǎn)互信息的基礎(chǔ)上,很好地解決了數(shù)據(jù)稀疏問題。它的結(jié)果集在保留數(shù)取不同的值時(shí),準(zhǔn)確率均明顯高于其他方法,是一種簡(jiǎn)單高效的方法。表7列出了三次互信息值最高的前20個(gè)二元組及其相關(guān)信息。
表7 三次互信息值最高的前20個(gè)二元組及其相關(guān)信息
從表7可以看出,雖然三次互信息方法的準(zhǔn)確率較高,但其所獲取的雙字詞的詞類特點(diǎn)不鮮明。既有人獸名、事物名等命名實(shí)體,又有集體名詞、有生名詞等非命名實(shí)體,并且無法獲取到特定頻率下的雙字詞。如果對(duì)獲取結(jié)果沒有特殊的需求,三次互信息是六種方法中的最佳選擇。
從表5和圖1可以看出,隨著保留數(shù)的增大,t檢驗(yàn)準(zhǔn)確率的走勢(shì)基本與三次互信息和似然比相同,但準(zhǔn)確率均低于兩者,可見在大量獲取雙字詞方面,它并不是一個(gè)很好的選擇。但t檢驗(yàn)對(duì)低頻事件的處理較好。所以對(duì)于稀疏數(shù)據(jù),它比互信息和卡方檢驗(yàn)更有優(yōu)勢(shì)。表8列出了t檢驗(yàn)值最高的前20個(gè)二元組及其相關(guān)信息。
遺憾的是,表8并沒有反映出t檢驗(yàn)的結(jié)果集有何種特點(diǎn)。t檢驗(yàn)的一個(gè)問題在于它的前提假設(shè),它認(rèn)為數(shù)據(jù)滿足正態(tài)分布[2]。而將其應(yīng)用于《史記》雙字詞獲取時(shí)效果并不突出,這也反映出在自然語言中(至少在《史記》中),詞匯的出現(xiàn)概率往往不滿足正態(tài)分布。
表8 T檢驗(yàn)值最高的前20個(gè)二元組及其相關(guān)信息
從表5和圖1中可以看出,隨著保留數(shù)的增加,卡方檢驗(yàn)的準(zhǔn)確率趨勢(shì)大體與似然比相同,但與點(diǎn)互信息類似,在保留數(shù)100到500之間,卡方檢驗(yàn)的準(zhǔn)確率會(huì)出現(xiàn)一個(gè)波峰,并且卡方檢驗(yàn)的波峰與互信息的相比更加明顯。由此可見,卡方檢驗(yàn)比點(diǎn)互信息更加傾向于為低頻二元組賦予較高的值,這也反映出卡方檢驗(yàn)的不足在于當(dāng)保留數(shù)量很小時(shí),結(jié)果的說服力不是很強(qiáng)[2],因此獲取得到檢驗(yàn)值較高的二元組中會(huì)出現(xiàn)更多的低頻詞。表9列出了t卡方檢驗(yàn)值最高且觀察頻率大于10的前20個(gè)二元組及其相關(guān)信息。
表9 卡方檢驗(yàn)值最高的前20個(gè)二元組及其相關(guān)信息(觀察頻率大于10)
經(jīng)計(jì)算,觀察頻率大于10,并且卡方檢驗(yàn)最高的前100項(xiàng)組成的結(jié)果集,其準(zhǔn)確率達(dá)到了92%,高于點(diǎn)互信息的90%。通過對(duì)表9列出的結(jié)果進(jìn)行分析,可以看出,根據(jù)卡方檢驗(yàn)抽取的二元組中命名實(shí)體所占比例較大。另外,在卡方檢驗(yàn)值最小的100個(gè)二元組中只有4個(gè)是雙字詞(常民/有生名詞、陳定/人獸名、上德/抽象名詞、餘閒/抽象名詞),所以無論是獲取特定頻率雙字詞,還是檢驗(yàn)二元組中兩個(gè)字的無關(guān)性,卡方檢驗(yàn)的性能均好于互信息,是六種方法中的最佳選擇。
從表5和圖1可以看出,在保留數(shù)取不同的值時(shí),似然比的結(jié)果集表現(xiàn)較好,僅次于三次互信息。表10列出了似然比對(duì)數(shù)值最高的前20個(gè)二元組及其相關(guān)信息。
表10 似然比值最高的前20個(gè)二元組及其相關(guān)信息
從表10可以看出,與三次互信息類似,似然比所獲取的雙字詞的詞類特點(diǎn)也不鮮明。鑒于其在整體獲取性能方面的表現(xiàn),似然比是假設(shè)檢驗(yàn)中最適合獲取雙字詞的方法。
本文介紹了六種針對(duì)古漢語雙字詞自動(dòng)獲取的方法,從《史記》全文語料庫中自動(dòng)獲取二元組,在對(duì)獲取結(jié)果進(jìn)行分析的基礎(chǔ)上對(duì)比了各方法的不同特性,提供了根據(jù)應(yīng)用需求的不同,進(jìn)行古漢語雙字詞自動(dòng)獲取的相應(yīng)解決方案,如表11所示。
表11 各統(tǒng)計(jì)模型在雙字詞獲取上的適用需求
如對(duì)獲取結(jié)果準(zhǔn)確率要求不高,但對(duì)運(yùn)行時(shí)間和方法簡(jiǎn)易度有一定要求,可以使用基于頻率的獲取方法;如對(duì)獲取結(jié)果準(zhǔn)確率要求較高,但對(duì)獲取的詞類偏重?zé)o要求,可以選擇基于三次互信息的獲取方法;如欲獲取特定頻率范圍內(nèi)的雙字詞,可以首先設(shè)定頻率閾值進(jìn)行過濾,然后使用基于卡方檢驗(yàn)的方法進(jìn)行獲取。
上述方法可以應(yīng)用于諸如命名實(shí)體識(shí)別、分詞、機(jī)器翻譯、文本分類、句法分析、詞典編纂等需要識(shí)別詞語結(jié)構(gòu)和內(nèi)容的自然語言處理領(lǐng)域。
目前,還無法對(duì)多字詞進(jìn)行自動(dòng)獲取。因此,今后將在這個(gè)方面進(jìn)行進(jìn)一步的研究。
[1] 王寧.古代漢語[M].北京: 北京出版社,2002.3-4.
[2] 苑春法,等譯.統(tǒng)計(jì)自然語言處理基礎(chǔ)[M].北京: 電子工業(yè)出版社.2007: 94-117.
[3] 全昌勤,劉輝,何婷婷.基于統(tǒng)計(jì)模型的詞語搭配自動(dòng)獲取方法的分析與比較[J].四川成都: 計(jì)算機(jī)應(yīng)用研究.2005,(9):61-63.
[4] Christopher D. Manning Hinrich. Foundations of Statistical Natural Language Processing[M]. The MIT Press Cambridge, Massachusetts London, England,94-117.
[5] 陳章太.點(diǎn)互信息世紀(jì)之交的中國(guó)應(yīng)用語言學(xué)硏究[M].北京: 華語教學(xué)出版社,1999.495.
[6] Oakes M. Statics for Corpus Linguistics [D].Edinburgh: Edinburgh University Press,1998: 171-172.
[7] 盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(jì)[M].北京: 高等教育出版社.2005: 162-170.
[8] 李時(shí).應(yīng)用統(tǒng)計(jì)學(xué)[M].北京: 清華大學(xué)出版社,2005: 68-73.