劉友強(qiáng),李 斌,2,奚 寧,陳家駿
(1. 南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210093;2. 南京師范大學(xué) 語(yǔ)言信息科技研究中心,江蘇 南京 210097)
縮略語(yǔ)是短語(yǔ)或詞的全稱的縮寫形式,如“中國(guó)”簡(jiǎn)稱“中”。由于其省時(shí)省力的效果,在自然語(yǔ)言中被廣泛使用,是未登錄詞的主要來(lái)源之一。據(jù)研究,在一篇典型的中文新聞文章中,近20%的句子包含縮略語(yǔ)[1]。而未登錄詞對(duì)于中文的自動(dòng)分詞與詞性標(biāo)注等詞法句法分析任務(wù)有很大地影響,這使得中文縮略語(yǔ)有較大地研究?jī)r(jià)值。
一般來(lái)說(shuō),現(xiàn)代中文縮略語(yǔ)的構(gòu)成方式主要有四種。(1)語(yǔ)素方式: 縮略語(yǔ)由原詞語(yǔ)各部分的語(yǔ)素構(gòu)成。例如,奧林匹克 運(yùn)動(dòng)——奧運(yùn);(2)中心詞方式: 縮略語(yǔ)由原詞語(yǔ)核心的詞構(gòu)成。例如,人造 地球 衛(wèi)星——人造衛(wèi)星;(3)混合方式: 縮略語(yǔ)由語(yǔ)素和中心詞構(gòu)成方式混合使用而得。例如,中央 電視臺(tái)——中央臺(tái);(4)合并方式: 縮略語(yǔ)由原詞語(yǔ)中的并列詞歸納而得。例如,包退、包換、包修——三包。
從整體上看,縮略語(yǔ)研究可以分為縮略語(yǔ)的探測(cè)識(shí)別、簡(jiǎn)稱—全稱的對(duì)應(yīng)(還原生成)兩大類工作。在縮略語(yǔ)的探測(cè)識(shí)別方面,Zhu,et al.針對(duì)單字人名、地名簡(jiǎn)稱,采取了基于分類器的預(yù)測(cè)模型[2];李斌等對(duì)漢語(yǔ)單字國(guó)名采取了統(tǒng)計(jì)評(píng)分法進(jìn)行識(shí)別[3]??s略語(yǔ)的自動(dòng)識(shí)別研究工作主要集中于縮略語(yǔ)的“簡(jiǎn)稱—全稱”的還原、生成工作以及縮略語(yǔ)詞典的自動(dòng)構(gòu)建。在還原、生成方面,Chang 和 Lai將縮略語(yǔ)的生成和還原問(wèn)題轉(zhuǎn)化為隱馬爾可夫模型(HMM)問(wèn)題,使用縮略語(yǔ)詞典進(jìn)行訓(xùn)練[1]。支流等設(shè)計(jì)了一個(gè)基于模糊匹配的縮略語(yǔ)還原算法,從縮略語(yǔ)上下文和縮略語(yǔ)詞典中獲得備選的全稱[4]。在縮略語(yǔ)詞典自動(dòng)構(gòu)建方面,崔世起等針對(duì)未登錄詞,在生語(yǔ)料中使用重復(fù)串搜索技術(shù)和詞性過(guò)濾獲得候選縮略語(yǔ)集和全稱短語(yǔ)庫(kù),再利用語(yǔ)言模型和對(duì)齊模型進(jìn)行候選縮略語(yǔ)和全稱短語(yǔ)的對(duì)齊,最后得到148對(duì)縮略—全稱語(yǔ)對(duì),準(zhǔn)確率為51.4%[5]。武子英等從詞性標(biāo)注語(yǔ)料中獲得候選縮略語(yǔ)集和全稱短語(yǔ)庫(kù)后,利用上下文的相似度對(duì)縮略語(yǔ)和全稱短語(yǔ)配對(duì),從而獲得縮略語(yǔ)詞典,準(zhǔn)確率達(dá)到74.1%[6]。這兩種方法都是在漢語(yǔ)單語(yǔ)文本上的工作,有兩點(diǎn)不足。(1)縮略語(yǔ)的采集效率比較低。多重視“簡(jiǎn)稱—全稱”的對(duì)應(yīng),而作為對(duì)應(yīng)前提的簡(jiǎn)稱的自動(dòng)識(shí)別則研究較少;(2)僅使用單語(yǔ)的縮略規(guī)則模板,導(dǎo)致準(zhǔn)確率不是很高。
中文縮略語(yǔ)的大量存在對(duì)漢-外統(tǒng)計(jì)機(jī)器翻譯也造成一定的影響。Li et al.提出了一種獲得中文縮略語(yǔ)英文翻譯的方法[7]。該方法首先識(shí)別英文語(yǔ)料中的實(shí)體,并翻譯為中文短語(yǔ),以此作為全稱短語(yǔ)。然后,根據(jù)中文單語(yǔ)語(yǔ)料中短語(yǔ)的共現(xiàn)信息提取出縮略語(yǔ),以英文實(shí)體為其翻譯。該方法的目的是獲得候選縮略語(yǔ)的英文翻譯,因而對(duì)于縮略—全稱語(yǔ)對(duì)的準(zhǔn)確度要求不高。但這啟示我們兩種語(yǔ)言的翻譯關(guān)系可以作為聯(lián)系全稱和縮略語(yǔ)的橋梁。
本文遵循從雙語(yǔ)對(duì)譯關(guān)系中挖掘全稱—簡(jiǎn)稱關(guān)系的思路,嘗試找到一種準(zhǔn)確率比較高的自動(dòng)獲取方法,以中文縮略語(yǔ)為研究對(duì)象,取得了不錯(cuò)的實(shí)驗(yàn)結(jié)果。我們首先從句對(duì)齊平行語(yǔ)料庫(kù)中抽取出中英文短語(yǔ)對(duì)。然后根據(jù)短語(yǔ)對(duì)的一些特征訓(xùn)練出一個(gè)SVM分類器,將短語(yǔ)對(duì)根據(jù)對(duì)應(yīng)的質(zhì)量分為“對(duì)應(yīng)”與“不對(duì)應(yīng)”兩類。從對(duì)應(yīng)質(zhì)量好的那一類短語(yǔ)對(duì)集合中,利用一些約束條件和英文翻譯抽取中文縮略—全稱語(yǔ)對(duì)。實(shí)驗(yàn)表明,該方法抽取出的縮略—全稱語(yǔ)對(duì)有較高地準(zhǔn)確度。
從句對(duì)齊平行語(yǔ)料中提取中文縮略語(yǔ)的過(guò)程可分為三個(gè)部分: 短語(yǔ)對(duì)抽取,短語(yǔ)對(duì)分類和縮略—全稱語(yǔ)對(duì)的抽取。
這里短語(yǔ)對(duì)抽取采用基于短語(yǔ)的機(jī)器翻譯[8]的短語(yǔ)對(duì)抽取方法,流程如圖1所示。
圖1 短語(yǔ)對(duì)抽取流程圖
抽取短語(yǔ)對(duì)的步驟:
(1) 對(duì)平行語(yǔ)料中的中文分詞,英文全部換成小寫字母并將符號(hào)與詞分隔開(kāi)(Tokenization);
(2) 利用開(kāi)源的詞對(duì)齊訓(xùn)練工具GIZAC++*http://www-i6.informatik.rwth-aachen.de/Colleagues/och/software/GIZA++.html對(duì)平行語(yǔ)料進(jìn)行詞對(duì)齊訓(xùn)練。詞對(duì)齊訓(xùn)練的目標(biāo)是獲得語(yǔ)句對(duì)中詞的對(duì)應(yīng)關(guān)系。如圖2所示,連線的詞之間存在對(duì)應(yīng)關(guān)系。注意,由于這里的詞對(duì)齊關(guān)系是通過(guò)統(tǒng)計(jì)方法自動(dòng)獲取的,因而未必完全正確;
(3) 使用開(kāi)源的機(jī)器翻譯系統(tǒng)Moses*http://www.statmt.org/moses,抽取與詞對(duì)齊信息一致的中英文短語(yǔ)對(duì)。比如從圖2中的中文句子抽取的短語(yǔ)可以是“中共”、“中共 代表團(tuán)”。不過(guò),這里的短語(yǔ)不一定是語(yǔ)言學(xué)嚴(yán)格意義上的短語(yǔ)。這里的短語(yǔ)是指由語(yǔ)句中連續(xù)的一個(gè)或多個(gè)詞構(gòu)成的語(yǔ)句的子串;
(4) 合并相同的短語(yǔ)對(duì),輸出到文件。
圖2 詞對(duì)齊示例
抽取短語(yǔ)對(duì)的過(guò)程中,為了提高效率,我們排除了那些不太可能作為一個(gè)縮略語(yǔ)或縮略語(yǔ)英文翻譯的短語(yǔ)。排除條件有: (1)中文或英文短語(yǔ)中含有標(biāo)點(diǎn)符號(hào);(2)中文短語(yǔ)的邊界詞為“了”、“是”、“個(gè)”等三個(gè)一些不太可能作為縮略語(yǔ)或其全稱邊界的詞;(3)英文短語(yǔ)邊界詞為介詞,或詞尾為“the”的不太可能作為縮略語(yǔ)或全稱的英文翻譯邊界的虛詞。
由于語(yǔ)料庫(kù)中的噪聲以及訓(xùn)練出來(lái)的詞對(duì)齊不可能完全正確,使得相當(dāng)多的一部分中英文短語(yǔ)對(duì)事實(shí)上并不對(duì)應(yīng)。這些并不對(duì)應(yīng)的短語(yǔ)對(duì)會(huì)影響到后面縮略語(yǔ)提取的準(zhǔn)確度和效率。因此,我們采用四個(gè)特征來(lái)衡量中英文短語(yǔ)對(duì)的對(duì)應(yīng)質(zhì)量。并據(jù)此訓(xùn)練出一個(gè)基于SVM (支持向量機(jī))的分類器[10],將短語(yǔ)對(duì)根據(jù)對(duì)應(yīng)質(zhì)量分為“對(duì)應(yīng)”與“不對(duì)應(yīng)”兩類。
對(duì)于中—英短語(yǔ)對(duì)C-E,其中C=c1c2…cn,E=e1e2…em,采用的四個(gè)特征為:
(1)C翻譯為E的短語(yǔ)翻譯概率,采取極大似然估計(jì)。
(2) 詞匯化翻譯概率,C中的詞翻譯為E中的詞的概率平均值;
其中A為訓(xùn)練得到的C-E中詞的對(duì)應(yīng)關(guān)系,由于訓(xùn)練過(guò)程中對(duì)于相同的C,E可能有不同的對(duì)應(yīng)關(guān)系,我們這里采用值最大的φ(E,A|C)作為φ(E|C)的值。其中,w(ei|ci)為根據(jù)語(yǔ)料詞對(duì)齊信息得到的詞翻譯概率,采用極大似然估計(jì);
(3)φ(C|E),即E翻譯為C的短語(yǔ)翻譯概率。
(4)φ(C|E),即E中詞翻譯到C中詞的概率平均值。
這些特征可以較好地表征短語(yǔ)對(duì)齊效果,計(jì)算量不高,分類效果也不錯(cuò)(實(shí)驗(yàn)結(jié)果見(jiàn)3.1節(jié))。
經(jīng)上一節(jié)分類后得到比較可靠的中—英短語(yǔ)對(duì),接下來(lái)的任務(wù)就是從這些短語(yǔ)對(duì)中提取出候選縮略—全稱語(yǔ)對(duì)。算法分為兩部分: 第一部分(2.3.1)抽取出一個(gè)縮略—全稱語(yǔ)對(duì)的候選集;第二部分(2.3.2)對(duì)這個(gè)候選集進(jìn)行過(guò)濾,獲得一個(gè)準(zhǔn)確度較高的縮略語(yǔ)詞典。
2.3.1 匹配約束
我們將中文短語(yǔ)按字長(zhǎng)度進(jìn)行分組,長(zhǎng)度不超過(guò)5的短語(yǔ)被認(rèn)為是候選的縮略語(yǔ)。一對(duì)中文短語(yǔ)對(duì)C1-C2(C1為縮略語(yǔ),C2為全稱語(yǔ))被選為一對(duì)候選縮略—全稱短語(yǔ)對(duì),當(dāng)且僅當(dāng): (1)C1中的字都在C2中出現(xiàn);(2)C1和C2存在相同的英文翻譯。
2.3.2 噪音過(guò)濾
為提高縮略—全稱短語(yǔ)對(duì)的準(zhǔn)確性,要對(duì)其中的噪音進(jìn)行過(guò)濾。我們對(duì)抽取出的候選縮略語(yǔ)對(duì)進(jìn)行了詞性標(biāo)注,使用的工具為ICTCLAS*http://www.ictclas.org/。我們將候選縮略語(yǔ)的詞性限于名詞(n)、動(dòng)詞(v)、形容詞(a)、區(qū)位詞(b)及數(shù)詞(m)。經(jīng)過(guò)觀察,我們發(fā)現(xiàn)抽取出的候選縮略-全稱語(yǔ)對(duì)的一些特性。主要分為以下幾類。
(1) 候選縮略語(yǔ)為單字的情況。此時(shí)的抽取出的候選縮略-全稱語(yǔ)對(duì)可以分為以下幾類:
1. 人名、地名等專有名詞的縮略。這是單字縮略最常見(jiàn)的情況。例如,“阿/b-阿根廷/nsf”,“董/nr1-董建華/nr”。這一類縮略—全稱語(yǔ)對(duì)準(zhǔn)確性比較高;
2. 候選縮略語(yǔ)與候選全稱有相同的意義,但不是縮略語(yǔ)對(duì)。例如,“園/ng-公園/n”;
3. 噪音。這類語(yǔ)對(duì)并不是縮略—全稱的關(guān)系,是由于詞對(duì)齊信息不完全正確導(dǎo)致的錯(cuò)誤。例如,“他/rr-表示/v 他/rr”。這類候選縮略語(yǔ)和全稱語(yǔ)的詞的個(gè)數(shù)和詞性往往不相同。
因此對(duì)于候選縮略語(yǔ)為單字的語(yǔ)對(duì),我們根據(jù)詞性標(biāo)注的結(jié)果選取第一類,也即選取縮略或者全稱詞性標(biāo)注為人名(nr)、地名(ns)、機(jī)構(gòu)團(tuán)體名(nt)及其他專名(nz)的候選語(yǔ)對(duì)。
(2) 候選縮略語(yǔ)字長(zhǎng)為2,3,4,5的情況。此時(shí),采用語(yǔ)素構(gòu)成的候選縮略語(yǔ)正確率很高,而采用中心詞構(gòu)成的候選縮略語(yǔ)正確率較低,是大部分噪音的來(lái)源。針對(duì)這個(gè)特點(diǎn),我們選取的候選縮略語(yǔ)對(duì)分為以下幾類:
1. 候選縮略語(yǔ)和全稱語(yǔ)為單個(gè)詞且被均標(biāo)注為人名(nr)、地名(ns)、機(jī)構(gòu)團(tuán)體名(nt)及其他專名(nz)。例如,“國(guó)家計(jì)委/nt-國(guó)家發(fā)展計(jì)劃委員會(huì)/nt”。這里對(duì)于專名的處理要求比(1)中嚴(yán)格是因?yàn)閷S忻~的字長(zhǎng)較長(zhǎng)時(shí)更有可能與一些長(zhǎng)的短語(yǔ)產(chǎn)生對(duì)應(yīng)關(guān)系,盡管這些短語(yǔ)不是它的全稱。例如,“非洲/nsf-非洲/nsf 國(guó)家/n”。同樣地,長(zhǎng)的專有名詞在上下文中也經(jīng)常被簡(jiǎn)稱為短的非專有名詞,然而,這種縮略形式并沒(méi)有被固定下來(lái)。例如,“軍委/n-中央軍事委員會(huì)/nt”;
2. 語(yǔ)素構(gòu)成方式。這類候選縮略—全稱語(yǔ)對(duì)的準(zhǔn)確率較高。根據(jù)候選全稱語(yǔ)的詞長(zhǎng),我們?cè)賹⒅譃閮深?。候選全稱語(yǔ)的詞長(zhǎng)大于1時(shí),我們直接將之選取到縮略語(yǔ)詞典中。例如,“?;鶗?huì)/n-海峽/n 交流/vn 基金會(huì)/n”。候選全稱語(yǔ)詞長(zhǎng)為1時(shí),此時(shí)我們的選取條件是: 候選縮略語(yǔ)不是候選全稱語(yǔ)的子字符串。例如,“中科院/n-中國(guó)科學(xué)院/nt”。這樣做主要是為了排除主要的詞重疊的候選縮略—全稱語(yǔ)對(duì),這類短語(yǔ)對(duì)意義相近,但不是縮略—全稱關(guān)系。例如,“人大/n 常委會(huì)/n-全國(guó)人大常委會(huì)/nt”。
3. 混合構(gòu)成方式。以混合方式構(gòu)成的候選縮略語(yǔ)中,有很大一部分是由字長(zhǎng)較短的縮略語(yǔ)和其他詞組合成的短語(yǔ)。例如,“中國(guó)/ns 社科院/n-中國(guó)/ns 社會(huì)/n 科學(xué)院/n”由“社科院/n-社會(huì)/n 科學(xué)院/n”與“中國(guó)/ns”組合產(chǎn)生。這一類的候選縮略語(yǔ)對(duì)于縮略語(yǔ)詞典沒(méi)有太多意義。因此我們只選擇候選縮略語(yǔ)為單個(gè)詞的候選縮略—全稱語(yǔ)對(duì),例如,“藏族/nz-藏/b 民族/n”,從而過(guò)濾掉由字長(zhǎng)較短的縮略語(yǔ)和其他詞組合成的候選縮略語(yǔ)。
綜上所述,我們結(jié)合候選縮略—全稱語(yǔ)對(duì)的長(zhǎng)度、詞性和縮略方式,將符合如下5條規(guī)則的候選縮略—全稱語(yǔ)對(duì)選出,過(guò)濾掉其他的候選語(yǔ)對(duì)。
(1) 候選縮略語(yǔ)字長(zhǎng)為1,候選縮略語(yǔ)或者候選全稱語(yǔ)為專有名詞。例如,“埃/b-埃及/nsf”;
(2) 候選縮略語(yǔ)為多字,候選縮略語(yǔ)和候選全稱語(yǔ)均為專有名詞。例如,“中央軍委/nt-中央軍事委員會(huì)/nt”;
(3) 候選縮略語(yǔ)為多字,采用語(yǔ)素方式縮略,候選全稱語(yǔ)為多個(gè)詞組合。例如,“港商/n-香港/ns 商人/n”;
(4) 候選縮略語(yǔ)為多字,采用語(yǔ)素方式縮略,候選全稱語(yǔ)為單個(gè)詞且候選縮略語(yǔ)不是全稱語(yǔ)的子字符串。例如,“民盟/n-中國(guó)民主同盟/nt”;
(5) 候選縮略語(yǔ)為多字,采用混合方式縮略,候選縮略語(yǔ)為單個(gè)詞。例如,“地空導(dǎo)彈/n-地對(duì)空/b 導(dǎo)彈/n”;
經(jīng)過(guò)這五條規(guī)則篩選后,得到的縮略語(yǔ)詞典的準(zhǔn)確率會(huì)得到很大地提高。當(dāng)然,這些規(guī)則也不可避免地會(huì)排除掉一部分真正的縮略語(yǔ),使得召回率略有下降。
(1) 語(yǔ)料預(yù)處理??紤]到縮略全稱語(yǔ)對(duì)在新聞?lì)I(lǐng)域的語(yǔ)料中出現(xiàn)的比較多,我們使用了新聞?lì)I(lǐng)域漢英平行語(yǔ)料LDC2003E14*http://projects.ldc.upenn.edu/TIDES/mt2003.html,從中隨機(jī)選取了20萬(wàn)句對(duì)。采用Stanford Chinese Segmenter*http://nlp.sttanford.edu/software/segmenter.shtml對(duì)中文語(yǔ)料進(jìn)行自動(dòng)分詞,將英文語(yǔ)料全部換成小寫字母并將符號(hào)與詞分隔開(kāi)。
(2) 詞對(duì)齊訓(xùn)練。將預(yù)處理后的語(yǔ)料用開(kāi)源軟件GIZAC++訓(xùn)練得到詞對(duì)齊結(jié)果。
(3) 抽取短語(yǔ)對(duì)。按照2.1節(jié)中的方法抽取短語(yǔ)對(duì),最終得到114 446個(gè)短語(yǔ)對(duì)。根據(jù)抽取出的短語(yǔ)對(duì)的對(duì)應(yīng)次數(shù)和(2)中得到的詞對(duì)應(yīng)次數(shù),可以計(jì)算出2.2節(jié)中提出的衡量中英文短語(yǔ)對(duì)齊質(zhì)量的四個(gè)特征。
(4) SVM短語(yǔ)對(duì)分類。從中英文短語(yǔ)對(duì)集合中選取186條短語(yǔ)對(duì),根據(jù)中英文短語(yǔ)是否對(duì)應(yīng),手工標(biāo)注為“對(duì)應(yīng)”和“不對(duì)應(yīng)”兩類。為獲得高召回率,我們放松了對(duì)應(yīng)標(biāo)準(zhǔn)。以標(biāo)注后的數(shù)據(jù)為訓(xùn)練集,得到一個(gè)SVM分類器。從短語(yǔ)對(duì)集合中隨機(jī)挑選出100條短語(yǔ)對(duì)(對(duì)應(yīng)和不對(duì)應(yīng)數(shù)據(jù)各一半)用于測(cè)試,結(jié)果如表1所示。正確率為81%,召回率為86.36%,F(xiàn)值為83.59%。用SVM分類器對(duì)短語(yǔ)對(duì)分類后得到結(jié)果為正的短語(yǔ)對(duì)91 884句,占總短語(yǔ)對(duì)數(shù)的80.28%。
表1 中英文短語(yǔ)對(duì)對(duì)應(yīng)質(zhì)量分類器的測(cè)試結(jié)果
(5) 匹配約束。選出(4)中分類后標(biāo)注為“對(duì)應(yīng)”的中英文短語(yǔ)對(duì)。其中的中文短語(yǔ)經(jīng)過(guò)匹配約束(2.3.1)后得到候選縮略—全稱語(yǔ)12 639對(duì)。根據(jù)候選縮略語(yǔ)的字長(zhǎng)統(tǒng)計(jì)情況如表2所示。
表2 候選縮略—全稱語(yǔ)對(duì)統(tǒng)計(jì)
(6) 噪音過(guò)濾。對(duì)經(jīng)(5)得到的候選縮略—全稱語(yǔ)對(duì)采用ICTCLAS進(jìn)行詞性標(biāo)注。對(duì)得到的帶有詞性信息的候選縮略—全稱語(yǔ)對(duì)進(jìn)行噪音過(guò)濾(2.3.2)。最終得到縮略—全稱語(yǔ)710對(duì)。
經(jīng)過(guò)3.1中的實(shí)驗(yàn)步驟,我們得到最終的縮略—全稱語(yǔ)詞典。表3顯示的是按縮略語(yǔ)字長(zhǎng)和組合方式給出的統(tǒng)計(jì)結(jié)果。結(jié)果顯示提取的縮略語(yǔ)以二字長(zhǎng)的居多,占到總數(shù)的64%。字長(zhǎng)為四和五的縮略語(yǔ)比較少。這一方面是我們提取過(guò)程中的偏向,另一方面是字長(zhǎng)為二的縮略語(yǔ)在自然語(yǔ)言中分布確實(shí)很多。在縮略語(yǔ)構(gòu)成方面,我們的方法偏向于語(yǔ)素構(gòu)成方式,占總數(shù)的71.83%。混合方式占16.05%,而中心詞構(gòu)成方式產(chǎn)生的縮略語(yǔ)主要來(lái)源于專有名詞,因而數(shù)量不多。另外,對(duì)于合并縮略方式構(gòu)成的縮略—全稱語(yǔ)對(duì)我們的算法沒(méi)有考慮,原因是這類縮略語(yǔ)和全稱語(yǔ)的英文翻譯往往不相同。
表3 提取出的縮略語(yǔ)統(tǒng)計(jì)表
表4 縮略語(yǔ)的準(zhǔn)確率評(píng)測(cè)
我們對(duì)得到的710條縮略語(yǔ)進(jìn)行了評(píng)測(cè)。統(tǒng)計(jì)的結(jié)果如表4所示,整體準(zhǔn)確率達(dá)到86.3%。我們可以看到該方法在不同詞長(zhǎng)下的正確率比較穩(wěn)定。其中錯(cuò)誤的例子一部分是由分詞和詞性標(biāo)注錯(cuò)誤以及短語(yǔ)詞對(duì)齊不準(zhǔn)確造成,例如,“韓國(guó)/nsf-韓三國(guó)/nr”及“美/b-韓美/nr”。另外一部分則屬于我們的方法較難處理的,例如,“我軍/n-我國(guó)/n 軍用/b”。當(dāng)然這種情況可以用添加規(guī)則的方法解決。但是如果增加過(guò)多語(yǔ)言學(xué)過(guò)濾規(guī)則,在自動(dòng)分詞和詞性標(biāo)注不夠精確的情況下,又會(huì)使得召回率低下。
本文提出了一種從雙語(yǔ)平行語(yǔ)料中提取縮略語(yǔ)詞典的方法。與其他方法相比,我們利用了語(yǔ)言之間的翻譯關(guān)系,獲得較為可靠的候選集。需要的人工標(biāo)注量很小,最終的縮略語(yǔ)詞典正確率比較高。實(shí)驗(yàn)中,我們的噪音過(guò)濾方法使得一些好的縮略語(yǔ)被過(guò)濾掉。在今后的研究中我們將探尋更好的解決方法,例如,用更多的信息,如短語(yǔ)的上下文特征,來(lái)過(guò)濾候選集[6,11]。
本文的方法利用了雙語(yǔ)詞對(duì)齊信息作為縮略—全稱語(yǔ)獲取的依據(jù),目前在中小規(guī)模數(shù)據(jù)上得到的縮略語(yǔ)數(shù)量還不是很大。但是該方法具有良好地可擴(kuò)展性和應(yīng)用價(jià)值: (1)在平行語(yǔ)料庫(kù)上英漢互增益獲取雙語(yǔ)縮略語(yǔ)詞典。具體步驟為,將本文的方法逆向使用,自動(dòng)獲取英文的縮略—全稱語(yǔ)資源;利用英文的縮略—全稱語(yǔ)信息,將英文的“縮略—全稱語(yǔ)”當(dāng)作同義詞,對(duì)中文縮略語(yǔ)候選詞對(duì)進(jìn)行擴(kuò)展,以增益中文縮略語(yǔ)獲取效果;利用中文的縮略—全稱語(yǔ)信息,增益英文縮略語(yǔ)獲取效果;得到英漢雙語(yǔ)對(duì)譯的雙語(yǔ)縮略語(yǔ)信息庫(kù);(2)可擴(kuò)展至其他任意雙語(yǔ)語(yǔ)料庫(kù)的縮略語(yǔ)獲取;(3)將雙語(yǔ)縮略語(yǔ)信息庫(kù)應(yīng)用于機(jī)器翻譯的雙語(yǔ)詞對(duì)齊工作,提高一部分因縮略語(yǔ)造成對(duì)齊困難;(4)有助于滿足機(jī)器翻譯等語(yǔ)言服務(wù)系統(tǒng)對(duì)于單語(yǔ)和雙語(yǔ)縮略語(yǔ)的處理需求,解決形如“蘇-Jiangsu province”的雙語(yǔ)對(duì)譯問(wèn)題。
[1] Jing-Shin Chang, Yu-Tso Lai. A preliminary study on probabilistic models for Chinese abbreviations[C]//Proceedings of the 3rd SIGHAN Workshop on Chinese Language Processing, 2004, 9-16.
[2] Xiaodan Zhu, Mu Li , Jianfeng Gao, et al. Single Character Chinese Named Entity Recognition[C]//Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, ACL, 2003.
[3] 李斌,方芳.中文單字國(guó)名簡(jiǎn)稱的自動(dòng)識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用2006, 42(28): 167-176.
[4] 支流,朱學(xué)鋒,段慧明,等.中文縮略語(yǔ)還原技術(shù)初探[C]//全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005).
[5] 崔世起,劉群,林守勛等.中文縮略語(yǔ)自動(dòng)抽取初探[C]//全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005).
[6] 武子英,鄭家恒.現(xiàn)代漢語(yǔ)縮略語(yǔ)自動(dòng)識(shí)別的方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì)2007, 28(16):4052-4054.
[7] Zhifei Li, David Yarowsky. Unsupervised Translation Induction for Chinese Abbreviations using Monolingual Corpora[C]//Proceedings of ACL 2008: 425-433.
[8] Philipp Koehn, Franz Joseph Och, Daniel Marcu. Statistical Phrase-Based Translation[C]//Proceedings of HLT/NAACL. 2003.
[9] F.J.Och, C.Tillmann, H.Ney. Improved alignment models for statistical machine translation[C]//Proceedings of the Joint Conf. of Empirical Methods in Natural Language Processing and Very Large Corpora, 1999, 20-28.
[10] V.Vapnik, C.Cortes. Support vector networks[J]. Machine Learning,1995, 20: 273-293.
[11] Boxing Chen, George Foster, Roland Kuhn. Bilingual Sense Similarity for Statistical Machine Translation[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics,2010: 834-843.