(1、2、3.湖北文理學(xué)院計算機工程學(xué)院,湖北 襄陽441053)
雙語語料庫作為基礎(chǔ)資源,在機器翻譯、跨語言信息檢索、詞典編纂等領(lǐng)域起著重要作用[1,2]。雙語語料庫按照互譯程度的差異可分為平行語料庫和可比語料庫。所謂可比語料就是主題相同或相關(guān)的語料,不要求互為翻譯對??杀日Z料庫根據(jù)對齊的程度分為語料庫級別和篇章級別。一些新聞網(wǎng)站,例如新華社,同時用多種語言發(fā)布新聞,一段時間內(nèi)這些網(wǎng)站發(fā)布的多語種新聞的集合可視為語料庫級別可比語料庫,這種語料庫從整體上是可比的,但具體到單個篇章并未對齊。本文針對的是篇章對齊的語料庫??杀日Z料相對平行語料具有來源廣泛、領(lǐng)域覆蓋全面、內(nèi)容時效性強和易于獲取的優(yōu)勢。因此,近年來關(guān)于可比語料庫的研究日益增多。在語料庫的構(gòu)建方面,也從構(gòu)建平行語料庫逐步轉(zhuǎn)向了可比語料庫。在可比語料庫構(gòu)建方面,國內(nèi)外的相關(guān)研究也不少,例如,文獻[3]從瑞典新聞網(wǎng)站和美國新聞網(wǎng)站獲取語料,首次利用跨語言信息檢索方式構(gòu)建可比語料庫;文獻[4]從新華網(wǎng)下載中英新聞?wù)Z料,同樣采用跨語言信息檢索方式進行對齊;文獻[5]利用維基百科構(gòu)建可比語料庫;文獻[6]從社交網(wǎng)站推特(Twitter)挖掘可比語料。這些研究有一個共同的特點就是基本采用離線的、一次性的方式構(gòu)建語料庫,生成的語料庫的規(guī)模有限。文章嘗試在上述研究工作的基礎(chǔ)上設(shè)計了一種可比語料庫在線構(gòu)建系統(tǒng),持續(xù)穩(wěn)定的生成可比語料,以構(gòu)建更大規(guī)模的可比語料庫。根據(jù)已有的研究,可比語料常見的來源有新聞、百科信息(如維基百科)以及社交網(wǎng)站(如推特)。語料庫在線構(gòu)建需要語料持續(xù)更新,易于獲取,因此新聞是最適合的對象。利用新聞具有時效性強的特點,通過設(shè)置時間窗口,可以大大縮減潛在可比新聞對的搜索范圍,使得語料下載和文本對齊可以并行處理,使得在線構(gòu)建成為可能?;诖?,本文設(shè)計了一個中英新聞可比語料庫在線構(gòu)建系統(tǒng)。該系統(tǒng)能夠在少量人工干預(yù)的情況下在線運行,持續(xù)穩(wěn)定的生成可比語料,可構(gòu)建時間連續(xù)、大規(guī)模的新聞可比語料庫。
中英新聞可比語料庫在線構(gòu)建過程如圖1所示。系統(tǒng)主要由兩大模塊組成:語料獲取模塊和文本對齊模塊。語料獲取模塊使用爬蟲監(jiān)測選定的中英文網(wǎng)站的新聞更新情況,并下載新聞網(wǎng)頁,然后從網(wǎng)頁中抽取新聞文本及相關(guān)元素,最后存入生語料庫。文本對齊模塊從生語料庫中取出新聞,首先依據(jù)新聞的發(fā)布時間構(gòu)造候選新聞文本對,然后對候選新聞文本對進行分詞、去停用詞、抽取內(nèi)容詞等常規(guī)文本處理,隨后在在線詞典的支持下計算候選新聞文本對的可比度,保留高可比度的候選新聞文本對,最后存入可比語料庫。
兩個功能模塊基本是并行處理的,只是在系統(tǒng)啟動的初始階段,待語料獲取模塊收集到一定時間范圍內(nèi)(以天為單位)語料后,文本對齊模塊才能文本對齊和可比語料生成工作,此后兩個模塊可以實現(xiàn)并行工作。
圖1 中英新聞可比語料庫在線構(gòu)建過程示意圖
系統(tǒng)最關(guān)鍵的步驟是計算可比度??杀榷扔糜诤饬侩p語文本對的可比性。鑒于語義的復(fù)雜性,可比度的計算沒有標準。從計算復(fù)雜度和效果綜合考慮,本系統(tǒng)選擇文獻[5]和[6]提出的基于詞匯重合度的可比度計算方法。
2.1.1 雙語新聞網(wǎng)頁下載
正確的選擇新聞網(wǎng)站和新聞類型對于系統(tǒng)的設(shè)計具有重要影響。本系統(tǒng)選擇從環(huán)球時報英文版網(wǎng)站(www.globaltimes.cn)的國際新聞板塊獲取英文新聞,從鳳凰網(wǎng)的國際新聞板塊獲取中文新聞,主要原因這兩個網(wǎng)站的列表頁結(jié)構(gòu)簡單,直接采用靜態(tài)分頁而不是動態(tài)加載的方式(如圖2所示),易于爬??;另外這些列表頁也包含新聞的發(fā)布時間,易于爬蟲監(jiān)控新聞的更新情況。相比其他類型的新聞,國際新聞用不同語言發(fā)布的可能性更大。文章使用的爬蟲為Webmagic (http://webmagic.io/)。
圖2 鳳凰網(wǎng)和環(huán)球時報英文版的列表頁
2.1.2 新聞文本的抽取
通過Jsoup解析網(wǎng)頁結(jié)構(gòu),然后抽取新聞的相關(guān)信息,包括新聞標題,發(fā)布時間,新聞來源,新聞?wù)?,如圖3、圖4所示:
圖3 中文新聞文本
圖4 英文新聞文本
2.2.1 候選文本對生成
新聞具有即時性的特點,針對同一事件,不同語言的新聞發(fā)布時間應(yīng)該相差不大,根據(jù)這一特點可以大大縮小候選文本對的規(guī)模,還能提高對齊的準確性。經(jīng)過測試,設(shè)置時間窗口為1天,即給定一篇源語言新聞文本,將發(fā)布日期三天內(nèi)的目標新聞文本作為候選集,即前一天,當天,后一天的目標新聞文本。將源語言新聞文本與目標語言新聞文本候選集的每一篇進行配對即得到候選文本對。
2.2.2 候選文本對可比度計算
(1)文本分詞及去停用詞:首先,對候選文本對中的中文新聞文本和英文新聞文本分別采用中科院分詞軟件NLPIR和斯坦福大學(xué)的自然語言處理工具包CoreNLP進行分詞和詞性標注,然后,根據(jù)停用詞表,去掉停用詞。
(2)內(nèi)容詞提?。簽榱诉M一步減少計算量,仿照文獻[7],對于去停用詞后的文本,只保留內(nèi)容詞,即名詞、動詞、形容詞和副詞。
(3)詞匯翻譯:通過調(diào)用網(wǎng)易有道詞典API,將上一步得到的英文新聞文本詞匯和中文新聞文本分別進行英譯漢和漢譯英。
(4)候選文本對可比度計算:基于詞匯重合度的可比度計算公式如下:
comparability(den,dcn)=
其中,binDC(den,dcn)=
binDC(dcn,den)=
trans(w,d)當詞語w在文檔d中有對應(yīng)的翻譯等于1,否則等于0。
2.2.3 可比度閾值設(shè)定
通過設(shè)定可比度閾值過濾主題相似度不高的文本對。由于語義的復(fù)雜性,可比度閾值的設(shè)定沒有理論計算方法,通常通過人工抽樣判斷,而且文本對的主題相似度與可比度的計算值也不是簡單的線性關(guān)系。通過隨機抽取200對文本對進行人工判斷主題相似度,將可比度閾值設(shè)置為0.28,則得到的文本對中90%為主題相同或相關(guān)。
將所有可比度低于閾值0.28的文本對濾掉,剩下的文本對可以認為是主題相關(guān)的,即可比的,文本對齊過程結(jié)束。
2.2.4 可比語料庫的存儲
對齊后的文本對的集合即為可比語料庫,為了便于使用,通常將可比語料庫存儲到文件或者數(shù)據(jù)庫中。在存儲可比語料庫時,為了方便以后的應(yīng)用,除了存儲英漢新聞文本對本身外,還將存儲新聞文本標題、發(fā)布時間以及基于詞匯重合度的可比度計算值,示例如圖5所示。
圖5 可比新聞文本對示例
除了計算機故障、網(wǎng)絡(luò)故障等不可控因素外,影響系統(tǒng)連續(xù)在線運行的因素主要是網(wǎng)站的改版,包括新聞目錄頁的改版和新聞內(nèi)容頁的改版,這將影響網(wǎng)頁的下載和內(nèi)容抽取。據(jù)觀察,網(wǎng)站一般并不會頻繁改版,即使改版,系統(tǒng)一般也只需要修改少量代碼即可重新運行。
可比語料是一種用途廣泛的雙語資源??杀日Z料庫的構(gòu)建是一個研究熱點,但如何連續(xù)漸進構(gòu)建大規(guī)模的可比語料庫這方面的研究還不多見。文章在前人工作的基礎(chǔ)上,通過選擇合適的新聞網(wǎng)站,權(quán)衡各種可比度計算方法,設(shè)計了一個中英新聞可比語料庫在線構(gòu)建系統(tǒng)。系統(tǒng)的主體部分已經(jīng)開發(fā)完成,測試結(jié)果表明,系統(tǒng)能夠在線生成中英新聞可比語料。