趙永標(biāo) 張其林 谷瓊
摘 ?要:在線挖掘可比語料是構(gòu)建大規(guī)??杀日Z料庫的可行途徑之一,在線可比度計算是語料挖掘過程中的關(guān)鍵環(huán)節(jié)。本文提出一種融合詞匯重合度和主題模型的在線可比度計算方式,主題模型選擇能夠進(jìn)行在線學(xué)習(xí)的Online LDA,利用詞對齊工具GIZA++進(jìn)行主題映射,融合方式為加權(quán)求和。在下載的中英新聞?wù)Z料上的測試結(jié)果表明,兩種計算方式融合后的準(zhǔn)確性比兩種都要高。
關(guān)鍵詞:可比語料庫;可比度;主題模型;主題映射
中圖分類號:TP391.1 ? ? 文獻(xiàn)標(biāo)識碼:A ?文章編號:2096-4706(2019)14-0001-04
Online Comparability Measurement Integrating Topic Model
ZHAO Yongbiao,ZHANG Qilin,GU Qiong
(Computer School of Hubei University of Arts and Science,Xiangyang ?441053,China)
Abstract:Online mining bilingual comparable text pairs is among practical approaches for building large scale comparable corpora,Online comparability calculation is a key part of the mining process. We propose an online comparability measurement integrating the online comparability measurements based on word overlap and topic model. For topic model,we choose Online LDA which can be trained online. For topic mapping,we use the word aligning package GIZA++. For integration,we adopt the weighted summation. The test results based on downloaded Chinese-English news collection shows that the accuracy of the combination of the two measurements is better than either of them.
Keywords:comparable corpora;comparability;topic model;topic mapping
0 ?引 ?言
可比語料庫是雙語語料庫的一種,在機(jī)器翻譯、跨語言信息檢索、雙語詞典編撰等領(lǐng)域有著廣泛的應(yīng)用。如何構(gòu)建高質(zhì)量、大規(guī)模的可比語料庫一直是研究的熱點問題。Web擁有海量的文本信息,而且在持續(xù)更新。從Web挖掘可比語料是目前構(gòu)建可比語料庫的重要途徑。文獻(xiàn)[1]從新聞網(wǎng)站下載不同語言的新聞文本,進(jìn)而生成可比語料;文獻(xiàn)[2]從維基百科抽取可比語料;文獻(xiàn)[3]嘗試從社交網(wǎng)站Twitter中挖掘可比語料。這些文獻(xiàn)構(gòu)建可比語料庫時將所需語料全部下載完成后,離線進(jìn)行語料對齊,得到可比語料。這種構(gòu)建方式難以構(gòu)建大規(guī)模的語料庫。解決這個問題的有效途徑就是在線持續(xù)挖掘可比語料,語料下載與語料對齊同時進(jìn)行。
構(gòu)建可比語料庫非常關(guān)鍵的問題就是在語料對齊階段如何衡量兩種語言文本之間的相似性(即可比度)。常用的方法有:(1)基于跨語言信息檢索,即從源語言文檔抽取關(guān)鍵詞,翻譯為目標(biāo)語言,然后在目標(biāo)語言文檔中進(jìn)行檢索,根據(jù)檢索的結(jié)果確定源語言文檔與目標(biāo)語言文檔之間的相似性;(2)基于詞匯重合度,即把文檔當(dāng)作詞袋,將源語言文檔詞匯在目標(biāo)語言文檔中能找到對應(yīng)翻譯的比例,視為源語言文檔與目標(biāo)語言文檔之間的相似性。
以LDA為典型代表的主題模型能夠發(fā)現(xiàn)文檔的隱含主題,對文本進(jìn)行語義挖掘。不少研究者將主題模型應(yīng)用于可比度的計算,取得了不錯的效果。
文獻(xiàn)[4]先利用源語言文檔集訓(xùn)練得到源語言主題模型,然后通過翻譯引擎將模型翻譯為目標(biāo)語言主題模型,將源語言文檔和目標(biāo)語言文檔分別輸入這兩個模型中得到兩篇文檔的文檔主題分布,通過計算這兩個分布的余弦相似度來判斷對應(yīng)文檔的相似性。文獻(xiàn)[5]引入Bi-LDA,利用主題相同的可比語料進(jìn)行訓(xùn)練,從而建立主題模型,然后通過KL散度、余弦相似度和條件概率相似度來計算待匹配文檔的主題相似性。文獻(xiàn)[6]利用主題相同的阿拉伯語和英語新聞?wù)Z料分別訓(xùn)練兩個LDA,通過主題映射,建立兩個LDA主題集之間的關(guān)系,在此基礎(chǔ)上抽取主題相關(guān)的特征,同時配合語義特征(標(biāo)題、關(guān)鍵詞、首句及次句相似度)訓(xùn)練SVM分類器判斷待匹配新聞文檔是否主題相關(guān)。
如前所述,在線挖掘可比語料是構(gòu)建大規(guī)模語料庫的有效途徑。對于語料類型,從更新的速度,以及獲取的難易程度來看,新聞是最適合的。同樣,在線可比度計算也是關(guān)鍵步驟。本文針對中英新聞,借鑒文獻(xiàn)[6]中主題映射的思想,將主題模型應(yīng)用于在線可比度計算,提出融合主題模型的在線可比度計算方法,該方法由基本的計算方式和基于主題模型的計算方式兩種方法融合而成。在線可比度計算方式需要滿足計算速度快、所需資源少的要求,前面提到的基于跨語言信息檢索和基于詞匯重合度的可比度計算方式均滿足該要求。從計算復(fù)雜性的角度來說,本文選擇后者作為基本計算方式。對于基于主題模型的在線可比度計算方式,鑒于傳統(tǒng)的基于吉布斯抽樣算法的LDA訓(xùn)練速度慢的特性,本文選擇速度更快的基于變分推斷的Online LDA。Online LDA采用增量學(xué)習(xí)的方式,不僅學(xué)習(xí)速度快,而且當(dāng)模型運(yùn)行一段時間后需要補(bǔ)充新的訓(xùn)練材料時,能夠僅針對補(bǔ)充材料進(jìn)行訓(xùn)練,而不是全部重新訓(xùn)練,特別適合在線應(yīng)用。融合方式采取按比例相加的方式,具體比例通過實驗選取。
1 ?融合主題模型的在線可比度計算方法
融合主題模型的在線可比度計算過程主要分為兩個階段:(1)準(zhǔn)備階段;(2)在線可比度計算及融合階段。這兩個階段又分為若干個步驟,其中Online LDA的訓(xùn)練、主題映射表的生成以及可比度的融合是關(guān)鍵步驟。融合主題模型的在線可比度計算過程如圖1所示。
1.1 ?Online LDA訓(xùn)練及主題映射表的生成
根據(jù)文獻(xiàn)[6],能夠進(jìn)行主題映射的前提條件是訓(xùn)練用的雙語語料必須是平行語料或者篇章對齊的具有相同話題的語料。這樣的語料一般難以獲得。本文嘗試借助在線翻譯引擎構(gòu)造“近似”平行語料。構(gòu)造方式有兩種,即將英文新聞翻譯為中文,或者將中文翻譯為英文。經(jīng)過分析,本文選擇將英文新聞翻譯為中文,因為所獲取的英文語料主要來自國家權(quán)威媒體《環(huán)球時報(英文版)》,行文簡潔,語法規(guī)范,有利于翻譯引擎進(jìn)行翻譯。本文選擇“有道在線翻譯”作為翻譯引擎。Online LDA訓(xùn)練及主題映射表生成過程如圖2所示。
Online LDA通過在小批量數(shù)據(jù)上迭代采樣實現(xiàn)在線變分推斷,即無須一次性提供全部訓(xùn)練集,可以分批漸進(jìn)訓(xùn)練,適合在線學(xué)習(xí)和大數(shù)據(jù)集應(yīng)用場景。其變分推斷算法如下:
本文采用兩個獨(dú)立的Online LDA,分別針對近似平行語料庫中的英文新聞?wù)Z料和翻譯得到的中文新聞?wù)Z料進(jìn)行訓(xùn)練。訓(xùn)練結(jié)束后,參考文獻(xiàn)[6]中的方法,用詞對齊軟件GIZA++進(jìn)行主題映射。該方法的基本思想是如果訓(xùn)練語料主題相同,LDA訓(xùn)練結(jié)束后可以確定各個文檔的主題分布,如果把主題看作詞,則可以認(rèn)為訓(xùn)練語料是以主題為詞的平行語料,通過GIZA++就可以得到主題之間的翻譯關(guān)系,即主題之間的映射表,其結(jié)構(gòu)如表1所示。
1.2 ?在線可比度計算及融合
1.2.1 ?候選新聞對的生成和常規(guī)文本處理
新聞具有很強(qiáng)的時效性,不同語言關(guān)于同一事件的報道一般會集中在一個時間段內(nèi),這就意味著可以把可比新聞對的搜索限定在有限的時間范圍內(nèi),這樣可以大大縮小候選新聞對的規(guī)模,更重要的是有利于在線構(gòu)建可比新聞?wù)Z料,即待一定時間范圍(即時間窗口)內(nèi)的語料下載完畢后即可開始文本處理、可比度計算和對齊工作。候選新聞對的生成和常規(guī)文本處理的過程如圖3所示。
1.2.2 ?基于詞匯重合度的在線可比度計算
基于詞匯重合度的在線可比度計算過程如圖4所示。
計算過程需要雙語詞典的支持。相比本地詞典,在線詞典具有規(guī)模大、更新及時的特點。本文選擇有道在線詞典,根據(jù)文獻(xiàn)[2]和文獻(xiàn)[3],得出基于詞匯重合度的可比度計算公式如下:
1.2.3 ?基于Online LDA的在線可比度計算
基于Online LDA的在線可比度計算過程如圖5所示。
將候選新聞對中的英文新聞和中文新聞分別送入準(zhǔn)備階段已訓(xùn)練好的兩個Online LDA中,推斷得出各自的主題分布,然后利用主題映射表將英文新聞主題分布映射為中文新聞主題分布,然后求兩個中文主題分布的余弦相似度,得到候選新聞度的相似度,即可比度。
1.2.4 ?兩種在線可比度的融合
將兩種在線可比度進(jìn)行融合得到最終的在線可比度??杀榷鹊娜诤喜扇≠x權(quán)相加的方式。各自的權(quán)值通過試驗選取。
2 實驗設(shè)置
2.1 ?數(shù)據(jù)集
本文所使用的數(shù)據(jù)集采用爬蟲下載,其中英文新聞來自《環(huán)球時報(英文版)》,中文新聞來自鳳凰網(wǎng),數(shù)據(jù)集分為訓(xùn)練集和測試集,具體信息如表2和表3所示。
對新聞的文本處理包括分詞和去停用詞。對于中文新聞和英文新聞分別采用中科院分詞軟件NLPIR和斯坦福大學(xué)的自然語言處理工具包CoreNLP進(jìn)行分詞,然后去停用詞。
2.2 ?參數(shù)設(shè)置
在Online LDA訓(xùn)練階段,需要設(shè)置的主要參數(shù)有主題個數(shù)K,小批量樣本數(shù)量S,輔助參數(shù)κ、τ0的選取。S、κ、τ0選取Python機(jī)器學(xué)習(xí)包sklearn中給定的默認(rèn)值,分別為128、0.7和10。參考文獻(xiàn)[6]并經(jīng)過測試可知,主題個數(shù)K=40比較合適。
在候選文本對生成階段,需要設(shè)置的參數(shù)是時間窗口K,參考文獻(xiàn)[7]將其設(shè)置為1,即對于源語言新聞文本,將前一天,同一天及后一天的目標(biāo)語言新聞文本作為候選的可比新聞。
2.3 ?實驗結(jié)果及分析
Python機(jī)器學(xué)習(xí)包sklearn實現(xiàn)了Online LDA的學(xué)習(xí)算法,但必須一次性提供所有訓(xùn)練文本,不能實現(xiàn)真正意義上的在線學(xué)習(xí),另外也不能在已訓(xùn)練的模型上追加訓(xùn)練樣本進(jìn)行補(bǔ)充訓(xùn)練。
本文采用文獻(xiàn)[8]所提供的程序,該程序能夠從維基百科上下載頁面文本,邊下載邊訓(xùn)練,也能夠中止訓(xùn)練,保存訓(xùn)練模型,再重啟繼續(xù)訓(xùn)練,實現(xiàn)真正意義上的在線學(xué)習(xí)。將該程序中維基頁面文本換成新聞訓(xùn)練集就能實現(xiàn)本文需要的在線訓(xùn)練。訓(xùn)練完成后,使用GIZA++得到主題映射表。
在測試集上,分別用基于詞匯重合度的在線可比度計算方式和基于Online LDA的在線可比度計算方式計算可比度。對于測試集中每篇英文新聞,選取可比度最高的中文新聞組成可比新聞對,然后隨機(jī)抽取200對進(jìn)行人工判斷,判斷其是否主題相同或者相關(guān),以估算兩種在線可比度計算方式的準(zhǔn)確性,結(jié)果如表4所示。
從表4可以看出,基于詞匯重合度計算方式的準(zhǔn)確度要高于基于Online LDA的計算方式,相比文獻(xiàn)[6]的結(jié)果,高出的幅度要大一些,這可能與Online LDA訓(xùn)練集規(guī)模不夠有關(guān)。
將兩種計算方式按比例進(jìn)行融合:comparabilitytotal=k×comparabilityoverlap+(1-k)×comparabilityonlineLDA
從圖6可以看出,當(dāng)k=0.8時,融合方式的準(zhǔn)確度最高,為0.67,比基于詞匯重合度計算方式的準(zhǔn)確性高約6.3%。這表明融合兩種計算方式有利于提高可比度計算的準(zhǔn)確性。
3 ?結(jié) ?論
在線挖掘可比語料是構(gòu)建大規(guī)??杀日Z料庫的可行方式之一。在線可比度計算是在線挖掘過程中十分關(guān)鍵的一環(huán)。在在線詞典API的支持下,基于詞匯重合度的在線可比度計算方式是常用的計算方法。鑒于主題模型在文本語義挖掘方面具有獨(dú)特優(yōu)勢,本文在前人工作的基礎(chǔ)上以新聞?wù)Z料為對象,利用主題映射將Online LDA引入在線可比度計算,提出了融合主題模型的在線可比度計算方式,實驗結(jié)果表明該方式的性能比單一方式有一定程度的提高。本研究還有需要完善的地方,例如,測試在更大規(guī)模的訓(xùn)練集下,基于Online LDA的在線可比度計算方式的性能是否會得到提升;當(dāng)系統(tǒng)運(yùn)行一段時間后,如何判定Online LDA需要補(bǔ)充數(shù)據(jù)進(jìn)行訓(xùn)練。
參考文獻(xiàn):
[1] Talvensaari T,Laurikkala J,J?rvelin K,et al. Creating and exploiting a comparable corpus in cross-language information retrieval [J].ACM Transactions on Information Systems,2007,25(1):4.
[2] Saad M,Langlois D,Sma?li K. Extracting Comparable Articles from Wikipedia and Measuring their Comparabilities [J].Procedia-Social and Behavioral Sciences,2013(95):40-47.
[3] Malek H,Maroua T,Chiraz L. Building comparable corpora from social networks [C].Workshop on Building & Using Comparable Corpora. International Conference on Language Resources and Evaluation,2014.
[4] Preiss J. Identifying Comparable Corpora Using LDA [C].Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Association for Computational Linguistics,2012.
[5] Zhu Z,Li M,Chen L,et al. Building Comparable Corpora Based on Bilingual LDA Model [C].Meeting of the Association for Computational Linguistics,2013.
[6] Firas Sabbah,Ahmet Aker. Creating Comparable Corpora through Topic Mappings [C]//Workshop on Building & Using Comparable Corpora. International Conference on Language Resources and Evaluation,2018.
[7] 房璐.英漢可比較語料庫的構(gòu)建與應(yīng)用研究 [D].蘇州:蘇州大學(xué),2011.
[8] Hoffman M D,Blei D M,Bach F R. Online Learning for Latent Dirichlet Allocation [C]//Advances in Neural Information Processing Systems 23:24th Annual Conference on Neural Information Processing Systems 2010. Proceedings of a meeting held 6-9 December 2010,Vancouver,British Columbia,Canada. Curran Associates Inc,2010.
作者簡介:趙永標(biāo)(1980-),男,漢族,湖北洪湖人,講師,碩士,研究方向:自然語言處理方面的教學(xué)與研究。