左世亮,劉穩(wěn)良
(上海應(yīng)用技術(shù)大學(xué),上海201418)
我國(guó)和沿線國(guó)家之間的交流愈發(fā)緊密,各類深度合作項(xiàng)目日益增多,這對(duì)語(yǔ)言服務(wù)企業(yè)與人才能力都設(shè)定了更高的標(biāo)準(zhǔn)要求[1-2]。語(yǔ)言服務(wù)企業(yè)為支撐翻譯生產(chǎn),創(chuàng)建了一系列平行語(yǔ)料庫(kù),為多元化語(yǔ)言服務(wù)需求提供充足便利。但在多源信息發(fā)展的今天,隨著語(yǔ)料數(shù)量持續(xù)增長(zhǎng),出現(xiàn)越來越多的相似語(yǔ)句,為翻譯工作帶來諸多困擾[3],由此要對(duì)相似句段進(jìn)行去重,保障語(yǔ)言服務(wù)效率與水平。
關(guān)于文本去重問題,陳平華[4]等提出一種采用簽名與哈希技術(shù)的云存儲(chǔ)去重方案,在數(shù)據(jù)去重過程中運(yùn)用雙層校驗(yàn)機(jī)制審計(jì)數(shù)據(jù)完整性,校驗(yàn)文件完整性并精確定位損壞數(shù)據(jù)塊;構(gòu)造Merkle哈希樹生成校驗(yàn)值,計(jì)算去重標(biāo)簽,確保檢測(cè)到重復(fù)數(shù)據(jù)。但該方法局限性高,不易廣泛推廣。鄧玉輝[5]等提出一種基于混合頁(yè)面的磁盤緩存去重策略。在磁盤緩存中引入混合頁(yè)機(jī)制,保留基頁(yè)增加巨頁(yè),自適應(yīng)調(diào)整巨頁(yè)大小讓命中率最大化;監(jiān)測(cè)基頁(yè)、巨頁(yè)冷熱程度,將重復(fù)率高的冷巨頁(yè)拆分為基頁(yè),實(shí)現(xiàn)基頁(yè)、巨頁(yè)動(dòng)態(tài)轉(zhuǎn)換;利用重刪技術(shù)對(duì)基頁(yè)、巨頁(yè)依次實(shí)施去重,在命中率最大化同時(shí)保持去重率,但方法去重速率緩慢。
綜合以上內(nèi)容,本文創(chuàng)建一種基于詞頻-逆向文件頻率(term frequency-inverse document frequency,TF-IDF)的平行語(yǔ)料庫(kù)相似句段去重算法。對(duì)齊平行語(yǔ)料庫(kù)互為對(duì)應(yīng)關(guān)聯(lián)的句子,推導(dǎo)句段相似程度,加強(qiáng)后續(xù)去除速度,融合TF-IDF技術(shù)與單詞主題相關(guān)性,計(jì)算關(guān)鍵詞權(quán)重,刪除高權(quán)重句段,達(dá)到平行語(yǔ)料庫(kù)句段去重目的。
為平行語(yǔ)料庫(kù)創(chuàng)建句子以及對(duì)齊關(guān)聯(lián),明確源語(yǔ)言句段內(nèi)哪些句子和語(yǔ)料庫(kù)語(yǔ)言中的句段互為譯文。句子對(duì)齊關(guān)聯(lián)可能包含多種形式,最常見的是源語(yǔ)言句段內(nèi)一個(gè)句子與目標(biāo)語(yǔ)言句段內(nèi)的一個(gè)句子對(duì)應(yīng)[6],此外還包含如下幾種狀況:源語(yǔ)言中一個(gè)句子與目標(biāo)語(yǔ)言內(nèi)兩個(gè)或若干個(gè)句子對(duì)應(yīng);源語(yǔ)言中兩個(gè)或若干個(gè)句子與目標(biāo)語(yǔ)言中一個(gè)句子對(duì)應(yīng);源語(yǔ)言中兩個(gè)或若干個(gè)句子與目標(biāo)語(yǔ)言中兩個(gè)或若干個(gè)句子相對(duì)。在特殊情況下,翻譯與原文存在較大差距,省略不譯狀況時(shí)有發(fā)生,同時(shí)為了讓目標(biāo)語(yǔ)言更便于理解,增添解釋性語(yǔ)言。此時(shí)會(huì)產(chǎn)生某種語(yǔ)言文本的句子與其它語(yǔ)言沒有句子相互對(duì)應(yīng)的現(xiàn)象。本文使用召回率與精確率,按照特有參照對(duì)句子對(duì)齊算法性能實(shí)施評(píng)估。
若一段對(duì)齊的雙語(yǔ)句段是〈S,T,Ar〉,Ar為參考對(duì)齊,針對(duì)隨機(jī)一個(gè)和Ar相同級(jí)別的對(duì)齊A,A內(nèi)準(zhǔn)確的雙語(yǔ)句段數(shù)和Ar全部雙語(yǔ)句段數(shù)的比率就是A對(duì)應(yīng)于Ar的對(duì)齊召回率,計(jì)算過程為
Recall(A,Ar)=|A∩Ar|/|Ar|
(1)
從上式可知,對(duì)齊召回率是在對(duì)齊內(nèi)準(zhǔn)確的雙語(yǔ)句段數(shù)和全部準(zhǔn)確雙語(yǔ)句段數(shù)的比值,證明A內(nèi)獲得正確對(duì)齊句段的個(gè)數(shù)越多。
如果一段對(duì)齊的雙語(yǔ)句段為〈S,T,Ar〉,Ar為參考對(duì)齊,關(guān)于隨機(jī)一個(gè)和AR擁有相等對(duì)齊長(zhǎng)度的對(duì)齊A,A內(nèi)準(zhǔn)確的雙語(yǔ)句段和A內(nèi)全部雙語(yǔ)句段的比率為對(duì)齊精確率,即
Precision(A,Ar)=|A∩Ar|/|A|
(2)
在真實(shí)運(yùn)用中,通常采用F評(píng)估法當(dāng)作權(quán)衡對(duì)齊性能的指標(biāo),該方法是對(duì)齊精確率與召回率的調(diào)和均值。
傳統(tǒng)對(duì)齊方法依靠句段內(nèi)的單詞個(gè)數(shù),沒有考慮單詞自身形態(tài)與含義。在此前提下,創(chuàng)設(shè)一個(gè)概率模型,同時(shí)挑選最大概率路徑當(dāng)作對(duì)齊輸出,該模型的參數(shù)涵蓋句段類別概率與長(zhǎng)度相對(duì)概率[7]。
使用基于長(zhǎng)度的句子對(duì)齊方法,其核心思想是句子長(zhǎng)度越相近,則變成對(duì)譯句段的概率越大。
按照源語(yǔ)言文本,從大范圍多源信息平行語(yǔ)料庫(kù)內(nèi)找到最為接近的翻譯范例,確保譯員準(zhǔn)確高效地完成翻譯工作,這就是句段相似度計(jì)算的根本任務(wù)[8]?,F(xiàn)階段對(duì)于相似度暫無(wú)一個(gè)確切定義,在不同實(shí)際應(yīng)用中,相似度內(nèi)涵各不相等。本文依照如下內(nèi)容進(jìn)行相似度類型區(qū)分:A和B間的相似度與它們的共性及區(qū)別有關(guān),共性數(shù)量越多,相似度越高;區(qū)別越多,相似度越小。文中的相似度代表兩個(gè)句段字符重復(fù)水準(zhǔn),按照句段相似水平將去重句段劃分為以下幾種:句段全部重復(fù)、句段內(nèi)涵重復(fù)、句型轉(zhuǎn)換和少部分同義詞變換。
將句段描述為單詞集合
π(S)={W1,W2,…,Wn}
(3)
式中,S代表句段,Wi是句段內(nèi)的單詞。
句段S1與句段S2之間的表層相似度為
Sim(S1,S2)=2*Γ(π(S1)Iπ(S2))
/(Len(S1)+Len(S2))
(4)
式中,I代表集合的求交運(yùn)算,Γ是集合的因子數(shù)量,Len是句段長(zhǎng)度,也就是句段內(nèi)包含的單詞個(gè)數(shù)。
兩個(gè)句段表層相似度越高,輸入的待翻譯句段和翻譯實(shí)例相同的單詞越多,保障了平行語(yǔ)料庫(kù)譯文的高質(zhì)量。
句段中詞匯信息熵值越高,表明該詞匯在語(yǔ)料庫(kù)內(nèi)出現(xiàn)的頻率越小,對(duì)分辨句段相似度的作用越好,計(jì)算流程為
H(w)=lg(M/m)
(5)
式中,w為詞匯,M是平行語(yǔ)料庫(kù)內(nèi)的句段總數(shù),m是出現(xiàn)詞匯w的句段數(shù)量。
相似度臨界值可以更好地約束句子相似度運(yùn)算精度,將臨界值設(shè)定在0.6~0.7之間。句段S1與句段S2的信息熵相似度臨界值計(jì)算過程為
SimH=∑H(wi)
(6)
實(shí)施待選實(shí)例搜索過程中,在多源信息下的平行語(yǔ)料庫(kù)內(nèi)挑選一定數(shù)量的句段,再使用式(6)的信息熵相似度臨界值計(jì)算過程,從句段中選出某些句子。
值得注意的是,本文方法無(wú)法在全部平行語(yǔ)料庫(kù)內(nèi)直接使用式(6)擇取待選實(shí)例。原因在于,假如在全部平行語(yǔ)料庫(kù)中直接使用信息熵相似度臨界值篩查待選模式,就會(huì)給某種特殊用詞過多比重,致使篩選出的翻譯句段和預(yù)期翻譯結(jié)果相差較多[9],降低了譯文整體翻譯質(zhì)量。
使用基于泛化的匹配度計(jì)算,在泛化前提下算出待選實(shí)例和輸入的待翻譯句段之間的模糊匹配度。按照待翻譯的輸入句子對(duì)翻譯實(shí)例的有關(guān)語(yǔ)法單位實(shí)施泛化,構(gòu)成擁有相對(duì)復(fù)雜特征的參變量,憑借泛化實(shí)例類比推導(dǎo)組建輸入句段的譯文。
類比推理是一個(gè)變量屬性收斂匹配的過程,譯文結(jié)構(gòu)利用對(duì)泛化實(shí)例采取替換、拷貝、刪除等動(dòng)作來實(shí)現(xiàn)。實(shí)施泛化匹配過程中,要考慮詞形、詞類、詞的同義、反義和涵蓋的語(yǔ)境信息[10]。
詞語(yǔ)泛化匹配度代表輸入句段內(nèi)的某個(gè)詞語(yǔ)和翻譯實(shí)例內(nèi)的某個(gè)詞語(yǔ)能夠互相替換的幾率,與詞匯相似度具有密切關(guān)聯(lián)。將詞語(yǔ)泛化匹配度的計(jì)算方程描述為
LGMD(w1,w2)=f(SimLex,SimPos,SimCon)
(7)
式中,α、β、γ為三個(gè)系數(shù),代表不同狀況下的可信度權(quán)值,SimLex為詞匯相似度,SimPos為詞性相似度,SimCon是語(yǔ)境相似度。SimLex的運(yùn)算過程如下
SimLex(w1,w2)
(8)
式中,dis_sem(w1,w2)代表詞匯w1、w2之間的語(yǔ)義距離,α為權(quán)值系數(shù)。語(yǔ)義距離的運(yùn)算使用基于HowNet方法,該方法提供的義原分類樹,用樹的模式呈現(xiàn)出每個(gè)義原及其關(guān)聯(lián),樹內(nèi)父節(jié)點(diǎn)與子節(jié)點(diǎn)的義原擁有上下位關(guān)聯(lián)[11],采用義原分類樹推算兩個(gè)詞語(yǔ)間的語(yǔ)義距離。
SimPos推導(dǎo)公式為
(9)
其中,Pos(w)為詞匯w處于句段中的詞類標(biāo)注屬性。
SimCon推導(dǎo)公式為:
(10)
式中,ω是權(quán)值系數(shù),dis_con(w1,w2)是單詞w1、w2的上下文偏移間距。
句子泛化匹配度是翻譯實(shí)例以范例形式,對(duì)輸入句段實(shí)施類比翻譯的可靠度,計(jì)算過程為:
(11)
式中,分母內(nèi)的Len(s1)、Len(s2)依次代表輸入句段與翻譯實(shí)例的句段長(zhǎng)度。
最終句段相似度計(jì)算公式為:
similarity(s1,s2)=a·SGMD(s1,s2)
+β·Sims(s1,s2)+γ·SimH
(12)
通過以上過程,就能從平行語(yǔ)料庫(kù)中找出最相近的翻譯句子,提升后續(xù)相似句段去重效果。
傳統(tǒng)相似句段去重將文檔分詞識(shí)別獲得的關(guān)鍵詞當(dāng)作特征值,權(quán)重是關(guān)鍵詞出現(xiàn)的數(shù)量。詞性與詞長(zhǎng)是權(quán)衡單詞權(quán)重的主要元素,全方位呈現(xiàn)句段具體內(nèi)容,提升相似句段去重精確率。權(quán)重只取決于單詞出現(xiàn)的次數(shù),句段內(nèi)的某些核心內(nèi)容會(huì)發(fā)生損壞,大幅減少了去重精度。為處理這一難題,本文運(yùn)用TF-IDF技術(shù)與單詞主題相關(guān)性推算關(guān)鍵詞權(quán)重,剔除權(quán)重值較高的句段,實(shí)現(xiàn)準(zhǔn)確高效的平行語(yǔ)料庫(kù)句段去重目標(biāo)。
TF-IDF技術(shù)主要計(jì)算關(guān)鍵詞在句段內(nèi)的重要程度,TF是關(guān)鍵詞在句段內(nèi)出現(xiàn)的頻度,將關(guān)鍵詞ti的TF描述成
(13)
逆向文本頻率IDF,代表關(guān)鍵詞所在句段處于句段集合中的比例,記作
(14)
式中,|D|是ti句段集合內(nèi)的句段總數(shù),|{j:ti∈dj}|為包含關(guān)鍵詞的句段個(gè)數(shù),并保證是ni,j不等于零的句段。
關(guān)鍵詞i在句段j中的TF-IDF定義是
tf-idfi,j=tfi,j×idfi
(15)
TF-IDF技術(shù)的有限性在于,句段出現(xiàn)次數(shù)越高,重要程度就越低,這對(duì)于某些句段而言擁有一定偏差,某類關(guān)鍵詞匯在句段中出現(xiàn)的次數(shù)也很多,要賦予此類詞匯更多的權(quán)重。
本文使用單詞主體相關(guān)性當(dāng)作附加權(quán)重,把專業(yè)術(shù)語(yǔ)單詞長(zhǎng)度設(shè)定為辨別單詞主體相關(guān)性的憑據(jù)。選擇平行語(yǔ)料庫(kù)內(nèi)的關(guān)鍵詞為數(shù)據(jù)集合[12],計(jì)算數(shù)據(jù)集合內(nèi)20000個(gè)中文術(shù)語(yǔ)長(zhǎng)度,同時(shí)實(shí)施正態(tài)擬合,其結(jié)果如圖1所示。
圖1 中文譯文長(zhǎng)度擬合示意圖
圖1內(nèi)的擬合正態(tài)分布函數(shù)是
(16)
將擬合后獲得的擬合函數(shù)確定系數(shù)書寫成Rsquare,該系數(shù)越趨近于1,證明擬合函數(shù)對(duì)真實(shí)數(shù)據(jù)的詮釋性能越強(qiáng)。
單詞長(zhǎng)度約接近5,伴隨函數(shù)值的升高,單詞主題相關(guān)性也隨之上升。
運(yùn)用單詞主題相關(guān)性函數(shù)當(dāng)作附加權(quán)重,能提升TF-IDF技術(shù)對(duì)權(quán)重計(jì)算的準(zhǔn)確性。最后得到關(guān)鍵詞e的權(quán)重計(jì)算方程為
w(e)=tfe,j×idfe×(1+len(x))
(17)
以下為相似句段去重的具體步驟:在待檢測(cè)的文本內(nèi)選擇一個(gè)句段Si和目前已知的句段集合S,將Si與集合內(nèi)的句段按一定順序分別計(jì)算其權(quán)重,假如某個(gè)句段Sj和Si的權(quán)重超出設(shè)定的臨界值,那么Si就無(wú)法作為一個(gè)全新的句段放入S中,反之將其添加至S中。
為證明所提方法去重成效,對(duì)該算法與文獻(xiàn)[4]、文獻(xiàn)[5]方法進(jìn)行實(shí)驗(yàn)分析,開發(fā)語(yǔ)言為Java。圖2是三種方法在相同狀況下對(duì)同一文本集句段進(jìn)行去重的運(yùn)算時(shí)間。
圖2 不同方法下的去重運(yùn)算時(shí)間
從圖2中可知,在句段數(shù)據(jù)量較小時(shí),三種方法均耗費(fèi)很少的運(yùn)算時(shí)間,去重時(shí)間近乎相等。但在實(shí)驗(yàn)數(shù)據(jù)量逐步上升后,所有方法的時(shí)間呈現(xiàn)指數(shù)形式增長(zhǎng),文獻(xiàn)[5]方法所耗時(shí)間最長(zhǎng),其次為文獻(xiàn)[4]方法,所提方法耗費(fèi)的運(yùn)行時(shí)間最短。出現(xiàn)此種現(xiàn)象的原因是,本文方法充分考慮了句段相似度在不同情況下的重復(fù)模式,可使用在任何長(zhǎng)度的語(yǔ)句比對(duì)中,增強(qiáng)了算法去重識(shí)別速率。
利用去重召回率與精確率權(quán)衡算法的實(shí)用性,把去重的關(guān)鍵放在短句與長(zhǎng)句比率在0.3~0.9之間的句子。通過多次實(shí)驗(yàn),設(shè)定的平衡參數(shù)λ1與λ2如表1所示,相似度臨界值為0.6。
表1 平衡參數(shù)設(shè)定
實(shí)驗(yàn)第一組數(shù)據(jù)為自主研發(fā)的樣本150個(gè)句段,第二、三、四組數(shù)據(jù)從互聯(lián)網(wǎng)中得到,分別為750、630、480個(gè)句段,實(shí)驗(yàn)結(jié)果如表2所示。
表2 算法召回率和精確率實(shí)驗(yàn)結(jié)果
從表2中可以看到,本文方法召回率與精確率均為最高的,另外三組數(shù)據(jù)均存在一定的誤判現(xiàn)象。在實(shí)際操作中,在相關(guān)度分析時(shí)制作一個(gè)分析報(bào)表,報(bào)表內(nèi)記載被系統(tǒng)認(rèn)為相似的句段編碼與內(nèi)容,再利用人工判別是否相似,去除誤判結(jié)果。
使用自主研發(fā)樣本數(shù)據(jù),通過更改臨界值大小,觀測(cè)臨界值對(duì)本文方法召回率與精確率的影響,如圖3所示。
圖3 臨界值對(duì)本文方法去重效果的影響
從圖3看出,閾值在0.6~0.7之間時(shí),召回率與精確率實(shí)現(xiàn)很好的均衡,這與上文設(shè)定結(jié)果相同,以此也證明了本文方法的可靠性。
為提升語(yǔ)言服務(wù)企業(yè)翻譯工作時(shí)效性,提出一種基于TF-IDF技術(shù)的平行語(yǔ)料庫(kù)相似句段去重算法。該算法對(duì)整體重復(fù)與特別相近的句段擁有極強(qiáng)的去重效果,但該方法研究語(yǔ)義相似性的內(nèi)容較少,后續(xù)會(huì)對(duì)此點(diǎn)進(jìn)行改進(jìn),深入提升算法去重的完整性。