劉晨陽(yáng),趙天銳
(信息工程大學(xué)洛陽(yáng)校區(qū),河南 洛陽(yáng) 471000)
隨著國(guó)際互聯(lián)網(wǎng)的迅速發(fā)展,信息資源愈發(fā)呈現(xiàn)大規(guī)模、多語(yǔ)言的特征。在自然語(yǔ)言處理領(lǐng)域,以雙語(yǔ)(或多語(yǔ))平行語(yǔ)料庫(kù)為基礎(chǔ)的應(yīng)用日益增多。如,機(jī)器翻譯、詞典編撰、語(yǔ)義消歧、跨語(yǔ)言信息檢索等。其中,平行語(yǔ)料庫(kù)對(duì)應(yīng)單位的抽取對(duì)齊,是實(shí)現(xiàn)這些應(yīng)用的關(guān)鍵技術(shù)之一。對(duì)應(yīng)單位是對(duì)應(yīng)源文本和目的文本中可識(shí)別的對(duì)應(yīng)文本塊或片段,是意義對(duì)應(yīng)完整并具有清晰邊界的任何片段或序列[1]。其中短語(yǔ)便是客觀存在于平行句對(duì)之中的一種對(duì)應(yīng)單位,主要表現(xiàn)形式為互譯的多詞組合。本文針對(duì)韓漢平行句對(duì)中的對(duì)齊名詞短語(yǔ)進(jìn)行抽取,構(gòu)建了基于短語(yǔ)構(gòu)成規(guī)律的短語(yǔ)抽取與融入雙語(yǔ)詞向量、短語(yǔ)長(zhǎng)度和詞性相似度的短語(yǔ)對(duì)齊模型,并在政治外交領(lǐng)域的韓漢平行語(yǔ)料上進(jìn)行相關(guān)實(shí)驗(yàn)測(cè)評(píng)。其成果能廣泛應(yīng)用于翻譯研究、語(yǔ)言教學(xué)、術(shù)語(yǔ)詞典編纂和政治外交話語(yǔ)研究等領(lǐng)域,其采用的方法也可為相關(guān)研究提供參考和思路。
雙語(yǔ)短語(yǔ)對(duì)齊研究的基礎(chǔ)是雙語(yǔ)詞對(duì)齊[2-3],其原理是詞語(yǔ)相似度的計(jì)算。詞組由詞構(gòu)成,詞對(duì)齊的部分技術(shù)方法也可遷移至短語(yǔ)對(duì)齊上,其關(guān)鍵點(diǎn)在于如何將詞的相似度轉(zhuǎn)換為短語(yǔ)的相似度。關(guān)于短語(yǔ)對(duì)齊現(xiàn)有研究的主流方法是先進(jìn)行單語(yǔ)短語(yǔ)抽取,再進(jìn)行對(duì)齊。對(duì)齊的方法有基于詞典的、基于統(tǒng)計(jì)或二者結(jié)合的方法。
文獻(xiàn)[4]提出了基于規(guī)則和基于統(tǒng)計(jì)相結(jié)合的方法,對(duì)中英文句對(duì)分類(lèi),進(jìn)行句法分析后提取短語(yǔ),再利用最大熵排序模型,從候選對(duì)齊句對(duì)中選取最佳結(jié)果;文獻(xiàn)[5]基于中英平行專(zhuān)利語(yǔ)料庫(kù),使用短語(yǔ)對(duì)齊和組塊分析技術(shù),并借助專(zhuān)利語(yǔ)料的領(lǐng)域主題信息,實(shí)現(xiàn)了中英專(zhuān)利術(shù)語(yǔ)的高效自動(dòng)抽?。晃墨I(xiàn)[6]基于俄漢政治外交平行語(yǔ)料庫(kù),按照俄漢短語(yǔ)詞性構(gòu)成模式,使用規(guī)則獲得短語(yǔ),并構(gòu)建了短語(yǔ)長(zhǎng)度、詞典、機(jī)器翻譯三維評(píng)估模型,實(shí)現(xiàn)了俄漢短語(yǔ)單位的自動(dòng)對(duì)齊。文獻(xiàn)[7]先采用基于統(tǒng)計(jì)與詞典融合的詞對(duì)齊方法獲得了韓國(guó)語(yǔ)-漢語(yǔ)的詞對(duì)齊文件,再跟據(jù)韓國(guó)語(yǔ)名詞短語(yǔ)結(jié)構(gòu)特點(diǎn)抽取短語(yǔ),獲取詞對(duì)齊文件中每個(gè)韓國(guó)語(yǔ)詞語(yǔ)對(duì)應(yīng)的漢語(yǔ)位置,最終根據(jù)卡方過(guò)濾得出匹配的名詞短語(yǔ)對(duì)。
綜上所述,短語(yǔ)對(duì)齊的技術(shù)多為傳統(tǒng)方法。此類(lèi)方法忽略了平行語(yǔ)料的內(nèi)在語(yǔ)義特征,且依靠大量的語(yǔ)言學(xué)先驗(yàn)知識(shí),面對(duì)低資源、小語(yǔ)種語(yǔ)言時(shí)效果欠佳。隨著深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)的發(fā)展,詞向量作為詞的一種分布式表示,開(kāi)始在自然語(yǔ)言處理領(lǐng)域嶄露頭角。詞向量以原始語(yǔ)料作為訓(xùn)練集,無(wú)需外部資源便能高效地表征句法語(yǔ)義關(guān)系,為對(duì)應(yīng)單位的相似度計(jì)算與對(duì)齊提供了新思路。
文獻(xiàn)[8]基于英漢平行語(yǔ)料庫(kù),利用雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)提取詞向量,結(jié)合依存關(guān)系得到詞對(duì)齊特征,并在此基礎(chǔ)上實(shí)現(xiàn)了基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。文獻(xiàn)[9]基于漢維醫(yī)療平行語(yǔ)料庫(kù),運(yùn)用自訓(xùn)練的漢維雙語(yǔ)詞向量,深入詞的語(yǔ)義一級(jí)進(jìn)行雙語(yǔ)醫(yī)學(xué)術(shù)語(yǔ)抽取,取得了不錯(cuò)的效果。文獻(xiàn)[10-11]將英語(yǔ)作為中間語(yǔ)言,通過(guò)建立對(duì)應(yīng)單字的上下文向量,實(shí)現(xiàn)了韓法雙語(yǔ)間的名詞短語(yǔ)對(duì)齊,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了誤差分析。
由此可見(jiàn),此前對(duì)短語(yǔ)抽取與對(duì)齊的研究中,多使用傳統(tǒng)的方法且對(duì)詞典等外部資源的依賴(lài)較多,運(yùn)用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型且面向韓漢雙語(yǔ)領(lǐng)域的研究較少。因此,將雙語(yǔ)詞向量應(yīng)用于韓漢雙語(yǔ)短語(yǔ)對(duì)齊相關(guān)技術(shù),有很強(qiáng)的研究意義和應(yīng)用價(jià)值。
進(jìn)行短語(yǔ)對(duì)齊首先要進(jìn)行短語(yǔ)的抽取,短語(yǔ)的構(gòu)成規(guī)則與語(yǔ)言本身的特性息息相關(guān)。韓語(yǔ)屬于黏著語(yǔ),通過(guò)助詞和詞尾變化實(shí)現(xiàn)語(yǔ)法功能;漢語(yǔ)屬于孤立語(yǔ),不依賴(lài)內(nèi)、外部屈折的形態(tài)變化。本文通過(guò)總結(jié)歸納韓語(yǔ)、漢語(yǔ)名詞短語(yǔ)的結(jié)構(gòu)特點(diǎn),基于詞性標(biāo)注結(jié)果抽取相應(yīng)短語(yǔ)。
針對(duì)韓語(yǔ),采用文獻(xiàn)[12]中基于左右邊界規(guī)則獲取韓國(guó)語(yǔ)名詞短語(yǔ)方法總結(jié)歸納出的名詞短語(yǔ)類(lèi)型進(jìn)行短語(yǔ)抽?。辉跇?biāo)注工具上,使用韓國(guó)蔚山大學(xué)開(kāi)發(fā)的形態(tài)素分析器UTagger[13]進(jìn)行詞性標(biāo)注;UTagger的訓(xùn)練基于“韓國(guó)21世紀(jì)世宗計(jì)劃語(yǔ)料庫(kù)”,并沿用其標(biāo)注體系,支持增量訓(xùn)練從而不斷提升分析能力。針對(duì)漢語(yǔ),采用百度自然語(yǔ)言處理部研發(fā)的中文聯(lián)合詞法分析工具LAC[14](Lexical Analysis of Chinese)進(jìn)行詞性標(biāo)注并沿用其標(biāo)注體系。LAC通過(guò)深度學(xué)習(xí)模型,聯(lián)合學(xué)習(xí)分詞、詞性標(biāo)注、專(zhuān)名識(shí)別任務(wù)以及詞語(yǔ)重要性,整體效果F1值超過(guò)0.91,詞性標(biāo)注F1值超過(guò)0.94,專(zhuān)名識(shí)別F1值超過(guò)0.85。為了明晰名詞短語(yǔ)結(jié)構(gòu)從而進(jìn)行短語(yǔ)抽取,將韓漢兩種標(biāo)注體系中的部分標(biāo)簽按規(guī)則進(jìn)行統(tǒng)一。其規(guī)則,見(jiàn)表1。
表1 韓語(yǔ)、漢語(yǔ)詞性標(biāo)簽對(duì)應(yīng)
為了進(jìn)一步挖掘政治外交領(lǐng)域名詞短語(yǔ)結(jié)構(gòu)特點(diǎn),從中國(guó)外文局、中國(guó)翻譯研究院主持建設(shè)的“中國(guó)特色話語(yǔ)對(duì)外翻譯標(biāo)準(zhǔn)化術(shù)語(yǔ)庫(kù)” 中獲取了3 000對(duì)中韓互譯術(shù)語(yǔ),對(duì)其進(jìn)行分詞與詞性標(biāo)注后進(jìn)行相關(guān)統(tǒng)計(jì),結(jié)合韓語(yǔ)漢語(yǔ)各自語(yǔ)法特點(diǎn),歸納總結(jié)出了12種韓語(yǔ)名詞短語(yǔ)和10種漢語(yǔ)名詞短語(yǔ)結(jié)構(gòu),并給出了部分示例,見(jiàn)表2、表3。
表2 韓語(yǔ)名詞短語(yǔ)構(gòu)成模式及部分示例
表3 漢語(yǔ)名詞構(gòu)成模式及部分示例
詞向量(Word Embedding),又稱(chēng)詞嵌入,是一種詞的分布式表示。通過(guò)將詞映射至低維空間上,來(lái)表征詞的句法和語(yǔ)義關(guān)系。文獻(xiàn)[16]于2013年提出了由NNLM[15](神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型)改進(jìn)而來(lái)的Word2Vec算法。其中包含了連續(xù)詞袋模型(Continuous bag-of-words, CBOW)和跳字模型(Skip-Gram)。CBOW模型的原理是根據(jù)上下文預(yù)測(cè)當(dāng)前詞;Skip-Gram模型則是根據(jù)中心詞預(yù)測(cè)周?chē)脑~,并使用梯度下降算法不斷調(diào)整中心詞的詞向量。Skip-Gram的訓(xùn)練特點(diǎn)使其在規(guī)模較小的數(shù)據(jù)集上有更好的表現(xiàn)。因此,選取Skip-Gram模型用以訓(xùn)練詞向量。
目前,詞向量的訓(xùn)練多針對(duì)單一語(yǔ)言,即單語(yǔ)詞向量,用以表示該語(yǔ)言中詞匯之間的句法語(yǔ)義關(guān)系??缯Z(yǔ)言詞向量(Cross-lingual word embedding)[17]是單語(yǔ)詞向量的一種自然擴(kuò)展,面向雙語(yǔ)時(shí)也稱(chēng)為雙語(yǔ)詞向量(Bilingual word embedding)。其認(rèn)為在不同語(yǔ)言中具有相似概念的詞,在向量空間中的詞向量十分接近[18]。文獻(xiàn)[19-20]發(fā)現(xiàn)兩種語(yǔ)言的單語(yǔ)詞向量在向量空間中存在近似同態(tài)性,因此可以對(duì)多(雙)語(yǔ)的單語(yǔ)詞向量映射到一個(gè)共享的低維空間,在不同語(yǔ)言間進(jìn)行知識(shí)轉(zhuǎn)移,從而在多語(yǔ)言環(huán)境下對(duì)詞義進(jìn)行準(zhǔn)確捕捉。如圖1所示,韓漢相關(guān)詞語(yǔ)在進(jìn)行降維并映射至同一向量空間后,互譯的雙語(yǔ)詞語(yǔ)呈現(xiàn)出相似的分布。因此,使用韓漢平行語(yǔ)料訓(xùn)練單語(yǔ)詞向量,能夠獲取互譯詞語(yǔ)間的內(nèi)在語(yǔ)義特征用于短語(yǔ)的對(duì)齊。
圖1 雙語(yǔ)詞向量降維、映射至同一向量空間
本文采用文獻(xiàn)[19]提出的跨語(yǔ)言映射方法,該方法通過(guò)無(wú)監(jiān)督初始化與自學(xué)習(xí)的方式,無(wú)需借助種子詞典即可將單語(yǔ)種語(yǔ)料通過(guò)線性變換映射到共享空間中,實(shí)現(xiàn)該方法的主要步驟如下:
3.1.1 完全無(wú)監(jiān)督初始化
設(shè):X、Z分別為韓漢單語(yǔ)詞向量矩陣,Mx=XXT、Mz=ZZT分別為韓漢相似度矩陣。通過(guò)對(duì)Mx、Mz每行的值進(jìn)行排序,通過(guò)最鄰近匹配找到互譯詞,從而生成初始詞典D。
3.1.2 魯棒自學(xué)習(xí)
首先通過(guò)計(jì)算最佳正交映射以最大化當(dāng)前詞典D的相似性,如式(1)所示。
(1)
其中,Wx、Wz為線性變換矩陣;Wi*、Wj*分別表示第i、j個(gè)單詞各自的詞向量;Dij為初始詞典編碼而成的稀疏矩陣,當(dāng)Dij=1時(shí)表示韓語(yǔ)中第i個(gè)單詞與漢語(yǔ)中第j個(gè)單詞互譯。
即j=argmaxk(Xi*WX)(Zk,WZ)時(shí),Dij=1否則Dij=0。
3.1.3 對(duì)稱(chēng)重加權(quán)
對(duì)兩種語(yǔ)言對(duì)稱(chēng)地應(yīng)用重加權(quán),可以使映射方向中立,從而獲得更好的效果。給定X的奇異值分解USVT=XTDZ, 使WX=US1/2、Wz=VS1/2,即獲得兩種語(yǔ)言的映射矩陣。
韓漢單語(yǔ)詞向量進(jìn)行映射嵌入的訓(xùn)練過(guò)程如圖2所示。
圖2 韓漢雙語(yǔ)詞向量訓(xùn)練過(guò)程
基于長(zhǎng)度的方法最初應(yīng)用在句對(duì)齊領(lǐng)域,最初由文獻(xiàn)[21]提出。其依據(jù)是源語(yǔ)言與譯文文本長(zhǎng)度具有關(guān)聯(lián)性,并多以字節(jié)、字符或詞數(shù)作為長(zhǎng)度計(jì)量單位。之后的研究者又將句子所含的詞性等元素加入,用以計(jì)算句子長(zhǎng)度。如文獻(xiàn)[22]中將句子所含的動(dòng)詞、名詞、形容詞等詞語(yǔ)作為句長(zhǎng)計(jì)量單位,在英漢句對(duì)齊任務(wù)上取得了良好的效果。同樣互譯的短語(yǔ)在長(zhǎng)度和詞性構(gòu)成上也具有一定的關(guān)聯(lián)性。
本文以構(gòu)成短語(yǔ)的字符作為短語(yǔ)長(zhǎng)度計(jì)量單位,以構(gòu)成短語(yǔ)詞的詞性匹配數(shù)量,用以計(jì)算短語(yǔ)相似度,對(duì)先期獲得的3 000對(duì)互譯短語(yǔ)隨機(jī)打亂順序,進(jìn)行定量統(tǒng)計(jì),見(jiàn)表4。
表4 對(duì)齊與非對(duì)齊短語(yǔ)相關(guān)特征
由此可以看出,兩種特征在一定程度上對(duì)于短語(yǔ)是否對(duì)齊有一定的區(qū)分度。但由于短語(yǔ)的自身特性,當(dāng)抽取出的候選短語(yǔ)過(guò)多時(shí),短語(yǔ)長(zhǎng)度相似度和詞性相似度就難以對(duì)其進(jìn)行區(qū)分,此時(shí)就要從深層語(yǔ)義出發(fā)獲取短語(yǔ)的內(nèi)在特征。
融入雙語(yǔ)詞向量的韓漢名詞短語(yǔ)對(duì)齊模型如圖3所示。主要由短語(yǔ)抽取、短語(yǔ)對(duì)齊、相似度排序評(píng)估3部分組成。
圖3 融入雙語(yǔ)詞向量的韓漢短語(yǔ)對(duì)齊模型
(1)短語(yǔ)抽?。簩?duì)雙語(yǔ)平行語(yǔ)料進(jìn)行分詞和詞性標(biāo)注。分詞結(jié)果用于訓(xùn)練單語(yǔ)詞向量并進(jìn)行跨語(yǔ)言映射,詞性標(biāo)注結(jié)果基于韓漢短語(yǔ)構(gòu)成規(guī)律進(jìn)行短語(yǔ)抽取,形成短語(yǔ)集。
(2)短語(yǔ)對(duì)齊:將韓漢名詞短語(yǔ)的詞向量相似度、短語(yǔ)長(zhǎng)度相似度與短語(yǔ)詞性相似度進(jìn)行加權(quán)求和,形成短語(yǔ)相似度。
(3)對(duì)候選韓漢名詞進(jìn)行相似度排序評(píng)估,根據(jù)匹配結(jié)果得到韓漢名詞短語(yǔ)對(duì)齊集。
定義漢語(yǔ)短語(yǔ)Pzh,由m個(gè)詞組成。每個(gè)詞為Xi(i=1,2,…,m),則有Pzh=(x1,x2,…,xm);韓語(yǔ)短語(yǔ)Pkr由n個(gè)詞組成,每個(gè)詞為Yj(j=1,2,…,n),則有Pkr=(y1,y2,…,yn)。定義短語(yǔ)詞向量相似度SE、短語(yǔ)長(zhǎng)度相似度SL和短語(yǔ)詞性相似度SP,如式(2)~(4)所示:
(2)
式中,Wi、Wj分別為對(duì)應(yīng)詞的詞向量權(quán)重。
(3)
式中,Lzh、Lkr分別為漢語(yǔ)、韓語(yǔ)短語(yǔ)字長(zhǎng)度。
(4)
式中,N為韓漢對(duì)應(yīng)短語(yǔ)中詞性相同詞的個(gè)數(shù)。
最終得到韓漢短語(yǔ)相似度,如式(5)所示。
Similarity (5) 其中,W1、W2、W3分別為SE、SL和SP的權(quán)重,默認(rèn)權(quán)重值為1/3。 本文以中國(guó)政府工作報(bào)告(中韓對(duì)照版)、當(dāng)代中國(guó)與世界研究院、中國(guó)翻譯研究院和中國(guó)外文局聯(lián)合編譯的《中國(guó)關(guān)鍵詞》(中韓對(duì)照版),以及通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取的政治外交領(lǐng)域的雙語(yǔ)文章作為原始語(yǔ)料。在此基礎(chǔ)上,使用自動(dòng)對(duì)齊于人工校對(duì)的方式進(jìn)行句對(duì)齊,最終得到韓漢雙語(yǔ)平行句對(duì)11 672對(duì)。 對(duì)于漢語(yǔ)句子,使用LAC工具進(jìn)行分詞、去停用詞并進(jìn)行詞性標(biāo)注;對(duì)于韓語(yǔ)句子,使用UTagger工具進(jìn)行分詞、去停用詞并進(jìn)行詞性標(biāo)注。之后采用Word2Vec中的Skip-Gram模型,分別訓(xùn)練處理過(guò)的韓漢句子集合。訓(xùn)練參數(shù)分別為:Size(詞向量維度)=100,Window(窗口大小)=3,Iter(迭代次數(shù))=10,其它均為默認(rèn)參數(shù),分別得到韓語(yǔ)和漢語(yǔ)單語(yǔ)詞向量,并使用Vecmap2 工具將其映射至同一向量空間,得到韓漢雙語(yǔ)詞向量。 對(duì)于每組平行句對(duì),基于規(guī)則抽取出短語(yǔ)后形成短語(yǔ)集。對(duì)于短語(yǔ)集中的每個(gè)短語(yǔ),計(jì)算與對(duì)應(yīng)短語(yǔ)集中每個(gè)短語(yǔ)的相似度后,選取相似度最大的作為對(duì)齊短語(yǔ)。此外,設(shè)定了兩種對(duì)齊情況:完全對(duì)齊(對(duì)齊結(jié)果與正確結(jié)果完全一致)與未對(duì)齊(對(duì)齊結(jié)果與正確結(jié)果完全不一致)。見(jiàn)表5。 表5 短語(yǔ)“中國(guó)經(jīng)濟(jì)”匹配配對(duì)示例 為有效評(píng)測(cè)融入雙語(yǔ)詞向量的短語(yǔ)自動(dòng)對(duì)齊方法的性能,從平行語(yǔ)料中隨機(jī)抽取出2 000對(duì)句對(duì),采用專(zhuān)家人工審校方式進(jìn)行短語(yǔ)對(duì)齊,將結(jié)果作為標(biāo)準(zhǔn)測(cè)試語(yǔ)料。 本文設(shè)計(jì)了3組對(duì)比實(shí)驗(yàn):第一組實(shí)驗(yàn),通過(guò)對(duì)比融入單語(yǔ)與雙語(yǔ)詞向量后的對(duì)齊效果,用以驗(yàn)證雙語(yǔ)詞向量的有效性;第二組實(shí)驗(yàn),將訓(xùn)練詞向量時(shí)的迭代次數(shù)和特征權(quán)重作為自變量進(jìn)行實(shí)驗(yàn),用以探究最佳的權(quán)重參數(shù)設(shè)置;第三組實(shí)驗(yàn),通過(guò)對(duì)比訓(xùn)練詞向量不同迭代次數(shù)后的對(duì)齊效果,探究迭代次數(shù)對(duì)結(jié)果的影響。 本文采用準(zhǔn)確率P、召回率R和F1值指標(biāo)作為衡量模型對(duì)齊短語(yǔ)的性能指標(biāo)。其具體表達(dá)如式(6)~(8)所示。 (6) (7) (8) 其中,TP為短語(yǔ)對(duì)齊結(jié)果與測(cè)試集完全匹配的數(shù)量;TP為測(cè)試集中未與短語(yǔ)對(duì)齊結(jié)果匹配的數(shù)量;FN為短語(yǔ)對(duì)齊結(jié)果中未與測(cè)試集匹配的數(shù)量。 第一組實(shí)驗(yàn)結(jié)果見(jiàn)表6。 表6 融入詞向量對(duì)比實(shí)驗(yàn)研究 從中可以看出:融入未經(jīng)映射的單語(yǔ)詞向量相比于未融入詞向量略有提升。準(zhǔn)確率P、召回率R和F1值分別提升了1.80%、2.40%和2.06%;而融入雙語(yǔ)詞向量后,相比于單語(yǔ)詞向量有較大提升,準(zhǔn)確率P、召回率R和F1值分別提升了6.93%、9.15%和7.88%。由此可知雙語(yǔ)詞向量對(duì)短語(yǔ)對(duì)齊的提升作用比較明顯。 第二組實(shí)驗(yàn)結(jié)果見(jiàn)表7。 表7 權(quán)重組合對(duì)比實(shí)驗(yàn)結(jié)果 從結(jié)果看出:經(jīng)過(guò)多組權(quán)重對(duì)比實(shí)驗(yàn),詞向量相似度、長(zhǎng)度相似度與詞性相似度的權(quán)重均對(duì)結(jié)果有一定影響。詞向量特征具有較強(qiáng)的正向作用,長(zhǎng)度特征和詞性特征具有一定的正向作用。在三者權(quán)重相當(dāng)時(shí),模型整體性能最好。 第三組實(shí)驗(yàn)結(jié)果見(jiàn)表8。 表8 詞向量訓(xùn)練迭代次數(shù)對(duì)比實(shí)驗(yàn)結(jié)果 可以看出:詞向量訓(xùn)練時(shí)的迭代次數(shù)會(huì)對(duì)模型性能產(chǎn)生較大影響。隨著迭代次數(shù)的增加,各項(xiàng)指標(biāo)呈現(xiàn)先上升后下降的趨勢(shì)。迭代次數(shù)為25時(shí)效果最好,相比于默認(rèn)的10次迭代,準(zhǔn)確率P、召回率R和F1值分別提升了16.86%、22.33%和19.21%。說(shuō)明適當(dāng)增加訓(xùn)練迭代次數(shù),對(duì)模型的性能有很大提升。 本文提出了融入雙語(yǔ)詞向量的韓漢名詞短語(yǔ)對(duì)齊方法,并構(gòu)建了基于短語(yǔ)構(gòu)成規(guī)律的短語(yǔ)抽取和融入雙語(yǔ)詞向量、短語(yǔ)長(zhǎng)度和詞性相似度的短語(yǔ)對(duì)齊模型。在政治外交領(lǐng)域的韓漢平行語(yǔ)料上進(jìn)行實(shí)驗(yàn)分析,得到以下結(jié)論: (1)雙語(yǔ)詞向量無(wú)需借助外部資源(如雙語(yǔ)詞典、術(shù)語(yǔ)庫(kù)等)就能夠高效地表示平行句對(duì)中對(duì)應(yīng)單位的深層語(yǔ)義特征,從而提升對(duì)應(yīng)單位對(duì)齊的準(zhǔn)確率。 (2)語(yǔ)言學(xué)知識(shí)對(duì)于短語(yǔ)抽取與對(duì)齊和類(lèi)似自然語(yǔ)言處理任務(wù)仍起著重要作用。部分情況下,短語(yǔ)長(zhǎng)度和詞性相似度仍能進(jìn)行有效短語(yǔ)對(duì)齊,對(duì)于對(duì)齊結(jié)果有正向提升。 由于時(shí)間及水平所限,本文尚存在許多不足。一是韓漢名詞短語(yǔ)的種類(lèi)有待進(jìn)一步擴(kuò)充?;诙陶Z(yǔ)結(jié)構(gòu)使用詞性抽取的方法需要依靠語(yǔ)言學(xué)知識(shí)制定大量規(guī)則,且只能覆蓋部分類(lèi)別的短語(yǔ),后續(xù)將嘗試使用統(tǒng)計(jì)的方法進(jìn)行短語(yǔ)抽取,擴(kuò)充短語(yǔ)的種類(lèi)。二是語(yǔ)料的規(guī)模有待進(jìn)一步增加。詞向量的訓(xùn)練基于大規(guī)模語(yǔ)料,而目前高質(zhì)量的平行語(yǔ)料仍屬稀缺資源,因此如何自動(dòng)高效地獲取句對(duì)齊平行語(yǔ)料仍是研究的方向。三是面向韓漢自然語(yǔ)言處理領(lǐng)域的語(yǔ)言學(xué)知識(shí)有待進(jìn)一步歸納。本文短語(yǔ)對(duì)齊的相關(guān)指標(biāo)仍不能令人滿(mǎn)意,其主要原因是韓漢雙語(yǔ)間的語(yǔ)言差異導(dǎo)致短語(yǔ)抽取、特征提取效果不佳。因此進(jìn)一步挖掘深層的句法語(yǔ)義知識(shí)有助于自然語(yǔ)言處理領(lǐng)域相關(guān)任務(wù)的實(shí)現(xiàn)。4 實(shí)驗(yàn)與分析
4.1 語(yǔ)料介紹與數(shù)據(jù)預(yù)處理
4.2 實(shí)驗(yàn)設(shè)計(jì)與測(cè)評(píng)指標(biāo)
4.3 實(shí)驗(yàn)結(jié)果與分析
5 結(jié)束語(yǔ)