国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘算法的漢英機器翻譯二元語義模式規(guī)則

2021-12-09 06:37:44呂洋張靜華芳
微型電腦應用 2021年11期
關鍵詞:子目標歧義短語

呂洋, 張靜, 華芳

(西北大學 現(xiàn)代學院基礎部, 陜西 西安 710000)

0 引言

語言是人類進行溝通的基礎,尤其是隨著國際化發(fā)展程度越來越高,不同國家之間的往來越來越頻繁,不同語言之間的翻譯也變得愈加重要。在國際化發(fā)展迅速的今日,單純依靠人工翻譯已經(jīng)不能滿足人們?nèi)粘贤?、閱讀的需求,因此機器翻譯應運而生[1-5]。近年來,隨著國內(nèi)外研究學者對機器翻譯系統(tǒng)的開發(fā)和改進,機器翻譯已經(jīng)在各個領域中都出現(xiàn)了廣泛的應用。

然而,機器翻譯的質(zhì)量還不能夠滿足特殊領域的需求。例如對于某些學術論文、文學作品中的專有詞匯的翻譯準確度還較低,因此機器翻譯系統(tǒng)的語言分析和處理技術還有待進一步發(fā)展。若要提升機器翻譯的質(zhì)量,消除詞語的歧義是首要任務[6-10]。通常一個詞語具有多種詞義,這種歧義稱為詞匯歧義。而詞語在與其他詞匯構(gòu)成短語時,受到固定搭配,通過短語構(gòu)造的句法語義規(guī)律可以消除這一歧義;除了詞匯歧義外,自然語言中還存在著結(jié)構(gòu)歧義,是同形短語產(chǎn)生的歧義,通常需要從語義關系和句法結(jié)構(gòu)方面進行消除。

語義規(guī)則是一種常用于剔除歧義的規(guī)則,對于外顯型歧義除了可以運用上下文的句法關系進行歧義剔除,還可以直接利用語義知識進行語法分析來排除歧義;對于內(nèi)含型歧義,無法通過句法關系進行歧義剔除,只能依靠語義知識進行歧義剔除[11-12]。本文設計了一種基于數(shù)據(jù)挖掘的二元語義算法,發(fā)掘詞語組合的語義規(guī)律并轉(zhuǎn)換成二元語義規(guī)則集。將二元語義規(guī)則模式與句法分析規(guī)則進行結(jié)合后,應用于機器翻譯的歧義消除中,并對其應用效果進行了評價。

1 優(yōu)化系統(tǒng)的整體架構(gòu)

本系統(tǒng)是基于XMMT英漢機譯系統(tǒng)進行優(yōu)化,對其排歧方面的不足進行了改進。原系統(tǒng)所采用的排歧方法是“優(yōu)化”和“約束”相結(jié)合的方法,但“約束”方法的研究深度不夠。由于語義知識不足和算法誤差,導致了“約束”排歧的效果不理想,而且對“優(yōu)化”排歧的效果也造成誤導。

原系統(tǒng)排歧效果不理想的根本原因是語義知識不全面,因此本系統(tǒng)外掛了一個語義模式規(guī)則獲取模塊。優(yōu)化后系統(tǒng)漢英機器翻譯工作流程如圖1所示。

圖1 優(yōu)化后系統(tǒng)漢英機器翻譯工作流程

該系統(tǒng)首先基于知網(wǎng)語料庫進行語義和句法的標注,然后獲得熟語料庫。運用數(shù)據(jù)挖掘方法來發(fā)掘語料庫中詞語組合的規(guī)律,并基于“統(tǒng)計”方法將語義規(guī)律轉(zhuǎn)換為二元語義模式規(guī)則集;進一步通過人工調(diào)整和擴充,得到最終排歧所需的二元語義模式規(guī)則庫。本系統(tǒng)在基于所建立的二元語義模式規(guī)則庫和知網(wǎng)語料庫的基礎上對語義和句法進行分析,通過外掛句法分析庫進行詞義標注,通過一個外掛的二元語義模式規(guī)則庫對語言進行優(yōu)化和調(diào)整,最終得到語言分析結(jié)果。

2 二元語義模式規(guī)則的獲取

本系統(tǒng)二元語義模式規(guī)則獲取分為2個步驟,分別為發(fā)現(xiàn)子目標模式和由子目標模式獲取二元語義模式規(guī)則集。

子目標模式發(fā)現(xiàn)算法如圖2所示。

圖2 子目標模式發(fā)現(xiàn)算法

首先,利用Find算法逐層對各個層次上的子目標進行尋找。然后利用get_filtered方法刪除不包含子目標模式的項和事務,得到壓縮事務數(shù)據(jù)庫并循環(huán)進行下一個子目標的尋找。接著利用gen_candidates算法產(chǎn)生候選模式集,利用候選模式集掃描壓縮事務數(shù)據(jù)庫,利用Subset方法找到壓縮事務數(shù)據(jù)庫中所有的候選并計數(shù)和刪除壓縮事務數(shù)據(jù)庫中不被候選模式集包含的項和事務,然后得到該子目標的子目標模式集。最后,將所有子目標模式集匯總,便得到最終的子目標模式集。

通過關聯(lián)規(guī)則挖掘,可以由子目標模式獲取二元語義模式規(guī)則集。根據(jù)所有子目標的支持度和近似度,基于最小值置信度規(guī)則和元規(guī)則,剔除冗余規(guī)則,得到二元語義模式規(guī)則的優(yōu)選算法,將子目標模式轉(zhuǎn)換為二元語義模式規(guī)則集。本文所利用的二元語義模式規(guī)則的優(yōu)選算法如圖3所示。

圖3 二元語義模式規(guī)則的優(yōu)選算法

首先,基于元規(guī)則從子目標模式集中篩選出目標模式,計算目標模式的置信度,將不滿足最小置信度的模式從中剔除,得到了候選二元語義模式規(guī)則集;接著掃描候選二元語義模式規(guī)則集,機選其覆蓋關系的入度,將所有入度為0的候選二元語義模式規(guī)則集篩選出來,得到最終的二元語義模式規(guī)則集。

3 基于二元語義規(guī)則的語義排歧

前文介紹本系統(tǒng)是基于XMMT系統(tǒng)進行優(yōu)化后的二元語義模式規(guī)則排歧,其排歧規(guī)則與XMMT系統(tǒng)類似。傳統(tǒng)XMMT系統(tǒng)排歧是由兩部分組成,CFG產(chǎn)生式和偽等式,分別是描述短語、句子的組成模式和約束條件、分析結(jié)果的構(gòu)造過程。只要是合理的LISP表達式,均可以出現(xiàn)在偽等式中,所以可以將語義評價函數(shù)加入到原有的句法分子規(guī)則中。優(yōu)化后的排歧規(guī)則是將二元語義模式庫中的規(guī)則與語義組合進行匹配,將不合語義項、組合、句法排除,然后將所有可能的組合保存為中間結(jié)果并評分,經(jīng)進一步分析得到最終排歧結(jié)果。本系統(tǒng)所嵌入的語義評價函數(shù)為Semantic Value函數(shù),進行語義評價的算法如圖4所示。

圖4 二元語義模式規(guī)則的語義評價的算法

首先,調(diào)用Semantic Value算法進行句法和語義分析,在二元語義模式規(guī)則庫中找出相應的二元語義模式規(guī)則集,計算待歸約成分中每一項組合與二元語義模式規(guī)則集的語義匹配度,如果二者之間的最高匹配度規(guī)則Best.rule高于閾值θrule,那么則認為結(jié)果合理;否則,則認為該項不符合語義。將合理的結(jié)果利用Best.rule規(guī)則進行處理并進行計分,若結(jié)果最終得分高于最小語義評價得分閾值θresult,則結(jié)果合理;否則返回fail。

另外,本文利用該二元語義模式規(guī)則進行了排歧實驗,以短語“黃 皮膚 男孩”為例進行了排歧分析。首先將由語料庫獲取了短語中各詞語的詞義和詞性,將其轉(zhuǎn)換為待歸約成分,如表1所示。

表1 示例詞語的詞性和義項

在對待歸約成分進行歸約前,先利用Semantic Value函數(shù)對各義項的組合進行語義評價,當歸約結(jié)果得分高于閾值θresult時,則生成新的歸約成分。所有義項組合的歸約結(jié)果得分如表2所示。

表2 第一次歸約結(jié)果

其中D1和D3組合,D1、D3和D4,D1、D3和D5以及D1、D3和D6組合的歸約結(jié)果得分均為100分,產(chǎn)生新的歸約序列P5和P6。以上結(jié)果表明P2和P3以及P3和P4無法歸約,P1和P3可以歸約得到合理結(jié)果“黃皮膚”;P1、P3和P4歸約得到合理結(jié)果“黃皮膚男孩”。所得到的新的帶歸約序列P5可以與P4進行第二輪歸約,但是無法得到新的歸約結(jié)果,因此歸約結(jié)束,最終只得到唯一的排歧分析結(jié)果,即“黃皮膚男孩”。另外,通過2 000組隨機短語排歧實驗結(jié)果表明,對比原XMMT系統(tǒng),基于二元語義模式規(guī)則進行排歧時,詞義排歧正確率為79.9%,結(jié)構(gòu)排歧正確率為85.7%,比原系統(tǒng)分別提高了8.6%和3.9%。

4 總結(jié)

本文基于XMMT系統(tǒng)進行優(yōu)化,設計了一種基于數(shù)據(jù)挖掘的二元語義算法,發(fā)掘詞語組合的語義規(guī)律并轉(zhuǎn)換成二元語義規(guī)則集,在漢英翻譯中展現(xiàn)了較好的排歧效果,主要結(jié)論如下。

(1) 獲取二元語義模式規(guī)則包括子目標發(fā)現(xiàn)和二元語義模式規(guī)則集2個步驟,通過關聯(lián)規(guī)則挖掘,可以由子目標模式獲取二元語義模式規(guī)則集。

(2) 嵌入的語義評價函數(shù)Semantic Value,進行句法和語義分析,進行匹配度計算,完成排歧過程。

(3) 優(yōu)化后的系統(tǒng)排歧效果得到改善,詞義排歧正確率為79.9%,結(jié)構(gòu)排歧正確率為85.7%,比原系統(tǒng)分別提高了8.6%和3.9%。

猜你喜歡
子目標歧義短語
圖層網(wǎng)格法對混合目標群的毀傷評估
稀疏獎勵環(huán)境中的分層強化學習①
eUCP條款歧義剖析
中國外匯(2019年12期)2019-10-10 07:26:58
雷達群目標跟蹤條件下的彈道預報方法
English Jokes: Homonyms
基于子目標進化算法的要地防空武器系統(tǒng)優(yōu)化部署
“那么大”的語義模糊與歧義分析
尋求歧義研究的解釋力度:從認知視角到社會視角——兼評《現(xiàn)代漢語歧義識別與消解的認知研究》
當代修辭學(2011年3期)2011-01-23 06:40:16
芜湖市| 南雄市| 重庆市| 乌苏市| 江油市| 濉溪县| 吴堡县| 樟树市| 绥阳县| 繁峙县| 彭泽县| 九寨沟县| 武乡县| 乌拉特后旗| 河北区| 塔河县| 闽清县| 克东县| 当涂县| 吴江市| 漠河县| 大连市| 丹东市| 进贤县| 上犹县| 高邑县| 黑水县| 罗源县| 伊吾县| 宿迁市| 芷江| 婺源县| 沿河| 乌拉特前旗| 望谟县| 英超| 汤阴县| 冕宁县| 理塘县| 会泽县| 会东县|