国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于翻譯API的HSK漢-烏平行詞庫(kù)構(gòu)建方法研究

2021-07-19 22:31:01胡創(chuàng)業(yè)黃欣欣

電腦知識(shí)與技術(shù) 2021年14期

胡創(chuàng)業(yè) 黃欣欣

摘要：該文介紹了如何利用翻譯API技術(shù)構(gòu)建HSK漢語(yǔ)-烏茲別克語(yǔ)平行詞庫(kù)的關(guān)鍵技術(shù)和方法，采用基于翻譯API技術(shù)對(duì)HSK漢語(yǔ)詞匯完成自動(dòng)有效的翻譯對(duì)齊工作，實(shí)現(xiàn)HSK漢-烏平行詞庫(kù)的構(gòu)建目標(biāo)。并通過兩種方法對(duì)平行詞庫(kù)完成擴(kuò)充，最后對(duì)未完成對(duì)齊的詞匯進(jìn)行人工近義詞校對(duì)，使HSK平行詞庫(kù)趨于完善。

關(guān)鍵詞：翻譯API;HSK;平行詞庫(kù);對(duì)齊;擴(kuò)充

中圖分類號(hào)：TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2021）14-0201-03

Abstract： This article introduces the key technologies and methods of how to use the translation API technology to build the HSK Chinese-Uzbek parallel thesaurus. The translation API technology is used to complete the automatic and effective translation alignment of HSK Chinese vocabulary to achieve the construction goal of the HSK Chinese-Uzbek parallel thesis. The parallel thesaurus is expanded by two methods. Finally， artificial synonym proofreading is performed on the incompletely aligned words to make the HSK parallel thesaurus perfect.

Key words： translation API; HSK; parallel thesaurus; alignment; expansion

1 背景

平行語(yǔ)料庫(kù)是同一含義不同語(yǔ)言對(duì)齊所組成的語(yǔ)料資源，對(duì)機(jī)器翻譯研究具有重要作用和意義[1-2]。目前在國(guó)內(nèi)研究構(gòu)建漢語(yǔ)-烏茲別克語(yǔ)對(duì)齊語(yǔ)料庫(kù)的技術(shù)外均相對(duì)較少，本文將主要介紹漢-烏雙語(yǔ)對(duì)齊語(yǔ)料庫(kù)構(gòu)建技術(shù)研究，此研究能為漢-烏機(jī)器翻譯技術(shù)研究者提供語(yǔ)料基礎(chǔ)，具有一定的學(xué)術(shù)價(jià)值與應(yīng)用價(jià)值[3]。

通過對(duì)相關(guān)文獻(xiàn)資料調(diào)查研究發(fā)現(xiàn)，漢語(yǔ)-烏茲別克語(yǔ)對(duì)齊語(yǔ)料庫(kù)的研究仍然處在發(fā)展緩慢的初期階段[4]。國(guó)家戰(zhàn)略的發(fā)展要求我們國(guó)家必須加速推進(jìn)漢-烏對(duì)齊語(yǔ)料庫(kù)的構(gòu)建和技術(shù)研究[5]，這項(xiàng)研究技術(shù)的成果會(huì)對(duì)后期的漢-烏機(jī)器翻譯研究有很大促進(jìn)作用，并為中烏雙方的無障礙交流提供有效的現(xiàn)代信息交流工具，帶動(dòng)兩國(guó)之間的經(jīng)濟(jì)、文化、科技、教育等方面的交流和發(fā)展[6-7]。

本文以漢語(yǔ)水平考試（HSK）漢語(yǔ)詞匯為基礎(chǔ)，引出如何利用翻譯API技術(shù)自動(dòng)生成漢語(yǔ)-烏茲別克語(yǔ)雙語(yǔ)對(duì)齊詞庫(kù)，及其相關(guān)技術(shù)、問題和實(shí)現(xiàn)解決技術(shù)方法。漢語(yǔ)水平考試（HSK）中共有1至6級(jí)漢語(yǔ)詞匯5000個(gè)，實(shí)驗(yàn)采用翻譯API技術(shù)能夠快速有效生成漢-烏平行語(yǔ)料庫(kù)，并將庫(kù)中少量未完成翻譯詞匯進(jìn)行人工校對(duì)，從而形成不斷完善的漢-烏平行語(yǔ)料詞庫(kù)。這對(duì)后期的漢-烏機(jī)器翻譯研究以及烏茲別克語(yǔ)使用者學(xué)習(xí)漢語(yǔ)都將會(huì)有很大的幫助[8-9]。

2 翻譯應(yīng)用程序接口（API）的應(yīng)用

隨著近幾年機(jī)器翻譯技術(shù)的興起[10]，研究人員開發(fā)了各具不同功能的翻譯程序，谷歌翻譯、有道翻譯、百度翻譯是國(guó)內(nèi)應(yīng)用比較多的三種翻譯程序。這三種翻譯程序都有可以應(yīng)用程序接口。有道翻譯和百度翻譯所包含語(yǔ)種多為國(guó)際主流語(yǔ)言，而谷歌翻譯除了主流語(yǔ)言以外還包括了許多非主流語(yǔ)言，科研人員可以通過調(diào)用翻譯應(yīng)用程序接口來解決各樣功能的翻譯問題[11-12]。文中研究?jī)?nèi)容為漢語(yǔ)-烏茲別克語(yǔ)的雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建，參照下表1分析可知，只有谷歌翻譯包含烏茲別克語(yǔ)語(yǔ)種，所以本文采用谷歌翻譯應(yīng)用程序接口。

谷歌翻譯和其他大多翻譯軟件一樣都為用戶提供API，本文主要使用的是python庫(kù)中的googletrans包，其核心思想是模擬用戶進(jìn)行訪問網(wǎng)頁(yè)并獲取網(wǎng)頁(yè)內(nèi)容，通過構(gòu)造URL發(fā)起GET請(qǐng)求，得到一個(gè)JSON結(jié)果并提取翻譯內(nèi)容。

3 HSK漢-烏平行詞庫(kù)構(gòu)建

3.1 HSK漢語(yǔ)語(yǔ)料準(zhǔn)備與預(yù)處理

語(yǔ)料準(zhǔn)備。漢語(yǔ)水平考試（HSK）大綱詞匯，語(yǔ)料存儲(chǔ)格式為EXCEL表格形式，語(yǔ)料里面內(nèi)容有漢語(yǔ)水平考試（HSK）考試大綱詞匯一至六級(jí)共5000個(gè)。每個(gè)詞匯后都帶有括號(hào)并標(biāo)明等級(jí)，這屬于噪聲部分需要后期處理，并且一至六級(jí)詞匯都在一個(gè)表格，一次翻譯內(nèi)容較多且不易分類，因此需要分為一至六級(jí)的六個(gè)表格進(jìn)行分類處理。

語(yǔ)料預(yù)處理。去除括號(hào)及等級(jí)部分，采用表格截取公式為=LEFT（A2，F(xiàn)IND（"（"，A2）-1），其中A2表示第一列第二行單元格內(nèi)容，F(xiàn)IND函數(shù)表示定位查找目標(biāo)位置，LEFT表示從左邊開始截取，截取完成就會(huì)去除語(yǔ)料詞后面冗余部分，只保留語(yǔ)料詞的有用詞匯部分。最后，通過快速?gòu)?fù)制公式方法快速處理剩余所有詞匯。例如：原樣的格式“愛（一級(jí)）”，改為我們需要的詞匯格式“愛”。建立無帶其他附加符號(hào)的漢語(yǔ)詞，總共處理5000個(gè)漢語(yǔ)詞匯。

3.2 漢-烏對(duì)齊語(yǔ)料自動(dòng)構(gòu)建

此次實(shí)驗(yàn)使用的核心思路如下，通過循環(huán)依次讀取語(yǔ)料詞匯表中已處理的詞匯;通過調(diào)用谷歌翻譯應(yīng)用程序接口技術(shù)，根據(jù)不同翻譯環(huán)境設(shè)計(jì)翻譯模型。而在調(diào)用谷歌翻譯應(yīng)用程序接口技術(shù)時(shí)，由于谷歌翻譯服務(wù)器有反爬蟲機(jī)制而不能頻繁訪問使用，因此需要通過實(shí)驗(yàn)測(cè)試它的訪問最佳參數(shù)。通過如圖1所示的實(shí)驗(yàn)結(jié)果分析，當(dāng)翻譯每次翻譯頻次為50次、休眠時(shí)間為30秒時(shí)，為訪問谷歌翻譯服務(wù)器的最佳狀態(tài)。

語(yǔ)料分類。將原本集中在一張表的所有等級(jí)詞匯，按等級(jí)分類分成六張表存儲(chǔ)，便于分類管理以及后期使用。后期在處理過程中可以按類別分批處理，彼此類別之間不會(huì)相互影響。最后通過整理分類得出完整的對(duì)照語(yǔ)料庫(kù)，以六級(jí)詞匯為例如圖2所示。

從上圖我們可以看出大部分HSK漢語(yǔ)詞匯均可有效地翻譯并寫入表中，部分詞匯第三方軟件無法識(shí)別翻譯，如上圖中的“曖昧”一詞，這是中國(guó)漢語(yǔ)中比較形象的一個(gè)詞匯，但國(guó)外可能無法理解其含義，因此需要找到它的近義詞如“含糊”，進(jìn)行再次翻譯并人工校正。

4 HSK漢-烏平行詞庫(kù)擴(kuò)充

4.1 基于烏茲別克語(yǔ)語(yǔ)料的HSK詞庫(kù)擴(kuò)充

1）語(yǔ)料預(yù)處理。對(duì)于直接從烏茲別克語(yǔ)網(wǎng)站上爬取的烏茲別克語(yǔ)語(yǔ)料，里面帶有很多垃圾語(yǔ)料和噪聲語(yǔ)料，如網(wǎng)頁(yè)結(jié)構(gòu)標(biāo)簽、數(shù)字、網(wǎng)頁(yè)鏈接以及符號(hào)等等，整理收集后分類如下表2所示，如果不對(duì)其進(jìn)行預(yù)處理除雜，將會(huì)對(duì)后期實(shí)驗(yàn)產(chǎn)生很大影響。

2）分詞去重。通過對(duì)預(yù)處理語(yǔ)料分詞后共得到大小共14M的烏語(yǔ)詞語(yǔ)料文檔，經(jīng)過分詞處理后共計(jì)得到1512129條詞匯。文檔中有大量重復(fù)詞語(yǔ)，需采用文檔去重技術(shù)對(duì)詞語(yǔ)料文檔進(jìn)行去重。使用去重工具，將列表中重復(fù)項(xiàng)去掉，最終得到的去重詞表通過循環(huán)寫入表中，共計(jì)得到不重復(fù)烏茲別克語(yǔ)詞條共計(jì)11054條，我們這里定義其為新詞庫(kù)。

3）新詞庫(kù)的平行詞庫(kù)構(gòu)建。

上述所得到的是按順序排列且不重復(fù)的烏茲別克語(yǔ)新詞庫(kù)，這里仍然使用基于翻譯API技術(shù)的詞對(duì)齊語(yǔ)料庫(kù)的構(gòu)建方法實(shí)現(xiàn)新詞庫(kù)的平行詞庫(kù)的構(gòu)建，具體實(shí)現(xiàn)模型如圖3所示。

5 結(jié)束語(yǔ)

本文首先介紹了翻譯API技術(shù)的相關(guān)應(yīng)用，并利用此項(xiàng)技術(shù)完成對(duì)HSK漢-烏平行詞庫(kù)的自動(dòng)構(gòu)建。但HSK詞庫(kù)中的詞匯是比較常用詞匯，并不能完整涵蓋所有詞匯，因此還有很大的擴(kuò)展空間。而對(duì)于HSK詞庫(kù)的擴(kuò)充本文采用了兩種方法，一種方法是結(jié)合所構(gòu)建的漢-烏平行語(yǔ)料庫(kù)中的平行詞庫(kù)，以烏茲別克語(yǔ)詞匯為基準(zhǔn)對(duì)照HSK詞庫(kù)進(jìn)行對(duì)照擴(kuò)充;另一種方法是結(jié)合漢語(yǔ)詞典對(duì)HSK詞庫(kù)進(jìn)行擴(kuò)充。這兩種HSK詞庫(kù)擴(kuò)充方法各有優(yōu)缺點(diǎn)，基于烏茲別克語(yǔ)語(yǔ)料的HSK詞庫(kù)擴(kuò)充方法所擴(kuò)充新詞都是基于烏茲別克語(yǔ)詞匯，基本上都能找到其對(duì)應(yīng)的平行漢語(yǔ)詞匯;而基于漢語(yǔ)詞典的HSK詞庫(kù)擴(kuò)充方法的擴(kuò)充規(guī)模較大，但其擴(kuò)充新詞中會(huì)存在一定量的詞匯無法找到對(duì)應(yīng)的平行烏茲別克語(yǔ)詞匯。兩種擴(kuò)充方法的優(yōu)缺點(diǎn)具有互補(bǔ)的特性，因此將兩種方法結(jié)合起來對(duì)HSK詞庫(kù)進(jìn)行擴(kuò)充可以達(dá)到很好的效果。

參考文獻(xiàn)：

[1] 蘭彩玉.中藥漢英雙語(yǔ)平行語(yǔ)料庫(kù)的設(shè)計(jì)及構(gòu)建[J].亞太傳統(tǒng)醫(yī)藥，2014，10（8）：1-3.

[2] 房璐.英漢可比較語(yǔ)料庫(kù)的構(gòu)建與應(yīng)用研究[D].蘇州：蘇州大學(xué)，2011.

[3] 阿西穆·托合提.維吾爾語(yǔ)-烏茲別克語(yǔ)機(jī)器翻譯研究[D].烏魯木齊：新疆大學(xué)，2017.

[4] 徐雄飛.大中華區(qū)詞對(duì)齊自動(dòng)抽取研究[D].南昌：江西師范大學(xué)，2016.

[5] 李哲.俄漢-漢俄平行語(yǔ)料庫(kù)建設(shè)與研制的迫切性及應(yīng)用價(jià)值[J].文學(xué)教育（下），2018（1）：90-91.

[6] Tao Deng.Correspondence Analysis of English-Chinese Contrast Relationship and Adverbial Module in the Construction of Parallel Translation Corpus[C]//Institute of Management Science and Industrial Engineering.Proceedings of 2018 4th International Conference on Education，Management and Information Technology（ICEMIT 2018）.Institute of Management Science and Industrial Engineering：Computer Science and Electronic Technology International Society，2018：4.

[7] 沈韻，張煉.基于平行語(yǔ)料庫(kù)的計(jì)算機(jī)輔助翻譯軟件在翻譯教學(xué)中的應(yīng)用——以雪人CAT軟件為例[C]//外語(yǔ)教育與翻譯發(fā)展創(chuàng)新研究（第七卷），2018：254-257.

[8] Lihua Sun.Teaching Design for Translation Based on English-Chinese Parallel Corpus[C]//Singapore Management and Sports Science Institute，Singapore＼International Communication Sciences Association， Hong Kong.Proceedings of 2017 2nd EBMEI International Conference on Education，Information and Management （EBMEI-EIM 2017）.Singapore Management and Sports Science Institute，Singapore＼International Communication Sciences Association，Hong Kong：智能信息技術(shù)應(yīng)用學(xué)會(huì)，2017：4.

[9] Levshina N.A multivariate study of T/V forms in European languages based on a parallel corpus of film subtitles[J].Research in Language，2017，15（2）：153-172.

[10] 劉克強(qiáng).基于平行語(yǔ)料庫(kù)的莫言小說英譯特征研究[C]//外語(yǔ)教育與翻譯發(fā)展創(chuàng)新研究（第六卷），2017：236-241.

[11] Afolabi S.Translation and interpretation market needs analysis：towards optimizing professional translator and interpreter training in Nigeria[J].The Interpreter and Translator Trainer，2019，13（1）：104-106.

[12] Nú?ez J L，Bola?os-Medina A.Predictors of problem-solving in translation：implications for translator training[J].The Interpreter and Translator Trainer，2018，12（3）：282-298.

【通聯(lián)編輯：謝媛媛】

電腦知識(shí)與技術(shù)2021年14期

電腦知識(shí)與技術(shù)的其它文章: 地鐵票務(wù)機(jī)房中央監(jiān)控平臺(tái)構(gòu)建; 基于區(qū)塊鏈數(shù)據(jù)保護(hù)機(jī)制的電子病歷設(shè)計(jì); 國(guó)企統(tǒng)計(jì)智能化建設(shè)的思索; 基于單片機(jī)的光照強(qiáng)度及溫濕度采集系統(tǒng); 交行卡中心虛擬機(jī)災(zāi)備難點(diǎn)及措施探討; 企業(yè)信息集成項(xiàng)目的風(fēng)險(xiǎn)分析與對(duì)策

屏边| 卓尼县| 蓬安县| 和平区| 涞水县| 土默特左旗| 兴国县| 出国| 三台县| 淳安县| 丹巴县| 包头市| 亚东县| 醴陵市| 加查县| 汪清县| 龙州县| 合水县| 皮山县| 太仓市| 常宁市| 柘荣县| 四川省| 嘉禾县| 浦北县| 乌鲁木齐县| 陇川县| 通城县| 太仆寺旗| 玛曲县| 德昌县| 山阴县| 和田县| 太和县| 姚安县| 普兰店市| 榆中县| 厦门市| 类乌齐县| 疏附县| 大荔县|