国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自然語(yǔ)言處理及其在機(jī)器翻譯中的應(yīng)用(1)

2021-09-10 07:44柴晨陽(yáng)
安家(校外教育) 2021年6期
關(guān)鍵詞:數(shù)據(jù)模型人工詞匯

柴晨陽(yáng)

摘要:自然語(yǔ)言處理中的一個(gè)重要內(nèi)容是機(jī)器翻譯,為了滿足人們?nèi)粘I钆c工作中的各種語(yǔ)言需求,自然語(yǔ)言處理技術(shù)經(jīng)過(guò)發(fā)展與不斷的改進(jìn),最后與機(jī)器語(yǔ)言相融合,在此基礎(chǔ)上對(duì)處理其他自然語(yǔ)言任務(wù)也發(fā)揮著重要的作用。本文首先闡述了自然處理的基本理念,隨后通過(guò)相關(guān)的案例說(shuō)明如何運(yùn)用自然語(yǔ)言處理在機(jī)器翻譯中發(fā)揮作用。做出對(duì)機(jī)器翻譯發(fā)展的預(yù)判,使得人們能夠更加深刻的理解自然語(yǔ)言與機(jī)器翻譯之間的聯(lián)系,為日后相關(guān)研究奠定基礎(chǔ)。

關(guān)鍵詞:自然語(yǔ)言處理;機(jī)器翻譯;運(yùn)用?中圖分類號(hào):TU?文獻(xiàn)標(biāo)識(shí)碼:A?文章編號(hào):(2021)-06-146

前言:自然語(yǔ)言作為一門(mén)較為冷門(mén)的學(xué)科,基于語(yǔ)言學(xué)、計(jì)算機(jī)、數(shù)學(xué)的發(fā)展而來(lái),目前該學(xué)科與機(jī)器翻譯之間有著深刻的聯(lián)系,成為人工智能中需要迫切解決的重要問(wèn)題之一,同時(shí)自然語(yǔ)言的發(fā)展奠定了基礎(chǔ),兩者之間的關(guān)系變得更加緊密。隨著社會(huì)時(shí)代的發(fā)展,機(jī)器翻譯的需求日益增大,在人工智能的發(fā)展壯大過(guò)程中,機(jī)器翻譯理論成為未來(lái)發(fā)展的重要方向。

一、自然語(yǔ)言處理概要

自然語(yǔ)言處理的概念

自然語(yǔ)言處理又稱作為計(jì)算語(yǔ)言學(xué),主要是以計(jì)算為基礎(chǔ)對(duì)自然語(yǔ)言進(jìn)行處理的學(xué)科。自然語(yǔ)言處理可以簡(jiǎn)單理解成通過(guò)研究人類間的語(yǔ)言交流來(lái)發(fā)展到人與計(jì)算機(jī)交流中,通過(guò)對(duì)自然語(yǔ)言的處理,建立常見(jiàn)的語(yǔ)言模型。結(jié)合日常人與人的交流特征對(duì)語(yǔ)言框架不斷進(jìn)行優(yōu)化,同時(shí)在語(yǔ)言模型的基礎(chǔ)上,建立起完整的測(cè)評(píng)技術(shù)。

自然語(yǔ)言處理的過(guò)程

研究人員首先要總結(jié)人與人交流的語(yǔ)言習(xí)慣,將語(yǔ)言習(xí)慣轉(zhuǎn)變成語(yǔ)言搜集的問(wèn)題。其次針對(duì)每一個(gè)語(yǔ)言問(wèn)題,設(shè)計(jì)完整且系統(tǒng)的算法,然后根據(jù)算法來(lái)建立自然語(yǔ)言處理的模型。這種模型的建立需要不斷的測(cè)試與優(yōu)化,在處理過(guò)程中,應(yīng)當(dāng)深刻認(rèn)識(shí)到自然語(yǔ)言處理涉獵的范圍非常廣泛,包括心理學(xué)、計(jì)算機(jī)、統(tǒng)計(jì)學(xué)等多種學(xué)科。把握自然語(yǔ)言處理的過(guò)程,能夠更好的理解自然語(yǔ)言如何運(yùn)用在機(jī)器翻譯中。

自然語(yǔ)言處理的主要內(nèi)容

自然語(yǔ)言處理包括的內(nèi)容廣泛,如對(duì)內(nèi)容進(jìn)行細(xì)化,則可以將自然語(yǔ)言處理分為:語(yǔ)言、詞匯、語(yǔ)義等幾個(gè)重要方面。隨著計(jì)算機(jī)語(yǔ)言的快速發(fā)展,為自然語(yǔ)言處理提供了豐富的基礎(chǔ),其中包括理論基礎(chǔ),語(yǔ)言資源以及技術(shù)經(jīng)驗(yàn)。當(dāng)前計(jì)算機(jī)行業(yè)已將語(yǔ)音識(shí)別運(yùn)用于日常服務(wù)中,例如在乘坐飛機(jī)或者在電話聯(lián)系物流客服時(shí),計(jì)算機(jī)能夠識(shí)別人類語(yǔ)言,然后根據(jù)已經(jīng)建立的語(yǔ)言庫(kù),對(duì)于常見(jiàn)問(wèn)題進(jìn)行機(jī)器式的回復(fù)。實(shí)現(xiàn)了智能的語(yǔ)言處理功能。目前如何完成計(jì)算機(jī)翻譯問(wèn)題,是研究自然語(yǔ)言處理最大的問(wèn)題。

二、自然語(yǔ)言處理的研究方式

自然語(yǔ)言處理的研究方法

自然語(yǔ)言處理的重要基礎(chǔ)之一是提供強(qiáng)大的數(shù)據(jù)支持,由于自然語(yǔ)言處理的主要方式基于對(duì)數(shù)據(jù)庫(kù)進(jìn)行大量的統(tǒng)計(jì),形成對(duì)文本處理的進(jìn)一步拆分和理解,數(shù)據(jù)庫(kù)的不斷擴(kuò)大依托于NLP應(yīng)用的不斷發(fā)展。自然語(yǔ)言處理流程主要包括五個(gè)關(guān)鍵性步驟,其一是獲取相關(guān)的預(yù)料、其二是對(duì)已經(jīng)獲取的物料進(jìn)行預(yù)處理,包括對(duì)結(jié)構(gòu)的拆分與詞匯的分析、其三是對(duì)物料進(jìn)行量化與特征化,使得物料其中的規(guī)律能夠被自然語(yǔ)言處理系統(tǒng)識(shí)別、其四是數(shù)據(jù)模型的反復(fù)驗(yàn)證,其中包括人工監(jiān)督,半人工監(jiān)督和無(wú)人工監(jiān)督的學(xué)習(xí)模型,通過(guò)大量的數(shù)據(jù)練習(xí),來(lái)糾正自然語(yǔ)言處理過(guò)程中存在的一些問(wèn)題、其五是對(duì)完善的數(shù)據(jù)模型效果進(jìn)行評(píng)價(jià),常用的評(píng)價(jià)標(biāo)準(zhǔn)主要包括:準(zhǔn)確率、召回率等。

2.自然語(yǔ)言處理基礎(chǔ)研究之詞法分析

詞法分析的關(guān)鍵是對(duì)詞性的識(shí)別和詞義的解釋,主要流程是先對(duì)物料進(jìn)行分詞、其次對(duì)物料中詞的詞性進(jìn)行確認(rèn),最后識(shí)別詞的含義。詞性作為詞匯最重要的語(yǔ)法屬性,必須要根據(jù)具體的語(yǔ)境,能夠消除詞匯的歧義。其主要依托于分詞的準(zhǔn)確性,在對(duì)特殊的詞匯例如人名、專有詞匯的標(biāo)注。自然語(yǔ)言處理的詞法分析是通過(guò)已掌握的規(guī)則,基于龐大的數(shù)據(jù)不斷進(jìn)行統(tǒng)計(jì)與學(xué)習(xí)的方式,來(lái)完善自然語(yǔ)言處理能力。

3.自然語(yǔ)言處理基礎(chǔ)研究之句法分析

句法分析的主要目的是為了確定句子中每個(gè)詞匯之間的規(guī)律,研究句子的句法結(jié)構(gòu),能夠真正技術(shù)上實(shí)現(xiàn)對(duì)句子結(jié)構(gòu)關(guān)系的分析,對(duì)于具體的句法分析包括了完全句法分析和局部句法分析。完全的句法分析是根據(jù)現(xiàn)有數(shù)據(jù)模型中的分析方式來(lái)對(duì)句法進(jìn)行解析,而局部分析僅需要對(duì)簡(jiǎn)單的詞法進(jìn)行分析。

4.自然語(yǔ)言處理基礎(chǔ)研究之語(yǔ)義分析

語(yǔ)義的分析基于不同的語(yǔ)言單位,在語(yǔ)義處理中,必須先對(duì)此進(jìn)行詞義消除歧義,以及對(duì)特殊意義的詞匯進(jìn)行標(biāo)注。語(yǔ)義分析作為NLP發(fā)展的重要方向,還在不斷的研究與完善中發(fā)展。

5.自然語(yǔ)言處理基礎(chǔ)研究之語(yǔ)用分析

語(yǔ)用分析需要將文本中的文字描述與實(shí)際真實(shí)含義相對(duì)應(yīng),形成表意結(jié)果。發(fā)話者、受話者、話語(yǔ)內(nèi)容與語(yǔ)境是語(yǔ)法分析的重要因素,發(fā)話者與受話者主要是指句子的發(fā)出者與接收者,而話語(yǔ)內(nèi)容是指發(fā)話者的具體表達(dá)的結(jié)構(gòu),語(yǔ)境代表著話語(yǔ)內(nèi)容傳遞過(guò)程中所處的環(huán)境。

三、機(jī)器語(yǔ)言及自然語(yǔ)言處理的發(fā)展策略

結(jié)合機(jī)器語(yǔ)言發(fā)展的歷程,我們可以感受到方法論與模型構(gòu)建的核心技術(shù)是機(jī)器翻譯取得進(jìn)步的動(dòng)力來(lái)源,而其中提高進(jìn)步的“物質(zhì)基礎(chǔ)”主要是特殊的大數(shù)據(jù),即雙語(yǔ)語(yǔ)料庫(kù)。在機(jī)器翻譯取得矚目成果的同時(shí)不難發(fā)現(xiàn)其依舊存在較大的局限性,主要體現(xiàn)在由于經(jīng)濟(jì)市場(chǎng)互聯(lián)網(wǎng)公司的高速發(fā)展,其科研水平也具有較高的水平,使得高校的研究?jī)?nèi)容競(jìng)爭(zhēng)力下降的情況。主要是由于以下問(wèn)題:其一基于通用的計(jì)算裝置的內(nèi)容,在通常情況下,神經(jīng)機(jī)器翻譯模型在帶有attention機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)中運(yùn)行。通俗來(lái)說(shuō),機(jī)器翻譯中的源語(yǔ)言內(nèi)容構(gòu)成了序列對(duì),而這個(gè)模型也是集中研究序列對(duì)。其次神經(jīng)機(jī)器翻譯模型的性能在一定程度上取決于雙語(yǔ)語(yǔ)料庫(kù)的大小,高校受限于工程的能力與條件,其獲得數(shù)據(jù)庫(kù)的能力將會(huì)遜色于互聯(lián)網(wǎng)公司。最后設(shè)計(jì)并訓(xùn)練神經(jīng)機(jī)器翻譯模型需要以高強(qiáng)度的計(jì)算能力為基礎(chǔ),進(jìn)行不斷的摸索與實(shí)驗(yàn),才能真正得出相關(guān)的數(shù)據(jù),而高效的計(jì)算能力有效且相關(guān)實(shí)驗(yàn)手段與環(huán)境較差,相關(guān)烈度試驗(yàn)在實(shí)施過(guò)程中難度較大。由此可以得出相關(guān)結(jié)論,高校對(duì)于神經(jīng)機(jī)器機(jī)器翻譯的研究在各種基礎(chǔ)條件的限定下,其研究成果難以超過(guò)大型的互聯(lián)網(wǎng)公司,其次互聯(lián)網(wǎng)公司在人才方面也將比高校更具有優(yōu)勢(shì),由于其較高的薪水與足夠的研發(fā)費(fèi)用,使得高校在大數(shù)據(jù)模型的計(jì)算能力與分析能力上處于劣勢(shì)。國(guó)家應(yīng)當(dāng)就目前的狀況,對(duì)相關(guān)高校研究單位加大投入,才能使得機(jī)器翻譯能夠在未來(lái)的發(fā)展歷程中更加順利。國(guó)家需要從以下幾個(gè)方面入手,主要包括:其一是建立起國(guó)家級(jí)別的大規(guī)模學(xué)習(xí)計(jì)算平臺(tái),通過(guò)規(guī)模龐大的計(jì)算平臺(tái),能夠真正解決計(jì)算能力的局限。其二是建設(shè)國(guó)家級(jí)別的高水平豐富資料的雙語(yǔ)語(yǔ)料庫(kù),語(yǔ)料庫(kù)也是開(kāi)展機(jī)器翻譯研究的重要內(nèi)容之一。其三應(yīng)當(dāng)加強(qiáng)對(duì)于創(chuàng)新技術(shù)的鼓勵(lì),設(shè)立相關(guān)獎(jiǎng)項(xiàng),鼓勵(lì)相關(guān)研究人員發(fā)揮主觀能動(dòng)性更加積極的投入到機(jī)器翻譯研究過(guò)程中。最后應(yīng)當(dāng)對(duì)特點(diǎn)條件下的神經(jīng)機(jī)器翻譯模型進(jìn)行改進(jìn)設(shè)計(jì),在面臨新的詞匯情況下,機(jī)器翻譯無(wú)法識(shí)別這些內(nèi)容,而數(shù)據(jù)庫(kù)已有的數(shù)據(jù)模型無(wú)法對(duì)新型的詞匯進(jìn)行識(shí)別,因而在研究設(shè)計(jì)過(guò)程中應(yīng)當(dāng)加強(qiáng)對(duì)機(jī)器翻譯模型的不斷更新,使其跟上時(shí)代快速發(fā)展的步伐才能做到真正為人類所用。但不斷對(duì)機(jī)器翻譯模型進(jìn)行創(chuàng)新也是對(duì)于研究人員來(lái)說(shuō)面臨著巨大的挑戰(zhàn)。

四、自然語(yǔ)言處理在機(jī)器翻譯中的實(shí)際運(yùn)用

1.機(jī)器學(xué)習(xí)

通過(guò)機(jī)器來(lái)學(xué)習(xí)獲取額外的語(yǔ)言知識(shí)是自然語(yǔ)言處理的一個(gè)重要特征。機(jī)器學(xué)習(xí)為研究計(jì)算提供的方式,簡(jiǎn)單的闡述即是:通過(guò)計(jì)算機(jī)采集的大數(shù)據(jù)中得到模型的算法,然后讓系統(tǒng)學(xué)習(xí)算法,最后將新的數(shù)據(jù)傳遞給計(jì)算機(jī),在計(jì)算機(jī)中出現(xiàn)新的數(shù)據(jù)時(shí),計(jì)算機(jī)可以根據(jù)現(xiàn)有的模型作出判斷,為人類節(jié)約了時(shí)間。總而言之,機(jī)器學(xué)習(xí)是為了提高效率,從而減少對(duì)大量數(shù)據(jù)的計(jì)算,最后基于大量數(shù)據(jù)的情況下建立模型,能夠科學(xué)為人類生活提供便利,并且在人類不斷使用與反饋中對(duì)模型不斷調(diào)整不斷完善,使得自然語(yǔ)言處理更加強(qiáng)大。

2.機(jī)器翻譯

機(jī)器翻譯是指在無(wú)人工的幫助下,將一種自然語(yǔ)言轉(zhuǎn)化成另一種自然語(yǔ)言。機(jī)器翻譯是自然語(yǔ)言處理研究課題中最主要的部分,其中的主要過(guò)程包括:數(shù)據(jù)的發(fā)掘、詞與字的分割、句法理解與分析等,機(jī)器翻譯是一項(xiàng)正在發(fā)展過(guò)程中的龐大工程。其中基于目前的翻譯方法可以將機(jī)器翻譯分為兩類:基于規(guī)則的機(jī)器翻譯方法和基于語(yǔ)言資料庫(kù)的機(jī)器翻譯方法。在機(jī)器翻譯中,在數(shù)據(jù)庫(kù)的基礎(chǔ)上進(jìn)行翻譯的話,需要龐大的數(shù)據(jù)訓(xùn)練庫(kù)來(lái)構(gòu)建訓(xùn)練模型。此外不同的數(shù)據(jù)類型將被優(yōu)化整合到對(duì)應(yīng)的數(shù)據(jù)模型,語(yǔ)言模型真正建立后,將會(huì)提高翻譯的質(zhì)量。

3.機(jī)器翻譯與人工翻譯的結(jié)合

機(jī)器翻譯作為人工翻譯的進(jìn)階版,能夠協(xié)助人工翻譯減少相關(guān)工作人員的工作量,且在日常生活中提供便利。但機(jī)器翻譯在某些方面有待完善,需要人工翻譯才能真正理解待翻譯內(nèi)容的含義。當(dāng)前情況下,應(yīng)當(dāng)將機(jī)器翻譯與人工翻譯相結(jié)合,并且對(duì)兩者做出不同的分工,將會(huì)大大體會(huì)到機(jī)器翻譯帶來(lái)的便利程度。在未來(lái)計(jì)算機(jī)技術(shù)的發(fā)展過(guò)程中,翻譯智能水平將會(huì)得到質(zhì)的飛越。但是目前情況下人工智能遠(yuǎn)不能獨(dú)立服務(wù)于人類,需要與人工翻譯結(jié)合才能發(fā)揮出最佳效益。

五、自然語(yǔ)言處理應(yīng)用與機(jī)器翻譯的研究趨勢(shì)

在目前來(lái)看,無(wú)論使用人工翻譯還是機(jī)器翻譯,翻譯的水準(zhǔn)與翻譯者的目標(biāo)差距較大,例如日常使用的谷歌翻譯、百度翻譯、金山詞霸等軟件。由于中英文語(yǔ)法差異較大,但軟件翻譯更多側(cè)重于對(duì)詞的翻譯,很難體現(xiàn)出對(duì)句子用法的翻譯,導(dǎo)致翻譯出的句子,語(yǔ)言結(jié)構(gòu)混亂。促進(jìn)語(yǔ)言翻譯優(yōu)化的主要目標(biāo)是不斷進(jìn)行自然語(yǔ)言處理,隨著時(shí)代的不斷發(fā)展,算法的不斷變革,數(shù)據(jù)規(guī)模將會(huì)越來(lái)越大,數(shù)據(jù)模型也將會(huì)更加完善。由于數(shù)據(jù)規(guī)模的不斷擴(kuò)大,自然語(yǔ)言處理將會(huì)減少在數(shù)據(jù)挖掘方面的工作。而是更多依賴機(jī)器進(jìn)行篩選。這些數(shù)據(jù)的采集并不能被即刻使用且做出進(jìn)一步的研究結(jié)果,但未來(lái)的研究提供了更多的可能性。其次算法將會(huì)跟隨時(shí)代的發(fā)展潮流不斷革新,深度學(xué)習(xí)的方法也將運(yùn)用到自然語(yǔ)言處理的發(fā)展中,最終產(chǎn)生更加完善與系統(tǒng)的機(jī)器翻譯方式,為翻譯結(jié)果的準(zhǔn)確性提供保障。最后計(jì)算機(jī)的研究將更深層次的與機(jī)器翻譯技術(shù)結(jié)合,使得翻譯的質(zhì)量與速度得到進(jìn)一步發(fā)展。最終為消費(fèi)市場(chǎng)所使用,使得人們的日常生活更加便利。

結(jié)束語(yǔ):自然語(yǔ)言處理在計(jì)算機(jī)的快速發(fā)展中,與機(jī)器翻譯相聯(lián)系,在此領(lǐng)域中不斷得到新的突破,并且為其創(chuàng)新提供了方向。自然語(yǔ)言處理在機(jī)器翻譯中的創(chuàng)新運(yùn)用,簡(jiǎn)單介紹了自然語(yǔ)言處理的概念與特點(diǎn)。結(jié)合現(xiàn)代化的發(fā)展歷程,在未來(lái)計(jì)算機(jī)更加成熟的發(fā)展過(guò)程中,將會(huì)根據(jù)人類的特定需求,不斷完善其中的算法與模型,使其能夠更加智能化的服務(wù)于人類的生活與工作。

參考文獻(xiàn)

[1]陸正揚(yáng).基于計(jì)算機(jī)自然語(yǔ)言處理的機(jī)器翻譯技術(shù)應(yīng)用與簡(jiǎn)介[J].科技傳播,2019,11(22):140-141.

[2]葛運(yùn)東,陳洪梅,姚建民.自然語(yǔ)言處理的技術(shù)和產(chǎn)業(yè)應(yīng)用現(xiàn)狀與趨勢(shì)分析[J].產(chǎn)業(yè)與科技論壇,2019,18(17):113-114.

[3]趙園丁.淺談人工智能時(shí)代背景下自然語(yǔ)言處理技術(shù)的發(fā)展應(yīng)用[J].辦公自動(dòng)化,2019,24(10):63-64.

基金:江西省社會(huì)科學(xué)基金項(xiàng)目(基于語(yǔ)句數(shù)字表達(dá)式的機(jī)器翻譯研究,編號(hào):18YY07)

江西財(cái)經(jīng)大學(xué)?江西南昌?330013

猜你喜歡
數(shù)據(jù)模型人工詞匯
人工3D脊髓能幫助癱瘓者重新行走?
人工,天然,合成
人工“美顏”
本刊可直接用縮寫(xiě)的常用詞匯
一些常用詞匯可直接用縮寫(xiě)
本刊可直接用縮寫(xiě)的常用詞匯
面板數(shù)據(jù)模型截面相關(guān)檢驗(yàn)方法綜述
加熱爐爐內(nèi)跟蹤數(shù)據(jù)模型優(yōu)化
新型多孔鉭人工種植牙
面向集成管理的出版原圖數(shù)據(jù)模型
桐乡市| 资兴市| 连山| 五原县| 黄山市| 大埔区| 喀什市| 奉化市| 攀枝花市| 华蓥市| 手游| 柳州市| 吉隆县| 隆化县| 蚌埠市| 临桂县| 墨脱县| 河津市| 牡丹江市| 庄河市| 阳城县| 苏尼特左旗| 余庆县| 佛坪县| 大化| 汉源县| 孝感市| 龙江县| 英吉沙县| 乌兰县| 麻栗坡县| 重庆市| 泗洪县| 米泉市| 浏阳市| 西乡县| 怀来县| 都昌县| 宜兴市| 卫辉市| 潮州市|