国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語言學(xué)與語言智能

2022-11-24 09:07胡開寶尚文博
關(guān)鍵詞:語言學(xué)語音理論

胡開寶 尚文博

引 言

語言智能是指語言信息的智能化,運用計算機信息技術(shù)模仿人類語言的智能,分析和處理人類語言的科學(xué)。(1)周建設(shè)、呂學(xué)強 、金生、張凱:《語言智能研究漸成熱點》,《中國社會科學(xué)報》 2017 年2 月7 日,第3 版。語言智能的發(fā)展經(jīng)歷了由基于規(guī)則的發(fā)展階段向基于實例和統(tǒng)計的發(fā)展階段的轉(zhuǎn)變。在基于規(guī)則的語言智能發(fā)展階段,語言學(xué)知識和理論發(fā)揮著十分重要的作用。然而近年來,語言智能的發(fā)展愈來愈依賴于語言數(shù)據(jù),語言學(xué)對于語言智能的重要性似乎逐漸下降,以至于一些學(xué)者認為語言學(xué)研究對于語言智能發(fā)展的意義并不大。現(xiàn)代語音識別和自然語言處理研究的先驅(qū)Frederick Jelinelik 在1988 年指出,“每當解雇一個語言學(xué)家時,語音識別器的性能就會改善”。(2)J. Hirschberg, “‘Every Time I Fire a Linguist, My Performance Goes up’, and Other Myths of the Statistical Natural Language Processing Revolution”, Invited speech, 15th National Conference on Artificial Intelligence, Madison, Wisconsin.然而,語言學(xué)對于語言智能的發(fā)展具有多大價值?是否真的如同許多計算機專家所認為的那樣一文不值?語言學(xué)與語言智能之間的關(guān)系如何?這些問題顯然需要我們予以回答。鑒于此,本文在分析語言智能內(nèi)涵和發(fā)展歷程的基礎(chǔ)之上,從語言智能的歷史、現(xiàn)狀和未來趨勢等角度,探討語言學(xué)理論對于語言智能發(fā)展的價值,并分析語言智能對于語言學(xué)理論研究的意義。

一 語言智能的內(nèi)涵與發(fā)展歷程

(一)語言智能的內(nèi)涵

語言智能旨在運用計算機技術(shù)和信息技術(shù),讓機器理解、處理和分析人類語言,實現(xiàn)人機語言交互,(3)胡開寶、田緒軍:《語言智能背景下的MTI 人才培養(yǎng):挑戰(zhàn)、對策與前景》,《外語界》 2020 年第2 期,第59—64 頁。使得機器在一定程度上擁有理解、應(yīng)用和分析人類語言的能力。

一般而言,語言智能技術(shù)包括文本數(shù)據(jù)挖掘、語音處理、智能寫作、智能批改、智能問答和機器翻譯等。文本數(shù)據(jù)挖掘是指利用計算機技術(shù)從文本數(shù)據(jù)中抽取有價值的信息進而發(fā)現(xiàn)文本知識的技術(shù),涵蓋文本摘要、文本分類、文本聚類以及可視化等技術(shù)。語音處理包括語音識別和語音合成,前者是指利用計算機技術(shù)將語音自動轉(zhuǎn)換為書面文字,后者指將文本轉(zhuǎn)換成自然流暢的語音輸出。智能寫作是指計算機自動生成自然語言的技術(shù)。智能批改則指計算機自動給出學(xué)生作業(yè)或作文評分和反饋的技術(shù)。智能問答系統(tǒng)可以自動分析用戶提問和辨識用戶意圖,并提供答案。機器翻譯是指利用計算機把一種語言文字翻譯成另外一種語言文字。

(二)語言智能的發(fā)展歷程

語言智能的發(fā)展到目前為止已有70 余年的歷程,經(jīng)歷了理性主義主導(dǎo)的自然語言處理初期階段、經(jīng)驗主義主導(dǎo)的人機對話和機器翻譯階段以及機器學(xué)習(xí)階段等三大發(fā)展階段。

第一階段始于20 世紀50 年代,直至80 年代。該階段以理性主義為主導(dǎo)思想,強調(diào)將語言知識或語言規(guī)則輸入計算機,開展基于規(guī)則的機器翻譯和自然語言處理相關(guān)領(lǐng)域的研究。1954 年,首次俄英機器翻譯實驗在美國喬治敦大學(xué)開展。20 世紀70 年代,人們采用程序推演的方法研制語義、語用和語境分析系統(tǒng),實現(xiàn)了初級的人機互動。

第二階段為1980—2000 年。在該階段,機器學(xué)習(xí)理論、算法、語料庫和知識庫等先后應(yīng)用于自然語言處理、機器翻譯和人機對話等領(lǐng)域,語言智能的研究因而取得快速發(fā)展。1993 年,麻省理工學(xué)院成功研制出世界上第一個基于網(wǎng)頁的問答系統(tǒng)START。1998 年,IBM 公司推出語音識別軟件

ViaVoice。

第三階段始于2001 年,即“機器學(xué)習(xí)”階段。在該階段,大數(shù)據(jù)和深度機器學(xué)習(xí)日益廣泛地應(yīng)用于語言智能,機器學(xué)習(xí)實現(xiàn)了由統(tǒng)計學(xué)習(xí)向集成學(xué)習(xí)和深度學(xué)習(xí)的轉(zhuǎn)變。各種各樣的算法先后問世并快速迭代升級,機器翻譯則進入神經(jīng)網(wǎng)絡(luò)機器翻譯階段。

二 語言學(xué)對語言智能發(fā)展的意義

前文述及,語言智能旨在使計算機具有某種語言智能,即理解、分析和運用人類語言的能力。要實現(xiàn)這一目標,必須依據(jù)關(guān)于特定語言智能假設(shè)編制的計算機程序。為此,我們需要理解自然語言系統(tǒng)和結(jié)構(gòu)的特征,把握自然語言詞匯、語法和語義之間的關(guān)系,并通過形式化表達手段將語言學(xué)知識和規(guī)則輸入給計算機,讓計算機歸納這些知識和規(guī)則,并生成統(tǒng)計模型。從這個意義上講,語言學(xué)對于語言智能的發(fā)展具有十分重要的理論支撐作用。盡管當代語言智能的發(fā)展進入機器學(xué)習(xí)階段,愈來愈依賴語言數(shù)據(jù),對句法和語義等語言學(xué)知識的應(yīng)用愈來愈少,然而這并不意味著語言學(xué)知識對于語言智能的研究與發(fā)展沒有多大價值。相反,大數(shù)據(jù)驅(qū)動的語言智能的發(fā)展目前已接近天花板,面臨這樣或那樣的問題,恰恰是因為沒有對語言學(xué)知識的應(yīng)用予以足夠重視。眾所周知,作為語言智能發(fā)展的物質(zhì)基礎(chǔ),語言數(shù)據(jù)質(zhì)量的高低直接影響到語言智能發(fā)展水平的高低。然而,現(xiàn)有語言數(shù)據(jù)往往未能充分依據(jù)有關(guān)語言學(xué)理論進行詞性標注和句法分析處理,語言數(shù)據(jù)質(zhì)量不高,直接制約了語言智能的發(fā)展。此外,語言智能目前仍然不能理解人類話語所表達的復(fù)雜含義,也不能用語言表達出復(fù)雜的話語含義。而要突破這一瓶頸,必須理解人類語言的機制,這需要心理語言學(xué)和神經(jīng)認知語言學(xué)的理論支持。事實上,無論是過去還是將來,語言智能的發(fā)展離不開語言學(xué)的支撐,人工智能算法并不能代替語言學(xué)理論。近年來,由于過分強調(diào)計算算法和語言數(shù)據(jù),忽略了對語言學(xué)理論的借鑒與應(yīng)用,人工智能在自然語言處理尤其是語義分析上始終不盡如人意。為此,語言智能的未來發(fā)展應(yīng)當走語言數(shù)據(jù)和語言學(xué)知識并重的雙軌發(fā)展道路。

(一)語言學(xué)與自然語言的理解和生成

自然語言的理解和生成是語言智能技術(shù)發(fā)展的重要基礎(chǔ),涵蓋自然語言理解和自然語言生成。前者是指使機器理解語言和文本等,提取有用信息,具體表現(xiàn)為使自然語言結(jié)構(gòu)化,如分詞、詞性標注和句法分析等,構(gòu)建文本表示的文本分類,提取信息。后者是指使計算機提供結(jié)構(gòu)化的數(shù)據(jù),如文本圖標、音頻和視頻等,生成人類可以理解的自然語言形式的文本,具體劃分為文本到文本、文本到其他和其他到文本等三種形式。

自然語言理解和生成是語言智能的重要物質(zhì)基礎(chǔ)。能否實現(xiàn)自然語言理解和生成,直接關(guān)系到語言智能發(fā)展的成敗和水平。然而,要讓計算機能夠理解和生成自然語言,需要對語言數(shù)據(jù)進行分詞、詞性標注和句法分析,并對大量高質(zhì)量標注語料進行訓(xùn)練,以構(gòu)建分詞模型和句法模型。詞性標注涉及詞性歧義消解和未知詞的詞性識別。句法分析包括依存句法分析、短語結(jié)構(gòu)句法分析、深層文法句法分析和基于深度學(xué)習(xí)的句法分析。應(yīng)當指出,無論是分詞、詞性標注和句法分析,還是對語料進行標注和訓(xùn)練,均需要以語言學(xué)理論或語言學(xué)規(guī)則為依據(jù)。盡管憑借機器學(xué)習(xí),我們可以實現(xiàn)語言的理解和生成,但憑借大量語料的訓(xùn)練,機器學(xué)習(xí)所學(xué)到的只是大概率下最可能的說法,生成的文字往往呆板有余,靈性不足,缺乏情感的表現(xiàn)。鑒于此,我們應(yīng)將語言學(xué)理論應(yīng)用于語言智能研究之中。只有如此,才能解決自然語言理解和生成存在的以上問題。以人機對話為例,語用學(xué)和社會語言學(xué)理論的應(yīng)用,可以使機器能夠理解“寒暄”“安撫”和“幽默”等言語行為。我們還可以在深度學(xué)習(xí)中融入語言學(xué)尤其是心理語言學(xué)和認知語言學(xué)的研究成果,使機器能夠在語義理解的基礎(chǔ)之上,識別文本的意圖和情感,從而讓機器讀懂人類語言,實現(xiàn)人機之間的交往和互動。

目前,語言智能發(fā)展面臨語義理解的瓶頸。無論語言數(shù)據(jù)規(guī)模有多大,機器翻譯系統(tǒng)迄今為止尚不能對具體語境進行分析,將多義詞譯成合適的目的語對應(yīng)詞。以“pen”的翻譯為例,無論是谷歌的機器翻譯還是微軟的機器翻譯,都不能根據(jù)具體語境將其譯成合適的漢語對應(yīng)詞,即“鋼筆”或“圍欄”。為解決這些問題,就必須對人類語言進行語義角色標注,以期讓機器理解人類自然語言的語義。正確理解和標注人類語言的語義角色不僅是實現(xiàn)機器問答以及信息理解和抽取所不可缺少的重要步驟,而且也為自然語言生成提供約束規(guī)則。然而,語義角色的標注需要計算語義學(xué)、詞匯語義學(xué)和計算詞匯語義學(xué)等語言學(xué)理論的支撐,尤其需要語義知識庫的支撐。要真正解決語言智能發(fā)展所面臨的語義理解問題,最終還是要借助于傳統(tǒng)語言學(xué)理論研究的成果,單純依靠統(tǒng)計方法和大數(shù)據(jù)驅(qū)動無法取得實質(zhì)性突破。事實上,語言智能要獲得突破,最終還是要靠知識驅(qū)動。孫茂松指出大數(shù)據(jù)與富知識雙輪驅(qū)動或成為解決語言智能發(fā)展瓶頸的關(guān)鍵,即在大數(shù)據(jù)驅(qū)動的基礎(chǔ)上加入富知識驅(qū)動,(4)轉(zhuǎn)引自孫茂松2019 年10 月18 日在北京智源智能研究院舉辦的“自然語言處理重大研究方向暨北京智源—京東跨媒體對話智能聯(lián)合實驗室發(fā)布會”上所做的題為“大數(shù)據(jù)和富知識驅(qū)動的自然語言處理”的主題發(fā)言。而這些知識主要源自語言學(xué)理論。

(二)語言學(xué)與語音處理

語音處理主要包括語音識別和語音合成。語音識別系統(tǒng)主要涵蓋4 個部分,即特征提取、聲學(xué)模型、語言模型和解碼搜索。其中,特征提取和語言模型均涉及對相關(guān)語言數(shù)據(jù)所做的語言學(xué)分析,尤其是語音學(xué)分析。語音合成系統(tǒng)包括文本分析模塊、韻律處理模塊和聲學(xué)處理模塊。作為語音合成系統(tǒng)的前端,文本分析是指對輸入的文本進行分析,提取包括讀音和節(jié)奏在內(nèi)的語言學(xué)信息和語音學(xué)信息。這些信息的分析和提取直接關(guān)系到語音合成系統(tǒng)能否成功研制。韻律處理強調(diào)在文本分析的基礎(chǔ)上,分析具體語流中的抑揚頓挫和輕重緩急,包括重音的位置分布及其等級差異、語調(diào)與聲調(diào)、節(jié)奏和重音的關(guān)系等。聲學(xué)處理模塊側(cè)重于根據(jù)文本分析模塊和韻律處理模塊等提供的信息來生成自然語音波形。有必要指出,文本分析旨在對輸入的文本進行分析,以提取盡可能多的語言學(xué)和語音學(xué)信息,如韻律和節(jié)奏等,而韻律處理涉及語音學(xué)、聲學(xué)、心理學(xué)和物理學(xué)。具體而言,語音合成系統(tǒng)需要建構(gòu)包括自動分詞器、自動標音器和韻律預(yù)測器在內(nèi)的三個計算模型,而這些模型的建構(gòu)一方面需要直接依據(jù)語言學(xué)理論,對輸入文本的語音學(xué)特征進行分析,另一方面需要利用語言學(xué)相關(guān)知識,通過語法詞典、注音詞典、分詞和多音字轉(zhuǎn)換韻律分析等建構(gòu)以上模型,采用與規(guī)則庫相結(jié)合的數(shù)據(jù)驅(qū)動的學(xué)習(xí)模型。最后,語音合成還需要利用語言學(xué)信息標注處理過的文本數(shù)據(jù)庫和言語數(shù)據(jù)庫,進行上述模型的參數(shù)訓(xùn)練,并利用這些模型完成由輸入文本到發(fā)音描述符號的轉(zhuǎn)換計算。顯見,作為語音合成的重要步驟,文本分析和韻律處理均離不開語言學(xué)理論的指導(dǎo)。

必須指出,在語言智能發(fā)展的初期,學(xué)界關(guān)于語音識別的研究未曾對韻律這一重要的口語區(qū)別性特征進行系統(tǒng)深入的探討,語音識別效果不太理想,生成的語音沒有語調(diào)的升降,沒有語氣的強弱,不能識別和表現(xiàn)人類話語的情感。要解決這些問題,唯有加強語音學(xué)尤其是韻律和情感的分析,將語調(diào)、語氣和韻律這些區(qū)別性特征信息充分應(yīng)用于語音識別和語音合成系統(tǒng)的研發(fā),才能讓語音識別和語音合成的質(zhì)量更上一個臺階。

(三)語言學(xué)與機器翻譯

機器翻譯始自20 世紀30 年代,當時法國人George Artsouni 和俄國人PetrSmirnov-Troyanskii以機器翻譯為主要內(nèi)容申請了專利。自那時以來,機器翻譯已走過了90 余年的發(fā)展歷程,歷經(jīng)了四大發(fā)展階段,即基于規(guī)則的機器翻譯、基于實例的機器翻譯、基于統(tǒng)計的機器翻譯和神經(jīng)網(wǎng)絡(luò)機器翻譯。

基于規(guī)則的機器翻譯通常依據(jù)輸入計算機的源語分析規(guī)則、源語和目的語之間的轉(zhuǎn)換規(guī)則以及目的語生成規(guī)則,將源語語言的句子轉(zhuǎn)換為目的語句子?;趯嵗臋C器翻譯從已有的源語句庫中挑出與待譯語句相似的語句,在對這些語句進行調(diào)整、修改的基礎(chǔ)之上,得出與之對應(yīng)的目的語語句,并根據(jù)類比原則確定待譯語句的譯文。(5)胡開寶、李翼:《機器翻譯特征及其與人工翻譯關(guān)系的研究》,《中國翻譯》 2016 年第5 期,第10—14 頁。基于統(tǒng)計的機器翻譯主要依據(jù)基于大規(guī)模平行語料分析所歸納的翻譯規(guī)則對輸入語句進行匹配,得到該語句的翻譯候選,并憑借語言模型和翻譯模型的應(yīng)用對這些翻譯候選進行排序,挑選打分最高的翻譯候選作為譯文。神經(jīng)網(wǎng)絡(luò)機器翻譯利用深度學(xué)習(xí)技術(shù),通過計算機模擬人類大腦神經(jīng)系統(tǒng)功能設(shè)計出網(wǎng)絡(luò)神經(jīng)模型,通過端到端的神經(jīng)網(wǎng)絡(luò)直接實現(xiàn)不同語言之間的轉(zhuǎn)換。具體而言,神經(jīng)網(wǎng)絡(luò)機器翻譯通過編碼器將源語言文本進行編碼,然后再把源語言句子反向解碼得到目標語句子,即通過編碼器將源語言文本變換表征為一個稠密向量,之后通過編碼器把稠密向量解碼成譯文。

總體而言,機器翻譯的發(fā)展歷程可大致劃分為理性主義階段和經(jīng)驗主義階段。在理性主義階段,機器翻譯強調(diào)對源語、目的語以及源語和目的語之間轉(zhuǎn)換的相關(guān)規(guī)則進行描寫,并依據(jù)這些規(guī)則進行源語和目的語之間的轉(zhuǎn)換。其中,語言學(xué)知識發(fā)揮著十分重要的理論支撐作用,因為這些規(guī)則的描寫和制定均需要以語言學(xué)理論為依據(jù)。在經(jīng)驗主義階段,基于統(tǒng)計的機器翻譯尤其是神經(jīng)網(wǎng)絡(luò)機器翻譯的翻譯質(zhì)量要優(yōu)于基于規(guī)則的機器翻譯。對于這些機器翻譯而言,語言數(shù)據(jù)愈來愈重要,而語言學(xué)理論似乎越來越無足輕重。甚至有聲音認為,語言學(xué)知識不僅對機器翻譯沒有什么用處,甚至還會有反作用。Mireia Farrus 等人指出:“從理論上講,使用統(tǒng)計機器翻譯,不需要語言學(xué)知識?!?6)Mireia Farrus, Marta R. Costa-jussa`, Jose′ B. Marin?o, Marc Poch, Adolfo Herna′ndez, Carlos Henr?′quez & Jose′ A. R. Fonollosa, “Overcoming Statistical Machine Translation Limitations: Error Analysis and Proposed Solutions for the Catalan-Spanish Language Pair”,Language Resources and Evaluation, vol.45, no.2, 2011, pp.181-208.在許多學(xué)者看來,如果有充足的語言數(shù)據(jù),便可利用機器學(xué)習(xí)方法開展機器翻譯,不需要語言學(xué)知識,也不需要懂源語言或目標語言。

然而,事實并非如此。對于不同種類的機器翻譯而言,語言學(xué)理論和知識不論是在過去、現(xiàn)在還是將來都發(fā)揮著或?qū)l(fā)揮重要作用。

一方面,機器翻譯系統(tǒng)通常由數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、譯前編輯、雙語轉(zhuǎn)換、譯后編輯和性能評測等步驟組成。其中,機器翻譯的性能評測需要依據(jù)有關(guān)翻譯理論和語言學(xué)理論,在對雙語轉(zhuǎn)換關(guān)系、目的語語言文化規(guī)范以及翻譯文本語言特征進行分析的基礎(chǔ)之上,評價機器翻譯的質(zhì)量。譯前編輯包括詞語的消歧、短語的切分、長句的切分與斷句等。譯后編輯主要是指從選詞、語法、語義完整性和邏輯性方面進行編輯、潤色。對譯文進行潤色,不僅要檢查和改正過譯、漏譯、錯譯和術(shù)語翻譯錯誤的現(xiàn)象,增加連接詞和短語,使譯文自然流暢,而且還需要補足理解譯文所需的情景知識和文化背景。毋庸諱言,無論是原文的消歧和詞句的切分,還是譯文的潤色以及情境知識的補充,均需要語義學(xué)、句法學(xué)和文體學(xué)等語言學(xué)知識的理論支撐。此外,神經(jīng)網(wǎng)絡(luò)機器翻譯并不像許多學(xué)者所宣稱的那樣與語言學(xué)無關(guān)。恰恰相反,在神經(jīng)網(wǎng)絡(luò)機器翻譯系統(tǒng)中,基于語料庫的詞向量訓(xùn)練過程涉及詞語概率統(tǒng)計因素、語義和語法結(jié)構(gòu)相關(guān)排列組合,與語言學(xué)的詞匯和語法信息密切相關(guān)。

另一方面,盡管與基于規(guī)則的機器翻譯相比,基于實例或統(tǒng)計的機器翻譯以及神經(jīng)網(wǎng)絡(luò)機器翻譯的質(zhì)量獲得了前所未有的提高,但也存在不少問題。首先,機器翻譯的譯文雖然流暢,但準確性不夠。其次,機器翻譯模型構(gòu)建所需的數(shù)據(jù)量太大,成本高。此外,由于低資源語言的數(shù)據(jù)量往往不大,且不易獲得,這些機器翻譯系統(tǒng)在低資源語言文本翻譯方面的表現(xiàn)往往不盡如人意。再者,神經(jīng)網(wǎng)絡(luò)模型遷移比較困難,導(dǎo)致神經(jīng)網(wǎng)絡(luò)機器翻譯系統(tǒng)的跨領(lǐng)域適應(yīng)性差。最后,也最讓人擔(dān)憂的是,神經(jīng)網(wǎng)絡(luò)機器翻譯的過程很難從語言學(xué)角度加以解釋,從而使得我們難以理解特定機器翻譯的結(jié)果,無法確定機器翻譯錯誤的原因進而對這些錯誤進行修正?;趯嵗蚪y(tǒng)計的機器翻譯以及神經(jīng)網(wǎng)絡(luò)機器翻譯依據(jù)大規(guī)模語言數(shù)據(jù)的分析來構(gòu)建語言模型或翻譯模型,表面上看起來要比基于規(guī)則的機器翻譯更加客觀、科學(xué)。然而,我們不能忽略這樣一個事實,即相對于人類自然語言規(guī)模的浩大以及翻譯的復(fù)雜性而言,無論多大規(guī)模的語言數(shù)據(jù)都是不充分的,不能涵蓋人類翻譯的多樣性,因而無法真正達到人類智能的水平。而且,機器翻譯無法回避人類語言模糊性和詞匯多義性等問題所帶來的困難。一方面,一些語句或短語往往表達多種意義,沒有明確、可靠的規(guī)則作為依據(jù)予以區(qū)分,給機器翻譯增加了很多困難;另一方面,詞匯也表達多項意義,盡管上下文和搭配線索可以幫助我們確定詞義,但很多情況下卻不能提供可靠的線索。

應(yīng)當指出,基于統(tǒng)計的機器翻譯和神經(jīng)網(wǎng)絡(luò)機器翻譯之所以面臨以上問題,不僅僅是因為語言本身的復(fù)雜性,更重要的是學(xué)界嚴重忽略了語言學(xué)理論和知識對于機器翻譯的價值。為此,我們應(yīng)當重視語言學(xué)理論和知識在機器翻譯中的應(yīng)用,努力走出一條規(guī)則和數(shù)據(jù)相結(jié)合的機器翻譯發(fā)展道路。我們可以在基于統(tǒng)計的機器翻譯模型或神經(jīng)網(wǎng)絡(luò)機器翻譯模型中融入語言學(xué)信息,在數(shù)據(jù)訓(xùn)練結(jié)果輸出之前,增加語言學(xué)檢測,以發(fā)現(xiàn)機器翻譯出現(xiàn)的異常情況,并以此作為研究人員改進算法或模型的依據(jù)。事實上,神經(jīng)網(wǎng)絡(luò)機器翻譯的過程只能通過語言學(xué)理論和知識來加以解釋,而從神經(jīng)機器翻譯模型中提取出相應(yīng)的語言學(xué)知識來解釋機器翻譯過程并改進翻譯模型,已成為當代機器翻譯研究領(lǐng)域的熱門話題和未來發(fā)展方向。(7)李學(xué)寧、董劍橋:《韓禮德的機器翻譯思想初探》,《中國外語》 2012 年第3 期,第90—93 頁;趙會軍、安巖:《機器翻譯中的語用自動調(diào)序》,《西安外國語大學(xué)學(xué)報》 2017 年第4 期,第77—81 頁;趙會軍、林國濱:《機器翻譯智能化的語言學(xué)路徑研究》,《外語電化教學(xué)》 2020 年第2 期,第42—47 頁。

三 語言智能發(fā)展對于語言學(xué)研究的價值

必須指出,語言學(xué)與語言智能之間有著非常緊密的聯(lián)系。語言學(xué)研究可以為語言智能的發(fā)展提供重要的理論支撐,而語言智能的發(fā)展能夠有力推進語言學(xué)研究。

其一,語言智能的發(fā)展可以推進語言學(xué)研究方法產(chǎn)生重要變革。長期以來,語言學(xué)研究方法一直以定性研究為主,研究人員依據(jù)相關(guān)語言學(xué)理論,往往在觀察少量語言事實的基礎(chǔ)上,憑借主觀演繹和個人判斷,就語言現(xiàn)象或語言功能提出相關(guān)理論假設(shè),研究結(jié)論難免失之于片面、主觀。而語言智能相關(guān)技術(shù)尤其是自然語言處理和文本數(shù)據(jù)挖掘技術(shù)的應(yīng)用,不僅可以使語言學(xué)研究建立在大規(guī)模語言數(shù)據(jù)的觀察和統(tǒng)計分析的基礎(chǔ)之上,將定量研究引入語言學(xué)研究之中,而且可以通過模型的構(gòu)建來考察和解釋相關(guān)語言現(xiàn)象,語言學(xué)研究因而更加趨于客觀和全面。尤為重要的是,語言智能技術(shù)在語言學(xué)研究中的應(yīng)用可以實現(xiàn)語言學(xué)研究的智能化、數(shù)據(jù)化和可視化。語言智能技術(shù)的應(yīng)用可以使語言現(xiàn)象或語言事實的觀察和分析更加迅速和便捷,并且能夠幫助我們發(fā)現(xiàn)僅憑肉眼無法發(fā)現(xiàn)的語言現(xiàn)象。

其二,語言智能的發(fā)展可以深化并拓展語言學(xué)研究。一方面,隨著語言智能的發(fā)展,語言智能目前所面臨的諸多問題必然會得到解決,如機器合成的語音不夠自然、缺乏情感,機器生成的語言較為呆板、不夠靈活,等等。這些問題的解決以語音學(xué)和語義學(xué)研究的發(fā)展為前提,必然會推進語言學(xué)研究,尤其是面向語言智能應(yīng)用的語音學(xué)和語義學(xué)研究的發(fā)展。另一方面,由于語言智能技術(shù)在語言學(xué)研究領(lǐng)域的應(yīng)用,使我們原先很少涉足的研究成為可能,一些由于缺乏技術(shù)條件而無法深入進行的領(lǐng)域研究能夠得以深化。傳統(tǒng)歷史語言學(xué)研究主要采用文獻閱讀和比較的方法,由于缺乏相關(guān)技術(shù)條件的支撐,很少基于大數(shù)據(jù)考察某一語言的歷史演變過程,難以描繪出語言演變的全景圖。利用自然語言處理技術(shù),我們可以從時空和地理角度清晰地描繪出具體概念發(fā)展演變的軌跡及其對語言體系的影響,揭示在特定歷史時期內(nèi)某一民族語言在詞匯、形態(tài)、句法、語義和語用層面所發(fā)生的變遷,闡明詞匯化和語法化發(fā)生的機制,從而深化歷史語言學(xué)研究。語言智能技術(shù)的應(yīng)用使得歷史語言學(xué)研究建立在大規(guī)模語料的統(tǒng)計分析基礎(chǔ)之上,這使得歷史語言學(xué)的實證研究成為可能。就社會語言學(xué)而言,男性和女性語言使用的差異一直是學(xué)界感興趣的話題,但該領(lǐng)域的研究由于缺乏必要的技術(shù)條件一直停滯不前。利用包括語料庫技術(shù)和數(shù)據(jù)挖掘技術(shù)在內(nèi)的語言智能技術(shù),我們可以對大規(guī)模語料進行考察和統(tǒng)計,客觀揭示男性和女性語言的差異。(8)Kaibao Hu & Xiaoqian Li, “Corpus-based Critical Translation Studies: Research Areas and Approaches”,Meta, vol.36, no.3,2018, pp.583-603.

近年來,話語研究逐漸發(fā)展成為語言學(xué)研究的熱點,以自然語言處理技術(shù)為代表的語言智能技術(shù)先后應(yīng)用于話語研究。許家金運用詞網(wǎng)、潛在語義分析和奇異值分解等自然語言處理技術(shù)對語篇銜接連貫的程度進行分析。(9)許家金、徐秀玲:《基于可比語料庫的翻譯英語銜接顯化研究》,《外語與外語教學(xué)》 2016 年第6 期,第94—102 頁。邵珊珊、王立非采用詞向量(Word2vec)方法、長短期記憶網(wǎng)絡(luò)和GRU 深度學(xué)習(xí)模型等語言智能技術(shù)分析了電子商務(wù)話語的情感。(10)邵珊珊、王立非:《基于語言大數(shù)據(jù)挖掘的電商英漢評價話語情感分析》,《外語電化教學(xué)》 2019 年第5 期,第76—84 頁。應(yīng)當指出,這些研究不僅促使該領(lǐng)域研究由定性研究向定性研究和定量分析相結(jié)合的方向轉(zhuǎn)變,而且在很大程度上深化了話語研究。

還應(yīng)指出,語言智能和語言學(xué)研究均涉及人類語言的理解、分析和應(yīng)用,兩者之間具有天然的共性。由于這一共性,語言智能可以與語言學(xué)研究有機融合,形成以語言智能技術(shù)應(yīng)用為主要特色的全新的語言學(xué)研究領(lǐng)域,如計算話語學(xué)、計算詞典學(xué)、計算語用學(xué)等。計算話語學(xué)是指利用計算機可計算的形式抽象描寫話語意義的操作模型,是話語分析同認知語言學(xué)、語言智能和自然語言處理之間的有機融合。該領(lǐng)域的研究內(nèi)容主要包括話語概念意義求解的主題計算和針對人際意義求解的話語評價計算。(11)李佐文、嚴玲:《什么是計算話語學(xué)》,《山東外語教學(xué)》 2018 年第6 期,第24—32 頁。計算詞典學(xué)源于詞典學(xué)與自然語言處理之間的融合,研究內(nèi)容主要包括電子詞庫的理論研究與實體構(gòu)建、詞典語料的精加工與數(shù)據(jù)化以及自然語言處理技術(shù)在詞典編纂中應(yīng)用等。計算語用學(xué)由語用學(xué)與語言智能融合而成,是對話語與語境之間關(guān)系的計算研究,主要從計算角度研究話語與語境之間的關(guān)系。毋庸諱言,這些研究領(lǐng)域從計算維度開創(chuàng)了全新的語言學(xué)研究領(lǐng)域,大大拓寬了語言學(xué)的疆域。

結(jié) 語

綜上所述,語言學(xué)與語言智能之間存在天然的共性,相互支撐,相得益彰。一方面,語言智能的發(fā)展離不開語言學(xué)理論和知識的支撐。盡管數(shù)據(jù)驅(qū)動的語言智能技術(shù)對于語言學(xué)知識的依賴愈來愈少,甚至已發(fā)展到似乎不需要語言學(xué)理論的地步,但語言智能的總體發(fā)展依然需要運用語言學(xué)知識,畢竟語言智能的算法不能代替語言學(xué)理論。在當代,數(shù)據(jù)驅(qū)動的語言智能之所以面臨這樣或那樣的問題,恰恰是因為沒有對語言學(xué)理論的支撐作用給予足夠的重視。無論是過去、現(xiàn)在還是將來,語言智能的發(fā)展始終離不開語言學(xué)理論的指導(dǎo)。另一方面,語言智能的發(fā)展對于語言學(xué)研究同樣具有重要的價值。具體而言,語言智能技術(shù)在語言學(xué)研究中的應(yīng)用不僅使得語言學(xué)研究方法發(fā)生重要的變革,而且深化了語言學(xué)研究,催生全新的語言學(xué)研究分支學(xué)科,從而拓展了語言學(xué)研究的疆域。

猜你喜歡
語言學(xué)語音理論
堅持理論創(chuàng)新
理論創(chuàng)新 引領(lǐng)百年
微信語音恐懼癥
語言學(xué)研究的多元化趨勢分析
魔力語音
Magic Phonetics魔力語音
美國現(xiàn)代語言學(xué)會版《〈紅樓夢〉教學(xué)法》:要覽與反思
對方正在輸入……
多項式理論在矩陣求逆中的應(yīng)用
書訊《百年中國語言學(xué)思想史》出版
武威市| 富裕县| 安吉县| 大新县| 乡城县| 宁强县| 汉川市| 清水河县| 磐石市| 临夏县| 黑河市| 鹿邑县| 南华县| 敖汉旗| 文水县| 青阳县| 虹口区| 霸州市| 吴桥县| 乌恰县| 天等县| 常州市| 麦盖提县| 瓮安县| 都昌县| 阿拉善盟| 西乌| 郸城县| 黄骅市| 咸宁市| 聂拉木县| 仪陇县| 凉山| 高淳县| 新兴县| 屏山县| 谢通门县| 城固县| 合川市| 遂昌县| 法库县|