国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

紀(jì)念我的恩師沃古瓦教授

2016-12-03 03:08馮志偉
現(xiàn)代語文 2016年10期
關(guān)鍵詞:喬姆斯基源語言目標(biāo)語言

1985年9月30日,我突然接到法國格勒諾布爾大學(xué)同事的電報(bào)(當(dāng)時(shí)電子郵件還不普及,也沒有微信),我的導(dǎo)師沃古瓦(Bernard Vauquois)教授不幸患白血病去世,時(shí)年56歲。這個(gè)晴天霹靂把我轟得大腦都麻木了。

沃古瓦身體健康,我在法國學(xué)習(xí)時(shí)曾和他一起去滑雪,他的滑雪技術(shù)極為高超,滑起來像燕子一樣地在白雪皚皚的高山上飛,他還這么年輕,怎么就去世了呢?我簡直不敢相信這個(gè)噩耗。

后來我才知道,沃古瓦在1985年初到馬來西亞檳榔大學(xué)研制機(jī)器翻譯系統(tǒng),他親臨第一線參與編程,日夜工作,積勞成疾,1985年8月只好回法國休息,但幾天后就與世長辭。

今天是沃古瓦教授去世31年的日子,我特地寫下這篇文章,以此作為對我的恩師的追念。

沃古瓦(1929-1985)

沃古瓦是法國數(shù)學(xué)家、物理學(xué)家、天文學(xué)家、計(jì)算機(jī)科學(xué)家和計(jì)算語言學(xué)家,于1929年6月14日生于法國[1]。

沃古瓦天資聰穎,早年學(xué)習(xí)數(shù)學(xué)、物理學(xué)和天文學(xué),于1952年至1958年在法國國家科研中心(CNRS)所屬的默東(Meudon)天文臺(tái)天體物理學(xué)研究所工作。

從1957年開始,他的研究興趣逐漸轉(zhuǎn)向了物理學(xué)的應(yīng)用方面,開始關(guān)注當(dāng)時(shí)剛剛興起的電子計(jì)算機(jī)的新技術(shù),從電子計(jì)算機(jī)的角度來研究物理學(xué)問題,并在天體物理學(xué)研究所給物理學(xué)家們講授電子計(jì)算機(jī)程序設(shè)計(jì)課程。沃古瓦對于天體物理學(xué)和電子計(jì)算機(jī)的雙重愛好反映在他當(dāng)時(shí)發(fā)表的物理學(xué)論文中。此后,他的研究興趣逐漸地從天體物理學(xué)轉(zhuǎn)向了計(jì)算機(jī)科學(xué)。

1960年,沃古瓦剛滿31歲就成為了法國格勒諾布爾理科醫(yī)科大學(xué)計(jì)算機(jī)科學(xué)系教授,他與該大學(xué)的昆茨滿(Jean Kuntzmann,法國)教授和伽斯提訥(No?l Gastinel,法國)教授一起開創(chuàng)了該大學(xué)的計(jì)算機(jī)科學(xué)研究。在這個(gè)時(shí)期,他同時(shí)還參與了國際上對于算法語言ALGOL60的研制工作,于1963年與巴庫斯(John W.Backus,美國)和瑙爾(Peter Naur,美國)等學(xué)者合作發(fā)表了《關(guān)于算法語言ALGOL60的報(bào)告》(1960)和《關(guān)于算法語言ALGOL60的修訂報(bào)告》(1963),這兩個(gè)報(bào)告是關(guān)于計(jì)算機(jī)程序語言研究的奠基性文獻(xiàn)[2]。沃古瓦是計(jì)算機(jī)高級程序設(shè)計(jì)語言的開創(chuàng)者之一。不久,他的興趣就從程序設(shè)計(jì)語言轉(zhuǎn)到了更加復(fù)雜的自然語言方面,他立志要用計(jì)算機(jī)來處理人類的自然語言,造福人類。

為了研究自然語言的計(jì)算機(jī)處理,沃古瓦于1960年在格勒諾布爾大學(xué)建立了自動(dòng)翻譯研究中心(法文:Centre d'?tude pour la Traduction Automatique,簡稱CETA),這個(gè)中心后來改名為自動(dòng)翻譯研究組(法文:Groupe d'?tude pour la Traduction Automatique,簡稱GETA),現(xiàn)名叫作自動(dòng)翻譯與語言語音自動(dòng)處理研究組(法文:Groupe d'?tude pour la Traduction Automatique et le Traitment Automatique de Langue et Parole,簡稱GETALP)。這個(gè)研究組屬于格勒諾布爾信息實(shí)驗(yàn)室(法文:Laboratoire dinformatique de Grenoble),其目的在于使用計(jì)算機(jī)技術(shù)來克服人類的語言障礙,突破人類的語言藩籬。從此,沃古瓦便全身心地投入了自然語言計(jì)算機(jī)處理的研究。

在此期間,沃古瓦非常關(guān)注國際上自動(dòng)翻譯的研究,在訪問了美國等國家的一些自動(dòng)翻譯研究中心之后,他認(rèn)為這些自動(dòng)翻譯系統(tǒng)的設(shè)計(jì)思想比較落后,理論基礎(chǔ)比較單薄,他把這些系統(tǒng)稱為第一代自動(dòng)翻譯(first generation of automatic translation)系統(tǒng),而他則要研制第二代自動(dòng)翻譯(second generation of automatic translation)系統(tǒng)。他明確指出,第二代自動(dòng)翻譯系統(tǒng)的研制應(yīng)當(dāng)另辟蹊徑,應(yīng)當(dāng)建立在形式語言和形式語法理論的基礎(chǔ)之上,于是他提出了“樞軸語言”(pivot language)的理論,主張?jiān)谧詣?dòng)翻譯中按照“分析-轉(zhuǎn)換-生成”的步驟分層次地進(jìn)行源語言的分析、源語言-目標(biāo)語言的轉(zhuǎn)換、目標(biāo)語言的生成,他還提出了自動(dòng)翻譯三角形來描述自動(dòng)翻譯的全過程,這種機(jī)器翻譯三角形后來叫作“沃古瓦三角形”(Vauquois triangle)。沃古瓦三角形又叫作機(jī)器翻譯金字塔(pyramid of machine translation)。如下圖所示:

沃古瓦三角形

在“沃古瓦三角形”中,機(jī)器翻譯從源語言開始,首先進(jìn)行源語言形態(tài)分析,接著進(jìn)行源語言句法分析,然后進(jìn)行源語言語義分析,分析完成后就進(jìn)行目標(biāo)語生成,首先進(jìn)行目標(biāo)語語義生成,接著進(jìn)行目標(biāo)語句法生成,然后進(jìn)行目標(biāo)語形態(tài)生成,產(chǎn)生出目標(biāo)語言?!拔止磐呷切巍钡捻敹耸侵虚g語言(interlingua),這是獨(dú)立于源語言和目標(biāo)語言規(guī)范的語義表達(dá)形式。

在“沃古瓦三角形”中,如果從源語言出發(fā),經(jīng)過形態(tài)分析就直接進(jìn)行目標(biāo)語的形態(tài)生成,產(chǎn)生出目標(biāo)語言,這樣的方法叫作直接翻譯方法(direct approach);如果從源語言出發(fā),經(jīng)過源語言形態(tài)分析和源語言句法分析,然后在句法層面進(jìn)行源語言和目標(biāo)語的句法轉(zhuǎn)換,再進(jìn)行目標(biāo)語的句法生成和形態(tài)生成,最后產(chǎn)生出目標(biāo)語言,這樣的方法叫作句法轉(zhuǎn)換翻譯方法(syntactic transfer approach);如果從源語言出發(fā),經(jīng)過源語言形態(tài)分析和源語言句法分析,再進(jìn)行源語言語義分析,然后在語義層面進(jìn)行源語言和目標(biāo)語的語義轉(zhuǎn)換,再進(jìn)行目標(biāo)語的語義生成、句法生成和形態(tài)生成,最后產(chǎn)生出目標(biāo)語言,這樣的方法叫作語義轉(zhuǎn)換翻譯方法(semantic transfer approach);如果從源語言出發(fā),經(jīng)過源語言的形態(tài)分析、句法分析和語義分析,一直分析到“沃古瓦三角形”的頂端,得到源語言的中間語言表示,然后從中間語言表示出發(fā),經(jīng)過語義生成、句法生成和形態(tài)生成,最后產(chǎn)生出目標(biāo)語言,這樣的方法叫作中間語言翻譯方法(interlingua approach)。endprint

在直接翻譯方法中,源語言文本中的詞是一個(gè)接一個(gè)地進(jìn)行處理的,這種方法要使用一部較大的雙語詞典,詞典中的每一個(gè)條目相當(dāng)于翻譯每一個(gè)詞的小程序。在轉(zhuǎn)換翻譯方法中,首先對輸入文本進(jìn)行解析,然后利用規(guī)則將源語言的解析結(jié)果轉(zhuǎn)換到目標(biāo)語言的解析結(jié)果,再利用這個(gè)解析結(jié)果得到目標(biāo)語言句子。在中間語言翻譯方法中,首先對源語言文本進(jìn)行分析,得到抽象的意義表示,這種表示形式稱為中間語言(interlingua),目標(biāo)語言句子要根據(jù)這種中間表示來生成。

從“沃古瓦三角形”中可以看出,從直接翻譯方法到轉(zhuǎn)換翻譯方法到中間語言翻譯方法,對語言的分析程度不斷加深,在目標(biāo)語言的另一端,對應(yīng)的層次是對語言的生成程度不斷提高。此外,“沃古瓦三角形”還表明了不同方法對轉(zhuǎn)換知識的依賴程度。在直接翻譯方法中,需要大量的轉(zhuǎn)換知識(對每個(gè)詞來說,幾乎所有的翻譯知識都是轉(zhuǎn)換知識)。在轉(zhuǎn)換翻譯方法中,轉(zhuǎn)換規(guī)則僅用于句法分析樹或者是語義角色(thematic role)。在中間語言翻譯方法中,不需要特定的轉(zhuǎn)換知識。隨著三角形的斜邊的上升,所需要的轉(zhuǎn)換知識程度遞減,到了三角形頂端,就不需要進(jìn)行轉(zhuǎn)換了。

1962年到1971年期間,沃古瓦領(lǐng)導(dǎo)自動(dòng)翻譯研究中心,開發(fā)了俄-法自動(dòng)翻譯系統(tǒng),達(dá)到了實(shí)用化的水平,國際領(lǐng)先。

經(jīng)過多年的自動(dòng)翻譯實(shí)踐,沃古瓦清楚地認(rèn)識到自動(dòng)翻譯研究中的陳述式方法和中間語言方法的缺陷,因而他采用啟發(fā)式程序設(shè)計(jì)技術(shù),開發(fā)了語言處理程序設(shè)計(jì)專用語言(法文:Langages Spécialisés pour la Programmation Linguistique,簡稱LSPL),并用這種專用語言建立了自動(dòng)翻譯軟件系統(tǒng)ARIANE-78。

這個(gè)軟件系統(tǒng)分為ATEF,ROBRA,TRANSF和SYGMOR四個(gè)部分。語言工作者可以利用這個(gè)軟件來描述自然語言的各種規(guī)則。其中,ATEF是一個(gè)非確定性的有限狀態(tài)轉(zhuǎn)換器,用于原語形態(tài)分析,它的程序接收原語文本作為輸入,并提供出該文本中每個(gè)詞的形態(tài)解釋作為輸出;ROBRA是一個(gè)樹形圖轉(zhuǎn)換器,它的程序接收源語言形態(tài)分析的結(jié)果作為輸入,借助語法規(guī)則對此進(jìn)行運(yùn)算,輸出能表示句子結(jié)構(gòu)的樹形圖;ROBRA還可以按同樣的方式實(shí)現(xiàn)源語言到目標(biāo)語言的結(jié)構(gòu)轉(zhuǎn)換和目標(biāo)語言的句法生成;TRANSF可借助雙語詞典實(shí)現(xiàn)源語言到目標(biāo)語言的詞匯轉(zhuǎn)換;SYGMOR是一個(gè)確定性的樹—鏈轉(zhuǎn)換器,它接收目標(biāo)語言句法生成的結(jié)果作為輸入,并以字符鏈的形式提供出目標(biāo)語言的譯文。

沃古瓦的思維敏捷,他每接受一個(gè)研究課題,都會(huì)提出一種新的概念和方法。1974年,他提出了“多層次描述程序”(法文:descripteurs de structures multiniveaux),試圖把自動(dòng)翻譯的研究層次從短語層次單位提升到比短語更高的層次單位。他的這種思想成為格勒諾布爾大學(xué)GETA開發(fā)自動(dòng)翻譯系統(tǒng)的理論基石。1982年至1983年間,在研究法國自動(dòng)翻譯國家課題ESOPE的過程中,他又提出了“靜態(tài)語法”(法文:grammaire statique)這一創(chuàng)新性概念。

沃古瓦是計(jì)算語言學(xué)領(lǐng)域的知名學(xué)者。早在1963年,他就擔(dān)任了法國國家科研中心(法文:Centre National de la Recherche Scientifique,簡稱CNRS)的普通語言學(xué)、現(xiàn)代語言和比較文學(xué)(法文:Linguistique générale, langues moderne et littérature comparée)分部的委員,1969年,他又擔(dān)任CNRS的普通語言學(xué)、外國語言文學(xué)(法文:Linguistique générale,langues et littératures étrangères)分部的委員。1965年,他擔(dān)任語言自動(dòng)處理學(xué)會(huì)(法文:Association pour le traitement automatique des langues,簡稱ATALA)的副主席,1966年至1971年間擔(dān)任ATALA的主席。1965年,沃古瓦主持成立了計(jì)算語言學(xué)國際委員會(huì)(International Committee on Computational Linguistics,簡稱ICCL),成為ICCL的創(chuàng)始人。他還組織召開國際計(jì)算語言學(xué)會(huì)議COLING,從1965年到1984年擔(dān)任COLING主席。沃古瓦主持召開的歷屆COLING會(huì)議如下:

·1965 紐約(New York)

·1967 格勒諾布爾(Grenoble)

·1969 斯德哥爾摩(Stockholm)

·1971 德布勒森(Debrecen)

·1973 比薩(Pisa)

·1976 渥太華(Ottawa)

·1978 卑爾根(Bergen)

·1980 東京(Tokyo)

·1982 布拉格(Prague)

·1984 斯坦福(Stanford)

至今COLING已經(jīng)召開了26屆,成為最具權(quán)威性的、頂級的國際計(jì)算語言學(xué)會(huì)議。沃古瓦對COLING有開創(chuàng)之功,他功不可沒。

在計(jì)算語言學(xué)研究中,沃古瓦與加拿大、美國、俄羅斯、捷克、日本、中國、馬來西亞、泰國等國家的學(xué)者都建立了密切的聯(lián)系,他經(jīng)常到這些國家講學(xué)和交流。

沃古瓦重視計(jì)算語言學(xué)跨學(xué)科人才的培養(yǎng),他先后培養(yǎng)了布瓦戴(Ch.Boitet,法國)、辻井潤一(Tsujii Junichi,日本)等兼通語言學(xué)和計(jì)算機(jī)科學(xué)的新一代計(jì)算語言學(xué)家。

1985年9月30日,沃古瓦病逝于法國,年僅56歲。

沃古瓦的主要著作有:《在機(jī)器翻譯中的識別轉(zhuǎn)換算法與形式語法概覽》(1968),《語言的自動(dòng)翻譯》(1970),《自動(dòng)翻譯的模型》(1971),《GETA的自動(dòng)翻譯方法:與其他方法相比較》(1985),《格勒諾布爾大學(xué)的自動(dòng)翻譯》(1985)。endprint

沃古瓦是我的導(dǎo)師,是我研究計(jì)算語言學(xué)的引路人。

1978年我由文科改學(xué)理科,考入中國科學(xué)技術(shù)大學(xué)研究生院,接著被選送到法國格勒諾布爾理科醫(yī)科大學(xué)應(yīng)用數(shù)學(xué)研究所(法文:Institut Mathematique Appliquée de Grenoble,簡稱IMAG)自動(dòng)翻譯中心(GETA)學(xué)習(xí),師從沃古瓦教授,專門研究自動(dòng)翻譯和數(shù)理語言學(xué)問題。沃古瓦教授是國際計(jì)算語言學(xué)委員會(huì)的創(chuàng)始人,是當(dāng)時(shí)國際計(jì)算語言學(xué)的領(lǐng)軍人物,他領(lǐng)導(dǎo)的GETA在機(jī)器翻譯的理論和實(shí)踐上都做出了出色的成績,我在GETA良好的學(xué)習(xí)環(huán)境中,可以了解到機(jī)器翻譯發(fā)展的最新情況,可以學(xué)習(xí)到當(dāng)代機(jī)器翻譯最前沿的技術(shù)。我本人喜歡數(shù)學(xué),而沃古瓦教授是數(shù)學(xué)家,我們都深知自然語言的形式理論對于構(gòu)建機(jī)器翻譯系統(tǒng)的重要性。

在法國留學(xué)期間,我的主要工作是進(jìn)行漢語與不同外語的機(jī)器翻譯研究。開始時(shí),我使用的自然語言形式理論是喬姆斯基(Chomsky)的短語結(jié)構(gòu)語法,我試圖使用短語結(jié)構(gòu)語法來進(jìn)行漢語的自動(dòng)分析。早在1957年,我就接觸到喬姆斯基的形式語言理論,對于喬姆斯基的理論,特別是對于這種理論的數(shù)學(xué)原理,我是有深入了解的。喬姆斯基根據(jù)形式語法的原理,提出了短語結(jié)構(gòu)語法作為自然語言形式描述的一種手段,這種語法在自然語言處理中得到了廣泛的應(yīng)用。國內(nèi)外的許多機(jī)器翻譯系統(tǒng)都采用喬姆斯基的短語結(jié)構(gòu)語法作為系統(tǒng)設(shè)計(jì)的基本理論依據(jù)。根據(jù)喬姆斯基的短語結(jié)構(gòu)語法,表示句子結(jié)構(gòu)的樹形圖中的每一個(gè)結(jié)點(diǎn)只有一個(gè)相應(yīng)的標(biāo)記,結(jié)點(diǎn)與標(biāo)記之間的這種關(guān)系是一種單值標(biāo)記函數(shù)的關(guān)系。這種單值標(biāo)記函數(shù)表示的語言特征是十分有限的,因而在機(jī)器翻譯中進(jìn)行漢語的自動(dòng)分析時(shí),會(huì)出現(xiàn)大量的歧義問題,難以區(qū)分句法結(jié)構(gòu)相同而語義結(jié)構(gòu)不同的漢語句子,這種分析法是短語結(jié)構(gòu)語法在分析漢語時(shí)的一個(gè)致命的缺點(diǎn)。

當(dāng)時(shí)我在法國研制開發(fā)機(jī)器翻譯系統(tǒng)的實(shí)踐中,就敏銳地認(rèn)識到短語結(jié)構(gòu)語法的這種致命缺點(diǎn)。我試圖根據(jù)短語結(jié)構(gòu)語法來編寫漢語分析程序,但是困難重重,步履維艱,屢遭失敗。

1980年夏天的一個(gè)早上,沃古瓦教授與我討論漢語自動(dòng)分析的問題。我坦率地向沃古瓦教授說:“喬姆斯基的短語結(jié)構(gòu)語法對于法語和英語的分析可能沒有多大問題,可是,用這種語法來分析漢語,幾乎寸步難行?!?/p>

沃古瓦教授用好奇的目光看著我,他希望我進(jìn)一步闡述自己的看法。

我舉例對沃古瓦教授作了如下的說明:

在漢語中可以說“點(diǎn)心吃了”,實(shí)際上是“點(diǎn)心被吃了”,但漢語中一般不用“被”字;漢語中還可以說“張三吃了”,實(shí)際上是“張三把點(diǎn)心吃了”?!皬埲笔莻€(gè)名詞短語NP(Noun Phrase),“點(diǎn)心”也是個(gè)“NP”,“吃了”是個(gè)動(dòng)詞短語VP(Verb Phrase)。這兩個(gè)句子的規(guī)則都是:“SNP+VP”,其中,S(Sentence)表示句子,它們的層次相同,詞序相同,詞性也相同,但它們卻有截然不同的含義,一個(gè)是被動(dòng)句,一個(gè)是主動(dòng)句。我們怎么來解釋這樣的差異呢?如果我們使用喬姆斯基的短語結(jié)構(gòu)語法,用計(jì)算機(jī)來分析這兩個(gè)不同的句子,計(jì)算機(jī)最后做出來的肯定是一樣的樹形圖,它們的差別只是在葉子結(jié)點(diǎn)上的詞不一樣,整個(gè)樹形圖的上層都是同樣的“SNP+VP”,這樣在結(jié)構(gòu)上相同的句子為什么會(huì)有不同的語義解釋,從而產(chǎn)生不同的含義呢?使用短語結(jié)構(gòu)語法顯然是解釋不了的,而中文里到處都是這樣的句子,因?yàn)橹形睦锏谋粍?dòng)關(guān)系有不同的表示方法,有時(shí)主動(dòng)和被動(dòng)在形式上沒有明顯的區(qū)別,可以從句子的上下文和意念上來加以區(qū)分。在這種進(jìn)退兩難的局面下,唯一的出路就是根據(jù)漢語語法的特點(diǎn)改進(jìn)喬姆斯基的短語結(jié)構(gòu)語法,使用一種新的方法來描述漢語。

沃古瓦教授耐心地聽完了我的說明,他從沙發(fā)上站起來驚嘆地說:“漢語真是一種langue terrible(法語:糟糕的語言)。”他說:“哪種語言能夠不分主動(dòng)和被動(dòng),人吃了和被人吃了怎么能是一樣?怎么這么亂?”

我笑著向沃古瓦教授解釋道:其實(shí)中國人一點(diǎn)兒也不感覺到亂,我們中國人在說話時(shí)是分辨得很清楚的,因?yàn)槲覀冎涝谝话闱闆r下,人是不能被吃的。所以“小王吃了”的語義不會(huì)是“小王被吃了”,而“點(diǎn)心”不吃東西,所以“點(diǎn)心吃了”必定是“點(diǎn)心被吃了”。漢語是靠詞匯的固有語義來解決語法問題的,但是對于你們法國人來講,并不存在這樣的問題。所以,我們不能按照法語的思考方法來處理漢語的問題,我們必須另辟蹊徑!

沃古瓦教授是一個(gè)知識廣博、眼界開闊的學(xué)者,他鼓勵(lì)我沿著這個(gè)思路繼續(xù)探索。他對我說:“喬姆斯基的短語結(jié)構(gòu)語法也不一定永遠(yuǎn)正確嘛!”

在告別時(shí),沃古瓦教授興奮地對我說:“我相信,你一定能找出一種漢語自動(dòng)分析的新方法?!?/p>

這次和沃古瓦教授的談話使我深刻地認(rèn)識到,喬姆斯基的短語結(jié)構(gòu)語法在漢語自動(dòng)分析中確實(shí)出現(xiàn)了極大的困難。這種困難甚至連沃古瓦教授這樣世界第一流的計(jì)算語言學(xué)家也承認(rèn)了。作為中國的科學(xué)工作者,我必須想出一種新的辦法,來克服短語結(jié)構(gòu)語法的缺點(diǎn)。不然,我正在進(jìn)行的漢語自動(dòng)分析就很難搞下去了。

這一天夜里我很不平靜,翻來覆去總在思考這個(gè)問題。第二天清早,我走進(jìn)沃古瓦教授的辦公室,明確地向沃古瓦教授提出:我們正面臨一個(gè)新的挑戰(zhàn),我們必須要思考一種新的語法理論來解決這個(gè)問題。沃古瓦教授完全同意我的意見,他進(jìn)一步鼓勵(lì)我探索新的理論和方法來解決漢語自動(dòng)分析中出現(xiàn)的這個(gè)問題。

在沃古瓦教授的鼓勵(lì)下,我對這個(gè)問題反復(fù)進(jìn)行了思考。我觀察到:“小王吃了”和“點(diǎn)心吃了”這兩個(gè)貌似相同的句子在詞匯的語義上有很大的不同,“小王”在語義上是一個(gè)“人”,在一般情況下,“人”是“吃了”這個(gè)行為的主動(dòng)者,而“點(diǎn)心”在語義上是“食品”,在一般情況下,“食品”是“吃了”的被動(dòng)者,是“吃了”的對象。在短語結(jié)構(gòu)規(guī)則“SNP+VP”中,或許可以不把“NP”看成一個(gè)不可分割的單元,而把“NP”進(jìn)一步加以分割,使用若干個(gè)特征來代替“NP”這個(gè)單一的特征。例如:在“小王吃了”中,我們把“NP”分解為“NP|人”兩個(gè)特征,在“點(diǎn)心吃了”中,我們把“NP”分解為“NP|食品”兩個(gè)特征,這樣一來,就有可能在計(jì)算機(jī)上把它們分解開來了。在計(jì)算機(jī)處理語言時(shí),特征也就是“標(biāo)記”,我認(rèn)為,如果我們使用“多標(biāo)記”來代替短語結(jié)構(gòu)語法中的“單標(biāo)記”,就有可能大大地提高短語結(jié)構(gòu)語法描述語言的能力,我們就可以使用改進(jìn)后的這種語法來描述漢語,實(shí)現(xiàn)漢語的自動(dòng)分析。這就是我提出的關(guān)于“多標(biāo)記”(multiple-label)的最初設(shè)想。endprint

我對于短語結(jié)構(gòu)語法的另一個(gè)改進(jìn)是使用多叉樹代替短語結(jié)構(gòu)語法的二叉樹。喬姆斯基曾經(jīng)提出“喬姆斯基范式”,他認(rèn)為自然語言的結(jié)構(gòu)具有二分的特性,因此他主張?jiān)谧匀徽Z言處理中使用“二叉樹”(binary-tree)。我則認(rèn)為,在漢語中存在著“兼語式”和“連動(dòng)式”等特殊句式,它們都不具備二分的特性,因此,我主張使用“多叉樹”(multiple-branched tree)來代替“二叉樹”,從而提高短語結(jié)構(gòu)語法描述漢語的能力。例如:“請小王吃飯”是一個(gè)兼語式的句子,其中的“小王”作前一個(gè)動(dòng)詞“請”的賓語,又作后一個(gè)動(dòng)詞“吃飯”的主語,在計(jì)算機(jī)處理時(shí),究竟是分析為“請/小王吃飯”,還是“請小王/吃飯”,我們將處于進(jìn)退維谷的境地。如果我們采取三分,把這個(gè)句子分析為“請/小王/吃飯”,可以避免分析樹的交叉,得到唯一的分析結(jié)果。沃古瓦教授對我的多叉樹設(shè)想也給予鼓勵(lì),表示贊同。

經(jīng)過在計(jì)算機(jī)上編寫程序進(jìn)行潛心的鉆研和反復(fù)的試驗(yàn),在沃古瓦教授的指導(dǎo)下,我提出了“多叉多標(biāo)記樹模型”(Multiple-labeled and Multiple-branched Tree Model,簡稱MMT模型)。在MMT模型中,采用多值標(biāo)記函數(shù)來代替短語結(jié)構(gòu)語法的單值標(biāo)記函數(shù),使得樹形圖中的一個(gè)結(jié)點(diǎn),不再僅僅對應(yīng)于一個(gè)標(biāo)記,而是對應(yīng)于若干個(gè)標(biāo)記。我還使用多叉樹來代替二叉樹,這樣便大大地提高了樹形圖的標(biāo)記能力,使得樹形圖的各個(gè)結(jié)點(diǎn)上,都能記錄足夠多的語法語義信息,把句子中所蘊(yùn)含的豐富多彩的信息充分地表示出來。這種多值標(biāo)記函數(shù)的理論實(shí)質(zhì)上是一種復(fù)雜特征(complex features)的理論,它從根本上克服了喬姆斯基的短語結(jié)構(gòu)語法在描述自然語言時(shí)的嚴(yán)重缺陷,提高了其有限的分析能力,限制了其過強(qiáng)的生成能力。顯而易見,MMT模型是對喬姆斯基短語結(jié)構(gòu)語法的一個(gè)帶有實(shí)質(zhì)意義的重要改進(jìn)[3]。

根據(jù)MMT模型,我設(shè)計(jì)了漢—法、英、日、俄、德多語言機(jī)器翻譯系統(tǒng),這個(gè)系統(tǒng)叫作FAJRA。F-A-J-R-A這5個(gè)字母分別表示法語(法語為Francais)、英語(法語為Anglais)、日語(法語為Japonais)、俄語(法語為Russe)和德語(法語為Allmand)的法語首字母,這是一個(gè)基于規(guī)則的機(jī)器翻譯系統(tǒng)(rule-based MT System),基于規(guī)則的機(jī)器翻譯系統(tǒng)把翻譯看成符號的轉(zhuǎn)換過程。

這是世界上第一個(gè)用計(jì)算機(jī)自動(dòng)地把漢語翻譯為多種外語的機(jī)器翻譯系統(tǒng),這個(gè)系統(tǒng)是我于1981年在GETA使用IBM-4331大型計(jì)算機(jī)研制并試驗(yàn)成功的。計(jì)算機(jī)寬行打印機(jī)上輸出多語言機(jī)器翻譯結(jié)果的日期是“1981年11月4日”。沃古瓦教授高興地對我說:“這是值得你記住的一個(gè)日子。”

根據(jù)獨(dú)立分析、獨(dú)立生成的原則,F(xiàn)AJRA的總體結(jié)構(gòu)如下圖所示:

FAJRA多語言自動(dòng)翻譯系統(tǒng)

從圖中可以看出,在FAJRA系統(tǒng)中,漢語的形態(tài)分析和句法分析是獨(dú)立于法、英、日、俄、德等5種語言的,而法、英、日、俄、德等5種語言的句法生成和形態(tài)生成是各自獨(dú)立的,只有詞匯轉(zhuǎn)換和結(jié)構(gòu)轉(zhuǎn)換是與漢語相關(guān)的,所以,這是一個(gè)“獨(dú)立分析-獨(dú)立生成-相關(guān)轉(zhuǎn)換”的機(jī)器翻譯系統(tǒng)。

就在我提出MMT模型的同時(shí),國外一些計(jì)算語言學(xué)家也看到了短語結(jié)構(gòu)語法的局限性,分別提出了各種方法來改進(jìn)它。例如1983年卡普蘭(R.M.Kaplan,美國)和布列斯南(J.Bresnan,美國)提出的“詞匯功能語法”,1983年馬丁·凱依(Martin Kay,美國)提出的“功能合一語法”,1985年蓋茲達(dá)(G.Gazdar,英國)等提出的“廣義短語結(jié)構(gòu)語法”,1985年珀拉德(C.Pollard,美國)提出的“中心語驅(qū)動(dòng)的短語結(jié)構(gòu)語法”等,都采用了復(fù)雜特征來描述自然語言。他們所謂的“復(fù)雜特征”實(shí)際上也就是我提出的“多值標(biāo)記”,名異而實(shí)同。所以,MMT模型是世界計(jì)算語言學(xué)者對喬姆斯基的短語結(jié)構(gòu)語法進(jìn)行改進(jìn)的一個(gè)重要方面和不可分割的組成部分,MMT模型是20世紀(jì)80年代較早提出的一個(gè)旨在改進(jìn)短語結(jié)構(gòu)語法的形式化模型,當(dāng)時(shí)我國學(xué)者對于這方面的研究在國際上是處于前沿地位的。

沃古瓦教授去世已經(jīng)31年了,但是他的音容笑貌仍然留在我的心中,回首往事,歷歷在目,就像在昨天一樣,令人難以忘卻。

我今年已經(jīng)77歲了,早已年逾古稀,并且還在一天天地變老。是沃古瓦把我引進(jìn)了計(jì)算語言學(xué)這個(gè)新興的學(xué)科,盡管沃古瓦教授已經(jīng)英年早逝,盡管我已經(jīng)白發(fā)蒼蒼,但是我們畢生鐘愛著的這個(gè)學(xué)科還非常年青,仍然充滿了青春的活力。我們個(gè)人的生命是有限的,而科學(xué)知識的探討和研究卻是無限的。我們個(gè)人渺小的生命與科學(xué)事業(yè)這棵常青的參天大樹相比較,顯得多么微不足道,有如滄海之一粟。想到這些,怎不令我們感慨萬千!

我雖已年老,還應(yīng)當(dāng)自強(qiáng)不息,努力創(chuàng)新,繼承沃古瓦的未竟之業(yè),以此來紀(jì)念我的恩師沃古瓦教授。

參考文獻(xiàn):

[1]Bernard Vauquois,Christian Boitet.Automated Translation

at Grenoble University[J].Computational Linguistics,1985,(1):28-36.

[2]John W.Backus,F(xiàn)riedrich L.Bauer,Julien Green,C.Katz,

John McCarthy,Alan J.Perlis,Heinz Rutishauser,Klaus Samelson,Bernard Vauquois,Joseph Henry Wegstein,Adriaan van Wijngaarden,Michael Woodger,Peter Naur.Revised Report on the Algorithm Language ALGOL60.Commun[J].ACM,1963,(1):1-17.

[3]馮志偉.漢語句子的多叉多標(biāo)記樹形圖分析法[J].人工智能學(xué)

報(bào),1983,(2).

(馮志偉 浙江杭州 杭州師范大學(xué)外國語學(xué)院 311121)endprint

猜你喜歡
喬姆斯基源語言目標(biāo)語言
教材插圖在英語課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
Teaching methods in a Chinese Classroom
以口譯實(shí)例談雙語知識的必要性
中國媒介環(huán)境下喬姆斯基新聞過濾器模式意義探究
概念任務(wù)下中英雙語者非目標(biāo)語言的詞匯通達(dá)
多媒體英語學(xué)習(xí)法
跨越政治批評與學(xué)術(shù)研究的疆界——喬姆斯基訪談錄
永济市| 老河口市| 萍乡市| 太白县| 永昌县| 视频| 江山市| 东城区| 利津县| 台北县| 高平市| 鹰潭市| 罗平县| 出国| 建宁县| 米泉市| 镶黄旗| 洪洞县| 云梦县| 宁远县| 平度市| 通城县| 石棉县| 剑阁县| 云林县| 新津县| 平原县| 阿尔山市| 靖州| 东方市| 南城县| 沙田区| 五指山市| 林甸县| 灵石县| 吴川市| 武乡县| 冷水江市| 鹤山市| 合山市| 华宁县|