国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

系統(tǒng)功能語言學(xué)在自然語言處理中的應(yīng)用

2014-04-10 13:51:13劉志偉李學(xué)寧
關(guān)鍵詞:韓禮德語言學(xué)語法

劉志偉,李學(xué)寧

一、引言

系統(tǒng)功能語言學(xué)是一個(gè)開放而有活力的語言系統(tǒng),它總是能隨著時(shí)代的發(fā)展穩(wěn)步地自我完善。早在20世紀(jì)50年代,韓禮德就密切關(guān)注計(jì)算語言學(xué)的發(fā)展,并對(duì)機(jī)器翻譯、電子詞典編纂等多個(gè)分支領(lǐng)域進(jìn)行了深入的研究(Webster,2007)。從此以后,自然語言處理一直在系統(tǒng)功能語言學(xué)者的研究視野當(dāng)中,一系列的研究成果也逐步問世。

從時(shí)間上來看,系統(tǒng)功能語言學(xué)在自然語言處理領(lǐng)域的應(yīng)用歷程恰巧伴隨著計(jì)算機(jī)的變革。如今許多系統(tǒng)功能語言學(xué)的應(yīng)用已經(jīng)離不開計(jì)算機(jī),比如機(jī)器翻譯、語料庫、自然語言生成和人機(jī)對(duì)話等,這些都可以在一定程度上檢驗(yàn)系統(tǒng)功能語言學(xué)的完整性——面對(duì)真實(shí)的文本(自然語言)時(shí),系統(tǒng)功能語言學(xué)能否對(duì)文本進(jìn)行充分的形式化解讀。這樣一來,計(jì)算語言學(xué)者們才可以發(fā)現(xiàn)問題出在哪個(gè)環(huán)節(jié),以及該如何提高。韓禮德認(rèn)為能否將語言理論應(yīng)用于人工智能是檢驗(yàn)其正確性的重要手段,同時(shí)也是使之發(fā)揮更大作用的大好機(jī)會(huì)(朱永生,嚴(yán)世清,2001:12)。

本文就系統(tǒng)功能語言學(xué)在自然語言處理領(lǐng)域的應(yīng)用歷程進(jìn)行總結(jié),主要的應(yīng)用領(lǐng)域包括機(jī)器翻譯、語言切分、自然語言生成以及人機(jī)對(duì)話系統(tǒng)等。

二、機(jī)器翻譯

早在20世紀(jì)50年代,韓禮德已經(jīng)著手機(jī)器翻譯方面的研究,此后,陸續(xù)發(fā)表了多篇重要論文。其中1962年發(fā)表的Linguistics and machine translation(Halliday,2007:20-36)具有重要的歷史價(jià)值和現(xiàn)實(shí)意義,在此論文中,他所提出的理論觀點(diǎn)對(duì)于今天的機(jī)器2翻譯研究仍有重要的指導(dǎo)和借鑒意義。

首先,韓禮德對(duì)于機(jī)器翻譯的語言學(xué)歸屬問題進(jìn)行了探討,他明確了機(jī)器翻譯歸屬于應(yīng)用語言學(xué)的范疇,這為機(jī)器翻譯最終發(fā)展成為計(jì)算語言學(xué)中的一個(gè)重要研究領(lǐng)域起到了積極的推動(dòng)作用。

在上世紀(jì)90年代之前,絕大部分的機(jī)器翻譯系統(tǒng)基于規(guī)則的機(jī)器翻譯系統(tǒng),它們的設(shè)計(jì)方案可以歸納為三種基本的類型:直接翻譯,中間翻譯和轉(zhuǎn)換翻譯。而韓禮德的設(shè)計(jì)方案屬于轉(zhuǎn)換翻譯,采用的是階與范疇語法,他用實(shí)例演示了機(jī)器翻譯的基本過程。在第一個(gè)階段,需要對(duì)原文的句子進(jìn)行切分,依次獲得其小句、詞組/短語、詞和詞素。第二階段是逐層往上進(jìn)行翻譯,即先翻譯詞素,然后翻譯詞,以此類推。在每一級(jí)階的翻譯中,先在目標(biāo)語中找到概率最大的等值翻譯項(xiàng)目,然后在更高階層的翻譯中根據(jù)該詞出現(xiàn)的上下文語境進(jìn)行調(diào)整。在第三階段,根據(jù)目標(biāo)語的內(nèi)在結(jié)構(gòu)對(duì)譯文在詞匯和語法方面作進(jìn)一步的調(diào)整。例如,“多”在詞素層、詞層可以暫時(shí)譯為“many”。但是在小句層和句層,則應(yīng)該基于英語的內(nèi)部結(jié)構(gòu)規(guī)律逐步調(diào)整為“there are more than…”(Halliday,2007:31-32)。

90年代之后,機(jī)器翻譯引入了語料庫方法,主要包括基于實(shí)例的方法和基于統(tǒng)一的方法。在韓禮德的機(jī)器翻譯研究中,概率統(tǒng)計(jì)是一個(gè)重要的思想。他認(rèn)為如果期待計(jì)算機(jī)進(jìn)行機(jī)器翻譯工作,就必須為之提供既精確、又有效的描寫。在詞匯定量研究方面,他認(rèn)為統(tǒng)計(jì)詞類出現(xiàn)頻率和組合規(guī)律是不夠的,還需要統(tǒng)計(jì)詞匯的搭配。

韓禮德在1962年已經(jīng)準(zhǔn)確地預(yù)測了十年后的主流機(jī)器翻譯規(guī)則系統(tǒng)設(shè)計(jì)方案——轉(zhuǎn)換翻譯,并認(rèn)為其在語料庫的機(jī)器翻譯系統(tǒng)設(shè)計(jì)中也有廣闊的應(yīng)用前景,這體現(xiàn)了他在這個(gè)研究領(lǐng)域的前瞻性和洞察力。雖然在他的機(jī)器翻譯研究中還存在著一些局限性,然而這些局限性一方面充分反映了機(jī)器翻譯的復(fù)雜性,另一方面反過來推動(dòng)了我們進(jìn)一步從事相關(guān)的計(jì)算機(jī)與定量語言研究,同時(shí)這也是為智能計(jì)算研究打下了良好的基礎(chǔ)。

三、語言切分

上文提及60年代機(jī)器翻譯的中止,語言學(xué)者們便將目光轉(zhuǎn)移到語言切分上來。所謂語言切分是指語法中的句法結(jié)構(gòu)的文本分析。

1.Parker-Rhodes和Yorick Wilks

最早對(duì)韓禮德的語法進(jìn)行切分工作始于上世紀(jì)60年代初。當(dāng)時(shí),Parker-Rhodes和韓禮德是NUDE項(xiàng)目組的同事,基于韓禮德的階與范疇語法,Parker-Rhodes研究出了一個(gè)切分程序,其領(lǐng)導(dǎo)的一組成員包括Yorick Wilks,后來研究出了韓禮德語法的句法系統(tǒng)。Wilks將切分方法編寫在霍勒內(nèi)斯(Hollerith,利用鑿孔把字母信息在卡片上編碼的一種方式)卡片機(jī)器上,其程序主要是將輸入的句子成分用括號(hào)法進(jìn)行切分,例如:

((His second wife)(was (young and (very beautiful))))

((His eyes)(were blue (like (the morning sky))))

2.Winograd

Terry Winograd最早在切分系統(tǒng)中使用系統(tǒng)功能語言學(xué)。來自美國的Winograd受獎(jiǎng)學(xué)金資助,曾在倫敦做了一年韓禮德的學(xué)生,期間,使用系統(tǒng)形式化方法分析音調(diào)和諧。返美后,1967年,Winograd建立了一個(gè)系統(tǒng)SHRDLU:機(jī)器人能夠根據(jù)人發(fā)出的一些簡單指令來擺放不同顏色的積木(李學(xué)寧,張德祿2012)。此系統(tǒng)的句法分析器完全基于韓禮德的早期系統(tǒng)功能語法,以系統(tǒng)網(wǎng)絡(luò)為核心。

SHRDLU系統(tǒng)在當(dāng)時(shí)影響力極大,70年代的研究焦點(diǎn)在切分句子,以及如何使句法切分程序更有效率。Winograd則走功能路線,專注于如何使SHRDLU系統(tǒng)運(yùn)行更加通暢,他建立了一個(gè)切分文本的系統(tǒng),進(jìn)行語義解釋并決定如何采用恰當(dāng)?shù)奶幚矸绞健TS多語言學(xué)者認(rèn)為這個(gè)系統(tǒng)體現(xiàn)了自然語言處理與人工智能結(jié)合的可能性。

Winograd的工作使系統(tǒng)功能語言學(xué)在自然語言處理領(lǐng)域名聲大震,但是仍然有許多問題需要改進(jìn),例如系統(tǒng)網(wǎng)絡(luò)并不是輸入計(jì)算機(jī)由其自行運(yùn)行,而是要依靠使用者調(diào)用;再比如此系統(tǒng)最初是為擺放積木量身定做的,其應(yīng)用范圍較為有限,當(dāng)時(shí)只有120個(gè)特征結(jié)構(gòu),并不能完成足夠多的工作。

3.Martin Kay

Martin Kay和韓禮德在六七十年代有多年交流,也曾在劍橋語言研究中心工作過?;谙到y(tǒng)功能語法,他創(chuàng)立了功能合一語法,后來成為應(yīng)用最廣泛的形式語法之一。雖然有此淵源,功能合一語法和系統(tǒng)功能語法還是有很大區(qū)別的。最重要的區(qū)別在于功能合一語法并沒有采用系統(tǒng)網(wǎng)絡(luò),而是采用數(shù)理邏輯中的合一運(yùn)算方法。

80年代后,Kay編寫了功能合一語法的切分程序。這種程序可以把功能合一語法的功能描述映射為某種適合于分析算法的形式,然后采用句法處理器完成自動(dòng)分析,這樣功能合一語法既可以用于生成,又可以用于分析,成為一種雙向性的語法。(馮志偉,2010:207)

4.加的夫語法

90年代后,圍繞Fawcett的系統(tǒng)功能語法模型出現(xiàn)了一系列的切分試驗(yàn)。Fawcett早就意識(shí)到自動(dòng)分析文本的重大意義,在Fawcett的卡的夫語法模型中,只有一層意義潛勢,一個(gè)系統(tǒng)網(wǎng)絡(luò),即語義網(wǎng)絡(luò),它旨在根據(jù)特定的體現(xiàn)規(guī)則生成語法結(jié)構(gòu)和語義特征(廖楚燕,2008)。其中包含兩種切分方式,一是基于語料庫的方法,二是基于語法的方法。限于篇幅,在此不作具體論述。5.O'Donnell

1989年,Mick O'Donnell小范圍的嘗試了多種切分程序,發(fā)現(xiàn)很難將范圍擴(kuò)大以至覆蓋系統(tǒng)功能語法。1990年,他在洛杉磯信息科學(xué)學(xué)院的Kasper手下工作,學(xué)習(xí)了語法再編輯,用形式邏輯的方法進(jìn)行切分。在沒有附加條件限制的情況下,O'Donnell第一次建立了一個(gè)可以完全切分系統(tǒng)功能語法的系統(tǒng),但是當(dāng)用此系統(tǒng)去處理Nigel語法時(shí),要花費(fèi)數(shù)小時(shí)的時(shí)間來編輯語法,這大大限制了系統(tǒng)的使用。后來O'Donnell縮小范圍,將切分系統(tǒng)控制在語氣層,這極大的提高了切分的速率。

四、自然語言生成

簡單說來,自然語言生成是基于某種語法的在計(jì)算機(jī)上實(shí)現(xiàn)自動(dòng)生成句子的學(xué)科。最早將系統(tǒng)語法用于語言自動(dòng)生成的語言學(xué)者是Henrici,1965年,他采用了系統(tǒng)(縱聚合關(guān)系)和結(jié)構(gòu)(橫組合關(guān)系)的概念來進(jìn)行編程。限于當(dāng)時(shí)的條件,雖然表征程度不高、兼容性較弱、局限性較大,但可以肯定系統(tǒng)語法在自然語言生成的應(yīng)用是完全可能的。

另一將系統(tǒng)功能語法應(yīng)用于自然語言生成的代表人物是Robin Fawcett,他認(rèn)為將系統(tǒng)功能語法應(yīng)用于自然語言生成非常有必要,在這一方面的持續(xù)性工作使得后來建立的COMMUNAL系統(tǒng)成為在自然語言生成方面應(yīng)用最為廣泛的系統(tǒng)之一(O'Donnell&Bateman,2005)。

在這一應(yīng)用上,Proteus是第一個(gè)真正意義上的自然語言生成系統(tǒng)。這是第一次發(fā)現(xiàn)運(yùn)用系統(tǒng)的詞匯語法來進(jìn)行自動(dòng)文本生成的系統(tǒng)。運(yùn)用此系統(tǒng),計(jì)算機(jī)可以自行玩“三連棋”游戲。Proteus采用了Hudson(1973)的系統(tǒng)語法,明確了語法范疇:系統(tǒng)語法的表示方法是系統(tǒng)網(wǎng)絡(luò)。在系統(tǒng)網(wǎng)絡(luò)中需要選擇一系列的特征,才能生成相應(yīng)的句法成分;使用了替代、照應(yīng)、連接等一系列的銜接手段,以此增強(qiáng)文本的連貫性。

系統(tǒng)功能語言學(xué)在自然語言生成的地位因?yàn)镻enman系統(tǒng)的出現(xiàn)得到了極大的提升。Penman系統(tǒng)由洛杉磯信息科學(xué)學(xué)院的William Mann設(shè)計(jì)研發(fā),基于之前的計(jì)算機(jī)應(yīng)用經(jīng)驗(yàn),Mann確信要使計(jì)算機(jī)像人一樣操作需要非常詳盡有效的詞匯、語法、語義和話語模型,這樣的模型在當(dāng)時(shí)的自然語言生成領(lǐng)域是非常困難而且罕見的,經(jīng)過反復(fù)思考,Mann決定以韓禮德的系統(tǒng)功能語法為基石來建立其系統(tǒng)模型。Mann希望Penman系統(tǒng)可以做成無關(guān)上下文、應(yīng)用范圍不限的自然語言生成系統(tǒng),因此他邀請(qǐng)了韓禮德和當(dāng)時(shí)從UCLA(加州大學(xué)洛杉磯分校)剛畢業(yè)的Matthiessen一起研究如何將系統(tǒng)功能語法用計(jì)算機(jī)表征。經(jīng)過長期的研究,他們建立了一套非常清晰的、用于自然語言生成的計(jì)算系統(tǒng)功能語法,即Nigel語法。Nigel語法包括兩個(gè)組成部分:系統(tǒng)語法、選擇與詢問界面。前者可以進(jìn)一步分為系統(tǒng)、實(shí)現(xiàn)規(guī)則和詞庫。而后者是系統(tǒng)語法與環(huán)境的界面,其作用是向環(huán)境提出詢問,并根據(jù)回答對(duì)系統(tǒng)語法進(jìn)行有目的的選擇。Nigel語法應(yīng)用非常廣泛,至今仍然少有生成語法可以與它媲美。

總的說來,基于系統(tǒng)功能語法的生成系統(tǒng)已經(jīng)在自然語言生成領(lǐng)域占有了一席之地,但是后續(xù)的影響和發(fā)展還是需要諸多因素支撐。

五、人機(jī)對(duì)話系統(tǒng)

建立人機(jī)對(duì)話系統(tǒng)是系統(tǒng)功能語言學(xué)在自然語言處理上更深層次的應(yīng)用。人機(jī)對(duì)話,顧名思義,即計(jì)算機(jī)操作員或用戶與計(jì)算機(jī)之間,通過控制臺(tái)或終端顯示屏幕,以對(duì)話的方式進(jìn)行工作。

1991年,澳大利亞電信公司和悉尼大學(xué)的研究小組最早將系統(tǒng)功能語法直接應(yīng)用于這一領(lǐng)域。他們啟動(dòng)了一個(gè)研究項(xiàng)目建立電信對(duì)話系統(tǒng),此系統(tǒng)可以使人與計(jì)算機(jī)“接線員”對(duì)話以獲得信息。此對(duì)話系統(tǒng)采用了O'Donnell、Berry、Martin等語言學(xué)者的語言交流模型,由兩部分組成:交流狀態(tài)網(wǎng)絡(luò)和一系列行為模式選項(xiàng)。行為模式選項(xiàng)由交流狀態(tài)決定,而每一個(gè)行為指令都會(huì)引起交流狀態(tài)的改變。

另一對(duì)話系統(tǒng)由KOMET自然語言生成小組和布達(dá)佩斯大學(xué)合作建立,目標(biāo)是探索德語語言生成,找到適合語境、恰當(dāng)交互方式的語調(diào)控制方式(Teich,1999)。此系統(tǒng)依靠鼠標(biāo)和鍵盤輸入,輸出的是基于韓禮德韻律性的帶有語調(diào)控的德語。

雖然現(xiàn)在有許多人機(jī)對(duì)話系統(tǒng),也可以完成特定的任務(wù),例如已經(jīng)有不少省份開始使用英語人機(jī)對(duì)話系統(tǒng)進(jìn)行中高考英語聽力口語測試,但這些系統(tǒng)都不是系統(tǒng)功能語言學(xué)框架內(nèi)的。不過可以預(yù)見,在不久的將來系統(tǒng)功能語言學(xué)一定會(huì)研究出應(yīng)用更加廣泛的人機(jī)對(duì)話系統(tǒng)。

六、總結(jié)

歸納系統(tǒng)功能語言學(xué)在自然語言處理中的應(yīng)用具有重要意義,在此過程中,我們不僅梳理了系統(tǒng)功能語言學(xué)在各分支領(lǐng)域的應(yīng)用情況,同時(shí)學(xué)到了很多新知識(shí),遭遇了許多新挑戰(zhàn)。雖然應(yīng)用廣泛,但真正基于系統(tǒng)功能語言學(xué)的人機(jī)對(duì)話系統(tǒng)還未出現(xiàn),語法的復(fù)雜度依然很高,有許多問題暫時(shí)還無法解決,比如基于語義的智能計(jì)算系統(tǒng)等。

隨著人工神經(jīng)網(wǎng)絡(luò)技術(shù)的興起,人們有可能采用聯(lián)結(jié)主義的新范式來建立系統(tǒng)功能語言學(xué)的計(jì)算模型(李學(xué)寧,張德祿2012)。系統(tǒng)功能語言學(xué)者正在不斷努力實(shí)現(xiàn)系統(tǒng)功能語言學(xué)理論的計(jì)算表征,促進(jìn)系統(tǒng)功能語言學(xué)的新發(fā)展。

[1]Elke Teich.Systemic Functional Grammar in Natural Language Generation[M].London & New York:CASSEL,1999.

[2]Fawcett R.P.&Tucker G.H.Demonstration of GENESYS:a very large semantically based systemic functional grammar[C].Helsinki,1990.

[3]Hutchins,John.Machine translation:past,present,future[J].Chichester,Ellis Horwood,1986.

[4]Kress,Gunther,Ruqaiya Hasan &James R.Martin.Interview——M.A.K.Halliday May 1986[J].Social Semiotics,1992.

[5]Mann,W.C.a(chǎn)nd Matthiessen C.M.I.M.Demonstration of the Nigel Text Generation Computer Program[J].Ablex,Norwood,NJ,1985.

[6]O'Donnell,M.a(chǎn)nd Bateman,J.A.SFL in computational contexts:a contemporary history [M].Equinox:London,2005.

[7]Winograd,T.Understanding Natural Language[M].Academic Press,New York,1972.

[8]李學(xué)寧,張德祿.系統(tǒng)功能語言學(xué)的形式化進(jìn)程——兼評(píng)《系統(tǒng)功能語法在自然語言生成中的應(yīng)用》[J].山東外語教學(xué),2012,(1):27~32.

[9]馮志偉.自然語言處理的形式模式[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2010.

[10]胡壯麟,朱永生,張德祿,李戰(zhàn)子.系統(tǒng)功能語言學(xué)概論[M].北京:北京大學(xué)出版社,2005.

[11]朱永生,嚴(yán)世清.系統(tǒng)功能語言學(xué)多維思考[M].上海:上海外語教育出版社,2001.

猜你喜歡
韓禮德語言學(xué)語法
跟蹤導(dǎo)練(二)4
KEYS
Keys
Book 5 Unit 1~Unit 3語法鞏固練習(xí)
政治演講語篇的人際功能分析
系統(tǒng)功能語法在語言教學(xué)中的應(yīng)用
認(rèn)知語言學(xué)與對(duì)外漢語教學(xué)
從人際功能的角度來研究《伊芙琳》和《死者》
Halliday and Systemic—Functional Grammar
語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
新营市| 云梦县| 东兴市| 安溪县| 中西区| 朝阳区| 鄱阳县| 博兴县| 绥宁县| 磐石市| 桑植县| 仁寿县| 德惠市| 上思县| 攀枝花市| 酒泉市| 沈阳市| 瑞安市| 汝南县| 兴文县| 沾化县| 新安县| 丹巴县| 水富县| 汝南县| 台湾省| 博白县| 五原县| 雷波县| 三明市| 三门县| 平凉市| 雅江县| 宁城县| 石屏县| 芦山县| 兰西县| 曲松县| 子长县| 彰化市| 历史|