国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

組合范疇語法(CCG)的計(jì)算語言學(xué)價(jià)值

2016-10-26 08:15:26
關(guān)鍵詞:經(jīng)驗(yàn)主義理性主義文法

陳 鵬

(1.北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083; 2.中國社會科學(xué)院 哲學(xué)所,北京 100732)

?

組合范疇語法(CCG)的計(jì)算語言學(xué)價(jià)值

陳鵬1,2

(1.北京語言大學(xué) 信息科學(xué)學(xué)院,北京100083; 2.中國社會科學(xué)院 哲學(xué)所,北京100732)

組合范疇語法(CCG)是在AB演算基礎(chǔ)上進(jìn)行擴(kuò)展而產(chǎn)生的范疇語法。從語法理論視角看,CCG是一種詞匯形式化的方法;從計(jì)算語言學(xué)視角看,CCG屬于一類適度上下文相關(guān)文法;從邏輯語義學(xué)視角看,CCG在句法與語義的接口方面非常融洽。無論是CCG語言的、計(jì)算的,還是邏輯的特征,都使得 CCG非常適用于自然語言信息處理,對于計(jì)算語言學(xué)具有很好的理論和實(shí)際價(jià)值。

組合范疇語法;語法理論;計(jì)算語言學(xué);邏輯語義學(xué);自然語言信息處理;適度上下文相關(guān)文法;句法與語義接口融洽

一、引言

肯尼斯·丘奇(Kenneth Church)于2011年在《語言技術(shù)中的語言學(xué)問題》雜志上發(fā)表了一篇題為APendulumSwungTooFar的文章[1]。文中通過整理、分析和研究自1940年以來關(guān)于自然語言處理的文章,發(fā)現(xiàn)了一個(gè)非常有趣的規(guī)律,即如果將自然語言處理的文獻(xiàn)劃分為“理性主義”和“經(jīng)驗(yàn)主義”兩大類的話,雙方的優(yōu)勢局面出現(xiàn)連續(xù)振蕩的現(xiàn)象,而且存在一個(gè)每20年一個(gè)周期的規(guī)律。兩大類研究的巔峰期分別是:(1)20世紀(jì)50年代,以香農(nóng)(Shannon)、斯金納(Skinner)、弗斯(Firth)和哈里斯(Harris)為代表的經(jīng)驗(yàn)主義高峰時(shí)期;(2)20世紀(jì)70年代由喬姆斯基(Chomsky)、明斯基(Minsky)所主導(dǎo)的理性主義全盛時(shí)期;(3)20世紀(jì)90年代由IBM語音團(tuán)隊(duì)(IBM Speech Group)、AT&T貝爾實(shí)驗(yàn)室(AT&T Bell Labs)所引發(fā)的新一輪經(jīng)驗(yàn)主義巔峰時(shí)代。

當(dāng)然,對丘奇的研究,或許我們可以說,理性主義和經(jīng)驗(yàn)主義并沒有非常清晰的界定。此外,許多基于算法的統(tǒng)計(jì)方法和深度學(xué)習(xí)方法在傳統(tǒng)分析數(shù)學(xué)的視角上是一種經(jīng)驗(yàn)主義的做法,但是若將圖靈機(jī)模型本身看成是一個(gè)理性主義產(chǎn)物,那么很多的所謂“經(jīng)驗(yàn)主義”方法其實(shí)仍然不失為一種“理性主義”成果。姑且拋開對丘奇研究的一些爭議,他的文章對當(dāng)前學(xué)界的一些批判和反思是完全值得我們深思的:

(1) 在實(shí)用主義的驅(qū)動(dòng)下,計(jì)算語言學(xué)領(lǐng)域的教與學(xué)的工作向統(tǒng)計(jì)學(xué)極度傾斜,而邏輯、代數(shù)等基礎(chǔ)學(xué)科卻得不到應(yīng)有的發(fā)展。

(2) 在經(jīng)驗(yàn)主義的誘惑下,學(xué)者傾向于采用統(tǒng)計(jì)學(xué)方法把唾手可得的低枝果實(shí)采摘下來,而極少人愿意去攀登更具挑戰(zhàn)性和科研風(fēng)險(xiǎn)的理性主義高峰,為人類的自然語言處理甚至人工智能開拓一條新的道路。

盡管已經(jīng)過去近5年,然而丘奇所憂慮的問題卻日益凸顯。當(dāng)今的計(jì)算技術(shù)發(fā)展日新月異,大數(shù)據(jù)技術(shù)甚至推動(dòng)整個(gè)科學(xué)領(lǐng)域發(fā)生范式轉(zhuǎn)換,形成所謂的“數(shù)據(jù)密集型科學(xué)研究”。在這種環(huán)境下,在整個(gè)計(jì)算語言學(xué)領(lǐng)域,“經(jīng)驗(yàn)主義”更是以絕對壓倒性的優(yōu)勢浩蕩前進(jìn),似乎只要在摩爾定律*摩爾定律:集成電路的復(fù)雜度(可被間接理解為芯片上可容納的晶體管數(shù)目)每兩年增加1倍,性能也將提升1倍。、吉爾德定律*吉爾德定律:主干網(wǎng)帶寬的增長速度至少是運(yùn)算性能增長速度的3倍。的指導(dǎo)下,只要計(jì)算機(jī)速度不斷加快、存儲容量不斷擴(kuò)充、網(wǎng)絡(luò)速度不斷提升,一切問題都會迎刃而解。

然而,事實(shí)并非如此。實(shí)事求是講,近些年,隨著計(jì)算和網(wǎng)絡(luò)速度與效率的提升,自然語言信息處理能力得到極大的改善,能夠處理的語言信息容量、處理的速度和效率也取得了較大的突破。正如丘奇所說,這些更多的是簡單地應(yīng)用新技術(shù)工具而唾手可得的,那些計(jì)算語言學(xué)中的“硬核”問題,例如語義問題,并未得到解決。應(yīng)該說,如果不解決計(jì)算語言學(xué)中的“硬核”問題,那么我們在語言信息處理方面的成果只能是量變,而不能夠形成質(zhì)變。

反觀近些年來自然語言信息處理的“理性主義”路線,相比而言,這條研究路線冷清了許多,僅僅是少量的歐洲傳統(tǒng)的自然語言邏輯學(xué)派和一些擁有堅(jiān)定“理性主義”信念的研究者在從事這方面的研究工作。但是,在這些研究工作中,我們發(fā)現(xiàn)了一條非常有趣且頗具價(jià)值的研究路徑:它源于理性主義,但又不局限于理性主義,其根基已經(jīng)逐步蔓延到經(jīng)驗(yàn)主義的土壤中,并從中吸取養(yǎng)分,在諸多的大規(guī)模自然語言處理中獲得廣泛應(yīng)用。同時(shí),對于一些自然語言處理的“硬核”問題也展開了探索。這項(xiàng)研究就是基于組合范疇語法(CCG)的自然語言信息處理應(yīng)用。

二、 組合范疇語法CCG

組合范疇語法CCG應(yīng)該算作是20世紀(jì)末的理性主義產(chǎn)物,它在20世紀(jì)80至90年代開始出現(xiàn),在AB演算基礎(chǔ)上進(jìn)行擴(kuò)展而產(chǎn)生,其核心的擴(kuò)展在于“組合”,即基于范疇語法增添了函子范疇的組合運(yùn)算,從而增強(qiáng)了表達(dá)與描述能力。另一方面,由于組合規(guī)則與柯里的組合算子非常接近,因此每個(gè)組合規(guī)則在分析過程中都具有一個(gè)語義解讀,這樣使得句法派生的同時(shí),又能夠構(gòu)造謂詞-論元結(jié)構(gòu)作為語義解讀。

2000年以來,CCG就已經(jīng)廣泛地應(yīng)用在計(jì)算語言學(xué)的各個(gè)方面,可以說CCG是計(jì)算語言學(xué)中的一個(gè)全棧模型,從自然語言的分析、轉(zhuǎn)換到生成等各方面都得到普遍應(yīng)用[2]。之所以如此,主要有如下兩大方面的原因。

1.在基于CCG的自然語言信息處理系統(tǒng)中,很好地協(xié)調(diào)了計(jì)算、規(guī)則和算法幾方面的因素

現(xiàn)代的自然語言信息處理系統(tǒng)都可以抽象為一個(gè)三元組〈 R,C,O〉中,其中,R代表規(guī)則、C代表計(jì)算、O表示Oracle,規(guī)則是整個(gè)語言信息中的內(nèi)核,例如上下文無關(guān)文法(CFG)或者組合范疇文法(CCG),計(jì)算是在計(jì)算系統(tǒng)中實(shí)現(xiàn)的算法,O表示一些經(jīng)驗(yàn)性的語料或者人為的干涉等。

要想系統(tǒng)發(fā)揮最佳作用,〈 R,C,O〉3個(gè)部件需要相互協(xié)同。例如,如果選擇了一種上下文無關(guān)文法來描述自然語言,那么在對該語言進(jìn)行分析時(shí),就需要設(shè)計(jì)一種多項(xiàng)式復(fù)雜性的計(jì)算算法,同時(shí)能夠有效地進(jìn)行消歧。甚至,如果可能的話,需要對上下文無關(guān)文法的模型進(jìn)行概率化,引入一些優(yōu)選機(jī)制來對生成規(guī)則進(jìn)行排序,從而提高處理效率和擴(kuò)展處理的規(guī)模。

〈 R,C,O〉三元組3個(gè)部件相互協(xié)同,體現(xiàn)了計(jì)算語言學(xué)中理性主義與經(jīng)驗(yàn)主義的調(diào)和。正如我國計(jì)算語言學(xué)家馮志偉所主張的,自然語言處理應(yīng)該將理性主義與經(jīng)驗(yàn)主義結(jié)合起來[3]。在自然語言處理中,理性主義與經(jīng)驗(yàn)主義各有優(yōu)缺點(diǎn)。理性主義更貼近自然語言本身,更注重自然語言本身的規(guī)則與規(guī)律,能有效處理遠(yuǎn)距離的主語和謂語動(dòng)詞之間的一致關(guān)系(subject-verb agreement)、wh 移位(wh-movement)等遠(yuǎn)距離依存關(guān)系(long-distance dependencies)問題;經(jīng)驗(yàn)主義在大規(guī)模和工程化方面具有顯著優(yōu)勢,結(jié)合強(qiáng)大的計(jì)算和信息處理能力,可以進(jìn)行語言的自動(dòng)學(xué)習(xí)和統(tǒng)計(jì)分析[3]。

自然語言信息處理系統(tǒng)通常需要這3個(gè)部件之間的協(xié)同,同時(shí)也受到這3個(gè)部件之間的彼此約束。例如,如果系統(tǒng)采用了上下文相關(guān)文法(1型文法),那么基于該文法,對自然語言進(jìn)行分析過程的計(jì)算復(fù)雜性通常都是NP。反過來,如果你選擇一個(gè)計(jì)算復(fù)雜性較低的文法,例如正則文法(0型文法),那么又存在該文法在描述和表達(dá)能力上不夠強(qiáng)的問題。詳細(xì)的關(guān)聯(lián)情況如圖1所示。

圖1 文法形式化與計(jì)算復(fù)雜性的關(guān)聯(lián)

說明:在文法描述上,存在0型文法到3型文法,其中涉及一個(gè)表達(dá)能力和計(jì)算能力的折衷;在計(jì)算復(fù)雜度方面,存在多項(xiàng)式可計(jì)算(P)、指數(shù)可計(jì)算(NP)、不可計(jì)算(圖靈機(jī)意義下的不可計(jì)算)3個(gè)不同的層次。

CCG在規(guī)則與計(jì)算上做了一個(gè)很好的折衷。CCG在文法的描述和表達(dá)能力上是介于上下文無關(guān)文法(2型文法)和上下文相關(guān)文法(1型文法)之間,屬于一類適度上下文相關(guān) (mildly context sensitive) 文法[4]。所謂的適度上下文相關(guān)語言具有如下特點(diǎn):

(1) 有限的交叉依賴。

(2) 連續(xù)增長,即如果存在一個(gè)界值k,只要有兩個(gè)語句之間的長度差異超過k,那么必然存在一個(gè)語句,其長度介于這兩個(gè)語句之間。

(3) 分析的時(shí)間復(fù)雜度是多項(xiàng)式復(fù)雜度。

除了很好地調(diào)和計(jì)算、算法和規(guī)則幾個(gè)因素之外,CCG本身具有一些非常有益于自然語言信息處理的特性。

2.CCG在文法形式化、語言與計(jì)算和邏輯語義等方面都具有非常有益于自然語言的計(jì)算機(jī)信息處理的特性

從自然語言的信息處理視角來看,CCG的優(yōu)勢主要可以從以下幾個(gè)方面來闡述:

(1) 從語法理論方面來看,CCG是詞匯形式化的思路,是以詞作為單位的形式化方法。在進(jìn)行大規(guī)模的自然語言信息處理過程中,CCG的詞匯形式化在處理的信息規(guī)模、計(jì)算效率和復(fù)雜性方面都有比較明顯的優(yōu)勢。

(2) 從計(jì)算語言學(xué)方面來看,CCG屬于一類適度上下文相關(guān)文法。適度上下文相關(guān)文法在描述和表達(dá)能力上要明顯優(yōu)于上下文無關(guān)文法,能描述一些在自然語言中經(jīng)常出現(xiàn)的交叉依賴(Crossing dependencies)現(xiàn)象。分析適度上下文相關(guān)語言的時(shí)間復(fù)雜度通常是在多項(xiàng)式時(shí)間復(fù)雜度上,這對于計(jì)算而言是非常融洽的。

(3) 從邏輯語義學(xué)方面來看,CCG是一種組合性的文法。此外,句法與語義之間融洽的接口使得CCG在對自然語言的語義進(jìn)行分析和計(jì)算時(shí)非常便捷。

三、CCG的性質(zhì):詞匯形式化以及適度上下文相關(guān)特性

首先,CCG是一種基于詞匯的形式化理論,即CCG將自然語言生成過程凝縮在詞條的范疇構(gòu)造上[5]。例如:

(1) S → NP VP

VP → TV NP

TV → {喜歡,愛,…}

(2) 喜歡:= (SNP)/NP

式(1) 是一個(gè)上下文無關(guān)文法所表達(dá)的產(chǎn)生式規(guī)則,式(2)是對單個(gè)詞指派范疇??梢哉f通過式(2)中所指派的詞法范疇,捕獲了式(1)中的句法規(guī)則。

通過式(2)中的范疇指派,將及物動(dòng)詞“喜歡”定義為一個(gè)函數(shù),并說明了其論元的類型和方向以及結(jié)果的類型。例如:“喜歡”作為一個(gè)函數(shù),其從右邊接受一個(gè)類型為NP的論元,同時(shí)計(jì)算結(jié)果的類型為SNP。

CCG體現(xiàn)的是一種詞本位的思想,形式化聚焦在詞條上,而規(guī)則是相對簡潔和緊致的。這種詞匯形式化特性在自然語言信息處理上具有如下優(yōu)勢:

1.可以為每一種自然語言構(gòu)建一個(gè)CCG范疇語料庫

CCG范疇語料庫中的內(nèi)容包括覆蓋每一個(gè)詞的范疇庫(通常一個(gè)詞匯對應(yīng)1個(gè)或者多個(gè)范疇)、一些典型語句的加標(biāo)記CCG范疇派生樹庫。

這樣的CCG范疇語料庫可以為自然語言處理提供如下用途:

(1)作為詞法-范疇字典,可以在語料庫中檢索和查找任何一個(gè)詞所對應(yīng)的范疇(當(dāng)然,有可能出現(xiàn)多個(gè)范疇)。

(2)作為自然語言分析過程中的訓(xùn)練語料和測試模型。在開發(fā)學(xué)習(xí)器和分析器的過程中,可以使用語料庫進(jìn)行學(xué)習(xí)器的訓(xùn)練語料,同時(shí)也作為測試分析器的精度和準(zhǔn)確性的測試樣本。

目前,已經(jīng)有許多語種都開發(fā)出相應(yīng)的CCG范疇語料庫,有些是重新構(gòu)建,有些是基于以往的一些語料庫進(jìn)行自動(dòng)轉(zhuǎn)換而來。例如:從賓州樹庫轉(zhuǎn)換而得到的英語CCGBank、漢語CCGBank、德語CCGBank,清華大學(xué)漢語樹庫轉(zhuǎn)換而來的清華CCGBank等。

2.極大地促進(jìn)大規(guī)模自然語言分析工程化的可行性

在基于文法的大規(guī)模自然語言分析應(yīng)用中,普遍存在著歧義性問題,通常每一個(gè)句子成分都會對應(yīng)大量的分析,從而使得解析空間爆炸式增長,極大地提升了各類復(fù)雜性,使得大規(guī)模應(yīng)用難以實(shí)施與開展。

基于CCG的自然語言分析過程大致可以為分成兩階段:第一階段是將句子中的詞指派詞法范疇,第二個(gè)階段便是使用CCG組合規(guī)則組合這些范疇。在第一階段中,由于有些詞對應(yīng)的可能范疇多達(dá)上百個(gè)*例如,在一個(gè)我們從賓州漢語樹庫轉(zhuǎn)換而來的漢語CCGBank中,“的”一詞對應(yīng)的范疇就有181個(gè)之多。,如果采取完全指派,那么大規(guī)模應(yīng)用顯然是行不通的。因此,在CCG范疇語料庫基礎(chǔ)上,采用了一種稱為“超級標(biāo)記器”(supertagging)的技術(shù)來減少范疇規(guī)模。

超級標(biāo)記器是在進(jìn)行自然語言分析之前,使用統(tǒng)計(jì)序列標(biāo)記技術(shù)(statistical sequence tagging techniques)為語句中的每一個(gè)詞都擇優(yōu)指派少量的詞法范疇,其擇優(yōu)標(biāo)準(zhǔn)采取的是一種概率模型:

其中,fi代表一種特征,λi是其對應(yīng)的權(quán)重,Z(x)是一個(gè)規(guī)范化常量。語境是圍繞目標(biāo)詞的5-詞的窗口,特征通過窗口內(nèi)的每個(gè)詞和每個(gè)詞的詞性來定義。

這種超級標(biāo)記技術(shù),極大地提高了分析的速度和效率。斯蒂芬·克拉克(Stephen Clark)和詹姆斯·柯倫( James R.Curran)的研究表明,采用超級標(biāo)記技術(shù)的CCG分析器比同類型的分析器的速度提升了一個(gè)量級(根據(jù)他們的實(shí)驗(yàn),在他們給定的實(shí)驗(yàn)環(huán)境下,采用超級標(biāo)記技術(shù)的分析器比未采用超級標(biāo)記技術(shù)的分析器的速度提高了77倍)[6]。

其次,CCG是一種適度上下文相關(guān)文法。關(guān)于自然語言究竟位于喬姆斯基形式文法的哪一個(gè)層級尚存在爭議。首先,喬姆斯基本人否定自然語言是正則語言,但是他也不確認(rèn)自然語言是否是上下文無關(guān)語言。有許多學(xué)者根據(jù)自然語言出現(xiàn)的一些復(fù)雜交叉依賴的現(xiàn)象,認(rèn)為自然語言必定是超越上下文無關(guān)語言,而接近于上下文相關(guān)語言。喬希(Joshi)在1985年對自然語言的形式化層次做了一個(gè)假設(shè):人類的自然語言是適度上下文相關(guān)的[7]。總之,雖然對自然語言究竟屬于哪一形式語言層次尚未有定論,但大多數(shù)學(xué)者還是傾向于自然語言應(yīng)該介于上下文無關(guān)語言和上下文相關(guān)語言之間,類似于適度上下文相關(guān)語言。

CCG就是一種適度上下文相關(guān)文法,其優(yōu)勢是處理一些內(nèi)在于語言構(gòu)造的遠(yuǎn)距離依賴現(xiàn)象。在使用基于CCG的分析器進(jìn)行語句分析的時(shí)候,能夠直接融入遠(yuǎn)距離依賴分析,而不需要像其他一些分析器那樣,在后處理階段中再去處理遠(yuǎn)距離依賴。例如,在CCG中可以處理一些非常復(fù)雜的交叉依賴現(xiàn)象。

例1das mer d’chind em Hans es huus l?nd h?lfe aastriiche.

that we let the children help Hans paint the house

我們讓孩子們幫助漢斯粉刷房間

類似例1這種交叉依賴是不能夠由上下文無關(guān)文法來描述的。

CCG的適度上下文相關(guān)文法特性使得它在描述與表達(dá)能力和計(jì)算復(fù)雜度之間取得一個(gè)較好的折衷。我們可以基于上下文無關(guān)文法的移位-歸約(Shift-Reduce)算法,通過修改和增加操作符:{SHIFT,COMBINE,UNARY,FINISH},便可以獲得基于CCG的移位-歸約分析算法[8]。

例2我愛真理

分析見圖2。

圖2 基于CCG的移位-歸約算法示意:“我愛真理”

四、CCG性質(zhì):組合性以及句法與語義接口的融洽性

CCG為句法提供非常直觀的組合語義,使得句法與語義的接口是透明的。CCG只需要在詞條項(xiàng)中增加語義標(biāo)記,并解釋少量的組合規(guī)則,便能提供組合語義?;贑CG透明的句法-語義接口,分析器能夠直接或者間接地訪問謂詞-論元結(jié)構(gòu)。CCG的組合性以及句法與語義接口的融洽性使得分析、處理大規(guī)模自然語言的語義成為可能。

組合原則是邏輯語義學(xué)的基本原則,是其基礎(chǔ)和出發(fā)點(diǎn)。CCG直觀地體現(xiàn)了意義組合原則,其規(guī)則中語法與語義嚴(yán)格對應(yīng),如表1所示。

表1 CCG中范疇與語義規(guī)則嚴(yán)格對應(yīng)

CCG通常可以進(jìn)行句法與語義并行推演,例如:

例3Utah borders Iaho

Utah:= NP :utah

Idaho:= NP :idaho

borders:= (SNP)/NP :λx.λy.

borders(y,x)

在計(jì)算語言學(xué)中,存在著一些“硬核”任務(wù),或者說是最為困難的任務(wù),其中之一就是對自然語言的語義分析,即將自然語言語句映射為表征其意義的形式化(通常是某種邏輯式)。通過語義分析,將一個(gè)自然語言句子,按照特定的句法,解析成邏輯表達(dá)式,基于這些邏輯表達(dá)式可以實(shí)現(xiàn)邏輯和知識操作,并構(gòu)建相應(yīng)的頂層應(yīng)用,例如自動(dòng)問答系統(tǒng)和知識推理系統(tǒng)等。

CCG在語義分析方面具有較好的優(yōu)勢,除了能夠結(jié)合一些統(tǒng)計(jì)、學(xué)習(xí)的方法之外,CCG還能夠進(jìn)行一個(gè)規(guī)則映射。一方面,CCG可以通過類似概率CCG的模型來解決歧義解析問題。另外,CCG的句法與語義接口的融洽性非常有助于語義學(xué)習(xí),例如,盧克·澤特爾莫耶(Luke S.Zettlemoyer)等人基于CCG開發(fā)了一個(gè)語義分析框架[8],在該框架中使用了一些規(guī)則,將邏輯式反向映射為范疇與語義,其規(guī)則為:

a.對于一個(gè)常元c,那么其輸出的范疇是:

NP:c

b.對于一個(gè)一元謂詞p,那么其輸出的范疇是:

N :λx.p(x)

或者

SNP :λx.p(x)

N/N :λg.λx.p(x)∧g(x)

c.對于一個(gè)二元謂詞p,那么其輸出的范疇是:

(SNP)/NP :λx.λy.p(y,x)

(SNP)/NP:λx.λy.p(x,y)

N/N:λg.λx.p(x,c)∧g(x)

d.對于一個(gè)二元謂詞p和一個(gè)常元c,其輸出的范疇是:

N/N:λg.λx.p(x,c)∧g(x)

e.對于一元函數(shù)f,其輸出的范疇是:

NP/N:λg.argmax/min(g(x),λx.f(x))

S/NP:λx.f(x)

例如,對于例3中對應(yīng)的邏輯式:

borders(utah,idaho)

由于utah和idaho都對應(yīng)兩個(gè)常元,因此有:

NP:utah

NP:idaho

此外,borders對應(yīng)一個(gè)二元謂詞,那么有:

(SNP)/NP :λx.λy.borders(y,x)

CCG的反向映射不僅能夠輔助大規(guī)模的語義學(xué)習(xí),而且使得CCG能夠作為機(jī)器翻譯中的中介語言,實(shí)現(xiàn)由源語言到邏輯表達(dá)式,再由邏輯表達(dá)式到“范疇和語義詞項(xiàng)”,再到目標(biāo)語言的一個(gè)三階段機(jī)器翻譯的方法,這樣的機(jī)器翻譯將使得“意義保真”。

五、結(jié)論

以詞匯為核心,能夠描述一類適度上下文相關(guān)語言,同時(shí)句法與語義可以透明地相互轉(zhuǎn)換是組合范疇語法CCG的幾個(gè)非常顯著的特征,這些特征結(jié)合一些統(tǒng)計(jì)和學(xué)習(xí)方法,能夠?qū)ψ匀徽Z言信息處理中一些非常復(fù)雜的“硬核”問題的解決有所幫助。

[1]CHURCH K.A Pendulum Swung Too Far[J].Linguistic Issues in Language Technology,2011,6(5):1-27.

[2]The tombinatory categorial grammar site[EB/OL].[2016-03-27].http://groups.inf.ed.ac.uk/ccg/publications.html.

[3]馮志偉.自然語言處理中的理性主義和經(jīng)驗(yàn)主義[C].全國民族語言文字信息學(xué)術(shù)研討會,2007.

[4]EDWARD P S.Varieties of crossing dependencies:structure dependence and mild context sensitivity[J].Cognitive Science,2004,28:699-720.

[5]鄒崇理.關(guān)于組合范疇語法CCG[J].重慶理工大學(xué)學(xué)報(bào)(社會科學(xué)),2011,25(8):1-5.

[6]CLARK S,CURRAN J R.The importance of supertagging for wide-coverage CCG parsing[C].International conference on computational linguistics.Association for computational linguistics,2004:282-288.

[7]JOSHI A K.How much context sensitivity is necessary for characterizing structural descriptions-tree adjoining grammars[C].Natural Language Processing,1983.

[8]ZHANG Y,CLARK S.Shift-Reduce CCG Parsing[C].Meeting of the association for computational linguistics:human language technologies,proceedings of the conference.Portland:[S.l.],2011:683-692.

[9]ZETTLEMOYER L S,COLLINS M.Learning to map sentences to logical form:structured classification with probabilistic categorial grammars[J/OL].[2016-01-16].Eprint Arxiv,http://arxiv.org/abs/1207.1420,2012:658-666.

(責(zé)任編輯張佑法)

Computational Linguistic Value of Combination Category Grammar

CHEN Peng1,2

(1.School of Information Sciences,Beijing Language and Culture University, Beijing 100083, China;2.Philosophy Institute, Chinese Academy of Social Sciences, Beijing 100732, China)

Combination Category Grammar (CCG) is a category grammar extended on the basis of AB calculus. From the perspective of grammar theory, CCG is a lexical formalization; from the perspective of computational linguistics, CCG belongs to a class of mildly context-sensitive grammar; from the perspective of logical semantics, CCG has a friendly interface between syntax and semantics. Either CCG’s language characteristic or logic computational characteristic, even logic characteristic makes CCG much suitable for natural language processing, which is theoretically and practically valuable to computational linguistics.

Combination Category Grammar; grammar theory ; computational linguistics; logical semantics; natural language processing; mildly context-sensitive grammar; friendly interface between syntax and semantics

10.3969/j.issn.1674-8425(s).2016.08.002

主持人語:

中國邏輯學(xué)會會長鄒崇理 研究員

B81

A

1674-8425(2016)08-0005-07

《組合范疇語法(CCG)的計(jì)算語言學(xué)價(jià)值》一文,比較深刻地刻畫了CCG的主要性質(zhì)。其觀點(diǎn)切中了當(dāng)前計(jì)算語言學(xué)界的弊端,即大部分研究者都埋頭做關(guān)于自然語言處理系統(tǒng)的具體工作,這些是容易收到實(shí)效的“低枝果實(shí)”,而不愿意去仰望理論的星空,做具有科學(xué)探險(xiǎn)性質(zhì)的理論探討。CCG就是計(jì)算語言學(xué)者理性主義思考的結(jié)果,值得計(jì)算語言學(xué)和邏輯學(xué)界的關(guān)注。

為了深化對社會選擇理論的認(rèn)識,《基于理由的偏好防策略投票方案》一文,以丹尼爾·歐歇爾森和斯科特·溫斯坦定義的基于理由的偏好作為基本的偏好關(guān)系,研究基于理由的偏好聚合問題,并嘗試構(gòu)造一個(gè)基于理由的偏好投票方案,進(jìn)而對其是否具有防策略性進(jìn)行了研究,具有一定的理論創(chuàng)新意義和現(xiàn)實(shí)價(jià)值。

《論邏輯真理的范圍》一文,通過考察兩大類邏輯系統(tǒng)——實(shí)在論邏輯系統(tǒng)和反實(shí)在論邏輯系統(tǒng),發(fā)現(xiàn)Henkin的方法能夠給出這些系統(tǒng)的完全性證明。用這種方法可以構(gòu)造出包含所有系統(tǒng)邏輯真理的集合,而這個(gè)集合就是邏輯真理的范圍。該文做出結(jié)論:完全性是一個(gè)劃分邏輯真理和非邏輯真理的標(biāo)準(zhǔn)。

猜你喜歡
經(jīng)驗(yàn)主義理性主義文法
關(guān)于1940 年尼瑪抄寫的《托忒文文法》手抄本
包豪斯理性主義設(shè)計(jì)思想芻議
從理性主義到歷史唯物主義——馬克思利益觀的形成理路研究
批判的語境經(jīng)驗(yàn)主義:數(shù)據(jù)與語境
——第十七屆《哲學(xué)分析》論壇專題研討之二
思 辨
中國詩歌(2019年6期)2019-11-15 00:26:47
走出經(jīng)驗(yàn)主義、拿來主義迷津——蘇寧峰《表現(xiàn)論視野下中學(xué)語文的批判性解讀》序
走出經(jīng)驗(yàn)主義、拿來主義迷津——蘇寧峰《表現(xiàn)論視野下中學(xué)語文的批判性解讀》序
Similarity measurement method of high-dimensional data based on normalized net lattice subspace①
A nearest neighbor search algorithm of high-dimensional data based on sequential NPsim matrix①
文法有道,為作文注入音樂美
孝昌县| 临海市| 永胜县| 福海县| 瑞昌市| 芦溪县| 三都| 宁乡县| 惠安县| 石景山区| 菏泽市| 榆社县| 怀远县| 兴义市| 黄龙县| 商洛市| 谢通门县| 沙湾县| 临泽县| 赤水市| 南岸区| 吉首市| 永丰县| 山西省| 万安县| 库车县| 龙山县| 阜新| 桐乡市| 河北省| 西昌市| 敖汉旗| 红安县| 宁夏| 双牌县| 时尚| 咸阳市| 垫江县| 桃江县| 崇阳县| 泰来县|