鄒崇理
(1.湘潭大學(xué) 碧泉學(xué)院·哲學(xué)與歷史文化學(xué)院, 湖南 湘潭 411105; 2.中國(guó)社會(huì)科學(xué)院 哲學(xué)研究所, 北京 100732)
自20世紀(jì)50年代初計(jì)算語(yǔ)言學(xué)家巴-希勒爾把范疇語(yǔ)法應(yīng)用于機(jī)器翻譯以來(lái),近70年過(guò)去了,當(dāng)今計(jì)算機(jī)人工智能科學(xué)技術(shù)的發(fā)展一日千里,范疇語(yǔ)法的現(xiàn)代版本組合范疇語(yǔ)法對(duì)此發(fā)揮出更加積極的作用。隨著計(jì)算機(jī)人工智能時(shí)代邏輯的計(jì)算轉(zhuǎn)向,推理論證的主體已不僅僅限于人類(lèi),還可能是機(jī)器,同時(shí)分析和理解自然語(yǔ)言的主體也可能是機(jī)器,適合于機(jī)器分析自然語(yǔ)言的組合范疇語(yǔ)法便應(yīng)運(yùn)而生。組合范疇語(yǔ)法采納邏輯的規(guī)則對(duì)自然語(yǔ)言的句法和語(yǔ)義進(jìn)行推演計(jì)算,推演過(guò)程同時(shí)也是計(jì)算過(guò)程。在組合范疇語(yǔ)法針對(duì)大規(guī)模的自然語(yǔ)言真實(shí)文本構(gòu)建的分析樹(shù)庫(kù)那里,所使用的規(guī)則突破邏輯的剛性要求而產(chǎn)生柔性推廣。此外,組合范疇語(yǔ)法樹(shù)庫(kù)針對(duì)自然語(yǔ)言進(jìn)行語(yǔ)義表征的工作還面臨從豐富的“現(xiàn)代邏輯工具箱”中進(jìn)行選擇的問(wèn)題。
組合范疇語(yǔ)法作為范疇語(yǔ)法的現(xiàn)代版本,其源頭是范疇語(yǔ)法。范疇語(yǔ)法最早誕生于20世紀(jì)30—50年代,波蘭的愛(ài)裘凱維茨和美國(guó)的巴-希勒爾提出了范疇語(yǔ)法,古典范疇語(yǔ)法系統(tǒng)是所謂AB-演算[1]。范疇語(yǔ)法的基本思想是:從計(jì)算的視角看待語(yǔ)法,即把自然語(yǔ)言的句法構(gòu)造過(guò)程看作是一種逐層逐級(jí)的計(jì)算過(guò)程。換言之,自然語(yǔ)言是由若干長(zhǎng)短不同的符號(hào)串構(gòu)成的集合,自然語(yǔ)言的句法構(gòu)造過(guò)程總是由較短的符號(hào)串生成較長(zhǎng)的符號(hào)串,且生成是逐層逐級(jí)的,每一步生成在范疇語(yǔ)法看來(lái)都是計(jì)算的結(jié)果。如英語(yǔ)句“John likes Mary”的構(gòu)造生成過(guò)程如下:
上例句由“l(fā)ikes”和“Mary”構(gòu)成“l(fā)ikes Mary”,再由“John”和“l(fā)ikes Mary”構(gòu)成“John likes Mary”都是計(jì)算的結(jié)果,即“l(fā)ike”對(duì)“Mary”進(jìn)行計(jì)算得到結(jié)果“l(fā)ike Mary”,由“John”和“l(fā)ike Mary”計(jì)算出“John likes Mary”。要彰顯以上構(gòu)造生成是一種計(jì)算過(guò)程,這就需要對(duì)語(yǔ)言符號(hào)串進(jìn)行代碼轉(zhuǎn)換處理,即把語(yǔ)言符號(hào)串轉(zhuǎn)換成便于計(jì)算的代碼,這個(gè)彰顯計(jì)算精神的代碼就是范疇。按照范疇語(yǔ)法的要求,從生成的初始,就把作為最小語(yǔ)言符號(hào)串的詞條轉(zhuǎn)換成范疇,即給詞條“John”指派范疇np,給詞條“l(fā)ikes”指派范疇(s p)/np,給詞條“Mary”指派范疇np。然后進(jìn)行逐層逐級(jí)的范疇運(yùn)算,運(yùn)算所得最后范疇即是整個(gè)句子的范疇,即:
范疇之間是如何進(jìn)行計(jì)算的?何以見(jiàn)得“(s p)/np”和“np”產(chǎn)生計(jì)算結(jié)果“s p”?怎樣理解范疇的運(yùn)算特征?范疇分為兩大類(lèi):原子范疇,如np(指稱(chēng)個(gè)體的專(zhuān)名或名詞短語(yǔ))和s(指稱(chēng)真值的語(yǔ)句),以及復(fù)合范疇(指稱(chēng)普通名詞、形容詞和動(dòng)詞及其詞組短語(yǔ)),如s p,(s p)/np等彰顯計(jì)算思想的函子范疇。函子范疇中的斜線(xiàn)表示運(yùn)算的方向:包含右斜線(xiàn)的函子范疇“A/B”是向右邊尋找作為運(yùn)算對(duì)象的論元范疇B,計(jì)算后獲得結(jié)果范疇A;包含左斜線(xiàn)的函子范疇“AB”是向左邊尋找論元范疇B,從而計(jì)算出結(jié)果范疇A。這兩類(lèi)基本的運(yùn)算在范疇語(yǔ)法中被概括成所謂函項(xiàng)應(yīng)用規(guī)則:
規(guī)則(>) A/B B ? A
規(guī)則(<) B AB ? A
上例分析樹(shù)先給句中的專(zhuān)名和動(dòng)詞指派范疇;再由動(dòng)詞“l(fā)ikes”的范疇“(s p)/np”對(duì)專(zhuān)名“Mary”的范疇“np”使用“>”規(guī)則進(jìn)行計(jì)算獲得動(dòng)詞短語(yǔ)“l(fā)ikes Mary”的范疇“s p”;最后由專(zhuān)名“John”的范疇“np”和動(dòng)詞短語(yǔ)“l(fā)ikes Mary”的范疇“s p”使用規(guī)則“<”計(jì)算出句子的范疇“s”。
體現(xiàn)范疇語(yǔ)法“計(jì)算”思想的函項(xiàng)應(yīng)用規(guī)則,從邏輯視角看就是一種推演,語(yǔ)法的計(jì)算也就是邏輯推演(computation = deduction),把自然語(yǔ)言的句法范疇計(jì)算看作是受邏輯規(guī)則支配的推演。我們對(duì)此給出下面的比較:
范疇的計(jì)算思想——函項(xiàng)應(yīng)用: A/B(B) = A (類(lèi)似數(shù)學(xué)的f(x) = y)
范疇的函項(xiàng)應(yīng)用規(guī)則表述: A/B B ? A
類(lèi)似命題邏輯的分離規(guī)則: B → A B ? A
所以,把范疇語(yǔ)法中的范疇看作是公式,把函子范疇中的斜線(xiàn)算子看作是公式之間的聯(lián)接詞,范疇的函項(xiàng)應(yīng)用規(guī)則就成為邏輯的推演規(guī)則或定理,再按照命題邏輯系統(tǒng)的構(gòu)造模式,就獲得了范疇類(lèi)型邏輯系統(tǒng)。換言之,范疇語(yǔ)法的范疇計(jì)算規(guī)則可以在范疇類(lèi)型邏輯系統(tǒng)中的定理那里找到邏輯的依據(jù),范疇語(yǔ)法的函項(xiàng)應(yīng)用規(guī)則“>B”的邏輯依據(jù)就是范疇類(lèi)型邏輯系統(tǒng)中的定理“A/B·B→A”。
范疇類(lèi)型邏輯的歷史進(jìn)程:從20世紀(jì)30—50年代的古典范疇語(yǔ)法AB演算[1]到20世紀(jì)50年代的Lambek演算LC[2]為范疇類(lèi)型的初始階段;20世紀(jì)八九十年代范疇類(lèi)型獲得了長(zhǎng)足發(fā)展[3];21世紀(jì)范疇類(lèi)型邏輯又涌現(xiàn)出多個(gè)方向,例如非連續(xù)的蘭貝克演算DLC[4],以及對(duì)稱(chēng)的范疇語(yǔ)法邏輯[5],等等。
范疇類(lèi)型邏輯系統(tǒng)的構(gòu)成:其基本特性分為:① 邏輯的性質(zhì),即函子范疇斜線(xiàn)算子“/”和“ ”的推演公理及其規(guī)則;② 結(jié)構(gòu)的性質(zhì),即毗連貼合算子“·”的結(jié)合或交換公理(或公設(shè))。根據(jù)不同的結(jié)構(gòu)性質(zhì),范疇類(lèi)型邏輯系統(tǒng)分為4個(gè)基本系統(tǒng):非結(jié)合與非交換的NL系統(tǒng),結(jié)合與非交換的L系統(tǒng),非結(jié)合與交換的NLP系統(tǒng)和結(jié)合且交換的LP系統(tǒng)。范疇類(lèi)型邏輯系統(tǒng)還有其Gentzen后承表述,這種表述用于解決判定問(wèn)題。范疇類(lèi)型邏輯的語(yǔ)義模型采用可能世界的框架語(yǔ)義學(xué),基于此證明系統(tǒng)的可靠性和完全性。
在當(dāng)今計(jì)算機(jī)人工智能科學(xué)技術(shù)的背景下,范疇語(yǔ)法的現(xiàn)代版本組合范疇語(yǔ)法CCG發(fā)揮了更大的作用[6-7],基于CCG分析的語(yǔ)料庫(kù)可以作為機(jī)器自主學(xué)習(xí)訓(xùn)練的語(yǔ)料資源數(shù)據(jù)庫(kù)。組合范疇語(yǔ)法CCG不僅揭示自然語(yǔ)言的句法構(gòu)造生成,還需要表征自然語(yǔ)言的語(yǔ)義組合。作為邏輯分析自然語(yǔ)言的工具,CCG表征的是一種便于推演計(jì)算的邏輯語(yǔ)義。邏輯語(yǔ)義可以采納各種邏輯工具表征,例如一階邏輯或λ-演算的高階邏輯,等等。在CCG的自然語(yǔ)言語(yǔ)義表征那里,使用λ-詞項(xiàng)進(jìn)行計(jì)算推演的例證如:
組合范疇語(yǔ)法CCG分析自然語(yǔ)言的規(guī)則是一種句法構(gòu)造配語(yǔ)義組合的并行推演規(guī)則,范疇語(yǔ)法中最常用的函項(xiàng)應(yīng)用規(guī)則的表述如下:
(>) X/Y∶f Y∶a ? X∶fa
(<) Y∶a XY∶f ? X∶fa
針對(duì)自然語(yǔ)言中非對(duì)稱(chēng)并列結(jié)構(gòu)的合并規(guī)則為:
合并 (〈Φn〉)
X∶g CONJ∶b X∶f ?ΦnX∶λ…b(f…)(g…)
Φ1bfg ≡ λx.b(fx)(gx)
Φ2bfg ≡ λx.λy.b(fxy)(gxy)
Φ3bfg ≡ λx.λy.λz.b(fxyz)(gxyz)
Φ4bfg ≡ λx.λy.λz.λw.b(fxyzw)(gxyzw)
使用CCG的合并規(guī)則,可以對(duì)自然語(yǔ)言中“缺肢少腿”的并列句進(jìn)行起“修復(fù)”作用的分析推演,最后獲得完整的邏輯語(yǔ)義表征。如:
從上例并列句的表層結(jié)構(gòu)“John met and married Mary”看出,“and”左邊的子句缺少賓語(yǔ),而右邊的子句缺少主語(yǔ)。CCG采用合并規(guī)則〈Φ2〉,通過(guò)句法構(gòu)造和語(yǔ)義組合的并行推演,最后獲得該句完整的邏輯語(yǔ)義表征:二元謂詞“meet′”和“marry′”都具有賓語(yǔ)論元“marry′”和主語(yǔ)論元“john′”。此外,在逐級(jí)逐層推演的每一步,句法范疇也并行實(shí)施運(yùn)算,最后在推演獲得整句邏輯語(yǔ)義表征的同時(shí)也推出了作為合語(yǔ)法標(biāo)志的句法范疇“s”。
組合范疇語(yǔ)法CCG意味:組合 + 范疇語(yǔ)法。其“組合”是指其語(yǔ)義推演的工具源于組合邏輯中算子的借用。組合邏輯中的函項(xiàng)復(fù)合算子B、類(lèi)型提升算子T和函項(xiàng)轉(zhuǎn)換算子S可通過(guò)λ-演算的詞項(xiàng)來(lái)定義:
Bfg≡λx.f(gx)
Tx≡λf.fx
Sfg≡λx.fx(gx)
將定義三個(gè)組合算子的λ-詞項(xiàng)作為語(yǔ)義表征添加到范疇語(yǔ)法推演規(guī)則中的句法范疇旁就形成CCG更多并行推演的規(guī)則。如B算子引入CCG的情況:
(句法構(gòu)造的函子范疇復(fù)合) X/Y Y/Z ? X/Z
(語(yǔ)義表征的函項(xiàng)復(fù)合B(f,g)) f g? λx.f(gx)
基于語(yǔ)義表征的B(f,g)對(duì)應(yīng)句法范疇的函項(xiàng)復(fù)合,便形成了CCG的并行推演規(guī)則:
X/Y:f Y/Z:g ? X/Z: λx.f(gx)
吸取B,T和S三個(gè)組合算子的計(jì)算思想,組合范疇語(yǔ)法就塑造出下述滿(mǎn)足邏輯可計(jì)算性要求的一系列句法和語(yǔ)義并行推演的規(guī)則:
向前的類(lèi)型提升規(guī)則>T∶ X∶a ?Y/(YX)∶λf.fa
向后的類(lèi)型提升規(guī)則 向前的組合規(guī)則>B∶ X/Y∶ f Y/Z∶ g ?X/Z∶λx.f(gx) 向后的組合規(guī)則 后前的交叉組合規(guī)則>Bx∶ X/Y∶ f Y∶ g ?X∶λx.f(gx) 前后的交叉組合規(guī)則 向前的替換規(guī)則>S∶ (X/Y)/Z∶ f Y/Z∶ g ?X/Z∶λx.fx(gx) 向后的替換規(guī)則 后前的交叉替換規(guī)則>Sx∶ (X/Y)/Z∶ f Y∶ g ?X∶λx.fx(gx) 前后的交叉替換規(guī)則 以下通過(guò)案例看組合范疇語(yǔ)法CCG如何運(yùn)用規(guī)則對(duì)自然語(yǔ)言進(jìn)行分析推演。例如,CCG的向前組合規(guī)則“>B”和向前類(lèi)型提升規(guī)則“>T”對(duì)理解自然語(yǔ)言的賓語(yǔ)提取結(jié)構(gòu)和無(wú)界依存結(jié)構(gòu)就很有用。賓語(yǔ)提取結(jié)構(gòu)指在語(yǔ)言表達(dá)式包含的從句中其賓語(yǔ)的省略現(xiàn)象,對(duì)這樣表達(dá)式的語(yǔ)義表征必須補(bǔ)上省略掉的賓語(yǔ)。無(wú)界依存結(jié)構(gòu)指從句中省略的賓語(yǔ)跟前面的名詞中心語(yǔ)具有語(yǔ)義依存關(guān)系,即對(duì)這樣表達(dá)式的語(yǔ)義表征必須通過(guò)跟省略的賓語(yǔ)具有語(yǔ)義依存關(guān)系的名詞中心語(yǔ)來(lái)確定賓語(yǔ)的所指。如對(duì)自然語(yǔ)言表達(dá)式“team that I thought that Brazil defeated”的CCG推演: 就以上帶定語(yǔ)從句的名詞表達(dá)式而言,通過(guò)CCG逐層逐級(jí)的推演,在最后獲得的整個(gè)表達(dá)式的邏輯語(yǔ)義“λx.think′(defeat′x brazil′)me′∧team′x”那里,我們就找到了其賓語(yǔ)提取結(jié)構(gòu)“Brazil defeated…”的缺省賓語(yǔ)的邏輯語(yǔ)義所指“team′”,同對(duì)顯示出其無(wú)界依存結(jié)構(gòu)“team……Brazil defeated…”的遠(yuǎn)距離語(yǔ)義依存關(guān)系,即“defeat′x brazil′”中的x語(yǔ)義依存“team′x”中的x。 組合范疇語(yǔ)法CCG采納邏輯的規(guī)則對(duì)自然語(yǔ)言的句法和語(yǔ)義進(jìn)行并行推演,進(jìn)而面向自然語(yǔ)言的大規(guī)模真實(shí)文本構(gòu)建了CCG樹(shù)庫(kù),CCG樹(shù)庫(kù)可以作為機(jī)器自主學(xué)習(xí)訓(xùn)練的語(yǔ)料資源庫(kù)。國(guó)內(nèi)清華大學(xué)的孫茂松院士呼吁AI發(fā)展的轉(zhuǎn)向依賴(lài)構(gòu)建基于邏輯語(yǔ)義表征的大知識(shí)庫(kù)[8],而CCG樹(shù)庫(kù)的深入開(kāi)發(fā)有助于實(shí)現(xiàn)孫院士的宏大設(shè)想。在CCG針對(duì)自然語(yǔ)言大規(guī)模真實(shí)文本的分析樹(shù)庫(kù)那里,所使用的規(guī)則中出現(xiàn)一些不符合邏輯剛性要求的柔性規(guī)則。此外,CCG 樹(shù)庫(kù)對(duì)自然語(yǔ)言進(jìn)行語(yǔ)義表征時(shí)需要從豐富的“現(xiàn)代邏輯工具箱”中進(jìn)行選擇搭配。筆者將在下文討論CCG樹(shù)庫(kù)中規(guī)則的柔性推廣和邏輯語(yǔ)義表征工具的選擇融合等問(wèn)題。 組合范疇語(yǔ)法CCG的語(yǔ)句分析樹(shù)庫(kù)是人工智能的自然語(yǔ)言處理領(lǐng)域所關(guān)注的語(yǔ)料資源數(shù)據(jù)庫(kù)。組合范疇語(yǔ)法CCG句法分析樹(shù)庫(kù)有:美國(guó)賓州CCG樹(shù)庫(kù)[9]和我國(guó)的微軟-清華CCG樹(shù)庫(kù)[10]: 作為本文作者承擔(dān)的國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目的結(jié)項(xiàng)成果之一,項(xiàng)目團(tuán)隊(duì)也構(gòu)建了一個(gè)社科漢語(yǔ)CCG樹(shù)庫(kù)(www.ccgbank.net),情況如下述: 社科漢語(yǔ)CCG樹(shù)庫(kù) 46 085詞條(722 790詞例) 25 694語(yǔ)句 2 483規(guī)則例 CCG樹(shù)庫(kù)里錄入的是自然語(yǔ)言真實(shí)文本句的組合范疇語(yǔ)法分析樹(shù),是基于CCG分析的語(yǔ)料資源數(shù)據(jù)庫(kù)。我們以社科漢語(yǔ)CCG樹(shù)庫(kù)為例,語(yǔ)句“經(jīng)中國(guó)人民銀行批準(zhǔn),泰康人壽保險(xiǎn)股份有限公司等5家保險(xiǎn)公司正在緊張籌建中”的句法分析樹(shù)(1)社科CCG漢語(yǔ)樹(shù)庫(kù)中的語(yǔ)句分析樹(shù)既可以如上以“從樹(shù)根到樹(shù)葉”的方式展開(kāi),也能夠以本文前面“從樹(shù)葉到樹(shù)根”的方式展開(kāi)。如圖1所示[11]: 圖1 組合范疇語(yǔ)法分析樹(shù) 近20年來(lái),各國(guó)學(xué)者構(gòu)建了多種自然語(yǔ)言的CCG樹(shù)庫(kù)。我們主要關(guān)注英語(yǔ)和漢語(yǔ)的CCG樹(shù)庫(kù),這兩種語(yǔ)言的CCG樹(shù)庫(kù)是對(duì)生成語(yǔ)法樹(shù)庫(kù)進(jìn)行轉(zhuǎn)換而獲得的。這種統(tǒng)一的轉(zhuǎn)換導(dǎo)致樹(shù)庫(kù)中語(yǔ)句分析樹(shù)的范疇推演時(shí)常采納一些沒(méi)能由范疇類(lèi)型邏輯提供邏輯依據(jù)的規(guī)則。換言之,CCG樹(shù)庫(kù)中句法分析樹(shù)的范疇推演大量使用范疇類(lèi)型邏輯“體制”外的規(guī)則。這些規(guī)則我們稱(chēng)作“柔性”的范疇推演規(guī)則。 以社科漢語(yǔ)CCG樹(shù)庫(kù)為例,樹(shù)庫(kù)中使用的CCG推演規(guī)則的分布如表1所示[12]: 表1 CCG推演規(guī)則的分布 社科漢語(yǔ)CCG樹(shù)庫(kù)面臨的第一個(gè)問(wèn)題是:函項(xiàng)應(yīng)用、函項(xiàng)組合、類(lèi)型提升和函項(xiàng)置換共四大類(lèi)推演規(guī)則是范疇類(lèi)型邏輯能夠提供邏輯依據(jù)的“體制”內(nèi)的規(guī)則,這些規(guī)則使用的頻率占了整個(gè)樹(shù)庫(kù)所用規(guī)則的微弱大多數(shù)57.55%,而所謂其他規(guī)則就是“柔性”的推演規(guī)則,占比也不低,屬于強(qiáng)勢(shì)少數(shù)42.45%。我們不得不應(yīng)對(duì)這樣的問(wèn)題:這些柔性規(guī)則有無(wú)必要認(rèn)可?它們存在的邏輯依據(jù)是什么?要解決這樣的問(wèn)題,有必要對(duì)這部分“其他規(guī)則”進(jìn)行深入辨析。我們把這些規(guī)則再分為:占比41.95%的標(biāo)點(diǎn)吸收規(guī)則、占比43.48%的同類(lèi)型范疇并列規(guī)則和占比14.61%的其他規(guī)則。我們的工作表明,其中占比41.91%的標(biāo)點(diǎn)吸收規(guī)則和占比43.48%的同類(lèi)型范疇并列規(guī)則可以通過(guò)恒等規(guī)則和兩次使用函項(xiàng)應(yīng)用規(guī)則替換掉[12]。剩下占比14.61%的其余規(guī)則再分為:占比67.33%的論元脫落規(guī)則、占比11.14%的詞類(lèi)吸收規(guī)則、占比10.8%的話(huà)題化歸規(guī)則和占比10.73%的詞類(lèi)轉(zhuǎn)換規(guī)則。我們看到,這里占比67.33%的論元脫落規(guī)則,在整個(gè)樹(shù)庫(kù)占比大約4.17%,其他三類(lèi)規(guī)則在整個(gè)樹(shù)庫(kù)的占比大約是0.6%,即6‰,可以暫時(shí)忽略不計(jì)。我們勢(shì)必首先對(duì)論元脫落規(guī)則(規(guī)則例)進(jìn)行柔性處理。 漢語(yǔ)CCG樹(shù)庫(kù)中的論元脫落規(guī)則模式: A/B(空) ? A (空) AB ? A 其論元脫落規(guī)則例及其出現(xiàn)頻率如下[12]82: None·SNP ? S13 887(SNP)/NP·None ? SNP1 145((SNP)/(SNP))/NP · None ?(SNP)/(SNP)1 049 None·(S/S)NP ? S/S246 None·((SNP)/(SNP))NP ?(SNP)/(SNP)117 S/NP·None ? S82(SNP)/NP·None ? SNP52 CCG中具有范疇邏輯系統(tǒng)推出的定理作為導(dǎo)出依據(jù)的規(guī)則稱(chēng)為滿(mǎn)足邏輯剛性要求的規(guī)則。而CCG中的柔性規(guī)則意味:這些規(guī)則沒(méi)有標(biāo)準(zhǔn)范疇邏輯系統(tǒng)提供的定理作為導(dǎo)出的依據(jù),并且很難匹配組合邏輯提供的邏輯語(yǔ)義表征。要確認(rèn)CCG柔性規(guī)則的身份地位,解決此問(wèn)題的出路在于:根據(jù)自然語(yǔ)言現(xiàn)象的客觀(guān)存在規(guī)律,擴(kuò)大范疇類(lèi)型邏輯的陣營(yíng),對(duì)已有的范疇類(lèi)型邏輯進(jìn)行“柔性”的擴(kuò)張,擴(kuò)張后的范疇類(lèi)型邏輯系統(tǒng)能夠推出對(duì)應(yīng)CCG柔性規(guī)則的定理,這樣也就給CCG的柔性規(guī)則找到了柔性的邏輯依據(jù)。 為了給CCG的論元脫落這樣的柔性規(guī)則提供柔性邏輯依據(jù),我們從范疇類(lèi)型邏輯系統(tǒng)的結(jié)構(gòu)性質(zhì)入手。通常結(jié)構(gòu)性質(zhì)有:結(jié)合性質(zhì)、交換性質(zhì)、單調(diào)性(monotonicity)和收縮性(constraction)。標(biāo)準(zhǔn)的收縮性結(jié)構(gòu)性質(zhì)為[13]: 根據(jù)自然語(yǔ)言的實(shí)際情況,標(biāo)準(zhǔn)的收縮性可以柔性推廣: 把柔性的收縮性結(jié)構(gòu)規(guī)則添加到范疇類(lèi)型邏輯系統(tǒng)中,就可推出定理:A/C→A。這就是漢語(yǔ)CCG樹(shù)庫(kù)中占比大約4.17%的“論元脫落規(guī)則”的柔性邏輯依據(jù)。然后,在這樣的范疇類(lèi)型邏輯的框架語(yǔ)義中確立對(duì)應(yīng)的R限制:?x?y.Rxxy&y∈‖C‖。據(jù)此,可以證明柔性范疇邏輯系統(tǒng)的可靠性和完全性。 關(guān)于CCG樹(shù)庫(kù)的另一大困境是給其中的句法分析樹(shù)匹配邏輯語(yǔ)義表征問(wèn)題。采用什么樣的邏輯工具標(biāo)注語(yǔ)義?是λ-演算高階邏輯,還是DRT系列?二者各有長(zhǎng)短,λ-演算高階邏輯嚴(yán)格遵循組合原則,可計(jì)算性強(qiáng),但不足以對(duì)自然語(yǔ)言語(yǔ)用層面的涵義進(jìn)行表征,也不能完全滿(mǎn)足AI構(gòu)建大知識(shí)庫(kù)時(shí)對(duì)自然語(yǔ)言大規(guī)模真實(shí)文本進(jìn)行語(yǔ)義表征的需求;而DRT系列,尤其是PDRT恰恰能夠較好地表達(dá)自然語(yǔ)言語(yǔ)用層面的涵義,如預(yù)設(shè)和隱涵等。在CCG樹(shù)庫(kù)基礎(chǔ)上添加帶λ-算子約束的PDRS框圖的邏輯語(yǔ)義表征就能對(duì)上述二者進(jìn)行“取長(zhǎng)補(bǔ)短”。 荷蘭格羅林根大學(xué)構(gòu)建的PMB語(yǔ)義樹(shù)庫(kù)采用:對(duì)CCG樹(shù)庫(kù)的句法樹(shù)中添加作為邏輯語(yǔ)義表征的帶λ-算子的PDRS框圖。樹(shù)庫(kù)中的例句“the cow moos”的推演圖為: 遵循組合范疇語(yǔ)法CCG的慣例,上述推演圖從詞條出發(fā)進(jìn)行推演計(jì)算。如定冠詞“the”被指派句法范疇(S/(SNP))/(S/NP)和作為邏輯語(yǔ)義表征的帶λ-算子的PDRS框圖: 整個(gè)過(guò)程顯示出CCG提供的句法范疇和PDRT提供的帶λ-算子的PDRS框圖的并行推演計(jì)算,最后獲得例句“the cow moos”的句法范疇S[dcl]及其PDRS框圖: 跟經(jīng)典的DRT表述不同,這里PDRS框圖b3中上端的個(gè)體變項(xiàng)x,事件變項(xiàng)e和時(shí)間變項(xiàng)t以及框圖中的公式如“cow(x1)”都由一個(gè)指針“←”指向代表框圖的標(biāo)簽,如b1,b3。 PDRT的指針或標(biāo)簽的技術(shù)手段能夠刻畫(huà)并區(qū)分例句的預(yù)設(shè)信息和非預(yù)設(shè)信息。b3包含了b1,即例句的預(yù)設(shè)信息:存在一個(gè)x1,滿(mǎn)足公式cow(x1)。換言之,由于該例句出現(xiàn)了預(yù)設(shè)的觸發(fā)語(yǔ)“the”,故該句的邏輯語(yǔ)義就含有存在一個(gè)是“cow”的個(gè)體這樣的預(yù)設(shè)信息。 顯然,PDRT的技術(shù)工具能夠處理預(yù)設(shè)和隱涵等語(yǔ)用現(xiàn)象。不僅如此,在PMB語(yǔ)義庫(kù)那里,還采用了更多的語(yǔ)義工具,對(duì)此的匯總是[14]: ? word senses (WordNet) ? thematic roles (VerbNet) ? co-reference (DRT) ? tense (DRT) ? scope/negation (DRT) ? presupposition (PDRT) ? discourse relations (SDRT) ? compositionality (CCG) 如:刻畫(huà)詞條意義,采用“WordNet”的方式;描述自然語(yǔ)言的共指現(xiàn)象和時(shí)態(tài)現(xiàn)象,采用DRT;討論篇章之間的關(guān)系,工具是SDRT;當(dāng)然整個(gè)推演框架則基于CCG??梢哉f(shuō),CCG樹(shù)庫(kù)基礎(chǔ)上構(gòu)建的語(yǔ)義庫(kù),其邏輯語(yǔ)義表征儼然就是各種語(yǔ)義工具的大融合。 漢語(yǔ)作為非形態(tài)語(yǔ)言,其句法形態(tài)缺乏嚴(yán)格的標(biāo)志,句法構(gòu)造很大程度依賴(lài)語(yǔ)義,語(yǔ)義的“意合”驅(qū)動(dòng)句法的構(gòu)造生成。此外,漢語(yǔ)還是一種極大地依靠語(yǔ)境的語(yǔ)用語(yǔ)言。因此,對(duì)漢語(yǔ)CCG樹(shù)庫(kù)進(jìn)行語(yǔ)義標(biāo)注,更需要廣泛借鑒并融合各種語(yǔ)義工具,特別是DRT、PDRT之類(lèi)擅長(zhǎng)處理語(yǔ)用現(xiàn)象的理論。谷歌或百度的計(jì)算機(jī)翻譯系統(tǒng)對(duì)涉及語(yǔ)用常識(shí)的漢語(yǔ)翻譯不能令人滿(mǎn)意,如同2021版“有道詞典”對(duì)“前門(mén)快到了,請(qǐng)從后門(mén)下車(chē)”的翻譯是:The front door is here,Please exit through the back door。這個(gè)翻譯或許產(chǎn)生思維混亂,前門(mén)到了,怎么又從后門(mén)下車(chē)?機(jī)器翻譯系統(tǒng)不知道在公交報(bào)站告知的語(yǔ)境下“前門(mén)”是地名這樣的常識(shí)。采用CCG+PDRT的工具就能夠把這個(gè)常識(shí)揭示出來(lái)[15],我們給出作為推演圖片段的最后環(huán)節(jié): 上述b3標(biāo)簽的框圖中包含兩個(gè)預(yù)設(shè):存在是“前門(mén)”并且作為“車(chē)站名”的個(gè)體x1,存在是“后門(mén)”并且作為“下車(chē)通道”的個(gè)體x4,即“前門(mén)”和“后門(mén)”對(duì)應(yīng)的預(yù)設(shè)信息涉及“車(chē)站名”和“下車(chē)通道”,顯示預(yù)設(shè)信息的b3不同于顯示非預(yù)設(shè)信息的b4。“前門(mén)快到了,請(qǐng)從后門(mén)下車(chē)”這類(lèi)通過(guò)預(yù)設(shè)展示生活常識(shí)的句子,對(duì)于已有的機(jī)器翻譯系統(tǒng)來(lái)說(shuō)是無(wú)法識(shí)別的,因?yàn)樯婕暗秸f(shuō)話(huà)人和聽(tīng)話(huà)人的知識(shí)背景。采用CCG+PDRT的邏輯工具表征這些涉及預(yù)設(shè)的知識(shí)信息,有助于人工智能關(guān)于自然語(yǔ)言處理工作的進(jìn)步。 總之,作為訓(xùn)練機(jī)器自主學(xué)習(xí)的語(yǔ)料資源庫(kù),現(xiàn)有的CCG樹(shù)庫(kù)尤其是漢語(yǔ)CCG樹(shù)庫(kù),勢(shì)必考慮配備能夠描述語(yǔ)用常識(shí)的PDRT邏輯語(yǔ)義工具。給漢語(yǔ)CCG樹(shù)庫(kù)配備邏輯語(yǔ)義,特別需要基于漢語(yǔ)本身的語(yǔ)用“意合”特點(diǎn),對(duì)各類(lèi)語(yǔ)義理論尤其是邏輯語(yǔ)義工具進(jìn)行選擇優(yōu)化,這樣的工作是開(kāi)發(fā)CCG樹(shù)庫(kù)的任重而道遠(yuǎn)的任務(wù)。范疇語(yǔ)法早在20世紀(jì)50年代初就被計(jì)算語(yǔ)言學(xué)之父B-Hillel用于機(jī)器翻譯,組合范疇語(yǔ)法CCG及其樹(shù)庫(kù)在當(dāng)今人工智能的自然語(yǔ)言處理背景下的機(jī)器翻譯領(lǐng)域內(nèi)將會(huì)發(fā)揮更大的作用。 重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué))2022年8期四、針對(duì)自然語(yǔ)言大規(guī)模真實(shí)文本——組合范疇語(yǔ)法樹(shù)庫(kù)及其研究
——基于2008—2022年中央政策文本的量化分析
——基于雙重非對(duì)稱(chēng)GARCH-MIDAS模型的實(shí)證研究
——基于債券違約視角的研究
——從言語(yǔ)行為視角看摩爾悖論句