鄒崇理
(四川師范大學邏輯與信息研究所,四川成都610068)
【邏輯學研究】
從CTL到CCG
——邏輯語義學的新模式
鄒崇理
(四川師范大學邏輯與信息研究所,四川成都610068)
[欄目主持人]北京大學哲學系陳波教授
[主持人語]本期發(fā)表兩篇文章。一是鄒崇理教授的《從CTL到CCG——邏輯語義學的新模式》,該文介紹和評述了范疇語法CG的兩個現(xiàn)代版本——范疇類型邏輯CTL和組合范疇語法CCG,它們各自的基本構(gòu)想及其內(nèi)容,以及各自的優(yōu)勢和弱勢。鑒于這些理論所處理的自然語言現(xiàn)象非常復雜,由此導致它們在技術上也非常復雜,即使弄懂它們也需要相應的知識基礎和學術功力,也是一件很不容易的事情。當然,最理想的狀況是在弄懂的基礎上再做一些結(jié)合漢語的獨立研究工作。二是曾祥云教授的《當代中國名辯理論研究的重要開拓者——評李先焜先生的名辯符號學研究及其理論貢獻》,該文概述了李先焜先生在名辯符號學研究上的貢獻,對其作出高度評價:“作為當代名辯研究的重要開拓者,李先焜先生居功至偉。他不僅開創(chuàng)了當代名辯符號學研究范式,打破了名辯邏輯化研究傳統(tǒng),使我國名辯研究重獲生機與活力,而且運用符號學分析工具,對儒家正名理論、名家名學和墨家名辯等先秦諸子思想,給出了精辟獨到、令人信服的解讀。正是在他的積極倡導與大力推動下,我國名辯符號學研究范式已取代傳統(tǒng)的名辯邏輯化研究范式,成為了當代名辯理論研究的主要范式,并呈現(xiàn)出前所未有的蓬勃興旺發(fā)展態(tài)勢,使我國名辯研究走向了一個新時代。”我們應該對像李先生這樣作出扎實研究的學術前輩表示真誠的敬意。我同時主張,在中國邏輯史研究中還是百花齊放比較好,名辯學、數(shù)理邏輯、傳統(tǒng)形式邏輯、非形式邏輯、論辯學等等工具都可以拿來用,關鍵在于:最后取得什么樣的研究成果,它們是否基于扎實的史料、可靠的詮釋和精辟的見解,以及對后來者的啟迪如何。
范疇類型邏輯CTL和組合范疇語法CCG,是范疇語法CG的兩個現(xiàn)代版本。CTL采用傳統(tǒng)的邏輯語義學方式,其特點是強調(diào)計算的思想、基于規(guī)則的思路和研究邏輯工具本身的性質(zhì)。就面向自然語言計算機處理的任務而言,CTL的短板是顯然的,即對自然語言的豐富多樣的具體現(xiàn)象,尤其是對語詞的研究非常不充分。CCG則挑戰(zhàn)傳統(tǒng),大膽創(chuàng)新,提出新的研究模式,構(gòu)筑大規(guī)模的詞庫,關注大量的規(guī)則例的應用,以此滿足了計算機的自然語言系統(tǒng)處理大規(guī)模真實文本的需求。而如果全面系統(tǒng)地考慮語義因素,CCG的詞庫和規(guī)則例也可能需要大的調(diào)整。CCG的下一步研究任重而道遠。
邏輯語義學;范疇類型邏輯;組合范疇語法
范疇類型邏輯CTL和組合范疇語法CCG的根源同是范疇語法CG。CG最早開啟了邏輯語義學面向自然語言計算機處理的思路。上個世紀30-40年代,波蘭邏輯學家Ajduciewicz提出了CG;50年代計算語言學之父Bar-Hillel和數(shù)學家Lambek的工作使CG同自然語言的計算機信息處理關聯(lián)起來;80年代至今,CG發(fā)展出兩個現(xiàn)代版本——范疇類型邏輯CTL和組合范疇語法CCG。就面向自然語言計算機處理這樣的任務而言,CTL采用的是傳統(tǒng)的邏輯語義學方式,而CCG則挑戰(zhàn)傳統(tǒng),大膽創(chuàng)新,提出新的研究模式。要從CTL那里比較出CCG的“創(chuàng)新”,有必要先談談CTL的特點及其短板。
CTL的特點,即CTL的基本精神可以概括為:計算的思想、基于規(guī)則的思路和研究邏輯工具的性質(zhì)。
自然語言是一個符號系統(tǒng),由若干或長或短的符號串構(gòu)成。這個系統(tǒng)是動態(tài)的,不斷由較小的符號串構(gòu)造出較大的符號串。從CG和CTL的視角看來,這種構(gòu)造生成過程就是計算過程(也是邏輯推演過程),這就是CTL的計算思想。怎樣把自然語言的生成構(gòu)造變成計算的過程?
首先,需要給自然語言各類語詞貼上顯示“計算的標簽”,這種標簽就是范疇。范疇分為原子范疇和復合范疇,表示句子的范疇s和表示名稱的范疇n為原子范疇,復合范疇A/B和BA又叫函子范疇,體現(xiàn)出“計算的涵義”。CTL給自然語言若干詞條指派范疇的工作就形成了所謂詞庫的內(nèi)容,如[1]157:
其次,對詞條指派了范疇后,CTL確立的范疇計算原則是:若表達式α的范疇是A/B并且表達式β的范疇是B,則表達式αβ的范疇是A;若表達式α的范疇是A并且表達式β的范疇是AB,則表達式αβ的范疇是B。上述原則被抽象為CTL系統(tǒng)的邏輯定理T1:(A/B)B→A和T2:A(AB)→B,也叫“函項運算貼合”的規(guī)則。
根據(jù)上述定理,英語句“John likes fresh milk”在CTL那里合語法的求解計算推導過程就是:
上圖表明:由“fresh”和“milk”構(gòu)成“fresh milk”,變成由范疇“n/n”和“n”依據(jù)定理1計算出范疇“n”;由“l(fā)ikes”和“fresh milk”構(gòu)成“l(fā)ikes fresh milk”,對應由范疇“(ns)/n”和“n”依據(jù)定理1計算出范疇“ns”;最后由“John”和“l(fā)ikes fresh milk”構(gòu)成語句“John likes fresh milk”,對應由范疇“n”和“ns”依據(jù)定理2獲得范疇“s”,計算于是中止,計算過程獲得解s,句子合語法。這就是CTL的計算思想,把自然語言的構(gòu)造生成變成了范疇的計算推演過程。
美國著名的語言學大師喬姆斯基(N.Chomsky)提出:人腦先天具有構(gòu)造生成語言的創(chuàng)造能力。人類語言知識的本質(zhì)就是語言知識如何構(gòu)成的問題,其核心是德國學者洪堡特(W.Humboldt)指出的“有限手段的無限使用”。Gamut寫道:“一個合格的語言使用者能夠解釋數(shù)量無限的句子,這種解釋是基于對有窮數(shù)量詞匯意義的理解和數(shù)量有窮的句法規(guī)則的運用。”[2]141因此,構(gòu)造生成自然語言的機制可以概括成兩個特征:
a.有窮多的詞條作為出發(fā)點;
b.依據(jù)有窮多規(guī)則去構(gòu)造和理解無窮多的語句。人具有構(gòu)造自然語言的機制,人就能夠構(gòu)造從來沒有看見到的句子,也可以理解從來沒有聽說過的句子,人能夠構(gòu)造和理解的句子是無窮多的。自然語言中的復雜句子要有多長有多長,是無窮多的。怎樣來構(gòu)造無窮多的復雜長句子?邏輯的遞歸組合思想恰好派上用場,CTL推出了有關定理來體現(xiàn)邏輯的遞歸組合精神。這些定理起到構(gòu)造生成語言所依據(jù)的有窮多規(guī)則的作用,這就是CTL基于規(guī)則的思路。
自然語言中的復雜長句子有:
(1)That that something is wrong is known to the public is usual.
(2)Mary likes a man such that he has a son such that he loves a girl such that she hates a boss. CTL反復使用對應定理1或定理2的“函項運算貼合”的規(guī)則,就能夠生成構(gòu)造出(1)這樣的主語從句鑲嵌的復雜長句子,以下是計算推演的樹圖:
CTL還通過在系統(tǒng)中假設諸如結(jié)合或交換等結(jié)構(gòu)公設,推出一系列函子范疇的組合規(guī)則及其置換規(guī)則,用于自然語言許多復雜現(xiàn)象的構(gòu)造分析。
CTL強調(diào)計算的思想和基于規(guī)則的思路使得它成為分析自然語言句法語義構(gòu)造生成的有力工具。不僅如此,CTL作為邏輯語義學的重要分支,還是傳承和延伸邏輯理性主義精神的產(chǎn)物,這表現(xiàn)為從理論角度去深入探討邏輯工具本身的性質(zhì)。
從模態(tài)邏輯的角度看,CTL是在自然語言分析領域內(nèi)產(chǎn)生的模態(tài)邏輯,系統(tǒng)的語義解釋基于可能世界語義框架,這里的可能世界是自然語言若干長長短短的符號串,可能世界之間的可及關系體現(xiàn)為自然語言符號串之間的毗連關系,這些毗連具有滿足自然語言符號串自身特色的各種性質(zhì)。CTL以公理表述的方式確立了系統(tǒng)的可靠性和完全性證明,以Gentzen表述的方式解決了系統(tǒng)的可判定性問題。
從子結(jié)構(gòu)邏輯角度考察CTL的Lambek演算,導致針對結(jié)構(gòu)規(guī)則而言的“結(jié)構(gòu)層級”和針對邏輯系統(tǒng)而言的“子結(jié)構(gòu)邏輯”層級的確立。這是一個強度遞減的系統(tǒng)層級,經(jīng)典命題邏輯是其中最強的系統(tǒng),Lambek演算是其中最弱的系統(tǒng)。在直覺主義邏輯以下,各系統(tǒng)的區(qū)別由結(jié)構(gòu)規(guī)則P、C和M的去留決定,概述如下:
從結(jié)構(gòu)角度研究CTL,獲得許多細化結(jié)果,對自然語言具有更多的表達力。
CTL是邏輯語義學的重要理論,但就服務于自然語言的計算機信息處理而言,CTL作為邏輯語義學的傳統(tǒng)模式,其短處是顯然的。前文我們談到的自然語言構(gòu)造機制的a特征和b特征,CTL基于規(guī)則的思路對“依據(jù)有窮多規(guī)則去構(gòu)造和理解無窮多的語句”的b特征的刻畫是很到位的,但對“有窮多的詞條作為出發(fā)點”的a特征的揭示則不充分,這集中表現(xiàn)在CTL對自然語言若干詞條指派范疇的工作不給力。在CTL那里,重點關注的是系統(tǒng)推出的定理所對應的規(guī)則,而自然語言的詞庫僅僅是服務于規(guī)則分析例句所需要的輔助手段,并沒有專注研究,其詞庫完全沒有反映出自然語言構(gòu)造機制a特征的實際情況。
2.1 CTL的公理表述沒有詞庫的內(nèi)容
作為CTL公理表述(axiomatic presentation)的代表,Lambek演算由一條公理和五條規(guī)則所構(gòu)成:
2.2 CTL的Gentzen表述只有隱性的詞庫
就刻畫自然語言構(gòu)造機制特征a和描述自然語言詞條的實際情況而言,CTL的Gentzen表述對待詞庫的態(tài)度也不積極,其關注焦點仍然是自然語言句法分析所需要的定理規(guī)則、Cut規(guī)則的消去及系統(tǒng)判定問題的解決。如Lambek演算的Gentzen表述為:
這里,第一條[Ax]是公理,其余7條乃是推演規(guī)則。Gentzen表述關注給自然語言的構(gòu)造提供范疇運算的規(guī)則,令規(guī)則就是:
與之類似,Gentzen表述中仍然沒有詞庫的地位。關于自然語言語句“Zaphod hates Livia”的構(gòu)造推演是這樣:
上述推演圖中見不到詞條。為了說明例句的方便,才在推演最后得到的后承“?”的前件下方附上范疇“np”對應的詞條“Zaphod”,范疇“(nps)/np”對應的詞條“hates”和范疇“np”對應的詞條“Livia”??梢哉f,詞條是附加上去的額外東西,Gentzen表述中的詞庫是隱藏不露的東西。
2.3 CTL的ND表述給出了詞條的位置
CTL的ND表述(natural deduction presentation)如下:
ND有兩大類初始符號:
定義基于原子范疇的集合A和3個范疇算子,所有范疇的集合為:
定義基于結(jié)構(gòu)變項的可數(shù)無窮集合V,結(jié)構(gòu)樹的集合為:
這里可以把V看作是自然語言詞條的集合,S├F意味結(jié)構(gòu)樹S屬于范疇F。“屬于”意味對初始的結(jié)構(gòu)變項(詞條)配備范疇,意味把詞條抽象成范疇。這就形成詞庫的內(nèi)容,如:
由于詞庫的作用,ND就把具體的自然語言詞條同抽象的范疇聯(lián)系在一起,而ND的[/E]和[E]之類規(guī)則更能保持這種聯(lián)系,就使自然語言的毗連生成和范疇的運算推演始終對應進行。例如:
在上圖最后結(jié)果的斷定符號“├”的左邊,詞條以結(jié)構(gòu)樹的面貌出現(xiàn)了。CTL的ND表述,詞條和詞庫開始顯露。但其內(nèi)容簡單,一個詞條對應一個范疇,意味一個詞條只有一種用法,與自然語言的實際情況相差甚遠,遠遠談不上是真正的詞庫。
以上列舉的CTL對待自然語言詞條詞庫的種種不作為態(tài)度,源于邏輯語義學的開創(chuàng)理論蒙太格語法MG。在MG構(gòu)建的英語部分語句系統(tǒng)PTQ那里,詞庫為9類基本語詞[3]250:
BIV={run,walk,talk,rise,change}
BT={John,Mary,Bill,ninety,he0,he1,…}
BTV={find,lose,eat,love,date,be,seek,conceive}
BIV/IV={rapidly,slowly,voluntarily,allegedly}
BCN={man,woman,park,fish,pen,unicorn,price,temperature}
Bt/t={necessarily}
B(IV/IV)/T={in,about}
BIV/T={believe that,assert that}
BIV//IV={try to,wish to}
Be=Bt=?
該詞庫包含的詞類太少,且一個詞條只能歸入一類,這遠遠不能覆蓋自然語言豐富多樣的詞條用法。在專有名詞集合BT中,還有作為構(gòu)造量化表達式技術手段的加標代詞,這些是自然語言中所沒有的表達式。PTQ的主要任務是以邏輯語義學的方式描述自然語言量化表達式和內(nèi)涵語境等現(xiàn)象,而詞庫僅僅是服務于這些任務的輔助手段,具有太多人工的痕跡。自然語言詞條多種用法的實際情況被PTQ忽視了,這種做法直接導致CTL對待詞庫的消極態(tài)度。
首先,從揭示自然語言構(gòu)造機制兩特征的角度看,CTL顧此失彼。CTL顧及到的是語言構(gòu)造特征b的刻畫,即基于有窮多的規(guī)則去構(gòu)造無窮多的句子。CTL失掉的是語言構(gòu)造特征a的描述,即有窮多的詞條作為構(gòu)造語言的出發(fā)點。沒有實實在在的詞條詞庫的確立,語句構(gòu)造的多樣性也要打折扣。
其次,從哲學方法論角度看,自然語言詞條多種用法的收集統(tǒng)計采用的是經(jīng)驗主義的方法,而通過邏輯系統(tǒng)推出構(gòu)造自然語言無窮多語句所需要的規(guī)則工具則是理性主義的做法。CTL基于規(guī)則的思路貫徹的是理性主義的精神,而對待自然語言詞條詞庫的消極態(tài)度步入的則是忽視經(jīng)驗主義方法的路徑。理性主義方法和經(jīng)驗主義方法各執(zhí)一端都是不完美的,二者的結(jié)合才是值得推崇的。CTL缺乏詞庫的研究是一種漠視經(jīng)驗主義方法的單一理性主義,是偏執(zhí)一端的產(chǎn)物。
再次,CTL對待詞庫的不作為不利于吸取語言學的研究成果。邏輯語義學和語言學同樣把自然語言作為研究對象,但二者研究的側(cè)重是不同的。通常語言學大都關注作為構(gòu)造語言出發(fā)點的詞條的研究。人類要使用語言,必須掌握構(gòu)造語言的原子材料——單詞或詞條,這是我們學習一門語言首先要懂得的知識。一門語言常用的詞條有幾千條,總數(shù)是幾萬乃至幾十萬條。語言學的研究對掌握語言構(gòu)造機制來說是必要且重要的工作,語言學的工作成果之一是編撰的各種各樣的詞典,CTL應該構(gòu)建足夠大的詞庫來對應語言學詞典中至少是詞條多種句法功能的內(nèi)容。CTL沒有詞庫或只有象征性的詞庫,就無法吸取或?qū)诱Z言學的研究成果。
最后,由于當今計算機的儲存量超大,關于自然語言的計算機系統(tǒng)可以建立海量的語料數(shù)據(jù)庫,分析的對象是大規(guī)模的真實文本。從計算機自然語言處理的角度看,沒有正式詞庫設置的CTL離分析大規(guī)模真實文本的需求差之甚遠,CTL關于自然語言詞條的研究對計算機人工智能領域來說是不能滿意的。
5.1 CCG總括
CTL作為自然語言的邏輯語義學理論,沿用傳統(tǒng)的模式,忽視詞庫的構(gòu)建,導致理論研究和實際需求的脫節(jié)。邏輯語義學為順應信息時代的潮流,必須有所創(chuàng)新。其結(jié)果便產(chǎn)生了邏輯語義學的新模式——組合范疇語法CCG。從CTL到CCG,彌補了傳統(tǒng)邏輯語義學研究的不足,徹底貫徹了詞匯主義的思路,在構(gòu)建自然語言詞庫方面下了不少的工夫,極大擴充了詞庫的容量。與之同時,CCG還傳承了邏輯語義學的理性主義精神,大量啟用函子范疇的組合規(guī)則和置換規(guī)則,使得規(guī)則的使用進一步具體化。如國外的賓州英文CCG樹庫[4]84和國內(nèi)的清華中文CCG樹庫[5]以及筆者主持的國家重大課題的成果社科中文CCG樹庫[6]687的情況分別是:
賓州英文CCG庫提取了75669個詞條和48934個語句,涉及到929552個詞例。清華中文CCG庫詞條和句子的提取來源于包含文學、學術、新聞、應用四大體裁的語料,盡可能多地覆蓋了漢語的各種語言現(xiàn)象。
5.2 CCG構(gòu)建龐大的詞庫
CCG的詞匯主義思想彌補了CTL忽視詞庫的短板。在掌握大規(guī)模真實文本的基礎上提取了作為自然語言構(gòu)造出發(fā)點的有窮多詞條,確定了這些詞條在各種語境下的不同詞例用法,每種用法用一個范疇表示,這就是CCG所謂一個詞條對應多個范疇的做法,據(jù)此構(gòu)建了龐大的詞庫。
賓州英文CCG詞庫:
清華中文CCG詞庫:
社科中文CCG詞庫:
上述數(shù)據(jù)見出,平均一個詞條被指派的范疇是十多個。CCG采用從詞條到詞例的多范疇指派方法,其詞庫挑戰(zhàn)了邏輯語義學“一詞對應一范疇”的傳統(tǒng)做法。
社科中文CCG詞庫采用多范疇指派方法,其中的詞條(包括輔助符號)被指派范疇數(shù)量最多的前10名詞條是:
在社科中文CCG詞庫中,被指派數(shù)十個范疇的詞條非常普遍,如“在”、“是”和“有”等詞條,“的”詞條被指派的范疇甚至多達上百個以上。從社科中文CCG的詞庫看出,常用詞被指派的范疇數(shù)量較多,漢語詞條具有依賴語境的多種用法。以下是該CCG庫中具有不同范疇指派的“的”的部分例句:
①春節(jié)前的一天下午,一群西裝革履的臺商來到東莞企石鎮(zhèn)人民鎮(zhèn)政府。
②雖然四十年的航天投資總額還不及前蘇聯(lián)、美國一年的航天投資。
③而臺商對澳門的捐助,坦白說,還不如在珠海投資的港商。
④不同于上一代父母才開始接觸ABC,如今英文已經(jīng)是小學生生活的一部分。
⑤這首歌的詞曲作者是意大利著名作曲家巴廖克,在開幕式上巴廖克本人與60歲的男高音歌
唱家雷斯科托共同演唱了這首會歌。
清華CCG詞庫采用多范疇指派方法,對漢語詞條“學”就有7種不同的范疇指派[5]:
(表1)
按照傳統(tǒng)做法,詞條“學”可分別歸入7個不同的基本語詞類:
BNP={…,學,…}
BSNP={…,學,…}
B(SNP)/NP={…,學,…}
B(SNP)/(SNP)={…,學,…}
B(S(SNP))/NP={…,學,…}
B((SNP)/NP)/(SNP)={…,學,…}
B((SNP)PP)/NP={…,學,…}
宋彥和黃昌寧等學者認為:在清華中文CCG詞庫中,一共有10個原子范疇,包括M(量詞)、MP(數(shù)量短語)、NP(名詞及名詞短語)、SP(方位詞及方位短語)、TP(時間短語)、PP(介詞短語)、S(句子)等等,在此基礎上,一共可獲得763個不同的范疇類型。按照傳統(tǒng)標準,清華中文CCG詞庫中就有763個用范疇標記的基本語詞類:B1,B2,……,B762,B763。比較蒙太格語法的PTQ語句系統(tǒng)的9個基本語詞類和CTL的Lambek演算的7類語詞構(gòu)成的小小詞庫,CCG的詞庫是真夠大的!可以覆蓋自然語言詞條豐富多樣的用法。
5.3 CCG基于規(guī)則的思路
CCG發(fā)揚CTL長處,傳承CTL基于規(guī)則的思路,延續(xù)了CTL的邏輯遞歸精神。“在自然語言處理的研究中,語言符號的遞歸性起著很大的作用。機器翻譯的實質(zhì),就是把源語言中無限數(shù)目的句子,通過有限的規(guī)則,自動地轉(zhuǎn)換為目標語言無限數(shù)目的句子。如果機器翻譯的規(guī)則系統(tǒng)不充分利用語言符號的遞歸性,要實現(xiàn)這樣的轉(zhuǎn)換是非常困難的,甚至是不可能的”[7]33。
CTL構(gòu)建的邏輯系統(tǒng)可以推出若干定理規(guī)則,這些定理規(guī)則中的大多數(shù)對自然語言的分析來說是不用或很少使用的。CCG采取夠用即可的實用主義態(tài)度,集中關注在自然語言分析中需要使用的那些定理規(guī)則,從CTL那里推出所需要的規(guī)則,這是對邏輯精神的傳承。而對語言分析不怎么用的那些規(guī)則,以及邏輯系統(tǒng)的理論問題如邏輯工具的性質(zhì)討論等內(nèi)容就暫時舍去。CCG中函子范疇前向組合的規(guī)則“X/ Y,Y/Z→X/Z”被推出的過程如下:
更重要的是,CCG從應用實踐的角度發(fā)展了CTL基于規(guī)則的思路。CCG不滿足于CTL提供的規(guī)則普遍模式,而是把規(guī)則放到具體語言環(huán)境中去獲得大量的規(guī)則例,即規(guī)則的具體使用。如在清華中文CCG庫那里,就下述語句分析樹而言[8]14,
就涉及了8個規(guī)則例:
CTL關于函項右貼合運算的規(guī)則“X/Y,Y→X”在CCG那里就變成了具有較大數(shù)量的規(guī)則例,如賓州CCG庫的這個規(guī)則就有如下規(guī)則例[4]86:
整個賓州CCG庫竟有3262個具體的規(guī)則例!CTL沒有規(guī)則例只有規(guī)則的普遍模式,而蒙太格語法PTQ系統(tǒng)中的17條句法規(guī)則體現(xiàn)了潛在的規(guī)則例概念,但數(shù)量極為有限,距離自然語言句法構(gòu)造的實際情況相差甚遠!CCG則極大地擴大了規(guī)則例的數(shù)量和范圍,使得邏輯的普遍規(guī)則同語言分析的具體實踐結(jié)合起來,從而發(fā)展了CTL基于規(guī)則的思路。
5.4 CCG的創(chuàng)新價值
CCG的創(chuàng)新價值在于:從揭示自然語言構(gòu)造機制兩特征的角度看,CCG是兼容并舉的,深入細致去研究語言構(gòu)造的機制。從龐大的詞庫中有窮多的詞條出發(fā),使用CCG規(guī)則去構(gòu)造分析無窮多的句子;從哲學方法論角度看,語言詞條多種用法的收集和統(tǒng)計是經(jīng)驗主義的做法,是CCG的擅長。而邏輯規(guī)則的使用在CCG那里賦予了新的“生命力”,CCG并沒有放棄理性主義的追求,CCG是經(jīng)驗主義和理性主義相結(jié)合的產(chǎn)物;CCG基于自然語言的實際語料,構(gòu)建了容量足夠大的詞庫,關注詞條在各種各樣語境下的不同用法,這是對語言學工作的敬畏和尊崇,有利于充分吸取語言學研究詞匯的成果;就計算機自然語言處理而言,CCG的詞庫設置較大程度滿足了分析大規(guī)模真實文本的需要,CCG關于自然語言詞條以及句法語義構(gòu)造規(guī)則的研究給計算機人工智能領域展示出誘人的前景。
由于CCG的創(chuàng)新價值,所以基于CCG設計的計算機自然語言分析器在諸多形式語言學理論自動分析中是速度最快的?!霸?009年約翰霍普金斯大學舉行的夏季研討班上,研究人員通過采用優(yōu)化的句法分析算法,使CCG句法分析在維基百科語料上達到每秒超過100句的分析速度”[5],而基于中心語驅(qū)動語法的計算機處理軟件幾秒鐘才能完成一個語句的分析。CCG=語言學實踐的詞庫+邏輯學精神的規(guī)則,CCG是滿足計算機自然語言自動分析需求的邏輯語義學新模式。
即將結(jié)束本文之際,我們再次對比邏輯語義學傳統(tǒng)模式和CCG新模式:為什么傳統(tǒng)模式只有至多9類基本語詞的詞庫,而CCG的詞庫竟可以分出700多類基本語詞?傳統(tǒng)模式的規(guī)則例只有為數(shù)不多的幾十條,而CCG卻可能有上千條?這種巨大的反差使我們不得不去思考其中的緣由。坦白說,這是傳統(tǒng)的邏輯語義學模式需要考慮自然語言的語義而受到限制的結(jié)果。大家知道,賓州英文CCG庫、清華中文CCG庫和社科中文CCG庫都是轉(zhuǎn)換之前的形式語言學理論分析模式的結(jié)果,這些分析模式大都限于句法而不考慮語義,故CCG基本是句法分析的產(chǎn)物。如果全面系統(tǒng)地考慮語義因素,CCG的詞庫和規(guī)則例可能需要大的調(diào)整,語詞類和規(guī)則例的數(shù)量會有所減少,筆者對此產(chǎn)生了一些具體的研究思路,這里由于篇幅所限,留待今后的文章。CCG的下一步研究任重而道遠!
[1]Lambek J.The Mathematics of Sentence Structure[M]//W Buszkowski.Categorial Grammar.Amsterdam/Philadelphia:John Benjamins Publishing Company,1988.
[2]Gamut,L.T.F.Logic,Language and Meaning,vol.II:Intensional Logic and Logical Grammar[M].Chicago and London:University of Chicago Press,1991.
[3]Montague,R.The Proper Treatment of Quantification in Ordinary English[M]//R.Thomason.Formal Philosophy.New Haven:Yale University Press,1974.
[4]Hockenmaier,J.,M.Steedman.CCGbank:User’s Manual[R].Department of Computer&Information Science Technical Reports,2005.
[5]宋彥,黃昌寧,等.中文CCG樹庫的構(gòu)建[J].中文信息學報,2012,(3).
[6]鄒崇理,等.國家社會科學基金重大課題“自然語言信息處理的邏輯語義學研究”結(jié)項報告[R].2016.
[7]馮志偉.自然語言的計算機處理[M].上海:上海外語教育出版社,1996.
[8]周強.CCG與漢語分析[R].中國社會科學院哲學研究所學術報告,2012.
[責任編輯:熊顯長]
B81
A
1001-4799(2017)02-0042-09
2016-11-28
國家社會科學基金重大資助項目:12&ZD119
鄒崇理(1953-),男,四川成都人,四川師范大學邏輯與信息研究所特聘教授,中國社會科學院哲學研究所研究員、博士生導師,主要從事自然語言邏輯研究。