彭煒明,宋繼華,王寧
(1. 北京大學(xué)計算語言學(xué)教育部重點實驗室 北京大學(xué) 計算語言學(xué)研究所 北京 100871;2. 北京師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院 北京 100875;3. 北京師范大學(xué) 文學(xué)院,北京 100875)
漢語析句的形式化問題
彭煒明1,2,宋繼華2,王寧3
(1. 北京大學(xué)計算語言學(xué)教育部重點實驗室 北京大學(xué) 計算語言學(xué)研究所 北京 100871;2. 北京師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院 北京 100875;3. 北京師范大學(xué) 文學(xué)院,北京 100875)
該文討論了形式化析句的基本概念,從語言和言語、描寫和解釋、層次和線性、短語和句式、詞法和句法等多個語言學(xué)視角梳理了漢語析句中的形式化問題,并介紹了在句本位語法圖解析句形式化中總結(jié)的若干經(jīng)驗、原則和待解決問題。
析句方法,形式化,漢語句式,句本位語法
形式化又稱形式化方法,是指用一套表意符號,去研究表達事物的結(jié)構(gòu)及其規(guī)律,從而把對事物的研究轉(zhuǎn)變?yōu)閷Ψ柕难芯?,廣泛應(yīng)用于現(xiàn)代邏輯和數(shù)學(xué)研究中[1]。形式化包括四個方面: 符號化、公式化、規(guī)則化和系統(tǒng)化[2]。符號和公式是表現(xiàn)形式,都是為揭示結(jié)構(gòu)規(guī)律服務(wù)的,而結(jié)構(gòu)規(guī)律通常體現(xiàn)為一定的規(guī)則和系統(tǒng)。規(guī)則決定符號和公式的基本情況。系統(tǒng)化則要求規(guī)則和諧有序、不相互矛盾,通常表現(xiàn)為形式化系統(tǒng)中的各類約束條件或公理。
計算裝置的機械性決定了形式化在自然語言析句(句子結(jié)構(gòu)分析)中的基礎(chǔ)地位,句法形式化模型反映了研究者對所處理自然語言的基本觀點,是決定NLP技術(shù)框架的理論基礎(chǔ)。自然語言系統(tǒng)是一個充滿歧義性、模糊性和約定俗成性的復(fù)雜巨系統(tǒng),而NLP領(lǐng)域的各種句法模型為了實現(xiàn)系統(tǒng)的一致性和簡約性都進行了若干理論假設(shè),因而只能是客觀語言系統(tǒng)的側(cè)面反映,不可能是全貌。對自然語言進行形式化處理,必需首先承認形式化的局限性,從語言學(xué)角度厘清形式化系統(tǒng)與客觀語言系統(tǒng)之間的聯(lián)系和差異。在進一步討論前,有必要首先交待漢語語法教學(xué)和研究歷史上的一些事實,因為形式化析句源自教學(xué)領(lǐng)域的句法分析,并以一定的語法體系作為理論基礎(chǔ)。
自1898年第一部漢語語法學(xué)著作《馬氏文通》問世以來,產(chǎn)生過諸多的語法理論體系。1956年公布的《暫擬漢語語法教學(xué)系統(tǒng)》(簡稱《暫擬系統(tǒng)》)首次在全國范圍內(nèi)統(tǒng)一了中學(xué)語文教學(xué)中的析句方法,即采用主、謂、賓、定、狀、補等幾大成分來劃分句子結(jié)構(gòu)格局的所謂“句子成分分析法”,簡稱“成分分析法”。20世紀80年代,全國語法學(xué)界開會討論修訂《暫擬系統(tǒng)》,并制訂了《中學(xué)教學(xué)語法系統(tǒng)提要(試用)》(簡稱《系統(tǒng)提要》)。這次修訂在析句方法上增補、強調(diào)了短語結(jié)構(gòu)的層次分析。這在后來的“析句方法”大討論中被人概括為一種新的析句方法,即“層次分析法”。句子成分分析法因其抓主干和找中心詞的特點又被稱為“中心詞分析法”;層次分析法因追求逐層二分的分析步驟又被稱為“二分法”。
中文信息處理領(lǐng)域的句法分析研究起步于80年代初,在漢語句子結(jié)構(gòu)的形式化處理中主要采取層次分析法的思路,構(gòu)建短語結(jié)構(gòu)樹。后來興起的依存分析和依存樹庫突出了句法結(jié)構(gòu)的中心詞信息,但依存關(guān)系仍然是二分析句的思路,本質(zhì)上還是一種短語結(jié)構(gòu)關(guān)系[3]??傊?,中文信息處理的兩類主流句法分析均沒有直接采取句子成分分析法。
2.1 語言和言語
語言和言語是語言學(xué)中最常涉及的兩個彼此不同而又緊密聯(lián)系的概念。語言是全民共有的抽象符號系統(tǒng),在某一共時平面中它既是靜態(tài)的,也是可窮盡的。言語是個人對語言形式和規(guī)則的具體運用,它是動態(tài)的和無限的。構(gòu)建形式化句法系統(tǒng)是對“語言”進行系統(tǒng)建模,而自然語言處理實際上是自然“言語”的分析和處理過程。
在形式化過程中注意區(qū)別語言和言語,就是要排除特殊言語現(xiàn)象對語言規(guī)則系統(tǒng)的干擾。比如倒裝現(xiàn)象:
例1 走嗎,你?(主謂倒裝)
例2 他走了,輕輕地。(狀中倒裝)
這兩句顯然不應(yīng)造成“謂—主”、“動—狀”的系統(tǒng)規(guī)則,那它們的句法結(jié)構(gòu)在形式化樹庫中又該以何種形式表達?這是形式化系統(tǒng)設(shè)計不可回避的一個問題,因為NLP自動析句的基礎(chǔ)就是從樹庫中習(xí)得系統(tǒng)規(guī)則或句法知識。
省略現(xiàn)象也是真實語料(特別是口語)中經(jīng)常遇到的,處理起來也頗為棘手。例如,
例3 A: 兩位喝點什么?B: 我咖啡,她奶茶。
例4 A: 誰想要去北京?B: 我。
若不增加省略謂語的相關(guān)符號,則例3、例4中答句的結(jié)構(gòu)就很難形式化。按一般短語結(jié)構(gòu)或依存結(jié)構(gòu)分析,這兩例在形式上就與名詞謂語句和獨詞句混同了。由省略造成的析句困難還有很多,比如北京大學(xué)中文樹庫加工規(guī)范和常見問題舉例中提到的許多“‘奇怪’組合模式”[4]。
應(yīng)該承認,任何形式化系統(tǒng)都難以周全所有的言語現(xiàn)象。從言語中直接提取的結(jié)構(gòu)形式應(yīng)采取不同的分析和歸納策略。有的作為句法核心層面的一般性結(jié)構(gòu),有的則只能作為系統(tǒng)外圍的非典型結(jié)構(gòu),需借助變換或省略等手段來處理。一些特定的言語形式有可能完全不受系統(tǒng)規(guī)則的約束,比如各種插入語,它們的語序和層次都相當(dāng)靈活。
2.2 描寫和解釋
析句形式化表達必須兼顧描寫和解釋兩方面的任務(wù),任何一方的偏廢都可能使語法分析背離形式和意義統(tǒng)一的基本原則,進而導(dǎo)致NLP走進“死胡同”。
胡明揚先生曾這樣評價傳統(tǒng)語法的代表作《新著國語文法》: “最突出的不足之處是完全根據(jù)意義來進行語法分析,在形式上求證不夠。”[5]所謂“形式上求證不夠”,跟其描寫機制中缺少強有力的形式規(guī)范有很大關(guān)系。例如,為了維持動賓關(guān)系語義解釋的一致性,不僅有“賓提動前”,還可以“賓置句首”,甚至出現(xiàn)跨子句層次的句首賓語。
《系統(tǒng)提要》替代《暫擬系統(tǒng)》,就是在描寫結(jié)構(gòu)主義語言學(xué)影響下,采用層次分析法系統(tǒng)地解決了描寫機制的規(guī)范化問題。特別是短語結(jié)構(gòu)樹的形式化手段,直接推動了NLP自動句法分析研究的興起。但短語結(jié)構(gòu)分析也容易走到另一個極端,即只顧形式描寫而忽略語義解釋。典型的特征就是盲目地追求二分結(jié)構(gòu),導(dǎo)致難以從分析結(jié)果中提取句子語義特征。依存語法吸取了這個教訓(xùn),在結(jié)構(gòu)設(shè)計上突顯中心詞和扁平化結(jié)構(gòu)層次,可視作向中心詞分析法一定程度的回歸。
形式化析句的語義解釋需注意分辨語言和邏輯之間的關(guān)系。語言是人類交流思想的思維工具,所以語言結(jié)構(gòu)必以邏輯作為基礎(chǔ)。但語言畢竟不等于思維,對語言結(jié)構(gòu)進行解釋經(jīng)常會遇到“不合邏輯”的一面,比如:
例5 他逛了一天的商場。
例6 我的文章比你多。
從邏輯上分析,例5中“一天”是“逛”的時量(應(yīng)作補語),但結(jié)構(gòu)助詞“的”決定了它只能作“商場”的定語;例6應(yīng)理解為“我的文章比你的文章多”的省略形式,但一般在形式化描寫中都不按省略處理。在形式化系統(tǒng)中提煉出來的描寫形式分別是:
① NP+V了+<時量>+的+NP
② X的+NP+比+Y+AP
以上形式若按邏輯解釋是不通的,但它們是客觀、有效的語言規(guī)則。語言與邏輯的這種不一致性源自語言的約定俗成,在進行形式化系統(tǒng)設(shè)計時尤其要考慮到這一點。
2.3 層次和線性
語言既是思想的表達形式,同時又受到物質(zhì)外殼——語音流的限制,其結(jié)構(gòu)包含層次性和線性兩方面特征。層次分析法和成分分析法之爭就是關(guān)于在這種對立統(tǒng)一中以誰為主的問題。在句子結(jié)構(gòu)的形式化方法中,句子結(jié)構(gòu)的線性特征由表層的詞序列體現(xiàn),這沒有太大的爭議,而如何對待層次性就有著明顯的差異。
如前所述,短語結(jié)構(gòu)樹和依存樹本質(zhì)上都是采取層次分析法的思路,不過依存樹在執(zhí)行層次分析時不像短語結(jié)構(gòu)樹那么絕對,比如對于“狀—動—賓”序列就不區(qū)分((狀—動)—賓)還是(狀—(動—賓))。但是依存樹的結(jié)構(gòu)層次性并不因此就削弱了,根據(jù)邱立坤的研究[6],只要設(shè)計得當(dāng),這兩種形式的句法樹完全可以相互轉(zhuǎn)化。那么,層層二分的短語結(jié)構(gòu)比相對扁平的依存結(jié)構(gòu)多出的層次信息是什么呢?我們認為,可以視作在基本結(jié)構(gòu)層次描寫之后進一步語義解釋的邏輯層次。((狀—動)—賓)還是(狀—(動—賓)),大多數(shù)情況下對基本的句義理解并不產(chǎn)生影響。短語結(jié)構(gòu)樹中通常是人為約定一種,而依存樹則不進行顯式地描寫,或者說,依存樹中蘊含了這一邏輯層次。
不光依存樹蘊含層次,事實上傳統(tǒng)的成分分析法也不可能不顧句法層次性。關(guān)于這一點,朱德熙先生早就指出: “層次分析是語法分析的一部分,是進行語法分析不可缺少的手續(xù)之一,不是一種可以采用也可以不采用的方法?!盵7]成分分析法之所以常被人誤解為不能表達層次,原因在于它把許多邏輯層次蘊含在其核心的句子模型之中了。比如2.2節(jié)對兩個例句的結(jié)構(gòu)描寫就只用了線性形式,但只要指明其中NP、AP、X、Y等結(jié)構(gòu)單位所充當(dāng)?shù)木渥映煞诸愋?,其層次關(guān)系不言自明。因為典型的句子成分線性組合可以默認為蘊含如下所示的邏輯層次:
① ((主—(狀—((謂—補)—賓)))
這種蘊含(或默認)使得從短語結(jié)構(gòu)層次描寫到句子成分序列描寫,表面上層次性減弱而線性增強,但句子結(jié)構(gòu)的總信息量卻沒有增減。當(dāng)然,成分分析法中可以默認層次關(guān)系的線性成分序列是有界的,當(dāng)線性組合超出一定范圍時就必需進行顯式的層次描寫。比如:
例7 咬死 獵人 的 狗 跑了。
這句的成分分析就不可描述成“謂+賓+的+主+謂”;而必需分作兩個層次: 第一層為“定+主+謂”,第二層才是定語內(nèi)部的“謂+賓”。那么,可以默認層次的線性組合范圍有多大?傳統(tǒng)語法給我們的啟示是: 采用成分分析法,將句法分析“附麗在句子的模型上進行”[7]。所謂“句子的模型”,即語法教學(xué)中常提到的“句式”。句式結(jié)構(gòu)中“句子成分”的組合層次是默認蘊含的,需要顯式描寫層次的是成分內(nèi)部結(jié)構(gòu)進一步的句式化。
關(guān)于句法結(jié)構(gòu)的形式化分析,中文信息處理優(yōu)先采用了以短語為本位的語法體系,其中原因是多方面的。首先是漢語語法研究歷史上的原因。在中文信息處理起步階段,關(guān)于漢語的句式系統(tǒng)及成分分析法并沒有形成統(tǒng)一的認識,語法理論界本就有多家體系,教學(xué)領(lǐng)域也是《暫擬系統(tǒng)》和《系統(tǒng)提要》并存。因此,當(dāng)需要對漢語句法結(jié)構(gòu)做形式化處理時,傳統(tǒng)語法沒有一套統(tǒng)一的句式系統(tǒng)方案。
其次,短語結(jié)構(gòu)由于主要采用二分結(jié)構(gòu),相比保留著更多線性特征的句式結(jié)構(gòu),形式上更加簡潔,與計算機可接受的形式文法距離更近。因此,選擇短語作為句法結(jié)構(gòu)的基本單位最符合形式化系統(tǒng)“用更少規(guī)則概括更多現(xiàn)象”的趨簡性要求。
最后,句式系統(tǒng)歸納的可行性和必要性在中文信息處理領(lǐng)域沒有得到充分論證。一般認為,詞和短語都是靜態(tài)結(jié)構(gòu)單位,具有系統(tǒng)性;而句子是動態(tài)使用單位,其結(jié)構(gòu)型式也會隨表達的復(fù)雜化而無限擴展,不可能窮盡也就沒有系統(tǒng)性。此外,認為句式的主要結(jié)構(gòu)規(guī)律就是短語結(jié)構(gòu)規(guī)律,大部分情況下句式都可分解為短語的層級組合,由此形成了“詞組加上語調(diào)就成為句子”的詞組本位觀點。
以上原因中前兩項并非決定性的,最后一項才是句式形式化研究最大的理論障礙,目前也仍未引起足夠的重視。這里首先討論必要性,對于句式及成分分析法,理論語法學(xué)界歷來就有人堅持和主張。比如王維賢先生認為,“研究詞組的規(guī)律不等于研究句子的規(guī)律,不揭示句子的組織規(guī)律就等于沒有接觸到語法上的核心問題。與其說詞組加語調(diào)就成為句子,不如說詞組是構(gòu)成句子的基礎(chǔ)。離開語境,不考慮省略、移位等等因素,就無法正確理解什么是句法。詞組同詞一樣,只是構(gòu)成句子的基礎(chǔ)。離開‘句本位’來研究詞組只是語法的不完全的部分的任務(wù)。”[8]短語之外句子特有的結(jié)構(gòu)規(guī)律在“小句中樞”和“三個平面”語法理論中也有深入的揭示。如果說這些理論上的闡述僅僅是一種啟發(fā),那么中文信息處理自動句法分析所遭遇的語義瓶頸則迫使我們?nèi)フ暰涫浇Y(jié)構(gòu)的重要性。在現(xiàn)行的句法分析系統(tǒng)中,有幾個關(guān)鍵問題是值得深思的。
首先是句法分析的任務(wù),NLP中待分析的輸入默認都是客觀的自然語言,因而不存在“合法與否”的判斷問題,主要任務(wù)在于結(jié)構(gòu)排歧。根據(jù)2.3節(jié)分析,短語結(jié)構(gòu)的層次信息比影響句義理解的層次信息要多得多,也就是說我們?nèi)藶榈財U大了排歧的范圍。
其次,對于真正需要排歧的結(jié)構(gòu)形式缺乏有效的系統(tǒng)規(guī)則。因為短語結(jié)構(gòu)系統(tǒng)的描寫規(guī)則(產(chǎn)生式)在形式上是上下文無關(guān)的,排歧只能盲目地搜尋同樣“上下文無關(guān)”的產(chǎn)生式“歷史”,而對真正有助于句義理解的上下文范圍卻無所適從。拿例5來說明,根據(jù)統(tǒng)計知識,述補短語“逛了一天”應(yīng)當(dāng)優(yōu)先于定中短語“一天的商場”,但人理解時卻能打破這種局部優(yōu)選的選擇傾向,依據(jù)就是該句特定的句式結(jié)構(gòu)。缺少句式結(jié)構(gòu)的支持,對輸入串的任何片段的分析都沒有足夠的信度。增加局部短語結(jié)構(gòu)分析信度的有效辦法是找到它在更大句式結(jié)構(gòu)中的合理位置,而決定句子結(jié)構(gòu)分析最終結(jié)果的依據(jù)則是全句范圍內(nèi)句式結(jié)構(gòu)的成立。還是以歧義語段“咬死獵人的狗”為例,對比例7和例8、例9,只論短語將很難判斷兩種歧義結(jié)構(gòu)的合理性。但隨著上下文的不斷增加,人腦能夠在兩種歧義結(jié)構(gòu)之間實現(xiàn)迅速切換,其決斷依據(jù)是句式結(jié)構(gòu)。
例8 熊 咬死 獵人 的 狗 跑了。
例9 放 熊 咬死 獵人 的 狗 跑了。
眾所周知,短語結(jié)構(gòu)語法的問題在于過強的生成能力,“特征合一”的分析方法在NLP中之所以捉襟見肘,正是因為這些規(guī)則局限在短語層面,約束力太弱。這個問題在依存分析中同樣存在,甚至更為嚴重。因為依存語法系統(tǒng)進一步削弱了對句法結(jié)構(gòu)的規(guī)則限制,除“無環(huán)路、不交叉、弱連通”等依存公理外,其系統(tǒng)約束就只限于詞語的共現(xiàn)搭配了。因此,在當(dāng)前依存句法分析系統(tǒng)的析句結(jié)果中,不光存在“錯誤”結(jié)構(gòu),還有不少“非法”結(jié)構(gòu)。圖 1是取自某個依存分析器的兩個分析樣例,a)句中“給→他”的介賓關(guān)系(POB)與“給→錢”的動賓關(guān)系(VOB)是不能并存的;b)句“拿→錢”和“拿→市場”兩個動賓關(guān)系(VOB)中間夾一個“拿→上”的聯(lián)合關(guān)系(COO),也不合法。自動分析結(jié)果出現(xiàn)“錯誤”是排歧算法的問題,但“非法”則暴露了形式化系統(tǒng)體系設(shè)計的問題。
圖1 依存句法分析樣例
綜上,句式結(jié)構(gòu)的缺失是當(dāng)前中文信息處理領(lǐng)域形式化句法結(jié)構(gòu)普遍存在的問題。那么,怎樣看待句式的系統(tǒng)性和句式歸納的可行性呢?誠然,作為言語單位的句子是不可窮盡、也無所謂系統(tǒng)性的;但句式是對句子結(jié)構(gòu)的抽象,作為語言單位其必然有系統(tǒng)性,關(guān)鍵是如何借助樹庫對句子結(jié)構(gòu)進行抽象和歸納的操作問題。句式結(jié)構(gòu)的系統(tǒng)性體現(xiàn)在: 存在一個基礎(chǔ)的句式系統(tǒng),其中包含的句式是有窮封閉的;這些基礎(chǔ)句式通過一定的規(guī)則可以推導(dǎo)出其他復(fù)雜的句式??膳c短語結(jié)構(gòu)體系的形式化作一個比較,短語結(jié)構(gòu)系統(tǒng)中作為核心的是若干種基本短語,由短語到句子的推導(dǎo)過程則是通過層級組合;而句式的推導(dǎo)機制不采取如此層級組合法,分為兩個方向: ①句式結(jié)構(gòu)本身的線性擴展;②句式內(nèi)部成分的進一步句式結(jié)構(gòu)化。歸納基礎(chǔ)句式應(yīng)首先排除由②造成的干擾,而①則主要表現(xiàn)為修飾成分的增多和謂語部分的多核化,表面看也會造成結(jié)構(gòu)類型的不封閉性。但若把帶多個修飾語、明顯書面性的冗長句子排除出“自然”語言范圍的話,那么就可認為基礎(chǔ)的句子結(jié)構(gòu)類型也是有窮封閉的。
2.5 詞法和句法
詞法研究詞內(nèi)部的構(gòu)造和變化規(guī)律,句法研究由詞到句的組合規(guī)律,屬于兩個不同層面,理論上本來是很清楚的。但在漢語的NLP實踐中,詞法和句法的劃界卻是一個老大難問題。漢語詞和短語之間的界限模糊也影響到析句結(jié)果的形式化表達。從理論上講,詞的內(nèi)部結(jié)構(gòu)分析是不應(yīng)出現(xiàn)在句法樹中的,句法樹的葉子結(jié)點應(yīng)該就是詞。但漢語句子中的許多詞都是動態(tài)構(gòu)造的“臨時詞”[9]。這些詞大多未收入詞庫,按分詞規(guī)范需切分,因而也成為句法樹中的“短語”形式。
對樹庫系統(tǒng)而言,切分臨時詞的代價不過是增加諸如“重疊”、“附加”等幾種結(jié)構(gòu)類型,而收益是封閉了詞形符號集合(詞庫)。但是若從句式系統(tǒng)角度考察,則需重新權(quán)衡得失。因為臨時詞可能位于句式中的多個位置,若一味地機械拆分至原子單位(包括各類語素和詞綴),那么句式結(jié)構(gòu)將呈指數(shù)級增長。因此,句式系統(tǒng)的形式化要求嚴格地界定詞法和句法的邊界。
根據(jù)上述分析,中文信息處理主流的形式化句法體系更多是從語言系統(tǒng)角度出發(fā),在結(jié)構(gòu)特點方面偏重短語層次和關(guān)系描寫,追求詞法、句法形式上的統(tǒng)一;而NLP直接面對真實言語現(xiàn)象,句法結(jié)構(gòu)的線性特點和整體格局更是形式化不可忽視的重要方面。因此,在中文信息處理領(lǐng)域探討析句結(jié)構(gòu)的形式化必需統(tǒng)籌以上五組關(guān)系在形式化系統(tǒng)中的作用和定位,關(guān)鍵是實現(xiàn)漢語句式的系統(tǒng)性歸納,而句式信息的獲取又離不開“句本位”的析句方法。
句本位析句采用句子成分分析法,形式化的關(guān)鍵就是對句式系統(tǒng)的歸納和規(guī)范。歸納要求從真實的言語材料出發(fā)提煉結(jié)構(gòu)類型,而規(guī)范是從語言系統(tǒng)角度對具體析句的一致性約束,兩項工作必需結(jié)合而行。
漢語語法學(xué)界最早、也最具形式化特點的句本位析句法是黎錦熙先生《新著國語文法》中提出的“圖解法”。因為兼顧結(jié)構(gòu)的層次性和序列性,“圖解”無疑是一種成功的表現(xiàn)形式。黎氏語法把句式圖解規(guī)律歸納為一個“圖解總公式”[10],這當(dāng)然是為了教學(xué)上的便利,但它反而使人不易看出獨立的句式。另外由于術(shù)語陳舊等原因,黎氏圖解法逐漸淡出了人們的視線。近年來,何靜[11]、彭煒明[12]等先后對圖解法進行了形式化改造,包括重新設(shè)計圖解樣式和規(guī)范圖解操作模式。這些工作促進了語法教學(xué)研究和中文信息處理的結(jié)合,利用可視化標(biāo)注工具開展的句本位樹庫構(gòu)建實踐也有效地推動了漢語句式系統(tǒng)的歸納和規(guī)范。下面介紹在形式化改造中總結(jié)出來的一些經(jīng)驗、原則和待解決問題。
3.1 圖解法改造的經(jīng)驗和原則
有利于句式系統(tǒng)的歸納和規(guī)范是圖解法形式化改造總的原則,由此出發(fā),文獻[12]中提出了“編碼解碼”和“固定句式結(jié)構(gòu)”兩個具體設(shè)計原則。其中編碼解碼是有關(guān)技術(shù)實現(xiàn)方面的,這里不去討論;所謂“固定句式結(jié)構(gòu)”,即本文前面所述關(guān)于句式結(jié)構(gòu)內(nèi)含邏輯層次的意思,也可表述為: 句式內(nèi)部的線性擴展不會改變各成分結(jié)點的相對層次。
除此以外,我們認為目前的形式化改造在以下幾方面的經(jīng)驗是值得肯定的。
1. 語法體系的更新,主要反映在語法術(shù)語和形式化系統(tǒng)的符號集上。從黎氏語法體系更新到《暫擬系統(tǒng)》,除術(shù)語替換外,引入了雙賓語句式和連動句、兼語句等復(fù)雜謂語句式,這使得句式系統(tǒng)更加細致清晰了。
2. 暫時放棄黎氏圖解法“向下辨詞類,向上通章法”的教學(xué)目標(biāo),將系統(tǒng)功能集中在“小句”結(jié)構(gòu)的形式描寫上。就是說,復(fù)句和句群的邏輯關(guān)系不在圖解中反映,析句的基本單位為單句和復(fù)句中的分句,即一般所謂的“小句”。句式的歸納是一個復(fù)雜的系統(tǒng)工程,必須分階段進行,而基礎(chǔ)句式的歸納首先在于小句。采取“有限目標(biāo)”的原則有利于工程的具體實施。
3. 簡化圖解樣式。為了讓圖解形式與句式結(jié)構(gòu)直接對應(yīng),不在圖形樣式上面區(qū)分詞類,比如黎氏圖解法中用斜線、折線、出頭折線等來區(qū)分充當(dāng)附加成分的形容詞、名詞和動詞,在改造后的圖解法中都統(tǒng)一了。
4. 為了控制基礎(chǔ)句式的數(shù)量,采取了句式完形結(jié)構(gòu),即除特殊的無主句和獨詞句外,一般主謂句的圖解主干均默認具有“主—謂—賓”的基本框架。這樣就不會因省略等言語因素而造成對語言系統(tǒng)句式歸納的干擾。
3.2 亟待解決的若干規(guī)范問題
為了實現(xiàn)形式化系統(tǒng)的內(nèi)在一致性,解決圖解析句系統(tǒng)對樹庫標(biāo)注中各類復(fù)雜言語現(xiàn)象的適應(yīng)性問題,如下問題亟待規(guī)范。
1. 小句切分問題。一般用“語音停頓和主謂形式或謂語形式”[13]來判斷小句,但是實際操作中常常引起爭議,比如下列句子,不同人可能就會有不同的分析。因此,小句切分標(biāo)準是形式化需要首先規(guī)范的問題。
例10 你不去我去。
例11 他一邊吃,一邊看。 / 他邊吃邊看。
例12 只有社會主義,才能救中國。
例13 我們一貫主張,國家不分大小,應(yīng)該一律平等。
2. 結(jié)構(gòu)層次的理解問題。如前所述,句式結(jié)構(gòu)較多地采用線性序列的描寫形式,那么就應(yīng)該有一套對其中內(nèi)含邏輯層次(短語結(jié)構(gòu)層次)的解釋規(guī)范。
3. 臨時詞的范圍界定問題。文獻[9]對此已有所涉及,但還不系統(tǒng),實際圖解標(biāo)注中遇到的專有名詞、流行語、特殊文體用語(文言、網(wǎng)絡(luò)用語)等都需要制定詳細的圖解標(biāo)準。
本文從形式化的角度梳理和探討了漢語語法學(xué)界關(guān)于析句的若干理論問題,之所以不避“炒冷飯”之嫌,實是因為中文信息處理目前的基礎(chǔ)理論框架至今還是以描寫結(jié)構(gòu)主義語法為主的局面。而不管是框架語義學(xué),還是“三個平面”、構(gòu)式語法等功能學(xué)派理論,都指向同一個形式基礎(chǔ)——句式。在國際范圍內(nèi)語言學(xué)已發(fā)生深刻變化,中文信息處理或?qū)⒂瓉怼爸卮髣?chuàng)新窗口期”[14]的當(dāng)下,重新探討漢語句式相關(guān)的語言學(xué)理論及其形式化問題尤其具有重要價值。
[1] 夏國軍. 語言邏輯與形式化[J]. 南開學(xué)報(哲學(xué)社會科學(xué)版),2004,(03): 63-72.
[2] 胡明揚. 當(dāng)代語言學(xué)[J]. 廣播電視大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2000,(04): 72-77.
[3] 彭煒明,宋繼華,王寧,等. 漢語傳統(tǒng)語法及其在中文信息處理中的應(yīng)用展望[J]. 中文信息學(xué)報,2012,26(04): 50-60.
[4] 詹衛(wèi)東. 現(xiàn)代漢語樹庫標(biāo)注常見問題舉例[EB/OL]. 2009-07-30. http: //ccl.pku.edu.cn/doubtfire/Projects/Treebank_spec1.0_appendix.pdf.
[5] 胡明揚. 現(xiàn)代漢語語法的開創(chuàng)性著作——《新著國語文法》的再認識和再評價[J]. 語言科學(xué),2002,1(01): 92-101.
[6] 邱立坤. 多視圖漢語樹庫構(gòu)建的理論研究與實踐[R]. 北京: 北京大學(xué)博士后研究工作報告,2012.
[7] 朱德熙. 語法分折和語法體系[C] // 《中國語文》雜志社. 漢語析句方法討論集. 上海: 上海教育出版社,1984: 205-215.
[8] 王維賢. 《新著國語文法》的語言觀和方法論[C] // 王維賢語言學(xué)論文集. 北京: 商務(wù)印書館,2007: 208-233.[9] 彭煒明,宋繼華,俞士汶. 中文信息處理的詞法問題——以句本位語法圖解樹庫構(gòu)建為背景[J]. 中文信息學(xué)報,2014,28(02): 8-15.
[10] 黎錦熙. 漢語語法圖解總公式[C]// 黎錦熙選集. 長春: 東北師范大學(xué)出版社,2001: 397-401.
[11] Jing He,Weiming Peng,Jihua Song,and Hongzhang Liu. Annotation Schema for Contemporary Chinese Based on JinXi Li’s Grammar System.[C]//Proceedings of The 14th Chinese Lexical Semantics Workshop (CLSW2013),LNAI,Volume 8229,Springer,2013: 668-681
[12] 彭煒明,宋繼華,王寧.基于句式結(jié)構(gòu)的漢語圖解析句法設(shè)計[J].計算機工程與應(yīng)用.2014,50(06).
[13] 林杏光. 復(fù)句與表達[M]. 北京: 中國物資出版社,1986: 4-5.
[14] 孫茂松,劉 挺,姬東鴻,等. 語言計算的重要國際前沿[J]. 中文信息學(xué)報,2014,28(01): 1-8.
Issues in Formalization of Chinese Syntactic Analysis
PENG Weiming1,2,SONG Jihua2,WANG Ning3
(1. Key Laboratory of Computational Linguistics (Peking University),Ministry of EducationInstitute of Computational Linguistics,Peking University,Beijing 100871,China;2. College of Information Science and Technology,Beijing Normal University,Beijing 100875,China;3. School of Chinese Language and Literature,Beijing Normal University,Beijing 100875,China)
This paper discusses the basic concept of formal syntactic analysis,exploring some formalization issues in Chinese syntactic analysis from multiple linguistics perspectives: language/speech,description/explanation,hierarchical/linear,phrases/sentence patterns,as well as lexical/syntactic,ztalso introduces some experiencs,principles and problems summarized from the formalization practice of sentence-based syntactic analysis.
method of analysis,formalization,Chinese sentence pattern,sentence-based grammar
彭煒明(1985—),博士,講師,主要研究領(lǐng)域為中文信息處理、詞匯語義學(xué)。E?mail:pengweiming@bnu.edu.cn宋繼華(1963—),教授,博士生導(dǎo)師,主要研究領(lǐng)域為語言信息處理、計算機教育應(yīng)用。E?mail:songjh@bnu.edu.cn王寧(1936—),教授,博士生導(dǎo)師,主要研究領(lǐng)域為漢語言文字學(xué)、詞匯語義學(xué)、文字音韻訓(xùn)詁學(xué)。E?mail:niwangning@263.net
2014-03-07 定稿日期: 2014-05-15
中國博士后科學(xué)基金(2013M530455);北京師范大學(xué)教師基金(2014NT39)
1003-0077(2016)03-0030-06
TP391
A