国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向文本信息處理的漢語句子和小句

2017-06-01 11:29葛詩利盧達(dá)威
中文信息學(xué)報(bào) 2017年2期
關(guān)鍵詞:嵌套句號(hào)標(biāo)點(diǎn)

宋 柔,葛詩利,尚 英,盧達(dá)威

(1. 廣東外語外貿(mào)大學(xué) 外語研究與服務(wù)協(xié)同創(chuàng)新中心,廣東 廣州 510420;2. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100086)

面向文本信息處理的漢語句子和小句

宋 柔1,2,葛詩利1,尚 英2,盧達(dá)威2

(1. 廣東外語外貿(mào)大學(xué) 外語研究與服務(wù)協(xié)同創(chuàng)新中心,廣東 廣州 510420;2. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100086)

小句和句子分別是篇章信息處理的基本單位和復(fù)合單位。但是漢語中,這兩個(gè)概念至今未有公認(rèn)的適用于語言信息處理的界定,這種狀況阻礙了漢語信息處理的發(fā)展。該文將漢語的句子大致界定為自足的廣義話題結(jié)構(gòu),把小句界定為基于廣義話題結(jié)構(gòu)的話題自足句,并提出了這樣界定的語言學(xué)依據(jù)和認(rèn)知依據(jù)。

漢語篇章處理;句子;小句;廣義話題結(jié)構(gòu);話題自足句

1 漢語句子和小句界定中的問題

通常認(rèn)為,篇章處理的單位是句子。關(guān)于句子的界定,布龍菲爾德[1]提出: “任何一個(gè)句子都是個(gè)獨(dú)立的語言形式,不用任何語法結(jié)構(gòu)包括到任何較大的語言形式里去,單憑這個(gè)事實(shí)就可以把言語里的句子劃分出來了。”這里強(qiáng)調(diào)的是獨(dú)立和最大。對(duì)于怎樣界定漢語的句子,至今還缺少深入的研究。語言學(xué)家對(duì)于漢語句子的定義并不一致,比較典型的是趙元任和朱德熙的定義: “句子是最大的語法分析上重要的語言單位。一個(gè)句子是兩頭被停頓限定的一截話語。這種停頓應(yīng)理解為說話的人有意作出的?!盵2]“句子是前后都有停頓并且?guī)в幸欢ǖ木湔{(diào)表示相對(duì)完整的意義的語言形式?!盵3]其中,關(guān)于停頓和句調(diào)的條件在文本中是部分地可檢驗(yàn)的,但“最大的語法分析上重要的語言單位”和“表示相對(duì)完整的意義”則缺少可操作的檢驗(yàn)標(biāo)準(zhǔn)。

邢福義研究復(fù)句,在建立復(fù)句語料庫時(shí)采用了一種可操作的句子界定方法: “本章對(duì)‘句’的認(rèn)定,遵從‘點(diǎn)號(hào)標(biāo)句’的從眾性原則。標(biāo)句的點(diǎn)號(hào),最具代表性的是句號(hào),其次是問號(hào)和感嘆號(hào)?!盵4]這種句子,這里簡稱“句號(hào)句”,在語言信息處理界也是實(shí)際被采用的。從信息處理的視角看,句號(hào)句比較嚴(yán)重的問題在于兩方面:

一是隨意性較大。漢語的句號(hào)和逗號(hào)的句法和功能的劃分并不清楚,不同人的使用習(xí)慣差異較大。以句號(hào)作為句子界定標(biāo)準(zhǔn),缺少理論依據(jù),進(jìn)而缺乏應(yīng)用的指導(dǎo)意義。邢福義雖遵從“點(diǎn)號(hào)標(biāo)句”,但強(qiáng)調(diào)只是在小學(xué)語文課本的范圍內(nèi),因?yàn)檫@個(gè)范圍的語料比較規(guī)范。

二是有時(shí)意義不完整。一般人的印象中,句號(hào)句應(yīng)當(dāng)是意義完整的,事實(shí)并非如此。

例1 (賓州中文樹庫CTB)

西藏銀行部門積極調(diào)整信貸結(jié)構(gòu),以確保農(nóng)牧業(yè)生產(chǎn)等重點(diǎn)產(chǎn)業(yè)的投入,加大對(duì)工業(yè)、能源、交通、通信等建設(shè)的正常資金供應(yīng)量。去年新增貸款十四點(diǎn)四一億元,比上年增加八億多元。農(nóng)牧業(yè)生產(chǎn)貸款(包括扶貧貸款)比上年新增四點(diǎn)三八億元;鄉(xiāng)鎮(zhèn)企業(yè)貸款增幅為百分之六十一點(diǎn)八三。

這段話按照句號(hào)切句的原則,分成三個(gè)句子,分別對(duì)西藏銀行部門的工作進(jìn)行抽象表述、給出總體貸款數(shù)據(jù)、給出具體行業(yè)部門貸款數(shù)據(jù)。這三個(gè)句號(hào)的使用是無可挑剔的。這三個(gè)句子在CTB中標(biāo)注的簡化形式可以表示為:

[西藏銀行部門積極調(diào)整信貸結(jié)構(gòu), 以確保農(nóng)牧業(yè)生產(chǎn)等重點(diǎn)產(chǎn)業(yè)的投入, 加大對(duì)工業(yè)、能源、交通、通信等建設(shè)的正常資金供應(yīng)量。]

[*pro* 去年新增貸款十四點(diǎn)四一億元,

*pro* 比上年增加八億多元。]

[農(nóng)牧業(yè)生產(chǎn)貸款(包括扶貧貸款)比上年新增四點(diǎn)三八億元; 鄉(xiāng)鎮(zhèn)企業(yè)貸款增幅為百分之六十一點(diǎn)八三。]

由于采用點(diǎn)號(hào)標(biāo)句原則,這一標(biāo)注丟失了以下信息:

(1) 第3句的主體“西藏銀行部門”和時(shí)間“去年”。

(2) 第2句的第1小句和第2小句的主體“西藏銀行部門”。

我們考察了BLGTB(北京語言大學(xué)廣義話題結(jié)構(gòu)語料庫)的百科全書分庫,該庫共4 645個(gè)句號(hào)句,其中1 910個(gè)有話題在前面句號(hào)句中,占41.1%,比例很高。小說中這類情況沒那么嚴(yán)重?!堵苟τ洝返谝换毓?32個(gè)句號(hào)句,其中42個(gè)有話題在前面句號(hào)句中,占6.7%,比例雖不很高但也不能無視。這些數(shù)據(jù)說明句號(hào)句作為漢語篇章單位并不合適。

對(duì)比漢語句子的界定研究,漢語小句界定在語言學(xué)界涉及比較多。一般來說,凡研究篇章現(xiàn)象的都會(huì)涉及小句的界定,因?yàn)樾【涫瞧碌淖罨镜膯挝弧jP(guān)于小句的定義,有幾種觀點(diǎn)。一種是參照英語的方式,把包含謂語的成分都看成小句[5];另一種強(qiáng)調(diào)小句的獨(dú)立性而排斥擔(dān)任句子成分的主謂短語[6];還有一種強(qiáng)調(diào)小句的動(dòng)態(tài)性,小句一定要帶有語調(diào)[7]。

我們不建議在信息處理中采用這些定義。原因是:

(1) 缺乏可操作性。比如以謂語界定小句,因漢語缺乏形式標(biāo)記,謂語的判斷很成問題?!八f話很快”,既可看成(他(說話 很快)),其中“說話”是謂語中的主語;也可看成((他 說話)很快),“說話”是主語中的謂語。又比如語調(diào)的判斷。一段文本是否帶語調(diào),在沒有語氣詞的情況下要靠研究者試驗(yàn)看能不能加語氣詞[7],這是很不可靠的,也無法自動(dòng)實(shí)現(xiàn)。

(2) 缺乏可應(yīng)用性。缺乏可操作性直接導(dǎo)致無法應(yīng)用,而研究者缺乏應(yīng)用導(dǎo)向性更使得這些定義缺乏應(yīng)用價(jià)值。比如各種定義都沒提出一個(gè)主語帶幾個(gè)謂語、中間有逗號(hào)分割的情形怎么辦,但這種情形在真實(shí)文本中很常見。

有些語言信息處理的實(shí)踐出于可操作性的需要,用標(biāo)點(diǎn)句作為小句。但是,標(biāo)點(diǎn)句往往意義不完整。BLGTB的考察表明,一半以上的這種小句缺話題[8],還有一些標(biāo)點(diǎn)句缺說明。

本文認(rèn)為,作為漢語文本的信息處理單位,句子和小句的定義應(yīng)當(dāng)滿足如下條件:

(1) 對(duì)于各種漢語文本,可操作,全覆蓋;

(2) 符合語言學(xué)的基本原理;

(3) 具有認(rèn)知意義;

(4) 支持篇章處理的各種應(yīng)用;

本文將說明,按照上述條件,漢語篇章中自足的廣義話題結(jié)構(gòu)大致可以看作漢語的句子,話題自足句可以看作小句。

2 一些概念

本節(jié)內(nèi)容多已發(fā)表過,但因?yàn)閺V義話題結(jié)構(gòu)和話題自足句是本文的最重要的基本概念,而許多人并不了解,故這里仍占用一些篇幅進(jìn)行概要介紹,細(xì)節(jié)請(qǐng)參看[9]。

2.1 標(biāo)點(diǎn)句和廣義話題結(jié)構(gòu)

我們把逗號(hào)、分號(hào)、句號(hào)、嘆號(hào)、問號(hào)、直接引語的引號(hào)以及這種引號(hào)前的冒號(hào)所分隔出的詞語串稱為標(biāo)點(diǎn)句。

篇章的上下文中,如果標(biāo)點(diǎn)句中的一個(gè)成分(包括整個(gè)標(biāo)點(diǎn)句)被另一些標(biāo)點(diǎn)句談?wù)?,則稱前者為后者的話題,后者為前者的說明。話題和它的所有說明組成一個(gè)話題結(jié)構(gòu)。話題所在標(biāo)點(diǎn)句中話題后面的部分如果也是談?wù)撍?,那么也是它的一個(gè)說明。

這樣的話題包括篇章中被上下文共享的各種成分,主要是主語,也包括狀語性、謂語性的成分,甚至某些連詞、介詞等,所以稱為廣義話題,相應(yīng)的話題結(jié)構(gòu)稱為廣義話題結(jié)構(gòu)。有時(shí)為了方便,也將廣義話題,稱作話題。

漢語的廣義話題結(jié)構(gòu)可以用換行縮進(jìn)圖式表示: 每個(gè)標(biāo)點(diǎn)句自成一行,并且當(dāng)一個(gè)標(biāo)點(diǎn)句的話題在另一個(gè)標(biāo)點(diǎn)句中時(shí),前者縮進(jìn)到話題的右側(cè)。采用這種方法,例1可以表示為圖1。

圖1 廣義話題結(jié)構(gòu)的嵌套性

這個(gè)例子展示出廣義話題結(jié)構(gòu)的嵌套性。

2.2 自足的廣義話題結(jié)構(gòu)(自足話題結(jié)構(gòu))

如果一個(gè)廣義話題結(jié)構(gòu)既沒有話題在上下文中,也沒有說明在上下文中,它就稱為自足的廣義話題結(jié)構(gòu),簡稱自足話題結(jié)構(gòu)。例1是一個(gè)自足話題結(jié)構(gòu)。例2有14個(gè)標(biāo)點(diǎn)句,組成4個(gè)自足話題結(jié)構(gòu),在圖中用帶圈的數(shù)字標(biāo)示。第3、4標(biāo)點(diǎn)句組成廣義話題結(jié)構(gòu),但需要共享第1標(biāo)點(diǎn)句中的“查繼佐”做外層話題,故不是自足話題結(jié)構(gòu)(圖2)。

例2 (金庸《鹿鼎記》)

圖2 自足話題結(jié)構(gòu)(其中第5標(biāo)點(diǎn)句中的雙豎線隔出新 支話題“雪”。新支話題的概念見文獻(xiàn)[9]

2.3 話題自足句及其生成方法

自足話題結(jié)構(gòu)中的標(biāo)點(diǎn)句,從該結(jié)構(gòu)內(nèi)的上下文中補(bǔ)足了話題和說明,所得到的結(jié)果稱為該標(biāo)點(diǎn)句的話題自足句。如果某標(biāo)點(diǎn)句沒有話題和說明在上下文中,只要不是省略,它自身就是話題自足句。這里的“自足”是針對(duì)上下文而言的,即從上下文的字面上看,話題和說明已經(jīng)補(bǔ)足了,無法再補(bǔ)更多成分進(jìn)去。例1的7個(gè)標(biāo)點(diǎn)句可以補(bǔ)足話題成為7個(gè)話題自足句(圖3)。

圖3 話題自足句

我們把話題自足句的生成過程看成是與篇章中標(biāo)點(diǎn)句的輸入同步發(fā)生的。例1中的話題自足句的生成過程可以用堆棧操作來描述(圖4)。

圖4 用堆棧操作生成話題自足句,圖中每個(gè)等號(hào)表示生成一個(gè)話題自足句

話題自足句的生成方法主要是上面描述的堆棧模式,此外還有新支模式、話題后置模式、匯流模式、封閉語段模式,各模式合起來構(gòu)成廣義話題結(jié)構(gòu)的流水模型。詳見文獻(xiàn)[9]。

3 漢語的句子

本文把漢語的句子大致地界定為自足話題結(jié)構(gòu)。

之所以說“大致地”,是因?yàn)橛袝r(shí)一個(gè)自足話題結(jié)構(gòu)因帶有某些連詞而邏輯上不能獨(dú)立,需要與和它相鄰的作為邏輯關(guān)聯(lián)方的自足話題結(jié)構(gòu)合在一起,才能構(gòu)成漢語的句子。這種情況不是很多。限于篇幅,本文不予詳細(xì)討論。

3.1 自足話題結(jié)構(gòu)作為句子的語言學(xué)依據(jù)

趙元任和朱德熙關(guān)于句子定義都要求句子兩頭有停頓,朱德熙還特別提出要有句調(diào)。這兩個(gè)要求,自足話題結(jié)構(gòu)可以說是大致滿足的。因?yàn)樽宰阍掝}結(jié)構(gòu)是標(biāo)點(diǎn)句的序列,標(biāo)點(diǎn)句以標(biāo)點(diǎn)分隔,標(biāo)點(diǎn)的功能之一就是表示停頓和語調(diào)。

本文第1節(jié)指出,句子被要求是“最大的語法分析上重要的語言單位”和“表示相對(duì)完整的意義”,缺少可操作的檢驗(yàn)標(biāo)準(zhǔn)。現(xiàn)在,我們從話題—說明關(guān)系的視角來看這兩個(gè)條件。所謂意義相對(duì)完整,就是話題和說明都齊全,不需要從上下文中補(bǔ)充;所謂最大,就是從話題—說明關(guān)系來看,沒有更大的結(jié)構(gòu)可以包容自足話題結(jié)構(gòu)??梢钥闯?,話題—說明關(guān)系為句子的檢驗(yàn)提供了可操作的標(biāo)準(zhǔn),而自足話題結(jié)構(gòu)滿足檢驗(yàn)標(biāo)準(zhǔn),因此可以看成漢語的句子。

3.2 自足話題結(jié)構(gòu)與標(biāo)點(diǎn)符號(hào)的關(guān)系

話題—說明關(guān)系反映的是事件要素之間或事物屬性之間的關(guān)系,自足話題結(jié)構(gòu)是這種關(guān)系的組合。另一方面,逗號(hào)和句號(hào)的區(qū)別主要反映的是邏輯語義的層次關(guān)系,層次間隔小的用逗號(hào),間隔大的用句號(hào)。因此,自足話題結(jié)構(gòu)的結(jié)束與標(biāo)點(diǎn)符號(hào)是逗號(hào)還是句號(hào)沒有必然的聯(lián)系。例2中第2標(biāo)點(diǎn)句后面是句號(hào),但并沒有終結(jié)它所在的自足話題結(jié)構(gòu);第4和第9標(biāo)點(diǎn)句后面是逗號(hào),卻終結(jié)了它們所在的自足話題結(jié)構(gòu)。

當(dāng)然,通常情況下,終結(jié)自足話題結(jié)構(gòu)的標(biāo)點(diǎn),多數(shù)還是句號(hào),這是因?yàn)橐唤M事件或事物關(guān)系表達(dá)完成,在邏輯語義關(guān)系中往往也是較大層次的結(jié)束。

判斷邏輯語義關(guān)系層次間隔的大小,有較強(qiáng)的主觀性。因而,逗號(hào)句號(hào)的選擇也就有比較強(qiáng)的主觀性。這個(gè)結(jié)論的直接推論就是,逗號(hào)和句號(hào)的區(qū)別不能作為劃分句子的依據(jù)。

3.3 自足話題結(jié)構(gòu)與邏輯語義結(jié)構(gòu)的關(guān)系

邏輯語義分析必須建立在自足話題結(jié)構(gòu)分析的基礎(chǔ)之上,或者說,自足話題結(jié)構(gòu)分析是邏輯語義分析的前提。原因有二。

首先,邏輯語義關(guān)系是基本命題之間的關(guān)系,話題—說明關(guān)系正是這種基本命題。所以,要分析邏輯語義關(guān)系,先得找出話題—說明關(guān)系。但后者隱藏在自足話題結(jié)構(gòu)中。把自足話題結(jié)構(gòu)整體分析清楚了,得到了其內(nèi)部的話題—說明關(guān)系,才談得上分析邏輯語義關(guān)系。

第二,前面已經(jīng)說過邏輯語義關(guān)系的層次分析是帶有主觀性的。其實(shí)不僅是層次間隔的大小,就連邏輯語義關(guān)系的類型判斷也有很強(qiáng)的主觀性。例2中第3、4標(biāo)點(diǎn)句同第5、6標(biāo)點(diǎn)句的關(guān)系,既可以看作時(shí)序關(guān)系,也可以看作人與環(huán)境的對(duì)比關(guān)系,還可以看作人與環(huán)境的并列關(guān)系。因此,如果把邏輯語義關(guān)系分析作為基礎(chǔ),則這個(gè)基礎(chǔ)會(huì)很不牢靠,建筑于其上的工作就會(huì)有坍塌的危險(xiǎn)。

4 漢語的小句

本文把漢語的小句界定為自足話題結(jié)構(gòu)的組分—話題自足句。

4.1 話題自足句的結(jié)構(gòu)

比起自足話題結(jié)構(gòu),話題自足句的結(jié)構(gòu)簡單,一個(gè)話題只帶一個(gè)說明。雖然其說明可能又遞歸地構(gòu)成話題-說明關(guān)系,但嵌套在里面的說明仍然只有一個(gè)。因此,話題自足句具有線性結(jié)構(gòu),即(話題1 話題2 話題n 說明),而不是自足話題結(jié)構(gòu)的多分支流水結(jié)構(gòu)。

話題自足句的結(jié)構(gòu)簡單,還表現(xiàn)在話題嵌套的層次十分有限。BLGTB中話題嵌套路徑的深度分布如表1所示[10]。

表1 話題嵌套深度分布

BLGTB中,話題嵌套的最大深度是5。下面是具有最大嵌套深度的實(shí)例:

例3 (李鵬《為我國政治經(jīng)濟(jì)和社會(huì)的進(jìn)一步穩(wěn)定發(fā)展而奮斗》)

圖5 話題嵌套深度為5的廣義話題結(jié)構(gòu)

例中嵌套的五層廣義話題是:

各級(jí)領(lǐng)導(dǎo)干部和所有政府工作人員—都—要—努力—去

話題自足句長度短,結(jié)構(gòu)簡單,所以作為篇章處理的基本單位—小句,其尺度是合適的。

4.2 話題自足句是文本的認(rèn)知單位

在文本中,相當(dāng)一部分話題自足句的話題和說明分屬不同的標(biāo)點(diǎn)句,在空間上是被分隔的;在口語的語流中,它們?cè)跁r(shí)間上也是被分隔的。這就帶來一個(gè)疑問: 話題自足句在大腦的認(rèn)知活動(dòng)中,是否有可能作為認(rèn)知單位而存在并被加工呢?下面的分析從不同的角度為這個(gè)問題的正面回答提供了支持。

4.2.1 話題自足句作為文本認(rèn)知單位的存在性

(1) 自足話題結(jié)構(gòu)的規(guī)模無上界

例4(見下頁)是一個(gè)自足話題結(jié)構(gòu),描述白冠長尾雉的形態(tài)和習(xí)性,帶有45個(gè)標(biāo)點(diǎn)句。容易看出,只要還有內(nèi)容要說,就還可以加進(jìn)更多的標(biāo)點(diǎn)句,并且無需重復(fù)話題“白冠長尾雉”。

廣義話題結(jié)構(gòu)所包含的標(biāo)點(diǎn)句的個(gè)數(shù)稱為廣義話題結(jié)構(gòu)的規(guī)模。該例說明,漢語篇章中的廣義話題結(jié)構(gòu)的規(guī)??梢允菬o限的,它僅僅受到表述需求的限制,并不受認(rèn)知能力的限制。

話題結(jié)構(gòu)規(guī)模無上界,故話題和靠后的說明之間可能隔著許多標(biāo)點(diǎn)句。但是,在實(shí)際的認(rèn)知活動(dòng)中,當(dāng)聽者或讀者接收到某一個(gè)標(biāo)點(diǎn)句(例如“尾羽常用作中國京劇武生的頭冠”)時(shí),他會(huì)即刻明白這個(gè)標(biāo)點(diǎn)句說明的是許多標(biāo)點(diǎn)句前的話題(“白冠長尾雉”)。這一現(xiàn)象表明,在大腦中,話題與其每一個(gè)用作說明的標(biāo)點(diǎn)句都可以直接聯(lián)系,從而可以不計(jì)文本和語流中的時(shí)空距離。這恰好是堆棧模式生成話題自足句的效果,因此也就為話題自足句在認(rèn)知過程中的客觀存在提供了正面支持。

例4 (《中國大百科全書》生物卷)

圖6 含有45個(gè)標(biāo)點(diǎn)句的廣義話題結(jié)構(gòu)

(2) 話題嵌套路徑可以自由折返

堆棧模式中話題結(jié)構(gòu)可以自由折返。在例4中,講完

白冠長尾雉—雄雉—尾羽—其中央兩對(duì)—并具一系列黑栗相間的橫斑。

立刻回退2層話題“尾羽”和“其中央兩對(duì)”,撿起13個(gè)標(biāo)點(diǎn)句前的話題“雄雉”講

白冠長尾雉—雄雉—喉和胸間橫貫以黑帶;

講完

白冠長尾雉—雄雉—胸與兩脅—并具栗色寬闊羽緣,—使下體大部呈為此色。

立刻回退3層話題“栗色寬闊羽緣”“胸與兩脅”“雄雉”,撿起25個(gè)標(biāo)點(diǎn)句前的話題“白冠長尾雉”,講“白冠長尾雉—雌雉”如何如何。

這種即時(shí)自由折返的前提,顯然是折返的起點(diǎn)與到達(dá)的目的地需要處于同一個(gè)認(rèn)知結(jié)構(gòu)中,即嵌套的各層話題需要處于同一個(gè)認(rèn)知結(jié)構(gòu)中。話題自足句正是這樣的結(jié)構(gòu)。因此,這一現(xiàn)象也為話題自足句作為認(rèn)知單位的存在性提供了支持。

4.2.2 話題自足句的認(rèn)知加工可能性

(1) 話題嵌套路徑的認(rèn)知意義

心理學(xué)曾以多種實(shí)驗(yàn)證明大腦短時(shí)記憶可容納7±2個(gè)組塊。BLGTB中話題嵌套最大深度是5,在大腦短時(shí)記憶可處理的范圍之內(nèi),這個(gè)數(shù)據(jù)支持話題自足句可以作為大腦認(rèn)知處理的工作單位。

此外,話題嵌套路徑的語義是有認(rèn)知基礎(chǔ)的。例3中最大的話題嵌套路徑連同最后的說明是:

各級(jí)領(lǐng)導(dǎo)干部和所有政府工作人員—都—要—努力—去—解決實(shí)際工作中的問題

從語義上看,這是事件要素路徑的一種:

主體—范圍—相態(tài)—方式—目標(biāo)導(dǎo)引—行為

例4中最大的話題嵌套路徑有兩條,連同他們各自最后的說明是:

白冠長尾雉—雄雉—尾羽—其中央兩對(duì)—呈銀白色,

白冠長尾雉—雄雉—尾羽—其中央兩對(duì)—并具一系列黑栗相間的橫斑。

這是生物學(xué)的本體結(jié)構(gòu)的路徑,是事物要素路徑的一種:

生物體—子類—部件—部位部件—性狀

這種路徑模式在人的語言習(xí)得過程中因無數(shù)次重復(fù)而爛熟于心,所以人不但能理解這樣的話題自足句,而且能采用堆棧方式切掉尾部再續(xù)。這是話題自足句可以作為認(rèn)知單位進(jìn)行加工的正面證據(jù)。

(2) 話題—說明關(guān)系的不可穿越性

語料庫的考察說明,話題—說明關(guān)系相互嵌套,不能交叉穿越。

例5 (自編)

我們可以說“他衣服筆挺,面料很講究,鼻梁上架著一副金絲眼鏡?!保荒苷f“他衣服筆挺,鼻梁上架著一副金絲眼鏡,面料很講究。”

因?yàn)樗鼈兊脑掝}結(jié)構(gòu)不同(圖7):

圖7 話題—說明關(guān)系的不可穿越性

后面的說法造成了話題—說明關(guān)系“衣服—面料很講究,”穿越了另一個(gè)話題—說明關(guān)系“鼻梁上—架著一副金絲眼鏡?!?。

話題-說明關(guān)系的不可穿越性使得退掉的話題不能被再次共享,進(jìn)而使得話題自足句的動(dòng)態(tài)生成只需要一個(gè)話題自足句大小的存儲(chǔ)空間,并且只需采用堆棧操作(新支模式、話題后置模式、匯流模式、封閉語段模式還需要附加的存儲(chǔ)區(qū)和相關(guān)操作,但數(shù)量很少),這是十分高效的。因此,這一性質(zhì)保障了話題自足句作為認(rèn)知單位即時(shí)進(jìn)行加工的可行性。

(3) 話題自足句的成句性

對(duì)于自然語言中句子的成句性,無法給出嚴(yán)密的形式化定義,但可以大致地理解為句法通順、語義完整正確清楚。趙元任、朱德熙、沈家煊等人指出,漢語的主謂關(guān)系就是話題—說明關(guān)系[2-3,11]。因此可以說漢語中結(jié)構(gòu)完整的“成句”的單位,具有話題-說明關(guān)系。但是反過來,一對(duì)具有話題-說明關(guān)系的詞語串中間不加標(biāo)點(diǎn)而能連起來成句,還需要驗(yàn)證。

首先,話題自足句的話題和說明是相對(duì)于上下文補(bǔ)全了的,因此語義是相對(duì)完整的,這是成句性的基本保證。

話題自足句的話題和說明可能分布在不同的標(biāo)點(diǎn)句中,二者在原文中可能隔著一些詞語和標(biāo)點(diǎn)。這些中隔的成分被去除,少數(shù)情況下有可能造成句法不通或語義不清、語義錯(cuò)亂,從而不成句。據(jù)BLGTB上的考察[8],有6.3%的話題自足句不成句,絕大部分話題自足句是成句的。例如,例5中的話題自足句“他衣服面料很講究,”和“他鼻梁上架著一副金絲眼鏡?!钡榷汲删?。少數(shù)不成句的話題自足句,只需增刪一些結(jié)構(gòu)性成分便能成句,無須增刪實(shí)義成分。比如,例1的第2標(biāo)點(diǎn)句:

西藏銀行部門以確保農(nóng)牧業(yè)生產(chǎn)等重點(diǎn)產(chǎn)業(yè)的投入,

該句并不成句,原因是有一個(gè)表示目的的篇章連詞“以”插在中間。原文中有上下文,需要這個(gè)連詞,現(xiàn)在上文沒有了,這個(gè)連詞就成了多余成分了。但只要暫時(shí)刪除“以”,話題自足句就是成句的:

西藏銀行部門確保農(nóng)牧業(yè)生產(chǎn)等重點(diǎn)產(chǎn)業(yè)的投入,

連詞“以”并不是被徹底丟棄。當(dāng)進(jìn)行邏輯關(guān)系分析時(shí),參照原有的連詞“以”,便可判斷“確保農(nóng)牧業(yè)生產(chǎn)等重點(diǎn)產(chǎn)業(yè)的投入”是一個(gè)目的從句。

話題自足句的成句性是一個(gè)很重要的性質(zhì),對(duì)于廣義話題結(jié)構(gòu)分析和應(yīng)用都很有用。單從認(rèn)知加工的角度看,它保證了話題自足句可以以自然方式被直接認(rèn)知。這從消極的視角說明話題自足句作為認(rèn)知加工單位是可能的。

如此定義的小句和句子,適合于多個(gè)應(yīng)用領(lǐng)域。限于篇幅本文不再討論其可應(yīng)用性。

5 討論

我們收集了數(shù)十萬字多種語體的漢語篇章語料,按照不同的模式進(jìn)行了廣義話題結(jié)構(gòu)的標(biāo)注,其中3萬多標(biāo)點(diǎn)句、30多萬字的標(biāo)注語料已經(jīng)發(fā)布。標(biāo)注實(shí)踐證明,這樣的定義對(duì)于漢語文本是可操作、全覆蓋的。

我們必須加強(qiáng)語言信息處理的基礎(chǔ)科學(xué)研究。對(duì)于篇章處理,首先就要解決句子和小句的界定問題,這是本文工作的驅(qū)動(dòng)力。本文的工作還是很初步的,需要進(jìn)一步做的課題至少包括:

(1) 大規(guī)模語料標(biāo)注(已經(jīng)標(biāo)注了數(shù)十萬字的多種語體的語料);

(2) 廣義話題結(jié)構(gòu)流水模型的完善和精確化;

(3) 話題—說明關(guān)系判斷方法及廣義話題結(jié)構(gòu)的計(jì)算模型;

(4) 話題自足句與認(rèn)知的關(guān)系;

(5) 漢語廣義話題結(jié)構(gòu)與邏輯語義結(jié)構(gòu)的關(guān)系;

(6) 廣義話題結(jié)構(gòu)的應(yīng)用。

[1] 布龍菲爾德.語言論[M].袁家驊等譯.北京: 商務(wù)印書館,1979.

[2] 趙元任.漢語口語語法 [M].呂叔湘譯.北京: 商務(wù)印書館,1979.

[3] 朱德熙.語法講義[M].北京: 商務(wù)印書館,1982

[4] 邢福義.漢語復(fù)句研究[M].北京: 商務(wù)印書館,2001.

[5] 屈承熹.漢語篇章語法[M].潘文國等譯.北京: 北京語言大學(xué)出版社,2006.

[6] 邢福義.漢語語法學(xué)[M].長春: 東北師范大學(xué)出版社,1996.

[7] 儲(chǔ)澤祥,王文格.現(xiàn)代漢語小句的判斷標(biāo)準(zhǔn)[J].寧夏大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2009(4): 28-35.

[8] 尚英.漢語篇章廣義話題結(jié)構(gòu)理論的實(shí)證性研究[D]. 北京語言大學(xué)博士論文,2014.

[9] 宋柔.漢語篇章廣義話題結(jié)構(gòu)的流水模型[J].中國語文,2013(6): 483-494.

[10] 盧達(dá)威,宋柔,尚英.從廣義話題結(jié)構(gòu)考察漢語篇章話題認(rèn)知復(fù)雜度[J]. 中文信息學(xué)報(bào),2014(5): 112-124.

[11] 沈家煊.“零句”和“流水句”[J]. 中國語文,2012(5).

[12] 曹逢甫.漢語的句子與子句結(jié)構(gòu)[M].王靜,譯.北京: 北京語言大學(xué)出版社,2004.

Chinese Sentence and Clause for Text Information Processing

SONG Rou1,2,GE Shili1,SHANG Ying2,LU Dawei2

(1. Guangdon Collaborative Innovation Center for Language Research & Service, Guangdong University ofForeign Studies, Guangzhou, Guangdong 510420, China;2. Information Science Institute, Beijing Language and Cuiture University, Beijing 100086, China)

In text information processing, clause is regarded as the basic unit and sentence the compound unit. Thus far, a lack of operational definitions for these two concepts hinders the development of Chinese information processing. This research defines sentence as Sufficient Generalized Topic Structure roughly and clause as Topic Sufficient Clause based on it. Both definitions are put forward with linguistic and cognitive foundations.

chinese text processing; sentence; clause; generalized topic structure; topic sufficient clause

宋柔(1946—),碩士,教授,主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)。E?mail:songrou@126.com葛詩利(1969—),博士,教授,主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)。E?mail:geshili@gdufs.edu.cn

尚英(1979—),博士,講師,主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)和對(duì)外漢語教學(xué)。E?mail:shangying229@126.com

2015-07-31 定稿日期: 2016-01-10

國家自然科學(xué)基金(61171129,61672175);2016年國家語委重點(diǎn)項(xiàng)目(ZDI135-30)

1003-0077(2017)02-0018-07

TP391

A

猜你喜歡
嵌套句號(hào)標(biāo)點(diǎn)
句號(hào)
標(biāo)點(diǎn)可有可無嗎
兼具高自由度低互耦的間距約束稀疏陣列設(shè)計(jì)
《遼史》標(biāo)點(diǎn)辨誤四則
句號(hào)失蹤記
句號(hào)
小小標(biāo)點(diǎn)真厲害
句號(hào)提意見
論電影嵌套式結(jié)構(gòu)的內(nèi)涵與類型
嵌套交易如何實(shí)現(xiàn)逆市盈利