国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

漢語塊依存語法與樹庫構(gòu)建

2022-09-05 09:00錢青青王誠文荀恩東王貴榮饒高琦
中文信息學(xué)報 2022年7期
關(guān)鍵詞:謂詞組塊賓語

錢青青,王誠文,2,荀恩東,王貴榮,饒高琦,3

(1. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京100083;2. 北京大學(xué) 計算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京100871;3. 北京語言大學(xué) 漢語國際教育研究院,北京100083)

0 引言

依存句法是自然語言處理領(lǐng)域的熱門研究內(nèi)容,也是一項(xiàng)基礎(chǔ)研究,其目的是通過判斷句內(nèi)的詞語之間是否存在依存關(guān)系以及存在何種依存關(guān)系,將輸入句子從序列形式變?yōu)橐来鏄錉罱Y(jié)構(gòu)。依存句法分析能夠適應(yīng)靈活的語序特征,將句子分析為更加扁平的結(jié)構(gòu),從而降低分析、標(biāo)注、儲存的難度。因而在問答系統(tǒng)、知識圖譜、信息抽取等任務(wù)上均發(fā)揮著重要作用。

值得注意的是,傳統(tǒng)依存句法分析大多以詞作為最小單元,其應(yīng)用在漢語中也存在許多不適應(yīng)的地方。例如,在漢語實(shí)際語篇中,詞的詞性、詞義較為靈活,存在大量的活用、增加語境義等現(xiàn)象,傳統(tǒng)依存句法分析以詞作為分析節(jié)點(diǎn)的處理方式難以適應(yīng)該特性;漢語具有典型意合特征,同樣的語義內(nèi)容可由語序不同的語言單元表達(dá),關(guān)注其中的“詞-詞”關(guān)系,使句子依存結(jié)構(gòu)較為繁瑣;詞與詞之間的關(guān)系復(fù)雜、多變,依存關(guān)系類劃分得太細(xì),降低了標(biāo)注的可操作性,帶來數(shù)據(jù)稀疏問題,也會因此影響到分析器的適應(yīng)面和魯棒性。此外,一些傳統(tǒng)句法分析難以解決的問題在依存句法分析中也依然存在。例如,句法分析一般以標(biāo)點(diǎn)作為邊界,而漢語中多流水句,主語、賓語、狀語等的省略現(xiàn)象層出不窮,為分析結(jié)果的實(shí)際應(yīng)用帶來了困難。

為了解決以上問題,本研究提出了塊依存語法,以組塊為研究對象,以謂詞為核心,在句內(nèi)和句間尋找謂詞所支配的組塊,利用漢語中的組塊和組塊間的依存關(guān)系,既能夠適應(yīng)漢語靈活的語序特征(1)漢語語序靈活,但組塊內(nèi)成分具有相對穩(wěn)定性。,又能夠?qū)⑿【溟g成分缺省的問題轉(zhuǎn)化為句間組塊缺省成分補(bǔ)全的問題。同時,以謂詞為核心進(jìn)行塊依存關(guān)系構(gòu)建,能清晰呈現(xiàn)出句子的骨干結(jié)構(gòu),為后續(xù)任務(wù)提供準(zhǔn)確的分析單元。關(guān)于塊依存理論的詳細(xì)說明請見另文討論。

基于塊依存理論,本文對漢語組塊理論、依存樹庫構(gòu)建進(jìn)行深入研究,以數(shù)據(jù)標(biāo)注規(guī)范作為指導(dǎo),以兩兩對比標(biāo)注的模式,在基于瀏覽器的在線標(biāo)注系統(tǒng)中,標(biāo)注百科文本、新聞文本,構(gòu)建了漢語塊依存樹庫。

1 相關(guān)研究

在傳統(tǒng)的句法分析中,首先對句子進(jìn)行分詞和詞性標(biāo)注,再進(jìn)行后續(xù)的句法語義分析工作。分詞和詞性標(biāo)注的錯誤會帶來較大的錯誤級聯(lián)問題。與此同時,漢語有許多形式和語義上比較固定的塊成分,尤其是一些構(gòu)式性成分,整體表示一定的語義,并不適宜在分詞和詞性標(biāo)注基礎(chǔ)上進(jìn)行的句法語義分析。

組塊分析理論由Abney在20世紀(jì)90年代初提出[1],CoNLL 2000會議將組塊分析作為Share Task提出,使該理論得到推廣應(yīng)用。國內(nèi)學(xué)者也開展了大量的塊研究工作。其中,劉芳、趙鐵軍等將塊(Chunk)定義為一種包含一層或二層的符合一定句法功能和反映組成意義的短語結(jié)構(gòu),并將其分為八種類型[2];周強(qiáng)等從功能的角度對漢語中的語塊進(jìn)行了研究,定義了主語語塊、述語語塊、賓語語塊、兼語語塊、狀語語塊、補(bǔ)語語塊、獨(dú)立語塊、語氣塊8類語塊,形成了一套基于拓?fù)浣Y(jié)構(gòu)的漢語語塊描述體系[3-5];其后,陳億、周強(qiáng)等人設(shè)計了多層次功能塊分析體系,進(jìn)一步分析長功能塊的內(nèi)部結(jié)構(gòu)[6];李素建將組塊定義為符合一定句法功能的非遞歸短語,在劃分組塊時遵循非遞歸、無重疊、全覆蓋的原則[7]。

在依存句法樹庫構(gòu)建方面,哈工大的漢語依存結(jié)構(gòu)句法樹庫發(fā)布于2012年,以句法關(guān)系為主,語義信息知識作為補(bǔ)充,標(biāo)注了《人民日報》約111萬詞的漢語語料[8]。北大漢語依存結(jié)構(gòu)句法樹庫發(fā)布于2015年,以依存句法為核心,并形成多種視圖的標(biāo)注體系,標(biāo)注了新聞、專利及醫(yī)藥等約140萬詞的漢語語料[9]。蘇州大學(xué)面向多領(lǐng)域多來源文本構(gòu)建了3萬句左右的漢語依存句法樹庫[10-11]。

在將組塊理論與依存分析結(jié)合方面,Zhou等較早地提出了一種基于塊的依存分析器,分析塊之間的依存關(guān)系,在非限制性的中文文本翻譯中取得了較好的效果[12]。但聞媛等也指出由于中文中的模態(tài)詞提升、話題化、成分分離等現(xiàn)象,在中文中存在較多的非投影結(jié)構(gòu)[13],遵循依存語法的四條準(zhǔn)則,為分析中文也帶來了一定的難度。

此外,為解決漢語中多缺省的現(xiàn)象,宋柔等歸納了廣義話題結(jié)構(gòu)遵從的堆棧模型和拓展后的流水模型,并將漢語的句子大致界定為自足的廣義話題結(jié)構(gòu),把小句界定為基于廣義話題結(jié)構(gòu)的話題自足句[14-15],利用流水模型生成這兩類漢語篇章結(jié)構(gòu)單位,為自然語言處理篇章分析單位提出了新的角度,從漢語篇章微觀話題結(jié)構(gòu)的角度為流水句提供了佐證和啟示。但漢語中標(biāo)點(diǎn)句并非只缺省句首的話題成分或主語,大量句中或句尾的賓語、補(bǔ)語等的缺省也值得關(guān)注;按照廣義話題結(jié)構(gòu)所生成的句子僅僅提示其話題-說明結(jié)構(gòu),與句子更深層次的結(jié)構(gòu)分析之間缺少銜接,大多還是停留在拆分復(fù)雜結(jié)構(gòu),生成“能說”的自足句層面。蘇州大學(xué)的多領(lǐng)域文本依存句法樹庫中也設(shè)置了表示謂語之間共同主語的依存關(guān)系,但并未全面地有針對性地解決缺省的問題。

2 漢語塊依存方法與組塊關(guān)系

相對于細(xì)粒度的詞來說,組塊內(nèi)部的句法、語義結(jié)構(gòu)更加穩(wěn)定,更符合語言的認(rèn)知規(guī)律,是一種整存整取的單位。以組塊為研究對象,能夠避免糾結(jié)于“詞-詞”之間的依存關(guān)系,更關(guān)注于句子的整體結(jié)構(gòu),進(jìn)一步降低存儲和分析的復(fù)雜性,也能夠達(dá)到減少分詞碎片、增強(qiáng)魯棒性的目的,因此本文的依存關(guān)系構(gòu)建以“組塊”為最小單元。

本文將組塊定義為: 由連續(xù)詞語或語素整合而成的序列,表現(xiàn)為同一句子層級中充當(dāng)句法成分的各個連續(xù)單元。在句法結(jié)構(gòu)層面的組塊按照功能可分為謂詞塊、主語塊、賓語塊、狀語塊、補(bǔ)語塊,其中主語塊和賓語塊按照其性質(zhì)可繼續(xù)下分為謂詞性主語塊、謂詞性賓語塊、體詞性主語塊和體詞性賓語塊;除此之外,組塊還包括篇章層面的銜接組塊和輔助組塊。塊依存語法主要分析非篇章成分的組塊,即基于句法結(jié)構(gòu)層面的6類組塊。組塊體系如圖1所示。

圖1 組塊體系

我們認(rèn)為核心謂詞組塊是句子的核心,各類短組塊均受核心謂詞組塊的支配,并依存于核心謂詞組塊之上,在塊依存關(guān)系分析中以謂詞組塊作為句子的核心,尋找謂詞所支配的各類組塊。若某短語塊和核心謂詞組塊之間存在依存關(guān)系,則稱該短語塊為核心謂詞組塊的從屬成分,核心謂詞組塊為該短語塊的依存對象。除了一些特殊的獨(dú)詞句,一般認(rèn)為句子中都存在一個或多個核心,短語塊至少依存于一個核心謂詞組塊之上。

核心謂詞組塊作為句內(nèi)各組塊的依存對象,其左右、上下各有四個點(diǎn)位,分別表示其主語位(1號位)、修飾語位(2號位)、賓語位(3號位)、述語位(4號位)。各非謂詞塊按照其類別分別依存于謂詞組塊的四個節(jié)點(diǎn),依存線條從謂詞組塊的四個節(jié)點(diǎn)指向其從屬成分,如圖2所示。

主語,包括主謂謂語句中的大小主語依存于謂詞組塊的1號位;在后續(xù)分析中,我們將謂詞組塊與1號位上的體詞性成分之間的關(guān)系定義為NP-SBJ,與謂詞性成分之間的關(guān)系定義為VP-SBJ。

狀語、補(bǔ)語依存于謂詞組塊的2號位;在后續(xù)分析中,我們將謂詞塊組與2號位上的成分之間的關(guān)系定義為NULL-MOD。

賓語,包括雙賓語中的遠(yuǎn)近賓語依存于謂詞組塊的3號位;在后續(xù)分析中,我們將謂詞組塊與3號位上的體詞性成分之間的關(guān)系定義為NP-OBJ,與謂詞性成分之間的關(guān)系定義為VP-OBJ。

述語省略時從4號位置與相關(guān)述語連接,當(dāng)某謂詞組塊依存于其他謂詞組塊時從4號位向外依存。在后續(xù)分析中,我們將謂詞組塊與4號位上的成分之間的關(guān)系定義為VP-EMP。表1對塊依存標(biāo)簽進(jìn)行了總結(jié)。

表1 塊依存標(biāo)簽

因此,我們可以將謂詞與其依存塊之間的關(guān)系初步區(qū)分為6種。

以謂詞為抓手使得分析更具有靈活性,經(jīng)過塊依存語法分析的句子,能夠展現(xiàn)為塊依存圖的形式。整個句子以空節(jié)點(diǎn)為根,指向句中的核心謂詞,核心謂詞又有各個線條指向其支配成分。在句間關(guān)系分析中,無論是尋找句間關(guān)系還是直接分析謂詞間關(guān)系,都能夠以更準(zhǔn)確的分析單元為著力點(diǎn)。

塊依存分析不限于小句或句子內(nèi)部,而可補(bǔ)全因上下文而缺省的單元,能夠?qū)⒕渥舆€原為更完整的形式,也為后續(xù)分析提供更完整的單元。如圖3分析所示,例1中包含兩個句子,其中第二個句子的兩個核心謂詞“苦”“蘊(yùn)含”的主語是缺失的。通過觀察上下文,我們可以找到對應(yīng)主語應(yīng)為前一句子主語修飾語“哥倫比亞咖啡”。相同地,例2中第二句缺失的狀語“這些年”也可通過相似的方法在上下文中找回。

圖3 例句1塊依存分析

例1: 哥倫比亞咖啡的風(fēng)味是豐富多樣的。不僅不苦,還蘊(yùn)含著水果、堅果、谷物等不同氣息。

例2: 這些年,他通過努力進(jìn)步了不少,是我們學(xué)習(xí)的榜樣。而很多人卻沒有珍惜時間,仍在原地踏步。

例3: 呂先生和許多嚴(yán)肅的學(xué)者一樣,不會隨便去別人家串門,把寶貴的時間都浪費(fèi)在無聊的事情上。

塊依存方法能夠在補(bǔ)全缺省成分的同時明確句中成分的指向、句子的結(jié)構(gòu)。在例3中,話頭為“呂先生和許多嚴(yán)肅的學(xué)者一樣,不會”,其中既有體詞性成分,也有修飾性成分,修飾性成分中存在框式結(jié)構(gòu)。利用塊依存方法進(jìn)行補(bǔ)全更具有理據(jù)性——話頭部分能夠成為另一個小句的一部分是因?yàn)樗鼉?nèi)部的兩個組塊都受到其中核心謂詞的支配。

3 塊依存樹庫建設(shè)

本文所標(biāo)注的語料,均來自于 “基于篇章的漢語句法結(jié)構(gòu)樹庫”[16](以下簡稱句法結(jié)構(gòu)樹庫)。該樹庫目前已人工構(gòu)建約 1 000 萬字符集規(guī)模,包括 1 萬語篇文本、26.5 萬單復(fù)句、64.4 萬小句。該樹庫以新浪及新華社新聞、百度百科、專利申請書、小學(xué)生作文、法律案件判決書等應(yīng)用性文本為標(biāo)注語料,樹庫中人工標(biāo)注數(shù)據(jù)一致率大于0.8。

在句子成分標(biāo)注中已經(jīng)明確了句、小句、組塊的邊界,并運(yùn)用標(biāo)注符號標(biāo)識組塊功能,本文所進(jìn)行的標(biāo)注是在句法結(jié)構(gòu)標(biāo)注基礎(chǔ)上所進(jìn)行的塊依存標(biāo)注。句法結(jié)構(gòu)樹庫將句子成分分為主語、賓語、述語、句飾語、銜接語、輔助語,并分別以不同符號進(jìn)行標(biāo)注.如例4、5所示,“<>”表示銜接語,“<<>>”表示輔助語,“[]”表示句飾語(即與述語分離的狀語或補(bǔ)語),“()”表示述語,述語內(nèi)部又可利用“()”區(qū)分出狀語、核心述語、補(bǔ)語,“{}”表示謂詞性的主語或者賓語,體詞性主語或賓語則無須用標(biāo)注符號標(biāo)注。

例4: <但是>,[到今天為止]我(還是(放心)不下)你<<啊>>。

例5: {(大力(發(fā)展))經(jīng)濟(jì)}(是)我們目前的工作重心。

在句號、分號、嘆號等8個標(biāo)句符號的基礎(chǔ)上對篇章進(jìn)行劃分,通過語篇句子成分標(biāo)注對句子邊界進(jìn)行校準(zhǔn),能夠明確句、小句的邊界。當(dāng)原本應(yīng)屬同一小句的主賓語、定狀補(bǔ)語等向核成分被標(biāo)點(diǎn)切分開的時候,使用標(biāo)注符號將標(biāo)點(diǎn)括在內(nèi)部,達(dá)到取消標(biāo)句點(diǎn)號的分句功能的目的:

例6: [抗日戰(zhàn)爭勝利前夕,]黨中央和毛主席(發(fā)出)號召和命令。

例7: 他(是)河北辛集馬蘭村的一名普通農(nóng)民。

例8: “獨(dú)自飛行1840.018公里的北京山茗網(wǎng)絡(luò)科技有限公司創(chuàng)始人”\,(是)彭少儀名片上的唯一頭銜。

例9: 我(吃)飯|他(睡覺)。

例10: [五個多月來,]中國海監(jiān)船編隊(一直(堅守)在祖國的釣魚島海域)(巡航),他們(克服)重重困難,(涌現(xiàn)了)無數(shù)可歌可泣的先進(jìn)事跡,他們“特別能吃苦、特別能戰(zhàn)斗、特別能奉獻(xiàn)”的“海監(jiān)精神”,(也極大地(鼓舞了))全國人民。

例6~8均為一個“句”,也是一個小句單元,而例9~10是通過分析校正后確定的句子,分別由兩個和五個小句構(gòu)成。

為了提高標(biāo)注效率和質(zhì)量,本研究實(shí)施在線標(biāo)注,圖4為標(biāo)注界面。

圖4 標(biāo)注平臺頁面示例

標(biāo)注界面將篇章切分為多個復(fù)句,以每一個復(fù)句為標(biāo)注行進(jìn)行標(biāo)注,但“標(biāo)注行”并不限制線條之間的連接,即不同行之間的組塊也能夠表示其依存關(guān)系,充分保證了補(bǔ)全缺省組塊的能力。同時,為減輕標(biāo)注人員的負(fù)擔(dān),界面為預(yù)標(biāo)注模式,即在任務(wù)最初利用結(jié)構(gòu)標(biāo)注的結(jié)果生成初步的塊依存預(yù)標(biāo)注,能夠標(biāo)注謂詞塊在該復(fù)句內(nèi)部的默認(rèn)主語、狀語、補(bǔ)語等依存成分,若標(biāo)注人員不認(rèn)可,可進(jìn)行更改。

本文利用kappa值計算加權(quán)的一致率,計算如式(1)所示。

(1)

其中,ki為該依存關(guān)系的kappa一致率,pi為該依存關(guān)系在全篇任務(wù)總依存關(guān)系數(shù)量中的占比。一般認(rèn)為若kappa值在0.8以上,則表明二者的一致率較高,本樹庫為保證高水平的一致率,將閾值定為0.9。數(shù)據(jù)標(biāo)注一致率控制流程如圖5所示,在早期的標(biāo)注任務(wù)中,采用雙人標(biāo)注的模式,只有當(dāng)基于kappa計算的一致率不低于0.9時,標(biāo)注任務(wù)才算通過,若一致率低于0.9,則需要通過討論修改、專家介入等方式提高一致率。質(zhì)量比對通過后,選取當(dāng)期標(biāo)注任務(wù)中平均一致率值較高人員的文本入庫。

圖5 數(shù)據(jù)標(biāo)注一致率控制流程

以上述策略開展標(biāo)注實(shí)踐,截至2020年8月,共標(biāo)注2 022篇任務(wù),涵蓋百科、新聞兩個領(lǐng)域;共計約180萬字語料,包含超過4萬個句子,10萬多小句,最終平均一致率值為0.945。

4 漢語組塊關(guān)系

4.1 自足句與非自足句

下面以樹庫中的708個任務(wù)做數(shù)據(jù)分析,內(nèi)含55 4521字,14 181個復(fù)句,30 724個小句。

此處我們定義兩類句子,即“自足句”和“非自足句”。自足句指句子內(nèi)部沒有缺省成分的句子,句中核心謂詞的所有依存塊均位于該句內(nèi)部。從此定義出發(fā),可知有一類較為特殊的自足句是獨(dú)詞句或僅包含篇章成分的句子,例如“嘩啦嘩啦”“因?yàn)椤钡?,在后續(xù)分析中會將此類獨(dú)詞句獨(dú)立分析;此外,某些無法補(bǔ)全缺省成分的句子如“(下)雨<<了>>”,也認(rèn)定為自足句。“非自足句”則指句子內(nèi)部缺省成分的句子,句中存在核心謂詞有位于其他句的依存塊。相應(yīng)的,可以將小句和句子分為“自足小句”“非自足小句”“自足句”“非自足句”。

例11: 國家發(fā)改委(聯(lián)合)相關(guān)單位(連續(xù)(出臺))中長期發(fā)展規(guī)劃和場地建設(shè)規(guī)劃,

例12: (督促)地方政府(加快(制定))實(shí)施細(xì)則;

例13: 督查{涉及部門(很(多))},內(nèi)容(非常(具體))<和>(細(xì)化),<應(yīng)該說>(是)一次無縫的、立體的和全方位的督查。

例14: ()研究空氣和燃?xì)馀c發(fā)動機(jī)各零部件相對運(yùn)動及其相互作用的學(xué)科,(是)流體力學(xué)的一個分支。

在例11中,謂詞“聯(lián)合”的主、賓語塊分別為“國家發(fā)改委”“相關(guān)單位”,謂詞“出臺”的主語塊為“國家發(fā)改委”“相關(guān)單位”,賓語塊為“中長期發(fā)展規(guī)劃和場地建設(shè)規(guī)劃”,狀語塊為“連續(xù)”。例11內(nèi)部所有謂詞塊的從屬成分均位于該小句內(nèi)部,因此我們將這樣的小句稱為“自足小句”。

例12中,“制定”的各個從屬成分均位于該小句內(nèi)部,但“督促”的主語塊位于其他小句中,在這里應(yīng)該是“國家發(fā)改委”,那么我們稱某些小句內(nèi)部存在謂詞塊的從屬性成分在句外的是“非自足小句”,需要通過塊依存標(biāo)注來補(bǔ)全結(jié)構(gòu)。

例13是一個復(fù)句,內(nèi)部的幾個核心謂詞“多”“具體”“細(xì)化”“是”的各個從屬成分均位于該復(fù)句內(nèi)部,雖然“是”的主語塊是跨了一個小句的大主語“督查”,但我們依然認(rèn)為在復(fù)句層面,這個句子是自足的。當(dāng)然,割裂來看,在小句層面,第三個小句是不自足的,經(jīng)過分析并補(bǔ)全之后,該句可以形成三個內(nèi)部自足的小句: “①督查{涉及部門(很(多))},②內(nèi)容(非常(具體))<和>(細(xì)化),③<應(yīng)該說>督查(是)一次無縫的、立體的和全方位的督查?!?。

與之相對應(yīng)的是例14,其中包含的一個空述語和謂詞“是”在該復(fù)句內(nèi)部均沒有相對應(yīng)的主語,我們需要在上文中找出“某某學(xué)科”作為它們的主語。因此我們認(rèn)為這一類在內(nèi)部無法找到所有從屬成分的句子是“非自足”的。

分析數(shù)據(jù)中的小句和句子,自足和非自足的分布結(jié)果如圖6所示。

圖6 句子/小句內(nèi)自足情況分布圖

通過統(tǒng)計,發(fā)現(xiàn)所有句子中,有13 045句為自足句,占總數(shù)的92%,若排除特殊句,則自足句占比為83%;所有小句中有23 066句為自足小句,占總數(shù)的75%,若排除特殊句,則自足小句占比為63%。另外有7 658個小句和1 136個復(fù)句是非自足的,分別占總數(shù)的25%和8%。

上述結(jié)果在經(jīng)過結(jié)構(gòu)標(biāo)注的句邊界校準(zhǔn)之后得到,由此可知: 在漢語中,成分缺省是普遍存在的事實(shí)。若簡單以標(biāo)點(diǎn)符號分割后的文本來作為分析單元,則將會有25%以上的小句存在內(nèi)部成分缺省,會造成指代、時間、地點(diǎn)等信息不明的問題。而本研究通過塊依存的方式,補(bǔ)全了缺省的小句和句子,使這25%的句子變?yōu)椤白宰恪钡木渥樱軌驑O大程度地填補(bǔ)句子缺省信息,便于后續(xù)基于自足句子的分析。

4.2 謂詞及其依存塊

基于已有的樹庫,分別從核心謂詞及和核心謂詞支配塊數(shù)量等角度做了統(tǒng)計。在標(biāo)注數(shù)據(jù)中共包含5 479項(xiàng)核心謂詞,其中有4 676項(xiàng)動詞存在含有體詞性主語塊的實(shí)例,4 089項(xiàng)動詞存在含有修飾語塊的實(shí)例,2 943項(xiàng)動詞存在含有體詞性賓語塊的實(shí)例,477項(xiàng)動詞存在含有謂詞性賓語塊的實(shí)例,229項(xiàng)動詞存在含有謂詞性主語塊的實(shí)例,6項(xiàng)動詞存在含有謂詞性關(guān)聯(lián)塊的實(shí)例,還有340項(xiàng)動詞存在沒有任何從屬成分的實(shí)例。

如圖7所示,在30 487個謂詞實(shí)例中,約有88%支配1~3個從屬成分。值得注意的是,從屬成分?jǐn)?shù)量在2~3個的謂詞數(shù)量均多于從屬成分為1個的謂詞,這表明多從屬成分的謂詞在漢語中是更加普遍存在的,謂詞能夠支配的句法成分不單一。從屬成分最多為10個,為例15中的“是”,它的從屬成分包含1個體詞性主語塊、7個體詞性賓語塊和2個謂詞性賓語塊。在從屬成分?jǐn)?shù)量大于6的31個實(shí)例中(圖8),絕大多數(shù)的謂詞并非實(shí)義動詞,如“是”“有”“包含”“分為”“進(jìn)行”等,且這些動詞大多能夠支配多個主語塊或賓語塊;而部分實(shí)義動詞,如“列入”“拓展”等,更多的是支配了多個修飾語塊;對于一些具有認(rèn)知、言說義的的動詞,如“要求”“意味”等,則可能性相對更多些,它們存在支配多個賓語塊的能力,同時也有較為明確的意義,也能夠支配較多的修飾語塊。在依存塊方面,不同于賓語塊,體詞性主語塊和謂詞性主語塊的差別較為明顯,體詞性主語塊的數(shù)量多維持在一個較為穩(wěn)定的水平,一般不超過2個,而謂詞性主語塊的數(shù)量則起伏較大,一般無謂詞性主語塊但也存在謂詞性主語塊數(shù)量大于5的情況。

圖7 謂詞塊從屬成分統(tǒng)計

圖8 謂詞從屬成分類別統(tǒng)計

在340項(xiàng)沒有任何從屬成分的動詞中,有58個動詞(約17%)為古詩詞或熟語,如“謀長遠(yuǎn)計”“智者善謀”“功夫不負(fù)有心人”等。在結(jié)構(gòu)標(biāo)注中,為了保持其內(nèi)部語義的完整性,并未將其切分為多個部分,也因此使其內(nèi)部一般不缺省成分,其他則多是在上下文語境中難以補(bǔ)全其缺省成分的,如例15中的“學(xué)習(xí)”。

例15: {(學(xué)習(xí))、(看)書}(是)讓人很愉快的事情。

從依存塊的角度進(jìn)行分析,該語料中共包含了79 197個語塊。其中體詞性主賓語、修飾語占了絕大部分,均約占30%。與表2結(jié)合,我們可以發(fā)現(xiàn),體詞性主語和修飾語的分布較為平均,語料中絕大多數(shù)的謂詞均能夠支配主語修飾語組塊,僅有約一半的謂詞項(xiàng)能夠支配賓語塊,這與不及物動詞的存在有著密切的關(guān)聯(lián)。而謂詞性主語、謂詞性賓語則都少于0.1,最少的是VP-EMP組塊,僅占0.001,表明該類關(guān)系在語言中較為特殊。從可支配組塊數(shù)量看,每個謂詞實(shí)例平均可支配體詞性主語塊為1.04個,體詞性賓語塊也在1.01左右,謂詞性的主、賓語塊數(shù)量略高,約1.2左右,而修飾語組塊最高,為1.41個,表明在實(shí)際語料中,往往有較多的修飾語修飾謂詞,能夠表達(dá)較豐富的情態(tài)、時態(tài)等信息,若簡單地線性分析,則會丟失大量的信息。

表2 各類依存塊依存情況統(tǒng)計

5 總結(jié)

本文介紹了塊依存樹庫建設(shè)的相關(guān)工作,截至2020年8月為止,本樹庫共標(biāo)注了約180萬字的高質(zhì)量語料數(shù)據(jù),包含超過4萬個句子、10萬多小句。本樹庫主要面向的是漢語中多流水句、缺省普遍的現(xiàn)象,通過依存標(biāo)注的方法,以謂詞為核心,從上下文中尋找支配的組塊,從而補(bǔ)全缺省部分,明確句內(nèi)支配與被支配的關(guān)系,也為接下來的語義分析奠定堅實(shí)的基礎(chǔ)?;诖藰鋷?,我們發(fā)現(xiàn)漢語中有約25%的小句、8%的復(fù)句內(nèi)部存在缺省現(xiàn)象;漢語中體詞性主賓語塊、修飾語塊占絕大部分,約有90%,謂詞塊支配體詞性主語、修飾語的能力更強(qiáng),支配多組塊的可能性更高。

基于塊依存的樹庫建設(shè)充分遵循漢語語序靈活但塊內(nèi)順序相對穩(wěn)固的特點(diǎn),同時將分析單元上升到塊,可以有效抓住句子的骨架進(jìn)行分析,避免了“詞-詞”依存分析所導(dǎo)致的句子依存結(jié)構(gòu)繁瑣問題。另一方面,以謂詞為中心的依存表征體系也為語義分析提供了結(jié)構(gòu)支撐。通過樹庫的建設(shè)驗(yàn)證了組塊依存分析理論的可行性,同時該數(shù)據(jù)資源能夠?yàn)樽匀徽Z言處理發(fā)展提供資源支撐。

在接下來的工作中,我們會進(jìn)一步擴(kuò)大標(biāo)注,增加樹庫的規(guī)模和覆蓋范圍,增加不同領(lǐng)域的文本;探索各類關(guān)系內(nèi)部的細(xì)分,例如修飾塊內(nèi)部可按照其語義關(guān)系細(xì)分為時間、地點(diǎn)、情態(tài)、數(shù)量等,可按組塊本身的特點(diǎn)進(jìn)行分類。

猜你喜歡
謂詞組塊賓語
連詞that引導(dǎo)的賓語從句
被遮蔽的邏輯謂詞
——論胡好對邏輯謂詞的誤讀
直接賓語和間接賓語用法精練
黨項(xiàng)語謂詞前綴的分裂式
組塊理論的解讀及啟示
康德哲學(xué)中實(shí)在謂詞難題的解決
大型半潛式起重船塢內(nèi)建造整體合攏方案論證
賓語從句及練習(xí)
為什么聽得懂卻不會做
讓你的記憶力更棒
萨嘎县| 怀仁县| 保德县| 稷山县| 都江堰市| 志丹县| 高唐县| 崇文区| 新津县| 乌苏市| 磐石市| 济源市| 广南县| 运城市| 灌云县| 全南县| 开封县| 翁源县| 定南县| 东辽县| 磐安县| 满洲里市| 威宁| 江北区| 双柏县| 高要市| 卓资县| 临泽县| 沙洋县| 旅游| 上犹县| 大姚县| 娱乐| 开鲁县| 泗洪县| 东山县| 隆子县| 盖州市| 屯门区| 洱源县| 博爱县|