王貴榮,饒高琦1,,荀恩東
(1. 北京語言大學(xué) 漢語國際教育研究院,北京 100083;2. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083)
在任何語言里,詞語搭配都是一個(gè)重要問題,在漢語中,尤為突出。從語言本體來看,漢語重“意合”,詞語缺乏形態(tài)變化,詞與詞的搭配有時(shí)會(huì)超出語法形式的約束,只要滿足意義、邏輯的要求就可以搭配。因此,無論是語言本體還是語言教學(xué)研究,詞語搭配都是言語組裝的重要環(huán)節(jié)。從自然語言理解來看,要實(shí)現(xiàn)計(jì)算機(jī)對(duì)自然語言的“理解”,語言知識(shí)是必不可少的。而漢語缺乏形態(tài)變化,不能提供充分的形式化知識(shí),因此,詞語搭配知識(shí)也就成為自然語言理解各子任務(wù)的一個(gè)重要知識(shí)源。由于詞語搭配描述的是詞與詞之間的組合情況,既包含結(jié)構(gòu)知識(shí)也包含語義知識(shí),更能準(zhǔn)確地刻畫出句子中詞與詞之間的聯(lián)系,在句法分析中受到人們廣泛的重視。依存句法認(rèn)為,動(dòng)詞是句子的中心,依存分析中各個(gè)節(jié)點(diǎn)都是詞,不存在詞和短語或短語之間的關(guān)系判定問題,主要是通過獲取句子的核心動(dòng)詞及其所支配的詞語搭配,進(jìn)而分析句子內(nèi)詞語之間的依存關(guān)系,以建立依存句法樹。
一般而言,動(dòng)賓結(jié)構(gòu)在SVO型語言里是很常見的,是句內(nèi)的核心成分,處于優(yōu)勢地位,可以形象地稱之為“骨架”,它實(shí)際上映射了整個(gè)句子的輪廓。1942年呂叔湘先生在《中國文法要略》中就指出“句子的中心是一個(gè)動(dòng)詞”[1]。1959年法國語言學(xué)家特思尼耶爾(L Tesniere)在“依存語法”的代表作《結(jié)構(gòu)句法基礎(chǔ)》中明確指出“動(dòng)詞是句子的中心,它支配著別的成分,而它本身卻不受其他任何成分的支配。動(dòng)詞在句子中起的作用是關(guān)聯(lián),就是說動(dòng)詞把句子中其他的詞連成了一個(gè)整體?!盵2]只要能準(zhǔn)確識(shí)別出動(dòng)賓結(jié)構(gòu),就能在此基礎(chǔ)上進(jìn)行一些后續(xù)分析,從動(dòng)詞出發(fā),可以向左識(shí)別各種狀語,逼近句子的主語成分,從賓語出發(fā),可以向左識(shí)別賓語的各種修飾成分,逼近動(dòng)詞,從而為實(shí)現(xiàn)深層句法分析奠定一定的研究基礎(chǔ)。本文以大數(shù)據(jù)為支撐,構(gòu)建動(dòng)賓搭配知識(shí)庫,以期為句法分析提供結(jié)構(gòu)化引導(dǎo)知識(shí),提高句法分析的準(zhǔn)確率,同時(shí)該知識(shí)庫也可為語言本體、語言教學(xué)研究等提供大量實(shí)例。
一直以來,現(xiàn)代語言學(xué)界關(guān)于動(dòng)賓搭配的研究就層出不窮,研究思路主要有四種。
一是在格語法的理論視角下,用賓語的語義角色的來對(duì)賓語進(jìn)行分類,主要的研究有李臨定[3]、馬慶株[4]等;也有學(xué)者展開了賓語不同語義角色的細(xì)致研究,如宋玉柱[5]介紹了原因賓語的類型及不同類型中充當(dāng)原因賓語的成分;陳昌來[6]否認(rèn)了工具成分可以表現(xiàn)為主語、賓語,并介紹了工具成分可以出現(xiàn)的句法結(jié)構(gòu);趙旭[7]研究了處所賓語的判別標(biāo)準(zhǔn)、內(nèi)部小類以及非典型處所賓語的生成動(dòng)因。
二是以配價(jià)語法為理論支撐,從動(dòng)詞價(jià)位的角度來考察動(dòng)詞所帶的賓語,如羅夢鹿[8]指出雙賓語句式動(dòng)詞包括大部分三價(jià)動(dòng)詞和一部分二價(jià)動(dòng)詞;王慧[9]分析了二價(jià)動(dòng)詞不帶賓語、帶單賓語和帶雙賓語的情況;袁毓林[10]提出了一種基于配價(jià)層級(jí)和配位方式的漢語配價(jià)語法的描寫模型,用以全面地反映動(dòng)詞在不同的句式中對(duì)名詞性成分的支配能力及其句法組配方式。
三是從韻律的角度分析了動(dòng)賓搭配的規(guī)律,如呂叔湘[11]指出漢語雙音化傾向明顯,并分析了單雙音節(jié)對(duì)漢語劃分詞語邊界的影響;馮勝利[12]系統(tǒng)闡釋了韻律構(gòu)詞學(xué)和韻律句法學(xué)這兩個(gè)全新的理論系統(tǒng);駱健飛[13]指出單音節(jié)動(dòng)詞一般是強(qiáng)時(shí)空動(dòng)詞,傾向于搭配工具、方式類賓語,雙音節(jié)動(dòng)詞一般是泛時(shí)空動(dòng)詞,傾向于搭配原因、目的類賓語。
四是從賓語的體謂性來考察動(dòng)詞特征,如宋玉柱[14]提出將動(dòng)詞按賓語的語法性質(zhì)劃分為體賓動(dòng)詞、謂賓動(dòng)詞和體謂賓動(dòng)詞三類;亢世勇[15]對(duì)常用謂賓動(dòng)詞帶動(dòng)賓、形賓、小句賓進(jìn)行了分類統(tǒng)計(jì);陳永莉[16]指出形式動(dòng)詞只能帶雙音節(jié)動(dòng)詞賓語,并介紹了形式動(dòng)詞受事成分的語法位置和賓語擴(kuò)展形式;崔少娟[17]、孫萍[18]從動(dòng)詞分類、賓語語義特征等方面對(duì)《現(xiàn)代漢語動(dòng)詞用法詞典》中的謂賓動(dòng)詞進(jìn)行了全面研究;梁永紅[19]研究了及物動(dòng)詞帶名賓情況的發(fā)展變化的具體表現(xiàn)、特征以及影響因素。
從筆者的調(diào)研情況來看,目前已有的對(duì)動(dòng)賓搭配的研究,基本都是選取動(dòng)賓搭配的某一側(cè)面進(jìn)行定性研究,且文中也都是通過舉例的方式來驗(yàn)證結(jié)論,尚未有人基于大數(shù)據(jù)對(duì)動(dòng)賓搭配進(jìn)行抽取和研究。
相對(duì)語言本體領(lǐng)域豐富多彩的研究,中文信息處理領(lǐng)域關(guān)于動(dòng)賓搭配的研究則比較單一,主要是從動(dòng)賓搭配的自動(dòng)識(shí)別角度展開研究的,如孫宏林[20]從語料庫中歸納了判斷“V+N”序列是合法短語的14條語法規(guī)則;高建忠[21]提出“匹配+語義限制”和“匹配+詞語相似度”計(jì)算模型,用于動(dòng)賓搭配的自動(dòng)識(shí)別;李晉霞[22]從內(nèi)部構(gòu)成出發(fā)以定中“V_雙+N_雙”結(jié)構(gòu)類型的識(shí)別為突破口提出“V_雙+N_雙”結(jié)構(gòu)類型自動(dòng)識(shí)別的規(guī)則;程月等人[23]提出機(jī)器學(xué)習(xí)中的條件隨機(jī)場方法,用于漢語動(dòng)賓搭配的自動(dòng)識(shí)別。也有學(xué)者開始從語義的角度進(jìn)行研究,如周衛(wèi)華[24]從動(dòng)賓之間的語義角色關(guān)系、動(dòng)詞對(duì)賓語的語義選擇限制這兩個(gè)方面詳盡地考察了500個(gè)單音節(jié)動(dòng)詞和賓語之間的語義搭配情況;李斌[25]對(duì)動(dòng)賓之間語義選擇限制的多樣性和強(qiáng)度差異做了系統(tǒng)標(biāo)注和統(tǒng)計(jì)分析。
目前學(xué)者對(duì)動(dòng)賓搭配所做的研究,無論是基于結(jié)構(gòu)進(jìn)行的對(duì)動(dòng)賓搭配的自動(dòng)識(shí)別和獲取,還是跳過結(jié)構(gòu)直接對(duì)動(dòng)賓搭配進(jìn)行語義分析和計(jì)算的,都是在探究動(dòng)賓搭配的一種形式化規(guī)律,以方便計(jì)算機(jī)的處理,但是這種方法也只能覆蓋語言中的一些高頻現(xiàn)象。
此外,圍繞中文信息處理構(gòu)建的知識(shí)庫也有很多。如由山西大學(xué)建設(shè)的漢語框架語義知識(shí)庫(CFN)[26]是以加州大學(xué)伯克利分校的FrameNet為參照、以漢語真實(shí)語料為依據(jù)的供計(jì)算機(jī)使用的漢語詞匯語義知識(shí)庫,主要包括框架庫、句子庫和詞元庫三部分。其中,詞元庫記錄了詞元的語義搭配模式和框架元素的句法實(shí)現(xiàn)方式。由北京大學(xué)開發(fā)的《現(xiàn)代漢語語法信息詞典》[27]是為計(jì)算機(jī)實(shí)現(xiàn)漢語分析和漢語生成而研制的一部電子詞典,全面地描述了所收錄詞語的語法信息。知網(wǎng)(HowNet)[28]是一個(gè)以漢語和英語的詞語所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫。北京大學(xué)袁毓林主持建設(shè)的《北京大學(xué)現(xiàn)代漢語實(shí)詞句法語義功能信息詞典》[29],其中,《動(dòng)詞句法語義功能信息詞典》主要包括動(dòng)詞的語法功能、語義角色及動(dòng)詞和語義角色組配的句法格式。句法組配格式提供句法上可搭配的位置,動(dòng)賓搭配提供語義上可搭配的詞語,二者配合使用,漢語句法語義分析將獲得重大進(jìn)步。也有學(xué)者編纂過搭配詞典,如張壽康和林杏光主編的《現(xiàn)代漢語實(shí)詞搭配詞典》、趙培癢編著的《常用詞語搭配詞典》等。但它們只收錄了高頻使用的搭配,規(guī)模相對(duì)較小,不能全面反映動(dòng)賓的搭配情況。目前已有的知識(shí)庫主要提供語義、語法、常識(shí)知識(shí),對(duì)動(dòng)詞各方面的知識(shí)有詳盡描寫,具有一定的形式化能力,一定程度上促進(jìn)了中文信息處理技術(shù)的發(fā)展。但這些知識(shí)庫仍以對(duì)語言學(xué)知識(shí)的抽象表征為主,計(jì)算機(jī)使用起來不夠便捷。
本文擬基于BCC語料庫構(gòu)建動(dòng)賓搭配知識(shí)庫。BCC語料庫語料來源領(lǐng)域較多,有文學(xué)、科技、報(bào)刊、博客等,能覆蓋更多的語言現(xiàn)象,且BCC語料庫處于動(dòng)態(tài)更新狀態(tài),能及時(shí)捕獲新的語言現(xiàn)象?;谠撜Z料庫構(gòu)建的動(dòng)賓搭配知識(shí)庫更具全面性、時(shí)效性,對(duì)語言研究和語言教學(xué)而言,具有更高價(jià)值。動(dòng)賓搭配知識(shí)抽取也是信息抽取的一項(xiàng)子任務(wù),能夠用于詞義消歧、信息檢索、機(jī)器翻譯、句法分析、自然語言生成等多個(gè)方面。如詞義消歧方面,人能夠正確無誤地理解某個(gè)詞語,就是利用了詞語的上下文信息,而詞語搭配正是確定詞語義項(xiàng)的上下文,動(dòng)賓搭配知識(shí)為動(dòng)詞歧義消解提供了知識(shí)源。機(jī)器翻譯方面,由于不同語言的搭配規(guī)律不同,造成不同語言詞語之間的對(duì)等翻譯極為困難,詞語搭配的翻譯將有助于提高翻譯質(zhì)量。句法分析方面,動(dòng)賓搭配作為句法、語義雙重關(guān)系的載體,能夠幫助確定句子的核心成分關(guān)系,提高分析精度。
本文的研究將從以下幾個(gè)方面具體開展: 首先,從語言本體的角度出發(fā),總結(jié)動(dòng)賓搭配知識(shí)體系;其次,根據(jù)動(dòng)賓搭配知識(shí)體系制定BCC語料庫的檢索式,獲得動(dòng)賓搭配知識(shí)對(duì);最后,根據(jù)檢索結(jié)果優(yōu)化檢索式,并對(duì)獲得的動(dòng)賓搭配知識(shí)進(jìn)行消歧。
前人從語言學(xué)角度對(duì)動(dòng)賓搭配所做的研究相對(duì)較多,但前人研究多是從語義角度展開的,不利于形式化抽取。本文主要從賓語由哪些詞類或結(jié)構(gòu)充當(dāng)?shù)慕嵌日韯?dòng)賓搭配知識(shí)體系,首先從宏觀的角度將動(dòng)賓搭配分為三大類型,根據(jù)賓語的體謂性將動(dòng)賓搭配分為“動(dòng)+體賓”和“動(dòng)+謂賓”兩大類,又因?yàn)殡p賓語的情況比較特殊,故沒有將“動(dòng)+雙賓”歸為上述兩類中,單獨(dú)歸為一類;其次,對(duì)每一大類下的賓語構(gòu)成做細(xì)致區(qū)分,并列舉相應(yīng)例句,該過程以朱德熙、李臨定、劉月華先生的賓語語義分類為主,結(jié)合高校使用的現(xiàn)代漢語教材中對(duì)賓語構(gòu)成成分的說明(表1),最終形成一個(gè)動(dòng)賓語義全面且便于形式化檢索的知識(shí)體系。本文在抽取動(dòng)賓搭配知識(shí)時(shí),考慮到語言層層遞歸的復(fù)雜性以及抽取方式的局限,只對(duì)一般名賓、代詞賓語、數(shù)量名賓語、簡單定中作賓語、動(dòng)詞賓語、形容詞賓語進(jìn)行了抽取。
表1 前人的賓語分類體系
前人對(duì)體詞性賓語的語義類研究較多,謂詞性賓語一般分為動(dòng)賓和小句賓。為便于書寫形式化的檢索式,本文從充當(dāng)賓語的詞類出發(fā),對(duì)賓語進(jìn)行重新分類,盡可能覆蓋所有的賓語語義角色。賓語的常用語義角色基本是一般名詞(n)作賓語,本文把能用詞性區(qū)分出來的處所賓語(ns)單獨(dú)劃分為一類,其余都?xì)w入一般名賓;數(shù)量結(jié)構(gòu)作賓語,本文認(rèn)為動(dòng)量短語是對(duì)動(dòng)作的補(bǔ)充說明,是補(bǔ)語而不是賓語,將名量短語和時(shí)量結(jié)構(gòu)作賓語劃分為數(shù)量賓語;代詞和聯(lián)合短語作賓語,根據(jù)體謂性將其分別歸入體賓和謂賓中;存現(xiàn)句是一種特殊句法現(xiàn)象,且存現(xiàn)動(dòng)詞是一個(gè)封閉的類,故將存現(xiàn)賓語單獨(dú)劃分為一類。只有朱德熙先生的分類中有程度賓語,本文認(rèn)為其是程度補(bǔ)語,不納入賓語范圍。體詞性賓語中其他小類劃分情況較為一致,這里沿用前人分類。謂詞性賓語中,過去都只是粗略分為動(dòng)賓、形賓、小句賓,本文將可以充當(dāng)賓語的謂詞性結(jié)構(gòu)均單獨(dú)分類,更加細(xì)致,便于從形式上區(qū)分。另只有黃廖本的《現(xiàn)代漢語》中提到復(fù)句作賓語的情況,鑒于復(fù)句也是謂詞性的,將其劃分為謂賓下的一類。雙賓動(dòng)詞也是一個(gè)封閉詞表,根據(jù)雙賓中兩個(gè)賓語的類型劃分為“真賓+準(zhǔn)賓”“真賓+真賓”兩類。綜上,本文定義的動(dòng)賓搭配知識(shí)體系如表2所示。
表2 動(dòng)賓搭配知識(shí)體系表
續(xù)表
本文獲取動(dòng)賓搭配知識(shí)的語料庫是對(duì)外開放的北京語言大學(xué)語料庫BCC(http://bcc.blcu.edu.cn)的延伸版,其包括報(bào)刊、文學(xué)、科技、微博等各領(lǐng)域的語料,數(shù)據(jù)規(guī)模較公開版更大,約1.1萬億字。該語料庫能夠支持集字符、屬性和結(jié)構(gòu)信息為一體的復(fù)雜查詢,且檢索速度較快?;谠撜Z料庫抽取動(dòng)賓搭配知識(shí),需要制定相應(yīng)的BCC檢索式,接下來將詳細(xì)介紹檢索式的構(gòu)成。
3.1.1 簡單檢索
簡單檢索的檢索式只有Query部分,可以包含字符串、詞性符號(hào)、離合符號(hào)“*”、單個(gè)詞語標(biāo)識(shí)符“~”、空格等內(nèi)容,對(duì)上下文的限制較少,只能表達(dá)簡單的結(jié)構(gòu)和語義信息。BCC簡單檢索式構(gòu)成具體介紹如表3所示。
表3 BCC簡單檢索式構(gòu)成說明
續(xù)表
3.1.2 復(fù)雜檢索
復(fù)雜檢索的檢索式包括Query和Condition兩部分,形如“Query{condition1;condition2;...;print($i)}”。從功能上看,復(fù)雜檢索式可以對(duì)上下文進(jìn)行條件約束,對(duì)抽取部分進(jìn)行韻律結(jié)構(gòu)限制、詞屬性類限制,同時(shí)可以實(shí)現(xiàn)同一個(gè)檢索式中詞表的實(shí)例化檢索,提高檢索效率。從形式上看,復(fù)雜檢索式的Query部分可以出現(xiàn)“()”,表示被限定的部分,condition部分表示條件限制,print表示輸出語句。如“不(v) (n) W{len($1)=2;len($2)=2;print($1$2)}”,表示“不+雙音節(jié)v+雙音節(jié)n+標(biāo)點(diǎn)”共現(xiàn)的情況,用“()”括起來的部分表示需要予以限定的部分,“$1”表示第一個(gè)被括起來的部分,可以用詞表對(duì)其進(jìn)行類的限制,“[S_T_體謂準(zhǔn)_體]”為自定義詞表,表示體賓動(dòng)詞,也可對(duì)音節(jié)進(jìn)行限制,“l(fā)en($1)=2”表示第一個(gè)元素即“v”是雙音節(jié)的;“W”表示標(biāo)點(diǎn)符號(hào),這里是指以標(biāo)點(diǎn)結(jié)尾的動(dòng)名搭配;“print($1$2)”這里表示輸出query部分被括起來的內(nèi)容,即只輸出“v n”搭配,沒有print語句時(shí),默認(rèn)輸出整個(gè)檢索式的檢索結(jié)果。同時(shí),復(fù)雜檢索式可以使用“$V”表示實(shí)例化檢索式詞表中的詞,如“$V=[S_V_趨_趨向動(dòng)詞]”,表示將趨向動(dòng)詞表中的詞語逐個(gè)放入檢索式中“$V”的位置進(jìn)行檢索。
3.1.3 簡單檢索與復(fù)雜檢索抽取結(jié)果對(duì)比
簡單檢索式抽取結(jié)果和復(fù)雜檢索式抽取結(jié)果對(duì)比如表4所示。
表4 簡單檢索與復(fù)雜檢索抽取結(jié)果對(duì)比
簡單檢索式“v n”抽取的搭配中“采訪時(shí)、參與方式”并不是動(dòng)賓搭配,“采訪時(shí)”的韻律構(gòu)成是2+1,馮勝利[12]指出“2+1”式動(dòng)賓組合容易導(dǎo)致“抑揚(yáng)”結(jié)構(gòu),普通重音無法實(shí)現(xiàn),不易構(gòu)成動(dòng)賓搭配,因此,可以分別采用不同的韻律構(gòu)成單獨(dú)檢索?!皡⑴c方式”是動(dòng)詞作定語構(gòu)成的定中結(jié)構(gòu),而動(dòng)詞作定語時(shí),一般是不能被否定副詞修飾的,可以在檢索式中加入否定副詞“不”進(jìn)行限制,如復(fù)雜檢索式“不(v)(n) W{len($1)=2;len($2)=2;print($1$2)}”,則可以避免上述情況的出現(xiàn),提高檢索的準(zhǔn)確性。簡單檢索式“打 * n”只能抽取關(guān)于動(dòng)詞“打”的離合型名詞賓語,而不同屬性類的動(dòng)詞帶賓的上下文情況不同,需要根據(jù)動(dòng)詞小類及賓語上下文情況細(xì)化檢索式。復(fù)雜檢索式“$V過(n) W{$V=[S_V_趨向動(dòng)詞_趨];len($1)=2}”中,“$V”表示動(dòng)詞某一屬性類的詞表,該檢索式可以對(duì)詞表內(nèi)的詞語進(jìn)行實(shí)例化檢索,大大提高檢索效率。經(jīng)過對(duì)比可知,復(fù)雜檢索式效果要好于簡單檢索式,故本文在抽取時(shí)大多采用復(fù)雜檢索式。
上一節(jié)詳細(xì)介紹了動(dòng)賓搭配的分類情況,本節(jié)將詳細(xì)說明為抽取動(dòng)賓搭配知識(shí)制定的檢索式情況?,F(xiàn)代漢語語法具有遞歸性,不同結(jié)構(gòu)類型層層嵌套形成的動(dòng)賓結(jié)構(gòu)比較復(fù)雜,故本文目前只抽取了簡單類型的賓語,即體詞性賓語中的一般名賓、代詞賓語、數(shù)量名賓語的連續(xù)類型和離合類型,謂詞性賓語中的動(dòng)詞賓語和形容詞賓語的連續(xù)類型和離合類型。根據(jù)這幾種情況,再分別從屬性類、上下文、韻律結(jié)構(gòu)和自然標(biāo)注信息等方面添加限制條件,共制定檢索式223個(gè)。
3.2.1 連續(xù)型動(dòng)賓搭配規(guī)則
連續(xù)型動(dòng)賓主要抽取了動(dòng)詞后緊鄰賓語的情況,在檢索時(shí)重點(diǎn)關(guān)注動(dòng)詞的上下文,從動(dòng)詞的修飾語、屬性類、動(dòng)賓的韻律構(gòu)成和標(biāo)點(diǎn)信息等方面來添加限制條件,盡可能使抽取的搭配能夠構(gòu)成動(dòng)賓關(guān)系。連續(xù)型動(dòng)賓檢索情況如表5所示。
表5 連續(xù)型動(dòng)賓檢索情況
續(xù)表
3.2.2 離合型動(dòng)賓搭配規(guī)則
離合型動(dòng)賓主要抽取了動(dòng)詞和賓語之間有其他詞語出現(xiàn)的情況,抽取時(shí)重點(diǎn)關(guān)注能出現(xiàn)在動(dòng)賓之間的不同離合成分,抽取了離合成分為“著了過”、“了個(gè)”、數(shù)量、賓語的定語成分等的動(dòng)賓搭配。離合型動(dòng)賓檢索情況如表6所示。
表6 離合型動(dòng)賓檢索情況
在第一輪抽取工作結(jié)束后,筆者詳細(xì)觀察了抽取到的動(dòng)賓搭配知識(shí),發(fā)現(xiàn)抽取的知識(shí)長尾效應(yīng)明顯,且由于語料的分詞錯(cuò)誤、詞性標(biāo)注錯(cuò)誤和檢索式的局限性,抽取到的動(dòng)賓搭配數(shù)據(jù)中也存在著一些非動(dòng)賓搭配的類型。動(dòng)賓搭配知識(shí)作為句法分析中最基礎(chǔ)的資源,其準(zhǔn)確性直接影響整個(gè)句法分析器的效果,因此,為了獲得更為準(zhǔn)確的動(dòng)賓搭配知識(shí),本文從檢索式書寫、動(dòng)詞、賓語等方面進(jìn)行了初步的消歧。
3.3.1 檢索式優(yōu)化
為提高檢索結(jié)果的準(zhǔn)確率,筆者對(duì)初步制定的223個(gè)檢索式人工進(jìn)行了有效性評(píng)估,分別用1到5來表示檢索式有效性從低到高,對(duì)于有效性低于3的檢索式從限制動(dòng)詞和賓語兩個(gè)方面進(jìn)行改進(jìn),若改進(jìn)后檢索效果有所提升,則保留改進(jìn)后的檢索式,若改進(jìn)后檢索效果仍不理想,則舍棄該檢索式。如簡單檢索式“(v)(n) W{len($1)=2;len($2)=2}”的有效性只有2,雖然該檢索式能夠召回大量的“VN”對(duì),但非動(dòng)賓搭配的負(fù)例情況也較多,比如“聯(lián)系電話”“購買地址”這種最典型的動(dòng)詞作定語修飾名詞的例子也會(huì)被當(dāng)作動(dòng)賓搭配抽取出來,故在動(dòng)詞前用典型否定副詞“不、沒”加以約束,并對(duì)“V”和“N”進(jìn)行屬性類的約束,構(gòu)造出更有效的檢索式“不(v)(n)W{$1=[S_V_體謂準(zhǔn)_體];$1!=[S_V_趨向動(dòng)詞_趨];len($1)=2;$2=[P_N_賓語_可];len($2)=2;print($1$2)}、沒(v)(n)W{begin($1)!=[有];$1=[S_V_體謂準(zhǔn)_體];len($1)=2;$2=[P_N_賓語_可];len($2)=2;print($1$2)}”,一定程度上減少了非動(dòng)賓搭配對(duì)。經(jīng)評(píng)估改進(jìn)后,共得到140個(gè)檢索效果相對(duì)較好的檢索式。
3.3.2 動(dòng)詞部分消歧
動(dòng)詞部分引起歧義主要是由兩方面的原因?qū)е?,一是?dòng)詞方面,即動(dòng)詞不能帶賓語或抽取出來的是動(dòng)詞作定語的情況;二是語料庫方面,即BCC語料庫的分詞錯(cuò)誤、詞性標(biāo)注錯(cuò)誤及分詞粒度等原因。
針對(duì)動(dòng)詞方面的原因,筆者在抽取語料時(shí)根據(jù)前人研究整理了及物動(dòng)詞表、體賓動(dòng)詞表、謂賓動(dòng)詞表、可作定語的動(dòng)詞表、《現(xiàn)代漢語詞典(第7版)》中的動(dòng)詞表、心理動(dòng)詞表、趨向動(dòng)詞表等一系列動(dòng)詞子類表。一方面,在書寫檢索式時(shí)可以使用這些詞表作為限制條件,提高檢索效果;另一方面,可以對(duì)抽取結(jié)果進(jìn)行篩選。如“不起精神”雖然符合檢索式“不(v)(n)W{$1=[S_V_體謂準(zhǔn)_體];len($1)=1;$2=[P_N_賓語_可];len($2)=2;print($1$2)}”,“起”也可以帶體賓,例如,“起作用”“起血泡”等,但觀察語料發(fā)現(xiàn),“不起精神”并不是動(dòng)賓搭配,而是“打不起精神”的一部分,而且“起”作補(bǔ)語的情況要更為普遍,所以筆者利用趨向動(dòng)詞表將趨向動(dòng)詞的搭配從檢索結(jié)果中抽取出來,人工校驗(yàn)。
針對(duì)語料庫方面的原因,筆者以《現(xiàn)代漢語詞典(第7版)》的動(dòng)詞為標(biāo)準(zhǔn),將與詞典詞性不一致的視為詞性標(biāo)注錯(cuò)誤,但也有一些特殊情況除外。如詞典中沒有“看到”一詞,這主要是因?yàn)椤翱吹健笨梢岳斫鉃閯?dòng)詞“看”與趨向動(dòng)詞“到”組合形成的述補(bǔ)結(jié)構(gòu),但由于二者結(jié)合比較緊密,高頻使用,故語料庫往往將其切分為一個(gè)詞。針對(duì)這種不一致,仍保留該詞為動(dòng)詞。而“達(dá)”在詞典中為一個(gè)語素,但是在語言中經(jīng)常會(huì)有“人口達(dá)13億”“產(chǎn)值達(dá)290億元”“竹制品已達(dá)200多個(gè)”等“達(dá)”作動(dòng)詞,后常跟數(shù)量短語的用法,因此也將其視為一個(gè)詞?!鞍寻选睉?yīng)該是“把把關(guān)”,是“把關(guān)”一詞的變形,雖然語料庫中將“把把”切分為一個(gè)動(dòng)詞,但抽取動(dòng)賓搭配時(shí)不宜將其視為一個(gè)詞。
3.3.3 賓語部分消歧
賓語部分引起歧義也分為賓語自身和語料庫兩方面的原因。前者主要是賓語部分不能與動(dòng)詞構(gòu)成動(dòng)賓搭配,如“時(shí)候”“臺(tái)風(fēng)”“產(chǎn)品”不能與動(dòng)詞“打”構(gòu)成動(dòng)賓搭配,但這類現(xiàn)象幾乎在每個(gè)動(dòng)詞的搭配表中都會(huì)出現(xiàn),分布較為離散,本文目前只將低頻部分舍去,尚未對(duì)高頻部分進(jìn)行過濾。后者主要也是分詞錯(cuò)誤和詞性標(biāo)注錯(cuò)誤。經(jīng)觀察語料發(fā)現(xiàn)詞性標(biāo)注錯(cuò)誤主要表現(xiàn)為英文字母、標(biāo)點(diǎn)符號(hào)、數(shù)字、其他詞性的詞等都有被標(biāo)為名詞的現(xiàn)象,比如語氣詞“嗎”、代詞“那”等。分詞錯(cuò)誤主要表現(xiàn)為把標(biāo)點(diǎn)和詞語切分在一個(gè)詞語內(nèi),如“W酸奶”“眼病W”等。對(duì)于詞性錯(cuò)誤和標(biāo)點(diǎn)切分錯(cuò)誤,統(tǒng)一采用正則表達(dá)式對(duì)抽取結(jié)果進(jìn)行剔除。
3.3.4 人工校對(duì)
正如齊夫律(Zipf’s Law)揭示的那樣,針對(duì)于一種語言的詞匯分布來說,極少數(shù)高頻詞(型)的出現(xiàn)次數(shù)已經(jīng)覆蓋一個(gè)語料庫總詞數(shù)的絕大部分,而詞(型)總數(shù)中大約一半的詞(型)在這個(gè)語料庫中卻只出現(xiàn)一次。詞語搭配的分布同樣也遵循齊夫律,因此,本文在上述消歧結(jié)束后選取了動(dòng)賓搭配中高頻80%的部分,進(jìn)行了人工消歧,最終獲得動(dòng)賓搭配300萬對(duì)。動(dòng)賓搭配知識(shí)庫各子類分布情況如表7所示。
表7 動(dòng)賓搭配知識(shí)庫各子類分布情況
從表7可知,能夠帶體詞性賓語的動(dòng)詞數(shù)量要比能夠帶謂詞性賓語的動(dòng)詞多,動(dòng)賓搭配知識(shí)庫中“動(dòng)+體賓”的搭配對(duì)數(shù)占總搭配數(shù)的89.74%,要遠(yuǎn)遠(yuǎn)高于“動(dòng)+謂賓”的10.26%,這說明了體詞比謂詞更容易被支配,人們在語言生活中表達(dá)較多的是動(dòng)作行為與客觀事物、對(duì)象的關(guān)系,以及人們對(duì)客觀事物、對(duì)象的觀點(diǎn)、看法等;表達(dá)較少的是動(dòng)作行為與動(dòng)作行為的支配關(guān)系。其中,體詞性賓語中連續(xù)型名賓的數(shù)量最多,占了體賓總數(shù)的94%;其次是離合型名賓,占體賓總數(shù)的3%,如圖1所示。謂詞性賓語中連續(xù)型動(dòng)詞賓語的數(shù)量最多,占了謂賓總數(shù)的87.6%,其次是連續(xù)型形容詞賓語,占謂賓總數(shù)的10.6%,如圖2所示。體賓與謂賓相比,離合型賓語更多,即“動(dòng)+體賓”中更容易添加“著、了、過”等詞語,以表示動(dòng)作發(fā)生的時(shí)態(tài),而“動(dòng)+謂賓”中,動(dòng)詞大多數(shù)是心理動(dòng)詞,時(shí)態(tài)性較弱,更傾向于緊鄰搭配。
圖1 體賓各子類分布情況
圖2 謂賓各子類分布情況
本文將抽取到的300萬對(duì)動(dòng)賓搭配按層級(jí)入庫,即先按“動(dòng)+體賓”“動(dòng)+謂賓”分類,再將每一類下每個(gè)動(dòng)詞的所有賓語按頻次高低排序, 具體如圖3所示?!癡N”表示“動(dòng)+體賓”,“VP”表示“動(dòng)+謂賓”。且本文抽取的動(dòng)賓搭配已建立檢索服務(wù),可以查詢某一個(gè)動(dòng)詞的全部賓語,也可以查詢兩個(gè)詞語是否是動(dòng)賓搭配。
圖3 動(dòng)賓搭配庫存儲(chǔ)形式
本文主要從動(dòng)賓搭配知識(shí)體系的構(gòu)建、檢索式構(gòu)成及書寫、動(dòng)賓搭配抽取及消歧等方面展開工作,共制定檢索式140個(gè),抽取到動(dòng)賓搭配300萬對(duì),構(gòu)建了一個(gè)規(guī)模較大、質(zhì)量較高的動(dòng)賓搭配知識(shí)庫。該知識(shí)庫的構(gòu)建不僅為中文信息處理的子任務(wù)提供了大規(guī)模、高質(zhì)量的基礎(chǔ)知識(shí),提高了計(jì)算機(jī)分析語言的能力,同時(shí)也為語言研究和語言教學(xué)提供了大量真實(shí)可靠的實(shí)例。此外,在構(gòu)建動(dòng)賓搭配知識(shí)庫的過程中發(fā)現(xiàn),盡管動(dòng)賓搭配的知識(shí)體系較為完善,但漢語缺乏形態(tài)變化,很多語言學(xué)知識(shí)人們能夠理解并很好地運(yùn)用,但卻無法將其形式化,轉(zhuǎn)化為計(jì)算機(jī)可利用的知識(shí)。因此,本文的工作仍有一定的不足之處。首先,本文利用更多的是詞性信息、動(dòng)賓搭配的韻律條件及少量的動(dòng)詞子類信息,只完成了簡單動(dòng)賓搭配的抽取,對(duì)層層嵌套遞歸性的動(dòng)賓抽取尚無能為力。其次,檢索式自身的表達(dá)能力也相對(duì)有限,在抽取動(dòng)賓搭配知識(shí)時(shí),只能體現(xiàn)有限的上下文,且語料庫自身存在著分詞和詞性標(biāo)注的錯(cuò)誤,造成后期消歧壓力較大。最后,由于人力物力的限制,本文只對(duì)抽取結(jié)果進(jìn)行了初步消歧,檢索結(jié)果仍有進(jìn)一步消歧的需要。
目前,本文初步完成了動(dòng)賓搭配知識(shí)庫的構(gòu)建,今后還可以從以下幾個(gè)方面進(jìn)一步完善和改進(jìn)。第一,采用計(jì)算的方法對(duì)抽取結(jié)果再次進(jìn)行消歧,提高動(dòng)賓搭配知識(shí)庫的質(zhì)量;第二,利用已有知識(shí)庫建立深度學(xué)習(xí)模型,自動(dòng)抽取本文目前尚未覆蓋的其他動(dòng)賓搭配類型,不斷完善動(dòng)賓搭配知識(shí)庫;第三,探索將動(dòng)賓搭配方面更多語言知識(shí)形式化的方法,降低知識(shí)抽取的難度。
本文資源將逐步以合宜方式在學(xué)術(shù)界和工業(yè)界共享。