劉美君 萬明瑜
摘 要 隨著人工智能的日益發(fā)展,語言學(xué)成為“產(chǎn)”“業(yè)”“學(xué)”界尋求合作及突破的新契機(jī)。其中語言學(xué)語義資源的構(gòu)建及標(biāo)注問題成為了當(dāng)前的一大熱點(diǎn)及難點(diǎn)。文章針對(duì)中文動(dòng)詞語義分類問題,從理論研究、語義網(wǎng)構(gòu)建及實(shí)踐應(yīng)用三方面進(jìn)行了全面的探討和分析。理論研究上,文章以“框架為本,構(gòu)式為用”的研究方法為基石,依循框架語義和構(gòu)式語法以區(qū)分動(dòng)詞和構(gòu)式之間的 “形義”搭配,形成“格式塔”(Gestalt)般互補(bǔ)。語義網(wǎng)構(gòu)建上,以語言學(xué)分析為基礎(chǔ),語料實(shí)證為依歸,通過 “框架元素”與“定義性構(gòu)式”來定義動(dòng)詞屬性,使語料兼有詞匯表征、框架階層及語義標(biāo)注等信息。語義知識(shí)庫(kù)目前包含“溝通”“認(rèn)知”“感知”“情緒”“評(píng)價(jià)”“社會(huì)互動(dòng)”“自動(dòng)”和“致使移動(dòng)”八大類框架動(dòng)詞,已有效運(yùn)用于多種基于語義及事件框架的中文自然語言處理任務(wù),包括中文語義自動(dòng)消歧,自動(dòng)語義角色標(biāo)注,事件框架甄別及故事自動(dòng)生成。
關(guān)鍵詞 框架語義 構(gòu)式語法 動(dòng)詞分類 語義標(biāo)注 自然語言處理
一、 導(dǎo)論
大數(shù)據(jù)與深度學(xué)習(xí)技術(shù)的到來,使得人工智能技術(shù)飛速發(fā)展,Marcus(2018)指出,近六年來,人工智能在語音及圖像的自動(dòng)識(shí)別、機(jī)器翻譯、信息自動(dòng)檢索等自然語言處理任務(wù)方面作用顯著,幾乎到達(dá)一個(gè)很難再超越的高峰期。研究者們開始關(guān)心語言學(xué)和人工智能如何進(jìn)一步結(jié)合以求得突破,例如在詞性標(biāo)注上,從97%到100%的可能性。(Manning 2011)為此,語言學(xué)成為“產(chǎn)”“業(yè)”“學(xué)”界尋求再突破的新契機(jī),究其原因有四: 其一,語言學(xué)知識(shí)為人工智能的自然語言處理提供更接近語言本質(zhì)的特征模型;其二,語言學(xué)規(guī)則為語言現(xiàn)象及行為差異提供更為合理的解釋;其三,語言學(xué)特征編碼為人工智能提供相對(duì)有效無噪的數(shù)據(jù)集;其四,語言學(xué)知識(shí)工程不依賴于大規(guī)模集成電路或復(fù)雜算法,大力節(jié)省軟硬件成本。現(xiàn)階段人工智能與語言學(xué)合作發(fā)展成為必然趨勢(shì),但合作的熱點(diǎn)及難點(diǎn)在于語言學(xué)資源庫(kù)的構(gòu)建及語義標(biāo)注問題。過去的自然語言處理任務(wù)在詞語切分、詞類標(biāo)注、句法標(biāo)注方面均已取得了良好成果。然而,語義標(biāo)注的工作難度卻更大,問題更為復(fù)雜。關(guān)于語義劃分及標(biāo)注的問題,國(guó)內(nèi)外已經(jīng)有許多相關(guān)研究和資源庫(kù)(或線上知識(shí)庫(kù)),例如,國(guó)外有The Proposition Bank (英文PropBank Palmer et al. 2005), English FrameNet (英文框架語義網(wǎng),F(xiàn)illmore & Baker 2000), English VerbNet (英文動(dòng)詞語義網(wǎng),Levin 1993; Schuler 2005); 國(guó)內(nèi)有中文句結(jié)構(gòu)樹 (Chen et al. 1999; Huang et al. 2000), 漢語框架語義知識(shí)庫(kù)/Chinese FrameNet (You & Liu 2005) 等。國(guó)內(nèi)相關(guān)研究較國(guó)外起步晚,且現(xiàn)有語義研究及標(biāo)注系統(tǒng)仍存在很大的不足和弊端,許多問題有待重新審視: 如何系統(tǒng)而有效地區(qū)分語義?如何辨別形義搭配?形式與語義對(duì)應(yīng)關(guān)系如何?什么樣的語法表現(xiàn)可作為語義區(qū)分的標(biāo)準(zhǔn)?如何對(duì)動(dòng)詞進(jìn)行分類?什么樣的分析方法適合中文動(dòng)詞的語義區(qū)分?下面從國(guó)內(nèi)外相關(guān)研究總結(jié)當(dāng)前語義研究及標(biāo)注的主要問題和難點(diǎn),并有針對(duì)性地介紹中文動(dòng)詞詞匯語義網(wǎng)的特色和優(yōu)勢(shì)。
二、 國(guó)內(nèi)外語義研究及標(biāo)注系統(tǒng)綜述
國(guó)外的語義研究起步較早,發(fā)展相對(duì)成熟,已有許多完整的理論構(gòu)架及標(biāo)注體系,代表性研究及體系有英文框架語義網(wǎng)、英文動(dòng)詞語義網(wǎng)、UCREL語義分析系統(tǒng)(USAS)及英文PropBank等。相比之下,國(guó)內(nèi)的語義研究起步較晚,發(fā)展相對(duì)滯后,但也一些對(duì)應(yīng)的體系和成果,比如,漢語PropBank、中文句結(jié)構(gòu)樹資源庫(kù) (Sinica Treebank)、構(gòu)式義標(biāo)注(劉洪超 & 詹衛(wèi)東2014)、漢語框架語義知識(shí)庫(kù) (Chinese FrameNet)及中文動(dòng)詞詞匯語義網(wǎng)(Mandarin VerbNet)等。中文的語義劃分標(biāo)準(zhǔn)及理論研究大都沿襲西方的研究體系,缺乏對(duì)中文語法特殊性的處理。而且各體系基于不同語義關(guān)聯(lián)分析語義及語法表現(xiàn),側(cè)重點(diǎn)不一,劃分粗細(xì)度各異,各有特點(diǎn),但也存在不足之處。
1. 英文框架語義網(wǎng) (English FrameNet)
英文框架語義網(wǎng)[1]是根據(jù)“框架為本”(framebased)的研究方法和分析方式而建立的一套專門分析英文語義的開源性知識(shí)庫(kù)體系。(Fillmore1982; Fillmore & Atkins1992; Fillmore & Baker2000)該系統(tǒng)基于Fillmore(1982)提出的框架語義理論,以認(rèn)知為驅(qū)動(dòng)因素,以詞匯(不僅限于動(dòng)詞)語義背后所涉及的“場(chǎng)景情境”(scene)來進(jìn)行語義分類。這樣的背景架構(gòu)即為“語義框架”(semantic frame)。語義框架除了提供認(rèn)知上的事件基模, 也作為聯(lián)系相關(guān)詞匯的概念基準(zhǔn),以作為詞匯語義分類的依據(jù)。傳統(tǒng)上,語義框架是由一組主要的參與角色(即框架元素)來定義的,然后通過所需角色來呈現(xiàn)語義的依存關(guān)系。下面以動(dòng)詞“hit”為例,呈現(xiàn)該系統(tǒng)對(duì)于動(dòng)詞的核心的框架元素標(biāo)注情況。
(1) [The massive metal foot/Agent] [HIT/Impact] [the ground/Patient] with [a huge thud/Result.]
如例(1)所示,動(dòng)詞“hit”在框架語義網(wǎng)中被歸為Impact類動(dòng)詞,所牽涉的核心框架元素有“Agent” (施事者),“Patient”(受事者)及非核心框架元素“Result”(結(jié)果)。系統(tǒng)對(duì)動(dòng)詞本身類別及其所關(guān)聯(lián)的參與角色均進(jìn)行了相應(yīng)的語義標(biāo)注,但顯著的缺點(diǎn)是只關(guān)注框架參與角色,忽略詞匯在句法上的特征表現(xiàn);另外,詞匯本身的分類也缺乏一個(gè)系統(tǒng)的準(zhǔn)則,顯得雜亂而無章法。
2. 英文動(dòng)詞語義網(wǎng)(English VerbNet)
英文動(dòng)詞語義網(wǎng)[2]是基于Levin(1993)所提出的英語動(dòng)詞詞匯分類方法(English Verb Classes and Alternations)而建立的關(guān)于英文動(dòng)詞分類及結(jié)構(gòu)變化的標(biāo)注體系。英文動(dòng)詞語義網(wǎng)的構(gòu)建是在Levin(1993)提出動(dòng)詞類別基礎(chǔ)上進(jìn)行次類的細(xì)化與添加,得到同類動(dòng)詞語義、語法的一致性。如Carry(攜帶)類動(dòng)詞,其同類成員有Carry,Drag,Draw,Haul,Heft,這些動(dòng)詞具有共同的語義角色,即施事、客體、源位、目的地,且具有共同的語法表現(xiàn),例如: NP+V+NP。下面的例子闡釋了英文動(dòng)詞語義網(wǎng)對(duì)于Carry動(dòng)詞的一種最常見的句法結(jié)構(gòu)及語義角色。
(2) 例句: Amanda carried the package.
句法: Agent/施事 V Theme/客體
語義: motion [during(E0), Theme]
equals (E0, E1)
motion [during(E1), Agent]
cause (Agent, E0)
盡管英文動(dòng)詞語義網(wǎng)兼顧了語義和語法因素,但其對(duì)動(dòng)詞分類缺乏標(biāo)記、語義分類過于泛化、缺少對(duì)同類詞元的列舉且不適用于中文的特殊語法及語義表達(dá)。
3. UCREL語義分析系統(tǒng)(USAS)
UCREL語義分析系統(tǒng)[3]是一套對(duì)文本進(jìn)行自動(dòng)語義分析及標(biāo)注的系統(tǒng)。系統(tǒng)的開發(fā)始于20世紀(jì)90年代,語義標(biāo)記參考McArthur(1981)撰寫的Longman Lexicon of Contemporary English(《朗文英語當(dāng)代辭典》)。該系統(tǒng)的框架于2013年開始擴(kuò)展,涵蓋多國(guó)語言,包括: 中文、荷蘭語、意大利語、葡萄牙語、西班牙語和馬來語。該系統(tǒng)對(duì)語義的劃分基于一個(gè)多層結(jié)構(gòu),根據(jù)21個(gè)主要話語場(chǎng)進(jìn)行細(xì)化分類,利用相同語義概念來聚集詞意的語義場(chǎng)(標(biāo)注見例3)。
(3) UCREL語義分析系統(tǒng)標(biāo)注示例: “我是中國(guó)人”。
例(3)在UCREL語義分析系統(tǒng)自動(dòng)標(biāo)注體系中被自動(dòng)分詞且每個(gè)詞語標(biāo)有三層信息: POS語法信息、語義關(guān)聯(lián)類別信息及多字詞(MultiWordExpression)信息。該系統(tǒng)的語義標(biāo)注問題在于其語義關(guān)聯(lián)并不能有效區(qū)分不同的語義類型。例如,基于UCREL語義分析系統(tǒng)的分析,例(3)中“我” 不足以分辨出是歷事(Experiencer)、施事(Agent)還是說話人(Speaker)。此外,UCREL語義分析系統(tǒng)僅提供詞類標(biāo)注,而沒有任何句法結(jié)構(gòu)信息的標(biāo)注。
4. 英文PropBank(The Proposition Bank)
英文PropBank[4](Kingsbury & Palmer 2002)是一套基于Treebank2華爾街日?qǐng)?bào)語料(WSJ)進(jìn)行的語義標(biāo)記資源庫(kù)。語料庫(kù)中每個(gè)動(dòng)詞都會(huì)被當(dāng)作一個(gè)語義謂詞,其周圍的文本會(huì)被標(biāo)注為該謂詞的論元和附加角色,謂詞本身也用細(xì)粒度的帶有語義的方法進(jìn)行標(biāo)記。語料庫(kù)中的語義角色采用先決的通用標(biāo)記,過于泛化且靈活度低。以動(dòng)詞hit為例:
(4) a. [The boy]施事 hit her hard.
b. ?[The wind]施事 hit her hard.
c. ?[His words]施事 hit her hard.
例(4)中的the boy,the wind,his words盡管語義特征不同,分別為人類、非人類的物質(zhì)實(shí)體、非人類非物質(zhì)事物,在英文PropBank中卻不做區(qū)分,統(tǒng)一分析為施事。更為完善的處理方法應(yīng)是基于同一標(biāo)記下的成分語義,根據(jù)特征區(qū)別進(jìn)一步細(xì)分語義角色,如: 施事(Agent)、致事(Causer)、刺激物(Stimulas)等。
5. 漢語PropBank
漢語PropBank[5]沿用英文PropBank的理論體系,對(duì)中文的語料采用不同謂詞對(duì)應(yīng)不同基本語義命題的理論框架進(jìn)行標(biāo)注。且謂詞與論元的關(guān)系也被添加到中文結(jié)構(gòu)樹資料庫(kù)(Chinese Treebank)的句法樹中。如動(dòng)詞“搬”(Move)屬于“致使移動(dòng)” (CausedtoMove)類別,其論元包括了移動(dòng)者 (ARG0: mover)、被移動(dòng)物體(ARG1: moved)、移動(dòng)起點(diǎn)(ARG2: moved from)及移動(dòng)終點(diǎn)(ARG3: moved to)等。例(5)為該系統(tǒng)的一個(gè)標(biāo)注實(shí)例。
(5) [這個(gè)村莊]ARG0: mover[曾] ARGMADV自力更生,艱苦奮斗,[搬]REL[山] ARG1: moved添溝造平原。
從例(5)可知,漢語Propbank明顯的問題在于對(duì)謂詞的簡(jiǎn)單羅列(統(tǒng)一將動(dòng)詞標(biāo)注為“REL”),沒有對(duì)動(dòng)詞進(jìn)行系統(tǒng)性的分類。
6. 中文句結(jié)構(gòu)樹資源庫(kù) (Sinica Treebank)
中文句結(jié)構(gòu)樹資源庫(kù)[6](Chen et al. 1999; Huang et al. 2000)由“中央研究院”詞庫(kù)小組(Chinese Knowledge and Information Processing)建立,基于信息為本的格語法(ICG)對(duì)中文語料庫(kù)(Sinica Corpus)的語料進(jìn)行標(biāo)注。該資源庫(kù)的結(jié)構(gòu)框架采用中心驅(qū)動(dòng)原則(HeadDriven Principle),圍繞句子或詞組的核心中心對(duì)其論元或附加成分的語法構(gòu)成進(jìn)行標(biāo)注。圖1為一示范標(biāo)注。
如圖1所示,盡管中文句結(jié)構(gòu)樹資源庫(kù)標(biāo)注了詞的語法特征,但未對(duì)動(dòng)詞語義進(jìn)行分類,且對(duì)論元、附加成分僅進(jìn)行語法標(biāo)注,并沒有凸顯各自語義角色。
7. 北京大學(xué)構(gòu)式義標(biāo)注
北京大學(xué)構(gòu)式義標(biāo)注(劉洪超,詹衛(wèi)東2014)以構(gòu)式為單位進(jìn)行語義標(biāo)注。構(gòu)式指整體意義無法從其組成部分簡(jiǎn)單加合出來的語言單位。該語料庫(kù)針對(duì)特定構(gòu)式的認(rèn)知機(jī)制進(jìn)行分析,嘗試建立從表層語言到深層認(rèn)知的映射。如:
(6) a. 用一噸,少一噸。
b. 泡一次,淡一次。
在構(gòu)式義標(biāo)注中,例(6)統(tǒng)一采用“A一X,B一X”的釋義模板,其語義為“越A越B”,表達(dá)因果倚變義。盡管這一語義標(biāo)注包含構(gòu)式信息,但對(duì)動(dòng)詞的語義角色與特定構(gòu)式的互動(dòng)并未進(jìn)行進(jìn)一步的分析標(biāo)注。
8. 漢語框架語義知識(shí)庫(kù)
漢語框架語義知識(shí)庫(kù)是由山西大學(xué)(You & Liu 2005)開發(fā),以Fillmore(1982)的框架語義學(xué)為理論基礎(chǔ),參照加州大學(xué)伯克利分校的FrameNet工程,構(gòu)建的以漢語真實(shí)語料為依據(jù),可供計(jì)算機(jī)使用的漢語詞匯語義知識(shí)庫(kù)。表1為一示范標(biāo)注(以動(dòng)詞“到達(dá)”為例)。
如表1所示,漢語框架語義知識(shí)庫(kù)對(duì)動(dòng)詞的語義框架、動(dòng)詞的核心框架元素, 非核心框架元素,以及同類詞元都進(jìn)行了定義和整理,但這一知識(shí)庫(kù)的建立更像是英文框架語義網(wǎng)的中文譯本,缺乏對(duì)中文特殊語法現(xiàn)象的統(tǒng)一處理;另外,與英文框架語義網(wǎng)類似,該系統(tǒng)也缺乏對(duì)構(gòu)式語義信息的標(biāo)注。
三、 中文動(dòng)詞詞匯語義網(wǎng)的特性
以上無論哪種語義分類方法,雖各有所長(zhǎng),但均有不足之處。對(duì)于語義的劃分,語言學(xué)家的共識(shí)就是動(dòng)詞的語義必然體現(xiàn)在語法表現(xiàn)上,語法和語義是一體兩面、相輔相成的。語義角色是可能進(jìn)一步細(xì)化或延伸的語言范疇。框架中的角色本身也許不足以定義框架,而需要與語法特征結(jié)合。換言之,對(duì)語義角色,要將其作為構(gòu)式中的框架角色進(jìn)行研究。Liu和Chang(2015)指出,動(dòng)詞與構(gòu)式彼此互為表里,有如“格式塔”(Gestalt)般相互依存的緊密關(guān)系。構(gòu)式與動(dòng)詞間存有彼此定義的搭配關(guān)系,構(gòu)式語義必須通過動(dòng)詞來呈現(xiàn),而動(dòng)詞框架與不同的構(gòu)式相聯(lián)系。本文對(duì)于漢語動(dòng)詞詞義分析和動(dòng)詞分類的問題,提出一種“框架為本,構(gòu)式為用”(framebased constructional approach)的分析方法,結(jié)合了“框架語義”理論中的事件框架(frames)和“構(gòu)式語法”(Constructional Grammar)理論中構(gòu)式的表征意義(Goldberg 1995,2003),來分析和劃分動(dòng)詞的語義類型??蚣芾碚撝饕x了“參與者”(participant roles),但缺乏語法形式上的明確性;而構(gòu)式語法主張形式和意義間的表征和對(duì)應(yīng), 正好作為在動(dòng)詞劃分上顯性的標(biāo)準(zhǔn)。也就是說,對(duì)于語料庫(kù)的動(dòng)詞屬性分析,首先確定所參與的語義框架,再定義每個(gè)框架下的“框架元素”(frame elements)與 “定義性構(gòu)式”(defining constructions)來共同描述框架的性質(zhì);根據(jù)實(shí)際應(yīng)用中詞義辨析中所需要的粗細(xì)程度,也需考慮與構(gòu)式搭配的詞匯和共現(xiàn)形式(lexical collocation)。
(一) 研究方法: “框架為本,構(gòu)式為用”
為了解決目前語義標(biāo)注系統(tǒng)的問題及適應(yīng)漢語本身特殊的語法特征,中文動(dòng)詞詞匯語義網(wǎng)采取“框架為本,構(gòu)式為用”的研究方法,這是一種以認(rèn)知為驅(qū)動(dòng)、以框架語義理論與構(gòu)式語法為理論基石,以中文特色語法表現(xiàn)為補(bǔ)充的綜合性研究方法(Liu2003,2005,2016,2018; Liu & Chang2005; Liu & Chang2015,2018,2019; Liu & Chiang2008; Liu & Hu2008, 2013; Liu et al.2006,2015)。
1. 框架語義(Fillmore1982,1985)
本文根據(jù)Fillmore(1982)的框架語義理論,從認(rèn)知語義的角度,將動(dòng)詞依照其背后所涉及的“場(chǎng)景情境”(scene)來加以分類,即“語義框架”(semantic frame)。語義框架提供認(rèn)知上的事件基模和聯(lián)系相關(guān)動(dòng)詞的概念基準(zhǔn),也可作為動(dòng)詞分類的依據(jù)。傳統(tǒng)上,語義框架是由一組主要的參與角色,即框架元素(frame element)來定義的,然后通過所需角色來呈現(xiàn)語義的依存關(guān)系。舉例來說,“買”這個(gè)動(dòng)詞,從認(rèn)知經(jīng)驗(yàn)來說,屬于“商業(yè)交易動(dòng)詞”,涉及商業(yè)交易的認(rèn)知框架。在這個(gè)框架中,主要的參與元素有買家、賣家、貨品、金錢等,相關(guān)的動(dòng)詞包括買、賣、付、花(錢)、要價(jià)等;同一框架下的動(dòng)詞或者會(huì)搭配不同的框架元素,如表2與例7所示。
(7) a. [我/買家]買了[一瓶水/貨品]
b. [他/賣家]賣了[一瓶水/貨品]
c. [我/買家]付了[他/賣家][五百塊錢/金錢]
由此可以看出,以框架為本的分析方式可兼顧語義的共性與特性,提出符合實(shí)證經(jīng)驗(yàn)的分類。此法已應(yīng)用于英文動(dòng)詞的分析上,已得到廣泛認(rèn)可的結(jié)果(詳見“英文框架語義網(wǎng)”)。
2. 構(gòu)式語法(Goldberg 1995,1997,2010)
在詞匯語義相關(guān)的研究中,最為廣泛接受的前提是動(dòng)詞的語義屬性會(huì)體現(xiàn)在其語法表現(xiàn)上(Levin1993;Levin & Hovav1996,2005),而具有語法辨識(shí)性的語義成分才是關(guān)鍵特征?;谶@一原則,我們對(duì)框架與動(dòng)詞的關(guān)聯(lián)做出進(jìn)一步的語法定義, 對(duì)原有的框架語義理論進(jìn)行了擴(kuò)展: 借助“構(gòu)式語法”中形義搭配的特點(diǎn)(Goldberg1995,1997,2010),提出一種混合互補(bǔ)的方法,進(jìn)一步將語義框架之標(biāo)準(zhǔn)優(yōu)化為“形義搭配”的原則; 即在框架的基礎(chǔ)上, 明確規(guī)定了框架元素,并列出“定義性構(gòu)式”(defining construction),幫助界定語義要素的形式搭配。從宏觀的角度,“構(gòu)式”也如同詞匯一般,是一種“形式和意義”的搭配對(duì)應(yīng)關(guān)系,即構(gòu)式自身就是具有語義的,并可通過語義上與其兼容互補(bǔ)的動(dòng)詞體現(xiàn)出來。構(gòu)式和動(dòng)詞,兩者結(jié)合,相輔相成,攜手將框架的意義具體地表達(dá)出來。如同Boas(2003)所言:“動(dòng)詞的每一個(gè)義項(xiàng)(sense)都形成一個(gè)微型構(gòu)式 (miniconstruction),既包含框架語義也包含句法信息。”反過來說,就是一個(gè)框架的語義除了動(dòng)詞所帶有的框架元素之外,也體現(xiàn)于動(dòng)詞所參與的詞匯構(gòu)式當(dāng)中,而這些構(gòu)式即為框架的“定義性構(gòu)式”。
具體來說,構(gòu)式的方法主要體現(xiàn)在語義網(wǎng)參考框架中的語義要素與動(dòng)詞的共現(xiàn)構(gòu)式特征(colloconstructional features)。一方面,共現(xiàn)構(gòu)式模式可以清晰定義動(dòng)詞或框架之間的差異。如同為“致使移動(dòng)類”動(dòng)詞的“搬”“放”,兩者具有相似語義角色: 移動(dòng)者、被移動(dòng)物、處所,在共現(xiàn)構(gòu)式模式方面存在顯著差異,以施事性把字句與處所倒置式為例:
(8) 施事性把字句: a. 我把書搬到/*在桌上。
b. 我把書放到/在桌上。
(9) 處所倒置式: a. *桌上搬著一本書。
b. 桌上放著一本書
兩種共現(xiàn)構(gòu)式模式區(qū)分了“搬移類”動(dòng)詞與“放置類”動(dòng)詞。就構(gòu)式而言,根據(jù)Liu和Chang(2015)的觀點(diǎn),處所處置式是放置類動(dòng)詞的區(qū)別性構(gòu)式,而“搬移類”動(dòng)詞不能用于處所倒置式。
另一方面,就詞匯共現(xiàn)模式(Morphocollocation)而言,基于中文十億詞語料庫(kù)(Chinese Gigaword)所做的“搬”“放”做施事性把字句謂語介詞搭配的頻率統(tǒng)計(jì)如表3所示:
其中,“搬”通常與表路徑的“到”搭配使用,表示致使物體移動(dòng)的路徑;而“放”通常與引入處所的“在”共現(xiàn),表示致使物體處于某位置。由詞匯共現(xiàn)模式,還可歸納出同類動(dòng)詞如“搬移類”動(dòng)詞“投”“擲”,“放置類”動(dòng)詞“丟”“扔”。
基于這樣的分析模式,動(dòng)詞與構(gòu)式互為表里,互相定義。以這種“框架為本,構(gòu)式為用”的方法來分析歸類漢語動(dòng)詞,不但有語言學(xué)的理論基礎(chǔ),也具備操作上的實(shí)用性;無論是在后續(xù)的分類研究中還是應(yīng)用于漢語動(dòng)詞的教學(xué),較以往的分類方法都更為合理適用。
(二) 以真實(shí)語料為依歸
本文中分析的文本材料,都是從各個(gè)語料庫(kù)搜索得來的自然語言實(shí)例,旨在考察動(dòng)詞在實(shí)際使用中的情況。使用的語料庫(kù)包括“‘中央研究院平衡語料庫(kù)” (Sinica Balanced Corpus)和“中文十億詞語料庫(kù)”(Chinese Gigaword),利用“‘中央研究院中文詞匯速描系統(tǒng)”(Chinese Word Sketch Engine)進(jìn)行查詢,在語料缺乏的情況下,也有借用其他搜索引擎(例如谷歌)的搜索結(jié)果作為輔助查詢?!爸醒胙芯吭骸钡钠胶庹Z料庫(kù)擁有涵蓋六大主題(文學(xué)、生活、社會(huì)、科學(xué)、哲學(xué)、藝術(shù))、超過一千萬詞目的語料;中文十億詞語料庫(kù)囊括了來自兩岸及東南亞的華文新聞出版媒體,如《新華社》《人民日?qǐng)?bào)》《“中央”社》及《聯(lián)合早報(bào)》等,包含了超過十億字詞的新聞?wù)Z料。語料篩選方面,我們選定某一動(dòng)詞作為觀察對(duì)象,以其為關(guān)鍵字在語料庫(kù)中收集語例,經(jīng)過整理和觀察,得出該動(dòng)詞實(shí)際的句法表現(xiàn)、數(shù)量分布,以及最為顯著的共現(xiàn)形式,而后進(jìn)行語義上的分析和討論。本文的最終目的為基于現(xiàn)有的語義標(biāo)注系統(tǒng)的各類問題及漢語本身的語法特征,建立一個(gè)針對(duì)漢語動(dòng)詞語義的有效分類及標(biāo)注體系及知識(shí)庫(kù),并能為中文自然語言處理所應(yīng)用。
四、 中文動(dòng)詞詞匯語義網(wǎng)的構(gòu)建與功能介紹
中文動(dòng)詞詞匯語義網(wǎng)(Mandarin VerbNet)[7]是關(guān)于中文動(dòng)詞分類及語義標(biāo)注的一個(gè)全面性詞匯語義知識(shí)庫(kù)。該知識(shí)庫(kù)由語言學(xué)導(dǎo)向,基于語料庫(kù)實(shí)證研究,且面向自然語言處理及教學(xué)等各種應(yīng)用。該知識(shí)庫(kù)的建立以“框架為本,構(gòu)式為用”的研究方法為理論基礎(chǔ),為動(dòng)詞進(jìn)行分類及語義標(biāo)注,提供了有層級(jí)的動(dòng)詞框架信息和帶有統(tǒng)計(jì)頻率的動(dòng)詞語義標(biāo)注信息。以下為語義網(wǎng)的具體介紹。
(一) 框架信息及其層級(jí)結(jié)構(gòu)
框架的語義范疇不同,具有層次性。(Liu & Chang 2005)按照范疇大小,可分為源框架(Archiframe)>初級(jí)框架(Primaryframe)>基本框架(Basicframe)>微框架(Microframe)??蚣荛g層層相關(guān),低層框架可視為高層框架的子框架(subframe)。換言之,這種分層結(jié)構(gòu)含有框架自上而下的繼承和使用關(guān)系。
源框架是認(rèn)知上廣義的語義領(lǐng)域,作為框架上層是最為概括的大類,由框架最基本的語義原型與最基礎(chǔ)的句式來定義,源框架為必須框架;
初級(jí)框架可以提供一個(gè)次高層次的語法語義搭配關(guān)系(如情緒類動(dòng)詞的基本框架至上還有五個(gè)初級(jí)框架,見表4);
基本框架是認(rèn)知上顯著的層次,有較明確清晰的語義成分及搭配構(gòu)式,表達(dá)基本范疇所涵蓋的語義特征。源框架和基本框架是必需的,而初級(jí)框架和微框架則不是必需的;
微框架用來描述基本框架下一些頻繁出現(xiàn)的近義詞集,用來區(qū)分近義詞的細(xì)微語義差別, 如“懸”“掛”“吊”為放置類(Placement)基本框架下面的三個(gè)微框架。
以下以情緒類動(dòng)詞為例,展示該類動(dòng)詞的層級(jí)框架信息: 情緒被定義為源框架,在語義網(wǎng)中包括了五大初級(jí)框架及十個(gè)基本框架,具體框架信息如表4所示。
除了層級(jí)框架結(jié)構(gòu),語義網(wǎng)的每一層框架都會(huì)有框架定義及框架信息,包含框架定義、代表動(dòng)詞詞元、定義性構(gòu)式、框架元素/參與角色(包括核心與非核心框架元素)、構(gòu)式標(biāo)記(用星號(hào)來標(biāo)記,用于區(qū)分框架元素標(biāo)記)。以下以情緒類源框架下面的五個(gè)初級(jí)框架為例,介紹其相關(guān)框架信息。
表5中五種初級(jí)框架,雖然都是描述情緒狀態(tài),卻各自呈現(xiàn)明顯的語法表征差異,語義網(wǎng)根據(jù)定義性構(gòu)式來對(duì)動(dòng)詞加以分類。
(二) 動(dòng)詞的相關(guān)語義信息
語義網(wǎng)包含經(jīng)過標(biāo)注的語料(用例來自十億詞庫(kù)和中文平衡語料庫(kù)),每個(gè)動(dòng)詞標(biāo)記的內(nèi)容包括動(dòng)詞在基本框架下的框架元素和構(gòu)式標(biāo)記。語義網(wǎng)還提供多義詞的標(biāo)注、兩個(gè)動(dòng)詞的標(biāo)注結(jié)果對(duì)比、半詞匯化信息等。此外,語義網(wǎng)還提供每個(gè)動(dòng)詞在中文十億詞語料庫(kù)中的出現(xiàn)頻率,用來呈現(xiàn)動(dòng)詞的使用情況。
1. 動(dòng)詞的標(biāo)注形式
以放置類動(dòng)詞“放”為例,語義網(wǎng)的動(dòng)詞語義標(biāo)注主要通過兩大類信息來實(shí)現(xiàn): 框架元素(frame element)和構(gòu)式標(biāo)記(construction marker)??蚣茉厥强蚣軆?nèi)動(dòng)詞特定的參與角色,并通過角色來呈現(xiàn)與語義的依存關(guān)系。構(gòu)式標(biāo)記是跟動(dòng)詞緊密連接的顯著句法標(biāo)記,用來說明動(dòng)詞類別和句法結(jié)構(gòu)的關(guān)系,在語義網(wǎng)中用星號(hào)(*)標(biāo)記加以區(qū)分。
(10) 定義“放置類”動(dòng)詞“放”:
基本框架: 放置框架(Placement frame)
a. 核心框架元素: 放置者、放置物、放置點(diǎn)
b. 構(gòu)式標(biāo)記: *把、*處所標(biāo)記、*體貌標(biāo)記
c. 基本構(gòu)式模式:
i. 及物的把字結(jié)構(gòu)
如: [她/放置者][把/*把][玩具/放置物]放[在/*處所標(biāo)記][房間里/放置點(diǎn)]
ii. 凸顯放置物的不及物結(jié)構(gòu)
如: [玩具/放置物]放[在/*處所標(biāo)記][房間里/放置點(diǎn)]
iii. 凸顯放置點(diǎn)的處所倒裝結(jié)構(gòu)
如: [房間里/放置點(diǎn)]放[著/*體貌標(biāo)記][玩具/放置物]
除了動(dòng)詞最基本的語義,“框架為本,構(gòu)式為用”的標(biāo)注方法還可以標(biāo)注動(dòng)詞語義的概念和隱喻延伸。以“放置”(Placement)類動(dòng)詞“放”為例:
(11) a. [我/放置者][把/*把][書/放置物]放[在/*處所標(biāo)記][桌子上/放置點(diǎn)]。
b. [她/放置者][把/*把][老師的話/放置物]放[在/*處所標(biāo)記][心上/放置點(diǎn)認(rèn)知延伸]
例(11)中的兩個(gè)句子,具備相同的構(gòu)式及句法結(jié)構(gòu),但是語義卻不同。例(11)a為動(dòng)詞“放”的典型用法,表達(dá)的是普通放置處所的概念;而例(11)b由于搭配非處所的介賓短語(在心上),使得“放”的語義從空間層面延伸至認(rèn)知層面(記憶)。語義網(wǎng)對(duì)類似現(xiàn)象的處理使得詞匯的基本語義與其語義的延展或轉(zhuǎn)換得到明確的區(qū)分。
2. 多義詞的處理
動(dòng)詞的多義性和義項(xiàng)劃分是語言學(xué)研究中值得關(guān)注的問題。語義網(wǎng)遵循“一個(gè)框架,一個(gè)語義”(one sense, one frame)的原則,根據(jù)所在語義框架不同,區(qū)分多義詞的不同義項(xiàng)。以動(dòng)詞“放”為例,“放”在中文詞匯網(wǎng)絡(luò)(Chinese WordNet)的分析中包含37個(gè)不同的義項(xiàng),可見其用法之廣,語義之豐富。而在中文動(dòng)詞語義網(wǎng)中,根據(jù)“框架為本,構(gòu)式為用”的分析, “放”初步分為兩個(gè)空間動(dòng)態(tài)的基礎(chǔ)語義——“置放”類和“釋放”類。(Liu & Chang 2015)。如:
(12) a. 放置義: [她/放置者][把/*把][鳥/放置物]放[在/*處所標(biāo)記][籠子里/放置點(diǎn)]
b. 釋放義: [她/施事][把/*把][鳥/釋放物]放[出/*出標(biāo)記][籠子/源點(diǎn)]
這兩個(gè)基礎(chǔ)義項(xiàng),可以用“釋出源點(diǎn)”(away from a source)到“置于終點(diǎn)”(land at an endpoint)的事件鏈來解釋,又可經(jīng)由位移路徑衍生出“放”的其他語義和用法。在認(rèn)知框架的基礎(chǔ)下,“放鹽、放書、放錢”等用法都和“置放”有關(guān),構(gòu)式上有處所終點(diǎn)出現(xiàn);但“放人、放牛、放風(fēng)箏”等則與“釋放”較相關(guān),構(gòu)式上可帶有源點(diǎn)出處(source)。但是當(dāng)構(gòu)式表現(xiàn)看起來相同時(shí),框架元素的定義就成了區(qū)分的關(guān)鍵。根據(jù)語義網(wǎng),可知“釋放”義與“放置”義的“放”牽涉的框架元素不同,實(shí)際上是涉及了兩個(gè)不一樣的基本框架:“放置”框架包含放置者、放置物、處所等,而“釋放”框架包含施事、“出”類標(biāo)記、釋放物等。
3. 兩個(gè)動(dòng)詞之間的比較
中文動(dòng)詞詞匯語義網(wǎng)還可以比較同一源框架下的任意兩個(gè)動(dòng)詞之間的構(gòu)式模式異同,主要用于區(qū)分近義詞或反義詞的語義特征,得出其模式上的異同,進(jìn)而分析其語義異同。例如,“快樂”和“高興”,都同屬于情緒源框架下的“快樂悲傷”(HappySad)基本框架,根據(jù)語義網(wǎng)的語料標(biāo)注,通過自動(dòng)比較的功能,可以得出兩者具有共同的模式如:
[歷事][快樂悲傷]: 我高興/快樂??!
[歷事][*程度][快樂悲傷]: 大家都很高興/快樂。
[刺激源][*致使][歷事][快樂悲傷]: 美麗的景色使她們高興/快樂。
[歷事][*情緒感官][快樂悲傷]: 她們覺得高興/快樂。
[刺激源][*程度][快樂悲傷]: 有錢很高興/快樂。
兩者也具有不同的構(gòu)式模式,如“快樂”具有大量名物化[*快樂悲傷+名物化]的用法,而“高興”則幾乎沒有名物化;另外,“高興”具有[歷事][*程度][快樂悲傷][內(nèi)容]的模式,比如: “我很高興你能過來”,而“快樂”沒有。兩者語法表現(xiàn)的異同說明他們語義上也存在細(xì)微差異,特別是“快樂”的高頻率名物化用法,對(duì)比之下,“高興”在語義上比“快樂”表現(xiàn)出更固化的句法特征。
4. 半詞匯化信息
中文動(dòng)詞詞匯語義網(wǎng)也包含部分動(dòng)詞與半詞匯化成分的搭配,半詞匯化結(jié)構(gòu)是指是具有能產(chǎn)性(productive verbs)的詞匯結(jié)構(gòu)。網(wǎng)站現(xiàn)有的半詞匯化結(jié)構(gòu)包括“可+V”“V+人”“令人+V”等,其中V代表適應(yīng)該結(jié)構(gòu)的能產(chǎn)性動(dòng)詞,如例(3),“可+V”的半詞匯化結(jié)構(gòu),適用于類似“可愛”“可恨”“可憐”等動(dòng)詞;“V+人”的半詞匯化結(jié)構(gòu),適用于類似“煩人”“氣人”“感人”等動(dòng)詞;“令人+V”的半詞匯化結(jié)構(gòu),適用于類似“令人興奮”“令人鼓舞”“令人沮喪”等動(dòng)詞;這三類半詞匯化結(jié)構(gòu)均屬于“情緒類”框架下的子類“刺激源屬性”的基本框架,且用“#”加以標(biāo)注,以區(qū)分于其他標(biāo)注信息。相關(guān)例句如下:
(13) a. [女孩子/刺激源] [比較/*程度] [可愛/#刺激源屬性]。
b. [這個(gè)畫面/刺激源] [十分/*程度] [感人/#刺激源屬性]。
c. [眼前的情景/刺激源] [讓人迷惑/#刺激源屬性]。
5. 語義網(wǎng)構(gòu)建流程及進(jìn)度
語義網(wǎng)的構(gòu)建流程主要包括以下幾個(gè)步驟(見圖2): 其一,語料收集與篩選。該環(huán)節(jié)旨在完成基本語料的準(zhǔn)備,采用自動(dòng)提取與手動(dòng)篩選相結(jié)合的方式進(jìn)行語料收集,在每個(gè)類別中定義最高頻的動(dòng)詞列表,每個(gè)單詞選取合格語料200句;其二,人工標(biāo)注。該環(huán)節(jié)采用半自動(dòng)輔助標(biāo)記工具Atom,結(jié)合人工方式標(biāo)注動(dòng)詞語義,主要包含動(dòng)詞類別、框架元素、構(gòu)式標(biāo)記;其三,人工校對(duì),為了確保標(biāo)注準(zhǔn)確性,初步標(biāo)注結(jié)果由兩位項(xiàng)目經(jīng)理做交叉比對(duì),進(jìn)行一致性內(nèi)部評(píng)分測(cè)試,以確保更高的標(biāo)注準(zhǔn)確度;其四,網(wǎng)頁開發(fā)及管理,采用JS腳本語言開發(fā)網(wǎng)頁,在網(wǎng)頁后臺(tái)對(duì)標(biāo)注、定義完成的語料進(jìn)行管理,利用Atom內(nèi)嵌程序包自動(dòng)統(tǒng)計(jì)并上傳數(shù)據(jù)至城大伺服器,以公開網(wǎng)絡(luò)用戶使用;最后,基于用戶回饋網(wǎng)站的體驗(yàn)評(píng)價(jià)及建議,更新標(biāo)注以提高標(biāo)注質(zhì)量及改善網(wǎng)頁設(shè)計(jì)以增加用戶體驗(yàn)。
目前,中文動(dòng)詞詞匯語義網(wǎng)已建立了八個(gè)源框架,包括“情緒”“認(rèn)知”“感知”“致使移動(dòng)”“自動(dòng)”“社交互動(dòng)”“溝通”及“評(píng)判”類,涵蓋大約80個(gè)基本框架。另外,語義網(wǎng)定義并分類了約800個(gè)動(dòng)詞,其中520個(gè)動(dòng)詞得到語義標(biāo)注及構(gòu)式統(tǒng)計(jì)。
在下一個(gè)階段,語義網(wǎng)短期目標(biāo)為完成中文高頻的2000個(gè)動(dòng)詞的分類及標(biāo)注,涵蓋大概10個(gè)新的源框架,50個(gè)基本框架,并同步實(shí)行對(duì)“空間配置類”(Spatial Configuration)、“關(guān)系類”(Relational)、“存現(xiàn)類”(Existential)、“個(gè)人行為類”(Behavorial)等源框架的語義研究。
五、 中文動(dòng)詞詞匯語義網(wǎng)之NLP應(yīng)用
中文動(dòng)詞詞匯語義網(wǎng)構(gòu)建的同步,產(chǎn)生了一個(gè)富含語言學(xué)信息的知識(shí)庫(kù)。該知識(shí)庫(kù)的建立對(duì)于語言學(xué)本體研究、中文教學(xué)及自然語言處理均有很好的啟示及衍生作用。目前,我們已經(jīng)成功將已有的中文動(dòng)詞語義網(wǎng)資源庫(kù)投入多種語義相關(guān)的中文自然語言處理任務(wù),并已經(jīng)取得不錯(cuò)的成果,以下面三個(gè)應(yīng)用為例。
(一) 中文動(dòng)詞語義消歧
詞匯歧義/多義指同一個(gè)詞具有兩個(gè)或以上不同但相關(guān)聯(lián)的語義。詞義消歧(Word Sense Disambiguation,簡(jiǎn)稱WSD)(Wan & Liu 2018)是指基于語境信息自動(dòng)解決詞義歧義的自然語言處理任務(wù)。近幾十年來WSD仍是NLP研究中的一個(gè)熱點(diǎn)話題,尤其在中文動(dòng)詞的一詞多義問題上。例如,在例句“他很煩!”中,既可理解為“他”這個(gè)人很煩人;也可理解為“他”感到厭煩。針對(duì)情緒類動(dòng)詞的語義判別問題,Liu(2016)提出了一套適用于中文“情緒類”動(dòng)詞分類方法,全面且創(chuàng)新地歸納了五種“情緒類”動(dòng)詞的詞匯化模式:
(14) a. 刺激源主語+及物動(dòng)詞: “這個(gè)問題煩了我三天三夜?!?/p>
b. 刺激源主語+不及物動(dòng)詞: “明天的考試很煩?!?/p>
c. 歷事主語+及物動(dòng)詞: “你在煩什么?”
d. 歷事主語: “我好煩??!”
e. 影響者主語+及物動(dòng)詞+歷事: “那我就別再煩你了?!?/p>
以上五種詞匯模式,能夠很好地將多義詞“煩”加以區(qū)分,其中包含三大主要語義: 例(14)a、例(14)b屬于刺激源主語(屬性類)語義,強(qiáng)調(diào)主語導(dǎo)致客體產(chǎn)生某種情緒的一種屬性;例(14)c、例(14)d屬于歷事主語(感受類)語義,強(qiáng)調(diào)主語的主觀感受;而例(14)e屬于影響者主語(主動(dòng)影響類)語義,強(qiáng)調(diào)主語的主觀性及客體的受影響性。除了動(dòng)詞“煩”以外,很多其他情緒類動(dòng)詞也有類似歧義問題,例如:“尷尬”“無聊”“討厭”。這四個(gè)多義“情緒類”動(dòng)詞各自的歧義項(xiàng)及在語料中的分布如表6所示:
表6中,“框架”指的是語義網(wǎng)中各義項(xiàng)對(duì)應(yīng)的語義框架。“語義”指四個(gè)多義動(dòng)詞的義項(xiàng)?!坝美敝父髁x項(xiàng)在語料庫(kù)中的頻次?!氨壤敝富诿總€(gè)動(dòng)詞找到的各500句中義項(xiàng)的分布比例?;谥形膭?dòng)詞語義網(wǎng)中以上四個(gè)多義動(dòng)詞的參與角色及構(gòu)式標(biāo)注信息(FC),我們采用貝葉斯模型(NB)及優(yōu)化支持向量機(jī)(SMO),進(jìn)行了可監(jiān)督的自動(dòng)詞義消歧任務(wù),并比較了采用三種基本特征集——單語素(unigram)、雙語素(bigram)、單名詞性結(jié)構(gòu)(uniNP)進(jìn)行同等消歧任務(wù)的準(zhǔn)確度,發(fā)現(xiàn)以FC特征集的消歧準(zhǔn)確度比其他三種特征集預(yù)測(cè)義項(xiàng)明顯更高,F(xiàn)score最大差異達(dá)到0.337,主要結(jié)果如圖3所示。
另外,研究還發(fā)現(xiàn),三個(gè)基本特征集中,名詞性結(jié)構(gòu)特征集的預(yù)測(cè)精確率最低,而雙語素特征集最高,單語素特征集其次,但三者的總體表現(xiàn)差別不大;在四個(gè)動(dòng)詞的各義項(xiàng)中,歷事主語的義項(xiàng)比刺激源主語的義項(xiàng)預(yù)測(cè)準(zhǔn)確度更高,但刺激源主語的義項(xiàng)最易與其他義項(xiàng)發(fā)生混淆;機(jī)器學(xué)習(xí)曲線表明,F(xiàn)C特征相比其他基本特征的預(yù)測(cè)優(yōu)勢(shì)隨著樣本空間的增加而呈現(xiàn)降低的趨勢(shì)。但總體而言,使用FC用于詞義消歧的功能非常顯著且有效,印證了“一個(gè)框架,一個(gè)語義”(one sense, one frame)的理論正確性,也凸顯了動(dòng)詞語義與其語法結(jié)構(gòu)的有效互動(dòng)。
(二) 基于中文動(dòng)詞語義網(wǎng)的自動(dòng)語義角色標(biāo)注
中文動(dòng)詞詞匯語義網(wǎng)現(xiàn)有的資源庫(kù)的建立,由語言學(xué)導(dǎo)向,經(jīng)過了實(shí)證分析,提供了一個(gè)很好的語義角色自動(dòng)標(biāo)注訓(xùn)練集。目前數(shù)據(jù)庫(kù)包含了79707條完成標(biāo)注的句子及265種語義角色。在已有的資源庫(kù)的基礎(chǔ)之上,我們與北京大學(xué)孫薇薇教授合作了一個(gè)自動(dòng)語義角色標(biāo)注系統(tǒng),并已經(jīng)取得很好的標(biāo)注成果(最好標(biāo)注結(jié)果達(dá)到88.6%的準(zhǔn)確度),初步實(shí)驗(yàn)結(jié)果如表7所示。其中“4l”和“6l”代表了神經(jīng)網(wǎng)絡(luò)模型的深度分別為四層及六層;Dev.S表示詞語輸入的開發(fā)集自動(dòng)標(biāo)記準(zhǔn)確性; Dev.F表示具有語義標(biāo)簽輸入的開發(fā)集自動(dòng)標(biāo)記準(zhǔn)確性。
為實(shí)現(xiàn)語義角色的自動(dòng)標(biāo)注,該系統(tǒng)基于中文動(dòng)詞語義網(wǎng)前期標(biāo)注好的語義數(shù)據(jù)集,采用了N層前饋神經(jīng)網(wǎng)絡(luò)模型(Nlayer FNN)進(jìn)行機(jī)器學(xué)習(xí),如圖4所示。
該模型使用的FNN模型包含兩個(gè)子層: 非線性模型及注意力模型。在數(shù)據(jù)輸入兩個(gè)子層模型之前,句子被自動(dòng)分詞成主謂詞(標(biāo)記為1)和非謂詞話語(標(biāo)記為0)的標(biāo)記的詞向量。 這些帶標(biāo)記的特征向量被輸入深度學(xué)習(xí)模型以實(shí)現(xiàn)語義角色的自動(dòng)標(biāo)記。借助于語義自動(dòng)標(biāo)注的實(shí)現(xiàn),我們得以迅速擴(kuò)充中文動(dòng)詞語義網(wǎng)的基本資源庫(kù),將“框架為本,構(gòu)式為用”的語義分類及標(biāo)注系統(tǒng)運(yùn)用于廣泛的中文可監(jiān)督機(jī)器學(xué)習(xí)的自然語言處理任務(wù)之中,以下文的應(yīng)用為例。
(三) 事件框架分析及自動(dòng)故事生成
中文動(dòng)詞語義網(wǎng)的研究主要圍繞動(dòng)詞展開語義標(biāo)注,每個(gè)動(dòng)詞及其牽涉的參與角色及顯性構(gòu)式構(gòu)成了一系列事件(event)的有效組成部件,因此,語義網(wǎng)中的動(dòng)詞語義標(biāo)注及框架分類對(duì)于事件的分析、鑒別及檢索提供了非常有效的語言學(xué)線索?;诖嗽?,我們利用中文動(dòng)詞語義網(wǎng)現(xiàn)有的大概10個(gè)源框架及256種語義角色標(biāo)記,結(jié)合已經(jīng)實(shí)現(xiàn)的語義角色自動(dòng)標(biāo)注體系(SRL: semantic role labelling),提出了一個(gè)用于社交網(wǎng)絡(luò)(如臉書)的事件框架分析(EFA: event frame analysis)及自動(dòng)故事生成(ASG: automatic story generation)系統(tǒng)。構(gòu)建該系統(tǒng)的原理圖如圖5:
我們提出的自動(dòng)故事生成系統(tǒng),首先利用網(wǎng)上爬蟲軟件從社交網(wǎng)絡(luò)自動(dòng)抓取大量語料,語料包含兩大信息: 用戶的個(gè)人信息及過往貼文。在已經(jīng)抓取的語料基礎(chǔ)之上,利用中文動(dòng)詞語義網(wǎng)現(xiàn)有的標(biāo)注體系做事件框架建模、鑒別、分類,以及事件串聯(lián),最后生成針對(duì)網(wǎng)絡(luò)用戶的人生故事。
故事由四個(gè)主要部分組成: “介紹”“主體”“結(jié)論”及“展望”。“介紹”由用戶的個(gè)人信息組成,例如用戶的出生日期、工作情況、家庭背景,等等;“主體”“結(jié)論”及“展望”則對(duì)應(yīng)不同的事件類別。例如,“主體”部分包括了用戶過往貼文中看(感官類動(dòng)詞)了什么,學(xué)習(xí)(認(rèn)知類動(dòng)詞)了什么,吃(飲食類動(dòng)詞)了什么,說(溝通類動(dòng)詞)了什么,對(duì)其他人做了什么(社會(huì)互動(dòng)動(dòng)詞),等等。表8舉例說明了故事各組成部分對(duì)應(yīng)的事件框架。
根據(jù)語義網(wǎng)的現(xiàn)有語義標(biāo)注系統(tǒng)對(duì)各種動(dòng)詞的分類,以及事件的框架分析,我們可以自動(dòng)識(shí)別這些不同的事件類型,并按照以上四大部件自動(dòng)串聯(lián)成一個(gè)完整的人生故事。
六、 結(jié)論
本文以中文動(dòng)詞詞匯語義網(wǎng)的理論研究、網(wǎng)站構(gòu)建及實(shí)踐應(yīng)用為例,全面性地總結(jié)和探討了當(dāng)下人工智能盛行的語言學(xué)語義資源構(gòu)建的關(guān)鍵問題和可能的應(yīng)用。本文以“框架為本,構(gòu)式為用”的研究方法為基礎(chǔ),依循語言學(xué)家Fillmore提出的框架語義及Goldberg提出的構(gòu)式語法理論,并參考以英語動(dòng)詞為研究對(duì)象的FrameNet,以實(shí)際的語料為依據(jù),具體而微、形義兼顧地對(duì)中文動(dòng)詞進(jìn)行系統(tǒng)有效的分類。網(wǎng)站的構(gòu)建經(jīng)過了語料收集和篩選、人工標(biāo)注、交叉驗(yàn)證及網(wǎng)站開發(fā)等步驟,構(gòu)建了一個(gè)具備詞匯表征、語義標(biāo)注、分類標(biāo)準(zhǔn)、框架層級(jí)(包括源框架>初級(jí)框架>基本框架>微框架)等信息的語義知識(shí)庫(kù)。語義網(wǎng)目前已經(jīng)實(shí)現(xiàn)八個(gè)源框架的動(dòng)詞研究及語義標(biāo)注,包括“溝通”“認(rèn)知”“感知”“情緒”“社會(huì)互動(dòng)”“自動(dòng)”“致使移動(dòng)”及“評(píng)判”類動(dòng)詞。同時(shí)將繼續(xù)對(duì)“空間配置”“自然行為”等更多的語義框架進(jìn)行系統(tǒng)性地分類和研究。語義網(wǎng)作為富含語言學(xué)智慧的中文動(dòng)詞詞匯語義知識(shí)庫(kù),除了為中文教學(xué)及本體研究提供了包含動(dòng)詞語義框架及標(biāo)注的基本信息,也提供了一個(gè)可有效運(yùn)用于各種語義相關(guān)的中文自然語言處理的寶貴資源庫(kù)。
附 注
[1]https:∥framenet.icsi.berkeley.edu/fndrupal/
[2]https:∥verbs.colorado.edu/~mpalmer/projects/verbnet.html
[3]http:∥ucrel.lancs.ac.uk/usas/
[4]https:∥propbank.github.io/
[5]http:∥verbs.colorado.edu/chinese/cpb/
[6]http:∥treebank.sinica.edu.tw/
[7]http:∥mega.lt.cityu.edu.hk/~yufechen/#/
參考文獻(xiàn)
1. 劉洪超,詹衛(wèi)東.“A+ 一+ X, B+ 一+ Y” 構(gòu)式的分類及釋義模板.中文信息學(xué)報(bào),2014,28(6): 3440.
2. Boas H C. A Lexicalconstructional Account of the Locative Alternation.∥ Carmichael L, Huang ChiaHui, Samiian V. (eds.) Proceedings of the 2001 Western Conference in Linguistics, Fresno, CA: California State University, 2003: 2742.
3. Chen KehJiann et al. The CKIP Chinese Treebank: Guidelines for Annotation. ATALA Workshop—Treebanks, Paris, 1999: 8596.
4. Fillmore C J. Frame Semantics.∥ Linguistic Society of Korea (ed.) Linguistics in the Morning Calm. Seoul: Hanshin Publishing Company, 1982: 111137.
5. Fillmore C J, Atkins B T. Towards a Framebased Organization of the Lexicon: The Semantics of RISK and Its Neighbors.∥ Lehrer A, Kittay E. (eds.) Frames, Fields, and Contrasts: New Essays in Semantics. Hillsdale: Lawrence Erlbuan, 1992: 75102.
6. Fillmore C J, Baker C F. FrameNet: Frame Semantics Meets the Corpus.∥ Robinson D, Farrell P. (eds.) Proceedings of the 74th Annual Meeting of the Linguistic Society of America, Chicago, 2000.
7. Goldberg A E. Constructions: A Construction Grammar Approach to Argument Structure. Chicago: University of Chicago Press, 1995.
8. Goldberg A E. Relationships between Verb and Construction.∥ Verspoor M, Sweetser E. (eds.) Lexicon and Grammar. Amsterdam/Philadelphia: John Benjamins Publishing Company, 1997: 383398.
9. Goldberg A E. Verbs, Constructions, and Semantic Frames.∥ Rappaport H M, Doron E, Sichel I. (eds.) Syntax, Lexical Semantics and Event Structure. Oxford: Oxford University Press, 2010: 3958.
10. Huang C R, Chen F Y, Chen K J, et al. Sinica Treebank: Design Criteria, Annotation Guidelines, and Online Interface.∥Association for Computational Linguistics. Proceedings of the Second Workshop on Chinese Language Processing: Held in Conjunction with the 38th Annual Meeting of the Association for Computational Linguistics, 2000 (Vol. 12): 2937.
11. Kingsbury P, Palmer M. From TreeBank to PropBank.∥ LREC, Las Palmas, Canary Islands Spain,2002: 19891993.
12. Levin B. English Verb Classes and Alternations: A Preliminary Investigation. Chicago: University of Chicago Press, 1993.
13. Levin B, Hovav R M. Lexical Semantics and Syntactic Structure. ∥Lappin S. (ed.) The Handbook of Contemporary Semantic Theory, Oxford: Blackwell: 487507.
14. Levin B, Hovav R M. Argument Realization. Cambridge: Cambridge University Press.
15. Liu MeiChun. Motion, Direction and Spatial Configuration: A Lexical Semantic Study of HANG Verbs in Mandarin.∥ Shay E, Seibert U. (eds.) Motion, Direction and Location in Languages: In Honor of Zygmunt Frajzyngier. Amsterdam/Philadelphia: John Benjamins Publishing Company, 2003: 177187.
16. Liu MeiChun. Lexical Information and Beyond: Meaning Coercion and Constructional Inference of the Mandarin Verb GAN. Journal of Chinese Linguistics, 2005,33(2): 310332.
17. Liu MeiChun. Emotion in Lexicon and Grammar: Lexicalconstructional Interface of Mandarin Emotional Predicates. Lingua Sinica, 2016,2(4).
18. Liu MeiChun. A Framebased Morphoconstructional Approach to Verbal Semantics.∥ Kit ChunYu, Liu MeiChun (eds.) Empirical and Corpus Linguistic Frontiers. Beijing: China Social Sciences Press, 2018.
19. Liu MeiChun, Chang ChunEdison. From Frame to Subframe: Collocational Asymmetry in Mandarin Verbs of Conversation. International Journal of Computational Linguistics and Chinese Language Processing, 2005,10(4): 431444.
20. Liu MeiChun, Chang JuiChing. Semantic Profile as a Source for Polysemy: Insight from the Spatialconfiguration Verb fang in Mandarin.∥ Lu Qin, Gao H H. (eds.) Chinese Lexical Semantics. Berlin: Springer International Publishing, 2015(9332): 2432.
21. Liu MeiChun, Chang JuiChing. Placement Verbs in Chinese and English: A Contrastivs Study of Lexicalization Patterns.∥ Hong JiaFei, Su Qi, Wu JiunShiung (eds.) Chinese Lexical Semantics, 2018,20(2).
22. Liu MeiChun, Chang JuiChing. From Caused Motion to Spatial Configuration: Placement Verbs in Mandarin.∥ Peck Jeeyoung (ed.) Language and Linguistics, 2019,20(2).
23. Liu MeiChun, Chiang TingYi, Chou MingHui. A Framebased Approach to Polysemous Near synonymy: The Case with Mandarin Verbs of Expression. Journal of Chinese Language and Computing, 2006,15(3): 137148.
24. Liu MeiChun, Chiang TingYi. The Construction of Mandarin VerbNet: A Framebased Approach to the Classification of Statement Verbs. Language and Linguistics, 2008,9(2): 239270.
25. Liu MeiChun, Hu ChiaYin. Conceptual Schema as Semantic Link: A Framebased Study of Mandarin Cognition Verbs. International Journal of Computer Processing of Oriental Languages, 2008,21(1): 5575.
26. Liu MeiChun, Hu ChiaYin. Free Alternation? A Study on Grammatical Packaging of Excessive Predication in Mandarin Chinese. Language and Linguistics, 2003,14(1): 4790.
27. Liu MeiChun, Hu ChiaYin, Tsai HsinShan et al. The Protomotion Event Schema: Integrating Lexical Semantics and Morphological Sequencing. Journal of Chinese Linguistics, 2015,43(2): 503547.
28. Manning C D. Partofspeech Tagging from 97% to 100%: Is It Time for Some Linguistics?∥ International Conference on Intelligent Text Processing and Computational Linguistics, 2011: 171189.
29. Marcus G. Deep Learning: A Critical Appraisal. CoRR, abs/1801.00631,2018.
30. McArthur T G. Longman Lexicon of Contemporary English. London: Longman,1981.
31. Palmer M, Gildea D, Kingsbury P. The Proposition Bank: An Annotated Corpus of Semantic Roles. Computational Linguistics, 2005,31(1): 71106.
32. Schuler K K. VerbNet: A Broadcoverage, Comprehensive Verb Lexicon. Ph.D Dissertation, University of Pennsylvania, 2005.
33. Wan MingYu, Liu MeiChun. Supervised Word Sense Disambiguation with Framebased Constructional Features: A Pilot Study of fán ‘to annoy/be annoying/be annoyed. International Journal of Knowledge and Language Processing, 2018,9(2): 3346.
34. You L, Liu K. Building Chinese Framenet Database.∥ Natural Language Processing and Knowledge Engineering, Proceedings of 2005 IEEE International Conference, Wuhan, 2005: 301306.
(香港城市大學(xué)翻譯及語言學(xué)系 香港)
(責(zé)任編輯 馬 沙)