姬東鴻
(武漢大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢 430072)
漢語(yǔ)語(yǔ)義分析(semantic parsing),特別是大規(guī)模真實(shí)文本的語(yǔ)義分析,一直是當(dāng)前自然語(yǔ)言處理(natural language processing)的難點(diǎn)。傳統(tǒng)依存分析法(dependency analysis)等標(biāo)注方法在處理漢語(yǔ)特殊句型和特殊語(yǔ)言現(xiàn)象(如:主謂謂語(yǔ)句、連動(dòng)句、兼語(yǔ)句、復(fù)雜名詞短語(yǔ)、動(dòng)補(bǔ)結(jié)構(gòu)等)時(shí)遇到一系列難題。尋求一種適合漢語(yǔ)自己的特點(diǎn)的漢語(yǔ)依存標(biāo)注體系,是中文信息處理研究的當(dāng)務(wù)之急。湖北文理學(xué)院陳波副教授所著的《特征結(jié)構(gòu)及其漢語(yǔ)語(yǔ)義資源建設(shè)》一書(shū),正文共199頁(yè),18.5萬(wàn)字,配有114個(gè)圖表。該書(shū)的研究目的正是探索一種適合漢語(yǔ)自身特點(diǎn)語(yǔ)義標(biāo)注理論,立足于自然語(yǔ)言處理的語(yǔ)義分析需求,提出的特征結(jié)構(gòu)語(yǔ)義描述模型?;谡Z(yǔ)義分析方法建構(gòu)的標(biāo)注語(yǔ)料庫(kù),是自然語(yǔ)言處理基礎(chǔ)研究和應(yīng)用技術(shù)研究的基礎(chǔ)。該書(shū)描述了基于特征結(jié)構(gòu)理論(Feature Structure)建構(gòu)的大規(guī)模的漢語(yǔ)語(yǔ)義資源(semantic resource)的過(guò)程,該資源對(duì)于提高語(yǔ)義關(guān)系抽取(特別是事件關(guān)系抽取)、自動(dòng)問(wèn)答、信息檢索、文本蘊(yùn)涵等系統(tǒng)的性能有積極的意義。該書(shū)對(duì)語(yǔ)義分析理論和語(yǔ)言學(xué)理論進(jìn)行了嘗試性地探討,通過(guò)特征結(jié)構(gòu)理論積極探求漢語(yǔ)特殊語(yǔ)言現(xiàn)象背后的語(yǔ)言規(guī)律和描述機(jī)制。
全書(shū)由前言、六個(gè)章節(jié)和后記組成,全書(shū)內(nèi)容包括五個(gè)部分:研究背景概述、特征結(jié)構(gòu)模型、語(yǔ)義資源建設(shè)、在語(yǔ)言學(xué)領(lǐng)域的應(yīng)用及結(jié)論,具體如下:
第一章引論部分,詳細(xì)地介紹了漢語(yǔ)語(yǔ)義分析方法的研究背景、國(guó)內(nèi)外研究現(xiàn)狀分析、研究對(duì)象界定、研究?jī)?nèi)容等方面。通過(guò)該部分,讀者對(duì)目前自然語(yǔ)言處理學(xué)界的主流語(yǔ)義標(biāo)注方法和已完成的語(yǔ)義標(biāo)注資源會(huì)有一個(gè)較全面的了解。
第二章是作者的重點(diǎn)研究成果,提出了“特征結(jié)構(gòu)模型”的理論,主要研究了特征結(jié)構(gòu)模型的界定,特征結(jié)構(gòu)的特點(diǎn)、形式化表示以及判定方法四大部分。特征結(jié)構(gòu)的特點(diǎn)是用特征三元組反映概念關(guān)聯(lián)和關(guān)聯(lián)種類(lèi),特征三元組允許多重關(guān)聯(lián)和交叉關(guān)聯(lián),允許嵌套和遞歸。特征結(jié)構(gòu)的形式化表示為特征結(jié)構(gòu)圖,是一個(gè)“可遞歸的無(wú)向圖”(recursive undirected graph)。特征結(jié)構(gòu)的判定方法是基于提問(wèn)的方法,研究了各種句式中提問(wèn)的條件、提問(wèn)針對(duì)的成分以及特征詞在其中的分布等。
這部分是全書(shū)的理論精華所在,特征結(jié)構(gòu)模型是一種新的漢語(yǔ)語(yǔ)義分析策略,該理論基于概念關(guān)聯(lián)和關(guān)聯(lián)種類(lèi),用特征結(jié)構(gòu)三元組:[實(shí)體,特征,特征值]來(lái)描述具有語(yǔ)義關(guān)聯(lián)的一組詞語(yǔ)。特征結(jié)構(gòu)允許語(yǔ)義的多重關(guān)聯(lián)和交叉關(guān)聯(lián),也允許遞歸和嵌套。特征結(jié)構(gòu)理論可以比較全面地表示漢語(yǔ)語(yǔ)句中詞與詞之間的語(yǔ)義關(guān)系。
概述了基于特征結(jié)構(gòu)理論的漢語(yǔ)特征結(jié)構(gòu)資源建設(shè),重點(diǎn)介紹了陳波副教授所在的科研團(tuán)隊(duì)耗費(fèi)四年的時(shí)間建構(gòu)的語(yǔ)義資源庫(kù)。分為語(yǔ)料來(lái)源、標(biāo)注方式、標(biāo)注標(biāo)準(zhǔn)、標(biāo)注軟件平臺(tái)等四個(gè)部分。該語(yǔ)料庫(kù)的語(yǔ)料來(lái)源于賓州中文樹(shù)庫(kù)的生語(yǔ)料、國(guó)內(nèi)近三年中文新聞?wù)Z料以及中小學(xué)語(yǔ)文課本。標(biāo)注方式采用人工標(biāo)注和計(jì)算機(jī)標(biāo)注軟件相結(jié)合的方法。設(shè)計(jì)并編寫(xiě)了漢語(yǔ)語(yǔ)義資源標(biāo)注軟件“語(yǔ)言標(biāo)注平臺(tái)”。研究了特征結(jié)構(gòu)的判定標(biāo)準(zhǔn)。本章重點(diǎn)在于特征結(jié)構(gòu)標(biāo)注標(biāo)準(zhǔn)的制定策略。
繼句法樹(shù)庫(kù)之后,近二十年來(lái)國(guó)內(nèi)外各大研究機(jī)構(gòu)都在大力建構(gòu)語(yǔ)義資源庫(kù)。該部分的漢語(yǔ)特征結(jié)構(gòu)語(yǔ)義資源是一個(gè)從新的角度的嘗試。在語(yǔ)料選取上充分考慮了語(yǔ)料的代表性、多樣性、均勻性、時(shí)效性和通用性等因素,主要選用了賓州中文樹(shù)庫(kù)的語(yǔ)料、國(guó)內(nèi)近三年的新聞?wù)Z料和中小學(xué)語(yǔ)文課本語(yǔ)料。標(biāo)注標(biāo)準(zhǔn)是建構(gòu)資源庫(kù)最重要的部分,其標(biāo)注標(biāo)準(zhǔn)依據(jù)了最小單位原則、語(yǔ)義關(guān)聯(lián)原則、遞歸原則、無(wú)中心詞原則等四個(gè)原則,具有可操作性,確保了標(biāo)注的一致性。
第四章和第五章是特征結(jié)構(gòu)理論在語(yǔ)言學(xué)界的實(shí)際應(yīng)用,分別用于主謂謂語(yǔ)句和連動(dòng)句的語(yǔ)義標(biāo)注策略研究。其中,第四章是主謂謂語(yǔ)句的特征結(jié)構(gòu)研究。本章首先回顧了語(yǔ)言學(xué)界對(duì)主謂謂語(yǔ)句的研究成果和爭(zhēng)論內(nèi)容,根據(jù)漢語(yǔ)主謂謂語(yǔ)句的語(yǔ)法特點(diǎn),分析了面向自然語(yǔ)言處理時(shí)的標(biāo)注難點(diǎn),然后運(yùn)用特征結(jié)構(gòu)模型對(duì)語(yǔ)言學(xué)界討論過(guò)的13種類(lèi)型的主謂謂語(yǔ)句進(jìn)行了細(xì)致的語(yǔ)義描述和分析,總結(jié)出了6種語(yǔ)義模型。將現(xiàn)有的傳統(tǒng)依存分析方法和特征結(jié)構(gòu)分析方法對(duì)主謂謂語(yǔ)句的分析結(jié)果進(jìn)行了對(duì)比,結(jié)果表明,特征結(jié)構(gòu)分析方法包含了更多的語(yǔ)義信息。第五章是連動(dòng)句的特征結(jié)構(gòu)研究。本章首先回顧了語(yǔ)言學(xué)界對(duì)連動(dòng)句的研究成果和爭(zhēng)論焦點(diǎn),總結(jié)了漢語(yǔ)連動(dòng)句的語(yǔ)法特點(diǎn),然后分析了面向自然語(yǔ)言處理時(shí)連動(dòng)句的標(biāo)注難點(diǎn)。運(yùn)用特征結(jié)構(gòu)模型對(duì)語(yǔ)言學(xué)界討論較多的16個(gè)連動(dòng)句分別進(jìn)行了細(xì)致地語(yǔ)義描述和分析,總結(jié)出了四類(lèi)語(yǔ)義模型。將現(xiàn)有的傳統(tǒng)依存分析方法和特征結(jié)構(gòu)分析方法對(duì)連動(dòng)句的分析結(jié)果進(jìn)行了對(duì)比,結(jié)果表明,傳統(tǒng)依存語(yǔ)法無(wú)法表示連動(dòng)句中主語(yǔ)和除第一個(gè)謂語(yǔ)動(dòng)詞之外的其他謂語(yǔ)動(dòng)詞之間的語(yǔ)義關(guān)系,無(wú)法表示連動(dòng)句中某個(gè)謂語(yǔ)動(dòng)詞的賓語(yǔ)與其他謂語(yǔ)動(dòng)詞之間的語(yǔ)義關(guān)系,也無(wú)法準(zhǔn)確表示兩個(gè)或多個(gè)謂語(yǔ)動(dòng)詞之間的語(yǔ)義關(guān)系。
第六章是全書(shū)的總結(jié),包括評(píng)估、研究特色、應(yīng)用價(jià)值、下一步研究計(jì)劃等內(nèi)容。
該書(shū)主要有三方面的創(chuàng)新點(diǎn):
(1)采用特征結(jié)構(gòu)模型,探討漢語(yǔ)語(yǔ)句的語(yǔ)義表示機(jī)制。
特征結(jié)構(gòu)模型是一個(gè)全新的漢語(yǔ)語(yǔ)義表示策略。目前國(guó)內(nèi)外雖有很多相關(guān)的工作,但總的來(lái)說(shuō)都是基于句法結(jié)構(gòu)或依存結(jié)構(gòu)進(jìn)行分析的?!疤卣鹘Y(jié)構(gòu)”模型在進(jìn)行語(yǔ)義表示時(shí),允許語(yǔ)義的多重關(guān)聯(lián),也允許遞歸和嵌套,可以比較完整地、清晰地表示漢語(yǔ)語(yǔ)句中詞與詞之間的語(yǔ)義關(guān)系。
(2)基于特征結(jié)構(gòu)模型,對(duì)漢語(yǔ)語(yǔ)句進(jìn)行語(yǔ)義標(biāo)注,探尋適合漢語(yǔ)獨(dú)特特點(diǎn)的語(yǔ)義分析方法和標(biāo)注標(biāo)準(zhǔn)。
該資源可用于支持詞義消解、信息智能監(jiān)控、信息抽取、機(jī)器自動(dòng)問(wèn)答等任務(wù),為實(shí)現(xiàn)計(jì)算機(jī)的語(yǔ)義理解做出貢獻(xiàn)。另外,該語(yǔ)義資源具有通用性。它選用的是世界通用的中文語(yǔ)料庫(kù),建成后可以為國(guó)內(nèi)外其他相關(guān)機(jī)構(gòu)共享。
(3)運(yùn)用特征結(jié)構(gòu)模型探討了漢語(yǔ)特殊句型的語(yǔ)義分析方案,并嘗試以新的視角來(lái)解釋語(yǔ)言學(xué)理論中的爭(zhēng)議問(wèn)題。
書(shū)中以主謂謂語(yǔ)句和連動(dòng)句為例,總結(jié)了兩種漢語(yǔ)特殊句型的語(yǔ)法特點(diǎn),然后分析了面向自然語(yǔ)言處理時(shí)兩種句型的標(biāo)注難點(diǎn),運(yùn)用特征結(jié)構(gòu)模型對(duì)兩種句型進(jìn)行了細(xì)致地語(yǔ)義描述和分析,總結(jié)了語(yǔ)義模型的類(lèi)型,為語(yǔ)言學(xué)理論研究的深化提供了一定的參考。
該書(shū)的研究?jī)?nèi)容立足于自然語(yǔ)言處理的語(yǔ)義分析需求,探討了適合漢語(yǔ)特點(diǎn)的特征結(jié)構(gòu)語(yǔ)義描述模型,并基于特征結(jié)構(gòu)模型,建構(gòu)了一個(gè)3萬(wàn)句的漢語(yǔ)語(yǔ)義標(biāo)注資源庫(kù),有助于提高語(yǔ)義關(guān)系抽取(特別是事件關(guān)系抽取)、自動(dòng)問(wèn)答、信息檢索、文本蘊(yùn)涵等系統(tǒng)的性能。在此基礎(chǔ)上運(yùn)用特征結(jié)構(gòu)模型分析了漢語(yǔ)的特殊句式(主謂謂語(yǔ)句、連動(dòng)句等),積極探求漢語(yǔ)特殊語(yǔ)言現(xiàn)象背后的語(yǔ)言規(guī)律和描述機(jī)制,為漢語(yǔ)特殊句式的語(yǔ)義分析提供了一個(gè)新視角。
語(yǔ)義分析一直是信息處理的難點(diǎn),該書(shū)對(duì)語(yǔ)義分析理論和語(yǔ)言學(xué)理論進(jìn)行了嘗試性地探討,對(duì)語(yǔ)義分析的理論研究有著積極意義。從漢語(yǔ)資源的建設(shè)上看,建構(gòu)的大規(guī)模漢語(yǔ)句子級(jí)語(yǔ)義標(biāo)注資源庫(kù),標(biāo)注理論和描述機(jī)制不同于已有的漢語(yǔ)資源,在標(biāo)注規(guī)模和標(biāo)注深度方面都有所提高,標(biāo)注成果在一定程度上豐富了漢語(yǔ)語(yǔ)義資源。
不過(guò)還有幾方面的工作需要在將來(lái)進(jìn)一步深入研究,如:
(1)應(yīng)擴(kuò)大特征結(jié)構(gòu)模型對(duì)漢語(yǔ)語(yǔ)言現(xiàn)象的考察范圍。
該書(shū)僅探討了漢語(yǔ)的主謂謂語(yǔ)句和連動(dòng)句的語(yǔ)義表示方法,漢語(yǔ)的其他特殊句型,如兼語(yǔ)句、是字句、存現(xiàn)句、把字句、被字句、雙賓句等,特殊現(xiàn)象如靈活語(yǔ)序等,都是下一步的研究對(duì)象。
(2)資源建設(shè)方面,可以從句子級(jí)向短語(yǔ)級(jí)過(guò)渡,研究漢語(yǔ)復(fù)雜名詞短語(yǔ)的語(yǔ)義資源建設(shè),也可以從句子級(jí)向語(yǔ)篇級(jí)過(guò)渡,研究漢語(yǔ)事件鏈的語(yǔ)義資源建設(shè)。
依存分析法是國(guó)際上主流的分析方法,特征結(jié)構(gòu)模型的探索,源于依存分析法,又針對(duì)漢語(yǔ)自身的特點(diǎn)進(jìn)行了擴(kuò)展研究,為當(dāng)前中文信息處理提供了一個(gè)別樣的研究視角,為自然語(yǔ)言處理的發(fā)展提供了一個(gè)新的研究方向。在近兩年的學(xué)術(shù)交流中,特征結(jié)構(gòu)模型理論吸引了很多關(guān)注,相關(guān)科技企業(yè)也開(kāi)始運(yùn)用特征結(jié)構(gòu)模型嘗試解決語(yǔ)言處理的問(wèn)題?!短卣鹘Y(jié)構(gòu)及其漢語(yǔ)語(yǔ)義資源建設(shè)》一書(shū)的出版,為中文信息處理界的語(yǔ)義標(biāo)注理論的研究和語(yǔ)義資源建設(shè)有積極的參考價(jià)值。