国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多詞塊的框架元素語(yǔ)義核心詞自動(dòng)識(shí)別研究

2010-06-05 08:35李雙紅鐘立軍郭偉昱
中文信息學(xué)報(bào) 2010年1期
關(guān)鍵詞:詞塊介詞短語(yǔ)

李雙紅,李 茹,鐘立軍,郭偉昱

(山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006)

1 引言

對(duì)一個(gè)句子進(jìn)行完全語(yǔ)義分析是自然語(yǔ)言處理領(lǐng)域追求的目標(biāo)之一,但是目前進(jìn)行完全的語(yǔ)義分析還不現(xiàn)實(shí)?;跐h語(yǔ)框架網(wǎng),對(duì)一個(gè)句子只針對(duì)一個(gè)目標(biāo)詞進(jìn)行語(yǔ)義角色標(biāo)注,并在此基礎(chǔ)上建立框架語(yǔ)義依存圖是進(jìn)行淺層語(yǔ)義分析的一種有效途徑。在框架語(yǔ)義依存圖中的框架元素中,不同的詞對(duì)理解這個(gè)語(yǔ)義角色的重要性是不同的。提取一個(gè)框架元素的語(yǔ)義核心詞對(duì)基于核心依存圖的語(yǔ)義計(jì)算具有十分重要的意義。

關(guān)于自動(dòng)提取短語(yǔ)型框架元素語(yǔ)義核心詞的研究在國(guó)內(nèi)外尚未見(jiàn)到,但是已經(jīng)有一些對(duì)短語(yǔ)中心詞和短語(yǔ)結(jié)構(gòu)等的相關(guān)研究。吳云芳在文獻(xiàn)[1]中基于中文概念詞典CCD, 提出了并列結(jié)構(gòu)中心語(yǔ)的概念,并對(duì)并列成分中心語(yǔ)的語(yǔ)義相似性進(jìn)行了定量考察。周強(qiáng)和俞士汶在文獻(xiàn)[2]中對(duì)短語(yǔ)的結(jié)構(gòu)和功能做了詳細(xì)的劃分說(shuō)明。趙軍、黃昌寧在文獻(xiàn)[3]中提出了用詞語(yǔ)潛在依存關(guān)系分析漢語(yǔ)baseNP結(jié)構(gòu)的模型。除此之外,對(duì)短語(yǔ)的研究主要集中在短語(yǔ)的自動(dòng)識(shí)別上,其中主要研究有張昱琪、周強(qiáng)應(yīng)用基于實(shí)例的MBL (Memory-Based Learning) 學(xué)習(xí)方法,對(duì)漢語(yǔ)中較常見(jiàn)的9種基本短語(yǔ)的邊界及類(lèi)別進(jìn)行識(shí)別,并利用短語(yǔ)內(nèi)部構(gòu)成結(jié)構(gòu)和詞匯信息對(duì)邊界歧義和短語(yǔ)類(lèi)型歧義進(jìn)行了排歧處理[4]。趙軍、黃昌寧從語(yǔ)言學(xué)的角度提出了漢語(yǔ)基本名詞短語(yǔ)的概念,并在此基礎(chǔ)上設(shè)計(jì)了一種基于轉(zhuǎn)換的基本名詞短語(yǔ)識(shí)別模型[5]。周雅倩、郭以昆等使用了基于最大熵的方法識(shí)別中文基本名詞短語(yǔ),在Chinese TreeBank上得到了較高的查全率和準(zhǔn)確率[6]。干俊偉、黃德根運(yùn)用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法構(gòu)造了一個(gè)介詞短語(yǔ)識(shí)別算法,準(zhǔn)確率和召回率都達(dá)到了80%以上[7]。

本文首先研究了框架元素語(yǔ)義核心詞的內(nèi)在機(jī)理,并給出了形式化的說(shuō)明。在考察了多詞塊技術(shù)在提取短語(yǔ)型框架元素核心詞上的獨(dú)特優(yōu)勢(shì)后,給出了處理多詞塊和框架元素這兩種體系的融合策略,并建立了在CFN標(biāo)注和多詞塊序列標(biāo)注的基礎(chǔ)上提取短語(yǔ)型框架元素語(yǔ)義核心詞的規(guī)則集,最后通過(guò)實(shí)驗(yàn)分析了提取效率、可行性及存在的問(wèn)題。

2 框架核心依存圖

漢語(yǔ)框架網(wǎng)(Chinese FrameNet,簡(jiǎn)稱(chēng)CFN) 由框架庫(kù),詞元庫(kù)和句子庫(kù)組成[8]。每個(gè)框架包括核心框架元素和非核心框架元素以及若干詞元[8]。CFN句子標(biāo)注,是以框架庫(kù)為基礎(chǔ),針對(duì)一個(gè)句子,確定一個(gè)詞元和該詞元所屬框架,并給框架元素所在的成分標(biāo)記框架元素、短語(yǔ)類(lèi)型和句法功能三種信息。CFN句子標(biāo)注實(shí)例如下:

例1: , /w 掉/v 了/u 。/w

tgt 是目標(biāo)詞標(biāo)記,所謂目標(biāo)詞就是所標(biāo)注的句子的框架語(yǔ)義結(jié)構(gòu)中對(duì)各框架元素起支配作用的謂詞(Predicate),它所援引(Invoke)的框架被選作標(biāo)注的目標(biāo)框架,它是在實(shí)際句子里被實(shí)現(xiàn)了的詞元。在例1中,目標(biāo)詞“換”屬于“替換”框架;reason (原因)等是框架元素標(biāo)記;np (名詞短語(yǔ))等是短語(yǔ)類(lèi)型標(biāo)記;subj (主語(yǔ))等是句法功能標(biāo)記。

框架核心依存圖(Frame Kernel Dependency Graph,F(xiàn)KDG)來(lái)源于一個(gè)句子,它是對(duì)這個(gè)句子基于一個(gè)目標(biāo)詞和依存于這個(gè)目標(biāo)詞的各個(gè)框架元素的語(yǔ)義依存關(guān)系的圖形化表示。它由目標(biāo)詞、依存于目標(biāo)詞的框架元素的語(yǔ)義核心成分組成。從給定句子中抽取的核心依存圖,可以看作是這個(gè)句子深層語(yǔ)義及其各個(gè)體現(xiàn)它的語(yǔ)義的核心成分關(guān)系的圖形化表示[9]。

框架依存圖(Frame Dependency Graph,F(xiàn)DG)是框架核心依存圖的簡(jiǎn)化。它與框架核心依存圖唯一不同的是其中的每個(gè)依存項(xiàng)是一個(gè)沒(méi)有提取語(yǔ)義核心詞的框架元素。

例1的依存圖和核心依存圖分別如圖1和圖2所示。

圖1 框架依存圖

圖2 框架核心依存圖

本文所做的工作就是要提取框架依存圖中每個(gè)框架元素的語(yǔ)義核心詞,從而把框架依存圖轉(zhuǎn)換為框架核心依存圖,為以后的基于框架核心依存圖的語(yǔ)義計(jì)算奠定基礎(chǔ)。

3 框架元素語(yǔ)義核心詞

對(duì)一個(gè)短語(yǔ)來(lái)說(shuō),無(wú)論是英語(yǔ)中的HPSG理論[10]還是漢語(yǔ)的多詞塊理論[11]都認(rèn)為語(yǔ)法上的核心詞只有一個(gè)。但我們認(rèn)為一個(gè)框架元素語(yǔ)義上的核心詞可以有一個(gè)或多個(gè)。在框架元素中,語(yǔ)義上的核心詞匯指的是通過(guò)這些詞可以理解一個(gè)框架元素所承擔(dān)的語(yǔ)義角色的內(nèi)容,并且沒(méi)有冗余詞匯。換句話說(shuō),一個(gè)框架元素中的詞匯可以分成兩部分:一部分是核心詞匯,這些詞匯對(duì)理解這個(gè)框架元素的語(yǔ)義是必要的;另一部分是修飾核心詞匯的詞語(yǔ)以及各種功能詞,如:嘆詞、語(yǔ)氣詞、助詞、標(biāo)點(diǎn)符號(hào)等。

3.1 框架元素和短語(yǔ)的關(guān)系

框架元素本質(zhì)上是語(yǔ)義塊。語(yǔ)義塊是與激起它的謂詞聯(lián)系在一起的,在一個(gè)句子中,語(yǔ)義塊更多的是為了對(duì)外顯示一種語(yǔ)義功能。而短語(yǔ)是一種自完備結(jié)構(gòu),也就是說(shuō),短語(yǔ)是根據(jù)其語(yǔ)法結(jié)構(gòu)的內(nèi)聚性定義的,它更注重內(nèi)在詞語(yǔ)之間的語(yǔ)法合理性;而框架元素是根據(jù)其語(yǔ)義功能定義的,它更在意對(duì)句子中其他成分的功能性影響。

一個(gè)框架元素一般由一個(gè)或多個(gè)短語(yǔ)構(gòu)成,框架元素也可以是一個(gè)句子。從形式上講,無(wú)論簡(jiǎn)單類(lèi)型的短語(yǔ)還是復(fù)合類(lèi)型的短語(yǔ)都可以充當(dāng)框架元素,甚至不在短語(yǔ)范圍內(nèi)的句子也能充當(dāng)框架元素。但是一般不會(huì)有一個(gè)框架元素是一個(gè)簡(jiǎn)單類(lèi)型短語(yǔ)的一部分,除非是省略的情況。例如:我的她不喜歡。這個(gè)句子是有歧義的,如果按 我的/她不喜歡,即:她不喜歡我的。在這個(gè)意思下,“我的”充當(dāng)了一個(gè)框架元素,即語(yǔ)義塊,形式上是一個(gè)形容詞短語(yǔ)充當(dāng)了一個(gè)實(shí)在的語(yǔ)義,但事實(shí)上是省略了“我的”后面的中心語(yǔ)。

3.2 框架元素語(yǔ)義核心詞

為了更好的闡明框架語(yǔ)義核心詞,我們先按語(yǔ)義功能把框架元素分為如下三類(lèi)。

(1) 體詞性框架元素。這些框架元素一般以句子中的名詞、時(shí)間詞、處所詞和量詞為中心,分別描述“實(shí)體”、“時(shí)間”、“空間”和“數(shù)量”等基本信息單元[11]。這樣,體詞性框架元素可進(jìn)一步細(xì)分為名詞性框架元素,時(shí)間性框架元素,空間性框架元素和數(shù)量性框架元素。

(2) 修飾性框架元素。主要包括形容詞性框架元素、副詞性框架元素和介詞性框架元素。這些短語(yǔ)主要描述事物的形態(tài)性質(zhì)以及謂語(yǔ)的狀態(tài)、程度和方式等。

(3) 謂詞性框架元素。主要包括動(dòng)詞性框架元素和形容詞性框架元素。這些短語(yǔ)一般以句子中的動(dòng)詞、形容詞和狀態(tài)詞為中心,分別描述“動(dòng)作”、“狀態(tài)”等基本信息單元。

按結(jié)構(gòu)劃分,框架元素語(yǔ)義核心詞可形式化說(shuō)明如下:

(1) 并列模式。包括并列體詞性框架元素、并列修飾性框架元素和連謂結(jié)構(gòu)框架元素。并列模式的框架元素語(yǔ)義核心詞是它對(duì)應(yīng)的短語(yǔ)中除虛詞之外的每一個(gè)并列詞語(yǔ)。

(2) 偏正模式。包括體詞性框架元素中的偏正結(jié)構(gòu),如“美麗的花朵”;修飾性和謂詞性框架元素中的狀中結(jié)構(gòu)和述補(bǔ)結(jié)構(gòu)如“好得很”;體詞性和修飾性框架元素中的附加結(jié)構(gòu),如“同志們”。偏正模式的框架元素的語(yǔ)義核心詞是它對(duì)應(yīng)的短語(yǔ)的語(yǔ)法上的中心詞。

(3) 述賓模式。包括謂詞性框架元素中的述賓結(jié)構(gòu)、修飾性框架元素中的介賓結(jié)構(gòu)。述賓模式的框架元素的語(yǔ)義核心詞是它對(duì)應(yīng)的短語(yǔ)語(yǔ)法上的中心詞和充當(dāng)這個(gè)中心詞賓語(yǔ)的短語(yǔ)的中心詞。

(4) 框架模式。包括形如“介詞+常見(jiàn)短語(yǔ)+方位詞| 助詞”的修飾性框架元素和某些固定搭配,如“對(duì)/他/來(lái)說(shuō)”??蚣苣J降目蚣茉卣Z(yǔ)義核心詞包括右邊上的方位詞或固定搭配右邊界上的詞和中間短語(yǔ)的語(yǔ)義核心詞。如“在/水房/里”語(yǔ)義核心詞是“水房里”。

3.3 框架元素語(yǔ)義核心詞的形式化定義

由于時(shí)間短語(yǔ)tp和數(shù)量性短語(yǔ)mp代表精確的事物,所以整個(gè)短語(yǔ)都是核心詞。這樣,本文只研究np, vp, pp, sp, ap和dp這六種短語(yǔ)型框架元素語(yǔ)義核心詞的提取技術(shù)。根據(jù)3.2節(jié)給出的框架元素語(yǔ)義核心詞說(shuō)明,我們?cè)诖藢?duì)框架元素語(yǔ)義核心詞具體地形式化定義如下。

1) 由基本短語(yǔ)塊構(gòu)成的框架元素語(yǔ)義核心詞

(1) 名詞短語(yǔ)框架元素

定中結(jié)構(gòu)x+“的”+n:取“的”后面的名詞;并列結(jié)構(gòu)n+{n}* +[c]+n:除連詞外的所有名詞;c是如“和,與,同”等連詞;同位結(jié)構(gòu)n+n/r或r+m/n/r:當(dāng)名詞和代詞組合在一起時(shí),取名詞為核心詞,如果其他詞與代詞組合在一起則取代詞為核心詞;鏈?zhǔn)浇Y(jié)構(gòu)n+n+...+n:取最后一個(gè)名詞;準(zhǔn)名詞性短語(yǔ)n+“們”:只提取前面的名詞。

(2) 動(dòng)詞短語(yǔ)框架元素

述賓結(jié)構(gòu)v+x:取動(dòng)詞和后面賓語(yǔ)核心詞;述補(bǔ)結(jié)構(gòu)v+pp,v+“得”+a/v:之取動(dòng)詞;狀中結(jié)構(gòu)dp/pp/tp/sp+v:只取后面的動(dòng)詞;連動(dòng)結(jié)構(gòu)v+v:同時(shí)提取兩個(gè)動(dòng)詞;重疊式v +“了”+v/v +“一”+v:提取第一個(gè)動(dòng)詞;附加結(jié)構(gòu)v +“了、著、過(guò)”:提取其中的動(dòng)詞。

(3) 形容詞短語(yǔ)框架元素

狀中結(jié)構(gòu)d/dp+a/ap:提取后面的形容詞;述賓結(jié)構(gòu),提取前面的形容詞和后面的賓語(yǔ);并列結(jié)構(gòu)a+{a}* [+c+a]:按順序提取所有并列的形容詞;附加結(jié)構(gòu)a+“著,了,過(guò)”:提取前面的一個(gè)形容詞;重疊結(jié)構(gòu)abab:只提前面的第一個(gè)重疊成分;述補(bǔ)結(jié)構(gòu),只提取形容詞而不提取補(bǔ)語(yǔ)部分。

(4) 介詞短語(yǔ)框架元素

介詞短語(yǔ)分兩種情況:對(duì)于p+n /r和p+vp,提取介詞后面的名詞或代詞或短語(yǔ)的核心詞,對(duì)于結(jié)構(gòu)p+np+f(方位詞)/比較詞,提取方位詞和中間短語(yǔ)的核心詞。

(5) 處所短語(yǔ)框架元素

定中結(jié)構(gòu)d+f/ n+s:提取后面的方位詞或處所詞;方位結(jié)構(gòu)n /r/np+f:提取前面的名詞或代詞或名詞短語(yǔ)的核心詞和后面的方位詞。

(6) 副詞短語(yǔ)框架元素

“地”字結(jié)構(gòu)ap/mp/vp +“地”:省略“地”;狀中結(jié)構(gòu)d+d/r:提取后面的d/r;并列結(jié)構(gòu)dp+{dp}* [+c+dp]:提取連詞以外的短語(yǔ)核心詞。

2) 由復(fù)合短語(yǔ)塊構(gòu)成的框架元素語(yǔ)義核心詞

復(fù)合型短語(yǔ)的框架元素核心詞是:先以短語(yǔ)中的動(dòng)詞、介詞和某些助詞和方位詞把短語(yǔ)分割成基本短語(yǔ),然后提取每個(gè)基本短語(yǔ)的核心詞,最后按原來(lái)順序組合成整個(gè)復(fù)合型短語(yǔ)的核心詞匯。這個(gè)策略的出發(fā)點(diǎn)是:被動(dòng)詞分割開(kāi)的部分相互獨(dú)立,沒(méi)有依存和被依存的關(guān)系[12]。

對(duì)于諸如復(fù)合名詞短語(yǔ)的定中結(jié)構(gòu)xp +“的”+n/np以及并列結(jié)構(gòu)np+{np}*+c+np,比較直觀,不再討論。主要討論如下兩種情況:

(1) 連動(dòng)短語(yǔ):連謂結(jié)構(gòu)v/vp +vp以及并列結(jié)構(gòu)vp+{vp}* [+c+vp]:以其中的每個(gè)動(dòng)詞為分割點(diǎn),分成基本短語(yǔ)再運(yùn)用1)中的方法識(shí)別,最后按順序組合起來(lái)。

(2) 復(fù)合介詞短語(yǔ), p+np/sp/tp:提取介詞后面基本短語(yǔ)的核心詞;復(fù)合動(dòng)詞短語(yǔ), v+np/sp/tp:提取動(dòng)詞和后面基本短語(yǔ)的核心詞。

(3) 框式結(jié)構(gòu),p+np/sp/tp+f/s/t:分三部分,分別提取介詞p、中間短語(yǔ)的核心詞和后面的方位詞或時(shí)間詞。

其他復(fù)合類(lèi)型短語(yǔ)的分割方法與此相似,不再贅述。

4 多詞塊與框架元素

漢語(yǔ)多詞塊(MWC)[11]作為組塊體系的重要組成部分,是由兩個(gè)或兩個(gè)以上的詞語(yǔ)按照一定的關(guān)聯(lián)關(guān)系組合形成的信息描述單位。MWC是以名詞、動(dòng)詞、形容詞等實(shí)詞為中心聚合形成具有特定語(yǔ)義內(nèi)容的詞語(yǔ)序列。

MWC的主要特點(diǎn)是塊內(nèi)部的各個(gè)詞語(yǔ)按照一定的句法關(guān)系聚合到一個(gè)句法語(yǔ)義中心詞上,可以通過(guò)這個(gè)中心詞體現(xiàn)整個(gè)多詞塊的外部功能。其描述核心是以下三種基本拓?fù)浣Y(jié)構(gòu):左角中心結(jié)構(gòu)(LCC)、右角中心結(jié)構(gòu)(RCC)和鏈?zhǔn)疥P(guān)聯(lián)結(jié)構(gòu)(CHC)[11]。這三種結(jié)構(gòu)又被細(xì)化為八種關(guān)系:ZX(右角中心結(jié)構(gòu)),LN(鏈?zhǔn)疥P(guān)聯(lián)結(jié)構(gòu)),LH(并列關(guān)系CHC),PO(述賓關(guān)系LCC),SB(述補(bǔ)關(guān)系LCC),AD(附加關(guān)系LCC),JB(介賓關(guān)系LCC),CD(重疊關(guān)系)。

對(duì)于每個(gè)多詞塊使用了三個(gè)塊標(biāo)記:句法標(biāo)記、關(guān)系標(biāo)記和序列標(biāo)記組合。如:在多詞塊“[vp-AD-HI 作出/v 了/u ]”中,句法標(biāo)記是vp,關(guān)系標(biāo)記是AD,序列標(biāo)記組合是HI。vp體現(xiàn)了MWC的外部句法功能是動(dòng)詞短語(yǔ),AD體現(xiàn)了MWC的內(nèi)部詞匯關(guān)聯(lián)是附加結(jié)構(gòu),HI是序列標(biāo)記,它與塊內(nèi)每個(gè)詞建立起一一對(duì)應(yīng)的關(guān)系,能更具體、詳細(xì)地體現(xiàn)出三種重要的基本拓?fù)浣Y(jié)構(gòu)。

4.1 多詞塊與框架元素的關(guān)系

框架元素本質(zhì)上是語(yǔ)義塊,并且這些語(yǔ)義塊是與框架語(yǔ)義學(xué)和具體的框架相關(guān)的??蚣茉馗嗟念?lèi)似于周強(qiáng)提出的功能塊概念[13],但是還不完全一樣,因?yàn)榭蚣茉氐谋举|(zhì)是語(yǔ)義描述單元,而功能塊是從句法的角度定義的語(yǔ)法描述單位。框架元素和功能塊的相同之處在于都是由一個(gè)或多個(gè)多詞塊構(gòu)成的語(yǔ)言描述單元。

在CFN標(biāo)注中,框架元素的短語(yǔ)類(lèi)型是廣義的,既指由兩個(gè)或兩個(gè)以上詞語(yǔ)組成的結(jié)構(gòu),也包括由一個(gè)詞語(yǔ)構(gòu)成的句法單位。多詞塊的句法標(biāo)記也沒(méi)有嚴(yán)格的定義,它也是一種廣義上的句法結(jié)構(gòu),所以從句法標(biāo)記上講,框架元素和多詞塊是一致的。

4.2 多詞塊對(duì)提取框架元素語(yǔ)義核心成分的作用

當(dāng)一個(gè)框架元素標(biāo)注了詞性和短語(yǔ)類(lèi)型后,我們能夠知道它的整體語(yǔ)法結(jié)構(gòu)和內(nèi)部各個(gè)詞的獨(dú)立語(yǔ)言信息,但是不知道內(nèi)部各個(gè)詞之間的依存關(guān)系。多詞塊的關(guān)系標(biāo)注給出了這個(gè)短語(yǔ)結(jié)構(gòu)整體的依存特性,序列標(biāo)注具體給出了內(nèi)部各個(gè)成分在這個(gè)依存結(jié)構(gòu)中所承擔(dān)的角色[14]。要找到一個(gè)框架元素中的核心詞本質(zhì)上就是要分析這個(gè)短語(yǔ)的語(yǔ)義依存關(guān)系,同時(shí)充分考慮不同詞對(duì)理解這個(gè)短語(yǔ)語(yǔ)義的重要性,從而提取非修飾性的詞匯。

4.3 框架元素的多詞塊標(biāo)注策略

對(duì)CFN語(yǔ)料庫(kù)統(tǒng)計(jì)表明,長(zhǎng)度在1~3的框架元素占71.64%,長(zhǎng)度在1~5的占85.38%。而在清華大學(xué)的多詞塊語(yǔ)料庫(kù)中,多詞塊長(zhǎng)度為1~3的占91.87%,長(zhǎng)度為1~5的占98.47%。從上面看出,CFN中框架元素比普通的多詞塊普遍要長(zhǎng)。經(jīng)過(guò)對(duì)比分析發(fā)現(xiàn),一個(gè)框架元素可以包含一個(gè)或多個(gè)多詞塊。

為了解決一個(gè)框架元素含有多個(gè)多詞塊的標(biāo)注問(wèn)題,我們可以先對(duì)這些框架元素識(shí)別出其中的每個(gè)多詞塊,然后對(duì)每個(gè)單獨(dú)的多詞塊進(jìn)行關(guān)系標(biāo)注和序列標(biāo)注,并提取其核心詞,最后按先后順序組合起來(lái)。但是這樣會(huì)增加算法的復(fù)雜性,更重要的是,多詞塊的識(shí)別效率并不是很高,會(huì)降低整個(gè)系統(tǒng)的性能。我們采用典型邊界詞把框架元素“打散”為類(lèi)多詞塊的策略,來(lái)代替在框架元素內(nèi)部自動(dòng)識(shí)別多詞塊。具體策略是:對(duì)于復(fù)合名詞短語(yǔ)的框架元素,以“的”、并列連詞和頓號(hào)等表示并列結(jié)構(gòu)的標(biāo)點(diǎn)符號(hào)為分割,把復(fù)合短語(yǔ)型框架元素分割成簡(jiǎn)單的短語(yǔ);對(duì)于復(fù)合動(dòng)詞和介詞短語(yǔ),以動(dòng)詞和介詞為標(biāo)志分割成基本短語(yǔ)片段;對(duì)于處所短語(yǔ),以介詞和后面的方位詞為界進(jìn)行分割成基本片段。然后對(duì)分割出來(lái)的每個(gè)基本短語(yǔ)進(jìn)行多詞塊標(biāo)注。

5 基于多詞塊標(biāo)注的框架元素語(yǔ)義核心詞提取規(guī)則

下面給出以關(guān)系標(biāo)記為類(lèi)別并結(jié)合3.3節(jié)中的形式化定義,在多詞塊序列標(biāo)注基礎(chǔ)上提取不同短語(yǔ)型框架元素語(yǔ)義核心詞的規(guī)則集。

1) 一般規(guī)則

(1) ZX:包括np的定中結(jié)構(gòu),vp的狀中結(jié)構(gòu),sp的定中結(jié)構(gòu),ap的狀中結(jié)構(gòu),dp的狀中結(jié)構(gòu)。提取序列標(biāo)記中的R。

(2) LN:包括np的鏈?zhǔn)浇Y(jié)構(gòu),sp的方位結(jié)構(gòu)。提取標(biāo)記為H的詞,當(dāng)序列中無(wú)H時(shí)提取所有標(biāo)記為J的詞。

(3) LH:包括np的并列結(jié)構(gòu),np的同位結(jié)構(gòu),vp的連動(dòng)結(jié)構(gòu),ap的并列結(jié)構(gòu),dp的并列結(jié)構(gòu)。按順序提取所有標(biāo)記為J的詞。

(4) PO:包括vp的述賓結(jié)構(gòu),ap的述賓結(jié)構(gòu)。①如果有兩個(gè)或兩個(gè)以上動(dòng)詞,則以每個(gè)動(dòng)詞為界對(duì)整個(gè)短語(yǔ)對(duì)于進(jìn)行分割處理:除動(dòng)詞之外的每個(gè)成分依賴(lài)于它前面的一個(gè)動(dòng)詞,如果前面沒(méi)有動(dòng)詞則依賴(lài)于它后面的動(dòng)詞;②動(dòng)詞后面有以序列標(biāo)記I分割的O序列時(shí),只考慮I后面的O序列;③當(dāng)有兩個(gè)或兩個(gè)以上連續(xù)的O時(shí),則先識(shí)別最后一個(gè)O的詞性是否為“f/s/t/q”之一,如果是則提取最后的兩個(gè)標(biāo)記為O的詞,否則只提取最后一個(gè)標(biāo)記為O的詞;④當(dāng)沒(méi)有O時(shí),提取標(biāo)記為H和J的詞。

(5) SB:包括vp的述補(bǔ)結(jié)構(gòu),ap的述補(bǔ)結(jié)構(gòu)。提取第一個(gè)序列標(biāo)記為P的詞。

(6) AD:包括準(zhǔn)名詞性短語(yǔ),dp的“地”結(jié)構(gòu),ap的“的”結(jié)構(gòu),vp和ap的附加結(jié)構(gòu)。只提取標(biāo)記為H的詞。

(7) JB:包括pp的介賓結(jié)構(gòu)。提取規(guī)則與PO類(lèi)似,唯一不同的是介詞不進(jìn)入核心詞集內(nèi)。

(8) CD:包括vp和ap的重疊結(jié)構(gòu)。如果里面含有諸如“不,了,一”的重疊結(jié)構(gòu),提取這些詞前面的詞;否則提取除I和M的所有實(shí)詞,然后刪除里面重復(fù)的詞。

2) 不同短語(yǔ)類(lèi)型不相容的特殊規(guī)則

(1) 在任何短語(yǔ)型的序列標(biāo)記中出現(xiàn)的S都要提取,因?yàn)樗菑木涞闹髡Z(yǔ)。

(2) 對(duì)于處所短語(yǔ),如果關(guān)系標(biāo)記為ZX, 并且序列標(biāo)記為R的詞的詞性為f或s, 則提取標(biāo)記為R和R前面離R最近的且序列標(biāo)記不是I的一個(gè)詞。

(3) 對(duì)于處所短語(yǔ),如果關(guān)系標(biāo)記為L(zhǎng)N,提取序列標(biāo)記為H和K的詞。

(4) 在PO和JB中,如果標(biāo)記為I的詞是諸如“和,與,或,連同,及其”等表示并列性質(zhì)的詞,則當(dāng)作P處理,因?yàn)檫@樣就可防止在并列性質(zhì)的賓語(yǔ)中只抽取最后的并列成分。

(5) 如果附加結(jié)構(gòu)AD中沒(méi)有H, 則提取除I之外的其他成分。

6 實(shí)驗(yàn)及結(jié)果分析

6.1 實(shí)驗(yàn)方案及評(píng)價(jià)體系

本文的實(shí)驗(yàn)語(yǔ)料來(lái)自于山西大學(xué)CFN句子庫(kù)。對(duì)6 771個(gè)框架元素按2∶1分成兩部分:第一部分為規(guī)則抽取集,第二部分為規(guī)則測(cè)試集。對(duì)規(guī)則抽取集,先對(duì)每個(gè)框架元素人工標(biāo)注多詞塊的關(guān)系標(biāo)記和序列標(biāo)記,然后根據(jù)3.3節(jié)中的形式化定義總結(jié)出如第5章的規(guī)則集,并對(duì)規(guī)則進(jìn)行一致性校對(duì)。對(duì)規(guī)則測(cè)試集,先直接人工標(biāo)注語(yǔ)義核心詞,并存放在文件1中;然后對(duì)這些語(yǔ)料(未標(biāo)注核心詞)人工標(biāo)注多詞塊的關(guān)系標(biāo)記和序列標(biāo)記,并運(yùn)用從規(guī)則抽取集中總結(jié)出的規(guī)則提取語(yǔ)義核心詞,把它們存在文件2中。最后通過(guò)對(duì)比文件1和文件2中每對(duì)框架元素對(duì)應(yīng)的核心詞,從而統(tǒng)計(jì)規(guī)則集的正確率和覆蓋率。

我們采用正確率和覆蓋率來(lái)對(duì)結(jié)果進(jìn)行評(píng)測(cè)??紤]到本文的特殊性,傳統(tǒng)的正確率不能細(xì)致地對(duì)實(shí)驗(yàn)做出評(píng)價(jià),所以本文給出了一種改進(jìn)的正確率計(jì)算方法。

設(shè)一個(gè)框架元素中所有的詞組成集合M, 大小為m;它的語(yǔ)義核心詞組成集合K,大小為n;在多詞塊基礎(chǔ)上提取到的語(yǔ)義核心詞組成集合T,大小為t,其中含有集合K中的k個(gè)詞,那么規(guī)則集對(duì)這個(gè)框架元素的語(yǔ)義核心詞提取正確率為:

這個(gè)公式的直觀解釋是,正確率意味著提取到正確的核心詞的個(gè)數(shù)占全部正確的核心詞的比例,即k/n,但是在最終提取的核心詞中,雖然正確的核心詞都是k個(gè),如果提取到的錯(cuò)誤的核心詞(t-k)越大則說(shuō)明性能越不好,所以在上面的公式中加了一個(gè)懲罰,即-(t-k)/t.

有意思的是,我們發(fā)現(xiàn)這個(gè)正確率其實(shí)是傳統(tǒng)的正確率和召回率的算術(shù)平均。

其中l(wèi)為測(cè)試集中屬于該類(lèi)別的框架元素個(gè)數(shù)。

6.2 實(shí)驗(yàn)結(jié)果及分析

6.2.1 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果由表1~表3示出。

表1 不同關(guān)系標(biāo)記的短語(yǔ)型框架元素實(shí)驗(yàn)結(jié)果

表2 不同短語(yǔ)類(lèi)型的框架元素實(shí)驗(yàn)結(jié)果

表3 相同短語(yǔ)類(lèi)型的不同長(zhǎng)度實(shí)驗(yàn)結(jié)果對(duì)比

6.2.2 結(jié)果分析

從實(shí)驗(yàn)結(jié)果我們看到,名詞短語(yǔ)的框架元素和副詞及形容詞短語(yǔ)的準(zhǔn)確率比較高。其主要原因是:名詞短語(yǔ)的框架元素比較規(guī)則,從表3看出,長(zhǎng)度的影響不大;副詞和形容詞短語(yǔ)的框架元素大多數(shù)是由兩個(gè)詞構(gòu)成的,并且以附加結(jié)構(gòu)居多,從表2中看到,附加結(jié)構(gòu)的正確率也是比較高的。

動(dòng)詞和介詞短語(yǔ)框架元素,特別是長(zhǎng)度大于5的動(dòng)詞和介詞短語(yǔ)框架元素,許多含有兩個(gè)或兩個(gè)以上動(dòng)詞或介詞,并且作賓語(yǔ)的短語(yǔ)結(jié)構(gòu)較為復(fù)雜,從而降低了正確率。雖然針對(duì)這種情況,我們采取了如4.3節(jié)中所述的打散處理策略,但是由于打散過(guò)程中并不一定會(huì)分割正確;并且對(duì)框架元素進(jìn)行打散處理之后,分割出的基本短語(yǔ)的短語(yǔ)類(lèi)型識(shí)別又會(huì)造成一定的錯(cuò)誤積累。

6.2.3 錯(cuò)誤分析

在以上的四種錯(cuò)誤見(jiàn)表4中,除前面的兩種人工標(biāo)注錯(cuò)誤外,主要錯(cuò)誤來(lái)源有兩個(gè):一是本文所定的規(guī)則對(duì)某些特殊的短語(yǔ)是無(wú)效的,即雖然有所考慮到了,但是對(duì)這些特殊情況不能完全適用。這種情況主要來(lái)自于動(dòng)詞和介詞短語(yǔ)框架元素。第二是一些特殊的語(yǔ)言現(xiàn)象沒(méi)考慮到,從而造成的規(guī)則缺失。例如:類(lèi)似于“np-obj-ZX-MJIMJMMR 公益/n 林業(yè)/n 和/c 商品/n 林業(yè)/n 兩/m 大/a 類(lèi)/n ”的框架元素,如果按ZX的規(guī)則,則核心詞為標(biāo)記為R的“類(lèi)”,但事實(shí)上語(yǔ)義上的核心應(yīng)該為標(biāo)記J的“林業(yè)”。所以諸如“……類(lèi)”、“……方面”等偏正結(jié)構(gòu)的名詞性短語(yǔ),提取的是“類(lèi)”、“方面”等詞前面成分的核心詞。

表4 錯(cuò)誤分類(lèi)統(tǒng)計(jì)

7 結(jié)語(yǔ)

本文立足于框架核心依存圖,在研究了短語(yǔ)型框架元素的結(jié)構(gòu)及其語(yǔ)義核心詞的基礎(chǔ)上,利用多詞塊標(biāo)注體系對(duì)短語(yǔ)型框架元素人工進(jìn)行序列標(biāo)注和關(guān)系標(biāo)注,從而建立了一套根據(jù)短語(yǔ)的多詞塊序列標(biāo)注提取框架元素核心詞的規(guī)則體系。最后通過(guò)實(shí)驗(yàn)初步驗(yàn)證了通過(guò)多詞塊標(biāo)注提取短語(yǔ)核心詞的可行性和有效性。

根據(jù)本文中出現(xiàn)的問(wèn)題,下一步將重點(diǎn)展開(kāi)以下方面的研究:一是如果對(duì)多詞進(jìn)行自動(dòng)標(biāo)注,然后提取框架元素核心詞,效果會(huì)如何。二是根據(jù)一些特殊的長(zhǎng)短語(yǔ),探索它們的打散處理策略,以期制定出更加有效的復(fù)合短語(yǔ)框架元素的分割方法。三是研究怎樣讓機(jī)器自動(dòng)地從多詞塊標(biāo)注的基礎(chǔ)上學(xué)習(xí)到本文所給出的規(guī)則集及其擴(kuò)展集, 從而實(shí)現(xiàn)框架元素的自動(dòng)識(shí)別,克服規(guī)則缺失問(wèn)題。由于框架元素的語(yǔ)義角色和句法功能對(duì)核心詞提取應(yīng)該有一定的啟示作用,所以最后將嘗試避開(kāi)多詞塊標(biāo)注,運(yùn)用CRF模型直接進(jìn)行短語(yǔ)型框架元素核心詞自動(dòng)識(shí)別的研究。

[1] 吳云芳. 并列成分中心語(yǔ)語(yǔ)義相似性考察[J]. 當(dāng)代語(yǔ)言學(xué), 2005, 7(4):305-315.

[2] 周強(qiáng), 俞士汶. 漢語(yǔ)短語(yǔ)標(biāo)注標(biāo)記集的確定[J]. 中文信息學(xué)報(bào), 1996, 10(4):1-11.

[3] 趙軍, 黃昌寧. 漢語(yǔ)基本名詞短語(yǔ)結(jié)構(gòu)分析模型[J]. 計(jì)算機(jī)學(xué)報(bào), 1999, 22(2):141-146.

[4] 張昱琪, 周強(qiáng). 漢語(yǔ)基本短語(yǔ)的自動(dòng)識(shí)別[J]. 中文信息學(xué)報(bào),2002,16(6):1-8.

[5] 趙軍, 黃昌寧. 基于轉(zhuǎn)換的漢語(yǔ)基本名詞短語(yǔ)識(shí)別模型[J]. 中文信息學(xué)報(bào), 1998, 12(2):1- 8.

[6] 周雅倩, 郭以昆, 黃萱菁, 吳立德. 基于最大熵方法的中英文基本名詞短語(yǔ)識(shí)別[J]. 計(jì)算機(jī)研究與發(fā)展, 2003, 40(3):440-446.

[7] 干俊偉, 黃德根. 漢語(yǔ)介詞短語(yǔ)的自動(dòng)識(shí)別[J]. 中文信息學(xué)報(bào), 2005, 19(4):17-23.

[8] 郝曉燕, 劉偉, 李茹, 劉開(kāi)瑛. 漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)及軟件描述體系[J]. 中文信息學(xué)報(bào), 2007, 21(5):96-100.

[9] Charles J. Fillmore, Josef Ruppenhofer, Collin F. 框架網(wǎng)絡(luò)與語(yǔ)義、句法聯(lián)系的表征[M].俞士汶, 黃居仁. 計(jì)算語(yǔ)言學(xué)前瞻. 北京:商務(wù)印書(shū)館,2005: 21-74.

[10] Carl Pollard and Ivan A. Sag. Head-Driven Phrase Structure Grammar[M]. Chicago: University of Chicago Press, 1994.

[11] 周強(qiáng). 漢語(yǔ)基本塊描述體系[J]. 中文信息學(xué)報(bào), 2007, 21(3): 21-27.

[12] 劉海濤. 依存語(yǔ)法和機(jī)器翻譯[J]. 語(yǔ)言文字應(yīng)用,1997, 3:89-93.

[13] 周強(qiáng),趙穎澤. 漢語(yǔ)功能塊自動(dòng)分析[J]. 中文信息學(xué)報(bào), 2007, 21(5):18-24.

[14] 黨政法, 周強(qiáng). 短語(yǔ)樹(shù)到依存樹(shù)的自動(dòng)轉(zhuǎn)換研究[J]. 中文信息學(xué)報(bào), 2005, 19(3):21-27.

猜你喜歡
詞塊介詞短語(yǔ)
介詞和介詞短語(yǔ)
介詞不能這樣用
詞塊在英語(yǔ)寫(xiě)作教學(xué)中的應(yīng)用
英語(yǔ)專(zhuān)業(yè)學(xué)生與本族語(yǔ)名人演講中詞塊使用特點(diǎn)探究
高中英語(yǔ)詞塊教學(xué)現(xiàn)狀調(diào)查研究及應(yīng)用策略分析
《健民短語(yǔ)》一則
詞塊在初中英語(yǔ)寫(xiě)作教學(xué)中的應(yīng)用研究
看圖填寫(xiě)介詞
河池市| 张家港市| 桐城市| 赤峰市| 平定县| 隆尧县| 惠水县| 郎溪县| 静乐县| 达孜县| 通州市| 榆中县| 濮阳县| 三亚市| 石家庄市| 三门峡市| 桂林市| 运城市| 吉安市| 通许县| 宜良县| 宜阳县| 内黄县| 温州市| 南涧| 类乌齐县| 荥经县| 临桂县| 武冈市| 大悟县| 体育| 烟台市| 黔南| 许昌县| 恭城| 孝昌县| 罗甸县| 乌鲁木齐县| 沾化县| 武城县| 从化市|