国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于規(guī)則和分類模型的核心目標(biāo)詞識別研究

2016-12-15 07:58:33張立凡
關(guān)鍵詞:例句語料語義

張立凡

(太原工業(yè)學(xué)院 計(jì)算機(jī)工程系,山西 太原 030008)

?

基于規(guī)則和分類模型的核心目標(biāo)詞識別研究

張立凡

(太原工業(yè)學(xué)院 計(jì)算機(jī)工程系,山西 太原 030008)

核心目標(biāo)詞識別是對一條待測句子,識別出句子中能夠激起核心語義場景的目標(biāo)詞.文章把核心目標(biāo)詞識別任務(wù)分成基于規(guī)則過濾識別階段和基于分類模型識別階段.利用預(yù)先構(gòu)建的詞元表對待測句子中的詞進(jìn)行篩選,識別出候選目標(biāo)詞,使用基于分類模型的識別方法,構(gòu)建分類特征模板,最終確定句子的核心目標(biāo)詞.文章在漢語框架網(wǎng)的標(biāo)注語料集上進(jìn)行測試,實(shí)驗(yàn)結(jié)果表明,相比于基于規(guī)則過濾識別階段,基于分類模型識別階段識別率有顯著地提升.

框架語義分析;核心目標(biāo)詞識別;分類模型;漢語框架網(wǎng);規(guī)則過濾

0 引言

漢語框架語義分析[1]以框架語義學(xué)[2]為理論基礎(chǔ),借助漢語框架網(wǎng)[3]的標(biāo)注資源,識別句子中的目標(biāo)詞,選擇目標(biāo)詞所激起的框架,標(biāo)注框架的語義角色,構(gòu)建框架語義依存圖,達(dá)到對句子的語義分析.漢語框架語義分析的研究包括目標(biāo)詞識別、目標(biāo)詞所激起框架選擇和框架元素標(biāo)注3個(gè)子任務(wù).

目前,與目標(biāo)詞識別任務(wù)相關(guān)的研究,主要有目標(biāo)詞擴(kuò)展和目標(biāo)詞識別兩方面的工作.針對目標(biāo)詞擴(kuò)展,Jahansson[4]與Das等[5]認(rèn)為待識別的目標(biāo)詞包含在例句和訓(xùn)練集詞表中,利用規(guī)則篩選目標(biāo)詞.文獻(xiàn)分別利用WordNet 和SIM[6]詞典,識別和收集語義近似的目標(biāo)詞,實(shí)現(xiàn)目標(biāo)詞的擴(kuò)展.針對目標(biāo)詞識別,文獻(xiàn)[7]使用基于規(guī)則的目標(biāo)詞過濾方法進(jìn)行判定,若判定為非目標(biāo)詞,利用基于監(jiān)督學(xué)習(xí)的方法予以修正.文獻(xiàn)[8]利用分類模型,在特征模板中加入同義詞詞林編碼信息來識別句子中的核心目標(biāo)詞,但同義詞詞林信息的加入會(huì)導(dǎo)致識別性能下降.現(xiàn)有的研究,大多是將句子中的所有目標(biāo)詞識別出來,而沒有進(jìn)一步地分析和識別句子中的核心目標(biāo)詞,這樣不利于框架語義依存圖的構(gòu)建.

在上述研究的基礎(chǔ)上,針對只包含一個(gè)核心目標(biāo)詞的句子,本文將核心目標(biāo)詞識別任務(wù)分為兩個(gè)階段,利用預(yù)先構(gòu)建好的詞元表,篩選出句子中的所有目標(biāo)詞,并使用規(guī)則擴(kuò)充候選目標(biāo)詞表,在分析詞法特征、上下文特征和依存特征的基礎(chǔ)上,構(gòu)建特征模板,結(jié)合分類模型識別出句子中的核心目標(biāo)詞.

1 相關(guān)概念及問題形式化描述

1.1 相關(guān)概念

概念1 漢語框架網(wǎng)[3]

漢語框架網(wǎng)(Chinese FrameNet,CFN)是以Charles J.Fillmore的框架語義學(xué)為理論基礎(chǔ),參照加州大學(xué)伯克利分校的FrameNet工程,構(gòu)建的以漢語真實(shí)語料為依據(jù),可供計(jì)算機(jī)使用的漢語詞匯語義知識庫.漢語框架網(wǎng)由框架庫、句子庫和詞元庫三部分組成.詞元庫記錄詞元的語義搭配模式和框架元素的句法實(shí)現(xiàn)方式.

概念2 框架[9]

框架是指與一些激活性語境相一致的結(jié)構(gòu)化范疇系統(tǒng),它是儲存在人類認(rèn)知經(jīng)驗(yàn)中的圖式化情境,是理解詞語的背景和動(dòng)因.

概念3 詞元

在框架語義學(xué)中,詞通常被稱作為詞元.

概念4 核心目標(biāo)詞[8]

當(dāng)詞元在句子中能夠激起語義場景時(shí),被稱為目標(biāo)詞.在一條包含多個(gè)目標(biāo)詞的句子中,如果某個(gè)目標(biāo)詞激起的框架及其在句中所支配的框架元素依存項(xiàng)相比其他框架更能完整表達(dá)該句的核心語義,該目標(biāo)詞即為核心目標(biāo)詞.

在圖1中,給出了例句“根據(jù)周恩來的指示,賀龍等繞道香港去上海尋找黨中央.”的框架語義標(biāo)注.在例句中,“去”和“尋找”都是目標(biāo)詞,而“尋找”是核心目標(biāo)詞.

圖1 例句“根據(jù)周恩來的指示,賀龍等繞道香港去上海尋找黨中央”的框架語義標(biāo)注

1.2 問題形式化描述

則核心目標(biāo)詞識別任務(wù),可形式化地描述為:

2 目標(biāo)詞識別

圖2 核心目標(biāo)詞識別系統(tǒng)框架圖

針對核心目標(biāo)詞識別任務(wù),本文分解成兩個(gè)階段進(jìn)行識別,分別是基于規(guī)則的目標(biāo)詞過濾和基于分類模型的目標(biāo)詞識別,具體的框架流程見圖2.基于規(guī)則的目標(biāo)詞過濾階段主要的工作是詞元表的構(gòu)造和句子的預(yù)處理.其中,詞元表是從漢語框架網(wǎng)的詞元庫先抽取出來的.句子預(yù)處理主要是對例句庫中的句子進(jìn)行分詞和詞性標(biāo)注.對于一條待分析的例句,經(jīng)句子預(yù)處理的處理,結(jié)合詞元表,會(huì)初步構(gòu)成一個(gè)候選目標(biāo)詞詞表.基于分類模型的目標(biāo)詞識別階段,主要處理的是在候選目標(biāo)詞詞表中多個(gè)目標(biāo)詞的句子.經(jīng)過這一階段的處理后,能夠識別出句子中有多個(gè)目標(biāo)詞句子的核心目標(biāo)詞.

2.1 基于規(guī)則的核心目標(biāo)詞識別

本文提出的基于規(guī)則的核心目標(biāo)詞識別方法,假設(shè)目標(biāo)詞必須出現(xiàn)在預(yù)先構(gòu)建的詞元表中.在詞元表中每個(gè)詞元由詞元的詞形和詞性構(gòu)成.對例句庫中的例句分詞后,發(fā)現(xiàn)有些目標(biāo)詞分詞后,會(huì)將詞拆分開,不利于后續(xù)目標(biāo)詞的識別.本文在對例句預(yù)處理后結(jié)果的分析和總結(jié)基礎(chǔ)上,制定了目標(biāo)詞識別規(guī)則,詳見表1.通過規(guī)則的過濾,不僅減少了因分詞錯(cuò)誤對目標(biāo)詞識別性能的影響,也縮減了目標(biāo)詞識別的范圍.

2.2 基于分類模型的核心目標(biāo)詞識別

基于分類模型的核心目標(biāo)詞識別是在規(guī)則過濾的基礎(chǔ)來進(jìn)行的,這一階段是對候選目標(biāo)詞表中的目標(biāo)詞識別.本文將核心目標(biāo)詞識別任務(wù)看作是一個(gè)二分類問題,即判斷候選目標(biāo)詞表中的詞是否是待測句子的

表1 規(guī)則表

核心目標(biāo)詞.分類模型選擇常用的分類模型最大熵模型.

針對目標(biāo)詞識別任務(wù),本文抽取待測句子的詞法特征、上下文特征和依存特征.詞法特征是為了分析句子詞法層面對目標(biāo)詞識別的影響,抽取的是當(dāng)前詞(目標(biāo)詞)的詞性、詞.上下文特征主要考察的是目標(biāo)詞的搭配,通過開窗口的技術(shù),分析目標(biāo)詞的識別和哪些范圍的詞存在搭配關(guān)系.依存特征是利用哈工大的依存句法分析器的分析結(jié)果進(jìn)行抽取,抽取與目標(biāo)詞相關(guān)聯(lián)的父節(jié)點(diǎn)依存成分(依存關(guān)系、詞性和詞形)和子節(jié)點(diǎn)依存成分(依存關(guān)系、詞性和詞形),以圖1的例句“20年后,他回到了出生時(shí)的老家.”使用依存句法分析后的結(jié)果如圖3.根據(jù)上述的三類特征,詳細(xì)的特征描述見表2.

表2 分類特征描述

圖3 依存句法分析結(jié)果

為了詳細(xì)地描述各類特征的抽取,以圖1例句為例闡述.在抽取的過程中,若某些特征不存在,則將其設(shè)置為“NULL”.由于在依存句法結(jié)構(gòu)中,每個(gè)節(jié)點(diǎn)只有一個(gè)父節(jié)點(diǎn),但可以有多個(gè)子節(jié)點(diǎn)且不確定,本文假設(shè)一個(gè)節(jié)點(diǎn)最多有3個(gè)子節(jié)點(diǎn),節(jié)點(diǎn)抽取的順序是按照在句子中出現(xiàn)的先后位置抽取的.對于目標(biāo)詞“尋找”,其詞法特征、上下文特征和依存特征分別為:

·詞法特征 尋找v

·上下文特征 假設(shè)k=1,則窗口大小為[-1,1],其上下文特征為: 上海ns黨中央ni

·依存特征 目標(biāo)詞父節(jié)點(diǎn)的依存關(guān)系:COO目標(biāo)詞子節(jié)點(diǎn)的依存關(guān)系:VOB NULL NULL目標(biāo)詞父節(jié)點(diǎn)的詞形:去目標(biāo)詞父節(jié)點(diǎn)的詞性:NULL目標(biāo)詞子節(jié)點(diǎn)的詞形:黨中央NULL NULL目標(biāo)詞子節(jié)點(diǎn)的詞性:ni NULL NULL

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)語料和評價(jià)指標(biāo)

實(shí)驗(yàn)語料來源于漢語框架網(wǎng)中的例句庫.本文選取漢語框架網(wǎng)例句庫中30個(gè)常用框架的例句進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)語料的統(tǒng)計(jì)如表3.

表3 實(shí)驗(yàn)語料統(tǒng)計(jì)

本文采用準(zhǔn)確率P(Precision)、召回率R(Recall)和F值(F1-Measure)評價(jià)目標(biāo)詞的識別性能.為了避免實(shí)驗(yàn)過程中由語料規(guī)模小引起的過擬合問題,采用3折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn).

(1)

(2)

(3)

(4)

其中,在公式(1)和公式(2)中A表示正確識別的核心目標(biāo)詞個(gè)數(shù),B表示識別到的所有核心目標(biāo)詞個(gè)數(shù),C表示實(shí)驗(yàn)的句子總數(shù).在公式(4)中,Pi表示使用第i份語料得到的準(zhǔn)確率,由于基于分類模型的核心目標(biāo)詞識別實(shí)驗(yàn)中,采用3折交叉驗(yàn)證.

3.2 基于規(guī)則的核心目標(biāo)詞識別結(jié)果與分析

不同的框架其語義搭配模式也不同,為了考察規(guī)則對核心目標(biāo)詞的影響,本文對語料集中的30個(gè)框架,分別用準(zhǔn)確率、召回率和F值來評價(jià)規(guī)則對識別性別的影響,具體的實(shí)驗(yàn)結(jié)果見表4.

從表4中可以看出,每個(gè)框架的準(zhǔn)確率都在30%以下,召回率集中在80%以上,F值在30%左右,總體的平均準(zhǔn)確率為19.75%,平均召回率為81.89%,平均F值為31.64%,呈現(xiàn)出低準(zhǔn)確率和高召回率的現(xiàn)象.通過對結(jié)果進(jìn)行分析后發(fā)現(xiàn):

1)實(shí)驗(yàn)語料集中,大多數(shù)的句子都包含多個(gè)目標(biāo)詞.一個(gè)句子中,核心目標(biāo)詞只有一個(gè),經(jīng)過過濾規(guī)則后,核心目標(biāo)詞和非核心目標(biāo)詞都會(huì)被識別出來,從而非核心目標(biāo)詞多于核心目標(biāo)詞,使得核心目標(biāo)詞識別的準(zhǔn)確率低.

2)實(shí)驗(yàn)語料集中的句子都來自于例句庫,理論上,其召回率應(yīng)該在100%.在表4中,“值得”和“指望”框架例句的識別率卻低于50%中.其原因是,包含這兩個(gè)框架的句子在分詞和詞性標(biāo)注上存在問題,表1中設(shè)計(jì)的12條規(guī)則并未覆蓋到這兩個(gè)框架.

3.3 基于分類模型的核心目標(biāo)詞識別結(jié)果與分析

本文使用哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心的語言處理集成平臺LTP[10]對語料進(jìn)行預(yù)處理.結(jié)合表1中特征,設(shè)計(jì)了6個(gè)特征模板.具體的特征模板及組合如表5.

表4 基于規(guī)則的核心目標(biāo)詞識別結(jié)果

表5 特征模板描述

為了驗(yàn)證窗口大小和最大熵模型的迭代次數(shù)對核心目標(biāo)詞識別性能的影響,使用表5中的T1模板,窗口大小分別設(shè)置為[-1,1],[-2,2]和[-3,3],迭代次數(shù)設(shè)置范圍為[50,500],相鄰迭代次數(shù)相差50,并與工具包中的默認(rèn)參數(shù)30做對比.具體的結(jié)果,如圖4所示.

圖4 迭代次數(shù)和窗口大小的散點(diǎn)圖

從圖4中可以看出,窗口大小為[-1,1]的時(shí)候識別性能最好,且迭代次數(shù)為100的時(shí)候,實(shí)驗(yàn)結(jié)果基本趨于穩(wěn)定.因此,在后續(xù)的實(shí)驗(yàn)中,窗口大小設(shè)定為[-1,1],最大熵模型的迭代次數(shù)設(shè)定為100.

本節(jié)實(shí)驗(yàn)用張樂的最大熵工具包和表5中的特征模板進(jìn)行核心目標(biāo)詞識別.為了避免特征稀疏,本節(jié)實(shí)驗(yàn)的語料集是將30個(gè)框架的例句合并在一起實(shí)驗(yàn),并將實(shí)驗(yàn)語料集分為3份,進(jìn)行交叉驗(yàn)證.使用分類模型識別的核心目標(biāo)詞只有一個(gè),因而,公式(1)中的B值和公式(2)中C的值相等,即準(zhǔn)確率、召回率和F值相等.此外,實(shí)驗(yàn)采用3折交叉驗(yàn)證,故實(shí)驗(yàn)結(jié)果用公式(3)來衡量.實(shí)驗(yàn)結(jié)果見表6.

表6 基于分類模型的核心目標(biāo)詞識別結(jié)果

綜合表4,表6和圖4,可以得出如下結(jié)論:

1)經(jīng)過規(guī)則過濾后,可以快速地將核心目標(biāo)詞鎖定,并縮減了核心目標(biāo)詞的識別范圍.但對核心目標(biāo)詞的確定,僅靠規(guī)則還很困難.

2)窗口大小為[-1,1]時(shí),核心目標(biāo)詞的識別性能最佳.可見,目標(biāo)詞的確定與其緊鄰的上下文密切相關(guān),遠(yuǎn)距離的特征會(huì)加入噪音信息,使得識別性能下降.

3)依存特征的加入并未提升核心目標(biāo)詞識別性能的,反而稍有下降.對實(shí)驗(yàn)結(jié)果分析后,發(fā)現(xiàn)是因?yàn)楹芏嗪诵哪繕?biāo)詞在依存句法中充當(dāng)謂詞的角色,其父節(jié)點(diǎn)的詞形、詞性值為NULL,造成依存特征稀疏.

4)在5組有關(guān)依存特征的實(shí)驗(yàn)中,T4相對最佳,說明核心目標(biāo)詞與其父節(jié)點(diǎn)和子節(jié)點(diǎn)的依存關(guān)系有緊密的聯(lián)系.

5)相比于基于規(guī)則過濾的方法,基于分類模型的方法,在準(zhǔn)確率、召回率和F值都有顯著地提升.

4 總結(jié)

針對框架語義分析中的目標(biāo)詞識別任務(wù),主要研究核心目標(biāo)詞的識別,本文將其分為規(guī)則過濾和分類模型識別兩個(gè)階段.在規(guī)則過濾階段,使用詞元表和規(guī)則縮減目標(biāo)詞的識別范圍.在分類模型識別階段,使用詞法特征、上下文特征和依存特征構(gòu)造不同的模板結(jié)合最大熵分類模型,分析影響核心目標(biāo)詞識別的因素.基于規(guī)則過濾的識別方法縮減了目標(biāo)詞的識別范圍,能夠快速地找出目標(biāo)詞.對于基于規(guī)則過濾階段一個(gè)句子中多個(gè)目標(biāo)詞的情況,基于分類模型的識別方法可以有效地提升識別的準(zhǔn)確率.

由于數(shù)據(jù)規(guī)模相對較小和規(guī)則總結(jié)的不全面,導(dǎo)致依存特征在基于分類模型的識別方法中效果并不佳.在以后的工作中,將不斷地?cái)U(kuò)充質(zhì)量較高的語料,改善數(shù)據(jù)稀疏,豐富例句庫.同時(shí),將嘗試加入語義特征,提升核心目標(biāo)詞識別的性能.

[1] 李 茹.漢語句子框架語義結(jié)構(gòu)分析技術(shù)研究[D].太原:山西大學(xué),2012

[2] Fillmore C.Frame semantics[J].Linguistics in the morning calm,1982:111-137

[3] 劉開瑛.漢語框架語義網(wǎng)構(gòu)建及其應(yīng)用技術(shù)研究[J].中文信息學(xué)報(bào),2011(25):46-53

[4] RICHARD Johansson,PIERRE Nugues.LTH:semantic structure extraction using nonprojective dependency trees[C]//Proceedings of the 4th International Workshop on Semantic Evaluation.Stroudsburg:Association for Computational Linguistics,2007:227-230

[5] DIPANJAN Das,NATHAN Schneider,DESAI Chen,et al.Probabilistic frame-semantic parsing[C]//Human language technologies:the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg:Association for Computational Linguistics,2010:948-956

[6] LIN Dekang.Automatic retrieval and clustering of similar words[C]//Proceedings of the 17th international conference on Computational Linguistics-Volume2. Stroudsburg:Association for Computational Linguistics,1998:768-774

[7] 陳亞東,洪 宇,楊雪蓉,等.面向框架語義分析的目標(biāo)詞自動(dòng)識別方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2015(7):45-53

[8] 石 佼,李 茹,王智強(qiáng).漢語核心框架語義分析[J].中文信息學(xué)報(bào),2014(6):48-55

[9] 郝曉燕,劉 偉,李 茹,等.漢語框架語義知識庫及軟件描述體系[J].中文信息學(xué)報(bào),2007,21(5):96-100

[10] Che W,Li Z,Liu T.Ltp:A Chinese language technology platform[C]//Proceedings of the 23rd international conference on Computational Linguistics: Demonstrations.Association for Computational Linguistics,2010:13-16

Core Target Words Identification Based on Rules and Classification

ZHANG Lifan

(School of Computer Engineer,Taiyuan Institute of Technology, Taiyuan 030008, China)

For a testing sentence, core target word identification is identified the target word which can evoke core semantics scene. It is divided core target word identification into rules filter and classification. It uses pre-built lemmas table to sift the words in a sentence, identifies the candidate target words, combines the classification model and feature templates, and finally determines the core target word. Testing on Chinese frame network, the results show that the classification has been increased significantly against rules filter.

frame semantics; core target words identification; classification; chinese framenet; rules filter

2016-08-06

張立凡(1987-),女,山西忻州人,碩士,太原工業(yè)學(xué)院助教,主要從事人工智能研究.

1672-2027(2016)03-0032-07

TP391

A

猜你喜歡
例句語料語義
語言與語義
英聲細(xì)語
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
好詞好句
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
好詞好句
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
好詞好句
認(rèn)知范疇模糊與語義模糊
《苗防備覽》中的湘西語料
伽师县| 大冶市| 韩城市| 嵊泗县| 准格尔旗| 深泽县| 昂仁县| 柘城县| 锡林郭勒盟| 盐山县| 永兴县| 澄城县| 花莲市| 句容市| 韩城市| 旬阳县| 桐庐县| 彭山县| 昂仁县| 册亨县| 西安市| 孟村| 嘉义市| 台南市| 迭部县| 揭西县| 新宁县| 苏州市| 巴彦县| 麦盖提县| 宜州市| 屯留县| 新龙县| 丹阳市| 吴旗县| 黄山市| 酉阳| 临沭县| 武宣县| 合川市| 丁青县|