基于多模型融合的漢語(yǔ)介詞短語(yǔ)識(shí)別

2017-03-12 08:48黃德根

中文信息學(xué)報(bào) 2017年6期

劉彤，黃德根，張聰

(大連理工大學(xué) 計(jì)算機(jī)學(xué)院，遼寧大連 116024)

0 引言

介詞短語(yǔ)(preposition phrase，PP)作為一種重要的短語(yǔ)類型，在漢語(yǔ)中占有很大的比例。文獻(xiàn)[1]曾對(duì)包含十萬(wàn)字、六萬(wàn)詞的語(yǔ)料所包含的介詞短語(yǔ)的句子進(jìn)行過(guò)統(tǒng)計(jì)分析，結(jié)果表明，科技類文章含有介詞短語(yǔ)的句子占57%，而政論類文章包含介詞短語(yǔ)的句子占63%。介詞短語(yǔ)大多作為句子狀語(yǔ)和補(bǔ)語(yǔ)，正確識(shí)別介詞短語(yǔ)能夠提高句子結(jié)構(gòu)的清晰度，降低句子的復(fù)雜度，為下一步句法分析提供有效信息。提升介詞短語(yǔ)的識(shí)別精度對(duì)于信息檢索及文本分類效果都有較大提升，對(duì)于淺層句法分析、機(jī)器翻譯等研究具有極其重要的意義。

現(xiàn)有的介詞短語(yǔ)識(shí)別研究主要集中在介詞短語(yǔ)學(xué)習(xí)模型的選擇和介詞短語(yǔ)的層次關(guān)系分析兩方面。在學(xué)習(xí)模型的選擇方面，文獻(xiàn)[2]提出了一種結(jié)合可信搭配關(guān)系和三元邊界統(tǒng)計(jì)模型的識(shí)別方法，根據(jù)固定搭配制定兩個(gè)搭配模板，利用模板獲取可信搭配關(guān)系，根據(jù)其識(shí)別介詞短語(yǔ)，結(jié)合三元模型和規(guī)則識(shí)別剩余的介詞短語(yǔ)；文獻(xiàn)[3]提出了基于最大熵模型的識(shí)別方法，首先對(duì)介詞短語(yǔ)抽取標(biāo)記介詞短語(yǔ)的特征，然后利用最大熵模型識(shí)別語(yǔ)料中的介詞短語(yǔ)，最后利用依存樹(shù)庫(kù)中的介詞短語(yǔ)邊界詞的語(yǔ)法知識(shí)對(duì)識(shí)別結(jié)果進(jìn)行校正；文獻(xiàn)[4]提出了基于HMM模型的識(shí)別方法，先利用HMM模型識(shí)別語(yǔ)料中的介詞短語(yǔ)，然后利用依存語(yǔ)法對(duì)識(shí)別結(jié)果進(jìn)行校正。

在層次關(guān)系方面，文獻(xiàn)[5]提出了基于雙層CRF模型的識(shí)別方法，針對(duì)介詞短語(yǔ)的特點(diǎn)選擇雙層CRF模型進(jìn)行識(shí)別，并制定規(guī)則對(duì)結(jié)果進(jìn)行校正；文獻(xiàn)[6]在文獻(xiàn)[5]基礎(chǔ)上提出了基于多層CRF模型的介詞短語(yǔ)識(shí)別方法，通過(guò)CRF模型利用多個(gè)有效特征及復(fù)合特征模板從后向前逐個(gè)識(shí)別語(yǔ)料中的介詞短語(yǔ)，然后利用基于轉(zhuǎn)換的驅(qū)動(dòng)學(xué)習(xí)方法制定了規(guī)則轉(zhuǎn)換集，并用其對(duì)識(shí)別結(jié)果進(jìn)行校正。

另外，文獻(xiàn)[7]提出了基于簡(jiǎn)單名詞短語(yǔ)的介詞短語(yǔ)識(shí)別方法，簡(jiǎn)單名詞短語(yǔ)(simple noun phrase，SNP)是文獻(xiàn)[8]提出的內(nèi)部不包含復(fù)雜修飾成分的名詞短語(yǔ)，先識(shí)別出介詞短語(yǔ)中的SNP并進(jìn)行融合，簡(jiǎn)化介詞短語(yǔ)的內(nèi)部結(jié)構(gòu)，降低介詞短語(yǔ)識(shí)別的復(fù)雜性，再進(jìn)行介詞短語(yǔ)識(shí)別，是目前發(fā)表的識(shí)別效果相對(duì)較好的方法。

通過(guò)對(duì)以往的研究進(jìn)行分析發(fā)現(xiàn)，當(dāng)前介詞短語(yǔ)識(shí)別中認(rèn)可度較高的模型是CRF模型，但在介詞嵌套方面的研究還不夠細(xì)致。文獻(xiàn)[6-7]已經(jīng)考慮過(guò)介詞短語(yǔ)嵌套情況，但并未對(duì)介詞短語(yǔ)的結(jié)構(gòu)層次進(jìn)行深入的分析。他們采取的是將句子介詞短語(yǔ)從后向前依次識(shí)別的方法，不能很好地解決介詞短語(yǔ)的嵌套、并列結(jié)構(gòu)并存的情況。

本文提出多模型融合的介詞短語(yǔ)識(shí)別方法，通過(guò)分詞融合將語(yǔ)料中的簡(jiǎn)單名詞短語(yǔ)信息融合以簡(jiǎn)化語(yǔ)料，并對(duì)其訓(xùn)練得到內(nèi)層訓(xùn)練模型，使用該模型識(shí)別測(cè)試語(yǔ)料中的內(nèi)層介詞短語(yǔ)，規(guī)則校正后將初始語(yǔ)料中的內(nèi)層介詞短語(yǔ)進(jìn)行融合并修改其標(biāo)注信息，重新進(jìn)行訓(xùn)練得到嵌套介詞識(shí)別模型，再將測(cè)試語(yǔ)料識(shí)別出的內(nèi)層介詞短語(yǔ)融合修改標(biāo)注信息后用嵌套模型進(jìn)行識(shí)別，規(guī)則校正后得到最終結(jié)果。本文在介詞短語(yǔ)識(shí)別時(shí)著重考慮介詞短語(yǔ)層次特點(diǎn)，將同等層級(jí)的介詞短語(yǔ)同時(shí)識(shí)別，降低某層識(shí)別錯(cuò)誤給其他層次所帶來(lái)的影響。

1 理論基礎(chǔ)

1.1 序列標(biāo)注

條件隨機(jī)場(chǎng)(conditional random fields，CRFs)模型[9]能夠充分利用詞語(yǔ)的上下文信息特征，適用于序列標(biāo)注工作。CRF通過(guò)學(xué)習(xí)訓(xùn)練數(shù)據(jù)獲得使訓(xùn)練樣本標(biāo)注序列在標(biāo)注序列集合中條件概率最大的特征集合和特征權(quán)重。

序列標(biāo)注需要將語(yǔ)料進(jìn)行分詞及詞性標(biāo)注，經(jīng)過(guò)分詞及詞性標(biāo)注后的漢語(yǔ)句子S=W1/P1W2/P2W3/P3…Wi/Pi…WN/PN(Wi為第i個(gè)詞，Pi為第i個(gè)詞的詞性，N為詞的個(gè)數(shù))。

簡(jiǎn)單名詞短語(yǔ)識(shí)別使用BIO標(biāo)記邊界狀態(tài)，其中，B表示簡(jiǎn)單名詞短語(yǔ)的左邊界，I表示內(nèi)部詞語(yǔ)或右邊界，O表示不在短語(yǔ)內(nèi)部的詞語(yǔ)。即，對(duì)于輸入的詞語(yǔ)序列S=W1/P1W2/P2W3/P3…Wi/Pi…WN/PN，任務(wù)的目標(biāo)為獲得一個(gè)對(duì)應(yīng)的標(biāo)注序列T*=T1T2T3…TN，使得該序列在所有可能的標(biāo)注序列中概率最大，其中Ti∈{B，I，O}。

介詞短語(yǔ)自動(dòng)識(shí)別的任務(wù)是標(biāo)注出句子中所有介詞短語(yǔ)，而不對(duì)介詞短語(yǔ)的內(nèi)部成分進(jìn)行分析。首先，把句子S經(jīng)過(guò)分詞及詞性標(biāo)注處理為“word(1)/pos(1) word(2)/pos(2) …word(i)/pos(i)…word(n)/pos(n)”的格式(word(i)為第i個(gè)詞，pos(i)為第i個(gè)詞的詞性)。然后，獲得對(duì)應(yīng)的標(biāo)注序列T*=T1T2T3…TN，使該序列在所有可能的標(biāo)注序列中概率最大，其中，Ti可能取值有B、I、E、O，“B”表示介詞短語(yǔ)的首詞，“I”表示介詞短語(yǔ)的內(nèi)部詞，“E”表示介詞短語(yǔ)的尾詞，“O”表示介詞短語(yǔ)的外部詞語(yǔ)。最后，輸出標(biāo)注序列不為“O”的所有詞。

1.2 分詞融合

本文中分詞融合是指根據(jù)已經(jīng)識(shí)別出來(lái)的序列標(biāo)注結(jié)果進(jìn)行詞語(yǔ)合并，并制定規(guī)則修改合并后的詞的詞性等特征。主要包括兩個(gè)方面： SNP融合、內(nèi)層介詞短語(yǔ)融合。

SNP融合：首先識(shí)別出語(yǔ)料中的簡(jiǎn)單名詞短語(yǔ)，然后將相應(yīng)的詞語(yǔ)進(jìn)行合并，并將融合后的短語(yǔ)詞性標(biāo)注為“COM-NOUN”。例如，短語(yǔ)“在嫌疑人家中”的處理過(guò)程如表1所示。

表 1 SNP分詞融合示意表

介詞短語(yǔ)融合應(yīng)用在介詞短語(yǔ)模板訓(xùn)練部分、介詞短語(yǔ)識(shí)別模塊。在介詞短語(yǔ)模板訓(xùn)練部分，將訓(xùn)練語(yǔ)料內(nèi)層介詞短語(yǔ)融合，并將詞性標(biāo)注為PP，訓(xùn)練外層介詞短語(yǔ)識(shí)別模板；在介詞短語(yǔ)識(shí)別模塊，將測(cè)試語(yǔ)料內(nèi)層介詞短語(yǔ)識(shí)別后，若介詞短語(yǔ)無(wú)嵌套情況，識(shí)別后可進(jìn)行去除，若有嵌套需將介詞短語(yǔ)原語(yǔ)料中識(shí)別結(jié)果所對(duì)應(yīng)的詞語(yǔ)進(jìn)行合并，并將合并后的介詞短語(yǔ)詞性標(biāo)注為PP，簡(jiǎn)化語(yǔ)料以適應(yīng)外層介詞短語(yǔ)識(shí)別。例如，嵌套短語(yǔ)“本著對(duì)親人負(fù)責(zé)的態(tài)度”處理過(guò)程如表2所示。

表 2 內(nèi)層介詞短語(yǔ)分詞融合示意表

2 介詞短語(yǔ)分層識(shí)別方法

具有嵌套并列結(jié)構(gòu)的介詞短語(yǔ)識(shí)別采用CRF模型，具體步驟如圖1所示。

2.1 語(yǔ)料預(yù)處理

圖1 分層識(shí)別流程圖

本文首先使用CRF模型對(duì)語(yǔ)料中的簡(jiǎn)單名詞短語(yǔ)進(jìn)行識(shí)別，由于簡(jiǎn)單名詞短語(yǔ)選取特征與介詞短語(yǔ)不同，因此要將語(yǔ)料形式進(jìn)行更改，只需要留下詞和詞性；然后針對(duì)PP內(nèi)部短語(yǔ)的特性制定規(guī)則庫(kù),并將結(jié)果進(jìn)行校正；最后依據(jù)識(shí)別校正后的簡(jiǎn)單名詞短語(yǔ)將初始語(yǔ)料中相應(yīng)的詞語(yǔ)進(jìn)行分詞融合，使語(yǔ)料更加簡(jiǎn)潔，適合介詞短語(yǔ)識(shí)別。

2.1.1 特征抽取及特征模板

本文識(shí)別簡(jiǎn)單名詞短語(yǔ)使用的特征為詞特征(word)、詞性特征(pos)，選取特征窗口大小為5，特征模板如表3所示，括號(hào)中的數(shù)字表示詞的相對(duì)位置。

表 3 SNP特征模板特征描述及特征表示

2.1.2 規(guī)則庫(kù)

依據(jù)介詞短語(yǔ)內(nèi)短語(yǔ)的特性制定規(guī)則庫(kù)，修正簡(jiǎn)單名詞短語(yǔ)識(shí)別結(jié)果，使其更適宜介詞短語(yǔ)識(shí)別，部分規(guī)則如下：

① 若前詞為程度副詞，該程度副詞修飾名詞短語(yǔ)的第一個(gè)詞，且第一個(gè)詞為形容詞時(shí)，則將程度副詞合并到名詞短語(yǔ)中。如“高層次”中“高”的前詞為副詞“更”，合并“更”到短語(yǔ)內(nèi)得到“更高層次”。

② 若名詞短語(yǔ)后界為“全部”等副詞，則名詞短語(yǔ)的后界為副詞的前詞。

③ 當(dāng)名詞短語(yǔ)前詞為“沿”“依”時(shí)，若組成名詞短語(yǔ)的前兩個(gè)詞為名詞，且名詞短語(yǔ)由三個(gè)或三個(gè)以上的詞構(gòu)成時(shí)，則其前界為名詞的后詞，否則標(biāo)記不是名詞短語(yǔ)。

④ 若后界為“你”等人稱代詞，將人稱代詞的前詞標(biāo)記為簡(jiǎn)單名詞短語(yǔ)的后界。

2.2 介詞短語(yǔ)分層識(shí)別

2.2.1 多模型訓(xùn)練

由于介詞短語(yǔ)內(nèi)部結(jié)構(gòu)復(fù)雜，上下文聯(lián)系密切，特征的選擇對(duì)介詞短語(yǔ)的識(shí)別效果有著重要影響。本文結(jié)合其他文獻(xiàn)特征的選擇，最終決定采用六個(gè)基本特征，具體如下：

① 詞特征(word);

② 詞性特征,即詞性標(biāo)注(pos);

③ 候選介詞前界特征(CFB)：當(dāng)前分句中該詞之前是否存在候選介詞；

④ 候選介詞后界特征(CLB)：當(dāng)前詞是否可以作為介詞短語(yǔ)后界，使用式(1)計(jì)算當(dāng)前詞可以作為后界的概率(閾值設(shè)置為0.05)：

后界概率=當(dāng)前詞作為后界出現(xiàn)的次數(shù)/對(duì)應(yīng)介詞出現(xiàn)的總次數(shù)

(1)

⑤ 候選介詞后詞特征(CLW)：當(dāng)前詞是否可以作為介詞短語(yǔ)后面的詞，利用公式計(jì)算當(dāng)前詞可以作為后詞的概率，閾值設(shè)置為0.05；

⑥ 詞長(zhǎng)特征(CL)：本文使用原子特征模板和復(fù)合特征模板，選擇特征窗口大小為5進(jìn)行實(shí)驗(yàn)。通過(guò)基本特征構(gòu)成的集合作為CRF模型的原子特征模板，如表4所示。復(fù)合特征模板側(cè)重特征間的搭配關(guān)系，提高了介詞短語(yǔ)識(shí)別的精度，復(fù)合模板如表5所示，其中括號(hào)中的數(shù)字表示詞的位置。

表 4 原子特征模板特征描述及特征表示

表 5 復(fù)合特征模板特征描述及特征表示

介詞短語(yǔ)嵌套、并列現(xiàn)象的存在，使得介詞短語(yǔ)識(shí)別難度加大，如句子“他們把對(duì)戰(zhàn)士的愛(ài)、對(duì)邊防的情一一送上哨卡”，包含并列結(jié)構(gòu)“對(duì)戰(zhàn)士的愛(ài)”“對(duì)邊防的情”以及嵌套結(jié)構(gòu)“把(對(duì)戰(zhàn)士的愛(ài))、(對(duì)邊防的情)”。在文獻(xiàn)[6]、文獻(xiàn)[7]所采用的從右向左逐個(gè)介詞短語(yǔ)識(shí)別的方法中，某個(gè)介詞短語(yǔ)識(shí)別的錯(cuò)誤會(huì)對(duì)其他介詞短語(yǔ)的識(shí)別產(chǎn)生影響，如表6所示。逐個(gè)識(shí)別介詞短語(yǔ)不能很好適用這種結(jié)構(gòu)，本文將介詞短語(yǔ)分層識(shí)別，從內(nèi)層至外層逐層用CRF進(jìn)行介詞短語(yǔ)識(shí)別。另外，由于嵌套的內(nèi)外層的上下文信息不同，本文提出需要訓(xùn)練不同的模型對(duì)不同層的介詞短語(yǔ)進(jìn)行識(shí)別的觀點(diǎn)。

內(nèi)層介詞短語(yǔ)訓(xùn)練模板需將經(jīng)過(guò)簡(jiǎn)單名詞短語(yǔ)融合后的語(yǔ)料進(jìn)行訓(xùn)練，外層介詞短語(yǔ)訓(xùn)練模板需要將語(yǔ)料內(nèi)層介詞短語(yǔ)融合，并修改詞性等相應(yīng)的特征，重新訓(xùn)練生成。

表 6 從右向左逐個(gè)介詞短語(yǔ)識(shí)別錯(cuò)誤示例

2.2.2 分層識(shí)別

分層識(shí)別過(guò)程如下：

首先，將測(cè)試語(yǔ)料處理成適合內(nèi)層介詞短語(yǔ)識(shí)別的形式，修改前界、后界、后詞等特征，同時(shí)修改人工標(biāo)注結(jié)果以方便比對(duì)，修改方式為：

① 若有多層嵌套的介詞短語(yǔ)，則只標(biāo)注最內(nèi)層介詞短語(yǔ)。

② 若只有一層介詞短語(yǔ)，則標(biāo)注該層介詞短語(yǔ)。

③ 去掉不含介詞短語(yǔ)的句子，并用CRF識(shí)別內(nèi)層介詞短語(yǔ)。

如測(cè)試語(yǔ)料中的句子“他們本著對(duì)親人、對(duì)家庭負(fù)責(zé)的態(tài)度”，經(jīng)過(guò)分詞、詞性標(biāo)注以及SNP識(shí)別融合后的結(jié)果是“他們/ 本著/ 對(duì)/ 親人/、/W 對(duì)/ 家庭/ 負(fù)責(zé)/ 的/ 態(tài)度/”,測(cè)試語(yǔ)料的人工標(biāo)注為“O B B E I B E I I E”，將語(yǔ)料處理成內(nèi)層識(shí)別模式，人工標(biāo)注序列更改成“O O B E O B E O O O”。

隨后，使用CRF工具利用訓(xùn)練好的介詞短語(yǔ)內(nèi)層識(shí)別模型識(shí)別出介詞短語(yǔ)，并根據(jù)雙重錯(cuò)誤校正系統(tǒng)進(jìn)行校正。然后，將識(shí)別校正后的內(nèi)層介詞短語(yǔ)進(jìn)行融合并修改相關(guān)特征。如上例分詞融合后結(jié)果為“他們/ 本著/ 對(duì)親人/PP 、/W 對(duì)家庭/PP 負(fù)責(zé)/ 的/ 態(tài)度/”(加粗為融合修改部分)，同時(shí)人工標(biāo)注序列也修改為“O B I I I I I E”。

最后，利用訓(xùn)練好的適合外層的模型對(duì)外層介詞短語(yǔ)進(jìn)行識(shí)別并進(jìn)行雙重錯(cuò)誤校正。

2.2.3 轉(zhuǎn)換規(guī)則集

本文在序列標(biāo)注后規(guī)則處理時(shí)使用的轉(zhuǎn)換規(guī)則集由兩部分構(gòu)成：錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)(transformation-based error-driven learning, TBL)和語(yǔ)義分析得到的固定搭配。

TBL基本思想是通過(guò)錯(cuò)誤驅(qū)動(dòng)來(lái)修改識(shí)別結(jié)果，根據(jù)預(yù)先設(shè)計(jì)好的轉(zhuǎn)換模板和目標(biāo)函數(shù)尋找修正錯(cuò)誤最多的轉(zhuǎn)換規(guī)則，用生成的規(guī)則對(duì)標(biāo)注結(jié)果進(jìn)行修正，這部分規(guī)則由觸發(fā)條件和轉(zhuǎn)換規(guī)則組成。在進(jìn)行結(jié)果校正時(shí)，若滿足觸發(fā)條件則進(jìn)行修正。

例如，句子“統(tǒng)統(tǒng)記在參加保險(xiǎn)者的名下?！睗M足觸發(fā)條件的介詞為“在”且其前詞詞性是動(dòng)詞，若分句中存在“的”，則標(biāo)記“的”后面的詞為“E”，介詞后的詞到“的”標(biāo)記為“I”，結(jié)果如表7所示。

表 7 轉(zhuǎn)換規(guī)則集示例

固定搭配是通過(guò)對(duì)介詞短語(yǔ)進(jìn)行語(yǔ)義分析得到的，本文參考分析國(guó)內(nèi)的語(yǔ)言學(xué)家們對(duì)介詞及介詞短語(yǔ)的研究成果，包括范曉[10]的《介賓短語(yǔ)·復(fù)指短語(yǔ)·固定短語(yǔ)》，張斌[11]的《現(xiàn)代漢語(yǔ)虛詞》，陳昌來(lái)[12]的《漢語(yǔ)“介詞框架”研究》等，總結(jié)出一系列適用于本文語(yǔ)料的固定搭配，如“對(duì)……來(lái)說(shuō)”“當(dāng)……時(shí)”。當(dāng)進(jìn)行結(jié)果校正時(shí)，若當(dāng)前分句滿足固定搭配，則修改其標(biāo)注結(jié)果。

3 實(shí)驗(yàn)設(shè)置及結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)語(yǔ)料選用《人民日?qǐng)?bào)》2000年1月語(yǔ)料，包含7 037個(gè)介詞短語(yǔ)信息。該語(yǔ)料經(jīng)過(guò)分詞工具[13]進(jìn)行分詞及詞性標(biāo)注，并進(jìn)行了人工校正。此外，需將訓(xùn)練語(yǔ)料格式化，使其適合CRF訓(xùn)練，刪除測(cè)試語(yǔ)料中不包含介詞短語(yǔ)的句子，并對(duì)其同樣進(jìn)行格式化處理，再使用CRF工具進(jìn)行序列標(biāo)注。

實(shí)驗(yàn)方法方面，本文采取五倍交叉實(shí)驗(yàn)：將語(yǔ)料平均分成五份，每份介詞短語(yǔ)數(shù)目如表8所示。使用其中一份語(yǔ)料作為測(cè)試語(yǔ)料，其他四份作為訓(xùn)練語(yǔ)料，重復(fù)進(jìn)行五次實(shí)驗(yàn)，取平均值作為最終結(jié)果。

表 8 語(yǔ)料中介詞短語(yǔ)數(shù)目統(tǒng)計(jì)

實(shí)驗(yàn)結(jié)果采用CoNLL2000評(píng)價(jià)標(biāo)注，使用精確率(P)、召回率(R)和F值進(jìn)行評(píng)價(jià)。精確率表示正確識(shí)別的介詞短語(yǔ)所占識(shí)別出的介詞短語(yǔ)百分比，反映了模型的識(shí)別能力。召回率表示正確識(shí)別的介詞短語(yǔ)占語(yǔ)料中所有介詞短語(yǔ)的百分比，反映了模型的查全能力。F值綜合表征了精確率和召回率，體現(xiàn)了算法綜合性能。P、R、F值的公式如下：

其中，Nc代表正確識(shí)別的介詞短語(yǔ)數(shù)，Ni代表識(shí)別出的介詞短語(yǔ)數(shù)，Ny代表語(yǔ)料中的介詞短語(yǔ)總數(shù)。

3.2 實(shí)驗(yàn)結(jié)果及分析

本文進(jìn)行了五個(gè)對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)1是融入簡(jiǎn)單名詞短語(yǔ)的介詞短語(yǔ)識(shí)別結(jié)果；實(shí)驗(yàn)2是在實(shí)驗(yàn)1的基礎(chǔ)上對(duì)多層嵌套分層識(shí)別改進(jìn)的結(jié)果，將從右向左逐個(gè)識(shí)別改為逐層識(shí)別；實(shí)驗(yàn)3對(duì)實(shí)驗(yàn)2進(jìn)行了改進(jìn)，對(duì)分層嵌套結(jié)構(gòu)識(shí)別結(jié)果進(jìn)行融合并對(duì)特征進(jìn)行更新；實(shí)驗(yàn)4在實(shí)驗(yàn)3的基礎(chǔ)上，外層介詞短語(yǔ)識(shí)別時(shí)重新訓(xùn)練新的模型，識(shí)別后再加規(guī)則處理的結(jié)果。實(shí)驗(yàn)5是在實(shí)驗(yàn)4基礎(chǔ)上，將外層介詞短語(yǔ)識(shí)別完后更換規(guī)則得到的結(jié)果。實(shí)驗(yàn)結(jié)果如表9所示。

實(shí)驗(yàn)2的P、R、F值相比實(shí)驗(yàn)1分別提高了0.32%，0.33%，0.33%，說(shuō)明在分層嵌套的情況下，以層為單位能夠降低某個(gè)介詞短語(yǔ)識(shí)別錯(cuò)誤對(duì)其他介詞短語(yǔ)造成的影響，這種方式更適合介詞短語(yǔ)的識(shí)別；實(shí)驗(yàn)3每層識(shí)別后，不再去掉已經(jīng)識(shí)別出來(lái)的介詞短語(yǔ)，而是將其合并并修改標(biāo)注信息，P、R、F值比實(shí)驗(yàn)2分別提高了0.47%，0.46%，0.46%，說(shuō)明單純?nèi)サ糇R(shí)別出來(lái)的介詞短語(yǔ)會(huì)影響介詞短語(yǔ)的上下文信息，可能會(huì)導(dǎo)致接下來(lái)的介詞短語(yǔ)識(shí)別錯(cuò)誤；實(shí)驗(yàn)4在不同層介詞短語(yǔ)識(shí)別時(shí)采用不同的訓(xùn)練模型進(jìn)行識(shí)別，P、R、F值比實(shí)驗(yàn)3分別提高了0.22%，0.21%，0.22%，說(shuō)明不同層次的介詞短語(yǔ)上下文信息也會(huì)不同，同一個(gè)訓(xùn)練模型不能很好地處理嵌套結(jié)構(gòu)。實(shí)驗(yàn)5相比實(shí)驗(yàn)4 的P、R、F值分別提高了0.08%，0.07%,0.07%，說(shuō)明不同層的介詞短語(yǔ)由于結(jié)構(gòu)不同所使用的校正規(guī)則信息也應(yīng)不同。

表 9 實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)

表10給出了本文方法和融合SNP方法(baseline)對(duì)嵌套并列結(jié)構(gòu)介詞短語(yǔ)識(shí)別的改進(jìn)效果對(duì)比。

表 10 嵌套并列結(jié)構(gòu)介詞短語(yǔ)總數(shù)及識(shí)別錯(cuò)誤數(shù)目

為了進(jìn)一步說(shuō)明本文方法的有效性，本文在同一語(yǔ)料上重現(xiàn)了相關(guān)的研究方法，表11為本文方法與其他方法的實(shí)驗(yàn)對(duì)比。

表11 與其他方法的結(jié)果比較

由表11的實(shí)驗(yàn)結(jié)果可見(jiàn)，與其他模型相比，CRF模型能夠較好地利用上下文信息，并通過(guò)特征的重要性對(duì)其加權(quán)，識(shí)別結(jié)果精度較高；文獻(xiàn)[7]的結(jié)果說(shuō)明融入簡(jiǎn)單名詞短語(yǔ)能夠降低句子的復(fù)雜程度，提高識(shí)別精度；文獻(xiàn)[6-7]采用的從右向左逐個(gè)介詞短語(yǔ)的識(shí)別方法，某個(gè)介詞短語(yǔ)識(shí)別錯(cuò)誤會(huì)對(duì)接下來(lái)要識(shí)別的介詞短語(yǔ)產(chǎn)生影響，本文對(duì)識(shí)別方法的改進(jìn)，降低了復(fù)雜嵌套、并列結(jié)構(gòu)介詞短語(yǔ)的識(shí)別難度，不同層次采用不同的訓(xùn)練模型進(jìn)行識(shí)別，能夠更好地獲得嵌套介詞短語(yǔ)的特征信息，提高識(shí)別效果。

4 總結(jié)及展望

中文介詞短語(yǔ)中，介詞短語(yǔ)嵌套和并列現(xiàn)象是影響介詞短語(yǔ)識(shí)別性能的重要問(wèn)題之一。為此，本文提出了多模型融合的中文介詞短語(yǔ)識(shí)別方法。實(shí)驗(yàn)結(jié)果表明：

① 介詞短語(yǔ)具有嵌套、并列的復(fù)雜結(jié)構(gòu)，從右向左識(shí)別介詞短語(yǔ)的方法中，某個(gè)介詞短語(yǔ)的識(shí)別錯(cuò)誤會(huì)影響到后續(xù)的介詞短語(yǔ)識(shí)別。分層識(shí)別方法不是每次只識(shí)別一個(gè)，而是將同一層次的介詞短語(yǔ)同時(shí)進(jìn)行識(shí)別，更適合存在嵌套、并列的介詞短語(yǔ)。

② 內(nèi)外層介詞短語(yǔ)結(jié)構(gòu)不同，上下文信息也不同，需要不同的訓(xùn)練模型進(jìn)行識(shí)別，訓(xùn)練語(yǔ)料需要將標(biāo)記的內(nèi)層介詞短語(yǔ)融合，并進(jìn)行特征修改后訓(xùn)練嵌套模型，以適應(yīng)外層介詞短語(yǔ)識(shí)別。

③ 識(shí)別出的內(nèi)層介詞短語(yǔ)不再進(jìn)行去除，而是根據(jù)識(shí)別結(jié)果將測(cè)試語(yǔ)料中相應(yīng)的詞語(yǔ)進(jìn)行分詞融合，并將相應(yīng)特征進(jìn)行修改，以適應(yīng)外層介詞短語(yǔ)識(shí)別。在外層識(shí)別時(shí)，重新訓(xùn)練新的模型使之適合當(dāng)前層的識(shí)別，可提高識(shí)別效果。

在語(yǔ)料處理過(guò)程中，簡(jiǎn)單名詞短語(yǔ)的識(shí)別錯(cuò)誤可能會(huì)將介詞短語(yǔ)的后界與后詞合并在一起，導(dǎo)致識(shí)別介詞短語(yǔ)錯(cuò)誤。例如，句子“加大對(duì) 大要案件偵辦力度”經(jīng)過(guò)簡(jiǎn)單名詞短語(yǔ)識(shí)別融合后結(jié)果為“加大對(duì) 大要案件偵辦力度”，介詞短語(yǔ)識(shí)別結(jié)果為“對(duì)大要案件偵辦力度”，而正確結(jié)果為“對(duì)大要案件”。因此后續(xù)的研究要改善簡(jiǎn)單名詞短語(yǔ)的識(shí)別方法，使簡(jiǎn)單名詞短語(yǔ)的粒度細(xì)化，以提高精確率和召回率。

[1] 吳云芳. 現(xiàn)代漢語(yǔ)介詞結(jié)構(gòu)的自動(dòng)標(biāo)注[D]. 北京：北京語(yǔ)言文化大學(xué)碩士學(xué)位論文, 1998.

[2] 干俊偉, 黃德根. 漢語(yǔ)介詞短語(yǔ)的自動(dòng)識(shí)別[J]. 中文信息學(xué)報(bào), 2005, 19(4):17-23.

[3] 盧朝華, 黃廣君, 郭志兵. 基于最大熵的漢語(yǔ)介詞短語(yǔ)識(shí)別研究[J]. 通信技術(shù), 2010, 43(5):181-183.

[4] 奚建清, 羅強(qiáng). 基于HMM的漢語(yǔ)介詞短語(yǔ)自動(dòng)識(shí)別研究[J]. 計(jì)算機(jī)工程, 2007, 33(3):172-173.

[5] 胡思磊. 基于CRF模型的漢語(yǔ)介詞短語(yǔ)識(shí)別[D]. 大連：大連理工大學(xué)碩士學(xué)位論文, 2008.

[6] 張杰. 基于多層CRFs的漢語(yǔ)介詞短語(yǔ)識(shí)別研究[D]. 大連：大連理工大學(xué)碩士學(xué)位論文, 2013.

[7] 桑樂(lè)園, 黃德根. 基于簡(jiǎn)單名詞短語(yǔ)的漢語(yǔ)介詞短語(yǔ)識(shí)別研究[J]. 中文信息學(xué)報(bào), 2015, 29(6):8-12.

[8] 孫玉祥. 漢語(yǔ)簡(jiǎn)單名詞短語(yǔ)自動(dòng)識(shí)別的研究[D]. 大連：大連理工大學(xué)碩士學(xué)位論文, 2014.

[9] Lafferty J D, Mccallum, et al. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[M]. Departmental Papers (CIS), 2001.

[10] 范曉. 介賓短語(yǔ)·復(fù)指短語(yǔ)·固定短語(yǔ)[M]. 北京：人民教育出版社, 1990.

[11] 張斌. 現(xiàn)代漢語(yǔ)虛詞[M]. 上海：華東師范大學(xué)出版社, 2000.

[12] 陳昌來(lái). 漢語(yǔ)“介詞框架”研究[M]. 北京：商務(wù)印書(shū)館, 2014.

[13] Degen H, Deqin T. Context information and fragments based cross-domain word segmentation[J]. China Communications, 2012, 9(3):49-57.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡