劉 彤,黃德根,張 聰
(大連理工大學(xué) 計(jì)算機(jī)學(xué)院,遼寧 大連 116024)
介詞短語(yǔ)(preposition phrase,PP)作為一種重要的短語(yǔ)類型,在漢語(yǔ)中占有很大的比例。文獻(xiàn)[1]曾對(duì)包含十萬(wàn)字、六萬(wàn)詞的語(yǔ)料所包含的介詞短語(yǔ)的句子進(jìn)行過(guò)統(tǒng)計(jì)分析,結(jié)果表明,科技類文章含有介詞短語(yǔ)的句子占57%,而政論類文章包含介詞短語(yǔ)的句子占63%。介詞短語(yǔ)大多作為句子狀語(yǔ)和補(bǔ)語(yǔ),正確識(shí)別介詞短語(yǔ)能夠提高句子結(jié)構(gòu)的清晰度,降低句子的復(fù)雜度,為下一步句法分析提供有效信息。提升介詞短語(yǔ)的識(shí)別精度對(duì)于信息檢索及文本分類效果都有較大提升,對(duì)于淺層句法分析、機(jī)器翻譯等研究具有極其重要的意義。
現(xiàn)有的介詞短語(yǔ)識(shí)別研究主要集中在介詞短語(yǔ)學(xué)習(xí)模型的選擇和介詞短語(yǔ)的層次關(guān)系分析兩方面。在學(xué)習(xí)模型的選擇方面,文獻(xiàn)[2]提出了一種結(jié)合可信搭配關(guān)系和三元邊界統(tǒng)計(jì)模型的識(shí)別方法,根據(jù)固定搭配制定兩個(gè)搭配模板,利用模板獲取可信搭配關(guān)系,根據(jù)其識(shí)別介詞短語(yǔ),結(jié)合三元模型和規(guī)則識(shí)別剩余的介詞短語(yǔ);文獻(xiàn)[3]提出了基于最大熵模型的識(shí)別方法,首先對(duì)介詞短語(yǔ)抽取標(biāo)記介詞短語(yǔ)的特征,然后利用最大熵模型識(shí)別語(yǔ)料中的介詞短語(yǔ),最后利用依存樹(shù)庫(kù)中的介詞短語(yǔ)邊界詞的語(yǔ)法知識(shí)對(duì)識(shí)別結(jié)果進(jìn)行校正;文獻(xiàn)[4]提出了基于HMM模型的識(shí)別方法,先利用HMM模型識(shí)別語(yǔ)料中的介詞短語(yǔ),然后利用依存語(yǔ)法對(duì)識(shí)別結(jié)果進(jìn)行校正。
在層次關(guān)系方面,文獻(xiàn)[5]提出了基于雙層CRF模型的識(shí)別方法,針對(duì)介詞短語(yǔ)的特點(diǎn)選擇雙層CRF模型進(jìn)行識(shí)別,并制定規(guī)則對(duì)結(jié)果進(jìn)行校正;文獻(xiàn)[6]在文獻(xiàn)[5]基礎(chǔ)上提出了基于多層CRF模型的介詞短語(yǔ)識(shí)別方法,通過(guò)CRF模型利用多個(gè)有效特征及復(fù)合特征模板從后向前逐個(gè)識(shí)別語(yǔ)料中的介詞短語(yǔ),然后利用基于轉(zhuǎn)換的驅(qū)動(dòng)學(xué)習(xí)方法制定了規(guī)則轉(zhuǎn)換集,并用其對(duì)識(shí)別結(jié)果進(jìn)行校正。
另外,文獻(xiàn)[7]提出了基于簡(jiǎn)單名詞短語(yǔ)的介詞短語(yǔ)識(shí)別方法,簡(jiǎn)單名詞短語(yǔ)(simple noun phrase,SNP)是文獻(xiàn)[8]提出的內(nèi)部不包含復(fù)雜修飾成分的名詞短語(yǔ),先識(shí)別出介詞短語(yǔ)中的SNP并進(jìn)行融合,簡(jiǎn)化介詞短語(yǔ)的內(nèi)部結(jié)構(gòu),降低介詞短語(yǔ)識(shí)別的復(fù)雜性,再進(jìn)行介詞短語(yǔ)識(shí)別,是目前發(fā)表的識(shí)別效果相對(duì)較好的方法。
通過(guò)對(duì)以往的研究進(jìn)行分析發(fā)現(xiàn),當(dāng)前介詞短語(yǔ)識(shí)別中認(rèn)可度較高的模型是CRF模型,但在介詞嵌套方面的研究還不夠細(xì)致。文獻(xiàn)[6-7]已經(jīng)考慮過(guò)介詞短語(yǔ)嵌套情況,但并未對(duì)介詞短語(yǔ)的結(jié)構(gòu)層次進(jìn)行深入的分析。他們采取的是將句子介詞短語(yǔ)從后向前依次識(shí)別的方法,不能很好地解決介詞短語(yǔ)的嵌套、并列結(jié)構(gòu)并存的情況。
本文提出多模型融合的介詞短語(yǔ)識(shí)別方法,通過(guò)分詞融合將語(yǔ)料中的簡(jiǎn)單名詞短語(yǔ)信息融合以簡(jiǎn)化語(yǔ)料,并對(duì)其訓(xùn)練得到內(nèi)層訓(xùn)練模型,使用該模型識(shí)別測(cè)試語(yǔ)料中的內(nèi)層介詞短語(yǔ),規(guī)則校正后將初始語(yǔ)料中的內(nèi)層介詞短語(yǔ)進(jìn)行融合并修改其標(biāo)注信息,重新進(jìn)行訓(xùn)練得到嵌套介詞識(shí)別模型,再將測(cè)試語(yǔ)料識(shí)別出的內(nèi)層介詞短語(yǔ)融合修改標(biāo)注信息后用嵌套模型進(jìn)行識(shí)別,規(guī)則校正后得到最終結(jié)果。本文在介詞短語(yǔ)識(shí)別時(shí)著重考慮介詞短語(yǔ)層次特點(diǎn),將同等層級(jí)的介詞短語(yǔ)同時(shí)識(shí)別,降低某層識(shí)別錯(cuò)誤給其他層次所帶來(lái)的影響。
條件隨機(jī)場(chǎng)(conditional random fields,CRFs)模型[9]能夠充分利用詞語(yǔ)的上下文信息特征,適用于序列標(biāo)注工作。CRF通過(guò)學(xué)習(xí)訓(xùn)練數(shù)據(jù)獲得使訓(xùn)練樣本標(biāo)注序列在標(biāo)注序列集合中條件概率最大的特征集合和特征權(quán)重。
序列標(biāo)注需要將語(yǔ)料進(jìn)行分詞及詞性標(biāo)注,經(jīng)過(guò)分詞及詞性標(biāo)注后的漢語(yǔ)句子S=W1/P1W2/P2W3/P3…Wi/Pi…WN/PN(Wi為第i個(gè)詞,Pi為第i個(gè)詞的詞性,N為詞的個(gè)數(shù))。
簡(jiǎn)單名詞短語(yǔ)識(shí)別使用BIO標(biāo)記邊界狀態(tài),其中,B表示簡(jiǎn)單名詞短語(yǔ)的左邊界,I表示內(nèi)部詞語(yǔ)或右邊界,O表示不在短語(yǔ)內(nèi)部的詞語(yǔ)。即,對(duì)于輸入的詞語(yǔ)序列S=W1/P1W2/P2W3/P3…Wi/Pi…WN/PN,任務(wù)的目標(biāo)為獲得一個(gè)對(duì)應(yīng)的標(biāo)注序列T*=T1T2T3…TN,使得該序列在所有可能的標(biāo)注序列中概率最大,其中Ti∈{B,I,O}。
介詞短語(yǔ)自動(dòng)識(shí)別的任務(wù)是標(biāo)注出句子中所有介詞短語(yǔ),而不對(duì)介詞短語(yǔ)的內(nèi)部成分進(jìn)行分析。首先,把句子S經(jīng)過(guò)分詞及詞性標(biāo)注處理為“word(1)/pos(1) word(2)/pos(2) …word(i)/pos(i)…word(n)/pos(n)”的格式(word(i)為第i個(gè)詞,pos(i)為第i個(gè)詞的詞性)。然后,獲得對(duì)應(yīng)的標(biāo)注序列T*=T1T2T3…TN,使該序列在所有可能的標(biāo)注序列中概率最大,其中,Ti可能取值有B、I、E、O,“B”表示介詞短語(yǔ)的首詞,“I”表示介詞短語(yǔ)的內(nèi)部詞,“E”表示介詞短語(yǔ)的尾詞,“O”表示介詞短語(yǔ)的外部詞語(yǔ)。最后,輸出標(biāo)注序列不為“O”的所有詞。
本文中分詞融合是指根據(jù)已經(jīng)識(shí)別出來(lái)的序列標(biāo)注結(jié)果進(jìn)行詞語(yǔ)合并,并制定規(guī)則修改合并后的詞的詞性等特征。主要包括兩個(gè)方面: SNP融合、內(nèi)層介詞短語(yǔ)融合。
SNP融合: 首先識(shí)別出語(yǔ)料中的簡(jiǎn)單名詞短語(yǔ),然后將相應(yīng)的詞語(yǔ)進(jìn)行合并,并將融合后的短語(yǔ)詞性標(biāo)注為“COM-NOUN”。例如,短語(yǔ)“在嫌疑人家中”的處理過(guò)程如表1所示。
表 1 SNP分詞融合示意表
介詞短語(yǔ)融合應(yīng)用在介詞短語(yǔ)模板訓(xùn)練部分、介詞短語(yǔ)識(shí)別模塊。在介詞短語(yǔ)模板訓(xùn)練部分,將訓(xùn)練語(yǔ)料內(nèi)層介詞短語(yǔ)融合,并將詞性標(biāo)注為PP,訓(xùn)練外層介詞短語(yǔ)識(shí)別模板;在介詞短語(yǔ)識(shí)別模塊,將測(cè)試語(yǔ)料內(nèi)層介詞短語(yǔ)識(shí)別后,若介詞短語(yǔ)無(wú)嵌套情況,識(shí)別后可進(jìn)行去除,若有嵌套需將介詞短語(yǔ)原語(yǔ)料中識(shí)別結(jié)果所對(duì)應(yīng)的詞語(yǔ)進(jìn)行合并,并將合并后的介詞短語(yǔ)詞性標(biāo)注為PP,簡(jiǎn)化語(yǔ)料以適應(yīng)外層介詞短語(yǔ)識(shí)別。例如,嵌套短語(yǔ)“本著對(duì)親人負(fù)責(zé)的態(tài)度”處理過(guò)程如表2所示。
表 2 內(nèi)層介詞短語(yǔ)分詞融合示意表
具有嵌套并列結(jié)構(gòu)的介詞短語(yǔ)識(shí)別采用CRF模型,具體步驟如圖1所示。
圖1 分層識(shí)別流程圖
本文首先使用CRF模型對(duì)語(yǔ)料中的簡(jiǎn)單名詞短語(yǔ)進(jìn)行識(shí)別,由于簡(jiǎn)單名詞短語(yǔ)選取特征與介詞短語(yǔ)不同,因此要將語(yǔ)料形式進(jìn)行更改,只需要留下詞和詞性;然后針對(duì)PP內(nèi)部短語(yǔ)的特性制定規(guī)則庫(kù),并將結(jié)果進(jìn)行校正;最后依據(jù)識(shí)別校正后的簡(jiǎn)單名詞短語(yǔ)將初始語(yǔ)料中相應(yīng)的詞語(yǔ)進(jìn)行分詞融合,使語(yǔ)料更加簡(jiǎn)潔,適合介詞短語(yǔ)識(shí)別。
2.1.1 特征抽取及特征模板
本文識(shí)別簡(jiǎn)單名詞短語(yǔ)使用的特征為詞特征(word)、詞性特征(pos),選取特征窗口大小為5,特征模板如表3所示,括號(hào)中的數(shù)字表示詞的相對(duì)位置。
表 3 SNP特征模板特征描述及特征表示
2.1.2 規(guī)則庫(kù)
依據(jù)介詞短語(yǔ)內(nèi)短語(yǔ)的特性制定規(guī)則庫(kù),修正簡(jiǎn)單名詞短語(yǔ)識(shí)別結(jié)果,使其更適宜介詞短語(yǔ)識(shí)別,部分規(guī)則如下:
① 若前詞為程度副詞,該程度副詞修飾名詞短語(yǔ)的第一個(gè)詞,且第一個(gè)詞為形容詞時(shí),則將程度副詞合并到名詞短語(yǔ)中。如“高層次”中“高”的前詞為副詞“更”,合并“更”到短語(yǔ)內(nèi)得到“更高層次”。
② 若名詞短語(yǔ)后界為“全部”等副詞,則名詞短語(yǔ)的后界為副詞的前詞。
③ 當(dāng)名詞短語(yǔ)前詞為“沿”“依”時(shí),若組成名詞短語(yǔ)的前兩個(gè)詞為名詞,且名詞短語(yǔ)由三個(gè)或三個(gè)以上的詞構(gòu)成時(shí),則其前界為名詞的后詞,否則標(biāo)記不是名詞短語(yǔ)。
④ 若后界為“你”等人稱代詞,將人稱代詞的前詞標(biāo)記為簡(jiǎn)單名詞短語(yǔ)的后界。
2.2.1 多模型訓(xùn)練
由于介詞短語(yǔ)內(nèi)部結(jié)構(gòu)復(fù)雜,上下文聯(lián)系密切,特征的選擇對(duì)介詞短語(yǔ)的識(shí)別效果有著重要影響。本文結(jié)合其他文獻(xiàn)特征的選擇,最終決定采用六個(gè)基本特征,具體如下:
① 詞特征(word);
② 詞性特征,即詞性標(biāo)注(pos);
③ 候選介詞前界特征(CFB): 當(dāng)前分句中該詞之前是否存在候選介詞;
④ 候選介詞后界特征(CLB): 當(dāng)前詞是否可以作為介詞短語(yǔ)后界,使用式(1)計(jì)算當(dāng)前詞可以作為后界的概率(閾值設(shè)置為0.05):
后界概率=當(dāng)前詞作為后界出現(xiàn)的次數(shù)/對(duì)應(yīng)介詞出現(xiàn)的總次數(shù)
(1)
⑤ 候選介詞后詞特征(CLW): 當(dāng)前詞是否可以作為介詞短語(yǔ)后面的詞,利用公式計(jì)算當(dāng)前詞可以作為后詞的概率,閾值設(shè)置為0.05;
⑥ 詞長(zhǎng)特征(CL): 本文使用原子特征模板和復(fù)合特征模板,選擇特征窗口大小為5進(jìn)行實(shí)驗(yàn)。通過(guò)基本特征構(gòu)成的集合作為CRF模型的原子特征模板,如表4所示。復(fù)合特征模板側(cè)重特征間的搭配關(guān)系,提高了介詞短語(yǔ)識(shí)別的精度,復(fù)合模板如表5所示,其中括號(hào)中的數(shù)字表示詞的位置。
表 4 原子特征模板特征描述及特征表示
表 5 復(fù)合特征模板特征描述及特征表示
介詞短語(yǔ)嵌套、并列現(xiàn)象的存在,使得介詞短語(yǔ)識(shí)別難度加大,如句子“他們把對(duì)戰(zhàn)士的愛(ài)、對(duì)邊防的情一一送上哨卡”,包含并列結(jié)構(gòu)“對(duì)戰(zhàn)士的愛(ài)”“對(duì)邊防的情”以及嵌套結(jié)構(gòu)“把(對(duì)戰(zhàn)士的愛(ài))、(對(duì)邊防的情)”。在文獻(xiàn)[6]、文獻(xiàn)[7]所采用的從右向左逐個(gè)介詞短語(yǔ)識(shí)別的方法中,某個(gè)介詞短語(yǔ)識(shí)別的錯(cuò)誤會(huì)對(duì)其他介詞短語(yǔ)的識(shí)別產(chǎn)生影響,如表6所示。逐個(gè)識(shí)別介詞短語(yǔ)不能很好適用這種結(jié)構(gòu),本文將介詞短語(yǔ)分層識(shí)別,從內(nèi)層至外層逐層用CRF進(jìn)行介詞短語(yǔ)識(shí)別。另外,由于嵌套的內(nèi)外層的上下文信息不同,本文提出需要訓(xùn)練不同的模型對(duì)不同層的介詞短語(yǔ)進(jìn)行識(shí)別的觀點(diǎn)。
內(nèi)層介詞短語(yǔ)訓(xùn)練模板需將經(jīng)過(guò)簡(jiǎn)單名詞短語(yǔ)融合后的語(yǔ)料進(jìn)行訓(xùn)練,外層介詞短語(yǔ)訓(xùn)練模板需要將語(yǔ)料內(nèi)層介詞短語(yǔ)融合,并修改詞性等相應(yīng)的特征,重新訓(xùn)練生成。
表 6 從右向左逐個(gè)介詞短語(yǔ)識(shí)別錯(cuò)誤示例
2.2.2 分層識(shí)別
分層識(shí)別過(guò)程如下:
首先,將測(cè)試語(yǔ)料處理成適合內(nèi)層介詞短語(yǔ)識(shí)別的形式,修改前界、后界、后詞等特征,同時(shí)修改人工標(biāo)注結(jié)果以方便比對(duì),修改方式為:
① 若有多層嵌套的介詞短語(yǔ),則只標(biāo)注最內(nèi)層介詞短語(yǔ)。
② 若只有一層介詞短語(yǔ),則標(biāo)注該層介詞短語(yǔ)。
③ 去掉不含介詞短語(yǔ)的句子,并用CRF識(shí)別內(nèi)層介詞短語(yǔ)。
如測(cè)試語(yǔ)料中的句子“他們本著對(duì)親人、對(duì)家庭負(fù)責(zé)的態(tài)度”,經(jīng)過(guò)分詞、詞性標(biāo)注以及SNP識(shí)別融合后的結(jié)果是“他們/
隨后,使用CRF工具利用訓(xùn)練好的介詞短語(yǔ)內(nèi)層識(shí)別模型識(shí)別出介詞短語(yǔ),并根據(jù)雙重錯(cuò)誤校正系統(tǒng)進(jìn)行校正。然后,將識(shí)別校正后的內(nèi)層介詞短語(yǔ)進(jìn)行融合并修改相關(guān)特征。如上例分詞融合后結(jié)果為“他們/
最后,利用訓(xùn)練好的適合外層的模型對(duì)外層介詞短語(yǔ)進(jìn)行識(shí)別并進(jìn)行雙重錯(cuò)誤校正。
2.2.3 轉(zhuǎn)換規(guī)則集
本文在序列標(biāo)注后規(guī)則處理時(shí)使用的轉(zhuǎn)換規(guī)則集由兩部分構(gòu)成: 錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)(transformation-based error-driven learning, TBL)和語(yǔ)義分析得到的固定搭配。
TBL基本思想是通過(guò)錯(cuò)誤驅(qū)動(dòng)來(lái)修改識(shí)別結(jié)果,根據(jù)預(yù)先設(shè)計(jì)好的轉(zhuǎn)換模板和目標(biāo)函數(shù)尋找修正錯(cuò)誤最多的轉(zhuǎn)換規(guī)則,用生成的規(guī)則對(duì)標(biāo)注結(jié)果進(jìn)行修正,這部分規(guī)則由觸發(fā)條件和轉(zhuǎn)換規(guī)則組成。在進(jìn)行結(jié)果校正時(shí),若滿足觸發(fā)條件則進(jìn)行修正。
例如,句子“統(tǒng)統(tǒng)記在參加保險(xiǎn)者的名下?!睗M足觸發(fā)條件的介詞為“在”且其前詞詞性是動(dòng)詞,若分句中存在“的”,則標(biāo)記“的”后面的詞為“E”,介詞后的詞到“的”標(biāo)記為“I”,結(jié)果如表7所示。
表 7 轉(zhuǎn)換規(guī)則集示例
固定搭配是通過(guò)對(duì)介詞短語(yǔ)進(jìn)行語(yǔ)義分析得到的,本文參考分析國(guó)內(nèi)的語(yǔ)言學(xué)家們對(duì)介詞及介詞短語(yǔ)的研究成果,包括范曉[10]的《介賓短語(yǔ)·復(fù)指短語(yǔ)·固定短語(yǔ)》,張斌[11]的《現(xiàn)代漢語(yǔ)虛詞》,陳昌來(lái)[12]的《漢語(yǔ)“介詞框架”研究》等,總結(jié)出一系列適用于本文語(yǔ)料的固定搭配,如“對(duì)……來(lái)說(shuō)”“當(dāng)……時(shí)”。當(dāng)進(jìn)行結(jié)果校正時(shí),若當(dāng)前分句滿足固定搭配,則修改其標(biāo)注結(jié)果。
本實(shí)驗(yàn)語(yǔ)料選用《人民日?qǐng)?bào)》2000年1月語(yǔ)料,包含7 037個(gè)介詞短語(yǔ)信息。該語(yǔ)料經(jīng)過(guò)分詞工具[13]進(jìn)行分詞及詞性標(biāo)注,并進(jìn)行了人工校正。此外,需將訓(xùn)練語(yǔ)料格式化,使其適合CRF訓(xùn)練,刪除測(cè)試語(yǔ)料中不包含介詞短語(yǔ)的句子,并對(duì)其同樣進(jìn)行格式化處理,再使用CRF工具進(jìn)行序列標(biāo)注。
實(shí)驗(yàn)方法方面,本文采取五倍交叉實(shí)驗(yàn): 將語(yǔ)料平均分成五份,每份介詞短語(yǔ)數(shù)目如表8所示。使用其中一份語(yǔ)料作為測(cè)試語(yǔ)料,其他四份作為訓(xùn)練語(yǔ)料,重復(fù)進(jìn)行五次實(shí)驗(yàn),取平均值作為最終結(jié)果。
表 8 語(yǔ)料中介詞短語(yǔ)數(shù)目統(tǒng)計(jì)
實(shí)驗(yàn)結(jié)果采用CoNLL2000評(píng)價(jià)標(biāo)注,使用精確率(P)、召回率(R)和F值進(jìn)行評(píng)價(jià)。精確率表示正確識(shí)別的介詞短語(yǔ)所占識(shí)別出的介詞短語(yǔ)百分比,反映了模型的識(shí)別能力。召回率表示正確識(shí)別的介詞短語(yǔ)占語(yǔ)料中所有介詞短語(yǔ)的百分比,反映了模型的查全能力。F值綜合表征了精確率和召回率,體現(xiàn)了算法綜合性能。P、R、F值的公式如下:
其中,Nc代表正確識(shí)別的介詞短語(yǔ)數(shù),Ni代表識(shí)別出的介詞短語(yǔ)數(shù),Ny代表語(yǔ)料中的介詞短語(yǔ)總數(shù)。
本文進(jìn)行了五個(gè)對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)1是融入簡(jiǎn)單名詞短語(yǔ)的介詞短語(yǔ)識(shí)別結(jié)果;實(shí)驗(yàn)2是在實(shí)驗(yàn)1的基礎(chǔ)上對(duì)多層嵌套分層識(shí)別改進(jìn)的結(jié)果,將從右向左逐個(gè)識(shí)別改為逐層識(shí)別;實(shí)驗(yàn)3對(duì)實(shí)驗(yàn)2進(jìn)行了改進(jìn),對(duì)分層嵌套結(jié)構(gòu)識(shí)別結(jié)果進(jìn)行融合并對(duì)特征進(jìn)行更新;實(shí)驗(yàn)4在實(shí)驗(yàn)3的基礎(chǔ)上,外層介詞短語(yǔ)識(shí)別時(shí)重新訓(xùn)練新的模型,識(shí)別后再加規(guī)則處理的結(jié)果。實(shí)驗(yàn)5是在實(shí)驗(yàn)4基礎(chǔ)上,將外層介詞短語(yǔ)識(shí)別完后更換規(guī)則得到的結(jié)果。實(shí)驗(yàn)結(jié)果如表9所示。
實(shí)驗(yàn)2的P、R、F值相比實(shí)驗(yàn)1分別提高了0.32%,0.33%,0.33%,說(shuō)明在分層嵌套的情況下,以層為單位能夠降低某個(gè)介詞短語(yǔ)識(shí)別錯(cuò)誤對(duì)其他介詞短語(yǔ)造成的影響,這種方式更適合介詞短語(yǔ)的識(shí)別;實(shí)驗(yàn)3每層識(shí)別后,不再去掉已經(jīng)識(shí)別出來(lái)的介詞短語(yǔ),而是將其合并并修改標(biāo)注信息,P、R、F值比實(shí)驗(yàn)2分別提高了0.47%,0.46%,0.46%,說(shuō)明單純?nèi)サ糇R(shí)別出來(lái)的介詞短語(yǔ)會(huì)影響介詞短語(yǔ)的上下文信息,可能會(huì)導(dǎo)致接下來(lái)的介詞短語(yǔ)識(shí)別錯(cuò)誤;實(shí)驗(yàn)4在不同層介詞短語(yǔ)識(shí)別時(shí)采用不同的訓(xùn)練模型進(jìn)行識(shí)別,P、R、F值比實(shí)驗(yàn)3分別提高了0.22%,0.21%,0.22%,說(shuō)明不同層次的介詞短語(yǔ)上下文信息也會(huì)不同,同一個(gè)訓(xùn)練模型不能很好地處理嵌套結(jié)構(gòu)。實(shí)驗(yàn)5相比實(shí)驗(yàn)4 的P、R、F值分別提高了0.08%,0.07%,0.07%,說(shuō)明不同層的介詞短語(yǔ)由于結(jié)構(gòu)不同所使用的校正規(guī)則信息也應(yīng)不同。
表 9 實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)
表10給出了本文方法和融合SNP方法(baseline)對(duì)嵌套并列結(jié)構(gòu)介詞短語(yǔ)識(shí)別的改進(jìn)效果對(duì)比。
表 10 嵌套并列結(jié)構(gòu)介詞短語(yǔ)總數(shù)及識(shí)別錯(cuò)誤數(shù)目
為了進(jìn)一步說(shuō)明本文方法的有效性,本文在同一語(yǔ)料上重現(xiàn)了相關(guān)的研究方法,表11為本文方法與其他方法的實(shí)驗(yàn)對(duì)比。
表11 與其他方法的結(jié)果比較
由表11的實(shí)驗(yàn)結(jié)果可見(jiàn),與其他模型相比,CRF模型能夠較好地利用上下文信息,并通過(guò)特征的重要性對(duì)其加權(quán),識(shí)別結(jié)果精度較高;文獻(xiàn)[7]的結(jié)果說(shuō)明融入簡(jiǎn)單名詞短語(yǔ)能夠降低句子的復(fù)雜程度,提高識(shí)別精度;文獻(xiàn)[6-7]采用的從右向左逐個(gè)介詞短語(yǔ)的識(shí)別方法,某個(gè)介詞短語(yǔ)識(shí)別錯(cuò)誤會(huì)對(duì)接下來(lái)要識(shí)別的介詞短語(yǔ)產(chǎn)生影響,本文對(duì)識(shí)別方法的改進(jìn),降低了復(fù)雜嵌套、并列結(jié)構(gòu)介詞短語(yǔ)的識(shí)別難度,不同層次采用不同的訓(xùn)練模型進(jìn)行識(shí)別,能夠更好地獲得嵌套介詞短語(yǔ)的特征信息,提高識(shí)別效果。
中文介詞短語(yǔ)中,介詞短語(yǔ)嵌套和并列現(xiàn)象是影響介詞短語(yǔ)識(shí)別性能的重要問(wèn)題之一。為此,本文提出了多模型融合的中文介詞短語(yǔ)識(shí)別方法。實(shí)驗(yàn)結(jié)果表明:
① 介詞短語(yǔ)具有嵌套、并列的復(fù)雜結(jié)構(gòu),從右向左識(shí)別介詞短語(yǔ)的方法中,某個(gè)介詞短語(yǔ)的識(shí)別錯(cuò)誤會(huì)影響到后續(xù)的介詞短語(yǔ)識(shí)別。分層識(shí)別方法不是每次只識(shí)別一個(gè),而是將同一層次的介詞短語(yǔ)同時(shí)進(jìn)行識(shí)別,更適合存在嵌套、并列的介詞短語(yǔ)。
② 內(nèi)外層介詞短語(yǔ)結(jié)構(gòu)不同,上下文信息也不同,需要不同的訓(xùn)練模型進(jìn)行識(shí)別,訓(xùn)練語(yǔ)料需要將標(biāo)記的內(nèi)層介詞短語(yǔ)融合,并進(jìn)行特征修改后訓(xùn)練嵌套模型,以適應(yīng)外層介詞短語(yǔ)識(shí)別。
③ 識(shí)別出的內(nèi)層介詞短語(yǔ)不再進(jìn)行去除,而是根據(jù)識(shí)別結(jié)果將測(cè)試語(yǔ)料中相應(yīng)的詞語(yǔ)進(jìn)行分詞融合,并將相應(yīng)特征進(jìn)行修改,以適應(yīng)外層介詞短語(yǔ)識(shí)別。在外層識(shí)別時(shí),重新訓(xùn)練新的模型使之適合當(dāng)前層的識(shí)別,可提高識(shí)別效果。
在語(yǔ)料處理過(guò)程中,簡(jiǎn)單名詞短語(yǔ)的識(shí)別錯(cuò)誤可能會(huì)將介詞短語(yǔ)的后界與后詞合并在一起,導(dǎo)致識(shí)別介詞短語(yǔ)錯(cuò)誤。例如,句子“加大 對(duì) 大要案件 偵辦力度”經(jīng)過(guò)簡(jiǎn)單名詞短語(yǔ)識(shí)別融合后結(jié)果為“加大 對(duì) 大要案件偵辦力度”,介詞短語(yǔ)識(shí)別結(jié)果為“對(duì)大要案件偵辦力度”,而正確結(jié)果為“對(duì)大要案件”。因此后續(xù)的研究要改善簡(jiǎn)單名詞短語(yǔ)的識(shí)別方法,使簡(jiǎn)單名詞短語(yǔ)的粒度細(xì)化,以提高精確率和召回率。
[1] 吳云芳. 現(xiàn)代漢語(yǔ)介詞結(jié)構(gòu)的自動(dòng)標(biāo)注[D]. 北京: 北京語(yǔ)言文化大學(xué)碩士學(xué)位論文, 1998.
[2] 干俊偉, 黃德根. 漢語(yǔ)介詞短語(yǔ)的自動(dòng)識(shí)別[J]. 中文信息學(xué)報(bào), 2005, 19(4):17-23.
[3] 盧朝華, 黃廣君, 郭志兵. 基于最大熵的漢語(yǔ)介詞短語(yǔ)識(shí)別研究[J]. 通信技術(shù), 2010, 43(5):181-183.
[4] 奚建清, 羅強(qiáng). 基于HMM的漢語(yǔ)介詞短語(yǔ)自動(dòng)識(shí)別研究[J]. 計(jì)算機(jī)工程, 2007, 33(3):172-173.
[5] 胡思磊. 基于CRF模型的漢語(yǔ)介詞短語(yǔ)識(shí)別[D]. 大連: 大連理工大學(xué)碩士學(xué)位論文, 2008.
[6] 張杰. 基于多層CRFs的漢語(yǔ)介詞短語(yǔ)識(shí)別研究[D]. 大連: 大連理工大學(xué)碩士學(xué)位論文, 2013.
[7] 桑樂(lè)園, 黃德根. 基于簡(jiǎn)單名詞短語(yǔ)的漢語(yǔ)介詞短語(yǔ)識(shí)別研究[J]. 中文信息學(xué)報(bào), 2015, 29(6):8-12.
[8] 孫玉祥. 漢語(yǔ)簡(jiǎn)單名詞短語(yǔ)自動(dòng)識(shí)別的研究[D]. 大連: 大連理工大學(xué)碩士學(xué)位論文, 2014.
[9] Lafferty J D, Mccallum, et al. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[M]. Departmental Papers (CIS), 2001.
[10] 范曉. 介賓短語(yǔ)·復(fù)指短語(yǔ)·固定短語(yǔ)[M]. 北京: 人民教育出版社, 1990.
[11] 張斌. 現(xiàn)代漢語(yǔ)虛詞[M]. 上海: 華東師范大學(xué)出版社, 2000.
[12] 陳昌來(lái). 漢語(yǔ)“介詞框架”研究[M]. 北京: 商務(wù)印書(shū)館, 2014.
[13] Degen H, Deqin T. Context information and fragments based cross-domain word segmentation[J]. China Communications, 2012, 9(3):49-57.