張志昌,姚東任,劉 霞,陳松毅,魯小勇
(西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州730070)
融合句法結(jié)構(gòu)變換與詞匯語義特征的文本蘊(yùn)涵識(shí)別
張志昌,姚東任,劉 霞,陳松毅,魯小勇
(西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州730070)
傳統(tǒng)文本蘊(yùn)涵識(shí)別方法僅停留在詞匯級(jí)的識(shí)別,無法涉及句法、語義等方面,造成識(shí)別結(jié)果的F值較低。針對(duì)該問題,提出一種將句法結(jié)構(gòu)的變換和傳統(tǒng)詞匯語義特征結(jié)合的中文文本蘊(yùn)涵識(shí)別方法。對(duì)文本進(jìn)行基于句法分析樹變換的預(yù)處理,將句法分析中適用于文本蘊(yùn)涵識(shí)別的特征加入到相關(guān)的統(tǒng)計(jì)和詞匯語義特征中,使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法對(duì)由文本片段T和假設(shè)的文本片段H組成的文本對(duì)進(jìn)行蘊(yùn)涵關(guān)系分類,并經(jīng)過語義規(guī)則的修正處理得到最終的識(shí)別結(jié)果。在NTCIR RITE3上的評(píng)測(cè)結(jié)果表明,與III&CYUT,Yam raj等相比,該方法能獲得較高的F值。
中文文本蘊(yùn)涵;句法結(jié)構(gòu)變換;詞匯語義特征;詞匯統(tǒng)計(jì)特征;統(tǒng)計(jì)機(jī)器學(xué)習(xí)
在自然語言處理的很多實(shí)際應(yīng)用(如問答系統(tǒng)、多文檔自動(dòng)摘要、信息抽取、機(jī)器翻譯評(píng)測(cè)等方面)中,經(jīng)常需要進(jìn)行文本的相似匹配或者語義推斷。這些應(yīng)用面臨的一個(gè)主要困難是自然語言表達(dá)形式上的歧義性(同義異形、同形異義)。為了能夠有效地解決在實(shí)際應(yīng)用中進(jìn)行文本語義推理所面臨的歧義現(xiàn)象,Dagan和G lickman在2004年提出[1]用文本蘊(yùn)涵這一概念為這些歧義現(xiàn)象建立一種統(tǒng)一的模型和處理框架。
所謂文本蘊(yùn)涵[2]是指一個(gè)文本H中的意思可以通過另一個(gè)文本T推斷得到。更確切地講,給定一個(gè)文本片段T和被稱為假設(shè)的文本片段H,根據(jù)T的上下文語境進(jìn)行解釋時(shí),H的含義可以從T的含義中推斷出來,則稱T蘊(yùn)涵H,記做T=>H。例如:T:百度的總部在北京市海淀區(qū);H:百度的總部在中國(guó)。這樣,T=>H,但是H≠>T。
近年來,隨著人們對(duì)文本蘊(yùn)涵重要性的認(rèn)識(shí),越來越多的學(xué)者加入到這個(gè)研究方向上來。已有的文本蘊(yùn)涵識(shí)別方法主要有以下3種:
(1)基于邏輯推理解碼[3-5]的方法。將文本T和假設(shè)H轉(zhuǎn)化為邏輯表示形式ΦT和ΦH,然后利用公理證明引擎,借助各種蘊(yùn)涵規(guī)則和知識(shí)B,判斷是否能從ΦT推出ΦH,即判斷是否(ΦT∧B)=>ΦH如果能夠推出,則蘊(yùn)涵。該方法直觀、容易理解,但是如果沒有足夠的蘊(yùn)涵規(guī)則和知識(shí),則公理證明引擎很難從文本T的邏輯表示推出假設(shè)H的邏輯表示。
(2)在兩文本間進(jìn)行對(duì)齊和相似度計(jì)算的方法。計(jì)算T(或其某個(gè)局部)和H(或其某個(gè)局部)的各種相似度,如果該值超過一定閾值,則認(rèn)為T蘊(yùn)涵H。相似度的計(jì)算大致可分為如下3種:1)詞匯層面,計(jì)算兩文本表層字符串相似度[6];2)句法層面,計(jì)算T和H句法分析樹的某2個(gè)子樹的樹相似度[7];3)在淺層語義的層面進(jìn)行。即在計(jì)算T的某個(gè)局部和H之間的相似度時(shí),結(jié)合兩者的語義角色標(biāo)注信息[8]。另外,當(dāng)T蘊(yùn)涵H時(shí),H中的詞匯在T中也并不一定連續(xù)出現(xiàn)。所以,將T和H相對(duì)應(yīng)的詞匯進(jìn)行對(duì)齊也可以視為相似度的一種度量[9]。這類方案不可避免地要應(yīng)用到類義字典(知網(wǎng)、W ordNet等)、蘊(yùn)涵規(guī)則等各種語言知識(shí)資源,而中文的資源又相對(duì)缺乏,導(dǎo)致這方面的研究受限。
(3)基于機(jī)器學(xué)習(xí)分類的方法[10]。判斷文本T和假設(shè)H之間是否存在蘊(yùn)涵關(guān)系可視為二元分類問題,利用機(jī)器學(xué)習(xí)方法,在大量的已標(biāo)注文本蘊(yùn)涵對(duì)(就是文本T和假設(shè)H)語料上訓(xùn)練得到分類模型。在需要識(shí)別新的文本蘊(yùn)涵關(guān)系時(shí),利用訓(xùn)練到的模型進(jìn)行分類。該類方法既需要有大量的已標(biāo)注的正例和反例文本蘊(yùn)涵對(duì),在構(gòu)造文本T和假設(shè)H的特征向量時(shí),也需要有各種語言和世界知識(shí)資源。
在上述方法中,利用公理證明引擎或者規(guī)則推理的方案都需要大量的外部知識(shí)模式,但這些模式庫(kù)無法在短時(shí)間內(nèi)構(gòu)建起來。因此,將各種相似度計(jì)算的結(jié)果加入到特征向量,并利用已有的機(jī)器學(xué)習(xí)方法進(jìn)行蘊(yùn)涵關(guān)系識(shí)別的處理方式則成為文本蘊(yùn)涵研究的主流方向。但隨之而來的問題是難以找到一種或幾種能夠有效表達(dá)兩文本之間蘊(yùn)涵關(guān)系的特征。原因在于絕大多數(shù)特征選取的過程中并沒有將句法結(jié)構(gòu)的信息融入進(jìn)來,而缺少了句法信息的詞匯語義疊加和統(tǒng)計(jì)對(duì)于句子一級(jí)語義的歧義性判別十分有限,進(jìn)而影響文本對(duì)之間的蘊(yùn)涵關(guān)系識(shí)別。
針對(duì)已有方法的不足,本文在相關(guān)統(tǒng)計(jì)特征、詞匯語義特征的基礎(chǔ)上,將句法信息融合到淺層特征中。通過對(duì)句法分析樹的裁剪變換,最大程度保留與蘊(yùn)涵判別相關(guān)的句法信息。通過現(xiàn)有的機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練、預(yù)測(cè),并通過語義規(guī)則的修正處理得到最終的識(shí)別結(jié)果。
2.1 模型框架
本文所提出的蘊(yùn)涵識(shí)別系統(tǒng),其模型由預(yù)處理、特征融合、分類器和修正模塊4個(gè)部分組成,具體的模型結(jié)構(gòu)如圖1所示。
圖1 本文模型結(jié)構(gòu)
預(yù)處理模塊的使用為文本的特征提取奠定了基礎(chǔ)。本文系統(tǒng)主要使用了哈工大的LTP語言云作為分詞和句法分析的工具,可以較好地完成預(yù)處理的相關(guān)工作。命名實(shí)體識(shí)別經(jīng)過比較后決定采用了Stanford的分析器作為本文的處理工具。
2.2 傳統(tǒng)特征集
本文使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法對(duì)文本對(duì)進(jìn)行分類時(shí),利用了詞的統(tǒng)計(jì)和語義特征進(jìn)行蘊(yùn)涵關(guān)系判別。
2.2.1 統(tǒng)計(jì)特征
系統(tǒng)利用詞覆蓋度fOverlap來表示文本對(duì)中相同詞匯的重復(fù)率,采用如下公式:
長(zhǎng)度差fLength的特征有助于系統(tǒng)利用文本的長(zhǎng)度進(jìn)行蘊(yùn)涵方向的輔助判定,公式為:
如果將文本表示成向量的形式,利用向量的余弦相似度比較文本的相似程度。余弦相似度fWordSim的定義如下:
其中,向量Ti和Hi是由文本T和H生成的n維向量。
2.2.2 詞匯語義特征
本文系統(tǒng)使用基于《同義詞林(擴(kuò)展版)》的語義相似度計(jì)算[11]的方法,通過式(4)來實(shí)現(xiàn)文本對(duì)中的詞匯語義的計(jì)算。式(4)的w1i和w2j表示T和H經(jīng)過分詞后的詞語,而simw(w1i和w2j)是w1i和w2j之間基于《同義詞詞林(擴(kuò)展版)》的相似度。
通過使用互聯(lián)網(wǎng)上的反義詞詞典實(shí)現(xiàn)文本T和H中反義詞的統(tǒng)計(jì),得到的數(shù)量差作為一個(gè)特征fA。同理通過遍歷2個(gè)文本對(duì),得到否定詞的個(gè)數(shù),也作為一個(gè)特征fN加入到系統(tǒng)中。使用下式進(jìn)行計(jì)算:
其中,c代表A或者N。
經(jīng)過觀察發(fā)現(xiàn),命名實(shí)體出現(xiàn)的次數(shù)能在一定程度上反應(yīng)文本對(duì)之間的蘊(yùn)涵關(guān)系。因此,使用式(6)實(shí)現(xiàn)命名實(shí)體重疊度的計(jì)算:
傳統(tǒng)的特征工程可以在一定程度上表達(dá)文本對(duì)之間的蘊(yùn)涵關(guān)系,但是并沒有在句法結(jié)構(gòu)和語義的層面解決這個(gè)問題。而所用的淺層詞匯特征經(jīng)常難以解釋文本間語義的蘊(yùn)涵關(guān)系。因此,本文將句法分析的結(jié)果融合到特征提取的過程之中,以檢驗(yàn)中文句法結(jié)構(gòu)特征對(duì)中文文本蘊(yùn)涵識(shí)別的效果。
2.3 基于句法結(jié)構(gòu)變換的句法特征
如前文所述,傳統(tǒng)的特征工程是無法表達(dá)句法一級(jí)的蘊(yùn)涵關(guān)系。下面的例子來自2014年NTCIRRITE3的測(cè)試語料:
一方面,這2句對(duì)話都擁有100%的字相似度,如果使用傳統(tǒng)的特征,均會(huì)被判別為存在蘊(yùn)涵關(guān)系。而事實(shí)上,第一個(gè)文本對(duì)T和H之間是不存在蘊(yùn)涵關(guān)系的。因此,對(duì)句子本身的主謂、并列、從屬等關(guān)系的獲取可以大大提升系統(tǒng)的蘊(yùn)涵識(shí)別能力。
而另一方面,過多的句法特征雖然保證了句法結(jié)構(gòu)的完整性,但是對(duì)于蘊(yùn)涵問題本身的解決是沒有必要的。文本T蘊(yùn)涵文本H意味著H中的全部信息一定可以在T中找到相同或近似的表述。因此,尋找2個(gè)文本中的公共字符串,不僅可以反映2個(gè)文本間信息的重疊程度,減少因中文分詞工具對(duì)未登錄詞識(shí)別方面的錯(cuò)誤而帶來的對(duì)句子理解的影響,而且也可以減少需要處理的句法關(guān)系的數(shù)量。系統(tǒng)通過對(duì)句法分析后的節(jié)點(diǎn)進(jìn)行聚合,將原本復(fù)雜的句法分析樹變換成只包含影響蘊(yùn)涵關(guān)系判別的最小信息樹。
句法樹結(jié)構(gòu)變換的核心思想是通過聚合句法分析樹的節(jié)點(diǎn),將樹中無用信息節(jié)點(diǎn)刪除,生成2棵最小信息子樹。例如:
兩者的句法分析樹形如圖2所示。
圖2 實(shí)例的句法分析樹
SBV,VOB等是哈工大LTP語言云對(duì)語言單位內(nèi)成分之間的依存關(guān)系的分析結(jié)果,由于篇幅原因,詳細(xì)內(nèi)容請(qǐng)?jiān)L問語言云官網(wǎng)。
“營(yíng)養(yǎng)及光線充足的環(huán)境”是2個(gè)句子中的公共字串。除了公共字串部分之外,作為實(shí)體的“水蘊(yùn)草”在兩句均被錯(cuò)分成了2個(gè)詞;左側(cè)的句法樹中“水蘊(yùn)”、“草”、“適合”以及“生長(zhǎng)”節(jié)點(diǎn)組成的子樹會(huì)與右側(cè)句法樹中由“適合”、“水蘊(yùn)”、“草”以及“生長(zhǎng)”節(jié)點(diǎn)組成的子樹進(jìn)行近似子樹的判別。若經(jīng)過算法判定兩者相似度大于閾值,則將句法樹中的這些節(jié)點(diǎn)合并成一個(gè)節(jié)點(diǎn),從而得到生成的最小信息樹,如圖3所示。
圖3 實(shí)例的最小信息樹
最小信息樹裁剪算法如下:
輸入 具有節(jié)點(diǎn){ν1,ν2,…,νn}和{ν1′,ν2′,…,νn′}的句法樹T,H,以及保存有節(jié)點(diǎn)間依存句法關(guān)系的結(jié)構(gòu)體
輸出 T,H生成的最小信息樹Ti,Hi,保留了T,H之間信息蘊(yùn)涵部分,刪除原本2個(gè)句法樹中與文本蘊(yùn)涵識(shí)別無關(guān)的語義信息,使得T,H之間相對(duì)復(fù)雜的蘊(yùn)涵關(guān)系可以用Ti,Hi最小信息樹的方式表示
SteP1 令DT,DH為待處理節(jié)點(diǎn)集,其中,Di= ?。然后利用KMP算法來尋找T,H中全部公共字符串作為獨(dú)立子樹dij加入Di,i=T,H。
SteP2 以較小的樹為對(duì)象,尋找T,H所有的公共最大近似子樹(表述相似的字串)。其中,最大近似子樹的尋找采用字覆蓋度的計(jì)算將可能作為最大近似的子樹遍歷搜索出來。經(jīng)過反復(fù)人工調(diào)整、觀察,當(dāng)最終字覆蓋度的值大于等于0.76時(shí),利用式(2)進(jìn)行判斷,將滿足最大近似子樹的節(jié)點(diǎn)按原樹Ti的組織形式diK加入到Di中;否則繼續(xù)尋找,直到遍歷完整個(gè)子樹。尋找最大近似子樹的節(jié)點(diǎn)不能涉及Step1中處理過的點(diǎn)。
SteP3 變換T和H,合并待處理Di中每個(gè)diχ所涉及的全部節(jié)點(diǎn),新節(jié)點(diǎn)的位置由合并節(jié)點(diǎn)的最大父節(jié)點(diǎn)決定,選擇完后從Di中刪除。保留節(jié)點(diǎn)間的句法結(jié)構(gòu)、節(jié)點(diǎn)到根節(jié)點(diǎn)的路徑以及路徑上的節(jié)點(diǎn),直到Di為?。如果兩子樹中出現(xiàn)相同類型命名實(shí)體,即使不是同一個(gè)實(shí)體也保留其節(jié)點(diǎn)。
SteP4 刪除T和H中沒有處理過的節(jié)點(diǎn),并輸出生成最終的最小信息樹Ti,Hi。
系統(tǒng)將2棵子樹的詞匯相似度定義為l,句法結(jié)構(gòu)的相似度定義為s,相似度Sim的計(jì)算都采用式(7):
進(jìn)而近似子樹的相似度Simt測(cè)量定義為:
其中,0≤α,β≤1,α+β=1,通過人工調(diào)試和觀察,當(dāng)α=0.55,β=0.45時(shí)能相對(duì)較好地區(qū)別字符串是否近似。
最小信息樹雖然在原句法樹的基礎(chǔ)上節(jié)點(diǎn)數(shù)量已大大減少,但是最小信息樹本身依舊保留了一些語義特征。因此,對(duì)2個(gè)最小信息樹相似度的比較不應(yīng)僅僅使用統(tǒng)計(jì)特征。本文采用式(8),最大程度使用最小信息樹中的特征進(jìn)行相似度計(jì)算:
其中,INE表示命名實(shí)體判別結(jié)果,判別公式為:
SV是依存句法分析中主謂判斷,判別公式為:
通過上述方式將部分的句法分析結(jié)果作為特征加入到系統(tǒng)中,然后通過基于高斯混合分布的樸素貝葉斯和支持向量機(jī)(Support Vector Machine,SVM)算法進(jìn)行分類。
2.4 修正模塊的介紹
2.4.1 數(shù)字歸一化處理
和實(shí)際的語言現(xiàn)象相同,在RITE3的評(píng)測(cè)語料中也存在有同一個(gè)數(shù)字多種不同表達(dá)形式的問題。例如:
第1個(gè)例子中出現(xiàn)的現(xiàn)象只需要進(jìn)行相關(guān)數(shù)字表述的歸一化處理就可以判斷出兩句是不存在蘊(yùn)涵關(guān)系的;第2個(gè)例子中,數(shù)字本身并沒有直接關(guān)系,因此,兩者蘊(yùn)涵關(guān)系的識(shí)別需要進(jìn)行簡(jiǎn)單的語義推理。針對(duì)這類現(xiàn)象,將否定詞的出現(xiàn)作為對(duì)數(shù)字進(jìn)一步處理的評(píng)判標(biāo)準(zhǔn)。
2.4.2 地點(diǎn)特征處理
對(duì)于地點(diǎn)特征的處理,僅僅依靠命名實(shí)體識(shí)別是無法滿足文本蘊(yùn)涵判別的需求。例如:
這2個(gè)實(shí)例都滿足蘊(yùn)涵關(guān)系,但中國(guó)和亞洲的上下位關(guān)系,以及夏威夷與它的別稱檀香山的識(shí)別,只有通過維基百科等這樣的世界知識(shí)才能夠進(jìn)行相關(guān)內(nèi)容的判別。利用詞條下的相關(guān)內(nèi)容,根據(jù)關(guān)鍵字匹配,創(chuàng)建命名實(shí)體的等價(jià)或從屬關(guān)系,就可以進(jìn)行蘊(yùn)涵判別。
3.1 評(píng)測(cè)語料與評(píng)價(jià)標(biāo)準(zhǔn)
日本國(guó)立情報(bào)學(xué)研究所(National Institute of Informatics,NII)組織的NTCIR(NII Test Collection for IR Systems)在2011年開始了文本蘊(yùn)涵識(shí)別(Recognizing Inference in Text,RITE)方面的評(píng)測(cè)工作[12]。RITE的目的是評(píng)測(cè)系統(tǒng)識(shí)別特定語句關(guān)系的能力。本文所述的系統(tǒng)參加了2014年NTCIR-11中文簡(jiǎn)體RITE3任務(wù),其中,用于訓(xùn)練的文本對(duì)個(gè)數(shù)為581,測(cè)試語料的文本對(duì)個(gè)數(shù)為1 200。評(píng)測(cè)的文本包括歷史、政治、地理、體育等多種題材,覆蓋了推理、復(fù)述、從句等諸多語言現(xiàn)象,較為全面地評(píng)估了系統(tǒng)的蘊(yùn)涵判別能力。
系統(tǒng)的整體性能對(duì)于具體的文本蘊(yùn)涵關(guān)系的識(shí)別主要包括如下性能參數(shù),即準(zhǔn)確率P(Precision)、召回率R(Recall)以及F值(F-measure),計(jì)算公式如下:
其中,文本之間的關(guān)系r包括蘊(yùn)涵與不蘊(yùn)涵2種情況。將準(zhǔn)確率和召回率進(jìn)行綜合考慮的F值是RITE3評(píng)測(cè)的首要標(biāo)準(zhǔn)。
3.2 結(jié)果分析
表1是參與NTCIR RITE3中文簡(jiǎn)體蘊(yùn)涵判別二分問題(蘊(yùn)涵-不蘊(yùn)涵)評(píng)測(cè)的系統(tǒng)中成績(jī)最好的一些系統(tǒng)的性能指標(biāo)[13],其中,NWNU系統(tǒng)為使用本文方法實(shí)現(xiàn)的系統(tǒng)。4個(gè)評(píng)測(cè)指標(biāo)中,Macro-F1表示系統(tǒng)平均F值;ACC使用式(15)表示系統(tǒng)正確識(shí)別的總數(shù),而不是2種關(guān)系判別的準(zhǔn)確率的平均值;Y-F是系統(tǒng)關(guān)于存在蘊(yùn)涵關(guān)系的文本對(duì)識(shí)別的F值;N-F則是系統(tǒng)針對(duì)不存在蘊(yùn)涵關(guān)系的文本對(duì)識(shí)別的F值。
表1 NTCIR RITE3中文蘊(yùn)涵識(shí)別評(píng)測(cè)結(jié)果%
可以看出,本文方法在Macro-F1,ACC,N-F均取得了不錯(cuò)的分值,高出平均Macro-F1值的49.99%近10%。
為了分析不同特征對(duì)蘊(yùn)涵分類性能的影響,本文從基本的特征開始,逐漸添加其他不同的特征,從而形成了不同的系統(tǒng)版本。將這些使用了不同特征的系統(tǒng)提交給評(píng)測(cè)組織方,得到了不同版本系統(tǒng)的性能評(píng)測(cè)結(jié)果。表2給出了系統(tǒng)性能在融合不同特征后的表現(xiàn)。前4個(gè)系統(tǒng)采用基于混合高斯分布的樸素貝葉斯(Naive Bayesian,NB)作為分類器,第5個(gè)使用基于徑向基函數(shù)的支持向量機(jī)作為分類器。表2中的Y-Prec,Y-Rec,N-Prec,N-Rec分別表示系統(tǒng)對(duì)存在蘊(yùn)涵關(guān)系的文本對(duì)判別的準(zhǔn)確率和召回率,以及系統(tǒng)對(duì)不存在蘊(yùn)涵關(guān)系的文本對(duì)判別的準(zhǔn)確率和召回率。
表2 不同特征對(duì)系統(tǒng)性能影響的評(píng)測(cè)結(jié)果%
由表2可知,NWNU-CS-SVBC-01系統(tǒng)僅僅使用了字覆蓋度作為特征,45.82%的Macro-F值反映了評(píng)測(cè)語料的判別難度。NWNU-CS-SVBC-02是將前文提到的統(tǒng)計(jì)特征和詞匯語義特征(包括詞匯覆蓋度、詞匯余弦相似度、文本H與T的長(zhǎng)度差、基于《同義詞詞林(擴(kuò)展版)》的詞匯相似度、否定詞與反義詞的數(shù)理差異等)加入之后得到的新系統(tǒng),在F值和準(zhǔn)確率上都有5%左右的性能提升。NWNU-CSSVBC-03系統(tǒng)則是進(jìn)一步加入了基于句法結(jié)構(gòu)變換的最小信息樹特征fTree,該特征表現(xiàn)了部分句法結(jié)構(gòu)信息對(duì)蘊(yùn)涵關(guān)系識(shí)別的影響,系統(tǒng)的F值因而有了近7%的增長(zhǎng)。NWNU-CS-SVBC-04和NWNU-CSSVBC-05系統(tǒng)將之前描述的修正模塊加入到系統(tǒng)中,但收效甚微。分析原因,一方面可能是語言的多樣性使修正模塊的普適性受到限制;另一方面,修正模塊最終處理的相關(guān)語料過少也影響了最終F值的提升。
從前2屆RITE的語料訓(xùn)練結(jié)果來看,基于樸素貝葉斯的分類效果是所有統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法中效果最好的,支持向量機(jī)則稍低于樸素貝葉斯的分類效果。但是當(dāng)在NWNU-CS-SVBC-05系統(tǒng)中使用支持向量機(jī)作為分類器時(shí)卻得到了所有系統(tǒng)中最好的F值。
然而,本文系統(tǒng)還存在兩點(diǎn)不足。首先,由于不同類型語言現(xiàn)象對(duì)句法結(jié)構(gòu)的依賴程度不同,因此本文對(duì)句法分析的統(tǒng)一處理必然會(huì)存在局限性,進(jìn)而影響系統(tǒng)對(duì)蘊(yùn)涵關(guān)系的識(shí)別。其次,系統(tǒng)對(duì)于推理和詞匯蘊(yùn)涵類型的識(shí)別能力較弱,需要引入層次化更清晰的世界知識(shí)作為蘊(yùn)涵識(shí)別的資源。
以NTCIR-11的RITE3為評(píng)測(cè)標(biāo)準(zhǔn),本文設(shè)計(jì)并實(shí)現(xiàn)了面向中文文本的蘊(yùn)涵識(shí)別系統(tǒng)。該系統(tǒng)將統(tǒng)計(jì)特征、詞匯語義特征,以及經(jīng)過了句法結(jié)構(gòu)變換的句法特征作為分類特征向量,使用傳統(tǒng)機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)蘊(yùn)涵關(guān)系的判別。評(píng)測(cè)結(jié)果證明了其有效性。今后將嘗試針對(duì)不同語言表述現(xiàn)象進(jìn)行蘊(yùn)涵問題的分析和處理,通過建立適合蘊(yùn)涵識(shí)別問題的規(guī)則和層次化的世界知識(shí)來增強(qiáng)蘊(yùn)涵的自動(dòng)推理能力。
[1] Dagan I,Glickman O.Probabilistic Textual Entailment:Generic Applied Modeling of Language Variability[C]// Proceedings of PASCAL Workshop on Learning Methods for Text Understanding and Mining.Grenoble,F(xiàn)rance:Association for Computational Linguistics,2004.
[2] 袁毓林,王明華.文本蘊(yùn)涵的推理模型與識(shí)別模型[J].中文信息學(xué)報(bào),2010,24(2):3-13.
[3] Tatu M,Moldovan D.COGEX at RTE 3[C]//Proceedings of ACL-PASCAL Workshop on Textual Entailment and Paraphrasing.Prague,Czech Republic:Association for Computational Linguistics,2007:22-27.
[4] Harmeling S.Inferring Textual Entailment with a Probabilistically Sound Calculus[J].Natural Language Engineering,2009,15(4):459-477.
[5] Bar-Haim R,Berant J,Dagan I.A Compact Forest for Scalable Inference over Entailment and Paraphrase Rules[C]// Proceedings of Conference on Empirical Methods in Natural Language Processing.Singapore:Association for Computational Linguistics,2009:1056-1065.
[6] Malakasiotis P,Androutsopoulos I.Learning Textual Entailment Using SVMs and String Similarity Measures[C]// Proceedings of ACL-PASCAL Workshop on Textual Entailment and Paraphrasing.Association for Computational Linguistics.Prague,Czech Republic:Association for Computational Linguistics,2007:42-47.
[7] Maytham A,Allan R.Natural Language Inference for Arabic Using Extended Tree Edit Distance with Subtrees[J]. Journal of Artificial Intelligence Research,2013,48(5):1-22.
[8] 吳曉鋒,宗成慶.基于語義角色標(biāo)注的新聞?lì)I(lǐng)域復(fù)述句識(shí)別方法[J].中文信息學(xué)報(bào),2010,24(5):3-9.
[9] Wang Xiaolin,Zhao Hai,Lu Baoliang.BCM I-NLP Labeled-alignment-based Entailment System for NTCIR-10 RITE-2 Task[C]//Proceedings of the 10th NTCIR Conference.Tokyo,Japan:National Institute of Informatics,2013:18-21.
[10] Galitsky B.Machine Learning of Syntactic Parse Trees for Search and Classification of Text[J].Engineering Applications of Artificial Intelligence,2013,26(3):1072-1091.
[11] 田久樂,趙 蔚.基于同義詞林的詞語相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào),2010,28(6):602-608.
[12] 劉茂福,李 妍,姬東鴻.基于事件語義特征的中文文本蘊(yùn)涵識(shí)別[J].中文信息學(xué)報(bào),2013,27(5):129-136.
[13] Suguru M,Yusuke M,Tomohide S,et al.Overview of the NTCIR-11 Recognizing Inference in Text and Validation(RITE-VAL)Task[C]//Proceedings of the 11th NTCIR Conference.Tokyo,Japan:National Institute of Informatics,2014:9-12.
編輯 劉 冰
Textual Entailment Recognition Fused with Syntactic Structure Transformation and Lexical Semantic Features
ZHANG Zhichang,YAO Dongren,LIU Xia,CHEN Songyi,LU Xiaoyong
(College of Computer Science and Engineering,Northwest Norm al University,Lanzhou 730070,China)
The traditional textual entailment recognition methods only stay at vocabulary level,not involving the influence of the syntactic and semantic aspects,and reduce the F value of the identification results.In order to solve this problem,a Chinese text recognition method is proposed which is fused with the transformation of syntactic structure and traditional lexical semantic characteristics.This method makes the text preprocessing based on syntax analysis tree transformation,adds the text contains identification features of syntactic analysis into related statistics and lexical semantic characteristics,uses the statistical machine learning methods to make entailment relationship classification of text T and assumptions text H,and gets the final recognition result through the correction processing of semantic rules.Evaluation results with NTCIR RITE3 show that compared with III&CYUT,Yam raj,etc,the method can obtain higher F value.
Chinese textual entailment;syntactic structure transformation;lexical semantic feature;lexical statistical feature;statistical machine learning
張志昌,姚東任,劉 霞,等.融合句法結(jié)構(gòu)變換與詞匯語義特征的文本蘊(yùn)涵識(shí)別[J].計(jì)算機(jī)工程,2015,41(9):199-204.
英文引用格式:Zhang Zhichang,Yao Dongren,Liu Xia,et al.Textual Entailment Recognition Fused with Syntactic Structure Transformation and Lexical Semantic Features[J].Computer Engineering,2015,41(9):199-204.
1000-3428(2015)09-0199-06
A
TP399
10.3969/j.issn.1000-3428.2015.09.037
國(guó)家自然科學(xué)基金資助項(xiàng)目(61163039,61163036,61363058);西北師范大學(xué)青年教師科研能力提升計(jì)劃基金資助項(xiàng)目(NWNULKQN-10-2,NWNU-LKQN-12-23)。
張志昌(1976-),男,副教授、博士,主研方向:自然語言處理,數(shù)據(jù)挖掘;姚東任、劉 霞、陳松毅,碩士研究生;魯小勇,工程師。
2014-11-19
2014-12-18 E-m ail:zzc@nw nu.edu.cn