趙紅燕,劉 鵬,李 茹,王智強(qiáng)
(1.太原科技大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,山西太原030024;2.中國電子科技集團(tuán)公司第二研究所,山西太原030024;3.山西大學(xué)計算機(jī)與信息技術(shù)學(xué)院,山西太原030006;4.山西大學(xué)計算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西太原030006)
由于自然語言在表達(dá)形式上靈活多樣,相同的含義往往可以采用不同的陳述形式來表達(dá),或從不同的文本中推斷出來,為了解決這種同義異形現(xiàn)象,Dagan和Glickman[1]在2004年提出用“文本蘊(yùn)涵(Textual Entailment)”來為這些歧義現(xiàn)象建立統(tǒng)一的模型和處理框架。
所謂文本蘊(yùn)涵[2],是指一個文本(Hypothesis,H)的意義可以從另外一個文本(Text,T)的意義推斷出來。更確切地說,就是給定一個文本片段T和一個被稱為假設(shè)的文本片段H,根據(jù)T的上下文語境和世界知識,可以從T的含義中推斷出H的含義來,則稱T蘊(yùn)涵H。
自2005年以來,文本蘊(yùn)涵識別(Recognizing Textual Entailment,RTE)已經(jīng)得到了學(xué)術(shù)界的重視,由美國國家標(biāo)準(zhǔn)技術(shù)局(National Institute of Standards and Technology,NIST)組織的一年一度的國際文本評測會議(Text Analysis Conference,TAC)把RTE作為重要的評測任務(wù)之一,到目前為止RTE評測已經(jīng)舉辦了7屆。
針對文本蘊(yùn)涵識別國內(nèi)外學(xué)者提出了很多方法,構(gòu)建了一定量的文本蘊(yùn)涵識別模型和推理模型。目前文本蘊(yùn)涵識別模型大都是基于詞匯、句法、淺層語義等方面進(jìn)行建模,利用各種語義詞典、世界知識、語言知識及本體知識進(jìn)行句子相似度計算或邏輯推理等方法來實(shí)現(xiàn)。例如,Shachar Mirkin[3]等提出的基于模式和詞匯相似度分布的文本蘊(yùn)涵識別模型,Peter clark[4]等提出了一個基于WordNet和DIRT的詞匯知識文本蘊(yùn)涵識別系統(tǒng)BLUE;北京工業(yè)大學(xué)劉江利[5]等提出基于詞匯與句法關(guān)系匹配的蘊(yùn)涵關(guān)系識別方法;山西大學(xué)張鵬[6]等提出利用FrameNet框架關(guān)系識別文本蘊(yùn)涵等都取得了一定的成績,但影響文本蘊(yùn)涵的因素錯綜復(fù)雜,文本蘊(yùn)涵模型總體識別準(zhǔn)確度不高,2009年參加RTE5評測的21個團(tuán)隊(duì)中,2-ways任務(wù)評測最高準(zhǔn)確率達(dá)到73.5%,平均準(zhǔn)確率達(dá)到61.52%,文本蘊(yùn)涵識別的準(zhǔn)確度還有很大的提升空間。因此,本文綜合考慮詞匯特征、句法特征及語義特征對文本蘊(yùn)涵的影響,提出一種多特征文本蘊(yùn)涵識別模型,然后利用統(tǒng)計學(xué)習(xí)方法訓(xùn)練分類器。
SVM[7](Support Vector Machine)自從1995年由Vapnic提出以來,鑒于其具有堅(jiān)實(shí)的統(tǒng)計學(xué)習(xí)理論基礎(chǔ)、以及有效防止過學(xué)習(xí)能力及核函數(shù)的靈活運(yùn)用等優(yōu)點(diǎn),在許多應(yīng)用領(lǐng)域均獲得良好的應(yīng)用。并且,基于SVM的分類也被證明是當(dāng)今最好的分類方法之一。1998年,Joachims[8]驗(yàn)證了SVM在文本分類中的優(yōu)異性能。因此本文將文本蘊(yùn)涵轉(zhuǎn)化為二元分類問題,通過提取文本的詞匯特征、句法特征及FrameNet語義知識庫特征的多種選取特征方法構(gòu)造特征矩陣,利用臺灣大學(xué)林智仁[9](Lin Chih-Jen)老師等開發(fā)的SVM模式識別與回歸的軟件包LIBSVM訓(xùn)練分類模型,實(shí)現(xiàn)文本蘊(yùn)涵識別。
本文后面的組織結(jié)構(gòu)如下:第2節(jié)介紹了文本蘊(yùn)涵識別模型及特征選??;第3節(jié)介紹了本文的實(shí)驗(yàn)及結(jié)果分析;第4節(jié)對本文提出了總結(jié)及展望。
文本蘊(yùn)涵識別模型的輸入是一個T-H對,通過算法判斷T是否蘊(yùn)涵H,輸出非真即假的二元結(jié)果。文本蘊(yùn)涵識別流程如圖1所示。
圖1 文本蘊(yùn)涵識別流程圖
對訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集均做如下預(yù)處理:
(1)從RTE數(shù)據(jù)集的XML文件中抽取T-H對,把它存儲成文本格式,稱為file1;
(2)使用EnStemmer[10]對file1中的動、名詞進(jìn)行詞形還原,并去掉停用詞,存儲為file2;
(3)使用POStagger[11]對file2生成的文件進(jìn)行詞性標(biāo)注,生成file3;
(4)利用WordNet對file3進(jìn)行同義詞擴(kuò)展生成file4;
(5)由Stanford Parser[12]對file1進(jìn)行句法依存關(guān)系分析,生成file5;
(6)利用Frame-semantic Parsing[13-14]對file1進(jìn)行FrameNet標(biāo)注生成file6。
2.2.1 詞匯特征
在詞匯層面[15]上假設(shè)T句和H句是由一組詞匯組成的,如果H跟T具有相同的詞目或詞類,或通過一系列詞匯轉(zhuǎn)換,H中的詞h都能跟T中的詞t相配匹(忽略虛詞),那么就認(rèn)為T蘊(yùn)涵H。
(1)詞形特征
詞形特征反映原語料中文本T和假設(shè)H兩個句子中詞語在基本形態(tài)上的配匹程度,以T-H對中所含有相同詞的個數(shù)來衡量。T-H對詞形配匹值計算如式(1)所示。
其中:SameWord(T,H)為文本T和假設(shè)H中所含相同詞的個數(shù),Len(H)為H句的長度。
(2)句長特征
句長特征反映兩個句子在句子長度形態(tài)上的配匹程度。句長配匹計算如式(2)所示。
其中,Len(T)和Len(H)為T句和H句的長度。
(3)詞干抽取后的詞形配匹
詞干是把名詞和動詞都還原成詞根的形式,例如名詞的復(fù)數(shù)形式:“boxes”被轉(zhuǎn)化成“box”,這樣避免了因詞形不同而帶來的識別誤差。詞干還原后的詞形匹配計算公式如式(3)所示。
Stemsame(T,H)為抽取詞干后T句和H句中相同單詞個數(shù),Len(H)為抽取詞干后的H句長度。
(4)LCS最長公共子序列(Longest Common Subsequence)特征
一個序列S,如果分別是兩個或多個已知序列的子序列,且是所有符合此條件序列中最長的,則S稱為已知序列的最長公共子序列,它可以用來描述T-H對之間的重疊程度。
例1 T:I and Joe like apple and box.與H:I like box.
因T-H對的最長公共子序列是I like box,并且T包含H,故判定T句蘊(yùn)涵H句。算法實(shí)現(xiàn)如下:
Step1 把T句和H句對表示為T={t1,t2,…,tn},H={h1,h2,…,hm}
Step2 計算T的第i個詞和H的第j個詞之前的最長公共子序列c [i][j],c [i][j]定義如式(4)所示。
Step3:計算LCS特征配匹值為式(5)。
(5)基于WordNet的Unigram特征
具體步驟如下:
Step1 把T句T{t1,t2,t3,…,tn}利用WordNet擴(kuò)展為T’{(t11,t12,t13,…),(t21,t22,t23,…),…,(tn1,tn2,tn3,…)},tij表示T句中第i個詞的第j個同義詞。
Step4 計算Unigram特征配匹值為式(6)。
(6)基于WordNet的Bigram特征
如果H中兩個相鄰的詞出現(xiàn)在T中,則該類信息比Unigram匹配成功具有更有力的依據(jù)。在單個詞匹配結(jié)束后,對于file4中的每個T-H對進(jìn)行Bigram匹配。配匹過程如式(7)所示。
其中Bigramsame(T,H)為T和H中相同的二元文法個數(shù),Bigram(H)為H中的二元文法個數(shù)。
2.2.2 句法依存特征
在句法層面[15]上,T-H對被看作由依存關(guān)系分析而得到的三元組集合。如果H中的關(guān)系被T中的關(guān)系覆蓋或通過對T中的關(guān)系進(jìn)行轉(zhuǎn)化能夠產(chǎn)生出H中的關(guān)系,則認(rèn)為T句蘊(yùn)涵H句。
本方法使用Stanford Parser對句子進(jìn)行依存關(guān)系分析。該句法分析器定義了55種依賴關(guān)系。例如,We win the game.dobj(win,game),表示win和game之間具有dobj的關(guān)系。由于每種依存關(guān)系對蘊(yùn)涵的影響程度不同,本文根據(jù)重要性把55種依存關(guān)系分成四個等級,如agent,iobj等關(guān)系比較重要設(shè)為第一級,而conj,nn的重要性次之,設(shè)為第二級等,一共設(shè)置了四個等級,權(quán)值分別為α、β、γ、δ,在實(shí)驗(yàn)過程中,選取最佳權(quán)值。如表1所示。
表1 句法依存關(guān)系等級
基于句法依存關(guān)系的T-H匹配算法如下:
Step1:使用Stanford Parser分析T,其所有的依賴關(guān)系構(gòu)成集合Dt
Step2:使用Stanford Parser分析H,其所有的依賴關(guān)系構(gòu)成集合Dh
Step3:對于Dh中的每一個依賴關(guān)系dj:
Step4:計算每一級的句法依存特征值如式(8)所示。
例2 RTE1中語句對
T:Satomi Mitarai died of blood loss.</t>
H:Satomi Mitarai bled to death.</h>
經(jīng)過Stanford Parser依存關(guān)系分析后如圖2所示。
圖2 句法依存關(guān)系分析結(jié)果
從圖2可以看出T和H都包含關(guān)系nn(Mitarai,Satomi),這兩種關(guān)系都屬于Level1,故Score1=α,Matchscore1=1,Matchscore2=Matchscore3=Matchscore4=0。
2.2.3 FrameNet特征
FrameNet[16]是美國加州大學(xué)伯克利分校構(gòu)建的一個基于框架語義學(xué)詞匯資源。FrameNet的框架庫由框架表、框架元素表、框架關(guān)系表、詞元表四部分組成。框架表給出了框架的定義和名稱;框架元素表給出了框架元素名稱及所屬框架;框架關(guān)系表中定義了八種框架關(guān)系,描述了框架和框架之間的關(guān)系;詞元表描述了該詞的詞性及所屬框架。本文以框架語義學(xué)為理論基礎(chǔ),利用框架語義角色[17],從T句和H句中的框架關(guān)系及框架元素兩個方面抽取可用于文本蘊(yùn)涵識別的特征。實(shí)現(xiàn)過程如下:
Step1:利用Frame-semantic Parsing對所用語料進(jìn)行FrameNet標(biāo)注。例如,Baikalfinansgroup was sold to Rosneft.經(jīng)過FrameNet標(biāo)注后生成圖3格式文件
從圖3可以看出,通過FrameNet標(biāo)注后,可以得到該句的框架名稱為“Commerce_sell”、目標(biāo)詞“sold”及框架元素“Goods”。
Step2:提取經(jīng)過上述標(biāo)注的T句和H句中的框架和框架元素組,如圖3中,Commerce_sell(Baikalfinansgroup)
Step3:分別進(jìn)行框架和框架元素配匹。
圖3 用Frame-semantic Parsing進(jìn)行FrameNet標(biāo)注文件格式
框架特征配匹,采用深度優(yōu)先搜索的方法,在框架關(guān)系表中查找T-H句中的框架之間的上下位或繼承等關(guān)系,由于迭代次數(shù)比較大,最多搜索三步之內(nèi)的框架,并根據(jù)框架距離設(shè)置不同的權(quán)值,分別為F_scorei(i=1,2,3),通過實(shí)驗(yàn),選擇最佳權(quán)值,并記下不同距離T-H句中有上下位或繼承關(guān)系的框架個數(shù),分別記作fi(i=1,2,3)。如果找到T句和H句的兩個框架相同或存在上下位關(guān)系,則比較該框架下的框架元素(利用WordNet進(jìn)行同義詞擴(kuò)展),記下相配匹的框架元素個數(shù)FEsame(T,H)??蚣芘淦ヌ卣髦礔_M(jìn)atch和框架元素配匹特征值FE_M(jìn)atch的計算如式(10)所示。
其中,F(xiàn)rame(H)、FE(H)分別指的是假設(shè)H中的框架個數(shù)和框架元素的個數(shù)。
為了檢驗(yàn)上述方法的有效性,本文構(gòu)建了基于多特征的文本蘊(yùn)涵識別模型,該模型訓(xùn)練數(shù)據(jù)采用國際文本蘊(yùn)涵識別技術(shù)評測提供的RTE數(shù)據(jù)集“RTE3_dev”(800對)+“RTE2_dev”(300對)+“RTE1_dev”(150對),共1250對T-H對,測試數(shù)據(jù)采用“RTE3_test”,共800對T-H對。根據(jù)評測規(guī)則,評測結(jié)果用ENTAILMENT=“YES”和ENTAILMENT=“NO”表示。
實(shí)驗(yàn)過程如下:
Step1:分別對訓(xùn)練集和測試集采用上述方法進(jìn)行預(yù)處理和特征值計算,生成Libsvm的數(shù)據(jù)格式文件
Step2:對Step1文件進(jìn)行Scaling處理
Step3:選用RBF核函數(shù)
Step3:用5折交叉驗(yàn)證方法對訓(xùn)練數(shù)據(jù)集選擇參數(shù)c和g的最優(yōu)值
Step4:用最優(yōu)參數(shù)訓(xùn)練分類模型
Step5:對測試集進(jìn)行預(yù)測
本實(shí)依次從詞匯特征、詞匯特征+句法特征、詞匯特征+句法特征+FrameNet特征三個不同的角度去訓(xùn)練SVM分類器,并分別對測試數(shù)據(jù)進(jìn)行預(yù)測,得到三個不同的運(yùn)行結(jié)果,分別為RUN1(表2),RUN2(表4),RUN3(表5)。系統(tǒng)經(jīng)過多次試驗(yàn)RUN2和RUN3運(yùn)行中選用的參數(shù)值如表3。
表2是基于詞匯特征的運(yùn)行結(jié)果,蘊(yùn)涵正例識別準(zhǔn)確率達(dá)到70.2%,蘊(yùn)涵反例準(zhǔn)確率為61.2%,平均準(zhǔn)確率為66.75%。表4是基于詞匯特征和依存句法特征的運(yùn)行結(jié)果,從表中可以看出加入句法特征提高了文本蘊(yùn)涵識別的準(zhǔn)確率,其中蘊(yùn)涵正例識別準(zhǔn)確率提高1.8%,蘊(yùn)涵反例準(zhǔn)確率提高6.6%,平均準(zhǔn)確率提高3.75%。表5是綜合詞匯特征、依存句法特征及FrameNet特征運(yùn)行結(jié)果,從表中可以看到在蘊(yùn)涵正例、蘊(yùn)涵反例及平均準(zhǔn)確率方面都有較大提高,正例識別準(zhǔn)確率達(dá)到78.1%,平均識別準(zhǔn)確率到達(dá)75.9%。高于RTE3最高評測結(jié)果,并且從表5可以看出,本方法達(dá)到最高準(zhǔn)確率時,召回率也達(dá)到最高。
表2 基于詞匯特征的運(yùn)行結(jié)果(RUN1)
表3 RUN2和RUN3中各參數(shù)的值
表4 基于詞匯+依存句法特征的運(yùn)行結(jié)果(RUN2)
表5 基于詞匯+依存句法特征+FrameNet特征的運(yùn)行結(jié)果(RUN3)
文本蘊(yùn)涵對于自然語言的許多高層次的文本分析的研究有著重要的作用,本文從詞匯、句法依存關(guān)系、FrameNet知識庫三個層面考慮文本蘊(yùn)涵識別特征,并通過三個RUNS訓(xùn)練SVM分類器進(jìn)行文本蘊(yùn)涵識別。試驗(yàn)結(jié)果表明相對于單獨(dú)基于詞匯或句法的文本蘊(yùn)涵識別模型,本文提出的基于多特征的綜合文本蘊(yùn)涵識別模型有助于文本蘊(yùn)涵識別準(zhǔn)確率的提高。
但從三個RUNS的運(yùn)行結(jié)果來看,本方法也存在一些不足,系統(tǒng)對于蘊(yùn)涵反例的識別效果普遍偏低,也就是把一些非蘊(yùn)涵的T-H對誤識別為蘊(yùn)涵的。究其原因:(1)使用WordNet進(jìn)行同義詞擴(kuò)展,增大了蘊(yùn)涵的可能性;(2)使用FrameNet關(guān)系庫進(jìn)行框架關(guān)系的多層搜索,也無形中提高了蘊(yùn)涵的可能性,影響了實(shí)驗(yàn)結(jié)果的精度;(3)由于框架庫的不完善、依存關(guān)系的稀疏也是影響實(shí)驗(yàn)精度原因。接下來的工作是進(jìn)一步完善詞匯、句法、語義三個層面的特征,嘗試加入邏輯推理技術(shù),以提高文本蘊(yùn)涵識別準(zhǔn)確率。
[1] Dagan Ido,Oren Glickman.Probabilistic Textua1Entailment:Generic Applied Modeling of Language Variability[C]//Proceedings of the PASAL Workshop on Learning Methods for Text Understanding and Mining,Grenoble France.2004.
[2] 袁毓林,王明華.文本蘊(yùn)涵的推理模型與識別模型.中文信息學(xué)報[J],2010,24(2):3-13.
[3] Shachar Mirkin,Ido Dagan,Maayan Geffet.Integrating Pattern-based and Distributional Similarity Methods for Lexical Entailment Acquisition[C]//Proceedings of COLING-ACL 2006,Sydney,Australia,2006,7:17-21.
[4] Peter Clark,Phil Harrision.An Inference-Based Approach to Recognizing Entailment[C]//Proceedings of Text Analysis Conference(TAC).2009.
[5] 劉江利,杜永萍.基于詞匯與句法關(guān)系匹配的蘊(yùn)涵關(guān)系識別方法[A].第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010.
[6] 張鵬,李國臣,李茹等.基于FrameNet框架關(guān)系的文本蘊(yùn)涵識別.中文信息學(xué)報[J],2012,26(2):46-50.
[7] Vapnic V.The Nature of Statistical Learning[M].New York:Springerl-Verlag,1995,126-178.
[8] Joachims T.Text Categorization with Support Vector Machines:Learning with Many Relevant Features[C]//Proceedings of theEuropean Conference on Machine Learning,Berlin,Springer,1998.
[9] http://www.csie.ntu.edu.tw/~cjlin/.
[10] http://www.pudn.com/downloads521/sourcecode/windows/dotnet/detail2161512.html.
[11] Stanford POStagger.http://nlp.stanford.edu/software/tagger.shtml.
[12] Stanford Parser.http://nlp.stanford.edu/software/lex_parser.shtml.
[13] Dipanjan Das,Noah A.Smith.Graph-Based Lexicon Expansion with Sparsity-Inducing Penalties[C]//Proceedings of NAACL 2012.
[14] Dipanjan Das,Noah A.Smith.Semi-Supervised Frame-Semantic Parsing for Unknown Predicates[C]//Proceedings of ACL 2011.
[15] 袁毓林.文本蘊(yùn)涵的類型和識別機(jī)制(2008).中國中文信息學(xué)會成立二十七周年學(xué)術(shù)會議[C].
[16] FrameNet.http://framenet.icsi.berkeley.edu.
[17] Burchardt A.,Pennacchiotti,M.,Thater,S.,et al.Assessing the Impact of Frame Semantics on Textual Entailment.Nat.Lang.Engineering,2009:15(4).
[18] Julio Javier Castillo.Sangn inTAC2010:A Machine Learning Approach to RTE within a Corpus.TAC 2010Proceedings Papers.2010.
[19] Dagan I.,Dolan B.Recognizing Textual Entailment:Rational,Evaluation and Approaches.Natural Laguage Engineering,2009,15(4):i-xvii.
[20] Burchardt A.PH D Dissertation.Modeling Textual Entailment with Role-Semantic Information.2008.