多特征文本蘊(yùn)涵識別研究

2014-04-14 07:50趙紅燕王智強(qiáng)

中文信息學(xué)報 2014年2期

趙紅燕，劉鵬，李茹，王智強(qiáng)

（1.太原科技大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院，山西太原030024；2.中國電子科技集團(tuán)公司第二研究所，山西太原030024；3.山西大學(xué)計算機(jī)與信息技術(shù)學(xué)院，山西太原030006；4.山西大學(xué)計算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室，山西太原030006）

1 引言

由于自然語言在表達(dá)形式上靈活多樣，相同的含義往往可以采用不同的陳述形式來表達(dá)，或從不同的文本中推斷出來，為了解決這種同義異形現(xiàn)象，Dagan和Glickman［1］在2004年提出用“文本蘊(yùn)涵（Textual Entailment）”來為這些歧義現(xiàn)象建立統(tǒng)一的模型和處理框架。

所謂文本蘊(yùn)涵［2］，是指一個文本（Hypothesis，H）的意義可以從另外一個文本（Text，T）的意義推斷出來。更確切地說，就是給定一個文本片段T和一個被稱為假設(shè)的文本片段H，根據(jù)T的上下文語境和世界知識，可以從T的含義中推斷出H的含義來，則稱T蘊(yùn)涵H。

自2005年以來，文本蘊(yùn)涵識別（Recognizing Textual Entailment，RTE）已經(jīng)得到了學(xué)術(shù)界的重視，由美國國家標(biāo)準(zhǔn)技術(shù)局（National Institute of Standards and Technology，NIST）組織的一年一度的國際文本評測會議（Text Analysis Conference，TAC）把RTE作為重要的評測任務(wù)之一，到目前為止RTE評測已經(jīng)舉辦了7屆。

針對文本蘊(yùn)涵識別國內(nèi)外學(xué)者提出了很多方法，構(gòu)建了一定量的文本蘊(yùn)涵識別模型和推理模型。目前文本蘊(yùn)涵識別模型大都是基于詞匯、句法、淺層語義等方面進(jìn)行建模，利用各種語義詞典、世界知識、語言知識及本體知識進(jìn)行句子相似度計算或邏輯推理等方法來實(shí)現(xiàn)。例如，Shachar Mirkin［3］等提出的基于模式和詞匯相似度分布的文本蘊(yùn)涵識別模型，Peter clark［4］等提出了一個基于WordNet和DIRT的詞匯知識文本蘊(yùn)涵識別系統(tǒng)BLUE；北京工業(yè)大學(xué)劉江利［5］等提出基于詞匯與句法關(guān)系匹配的蘊(yùn)涵關(guān)系識別方法；山西大學(xué)張鵬［6］等提出利用FrameNet框架關(guān)系識別文本蘊(yùn)涵等都取得了一定的成績，但影響文本蘊(yùn)涵的因素錯綜復(fù)雜，文本蘊(yùn)涵模型總體識別準(zhǔn)確度不高，2009年參加RTE5評測的21個團(tuán)隊(duì)中，2－ways任務(wù)評測最高準(zhǔn)確率達(dá)到73.5%，平均準(zhǔn)確率達(dá)到61.52%，文本蘊(yùn)涵識別的準(zhǔn)確度還有很大的提升空間。因此，本文綜合考慮詞匯特征、句法特征及語義特征對文本蘊(yùn)涵的影響，提出一種多特征文本蘊(yùn)涵識別模型，然后利用統(tǒng)計學(xué)習(xí)方法訓(xùn)練分類器。

SVM［7］（Support Vector Machine）自從1995年由Vapnic提出以來，鑒于其具有堅(jiān)實(shí)的統(tǒng)計學(xué)習(xí)理論基礎(chǔ)、以及有效防止過學(xué)習(xí)能力及核函數(shù)的靈活運(yùn)用等優(yōu)點(diǎn)，在許多應(yīng)用領(lǐng)域均獲得良好的應(yīng)用。并且，基于SVM的分類也被證明是當(dāng)今最好的分類方法之一。1998年，Joachims［8］驗(yàn)證了SVM在文本分類中的優(yōu)異性能。因此本文將文本蘊(yùn)涵轉(zhuǎn)化為二元分類問題，通過提取文本的詞匯特征、句法特征及FrameNet語義知識庫特征的多種選取特征方法構(gòu)造特征矩陣，利用臺灣大學(xué)林智仁［9］（Lin Chih－Jen）老師等開發(fā)的SVM模式識別與回歸的軟件包LIBSVM訓(xùn)練分類模型，實(shí)現(xiàn)文本蘊(yùn)涵識別。

本文后面的組織結(jié)構(gòu)如下：第2節(jié)介紹了文本蘊(yùn)涵識別模型及特征選??；第3節(jié)介紹了本文的實(shí)驗(yàn)及結(jié)果分析；第4節(jié)對本文提出了總結(jié)及展望。

2 文本蘊(yùn)涵識別

文本蘊(yùn)涵識別模型的輸入是一個T－H對，通過算法判斷T是否蘊(yùn)涵H，輸出非真即假的二元結(jié)果。文本蘊(yùn)涵識別流程如圖1所示。

圖1 文本蘊(yùn)涵識別流程圖

2.1 預(yù)處理

對訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集均做如下預(yù)處理：

（1）從RTE數(shù)據(jù)集的XML文件中抽取T－H對，把它存儲成文本格式，稱為file1；

（2）使用EnStemmer［10］對file1中的動、名詞進(jìn)行詞形還原，并去掉停用詞，存儲為file2；

（3）使用POStagger［11］對file2生成的文件進(jìn)行詞性標(biāo)注，生成file3；

（4）利用WordNet對file3進(jìn)行同義詞擴(kuò)展生成file4；

（5）由Stanford Parser［12］對file1進(jìn)行句法依存關(guān)系分析，生成file5；

（6）利用Frame－semantic Parsing［13－14］對file1進(jìn)行FrameNet標(biāo)注生成file6。

2.2 特征選取

2.2.1 詞匯特征

在詞匯層面［15］上假設(shè)T句和H句是由一組詞匯組成的，如果H跟T具有相同的詞目或詞類，或通過一系列詞匯轉(zhuǎn)換，H中的詞h都能跟T中的詞t相配匹（忽略虛詞），那么就認(rèn)為T蘊(yùn)涵H。

（1）詞形特征

詞形特征反映原語料中文本T和假設(shè)H兩個句子中詞語在基本形態(tài)上的配匹程度，以T－H對中所含有相同詞的個數(shù)來衡量。T－H對詞形配匹值計算如式（1）所示。

其中：SameWord（T，H）為文本T和假設(shè)H中所含相同詞的個數(shù)，Len（H）為H句的長度。

（2）句長特征

句長特征反映兩個句子在句子長度形態(tài)上的配匹程度。句長配匹計算如式（2）所示。

其中，Len（T）和Len（H）為T句和H句的長度。

（3）詞干抽取后的詞形配匹

詞干是把名詞和動詞都還原成詞根的形式，例如名詞的復(fù)數(shù)形式：“boxes”被轉(zhuǎn)化成“box”，這樣避免了因詞形不同而帶來的識別誤差。詞干還原后的詞形匹配計算公式如式（3）所示。

Stemsame（T，H）為抽取詞干后T句和H句中相同單詞個數(shù)，Len（H）為抽取詞干后的H句長度。

（4）LCS最長公共子序列（Longest Common Subsequence）特征

一個序列S，如果分別是兩個或多個已知序列的子序列，且是所有符合此條件序列中最長的，則S稱為已知序列的最長公共子序列，它可以用來描述T－H對之間的重疊程度。

例1 T：I and Joe like apple and box.與H：I like box.

因T－H對的最長公共子序列是I like box，并且T包含H，故判定T句蘊(yùn)涵H句。算法實(shí)現(xiàn)如下：

Step1 把T句和H句對表示為T＝｛t1，t2，…，tn｝，H＝｛h1，h2，…，hm｝

Step2 計算T的第i個詞和H的第j個詞之前的最長公共子序列c ［i］［j］，c ［i］［j］定義如式（4）所示。

Step3：計算LCS特征配匹值為式（5）。

（5）基于WordNet的Unigram特征

具體步驟如下：

Step1 把T句T｛t1，t2，t3，…，tn｝利用WordNet擴(kuò)展為T’｛（t11，t12，t13，…），（t21，t22，t23，…），…，（tn1，tn2，tn3，…）｝，tij表示T句中第i個詞的第j個同義詞。

Step4 計算Unigram特征配匹值為式（6）。

（6）基于WordNet的Bigram特征

如果H中兩個相鄰的詞出現(xiàn)在T中，則該類信息比Unigram匹配成功具有更有力的依據(jù)。在單個詞匹配結(jié)束后，對于file4中的每個T－H對進(jìn)行Bigram匹配。配匹過程如式（7）所示。

其中Bigramsame（T，H）為T和H中相同的二元文法個數(shù)，Bigram（H）為H中的二元文法個數(shù)。

2.2.2 句法依存特征

在句法層面［15］上，T－H對被看作由依存關(guān)系分析而得到的三元組集合。如果H中的關(guān)系被T中的關(guān)系覆蓋或通過對T中的關(guān)系進(jìn)行轉(zhuǎn)化能夠產(chǎn)生出H中的關(guān)系，則認(rèn)為T句蘊(yùn)涵H句。

本方法使用Stanford Parser對句子進(jìn)行依存關(guān)系分析。該句法分析器定義了55種依賴關(guān)系。例如，We win the game.dobj（win，game），表示win和game之間具有dobj的關(guān)系。由于每種依存關(guān)系對蘊(yùn)涵的影響程度不同，本文根據(jù)重要性把55種依存關(guān)系分成四個等級，如agent，iobj等關(guān)系比較重要設(shè)為第一級，而conj，nn的重要性次之，設(shè)為第二級等，一共設(shè)置了四個等級，權(quán)值分別為α、β、γ、δ，在實(shí)驗(yàn)過程中，選取最佳權(quán)值。如表1所示。

表1 句法依存關(guān)系等級

基于句法依存關(guān)系的T－H匹配算法如下：

Step1：使用Stanford Parser分析T，其所有的依賴關(guān)系構(gòu)成集合Dt

Step2：使用Stanford Parser分析H，其所有的依賴關(guān)系構(gòu)成集合Dh

Step3：對于Dh中的每一個依賴關(guān)系dj：

Step4：計算每一級的句法依存特征值如式（8）所示。

例2 RTE1中語句對

T：Satomi Mitarai died of blood loss.＜／t＞

H：Satomi Mitarai bled to death.＜／h＞

經(jīng)過Stanford Parser依存關(guān)系分析后如圖2所示。

圖2 句法依存關(guān)系分析結(jié)果

從圖2可以看出T和H都包含關(guān)系nn（Mitarai，Satomi），這兩種關(guān)系都屬于Level1，故Score1＝α，Matchscore1＝1，Matchscore2＝Matchscore3＝Matchscore4＝0。

2.2.3 FrameNet特征

FrameNet［16］是美國加州大學(xué)伯克利分校構(gòu)建的一個基于框架語義學(xué)詞匯資源。FrameNet的框架庫由框架表、框架元素表、框架關(guān)系表、詞元表四部分組成。框架表給出了框架的定義和名稱；框架元素表給出了框架元素名稱及所屬框架；框架關(guān)系表中定義了八種框架關(guān)系，描述了框架和框架之間的關(guān)系；詞元表描述了該詞的詞性及所屬框架。本文以框架語義學(xué)為理論基礎(chǔ)，利用框架語義角色［17］，從T句和H句中的框架關(guān)系及框架元素兩個方面抽取可用于文本蘊(yùn)涵識別的特征。實(shí)現(xiàn)過程如下：

Step1：利用Frame－semantic Parsing對所用語料進(jìn)行FrameNet標(biāo)注。例如，Baikalfinansgroup was sold to Rosneft.經(jīng)過FrameNet標(biāo)注后生成圖3格式文件

從圖3可以看出，通過FrameNet標(biāo)注后，可以得到該句的框架名稱為“Commerce＿sell”、目標(biāo)詞“sold”及框架元素“Goods”。

Step2：提取經(jīng)過上述標(biāo)注的T句和H句中的框架和框架元素組，如圖3中，Commerce＿sell（Baikalfinansgroup）

Step3：分別進(jìn)行框架和框架元素配匹。

圖3 用Frame－semantic Parsing進(jìn)行FrameNet標(biāo)注文件格式

框架特征配匹，采用深度優(yōu)先搜索的方法，在框架關(guān)系表中查找T－H句中的框架之間的上下位或繼承等關(guān)系，由于迭代次數(shù)比較大，最多搜索三步之內(nèi)的框架，并根據(jù)框架距離設(shè)置不同的權(quán)值，分別為F＿scorei（i＝1，2，3），通過實(shí)驗(yàn)，選擇最佳權(quán)值，并記下不同距離T－H句中有上下位或繼承關(guān)系的框架個數(shù)，分別記作fi（i＝1，2，3）。如果找到T句和H句的兩個框架相同或存在上下位關(guān)系，則比較該框架下的框架元素（利用WordNet進(jìn)行同義詞擴(kuò)展），記下相配匹的框架元素個數(shù)FEsame（T，H）?？蚣芘淦ヌ卣髦礔＿M(jìn)atch和框架元素配匹特征值FE＿M(jìn)atch的計算如式（10）所示。

其中，F(xiàn)rame（H）、FE（H）分別指的是假設(shè)H中的框架個數(shù)和框架元素的個數(shù)。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 語料

為了檢驗(yàn)上述方法的有效性，本文構(gòu)建了基于多特征的文本蘊(yùn)涵識別模型，該模型訓(xùn)練數(shù)據(jù)采用國際文本蘊(yùn)涵識別技術(shù)評測提供的RTE數(shù)據(jù)集“RTE3＿dev”（800對）＋“RTE2＿dev”（300對）＋“RTE1＿dev”（150對），共1250對T－H對，測試數(shù)據(jù)采用“RTE3＿test”，共800對T－H對。根據(jù)評測規(guī)則，評測結(jié)果用ENTAILMENT＝“YES”和ENTAILMENT＝“NO”表示。

3.2 實(shí)驗(yàn)過程及結(jié)果

實(shí)驗(yàn)過程如下：

Step1：分別對訓(xùn)練集和測試集采用上述方法進(jìn)行預(yù)處理和特征值計算，生成Libsvm的數(shù)據(jù)格式文件

Step2：對Step1文件進(jìn)行Scaling處理

Step3：選用RBF核函數(shù)

Step3：用5折交叉驗(yàn)證方法對訓(xùn)練數(shù)據(jù)集選擇參數(shù)c和g的最優(yōu)值

Step4：用最優(yōu)參數(shù)訓(xùn)練分類模型

Step5：對測試集進(jìn)行預(yù)測

本實(shí)依次從詞匯特征、詞匯特征＋句法特征、詞匯特征＋句法特征＋FrameNet特征三個不同的角度去訓(xùn)練SVM分類器，并分別對測試數(shù)據(jù)進(jìn)行預(yù)測，得到三個不同的運(yùn)行結(jié)果，分別為RUN1（表2），RUN2（表4），RUN3（表5）。系統(tǒng)經(jīng)過多次試驗(yàn)RUN2和RUN3運(yùn)行中選用的參數(shù)值如表3。

表2是基于詞匯特征的運(yùn)行結(jié)果，蘊(yùn)涵正例識別準(zhǔn)確率達(dá)到70.2%，蘊(yùn)涵反例準(zhǔn)確率為61.2%，平均準(zhǔn)確率為66.75%。表4是基于詞匯特征和依存句法特征的運(yùn)行結(jié)果，從表中可以看出加入句法特征提高了文本蘊(yùn)涵識別的準(zhǔn)確率，其中蘊(yùn)涵正例識別準(zhǔn)確率提高1.8%，蘊(yùn)涵反例準(zhǔn)確率提高6.6%，平均準(zhǔn)確率提高3.75%。表5是綜合詞匯特征、依存句法特征及FrameNet特征運(yùn)行結(jié)果，從表中可以看到在蘊(yùn)涵正例、蘊(yùn)涵反例及平均準(zhǔn)確率方面都有較大提高，正例識別準(zhǔn)確率達(dá)到78.1%，平均識別準(zhǔn)確率到達(dá)75.9%。高于RTE3最高評測結(jié)果，并且從表5可以看出，本方法達(dá)到最高準(zhǔn)確率時，召回率也達(dá)到最高。

表2 基于詞匯特征的運(yùn)行結(jié)果（RUN1）

表3 RUN2和RUN3中各參數(shù)的值

表4 基于詞匯＋依存句法特征的運(yùn)行結(jié)果（RUN2）

表5 基于詞匯＋依存句法特征＋FrameNet特征的運(yùn)行結(jié)果（RUN3）

4 總結(jié)及展望

文本蘊(yùn)涵對于自然語言的許多高層次的文本分析的研究有著重要的作用，本文從詞匯、句法依存關(guān)系、FrameNet知識庫三個層面考慮文本蘊(yùn)涵識別特征，并通過三個RUNS訓(xùn)練SVM分類器進(jìn)行文本蘊(yùn)涵識別。試驗(yàn)結(jié)果表明相對于單獨(dú)基于詞匯或句法的文本蘊(yùn)涵識別模型，本文提出的基于多特征的綜合文本蘊(yùn)涵識別模型有助于文本蘊(yùn)涵識別準(zhǔn)確率的提高。

但從三個RUNS的運(yùn)行結(jié)果來看，本方法也存在一些不足，系統(tǒng)對于蘊(yùn)涵反例的識別效果普遍偏低，也就是把一些非蘊(yùn)涵的T－H對誤識別為蘊(yùn)涵的。究其原因：（1）使用WordNet進(jìn)行同義詞擴(kuò)展，增大了蘊(yùn)涵的可能性；（2）使用FrameNet關(guān)系庫進(jìn)行框架關(guān)系的多層搜索，也無形中提高了蘊(yùn)涵的可能性，影響了實(shí)驗(yàn)結(jié)果的精度；（3）由于框架庫的不完善、依存關(guān)系的稀疏也是影響實(shí)驗(yàn)精度原因。接下來的工作是進(jìn)一步完善詞匯、句法、語義三個層面的特征，嘗試加入邏輯推理技術(shù)，以提高文本蘊(yùn)涵識別準(zhǔn)確率。

［1］ Dagan Ido，Oren Glickman.Probabilistic Textua1Entailment：Generic Applied Modeling of Language Variability［C］／／Proceedings of the PASAL Workshop on Learning Methods for Text Understanding and Mining，Grenoble France.2004.

［2］袁毓林，王明華.文本蘊(yùn)涵的推理模型與識別模型.中文信息學(xué)報［J］，2010，24（2）：3－13.

［3］ Shachar Mirkin，Ido Dagan，Maayan Geffet.Integrating Pattern－based and Distributional Similarity Methods for Lexical Entailment Acquisition［C］／／Proceedings of COLING－ACL 2006，Sydney，Australia，2006，7：17－21.

［4］ Peter Clark，Phil Harrision.An Inference－Based Approach to Recognizing Entailment［C］／／Proceedings of Text Analysis Conference（TAC）.2009.

［5］劉江利，杜永萍.基于詞匯與句法關(guān)系匹配的蘊(yùn)涵關(guān)系識別方法［A］.第六屆全國信息檢索學(xué)術(shù)會議論文集［C］；2010.

［6］張鵬，李國臣，李茹等.基于FrameNet框架關(guān)系的文本蘊(yùn)涵識別.中文信息學(xué)報［J］，2012，26（2）：46－50.

［7］ Vapnic V.The Nature of Statistical Learning［M］.New York：Springerl－Verlag，1995，126－178.

［8］ Joachims T.Text Categorization with Support Vector Machines：Learning with Many Relevant Features［C］／／Proceedings of theEuropean Conference on Machine Learning，Berlin，Springer，1998.

［9］ http：／／www.csie.ntu.edu.tw／～cjlin／.

［10］ http：／／www.pudn.com／downloads521／sourcecode／windows／dotnet／detail2161512.html.

［11］ Stanford POStagger.http：／／nlp.stanford.edu／software／tagger.shtml.

［12］ Stanford Parser.http：／／nlp.stanford.edu／software／lex＿parser.shtml.

［13］ Dipanjan Das，Noah A.Smith.Graph－Based Lexicon Expansion with Sparsity－Inducing Penalties［C］／／Proceedings of NAACL 2012.

［14］ Dipanjan Das，Noah A.Smith.Semi－Supervised Frame－Semantic Parsing for Unknown Predicates［C］／／Proceedings of ACL 2011.

［15］袁毓林.文本蘊(yùn)涵的類型和識別機(jī)制（2008）.中國中文信息學(xué)會成立二十七周年學(xué)術(shù)會議［C］.

［16］ FrameNet.http：／／framenet.icsi.berkeley.edu.

［17］ Burchardt A.，Pennacchiotti，M.，Thater，S.，et al.Assessing the Impact of Frame Semantics on Textual Entailment.Nat.Lang.Engineering，2009：15（4）.

［18］ Julio Javier Castillo.Sangn inTAC2010：A Machine Learning Approach to RTE within a Corpus.TAC 2010Proceedings Papers.2010.

［19］ Dagan I.，Dolan B.Recognizing Textual Entailment：Rational，Evaluation and Approaches.Natural Laguage Engineering，2009，15（4）：i－xvii.

［20］ Burchardt A.PH D Dissertation.Modeling Textual Entailment with Role－Semantic Information.2008.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡