李茹,馬淑暉,張虎,郭少茹
(1.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,太原 030006;2.山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,太原 030006)
閱讀理解答案預(yù)測(cè)
李茹1,2,馬淑暉1*,張虎1,郭少茹1
(1.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,太原 030006;2.山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,太原 030006)
針對(duì)高考語文閱讀理解,文章通過對(duì)題干、篇章句子片段、選項(xiàng)三者的關(guān)系進(jìn)行建模,提出一種基于題干與選項(xiàng)一致性判別模型的閱讀理解答案預(yù)測(cè)方法。模型由篇章句子與題干的相關(guān)度和對(duì)選項(xiàng)的支持度進(jìn)行選項(xiàng)置信度度量,并基于這兩個(gè)度量定義了聯(lián)合打分函數(shù)。其中相關(guān)度通過題干定位到的原文出處與句子片段的距離來度量,支持度通過句子相似度特征、反義匹配特征、否定特征三個(gè)語義特征來度量。同時(shí),在近10年的高考真題和模擬題中分別進(jìn)行了三組實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果給出了該方法在不同特征組合和參數(shù)設(shè)置上的答題效果。
高考語文;閱讀理解;選項(xiàng)和題干一致性
近年來,閱讀理解受到國(guó)際與國(guó)內(nèi)自然語言處理研究領(lǐng)域?qū)W者的廣泛關(guān)注,并成為人工智能領(lǐng)域的一項(xiàng)重要研究。高考閱讀理解是高考語文試卷中的一類重要試題,是863“類人智能”答題項(xiàng)目中的一項(xiàng)研究?jī)?nèi)容,其與傳統(tǒng)基于構(gòu)建語料庫(kù)的閱讀理解相比,具有更高層次的挑戰(zhàn)。高考閱讀理解任務(wù)答案生成的主要知識(shí)包含在篇章中,因此要正確解答閱讀理解問題,必須對(duì)文章內(nèi)容和問題有更深入的理解和分析。
目前,基于閱讀理解的智能系統(tǒng)在國(guó)外已取得了長(zhǎng)足的發(fā)展。2011年,IBM的沃森(Watson)在答題競(jìng)賽類節(jié)目《危險(xiǎn)邊緣》中戰(zhàn)勝了該節(jié)目中最杰出的兩位人類選手[1]。蘋果公司的“Siri”智能助手能夠理解人們通過自然語言提出的問題。2015年,日本國(guó)立情報(bào)學(xué)研究所(National Institute of Informatics)開發(fā)的機(jī)器人Todai在日本高考中取得511分的成績(jī),比平均分?jǐn)?shù)線高出90多分。上述系統(tǒng)多是在問題分析和答案抽取上進(jìn)行一些研究工作,但高考閱讀理解的問題分析和求解過程會(huì)難度更大,不僅要對(duì)問題進(jìn)行分析和答案抽取,而且需要對(duì)文本進(jìn)行深層語義理解和知識(shí)推理。
在閱讀理解技術(shù)的研究方面,國(guó)外學(xué)者采用許多不同的方法。1999年,Hirschman[2]團(tuán)隊(duì)首先開始了閱讀理解任務(wù)的研究,并首次運(yùn)用Hum-Sent準(zhǔn)確率作為評(píng)價(jià)標(biāo)準(zhǔn),利用詞袋模型在60個(gè)篇章的測(cè)試集上進(jìn)行實(shí)驗(yàn),最終獲得了36.3%的Hum-Sent準(zhǔn)確率。在2004年美國(guó)學(xué)者Charniak E[3]針對(duì)兒童故事的問題,建立了一種關(guān)聯(lián)模型,該模型通過建立故事和世界知識(shí)的聯(lián)系來回答問題,并且試圖通過模型生成與故事相關(guān)的問題。Richardson[4]等用改進(jìn)的詞袋模型在MCTest數(shù)據(jù)集上取得66.25%的準(zhǔn)確率。Narasimhan[5]等提出一種聯(lián)合概率模型,模型中加入篇章關(guān)系特征使結(jié)果較前人有顯著提高。Sachan[6]等提出一種答案蘊(yùn)含結(jié)構(gòu),用修改后的SVM模型(LSSVM)進(jìn)行候選句選取和參數(shù)訓(xùn)練,最終實(shí)現(xiàn)答案預(yù)測(cè)。Iyyer[7]等提出深度學(xué)習(xí)的方法,將閱讀理解任務(wù)看作是分類問題,運(yùn)用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)學(xué)習(xí)句子的向量表示,用邏輯回歸分類器對(duì)篇章預(yù)測(cè)類別,類別標(biāo)簽就是問題的答案。Berant[8]等提出一種結(jié)構(gòu)分析方法,分別構(gòu)造材料中句子以及選項(xiàng)的實(shí)體關(guān)系圖,實(shí)現(xiàn)從篇章句子到答案的推理。以上方法均是在英文語料和數(shù)據(jù)集上進(jìn)行研究和測(cè)試,多為人工構(gòu)建,其難度及復(fù)雜度不高。本文立足于高考語文,結(jié)合中文自然語言的特征,對(duì)漢語高考語文的自動(dòng)答題進(jìn)行探索性研究。
高考語文閱讀理解常見的形式有問答題和選擇題。綜合分析選擇題的題目設(shè)置特點(diǎn),將選擇題類型劃分為五種,分別為“文意理解”、“觀點(diǎn)支持”、“擬寫標(biāo)題”、“指代消解”和“補(bǔ)寫句子”。本文主要研究選擇題中的觀點(diǎn)支持類題型,在近五年北京高考閱讀理解選擇題中該類題型約占31%。題型如圖1所示。該題型與其它類型選擇題的主要區(qū)別是題干中包含與篇章文本相關(guān)的句子,如圖1中題干信息包含的“昆蟲的翅膀是一個(gè)工程學(xué)奇跡”就是篇章文本中出現(xiàn)過的句子。
Fig.1 2013 Beijing college entrance examination sample show about Point of view support multiple choice questions (The italicized black option is the correct answer)
圖1 北京2013高考題中觀點(diǎn)支持類選擇題樣題示例(斜體選項(xiàng)是正確答案)
本文提出一種無監(jiān)督的選項(xiàng)和題干一致性的答案預(yù)測(cè)模型,用帶隱含變量的判別式框架來捕獲篇章句子、題干、選項(xiàng)三者之間隱藏的關(guān)系。同時(shí)將方法在歷年高考真題和模擬題上進(jìn)行了多次實(shí)驗(yàn),并采用平均準(zhǔn)確率得分(AAS)指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià)。
閱讀理解問題的正確解答建立在正確理解題干信息的基礎(chǔ)之上。本文利用LTP句法分析器[9]進(jìn)行題干句法分析,形成答題三元組
●V: 昆蟲的翅膀是一個(gè)工程學(xué)奇跡
●D: false
●N: 1
題干分析得到的題干觀點(diǎn)V是題干中與篇章相關(guān)的信息,但題干觀點(diǎn)由有限幾個(gè)詞匯組合而成,其語義信息較少,所以我們基于同義詞詞林[10]對(duì)觀點(diǎn)詞匯進(jìn)行了擴(kuò)展,找到在語義層面上與觀點(diǎn)詞匯具有語義相關(guān)性的詞匯加入到觀點(diǎn)詞匯集合中。同義詞詞林是五層結(jié)構(gòu),第四層和第五層分類更加細(xì)致[11],可以為詞匯擴(kuò)展任務(wù)提供支持。在同義詞詞林?jǐn)U展版中檢索觀點(diǎn)詞匯,取與其具有公共父節(jié)點(diǎn)的詞作為擴(kuò)展詞匯。
為了實(shí)現(xiàn)高考閱讀理解問題的自動(dòng)解答,我們提出一種無監(jiān)督的答案預(yù)測(cè)模型,對(duì)篇章的題干、篇章句子片段進(jìn)行建模。模型從兩個(gè)層面對(duì)選項(xiàng)置信度進(jìn)行度量。第一個(gè)層面,需要度量選項(xiàng)是否與題干觀點(diǎn)相關(guān),即選項(xiàng)與題干的相關(guān)度[5],以排除與題干無關(guān)聯(lián)的選項(xiàng)。第二層面,需要度量選項(xiàng)是否與篇章語義層面保持一致,即篇章中的句子對(duì)選項(xiàng)的支持度?;谝陨蟽蓚€(gè)層面的度量定義聯(lián)合打分函數(shù)對(duì)選項(xiàng)置信度進(jìn)行打分,預(yù)測(cè)得分最高的選項(xiàng)為正確答案。
篇章句子作為中間橋梁,可以勾連題干、正確答案之間的關(guān)系。選項(xiàng)與題干觀點(diǎn)的相關(guān)度和篇章文本對(duì)選項(xiàng)的支持度都是通過篇章句子來刻畫的。我們用A表示選項(xiàng)集合,用D表示篇章中的句子集合。對(duì)于給定的選項(xiàng)ai∈A和題干觀點(diǎn)v,定義了關(guān)于篇章中的單個(gè)句子sj∈D、選項(xiàng)和題干觀點(diǎn)的聯(lián)合打分函數(shù):
score(ai,sj,v)=R(sj,v)+S(sj,ai)
(1)
其中,篇章句子sj是隱含變量。聯(lián)合打分函數(shù)由兩部分組成。其中R(sj,v)是單個(gè)句子與觀點(diǎn)的相關(guān)度(Relevance Degree),反映的是句子與該題干觀點(diǎn)的相關(guān)程度,相關(guān)程度越高,句子對(duì)于該題目越重要。S(sj,ai)是單個(gè)句子對(duì)于當(dāng)前選項(xiàng)的支持度(Support Degree),反映的是句子對(duì)于選項(xiàng)的支持程度,支持程度越高,選項(xiàng)的正確度就越高。
用兩個(gè)特征函數(shù)以及相對(duì)應(yīng)的權(quán)重來分別刻畫聯(lián)合打分函數(shù)中的相關(guān)度函數(shù)和支持度函數(shù):
R(sj,v)=θ1φ1(sj,v)
(2)
S(sj,ai)=θ2φ2(sj,ai)
(3)
其中,θ1和θ2是權(quán)重。φ1是相關(guān)度特征函數(shù),φ1是支持度特征函數(shù)。具體的特征函數(shù)的計(jì)算方法將在2.2節(jié)和2.3節(jié)介紹。
根據(jù)公式(1),基于篇章中所有的句子對(duì)選項(xiàng)置信度進(jìn)行打分,打分函數(shù)表示如下:
(4)
其中,S是篇章文本的所有句子集,|S|表示篇章中的句子總數(shù)。
最終,模型基于以下目標(biāo)函數(shù)(公式5)預(yù)測(cè)答案:
(5)
其中,A是選項(xiàng)集合。
依據(jù)選項(xiàng)置信度得分對(duì)選項(xiàng)排序,按題目要求輸出答案。
高考閱讀理解綜合考察理解篇章句子,分析題目,綜合梳理信息的能力。了解題目設(shè)置錯(cuò)誤選項(xiàng)的方法,有助于掌握答題方法。命題者設(shè)置錯(cuò)誤選項(xiàng)的方法有八種:以偏概全,張冠李戴,無中生有,曲解原意,強(qiáng)加因果,答非所問,偷換概念,改變性質(zhì)[12]。其中與觀點(diǎn)支持類選擇題選項(xiàng)對(duì)錯(cuò)判斷直接相關(guān)的設(shè)置錯(cuò)誤選項(xiàng)的方法有“答非所問”、“無中生有”等,即選項(xiàng)與題干無關(guān)聯(lián)通常是選項(xiàng)錯(cuò)誤的一項(xiàng)重要原因。以2005年山東高考語文真題第7題為例進(jìn)行說明,篇章標(biāo)題為《你利用花,花也利用你》,文章從兩方面對(duì)人類和花之間的利用關(guān)系進(jìn)行闡述,其中題目信息如圖2:
下列各句中,不屬于“花也在利用你”的一項(xiàng)是A花卉可能利用了其能激發(fā)人積極的情感和其他深層心理變化這一影響來不斷進(jìn)化。B花可用來表達(dá)撫慰之情或柔情蜜意,也可用于恭喜慶賀或請(qǐng)求寬恕。C開花植物利用花兒給人帶來的感情獎(jiǎng)賞不斷進(jìn)化。D我們?nèi)祟惥褪腔ɑ苓M(jìn)行繁衍戰(zhàn)略的一部分。
Fig.2 2005 Shandong college entrance examination questions
圖2 2005山東高考真題題目信息
經(jīng)分析,A、C、D三選項(xiàng)是“花也利用你”主題的原文信息復(fù)述,而B是對(duì)“你利用花”主題的原文信息的復(fù)述。顯然B與題干無任何關(guān)聯(lián),為正確答案。
針對(duì)這種問題,本文提出一種基于篇章句子的相關(guān)度計(jì)算方法來度量句子與題干觀點(diǎn)的相關(guān)度。
相關(guān)度是一個(gè)模糊的概念,沒有一個(gè)標(biāo)準(zhǔn)的定義和客觀的標(biāo)準(zhǔn)可以衡量[13-14]。相關(guān)度一般用于信息檢索中,用來描述文檔和查詢之間的相關(guān)程度[15]。本文相關(guān)度用來衡量篇章句子與題干觀點(diǎn)的相關(guān)程度,相關(guān)度越高,篇章句子對(duì)于本題目越重要。而篇章中句子是題干觀點(diǎn)和選項(xiàng)的中間件。這就從另一個(gè)角度反映了與篇章句子相關(guān)聯(lián)的選項(xiàng)與觀點(diǎn)的相關(guān)程度。
相關(guān)度計(jì)算的基礎(chǔ)是對(duì)題干觀點(diǎn)進(jìn)行篇章原文出處定位,將定位到的原文出處句子表示為si。篇章中句子sj與題干觀點(diǎn)v的相關(guān)度計(jì)算轉(zhuǎn)化為篇章中句子與觀點(diǎn)原文出處句子的相關(guān)度,如公式(6):
φ1(sj,v)=φ1(sj,sv)
(6)
篇章的組織結(jié)構(gòu)一般是句子間空間距離越近,相關(guān)性越高。相鄰的句子塊表達(dá)相同的主題。簡(jiǎn)單的衡量句子相關(guān)性方法是通過篇章中句子的物理空間距離。這里的空間距離的概念是句子的相鄰距離,如,篇章的第5句和第7句的距離是2,而第5句和第12句的距離是7,所以第7句與第5句的相關(guān)度一定比第12句與第5句的相關(guān)度高?;诖?本文將相關(guān)度函數(shù)定義為
(7)
其中,sj表示篇章中的句子,sv為題干觀點(diǎn)定位到的原文出處句子,d(sj,sv)為句子距離函數(shù),取值范圍為(0,N)。N為篇章中的句子總數(shù)。這樣定義函數(shù),既保證了取值范圍在(0,1)區(qū)間,又確保了句子物理距離越近相關(guān)度越高的設(shè)想。
支持度特征反映的是篇章句子與選項(xiàng)之間的語義蘊(yùn)含關(guān)系,篇章句子對(duì)選項(xiàng)的支持度越高,從篇章句子到選項(xiàng)的蘊(yùn)含關(guān)系越強(qiáng)。本文從句子相似度、反義匹配、否定匹配三方面語義特征來刻畫篇章句子對(duì)選項(xiàng)的支持度。
2.3.1 基于核心語義句子相似度
句子相似度計(jì)算是對(duì)句子間的相似性給出一個(gè)度量[16]。一般而言,兩個(gè)句子的相似度越高,其相互支持的程度就越高,因此,本文利用句子相似度來度量句子與選項(xiàng)的相互支持度。詞匯作為句子的最小意義單元,其相似度計(jì)算應(yīng)作為句子相似度計(jì)算的基礎(chǔ)。本文利用Hownet[17]語義資源,采用基于知網(wǎng)的詞匯語義相似度計(jì)算[18]方法,計(jì)算詞匯間的語義相似度,最終得到句子之間的語義相似度。
在句子相似度計(jì)算中,一些虛詞、介詞語義意義不大,因此在計(jì)算句子間相似度之前先提取句子語義核心詞,將名詞、形容詞、動(dòng)詞、數(shù)詞等實(shí)詞作為句子的語義核心詞匯。如高考語文中選項(xiàng)的句子片段“分布在鼻腔黏膜上”,提取得到的語義核心成分為“分布鼻腔黏膜”。如此將選項(xiàng)a和篇章中的句子s看作兩個(gè)核心詞匯集合,分別包含n和m個(gè)語義核心詞匯??梢员硎緸?
a={Wa1,Wa2,…,Wan}s={Ws1,Ws2,…,Wsm}
經(jīng)語義核心詞匯提取之后,得到的是無序的詞匯集合。但這些核心詞匯對(duì)于選項(xiàng)的重要度是不相同的,本文基于詞匯在篇章中出現(xiàn)頻率為選項(xiàng)詞匯賦予不同的權(quán)重。一般詞匯在文中出現(xiàn)的次數(shù)越多,那么該詞匯對(duì)于判斷選項(xiàng)正確與否重要度就越低。如“分布鼻腔黏膜”中,“分布”和“鼻腔”在篇章中出現(xiàn)的次數(shù)要比“黏膜”多,“黏膜”對(duì)于篇章中別的詞匯來說就比較稀缺,那么相對(duì)于另外兩個(gè)詞匯,“黏膜”對(duì)于選項(xiàng)來說其重要度是更高的,應(yīng)賦予比較高的權(quán)值。基于以上分析,對(duì)選項(xiàng)中的語義核心詞賦予不同的權(quán)值。本文參考Matthew et al.2013[4]中的反詞頻,將詞匯的反詞頻作為詞匯的權(quán)重。其中選項(xiàng)a第i個(gè)核心詞匯的權(quán)重計(jì)算公式如下:
(8)
其中count(wai)為詞匯Wai在篇章中出現(xiàn)的次數(shù)。
在此基礎(chǔ)上,計(jì)算句子s與選項(xiàng)a的句子相似度sim(s,a),方法表示如下:
Step1: 核心詞匯之間的語義相似度計(jì)算。從選項(xiàng)a中的核心詞匯中選出一個(gè)詞分別與篇章句子s中m個(gè)核心詞匯計(jì)算語義相似度,循環(huán)直至a中詞集為空。設(shè)選項(xiàng)a中第i個(gè)詞匯和篇章句子s中第j個(gè)詞匯之間的相似度記為sij。得到相似度矩陣為:
取選項(xiàng)a中第i個(gè)詞匯與篇章句子s詞匯集合的最大語義相似度為si=max(si1,si2,…,sim)。得到詞匯語義相似度向量g=
Step2:基于公式(8)對(duì)選項(xiàng)a中的核心詞匯進(jìn)行權(quán)重計(jì)算。得到選項(xiàng)的權(quán)值向量ω=<ω1,ω2,…,ωn>。
表1 反義詞對(duì)示例Table 1 Examples of antonyms
Step3: 求得選項(xiàng)和篇章句子的相似度,sim(a,s)=ωτg/n。
2.3.2 反義匹配
在真實(shí)的試題實(shí)例中也存在一些特殊現(xiàn)象,有些篇章中的句子和選項(xiàng)共同出現(xiàn)的詞匯比較多,導(dǎo)致按上面的句子相似度計(jì)算方法得到的句子相似度比較高,但實(shí)際上兩個(gè)句子中包含了一對(duì)反義詞。Hownet[15]知識(shí)庫(kù)在詞匯相似度和相關(guān)度方面表現(xiàn)比較好的計(jì)算性能,但對(duì)于具有對(duì)義和反義的詞匯之間的關(guān)系刻畫比較不夠準(zhǔn)確。為此課題組從網(wǎng)站在線反義詞查詢(http:∥fyc.5156edu.com)以及新華反義詞詞典[19]中收集整理得到8 390多條反義詞對(duì),來捕獲句子之間的反義詞匯。表1給出收集到的反義詞對(duì)列表實(shí)例。
當(dāng)選項(xiàng)和篇章句子中有互為反義的句子存在,即使它們之間的句子相似度高,篇章句子對(duì)選項(xiàng)的支持度也是很低的。如選項(xiàng)句子片段為“在大眾傳播上微信的傳播能力很強(qiáng)”,篇章中句子片段為“微信的大眾傳播能力較弱”。兩個(gè)句子片段很多詞匯重疊出現(xiàn),其句子相似度很高,但發(fā)現(xiàn)因?yàn)橛蟹戳x詞對(duì)“強(qiáng)”和“弱”的出現(xiàn),篇章句子對(duì)選項(xiàng)的支持度是很低的,換言之,篇章句子對(duì)選項(xiàng)是不支持的。
反義匹配特征主要針對(duì)與選項(xiàng)相似度最高的句子。當(dāng)篇章中與選項(xiàng)相似度最高的句子與選項(xiàng)之間出現(xiàn)反義詞對(duì),就將句子對(duì)選項(xiàng)的支持度φ2置為0。否則φ2為句子與選項(xiàng)的2.3.1句子相似度。
2.3.3 否定匹配
當(dāng)篇章句子或選項(xiàng)中出現(xiàn)否定詞匯時(shí),系統(tǒng)性能就會(huì)大大下降。例如,選項(xiàng)“昆蟲翅膀柔軟性可比碳纖維的復(fù)合材料”,篇章句子片段為“就連碳纖維復(fù)合材料都無法與昆蟲的翅膀相比”。按本文句子相似度計(jì)算方法,該句子片段是篇章中與選項(xiàng)句子相似度最高的。但篇章句子中出現(xiàn)否定詞匯“無法”,使語義和選項(xiàng)完全相反。我們使用簡(jiǎn)單的啟發(fā)式方法來解決否定問題,通過規(guī)則匹配檢測(cè)否定詞匯的出現(xiàn)。課題組參考《現(xiàn)代漢語詞典》[20],結(jié)合高考閱讀理解的特點(diǎn),收集整理了漢語中常用的否定詞,得到30個(gè)否定詞,見表2。本文定義的否定詞是含有否定意味的詞匯。其中有漢語中否定字“無”、“沒”、“非”、“不”、“否”這樣的否定詞種子。也有基于這些否定詞種子擴(kuò)展得到的詞匯,如“沒有”、“無法”、“不能”等。
表2 高考閱讀理解否定詞表Table 2 College entrance examination reading comprehension negative vocabulary
否定匹配特征與反義匹配相似,也是針對(duì)篇章中與選項(xiàng)相似度最高的句子的。當(dāng)篇章中與選項(xiàng)相似度最高的句子或選項(xiàng)其中一個(gè)包含否定詞匯,另一個(gè)不包含,就將該句子對(duì)選項(xiàng)的支持度φ2置為0。否則φ2為句子與選項(xiàng)的2.3.1句子相似度。
實(shí)驗(yàn)所用的高考語文閱讀理解觀點(diǎn)支持類題目來自于近10年各省市高考真題以及高考模擬題。根據(jù)題干答題要求選取“正確”(true)還是“不正確”(false)的答案,將數(shù)據(jù)集分成兩類。針對(duì)False類型的題目,我們的模型轉(zhuǎn)換預(yù)測(cè)規(guī)則,預(yù)測(cè)置信度得分最低的選項(xiàng)為正確答案。本文使用哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心的語言處理集成平臺(tái)LTP[8]對(duì)篇章文本、題干信息、選項(xiàng)進(jìn)行分詞、詞性標(biāo)注以及句法分析預(yù)處理。
本文使用平均準(zhǔn)確率得分[5](average accuracy score AAS)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。計(jì)算公式如下:
(9)
(10)
其中,|Q|為題目總數(shù),si為第i個(gè)題目的準(zhǔn)確率得分。Ci為系統(tǒng)預(yù)測(cè)的得分最高的選項(xiàng)集合,ai為正確答案。當(dāng)集合Ci包含ai時(shí),δ(Ci,ai)取值為1,否則δ(Ci,ai)為0。針對(duì)False類型題目,評(píng)分規(guī)則相反,Ci為系統(tǒng)預(yù)測(cè)的得分最低的選項(xiàng)集合。
為了驗(yàn)證基于選項(xiàng)與題干一致性模型的答案預(yù)測(cè)方法的有效性,實(shí)驗(yàn)將基于詞袋模型[4](Bag of Word,BOW)的解答方法作為基準(zhǔn)方法(Baseline),與本文方法進(jìn)行比較。其算法如下。
算法:詞袋模型Fori=1to4do S=Ai∪Q/U scorei=1λ∑j=1|s|count(wj); ∥wj為S中第j個(gè)詞匯;∥count(Wj)為Wj在P中出現(xiàn)的次數(shù)∥1λ是正則化項(xiàng)EndforReturnscore1…4
形式化表示:P為篇章文本的詞匯集合,Q為題干觀點(diǎn)的詞匯集合,A1…4為選項(xiàng)的詞匯集合,停用詞集為U。
根據(jù)算法得到選項(xiàng)的得分,進(jìn)行排序,根據(jù)題目要求,True類型題目選取得分最高的為正確答案,False類型題目相反。
本文主要進(jìn)行了三組實(shí)驗(yàn):評(píng)估相關(guān)度和支持度的不同權(quán)值對(duì)結(jié)果的影響,獲得最優(yōu)的權(quán)值參數(shù);驗(yàn)證不同的特征組合對(duì)結(jié)果的影響;比較兩種模型的實(shí)驗(yàn)結(jié)果。
1)實(shí)驗(yàn)一:參數(shù)選擇
實(shí)驗(yàn)比較了相關(guān)度權(quán)值θ1和支持度權(quán)值θ2對(duì)不同結(jié)果的影響。θ1和θ2的取值及其對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果如表3。
表3 不同權(quán)值的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of different weights
表3顯示,當(dāng)θ1和θ2取值分別為0.6和0.4時(shí),模型取得最好的結(jié)果,AAS達(dá)到39.19。AAS普遍較低,這不僅因?yàn)楦呖荚囶}難度和復(fù)雜度較大,還因?yàn)楦呖颊骖}與模擬題題目設(shè)置差異比較大,當(dāng)使用最優(yōu)的參數(shù)對(duì),高考真題上的準(zhǔn)確率為50%,而在模擬題中的準(zhǔn)確率只有33%。
2)實(shí)驗(yàn)二:不同特征組合的實(shí)驗(yàn)比較
本文包含相關(guān)度特征和支持度特征。其中,相關(guān)度特征用句子距離來刻畫,支持度特征用句子相似度、反義匹配、否定匹配三個(gè)特征來刻畫。表4為不同特征的組合對(duì)實(shí)驗(yàn)結(jié)果的影響。
句子相似度特征作為基本特征,分別加入別的特征進(jìn)行組合的實(shí)驗(yàn)結(jié)果顯示,句子距離、反義匹配和否定匹配三種特征,其中的每一個(gè)特征的加入都有效提高了準(zhǔn)確率。三個(gè)特征全部加入之后,準(zhǔn)確率相比于只有句子相似度特征提高了18.39%,說明本文特征的合理性和有效性。
表4 不同特征組合的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of different combinations of features
3)實(shí)驗(yàn)三:模型結(jié)果比較
本文提出的方法(option and question consistency model OQCM)與詞袋模型(BOW)對(duì)比,準(zhǔn)確率高出約5%(見表5)。相對(duì)于詞袋模型只考慮詞匯的表層特征,本文方法能夠從句子語義角度,分析出篇章句子與選項(xiàng)之間的文本蘊(yùn)含關(guān)系。
表5 兩種模型實(shí)驗(yàn)結(jié)果Table 5 Two model experimental results
針對(duì)高考語文閱讀理解中的觀點(diǎn)支持類題型,通過分析考察高考語文閱讀理解中篇章文本、題干信息和選項(xiàng)之間的關(guān)系,提出一種基于選項(xiàng)和題干一致性的建模方法。該方法從篇章句子片段與題干觀點(diǎn)相關(guān)度和篇章句子對(duì)選項(xiàng)支持度兩個(gè)維度進(jìn)行建模,其中相關(guān)度特點(diǎn)用句子距離特征來刻畫,支持度特征通過句子相似度、反義匹配、否定匹配三方面特征來描述,最終根據(jù)選項(xiàng)置信度得分對(duì)選項(xiàng)進(jìn)行排序,預(yù)測(cè)正確答案。
針對(duì)高考閱讀理解任務(wù),接下來我們將融入句子的漢語框架語義[21]特征、語義依存句法特征和百科知識(shí)庫(kù)等語義資源,進(jìn)一步擴(kuò)展題干信息和背景材料語義知識(shí),改進(jìn)模型中兩個(gè)度量的定義,提升模型的平均準(zhǔn)確率。
致謝:本文實(shí)驗(yàn)用到了哈爾濱工業(yè)大學(xué)信息檢索研究中心的語言云平臺(tái);知網(wǎng)平臺(tái)提供的詞匯語義相似度計(jì)算工具,在此表示感謝!
[1] Ferrucci DA,Brown E W,Chu-Carvoll J,etal.Building Watson:An Overview of the DeepQA Project[J].ArtificialIntelligenceMagazine,2010,31(3):59-79.
[2] Hirschman L,Light M,Breck E,etal.Deep Read:A Reading Comprehension System[C]∥Meeting of the Association for Computational Linguistics,1999:325-332.DOI:10.3115/1034678.1034731.
[3] Charniak E.Toward a Model of Children′s Story Comprehension[D].Chicago:University of Chicago,1972.
[4] Richardson M,Burges C J C,Renshaw E.Mctest:A Challenge Dataset for the Open-domain Machine Comprehension of Text[C]∥EmpiricalMethodsinNaturalLanguageProcessing,2013:193-203.
[5] Narasimhan K,Barzilay R.Machine Comprehension with Discourse Relation[C]∥TheAssociationforComputationalLinguistics,2015:1253-1262.DOI:10.3115/v1/P15-1121.
[6] Sachan M,Dubey A K,Xing E,etal.Learning Answer-Entailing Structures for Machine Comprehension[C]∥TheAssociationforComputationalLinguistics,2015(1):239-249.DOI:10.3115/v1/p15-1024.
[7] Iyyer M,Boyd-Graber J,Claudino L,etal.A Neural Network for Factoid Question Answering over Paragraphs[C]∥EmpiricalMethodsinNaturalLanguageProcessing,2014:218-227.DOI:10.3115/v1/D14-1070.
[8] Berant J,Srikumar V,Chen P C,etal.Modeling Biological Processes for Reading Comprehension[D]∥EmpiricalMethodsinNaturalLanguageProcessing,2014:1499-1510.DOI:10.3115/v1/D14-1159.
[9] Liu T,Che W,Li Z.Language Technology Platform[J].ComputationalLinguistics,2010,2(6):13-16.
[10] 梅家駒,竺一鳴,高蘊(yùn)琦,等.同義詞詞林[M].上海:上海辭書出版社,1993:106-108.
[11] 田久樂,趙蔚.基于同義詞詞林的詞語相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào),2010,28(6):602-608.DOI:10.3969/j.issn.1671-5896.2010.06.011.
[12] 教育部考試中心.高考文科試題分析[M].北京:高等教育出版社,2012.
[13] 許云,樊孝忠,張鋒.基于知網(wǎng)的語義相似度計(jì)算[J].北京理工大學(xué)學(xué)報(bào),2005,25(5):411-414.DOI:10.3969/j.issn.1001-0645.2005.05.009.
[14] 劉宏哲,須德.基于本體的語義相似度和相關(guān)度計(jì)算研究綜述[J].計(jì)算機(jī)科學(xué),2012,39(2):8-13.DOI:10.3969/j.issn.1002-137X.2012.02.002.
[15] 閆潑.信息檢索中的排序與相關(guān)度計(jì)算研究[D].濟(jì)南:山東大學(xué)碩士學(xué)位論文,2008.DOI:10.7666/d.y1349040.
[16] 李茹,王智強(qiáng),李雙紅,等.基于框架語義分析的漢語句子相似度計(jì)算[J].計(jì)算機(jī)研究與發(fā)展,2013,50(8):1728-1736.
[17] 董振東,董強(qiáng).“知網(wǎng)”[EB/OL].[2011-08-20].http:∥www.keenage.com.
[18] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度[J].中文計(jì)算語言學(xué),2002,7(2):59-76.
[19] 商務(wù)印書館辭書研究中心.新華反義詞詞典[M].北京:商務(wù)印書館辭書研究中心,2011.
[20] 中國(guó)社會(huì)科學(xué)院語言研究所詞典編輯室.現(xiàn)代漢語詞典:第6版[M]. 北京:商務(wù)印書館,2011.
[21] 李茹.漢語句子框架語義結(jié)構(gòu)分析技術(shù)研究[D].太原:山西大學(xué)博士學(xué)位論文,2012.
AnswerPredictionofReadingComprehension
LI Ru1,2,MA Shuhui1*,ZHANG Hu1,GUO Shaoru1
(1.SchoolofComputer&InformationTechnology,ShanxiUniversity,Taiyuan030006,China;2.KeyLaboratoryofComputationIntelligence&ChineseInformationProcessing,ShanxiUniversity,Taiyuan030006,China)
For the Chinese reading comprehension of college entrance examination,this paper proposed a new method of Answer Prediction based on option-question consistency discriminative model, which jointly identifies the relation of a question, relevant sentences and the option. The model is based on the relevant degree between the text sentences and the question and the support degree between the sentences and the option, and then the united scoring function is defined with the two measures. In which the relevant degree is measured by the distance between the source sentence of the question and an text sentence, and the support degree is measured by three semantic features of sentence similarity,Antisense matching and negative matching. Moreover,three groups of experiments were conducted in nearly 10 years of college entrance examination questions and simulation questions,The experimental results are given to show the effect of this method on the combination of different features and the parameter setting.
Chinese college entrance examination;reading comprehension;option-question consistency
10.13451/j.cnki.shanxi.univ(nat.sci.).2017.04.014
2017-03-21;
2017-03-30
國(guó)家863計(jì)劃(2015AA015407);國(guó)家自然科學(xué)基金(61373082,61502287);山西省科技基礎(chǔ)條件平臺(tái)建設(shè)項(xiàng)目(2014091004-0103);山西省回國(guó)留學(xué)人員科研資助項(xiàng)目(2013-015);中國(guó)民航大學(xué)信息安全測(cè)評(píng)中心開放課題基金(CAAC-ISECCA-201402);山西省高??萍紕?chuàng)新項(xiàng)目(201505); 山西省高等學(xué)??萍紕?chuàng)新項(xiàng)目(2015104)
李茹(1963-),女,博士,教授,主要研究方向:中文信息處理。E-mail:liru@sxu.edu.cn
*通訊作者:馬淑暉(MA shuhui) ,E-mail:huihui387@sina.cn
TP391
A
0253-2395(2017)04-0763-08