国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于依存句法分析的復(fù)合事實(shí)型問句分解方法

2017-07-18 10:53:41張偉男
中文信息學(xué)報(bào) 2017年3期
關(guān)鍵詞:句法結(jié)構(gòu)嵌套類別

劉 雄,張 宇,張偉男,劉 挺

(哈爾濱工業(yè)大學(xué) 社會計(jì)算與信息檢索研究中心,黑龍江 哈爾濱 150001)

基于依存句法分析的復(fù)合事實(shí)型問句分解方法

劉 雄,張 宇,張偉男,劉 挺

(哈爾濱工業(yè)大學(xué) 社會計(jì)算與信息檢索研究中心,黑龍江 哈爾濱 150001)

問答系統(tǒng)一直以來都是自然語言處理領(lǐng)域的研究熱點(diǎn)之一,然而現(xiàn)有問答系統(tǒng)技術(shù)對復(fù)合事實(shí)型問句的處理效果并不完美。為了增強(qiáng)問答系統(tǒng)理解復(fù)合事實(shí)型問句的能力,該文提出了一種針對復(fù)合事實(shí)型問句的分解方法: 使用基于樹核的支持向量機(jī)對問句的分解類別進(jìn)行識別,進(jìn)而使用基于依存句法分析的方法生成分解結(jié)果。實(shí)驗(yàn)結(jié)果顯示,在我們所構(gòu)建的高質(zhì)量問句分解語料庫中,我們的方法對問句分解類別進(jìn)行了準(zhǔn)確的識別,同時也可以較好地生成嵌套型問句的子問句。

問句分解;復(fù)合事實(shí)型問句;問句理解;問答系統(tǒng);自然語言處理

1 引言

問答系統(tǒng)是目前自然語言處理領(lǐng)域中的研究熱點(diǎn)之一,它以精準(zhǔn)的答案直接回答用戶以自然語言方式表達(dá)的問題。宏觀地來看,問答系統(tǒng)一般由三個主要部分組成: 問題理解、篇章檢索及答案抽取[1]。隨著用戶越來越傾向于輸入自然語言問題作為查詢,問題理解成為了信息檢索和問答系統(tǒng)領(lǐng)域的研究重點(diǎn)之一。

對于用戶輸入的復(fù)合型自然語言問題,回答此類復(fù)合的問題往往要求問答系統(tǒng)結(jié)合多個文檔的內(nèi)容得出答案,而傳統(tǒng)的問題理解技術(shù)(如問題分類[2]、問題主題識別[3]、自動查詢擴(kuò)展[4]、復(fù)述[5]及詞項(xiàng)賦權(quán)[6]等)不能夠有效地幫助問答系統(tǒng)處理此類問題。

受TREC(text retrieval conference)評測的影響,問答系統(tǒng)領(lǐng)域通常將問句分為如下幾類: 事實(shí)型問句、列表型問句、定義型問句、原因型問句及HOW-TO型問句等。事實(shí)型問題關(guān)心的是時間、地點(diǎn)、人物及事件等客觀事實(shí),簡單事實(shí)型問句的答案通常很短,為包含事實(shí)的詞或短語,可以通過其上下文構(gòu)成的語境從文檔庫中直接抽取得到;復(fù)合事實(shí)型問句中包含多于一個的簡單事實(shí)型問句作為子問句,并且通常具有復(fù)雜的修飾限制,最終答案需要分別解答原始問題中包含的各個子問句,并在原始問題的修飾限制條件下綜合各個子問句的答案得到。

在我們的研究過程中,從分解的角度出發(fā),將可分解的復(fù)合事實(shí)型問句歸為并列類和嵌套類兩類。例如問句“考拉,又叫作樹袋熊,是哪個國家的國寶動物”就是一個并列類的問句,它可以分解成“考拉是哪個國家的國寶動物”和“樹袋熊是哪個國家的國寶動物”兩個并列的子問句,這兩個子問句的答案都是原問句的最終答案;而問句“飛機(jī)的發(fā)明者是哪國人”則屬于嵌套類,它需要被分解為“飛機(jī)的發(fā)明者是誰”(其答案為“萊特兄弟”)和“萊特兄弟是哪國人”兩個嵌套的子問句,外層子問句需要得到內(nèi)層子問句的答案才能進(jìn)行解答。

復(fù)合事實(shí)型問句分解技術(shù)研究具有如下意義:

(1) 為回答復(fù)合事實(shí)型問句提供證據(jù)支持,增強(qiáng)問答系統(tǒng)的可信度。在問答系統(tǒng)中,通過展示問句分解得到的各個子問句、對應(yīng)的子問句答案及子問句之間的關(guān)系,可以讓用戶了解問答系統(tǒng)解決問題的過程,增加用戶對問答系統(tǒng)的信任度。

(2) 豐富原始問句的語義信息,提高答案準(zhǔn)確度。將子問句的答案帶回到原始問句中,可以更加明確原始問句的提問意圖,提高準(zhǔn)確回答原始問句的概率。

2 相關(guān)工作

總體來說,由于復(fù)合問句的分解研究工作在問句理解中是一個新興的研究方向,國內(nèi)外學(xué)者對于復(fù)合問句分解技術(shù)的研究尚處于初級階段,前人相關(guān)的研究工作積累也較少。同時,不同學(xué)者所做的研究針對不同的問題類型及數(shù)據(jù)集,國際上沒有權(quán)威機(jī)構(gòu)組織相關(guān)工作的評測,這也造成沒有標(biāo)準(zhǔn)問題集可用于不同方法之間的比較,無法直接比較各種方法的優(yōu)劣。

IBM公司研發(fā)的沃森機(jī)器人在美國益智問答游戲節(jié)目“危險邊緣(Jeopardy!)”中大勝優(yōu)秀的人類選手而聞名全球,Deep QA項(xiàng)目是沃森背后的主要問答框架。IBM的研究團(tuán)隊(duì)在其論文[7]中介紹了他們在問句分解方面的工作: 與本文分類體系類似地,他們將節(jié)目中的線索句分成并行類和嵌套類,對這兩類問題應(yīng)用不同的方法進(jìn)行檢測和分解,通過對復(fù)合事實(shí)型問句的分解,沃森在“Jeopardy!”決賽問題集上的準(zhǔn)確率提高了1.5%。

START問答系統(tǒng)是美國麻省理工學(xué)院研究開發(fā)的世界上第一個面向網(wǎng)絡(luò)的問答系統(tǒng),自1993年12月上線連續(xù)運(yùn)行至今。其領(lǐng)導(dǎo)者Boris Katz教授在其論文[8]中闡述了他們在START系統(tǒng)中所應(yīng)用的三種問句分解策略: 基于語言學(xué)知識的句法分解策略、基于詳盡語言描述內(nèi)容的語義分解策略,以及將問句和資源內(nèi)容同時分解成斷言的策略。

社區(qū)問答系統(tǒng)(community question answering, CQA)是近年來互聯(lián)網(wǎng)上蓬勃發(fā)展的問答服務(wù),已經(jīng)積累了許多高質(zhì)量問答資源。Liu等人在其論文[9]中針對CQA問答資源提出一套分類體系,并從不同的答案資源中抽取自動摘要,以回答用戶所提出問題中的不同部分。這也可以看作是問句分解在社區(qū)問答系統(tǒng)中的一次應(yīng)用探索。

現(xiàn)有相關(guān)研究均證明了: 通過對復(fù)合問句的分解,識別子問句之間的關(guān)系,可以提高這些問答系統(tǒng)回答復(fù)合問題的能力。在用戶查詢從關(guān)鍵詞過渡到復(fù)雜自然語言的趨勢下,分解復(fù)合問句將在問句理解模塊中占據(jù)重要的位置。

3 基于樹核及依存句法分析的問句分解方法

由于問句分解是問答系統(tǒng)中一個新興的任務(wù),前人的經(jīng)驗(yàn)和積累都很少。因此,作為研究的第一步,我們需要收集相應(yīng)的復(fù)合事實(shí)型問句集合,制訂詳盡的標(biāo)注規(guī)則,以構(gòu)建高質(zhì)量的問句分解語料庫,作為進(jìn)一步研究的基礎(chǔ)。

在構(gòu)建語料庫的過程中,我們總結(jié)歸納出了復(fù)合事實(shí)型問句的三種分解類型,分別是原子類(atomic)、并列類(parallel)及嵌套類(nested)。對問句的分解類別進(jìn)行識別是問句分解中的一個必要步驟,它可以在兩方面幫助我們完成問句分解的任務(wù): 一方面,不同的分解類別表示了不同子問句之間的關(guān)系: 在并列類問句中,各個子問句之間獨(dú)立互斥,而在嵌套類問句中,外層子問句的解答需要依賴于內(nèi)層子問句的答案;另一方面,并列類問句和嵌套類問句在句法結(jié)構(gòu)等語言學(xué)特征上存在明顯的差異,準(zhǔn)確地識別這兩種類型可以給子問句序列生成以指導(dǎo)信息,讓我們在后續(xù)分解時做到有的放矢。

借助于分解類別識別結(jié)果的指導(dǎo)信息,我們可以對不同類型的問句訓(xùn)練不同的機(jī)器學(xué)習(xí)模型。我們的子問句生成方法借鑒了自然語言處理中句法分析的工作,將子問句生成的過程融入到句法分析器生成句法樹的過程中,以完成對復(fù)合事實(shí)型問句的分解工作。

本章將從語料標(biāo)注規(guī)則、分解類別識別及子問句生成三個方面來闡述我們的復(fù)合事實(shí)型問句分解方法。

3.1 語料標(biāo)注規(guī)則

為了規(guī)范問句分解的標(biāo)注過程,縮小不同標(biāo)注者主觀意見所帶來的標(biāo)注差別,我們設(shè)定了詳細(xì)的標(biāo)注規(guī)則,一條數(shù)據(jù)的標(biāo)注格式定義如圖1所示。

圖 1 問句分解數(shù)據(jù)標(biāo)注格式

如圖 1 所示,一條問句分解數(shù)據(jù)的標(biāo)注結(jié)果由“問句編號”“問句分詞結(jié)果”“分解類別”及“子問句序列”四部分組成,并由符號“|”作為這四部分之間的分隔符。

問句分詞結(jié)果是由若干詞項(xiàng)組成的序列,詞項(xiàng)與詞項(xiàng)之間以空格符號分隔,在每個詞項(xiàng)中,由“-”連接詞語序號和詞語內(nèi)容,詞語序號從“0”開始計(jì)數(shù)。

為了區(qū)分不同的問句分解類別,我們設(shè)定了三個類: “ATOMIC”“PARALLEL”“NESTED”,分別對應(yīng)了原子類、并列類及嵌套類。

子問句序列由符號“=”連接詞語序號序列及子問句答案代號組成。詞語序號序列由空格連接若干詞語序號組成,以表示子問句。此外,若該問句為嵌套類,且當(dāng)前子問句非最“內(nèi)層”子問句,則可以插入適當(dāng)?shù)淖訂柧浯鸢复?,使?dāng)前子問句更通順。

圖 2 展示了問句分解標(biāo)注的一個具體實(shí)例,它是語料庫中的第25號問句,問句具體內(nèi)容分詞后的結(jié)果為“在/我國/可/兌換/的/國際/通用/外幣/中/,/最/值錢/的/是/哪個/幣種”,它的分解類別被標(biāo)注為“NESTED”(即嵌套類)。第一個子問句的內(nèi)容為“我國/可/兌換/的/國際/通用/外幣”,其答案為一個列表,用代號“LIST0”表示;第二個子問句的內(nèi)容為“在/LIST0/中/,/最/值錢/的/是/哪個/幣種”,其答案為原問句的最終答案,以代號“ANS”表示。

圖 2 問句分解標(biāo)注示例

3.2 基于樹核的分解類別識別

如前所述,原子類、并列類及嵌套類構(gòu)成了我們的問句分解類別體系。

不同分解類別的問句主要差異體現(xiàn)在句法結(jié)構(gòu)上,因此我們在進(jìn)行分解類別識別的過程中使用的方法主要從問句的句法結(jié)構(gòu)特征出發(fā)。句法分析器是一種廣泛應(yīng)用于自然語言處理各個任務(wù)的工具,它們能夠提供句子的句法結(jié)構(gòu)信息;樹核通過子結(jié)構(gòu)的重合度來度量兩個句法樹的結(jié)構(gòu)相似度,被成功地應(yīng)用于問題分類的任務(wù)中。我們應(yīng)用了此類基于樹核的方法[10]來進(jìn)行問句分解類別識別的工作。

樹核的定義公式如式(1)所示,用兩棵句法樹中以各個節(jié)點(diǎn)為根的子樹中相同的子結(jié)構(gòu)數(shù)目來度量這兩棵句法樹的相似度。計(jì)算時我們定義不同的子結(jié)構(gòu),則可以得到如下四種不同的樹核空間。

(1) 子樹(subtree,ST)空間: 樹T中的任意節(jié)點(diǎn)及該節(jié)點(diǎn)所有后代節(jié)點(diǎn)可組成樹S,則S為T的一棵子樹,ST空間直接用子樹作為子結(jié)構(gòu)。

(2) 子集樹(subset tree,SST)空間: SST與ST大致相同,唯一的不同在于: 在SST中,原樹中的非終結(jié)符可以作為子結(jié)構(gòu)的葉子節(jié)點(diǎn),而在ST中,原樹中的非終結(jié)符是不可以作為葉子結(jié)構(gòu)子節(jié)點(diǎn)的。

(3) 子集樹—詞袋(SST-BOW)空間: 在SST的基礎(chǔ)上,進(jìn)一步比較子結(jié)構(gòu)中葉子節(jié)點(diǎn)上的標(biāo)記符,若兩者葉子節(jié)點(diǎn)上的標(biāo)記符相同,則相似度增加。

(4) 部分樹(partial tree,PT)空間: PT在SST的基礎(chǔ)上進(jìn)一步放松了控制,允許子結(jié)構(gòu)只使用語法生成規(guī)則一部分,而之前ST和SST中的子結(jié)構(gòu)均需遵守語法完整的生成規(guī)則。

我們采用支持向量機(jī)作為分類器,將樹核作為支持向量機(jī)中的核方法,對不同的分解類別進(jìn)行識別。

3.3 基于依存句法分析的子問句生成

在子問句生成的過程中,借鑒依存句法分析的工作,我們保留了依存句法樹的整體結(jié)構(gòu),而將樹中邊上的依存關(guān)系標(biāo)簽改為表征問句分解信息的分解標(biāo)簽。這樣做的優(yōu)點(diǎn)在于: (1)保留了原句法樹的結(jié)構(gòu),可提供句法結(jié)構(gòu)信息;(2)前人已經(jīng)積累了許多優(yōu)秀的依存句法分析方法,這些方法都可以被用到子問句生成的過程中。

表征問句分解信息的分解標(biāo)簽可以根據(jù)標(biāo)注結(jié)果自動地生成,其生成過程簡潔明了,可以看作一個二進(jìn)制編碼的過程: 對于問句中的每個詞語,如果該詞語出現(xiàn)在某層的子問句中,則對應(yīng)的二進(jìn)制編碼置為1;若該詞語在某層子問句中未出現(xiàn),則對應(yīng)的二進(jìn)制編碼置為0;將二進(jìn)制編碼轉(zhuǎn)換為十進(jìn)制數(shù)即得到所對應(yīng)的分解標(biāo)簽。例如在圖 2的標(biāo)注結(jié)果中,共有兩層的子問句,則每個詞語的二進(jìn)制編碼有兩位,對于該問句的最后一個詞“幣種”,它在第一層子問句中并未出現(xiàn),僅出現(xiàn)在第二層子問句中,其二進(jìn)制標(biāo)簽為“10”,轉(zhuǎn)換為十進(jìn)制標(biāo)簽為“2”。圖 3 展示了圖 2標(biāo)注結(jié)果轉(zhuǎn)化后的句法樹。

圖 3 帶有問句分解標(biāo)簽依存句法樹

我們使用了基于圖的依存分析方法訓(xùn)練面向問句分解的依存句法分析器。基于圖的依存句法分析方法由McDonald首先提出[11],他將依存分析問題化歸為在一個有向圖中尋找最大生成樹的問題。

式 (2)定義了句子x所對應(yīng)的依存句法樹y的得分,其中f(i,j)是詞i與詞j之間依存關(guān)系的特征向量,而w則為對應(yīng)的權(quán)重向量。在我們面向問句分解的依存句法分析器中,主要從當(dāng)前詞、父親節(jié)點(diǎn)詞、子節(jié)點(diǎn)詞及孫子節(jié)點(diǎn)詞的詞性、樹結(jié)構(gòu)中抽取特征組成特征向量f,使用感知器算法訓(xùn)練權(quán)重向量w,使用高階的Eisner算法進(jìn)行解碼[12]。

4 實(shí)驗(yàn)結(jié)果及討論

4.1 語料庫構(gòu)建結(jié)果及評價

我們收集了江蘇衛(wèi)視《一站到底》欄目從2012年3月至2013年1月共91期節(jié)目中提問的約 8 500個復(fù)合事實(shí)型問句,以純文本保存。

在標(biāo)注過程中,我們先讓三位標(biāo)注者同時標(biāo)注了前1 000個問句,以期標(biāo)注人員可以熟悉并理解所制定的標(biāo)注規(guī)則,并對標(biāo)注規(guī)則的認(rèn)知達(dá)成一致。至于剩余約7 500個問句,則分別派給三位標(biāo)注者2 500個問句進(jìn)行標(biāo)注。

我們對三位標(biāo)注者前1 000句的標(biāo)注一致性進(jìn)行了評價,評價的標(biāo)準(zhǔn)采用了常用的Fleiss’ Kappa值[13]。

對于分解類別(即ATOMIC、PARALLEL和NESTED)的標(biāo)注,三位標(biāo)注者的一致性達(dá)到了0.779 251,在Fleiss’ Kappa的評價類別里達(dá)到了第二檔。

對于子問句序列的標(biāo)注,我們同樣也做了評價。在評價時,我們將標(biāo)注問題看成對每個詞的二分類問題,即該詞是否出現(xiàn)于某子問句中。根據(jù)這樣的評價方法,三位標(biāo)注者的子問句序列標(biāo)注一致性達(dá)到了0.697 617,同樣達(dá)到了Fleiss’ Kappa評價類別中的第二檔。

圖 4 分解類別占比分布

為了解分解類別分布,我們也對其進(jìn)行了統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如圖 4 所示。在我們所標(biāo)注的8 500多句中,不可分解的問句占比49%,略少于一半;而可分解的問句占比51%,略多于一半。進(jìn)一步地觀察,在可分解的問句中,嵌套類問句占比三分之二,而并列類問句占比三分之一。

4.2 分解類別識別的實(shí)驗(yàn)結(jié)果

為了驗(yàn)證句法結(jié)構(gòu)信息在問句分解類別識別過程中的作用,在實(shí)驗(yàn)中我們使用了如下六種樹結(jié)構(gòu)。

(1) 短語句法樹(constituency tree,CT): 此類句法樹遵循短語結(jié)構(gòu)句法,樹的內(nèi)部節(jié)點(diǎn)均為句法節(jié)點(diǎn),而葉子節(jié)點(diǎn)均為詞語節(jié)點(diǎn)。

(2) 詞語中心句法樹(lexical centered tree,LCT): 此類句法樹由依存句法樹轉(zhuǎn)化得到,以詞語作為中心節(jié)點(diǎn),將對應(yīng)的語法關(guān)系和詞性作為添加到詞語中的孩子節(jié)點(diǎn)。

(3) 詞性中心句法樹(postag centered tree,PCT): 此類句法樹在保留依存句法結(jié)構(gòu)的基礎(chǔ)上,以詞性節(jié)點(diǎn)作為中心,將對應(yīng)的語法關(guān)系節(jié)點(diǎn)作為其父親節(jié)點(diǎn),而對應(yīng)的詞語節(jié)點(diǎn)作為孩子節(jié)點(diǎn)。

(4) 語法關(guān)系中心句法樹(grammatical relation centered tree,GRCT): 此類句法樹同樣保留了依存句法的結(jié)構(gòu),但它們以語法關(guān)系節(jié)點(diǎn)作為中心,分別將詞性節(jié)點(diǎn)和詞語節(jié)點(diǎn)作為語法關(guān)系節(jié)點(diǎn)的孩子節(jié)點(diǎn)和孫子節(jié)點(diǎn)。

(5) 詞語詞性序列樹(lexical and postag sequence tree,LPST): 此類樹忽略了問句的句法結(jié)構(gòu),直接將詞語節(jié)點(diǎn)和詞性節(jié)點(diǎn)依次添加到樹的根節(jié)點(diǎn)。

(6) 詞語序列樹(lexical sequence tree,LST): 此類樹忽略了問句的句法結(jié)構(gòu),直接將詞語節(jié)點(diǎn)依次添加到樹的根節(jié)點(diǎn)中。

在實(shí)驗(yàn)中,上述句法樹中的短語結(jié)構(gòu)句法樹均使用Stanford Parser[14]自動分析生成,而依存句法結(jié)構(gòu)樹均使用哈爾濱工業(yè)大學(xué)語言技術(shù)平臺[15](language technology platform,LTP)自動分析生成。

基于樹核的問句分解類別識別實(shí)驗(yàn)結(jié)果如表 1~表 4 所示,表中不同行表示不同的樹核空間,而不同列表示不同的樹結(jié)構(gòu)。我們采用了三種問句分解類型(即ATOMIC、PARALLEL和NESTED)的F1值,以及總體的分類準(zhǔn)確率(ACC)作為實(shí)驗(yàn)的評價指標(biāo),各個指標(biāo)均是在整個語料庫上做了五次交叉驗(yàn)證后取平均值計(jì)算得到的。

觀察表中結(jié)果我們可以看到,整體表現(xiàn)最好的句法樹為短語句法樹(CT),在四個評價指標(biāo)上,均是使用短語句法樹結(jié)構(gòu)的組合取得了最優(yōu)效果。而在由依存句法樹轉(zhuǎn)換得到的三種樹結(jié)構(gòu)中,語法關(guān)系中心樹(GRCT)的表現(xiàn)更好,與CT的表現(xiàn)基本相當(dāng)。這是由于短語句法比依存句法稍簡單,短語句法樹生成的準(zhǔn)確率稍高。

表1 原子類問句識別F1值

表 2 并列類問句識別F1值

表 3 嵌套類問句識別F1值

表 4 分解類型識別整體分類準(zhǔn)確率(ACC)

而從樹核空間上來講,SST及其改進(jìn)版SST-BOW較ST及PT表現(xiàn)更加優(yōu)異。這說明對于我們的任務(wù),SST比較子結(jié)構(gòu)時的限制程度剛好,而ST限制過緊,PT限制過松。

LST+SST及LST+ST兩個組合在識別PARALLEL類和ATOMIC類的時候完全失效,其原因在于LST直接將樹扁平化,忽略了問句的句法結(jié)構(gòu)信息,這進(jìn)一步說明了句法結(jié)構(gòu)信息在問句分解類別識別任務(wù)中起到了關(guān)鍵的作用。

另一個發(fā)現(xiàn)是,除了在CT+SST的組合中,PARALLEL類的F1值略高于NESTED類的F1值以外,在其余的句法樹和樹核空間的組合里,關(guān)于三種問句分解類型F1值的排序均是ATOMIC>NESTED>PARALLEL,這反映了三種不同分解類別的識別難度。

4.3 子問句生成的實(shí)驗(yàn)結(jié)果

我們對語料庫中嵌套類及并列類的問句分別進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表 5 所示,表中的數(shù)據(jù)均由10次交叉驗(yàn)證得到。

每類實(shí)驗(yàn)分為兩組: 一組為生成第一層子問句,對于原問句中的每個詞語,只需判斷其是否出現(xiàn)在第一層子問句中,因此分解標(biāo)簽數(shù)目均為2;另一組生成完整的子問句序列,句子中的每個詞語可出現(xiàn)在若干層子問句中,因此分解標(biāo)簽數(shù)目有所增加,其中嵌套類的標(biāo)簽數(shù)目為7,而并列類的標(biāo)簽數(shù)目為13。

表 5 基于依存句法分析的復(fù)合子問句生成實(shí)驗(yàn)結(jié)果

評價時我們引入了評價依存句法分析器常用的兩個指標(biāo): UAS(unlabeled attachment score)和LAS(labeled attachment score)。在實(shí)驗(yàn)結(jié)果中,嵌套類UAS都高于85%,并列類UAS均在80%左右,說明我們的方法可以很好地保留句子的句法結(jié)構(gòu)信息;嵌套類LAS處于70%左右,可以為子問句生成提供有效指導(dǎo),而并列類LAS在50%左右,相對較低。

同時,為了實(shí)際檢驗(yàn)子問句生成的效果,我們將生成的子問句詞序列與標(biāo)注的子問句詞序列進(jìn)行了比較以得到準(zhǔn)確率,同時使用編輯距離作為容忍度。我們的實(shí)驗(yàn)在嵌套類問句集合上取得了不錯的效果: 在容忍度為2的條件下,兩組實(shí)驗(yàn)的準(zhǔn)確率為60%左右;在容忍度為1的條件下,準(zhǔn)確率為47%左右;在精確比較的條件下,子問句生成的準(zhǔn)確率也有28%。

通過觀察發(fā)現(xiàn),我們的方法在并列類問句上取得的效果在各個比較維度上都弱于嵌套類。通過觀察實(shí)際的分解結(jié)果我們做出了如下的分析: 嵌套類問句的分解比較“立體”,子問句通常分布在一個較大的子樹中;而并列類問句的分解則比較“扁平”,分解時通常需要將以頓號或連詞等連接的若干并列成分放入不同的子問句中,而這些并列成分在句法分析時會分布在同一棵子樹下。我們的分解方法基于依存句法分析的過程,更加適合嵌套類問句的特點(diǎn),因此在嵌套類的問句上取得的效果更佳。

進(jìn)一步地,我們還和前人的工作[16]進(jìn)行了比較,結(jié)果如表 6 所示。前人工作分解的目標(biāo)是問句中的一個隱含事實(shí)(可視為子問句的不同表達(dá)),使用了人工定義的句法模板生成候選,然后進(jìn)一步使用語言模型對候選進(jìn)行排序。通過比較可以發(fā)現(xiàn),我們的工作使用了規(guī)模更大的語料,分解得也更準(zhǔn)確。

表 6 與前人的工作進(jìn)行比較

5 結(jié)論及未來工作

從增強(qiáng)問答系統(tǒng)理解復(fù)合事實(shí)型問句能力的角度出發(fā),本文提出了基于依存句法分析的問句分解方法,并從問句分解語料庫構(gòu)建、問句分解類別識別及子問句生成三個方面闡述了復(fù)合事實(shí)型問句分解的研究工作。最終,我們構(gòu)建了高質(zhì)量的問句分解語料庫,對問句分解類別進(jìn)行了準(zhǔn)確的識別,并能較好地生成嵌套型問句的子問句。

盡管我們當(dāng)前的方法可以較好地解決部分問句分解的問題,但是對于并列類的復(fù)合問句仍有部分問題亟待解決。同時,在問答系統(tǒng)中如何高效地利用問句分解的結(jié)果,以期獲得更高質(zhì)量的答案,也是未來的研究方向之一。

[1] Ferrucci David, Brown Eric, Chu-Carroll Jennifer, et al. Building Watson: An Overview of the DeepQA Project[J]. AI Magazine, 2010, 31(3): 59-79.

[2] Bu Fan, Zhu Xingwei, Hao Yu, et al. Function-based question classification for general QA[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2010: 1119-1128.

[3] Duan Huizhong, Cao Yunbo, Lin Chin-Yew, et al. Searching Questions by Identifying Question Topic and Question Focus.[C]//Proceedings of Annual Meeting of the Association for Computational Linguistics Human Language Tchnologies. 2008: 156-164.

[4] Carpineto Claudio, Romano Giovanni. A Survey of Automatic Query Expansion in Information Retrieval[J]. ACM Computing Surveys, ACM, 2012, 44(1): 1-50.

[5] Androutsopoulos Ion, Malakasiotis Prodromos. A Survey of Paraphrasing and Textual Entailment Methods[J]. Journal of Artificial Intelligence Research, 2010: 135-187.

[6] Zhang W, Ming Z, Zhang Y, et al. The Use of Dependency Relation Graph to Enhance the Term Weighting in Question Retrieval.[C]//COLING. 2012: 3105-3120.

[7] Kalyanpur Aditya, Patwardhan Siddharth, Boguraev Branimir K, et al. Fact-based question decomposition in DeepQA[J]. IBM Journal of Research and Development, 2012, 56(3,4): 13: 1-13: 11.

[8] Katz Boris, Borchardt Gary, Felshin Sue. Syntactic and Semantic Decomposition Strategies for Question Answering from Multiple Resources[C]//Proceedings of the AAAI 2005 workshop on inference for textual question answering. 2005: 35-41.

[9] Liu Y, Li S, Cao Y, et al. Understanding and summarizing answers in community-based question answering services[C]//Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics, 2008: 497-504.

[10] Croce Danilo, Moschitti Alessandro, Basili Roberto. Structured Lexical Similarity via Convolution Kernels on Dependency Trees[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 1034-1046.

[11] McDonald Ryan, Pereira Fernando, Ribarov Kiril, et al. Non-projective Dependency Parsing using Spanning Tree Algorithms[C]//Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Morristown, NJ, USA: Association for Computational Linguistics, 2005: 523-530.

[12] Che Wanxiang, Li Zhenghua, Li Yongqiang, et al. Multilingual Dependency-based Syntactic and Semantic Parsing[C]//Proceedings of the Thirteenth Conference on Computational Natural Language Learning: Shared Task. Association for Computational Linguistics, 2009: 49-54.

[13] Fleiss Joseph L. Measuring Nominal Scale Agreement among Many Raters.[J]. Psychological Bulletin, 1971, 76(5): 378-382.

[14] Socher Richard, Bauer John, Manning Christopher D, et al. Parsing With Compositional Vector Grammars[C]//Proceedings of the 51th Annual Meeting of the Association for Computational Linguistics. 2013.

[15] Che Wanxiang, Li Zhenghua, Liu Ting. LTP: a Chinese Language Technology Platform[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations. Association for Computational Linguistics, 2010: 13-16.

[16] 張健. 問答系統(tǒng)中問題拆分技術(shù)研究[D]. 哈爾濱工業(yè)大學(xué)碩士學(xué)位論文, 2013.

ADecompositionMethodforComplexFactoidQuestionsBasedonDependencyParsing

LIU Xiong, ZHANG Yu, ZHANG Weinan, LIU Ting

(Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology, Harbin, Heilongjiang 150001,China)

Question answering systems have been one of the hot research areas of natural language processing for a long time. To enhance the ability of analyzing complex factoid questions in question answering systems, we presented a novel method to decompose complex factoid questions: using a tree kernel based support vector machine to recognize decomposition categories of questions, and generating decomposition results with a dependency parsing based method. The evaluation shows that based on the high quality question decomposition corpus we had built, our method recognizes question decomposition categories with high performance and generated sub-question series with high quality, especially for the nested-typeones.

question decomposition; complex factoid question; question analysis; question answering system; natural language processing

劉雄(1990—),碩士,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、問答系統(tǒng)。

張宇(1972—),博士,教授,主要研究領(lǐng)域?yàn)樾畔z索、問答。

張偉男(1985—),博士,講師,主要研究領(lǐng)域?yàn)榱奶鞕C(jī)器人、對話系統(tǒng)。

1003-0077(2017)03-0140-07

2015-12-11定稿日期: 2016-02-19

國家自然科學(xué)基金(61472105)

TP391

: A

猜你喜歡
句法結(jié)構(gòu)嵌套類別
基于嵌套Logit模型的競爭性選址問題研究
現(xiàn)代漢語句法結(jié)構(gòu)解讀
山西青年(2017年7期)2017-01-29 18:25:26
《基本句法結(jié)構(gòu):無特征句法》評介
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
一種基于區(qū)分服務(wù)的嵌套隊(duì)列調(diào)度算法
無背景實(shí)驗(yàn)到有背景實(shí)驗(yàn)的多重嵌套在電氣專業(yè)應(yīng)用研究
河南科技(2014年23期)2014-02-27 14:19:17
聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見肉類別
連續(xù)批加工過程中嵌套自相關(guān)數(shù)據(jù)的控制圖設(shè)計(jì)
巨野县| 武威市| 新沂市| 小金县| 汉中市| 确山县| 通州市| 铜川市| 惠水县| 阿拉善盟| 徐水县| 怀集县| 开化县| 宁德市| 英山县| 溆浦县| 成武县| 刚察县| 海盐县| 泗水县| 鹤庆县| 南澳县| 太和县| 东阿县| 虎林市| 阿拉善右旗| 吉安县| 东城区| 浠水县| 麻阳| 长沙市| 朝阳区| 佳木斯市| 棋牌| 长春市| 岚皋县| 宣化县| 上犹县| 无为县| 右玉县| 临洮县|