国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多粒度特征表示的知識(shí)圖譜問答

2018-09-17 04:32黃廷磊
關(guān)鍵詞:級(jí)別粒度圖譜

申 存,黃廷磊,梁 霄

(1.中國科學(xué)院大學(xué)電子電氣與通信工程學(xué)院,北京 100049; 2.中國科學(xué)院電子學(xué)研究所,北京 100190; 3.中國科學(xué)院空間信息處理與應(yīng)用系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190)

0 引 言

開放域知識(shí)圖譜問答是一項(xiàng)具有挑戰(zhàn)性的任務(wù),其旨在結(jié)合知識(shí)圖譜為自然語言問題提供相應(yīng)的答案。近年來,大規(guī)模的高質(zhì)量知識(shí)圖譜發(fā)展迅速,并在許多領(lǐng)域得到了廣泛的應(yīng)用,典型的包括如Freebase[1]、DBpedia[2]等英文知識(shí)圖譜以及Zhishi.me[3]、XLore[4]等中文知識(shí)圖譜。由于知識(shí)的結(jié)構(gòu)化形式,知識(shí)圖譜已經(jīng)成為開放領(lǐng)域問答的重要資源,越來越多的研究工作也集中在知識(shí)圖譜問答上[5-6]。對(duì)于知識(shí)圖譜問答,其主要挑戰(zhàn)是對(duì)問句的語義理解,因?yàn)榻o定的問句是自然語言的形式,而知識(shí)圖譜是結(jié)構(gòu)化的信息存儲(chǔ),兩者的表述存在差異,需要對(duì)問句和知識(shí)圖譜的文本進(jìn)行深入的語義關(guān)聯(lián),以從知識(shí)圖譜中選取出與問句表述最為匹配的三元組作為候選答案。例如給定問句“你知道哈姆雷特是哪個(gè)國家的電影嗎?”,首先需要從知識(shí)圖譜中確定問句所包含的主題實(shí)體“哈姆雷特(1964年美國電影)”,然后從實(shí)體的屬性中選出與表述“是哪個(gè)國家的電影”最為相關(guān)的屬性“制片地區(qū)”以得到三元組“哈姆雷特(1964年美國電影)|||制片地區(qū)|||美國”。該過程主要包含2部分工作:實(shí)體抽取以及屬性選擇。

實(shí)體抽取主要是從問句中識(shí)別出實(shí)體提及并鏈接至知識(shí)圖譜的過程。目前傳統(tǒng)的研究主要通過搜索知識(shí)圖譜中每個(gè)問句的n元語法(n-gram)來實(shí)現(xiàn)實(shí)體抽取[8-9],這種方法通常需要較大的搜索空間。Berant等人[5]使用語言學(xué)工具來完成實(shí)體抽取工作,而通常語言學(xué)工具依賴于邏輯表達(dá)式以及預(yù)定義規(guī)則,不具有廣泛的適應(yīng)性。

屬性選擇則是在抽取出問句的實(shí)體之后,從實(shí)體的所有屬性中選取出與問句描述最為匹配的屬性,并將屬性值作為候選答案。這一任務(wù)的難點(diǎn)在于自然語言問句的表述與屬性的文本表述存在差異性,如何有效地將兩者關(guān)聯(lián)并選出置信度最高的屬性直接影響到結(jié)果的準(zhǔn)確率。在相關(guān)工作中,深度學(xué)習(xí)的方法正逐漸應(yīng)用于知識(shí)圖譜問答的屬性選擇中。Yih等人[10]利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)對(duì)問句和屬性進(jìn)行字符級(jí)別三元語法的建模。Golub等人[9]將關(guān)系和問句作為字符序列進(jìn)行處理并提出基于注意力的長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)的方法。Yin等人[11]采用注意力池化方法來學(xué)習(xí)屬性的嵌入表示。這些屬性選擇方法都利用神經(jīng)網(wǎng)絡(luò)分別學(xué)習(xí)問句和屬性的向量表示,然后計(jì)算向量之間的相似度作為其語義相似度。這些方法在實(shí)驗(yàn)中僅使用詞級(jí)別嵌入,沒有充分利用實(shí)驗(yàn)數(shù)據(jù)的語義信息。且與英文知識(shí)圖譜問答不同的是,在中文里單個(gè)漢字通常也含有特定的語義,因此可以考慮結(jié)合字符級(jí)別的嵌入進(jìn)行屬性選擇的實(shí)驗(yàn)。

針對(duì)上述問題,在實(shí)體抽取任務(wù)中,本文采用雙向長短期記憶條件隨機(jī)場(chǎng)(Bi-LSTM-CRF)模型來進(jìn)行實(shí)體識(shí)別,取得了較高的鏈接至知識(shí)圖譜的準(zhǔn)確性。對(duì)于屬性選擇任務(wù),本文采用結(jié)合字符級(jí)別、詞級(jí)別以及屬性級(jí)別的文本嵌入的多粒度方法,充分利用圖譜的可用信息,并與其他模型方法進(jìn)行對(duì)比,以驗(yàn)證方法的有效性。

1 相關(guān)工作

基于知識(shí)圖譜的問答在自然語言處理領(lǐng)域擁有很長的研究歷史。早在20世紀(jì)60年代,就有研究人員針對(duì)領(lǐng)域內(nèi)小規(guī)模知識(shí)庫進(jìn)行問答系統(tǒng)的研究以回答領(lǐng)域內(nèi)的一些專業(yè)問答。早期的研究主要采用語義解析(Semantic Parsing)的方法[5,10,12],其主要思想是按照特定的文法,將自然語言問句轉(zhuǎn)化為等價(jià)的邏輯表達(dá)式,以完成對(duì)知識(shí)庫的查詢。除此之外,信息檢索方法[6,8,13]也常用于知識(shí)圖譜問答,與語義解析不同的是,它將問句轉(zhuǎn)化為了檢索問題。該方法從知識(shí)圖譜中搜索問句中涉及的所有相關(guān)信息,并構(gòu)建排序算法從候選答案中選擇最佳候選答案。相比于語義解析,其優(yōu)點(diǎn)是不必手動(dòng)設(shè)計(jì)詞匯表且領(lǐng)域遷移能力較強(qiáng)。Bordes等人[8]的結(jié)果表明,信息檢索方法在問答結(jié)果中也有著較好的表現(xiàn)。

近年來,隨著人工智能的發(fā)展,神經(jīng)網(wǎng)絡(luò)的方法也開始應(yīng)用于知識(shí)圖譜問答,并取得了相比于傳統(tǒng)方法更好的實(shí)驗(yàn)結(jié)果。在實(shí)體抽取中,Bordes等人[8]和Golub等人[9]搜索給定問題的所有n元語法單詞,然后鏈接到知識(shí)圖譜。Berant等人[5]使用語言學(xué)工具,其很大程度上依賴于邏輯表達(dá)式和預(yù)定義規(guī)則。Dai等人[14]將中心實(shí)體映射回問句文本作為標(biāo)注數(shù)據(jù),并構(gòu)建雙向門控循環(huán)單元條件隨機(jī)場(chǎng)(Bi-GRU-CRF)序列標(biāo)注模型以進(jìn)行實(shí)體識(shí)別。Yin等人[11]則采用Bi-LSTM-CRF序列標(biāo)注模型來提高該方法的性能。對(duì)于屬性選擇任務(wù),Bordes等人[15]首先采用深度學(xué)習(xí)方法并取得了較好的實(shí)驗(yàn)結(jié)果,之后各種基于深度學(xué)習(xí)的模型也逐漸涌現(xiàn)出來。這些方法大都是將給定問題和候選關(guān)系分別映射到向量,然后計(jì)算向量之間的相似度作為它們的語義相似度。在Dai等人[14]的研究中,屬性被視為整體的符號(hào),并采用TransE[16]學(xué)習(xí)的預(yù)訓(xùn)練向量初始化。文獻(xiàn)[9]采用了字符級(jí)別表示法,以減小參數(shù)的大小并提高處理未登錄詞的魯棒性,而Yin等人[11]則提出了注意力機(jī)制的最大池化的CNN模型。

2 基本框架

2.1 問題定義與建模

給定目標(biāo)問句,實(shí)體抽取的目的是找到實(shí)體提及并正確鏈接至知識(shí)圖譜,從而得到主題實(shí)體和候選屬性Cp={prop1,prop2,…,propn}。屬性選擇的目的是識(shí)別問句中表述的屬性,即找到與問句中除主題實(shí)體以外的文本描述最相符的實(shí)體屬性。通常將屬性選擇任務(wù)考慮為排序問題,對(duì)于問句q候選屬性集合Cp中的每個(gè)屬性p,模型計(jì)算其與問題S(q,p)的語義相似度,并且選擇置信度最高的屬性作為候選,有:

p+=arg max S(q,p)

(1)

2.2 知識(shí)圖譜問答流程

對(duì)于中文知識(shí)圖譜問答,其流程如圖1所示,主要包括以下幾個(gè)步驟:1)對(duì)知識(shí)圖譜進(jìn)行規(guī)范化處理,主要包括刪除三元組中屬性之間的空格、前綴以及后綴,對(duì)于某些屬性和屬性值相同的無效三元組,直接刪除該條記錄;2)對(duì)問句進(jìn)行主題實(shí)體的識(shí)別,并利用規(guī)范化的知識(shí)圖譜進(jìn)行實(shí)體鏈接;3)檢索知識(shí)圖譜得到鏈接實(shí)體的所有候選屬性,并利用設(shè)計(jì)的屬性選擇模型進(jìn)行比較排序,選出置信度最高的候選屬性,得到預(yù)測(cè)答案。

圖1 知識(shí)圖譜問答流程圖

3 實(shí)體鏈接模型

對(duì)于實(shí)體抽取模型,其主要難點(diǎn)是識(shí)別問句中的主題實(shí)體,以便進(jìn)一步鏈接至知識(shí)圖譜,檢索相應(yīng)候選屬性,以確定最終答案。筆者發(fā)現(xiàn)該任務(wù)與命名實(shí)體識(shí)別任務(wù)有著很大的共同點(diǎn),因此本文采用由Bi-LSTM和CRF模型組成的Bi-LSTM-CRF模型[17]?;舅枷胧鞘褂肔STM層來考慮先前的輸入特征并從CRF層獲得句子級(jí)別標(biāo)簽信息。因此,輸出是一個(gè)最佳的標(biāo)簽序列,而不是相互獨(dú)立的標(biāo)簽。

形式上,輸入一個(gè)問句序列X={X1,X2,…,Xn}, y={y1,y2,…,yn}表示X的標(biāo)簽序列,Pn×k表示概率矩陣,其中k是標(biāo)簽類型的數(shù)量。最佳標(biāo)簽序列可通過最大化如下目標(biāo)函數(shù)來獲得。

(2)

其中Pi,j是第i個(gè)單詞被標(biāo)記為第j個(gè)標(biāo)簽的概率,A是狀態(tài)轉(zhuǎn)移矩陣,其中元素Ai,j是從第i個(gè)標(biāo)簽轉(zhuǎn)移到第j個(gè)標(biāo)簽的概率。

整體實(shí)體抽取模型如圖2所示。問句以字序列文本嵌入,并與額外的特征連接作為循環(huán)層的輸入。本文采用代表文字邊界特征的一個(gè)熱點(diǎn)向量來進(jìn)行說明。循環(huán)層為雙向LSTM,其將前向和后向隱層表示的輸出連接并投影到每個(gè)標(biāo)簽以計(jì)算得分,CRF層主要用于解決參數(shù)偏倚問題。

圖2 實(shí)體抽取模型

4 多粒度特征表示屬性選擇模型

屬性選擇中,其主要難點(diǎn)是問句中屬性描述可能與知識(shí)圖譜中的屬性名稱存在著較大的差異,例如“請(qǐng)問紅樓夢(mèng)是什么時(shí)候?qū)懙??”就需要與知識(shí)圖譜中的“創(chuàng)作年代”相關(guān)聯(lián)。因此,如何設(shè)計(jì)有效的模型以最高的置信度將問句與屬性進(jìn)行關(guān)聯(lián)是本文研究重點(diǎn)。對(duì)此,本文提出一種多粒度特征表示模型,采用GRU編碼器來獲得問句和屬性的隱層表示。在文本表示中,模型考慮字符級(jí)別和詞級(jí)別以獲得更豐富的語義信息。最后使用余弦相似度來計(jì)算問句與屬性之間的語義相似度度量。

與英文不同的是,中文里單個(gè)的漢字通常具有語義,而英文孤立的字母通常并沒有具體的含義。因此在中文知識(shí)圖譜問答中,對(duì)于屬性p,本文考慮不同的粒度來表示特征:字符級(jí)別、詞級(jí)別以及屬性級(jí)別。字級(jí)別的建模將屬性拆為單個(gè)漢字進(jìn)行嵌入式表達(dá),詞級(jí)別則是通常意義下的進(jìn)行分詞后引入詞嵌入,而屬性級(jí)別的表示是將屬性整體視為唯一符號(hào)。3種類型的屬性表示包含不同層次的抽象意義,各粒度層次都有其自身的優(yōu)缺點(diǎn)。在實(shí)驗(yàn)中屬性級(jí)別表示采用隨機(jī)初始化,它更多地關(guān)注全局信息,但其存在數(shù)據(jù)稀疏性的缺點(diǎn)。單詞級(jí)別更注重局部信息,如單詞和短語等。然而,這2個(gè)級(jí)別都受到未登錄詞問題的影響,字符級(jí)別沒有這樣的問題,并且通常在預(yù)測(cè)正確的實(shí)體和屬性方面也有著較高的準(zhǔn)確率。

以下詳細(xì)介紹多粒度特征表示模型。為了利用屬性不同粒度的信息并將其結(jié)合,本文采用嵌套的連接方法,將預(yù)訓(xùn)練的字嵌入和詞嵌入經(jīng)過GRU的編碼并進(jìn)行組合,其網(wǎng)絡(luò)表示如圖3所示。

圖3 多粒度特征表示模型

(3)

(4)

(5)

(6)

最終得到3種不同粒度的屬性表示為:

(7)

(8)

S(q,p)=cos (rq,rp)

(9)

其中余弦相似度函數(shù)cos定義為:

(10)

5 實(shí)驗(yàn)分析

5.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)使用的數(shù)據(jù)集為NLPCC-ICCPOL 2016 KBQA數(shù)據(jù)集。該數(shù)據(jù)集是目前最大的公開中文知識(shí)圖譜問答數(shù)據(jù)集,其包含大約4300萬個(gè)三元組和600萬個(gè)實(shí)體。該知識(shí)圖譜的三元組大部分來自百度百科的屬性表格。在數(shù)據(jù)集中,14609條問答對(duì)作為訓(xùn)練數(shù)據(jù)以及9870條問句作為測(cè)試數(shù)據(jù)。

5.2 實(shí)驗(yàn)設(shè)置

對(duì)于上述表示模型,本文采用排序模型進(jìn)行訓(xùn)練,該方法驅(qū)動(dòng)模型輸出包含在訓(xùn)練集中的問題實(shí)體和問題謂詞對(duì)的高分,同時(shí)為不合理配對(duì)產(chǎn)生較低分?jǐn)?shù)。在訓(xùn)練期間最小化的損失函數(shù)由下式給出:

(11)

因此在訓(xùn)練中,模型主要關(guān)注負(fù)例和正例得分之差小于邊界γ的數(shù)據(jù)對(duì),以使得正例和負(fù)例得分相差越大越好。

5.3 實(shí)驗(yàn)結(jié)果

對(duì)于實(shí)體識(shí)別模型,本文采用的是100維的字符級(jí)別向量。LSTM隱層維度為100, dropout為0.5,學(xué)習(xí)率為0.001,本文采用反向傳播算法來更新訓(xùn)練中的參數(shù)。實(shí)驗(yàn)中,隨機(jī)選取10%訓(xùn)練數(shù)據(jù)作為驗(yàn)證集[19],結(jié)果如表1所示,可以看出在測(cè)試集上,實(shí)體識(shí)別F1值為97.36%,取得了較好的識(shí)別率,證明該模型的有效性,也為屬性選擇實(shí)驗(yàn)提供了有效的實(shí)驗(yàn)結(jié)果。

表1 實(shí)體抽取實(shí)驗(yàn)結(jié)果

準(zhǔn)確率/%召回率/%F1/%驗(yàn)證集97.5697.4897.51測(cè)試集97.4197.3297.36

屬性選擇實(shí)驗(yàn)中,本文對(duì)比了選擇不同詞向量和字向量時(shí)的實(shí)驗(yàn)結(jié)果,如表2所示??梢钥闯鲈~嵌入和字嵌入采用50維時(shí)并不能較好地表示漢字,其實(shí)驗(yàn)結(jié)果甚至低于對(duì)比實(shí)驗(yàn)中單獨(dú)采用100維的詞向量的結(jié)果。對(duì)于本實(shí)驗(yàn),詞向量和字向量分別取100維時(shí)得到最優(yōu)實(shí)驗(yàn)結(jié)果,而隨著維度的增加,屬性選擇模型的F1并沒有明顯的提升。因此,最終本文選擇詞向量和字向量維度都為100。其他參數(shù)如GRU編碼器隱層維度為200,dropout設(shè)置為0.3。

表2 不同維度字向量與詞向量實(shí)驗(yàn)結(jié)果

Word-LevelChar-Level/%50 dims100 dims200 dims50 dims71.4572.4972.28100 dims72.3473.9673.90200 dims72.1173.7873.57

本文同時(shí)與NLPCC官方提供的基線模型以及只采用詞級(jí)別嵌入表示并通過GRU進(jìn)行編碼的模型進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如表3所示,可以看出本文模型在最終結(jié)果上比基線模型有了很大的提高,且與只采用詞級(jí)別信息表示模型相比,結(jié)合字符級(jí)別、詞級(jí)別以及獨(dú)熱編碼信息的組合模型,更能充分對(duì)數(shù)據(jù)進(jìn)行表示。相比于詞級(jí)別模型,多粒度模型包含更加豐富的表示信息,其包含的字符級(jí)別模型可以更好地處理單個(gè)漢字的語義信息,例如對(duì)問句“列克星敦號(hào)航空母艦?zāi)茌d多少人?”,字級(jí)別信息的引入能夠使得屬性“人員編制”的置信度更加準(zhǔn)確,同時(shí)對(duì)于未登錄詞,字符級(jí)別模型也能較好地進(jìn)行處理;而獨(dú)熱編碼更關(guān)注全局信息,對(duì)于問句“陳浩民的家庭成員有哪些?”,獨(dú)熱信息可以直接與屬性“家庭成員”進(jìn)行匹配。因此相比于詞級(jí)別模型,多粒度表示模型可以達(dá)到比采用單一表示更好的實(shí)驗(yàn)結(jié)果。

表3 問答實(shí)驗(yàn)結(jié)果對(duì)比 單位:%

同時(shí),本文也將實(shí)驗(yàn)結(jié)果與其他在該中文知識(shí)圖譜問答數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的論文結(jié)果進(jìn)行對(duì)比,如表4所示。前3名的結(jié)果分別為82.47%、81.59%、79.57%,且作者在實(shí)驗(yàn)中基本都采用了一些預(yù)定義的規(guī)則以及集成方法對(duì)模型進(jìn)行優(yōu)化。本文在僅使用單一神經(jīng)網(wǎng)絡(luò)模型、結(jié)構(gòu)盡量簡(jiǎn)單的情況下,也取得了較好的實(shí)驗(yàn)結(jié)果,驗(yàn)證了模型的有效性。

表4 不同實(shí)驗(yàn)結(jié)果比較

模型F1/%PKU[20]82.47NUDT[21]81.59CCNU[22]79.57NEU72.72本文73.96

6 結(jié)束語

本文提出了一種中文知識(shí)圖譜問答的方法,有效地解決了其中實(shí)體抽取和屬性選擇2個(gè)主要任務(wù)。在實(shí)體抽取中,本文采用命名實(shí)體識(shí)別的方法,訓(xùn)練Bi-LSTM-CRF模型以獲得問句主題實(shí)體。在屬性選擇任務(wù)中,本文提出多粒度特征表示模型,將字符級(jí)別、詞級(jí)別的文本表示進(jìn)行編碼,并考慮屬性的獨(dú)熱編碼信息,將不同粒度的信息進(jìn)行結(jié)合,充分利用數(shù)據(jù)特征。實(shí)驗(yàn)結(jié)果表明本文的模型在中文知識(shí)圖譜問答中取得了較好的效果。

猜你喜歡
級(jí)別粒度圖譜
粉末粒度對(duì)純Re坯顯微組織與力學(xué)性能的影響
繪一張成長圖譜
級(jí)別分明
邁向UHD HDR的“水晶” 十萬元級(jí)別的SIM2 CRYSTAL4 UHD
新年導(dǎo)購手冊(cè)之兩萬元以下級(jí)別好物推薦
你是什么級(jí)別的
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
主動(dòng)對(duì)接你思維的知識(shí)圖譜
雙粒度混合燒結(jié)礦顆粒填充床壓降實(shí)驗(yàn)
泉州灣表層沉積物粒度特征分析
漯河市| 左权县| 英吉沙县| 嘉荫县| 辽源市| 万山特区| 蚌埠市| 邯郸市| 长沙市| 海原县| 柘城县| 康马县| 客服| 正镶白旗| 丰顺县| 夹江县| 民丰县| 南和县| 邹平县| 峨眉山市| 丽江市| 南木林县| 罗甸县| 邵阳县| 邹平县| 平乡县| 安康市| 延津县| 大名县| 普安县| 余姚市| 武功县| 来凤县| 城市| 日照市| 长海县| 广水市| 陆丰市| 南岸区| 栖霞市| 西林县|