周博通 孫承杰 林磊 劉秉權
摘要: 針對大規(guī)模知識庫問答的特點,構建了1個包含3個主要步驟的問答系統(tǒng):問句中的命名實體識別、問句與屬性的映射和答案選擇。使用基于別名詞典的排序方法進行命名實體識別,使用結合注意力機制的雙向LSTM進行屬性映射,最后綜合前2步的結果從知識庫中選擇答案。該系統(tǒng)在NLPCC-ICCPOL 2016 KBQA任務提供的測試數(shù)據(jù)集上的平均F1值為0.809 7,接近已發(fā)表的最好水平。
關鍵詞: 知識庫; 自動問答; 語義相似度; 注意力機制
中圖分類號: TP391
文獻標志碼: A
文章編號: 2095-2163(2017)05-0150-05
Abstract: To solve the specific problem in KBQA, the paper builds a question answering system based on large scale Chinese knowledge base. This system consists of three main steps: recognition of named entity in question, mapping from question to property in KB, and answering selection. In the research, use alias dictionary based ranking method to recognize named entity contained in question, and attention mechanism with bidirectional LSTM for questionproperty mapping. Finally, exploit results of first two steps to select the answer from knowledge base.The average F1 value of this system in NLPCCICCPOL 2016 KBQA task is 0.809 7, which is competitive with the best result.
Keywords: knowledge base; question answering; semantic similarity; attention mechanism
0引言
基于知識庫的自動問答的核心在于對問句的語義理解。輸入的問句是自然語言形式,而知識庫中的信息卻是結構化存儲的,同時問句的表述與知識庫中存儲的信息的表述也存在較大的差異。如輸入的問句為“請問華仔的妻子是誰啊?”,而知識庫中相關的三元組為(“劉德華(香港著名歌手、演員)”,“配偶”,“朱麗倩”)。如何找到“華仔”與“劉德華”、“妻子”與“配偶”之前存在的聯(lián)系,是解決這類問題的關鍵。
目前主流的研究方法可以分為2類:基于語義分析(Semantic Parsing-based, SP-based)的方法和基于信息檢索(Information Retrieve-based, IR-based)的方法[1]?;谡Z義分析的方法首先將自然語言形式的問句轉(zhuǎn)換為某種邏輯表達形式,如lambda表達式等,然后查詢知識庫,找到問題的答案?;谛畔z索的方法首先通過粗略的方式從知識庫中獲取一系列的候選答案,然后抽取候選答案、問句與候選答案間的關系等方面的特征,對候選答案進行排序,選擇排名靠前的作為最終的答案。
本文將基于知識庫的自動問答分為2個步驟:命名實體識別和屬性映射。在命名實體識別步驟中,本文使用基于排序的方法,首先構造別名詞典以獲取候選命名實體,然后對其進行排序;在屬性映射步驟中,本文采用結合注意力機制的雙向LSTM模型計算屬性與問句的語義相關程度。
本文剩余部分的內(nèi)容組織如下:第1節(jié)介紹了基于知識庫的自動問答系統(tǒng)的國內(nèi)外研究現(xiàn)狀,第2節(jié)研究提出了具體命名實體識別和屬性映射步驟采用的方法,第3節(jié)則探討設定了所采用的數(shù)據(jù)集和評價指標,進而闡述展示了實驗結果。
1國內(nèi)外研究現(xiàn)狀
基于知識庫的自動問答系統(tǒng)在人工智能領域具有很長的發(fā)展歷史。早期的研究主要針對小規(guī)模的專用知識庫,使用的方法以語義分析為主。但這種方法往往需要人工標注“自然語言語句-邏輯表達形式”對,需要花費大量精力。后來研究人員利用問答對或其它形式的語料,基于弱監(jiān)督學習方法進行語義解析。如前所述,目前主流的研究方法主要分為基于語義分析的方法和基于信息檢索的方法兩大類。基于語義分析的方法側(cè)重于將自然語言形式的問句轉(zhuǎn)換為某種邏輯表達式,常見的有l(wèi)ambda表達式[2]和依存組合語義樹[3]等,然后從知識庫中獲取答案。
基于信息檢索的方法側(cè)重于抽取相關特征對候選答案進行排序。Yao等人[4]使用依存分析技術,獲得問題的依存分析樹,然后找到問句中涉及的主題,從知識庫中找到對應的主題圖Topic Graph,根據(jù)問題的依存樹和主題圖抽取特征,將其送入邏輯回歸模型中進行排序。隨著神經(jīng)網(wǎng)絡技術的不斷進步, Bordes等人[5-6]使用前饋神經(jīng)網(wǎng)絡對候選答案的各方面信息設計生成編碼,將問句和候選分別轉(zhuǎn)換為維度相同的實數(shù)向量,最后以2個向量的點積作為候選答案的得分。Li等人[1]使用Multi-Column CNN分別對問句中隱含的答案類型、關系和上下文信息進行編碼,同時對候選答案的這3類信息也給出了設計編碼,最后對這3類信息的語義向量的點積經(jīng)由加權處理得到最后的得分。Zhang等人[7]在文獻[1]的基礎上,使用注意力機制對于候選答案的不同內(nèi)容訓練不同的問句表示。
在中文領域,2016年的NLPCC-ICCPOL KBQA任務提供了一個大規(guī)模的知識庫,在此基礎上,展開了相關的研究工作。Wang等人[8]使用卷積神經(jīng)網(wǎng)絡和GRU模型進行問句的語義表示。Xie等人 [9]使用CNN網(wǎng)絡研發(fā)命名實體識別,并使用BiLSTM和CNN具體實現(xiàn)屬性映射。Yang等人[10]通過提取多種特征,使用GBDT模型探索推進命名實體識別研究,使用NBSVM和CNN支持設計屬性映射。Lai等人[11]通過簡單的詞向量余弦相似度運算,結合細粒度的分詞進行屬性映射,同時結合多種人工構造的規(guī)則和特征,在該任務上取得了最好的效果。endprint
2基于LSTM模型和注意力機制的問答系統(tǒng)
本文將基于知識庫的自動問答拆分為2個主要步驟:命名實體識別步驟和屬性映射步驟。其中,實體識別步驟的目的是找到問句中詢問的實體名稱,而屬性映射步驟的目的在于找到問句中詢問的相關屬性。該系統(tǒng)的大體框圖如圖1所示。
如圖1所示,輸入的問句為“石頭記是誰寫的?”,首先通過實體識別步驟找出其中提及實體的部分“石頭記”,進而找到知識庫中所有正式名或別名為“石頭記”的所有實體作為候選實體。如“紅樓夢(小說)”和“紅樓夢(電視?。保粚傩杂成鋵⒑蜻x實體的所有相關屬性作為候選相關屬性,在本例中即為“作者”、“創(chuàng)作年代”和“導演”,然后計算每個候選屬性與問句剩余部分,即“__是誰寫的?”的語義相關度,選擇得分最高的屬性“作者”;最后通過查詢知識庫,得到三元組(“紅樓夢(小說)”,“作者”,“曹雪芹”),最終得到問題的答案“曹雪芹”。
2.1知識庫簡介及預處理
本文所采用的知識庫由NLPCC-ICCPOL 2016 KBQA任務有效提供。該知識庫是中文領域第一個大規(guī)模的通用知識庫,包含6 502 738個實體、587 875個屬性以及43 063 796個三元組。知識庫文件中每行存儲一個事實(fact),即三元組(實體、屬性、屬性值)。因此,該知識庫本質(zhì)上是一個三元組的集合。該知識庫中的內(nèi)容如表1所示。
同時,該知識庫中存在同一實體的三元組分布在知識庫文件中不同位置的情況。為了提高知識庫查詢的效率,本文將關于同一實體的所有三元組集中起來,并為知識庫建立索引文件。索引文件每行的格式為:實體名、起始位置、內(nèi)容長度,表示每個實體的所有內(nèi)容在知識庫文件中的起始位置和內(nèi)容的總長度(均以字節(jié)為單位)。在知識庫中查找某一實體時,首先從索引文件中獲得該實體的起始位置和內(nèi)容長度,直接從知識庫文件中找到該實體的所有信息,而不用從頭至尾遍歷知識庫,極大地提高了知識庫的查詢效率。
2.2命名實體識別
實體識別步驟的目的在于找出問題中詢問的命名實體。該部分的大體框架如圖2所示。首先根據(jù)別名詞典查找問句中存在的所有命名實體作為候選。圖2的候選集合中每個候選的淺色部分表示候選實體名及其在問句中的位置。此后通過模型為每個候選命名實體計算一個得分NER_SCORE,選取得分最高者作為正確命名實體。
2.2.1別名詞典構建
本文首先構建一個別名詞典,用于命名實體識別步驟的候選獲取,同時也可以查找某個命名實體能夠指代的所有實體。本文使用模版來匹配NLPCC知識庫中具有別名意義的屬性,抽取相關別名信息。如果一個屬性能夠匹配下列模版之一,則將其對應的屬性值作為對應的實體的別名。具體情況如下所示:
1)以“名”結尾:別名、中文名、英文名、原名等。(第X名、排名等除外)。
2)以“稱”結尾:別稱、全稱、簡稱、舊稱等。(XX職稱等除外)。
3)以“名稱”結尾:中文名稱、其它名稱等。(專輯名稱、粉絲名稱等除外)。
除此之外,如果實體名中存在括號,如“紅樓夢(中國古典長篇小說)”,則將括號之外的部分作為該實體的別名,即“紅樓夢”作為實體“紅樓夢(中國古典長篇小說)”的別名。如果實體名中包含書名號,如“《計算機基礎》”,則將書名號內(nèi)的部分作為該實體的別名,即“計算機基礎”作為實體“《計算機基礎》”的別名。根據(jù)上述方法,最終得到一個包含了7 304 663個別名的別名詞典。
2.2.2候選命名實體排序
通過對大量問答樣例的觀察,本文抽取2個相關特征進行候選命名實體的排序,分別為候選命名實體的長度L(以字為單位)和逆文檔頻率(Inverse Document Frequency,IDF)。通過對2個特征的加權得到候選命名實體的得分。如下所示:
NER_SCORE=α*L+(1-α)*IDF[JY](1)
2.3屬性映射
經(jīng)過命名實體識別步驟,對于輸入的問句“裝備戰(zhàn)傷理論與技術是哪個出版社出版的?”,可以得到其詢問的命名實體“裝備戰(zhàn)傷理論與技術”。依據(jù)別名詞典,可以找到知識庫中以該命名實體為正式名或別名的所有候選實體,本例中只有一個實體:一本名為“裝備戰(zhàn)傷理論與技術”的書籍。知識庫中關于該實體的三元組共5個,其屬性分別為“別名”、“中文名”、“出版社”、“平裝”和“開本”。屬性映射步驟的目的在于找出這5個候選屬性中與問句語義最為相近的屬性,該屬性即為問句詢問的內(nèi)容。
本文使用長短時記憶網(wǎng)絡(Long Short Term Memory,LSTM)對問句和屬性進行編碼,得到對應的語義向量,計算這2個向量的余弦相似度來表示問句與屬性的語義度。
在對數(shù)據(jù)進行觀察和簡單實驗后,研究發(fā)現(xiàn)屬性映射階段的重點在于找到屬性中的單詞與問句中的單詞的對應關系。如問句“請問西游記是什么時候?qū)懙模俊迸c知識庫中的屬性“創(chuàng)作年代”就存在這種對應關系:“創(chuàng)作”和“寫”、“年代”和“時候”,而這種對應關系可以通過這種注意力機制更好地發(fā)現(xiàn)。因此,本文根據(jù)文獻[12]中應用于卷積神經(jīng)網(wǎng)絡的注意力機制的啟發(fā),融合注意力機制與卷積神經(jīng)網(wǎng)絡進行屬性映射。
2.3.1基于雙向LSTM的語義編碼
使用雙向LSTM對輸入的問句和屬性獨立進行編碼,得到對應的語義向量,如圖3所示。
由圖3可知,輸入語句首先經(jīng)過詞嵌入層,將單詞映射為固定維度的詞向量。然后送入雙向LSTM中,將雙向LSTM每一時刻的輸出取平均,將得到的結果送入一個全連接層,最終得到輸入語句對應的語義編碼。
2.3.2基于單詞語義相似度的注意力機制
本節(jié)對研究應用的注意力機制進行具體介紹。該注意力機制首先需要計算一個注意力矩陣,如圖4所示。endprint
2.3.3額外詞匯特征
為了進一步提高屬性映射的結果,本文抽取2個額外的詞匯特征,然后與雙向LSTM的輸出一起送入邏輯斯蒂回歸模型中,得到屬性映射步驟的最后得分PROP_SCORE。人工選擇的特征根據(jù)屬性與問句的重疊長度(以字為單位)計算,即屬性與問句中共有的字的個數(shù)除以屬性的長度得到特征OVP,除以問句的長度得到特征OVQ。
2.4答案選擇
[2.4.1命名實體重排序
在選擇答案前,首先使用屬性映射步驟的得分對命名實體識別的結果進行重排序。假如在實體識別步驟,正確的命名實體沒有排在第一位,在屬性映射步驟,其候選屬性的最高得分仍然會高于錯誤的命名實體??紤]問題“李軍醫(yī)生是什么學校畢業(yè)的”,在命名實體識別步驟,正確的命名實體“李軍”的得分2.81要低于“軍醫(yī)”的得分3.23。但“李軍”對應的屬性識別步驟的最優(yōu)相關屬性為“畢業(yè)院?!?,得分為0.97,該分數(shù)要遠高于“軍醫(yī)”對應的最優(yōu)屬性識別“出版社”的得分0.30。由表4可以看出,在測試集上該模型的準確率可以達到94.56%,而正確候選得分排在前3位(Top3)的樣例已經(jīng)達到99.13%。
本文使用中文維基百科作為語料,使用Google word2vec工具訓練詞向量,詞向量維度為300。屬性映射步驟的BiLSTM的隱含層為200維。在進行模型訓練時,由于數(shù)據(jù)集中正例遠少于負例,因此本文將正例進行重復,達到與負例相同的程度,最終正負例比例為1∶1。表5給出了指定幾種模型的訓練和測試結果。
[官方評測最終結果采用的評價指標為平均F1值。由于每個樣例的標準答案和候選答案均為集合的形式,因此每個樣例都可以得到一個F1值,最后取所有樣例F1值的平均。
選用在屬性識別上取得最好結果的模型。經(jīng)過在NLPCC問答數(shù)據(jù)集上進行實驗,發(fā)現(xiàn)當對命名實體識別重排序的權重α取0.3時,可以取得最好的問答結果。在NLPCC提供的數(shù)據(jù)集上進行實驗,得到實驗結果如表6所示。
從表7和表8中可以看出,使用屬性映射步驟的結果對候選命名實體進行重排序后,命名實體識別的準確率有了很大的提升,問答的準確率也隨之提升。
與參與NLPCC-ICCPOL 2016 KBQA評測任務的所有結果相比,前2名的結果分別為0.824 4與0.815 9。但這兩者都使用了其它較復雜的特征和人工規(guī)則。本文在僅使用神經(jīng)網(wǎng)絡模型和少量簡單文本特征的情況下,取得了與其接近的效果,證明了本文提出的模型在該任務上的有效性。
4結束語
實體識別和屬性映射是構建基于大規(guī)模知識庫問答系統(tǒng)的2個難點,本文提出了相應的方法解決這2個挑戰(zhàn)。在展開實體識別研究時,首先采用別名詞典獲取候選,然后抽取相關特征進行排序。在探討屬性映射時,考慮到屬性與問句中的詞對應關系,使用結合注意力機制的雙向LSTM模型,再結合簡單文本特征獲取正確的屬性。在得到屬性映射的結果后,利用其對命名實體識別的結果進行重排序,然后實現(xiàn)答案選擇。本文構建的問答系統(tǒng)在NLPCC-ICCPOL 2016 KBQA任務的數(shù)據(jù)集上取得了接近目前已發(fā)表最好成績的效果。
參考文獻:
LI Dong, WEI Furu, ZHOU Ming, et al. Question answering over freebase with multicolumn convolutional neural networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China:ACL, 2015:260-269.
[2] ZETTLEMOYER L S, COLLINS M. Learning to map sentences to logical form: Structured classification with probabilistic categorial grammars[C]// Proceeding UAI'05 Proceedings of the TwentyFirst Conference on Uncertainty in Artificial Intelligence. Edinburgh, Scotland:ACM, 2005:658-666.
[3] BERANT J, CHOU A, FROSTIG R, et al. Semantic parsing on freebase from questionanswer pairs[C]// EMNLP. Seattle, Washington, USA:ACL, 2013: 6.
[4] YAO X, DURME B V. Information extraction over structured data: Question answering with freebase[C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore: ACL, 2014: 956-966.
[5] BORDES A, CHOPRA S, WESTON J. Question answering with subgraph embeddings[J]. arXiv preprint arXiv:1406.3676, 2014.endprint
[6] BORDES A, WESTON J, USUNIER N. Open question answering with weakly supervised embedding models[C]//ECML PKDD 2014 Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases. Nancy, France:ACM, 2014: 165-180.
[7] ZHANG Y, LIU K, HE S, et al. Question answering over knowledge base with neural attention combining global knowledge information[J]. arXiv preprint arXiv:1606.00979, 2016.
[8] WANG Linjie, ZHANG Yu, LIU Ting. A deep learning approach for question answering over knowledge base[M]// LIN C Y, XUE N, ZHAO D, et al. Natural Language Understanding and Intelligent Applications. ICCPOL 2016, NLPCC 2016. Lecture Notes in Computer Science, Cham:Springer, 2016: 885-892.
[9] XIE Zhiwen, ZENG Zhao, ZHOU Guangyou, et al. Knowledge base question answering based on deep learning models[C]// LIN C Y, XUE N, ZHAO D, et al. Natural Language Understanding and Intelligent Applications. ICCPOL 2016, NLPCC 2016. Lecture Notes in Computer Science. Cham:Springer, 2016: 300-311.
[10]YANG Fengyu, GAN Liang, LI Aiping, et al. Combining deep learning with information retrieval for question answering[C]//LIN C Y, XUE N, ZHAO D, et al. Natural Language Understanding and Intelligent Applications. ICCPOL 2016, NLPCC 2016. Lecture Notes in Computer Science. Cham:Springer, 2016: 917-925.
[11]LAI Yuxuan, LIN Yang, CHEN Jiahao, et al. Open domain question answering system based on knowledge base[C]// LIn C Y, XUE N, ZHAO D, et al. Natural Language Understanding and Intelligent Applications. ICCPOL 2016, NLPCC 2016. Lecture Notes in Computer Science. Cham: Springer,2016: 722-733.
[12]YIN W, SCHTZE H, XIANG B, et al. Abcnn: Attentionbased convolutional neural network for modeling sentence pairs[J]. arXiv preprint arXiv:1512.05193, 2015.endprint