賈明靜 董日壯 段良濤
摘要:近年來,基于常見問題集的問答系統(tǒng)被廣泛的應(yīng)用到各個(gè)領(lǐng)域,而問句相似度計(jì)算是基于常見問題集的問答系統(tǒng)的核心模塊,因此問句相似度計(jì)算方法變得越加重要。該文對問句相似度計(jì)算方法進(jìn)行了綜述,分別介紹了各個(gè)方法,同時(shí)對比了各個(gè)方法,最后指出了今后本領(lǐng)域的研究方向。
關(guān)鍵詞:問句相似度計(jì)算;語義相似度;問答系統(tǒng);常問問題集
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)31-7434-04
Abstract: Recently, Question Answering Systems based on FAQs have been widely used in many domains. And the question similarity computation is one of the most important modules in the system. In this paper, question similarity computation methods are reviewed and compared. And the trend of development is indicated.
Key words: question similarity computation; semantic similarity; question answering system; FAQs
1 概述
在微信、運(yùn)營商客服、淘寶客服等特定領(lǐng)域的實(shí)際應(yīng)用中,最常使用的是基于常問問題集(Frequently Asked Questions, FAQs)的問答系統(tǒng)?;诔枂栴}集的問答系統(tǒng)將用戶問句與常問問題集中問句進(jìn)行相似度計(jì)算,選取最相似的若干候選問句返回給用戶,因此,問句相似度計(jì)算的好壞直接影響著結(jié)果的好壞。近年來許多學(xué)者都對問句相似度計(jì)算方法進(jìn)行了研究,并且取得了一定的成果。
2.3 混合方法
混合方法是近年來問句相似度計(jì)算方法研究的熱門方向,混合方法是在詞語方法或句法方法的基礎(chǔ)上引入一些其他問句的特征,比如主題特征或者問句類型特征等,提高問句相似度計(jì)算的準(zhǔn)確性。
?ari[c] 等人[3]使用了詞語重疊方法、語義方法、句法結(jié)構(gòu)方法等多種方法融合的方法,提高了問句相似度計(jì)算的準(zhǔn)確性。為了提高問句相似度計(jì)算的準(zhǔn)確性,熊等人[13]提出一種基于LDA的問句相似度方法,在詞語語義方法的基礎(chǔ)上引入了主題特征,將問句主題之間的相似度考慮到問句相似度計(jì)算過程中,最后使用加權(quán)平均的方法計(jì)算最終問句相似度值。強(qiáng)等人[14]針對問句的特點(diǎn),引入了問句類別特征計(jì)算問句的相似度,問句類別反應(yīng)了問句與答案之間的關(guān)聯(lián),同時(shí)使用詞語語義和語法特征來衡量問句的相似度,在一定程度上提高了問句相似度計(jì)算的準(zhǔn)確性。
3 方法分析比較
目前基于詞語的方法、基于句法特征的方法和混合方法三種方法都有各自的優(yōu)缺點(diǎn),具體分析如下:
基于詞語的方法是目前問句相似度計(jì)算最常使用的一種方法,因?yàn)槠湎鄬ζ渌椒ê唵味覂H需一部語義詞典即可,絕大多數(shù)情況下能夠正確衡量問句間的相似度。但是由于其未充分考慮問句句法結(jié)構(gòu)特征,不能很好處理共同包含較多關(guān)鍵詞卻表達(dá)不同意思的情況,比如“SHE的MV中的那只貓好看嗎”和“SHE的MV好看嗎”。
基于句法結(jié)構(gòu)的方法能夠解決由于基于詞語方法未考慮其句法特征而錯(cuò)誤計(jì)算問句間相似度的情況,在兩問句句式結(jié)構(gòu)相同或類似的時(shí)候,相比基于詞語方法能夠更加準(zhǔn)確的判斷問句間的相似度。但是,用戶問句通常表達(dá)形式多樣,句式結(jié)構(gòu)通常不同,因此,基于句法特征的方法也有一定的局限性。而且,基于句法結(jié)構(gòu)的方法通常都只考慮了句子主要成分,忽略了對問句更重要的修飾限定成分,無法區(qū)分“張杰的歌曲好聽嗎”與“林俊杰的歌曲好聽嗎”這種問題,雖然兩問句都是評價(jià)歌曲,但是評價(jià)的是不同歌手的歌曲。
混合方法通常將基于詞語和句法結(jié)構(gòu)方法融合,同時(shí)使用兩種特征衡量問句間的相似度,在一定程度上能夠互相彌補(bǔ)詞語和句法方法間的不足,當(dāng)一種特征結(jié)果準(zhǔn)確而另一種特征相似度結(jié)果與實(shí)際偏差較大時(shí),通過兩種特征的權(quán)重來平衡,達(dá)到較滿意的結(jié)果。還有學(xué)者[13-14]通過引入問句深層的特征來提高問句相似度計(jì)算的準(zhǔn)確率。混合方法通過多個(gè)特征從多方面來衡量問句間的相似度,相比基于詞語和句法的方法更加全面、準(zhǔn)確。但是這種混合的方法中總會(huì)有某個(gè)特征與實(shí)際相似度偏差較大的情況,因此權(quán)重的設(shè)定變得非常重要,直接影響著結(jié)果的好壞,而且不同特征的問題集上面的權(quán)重也不同。
總體來說,混合的方法由于從多個(gè)方面衡量問句間相似度,并且引入了問句本身的一些特征,因此其優(yōu)于基于詞語和句法的方法。
4 結(jié)束語
任何一種問句相似度計(jì)算方法都不能完全解決所有的問題,而且算法也沒有絕對的好壞,因?yàn)槠湓诓煌念I(lǐng)域應(yīng)用有著不同的表現(xiàn)?;谠~語的方法簡單而且計(jì)算速度快,因此有著廣泛的應(yīng)用。基于句法特征的方法在機(jī)器翻譯等領(lǐng)域有著廣泛的應(yīng)用。混合的方法的研究也被許多學(xué)者所重視,且在問答系統(tǒng)中已經(jīng)逐漸應(yīng)用,問句主題和類型特征的引入能夠更好的衡量問句間的相似度,混合的方法可以引入的特征還有很多,還有一定的提升空間,所以未來不失為問句相似度計(jì)算研究的趨勢。
參考文獻(xiàn):
[1] Metzler D,Bernstein Y,Croft W B, et al. Similarity measures for tracking information flow[C]//Proceedings of the 14th ACM international conference on Information and knowledge management. ACM, 2005: 517-524.
[2] 鐘敏娟,萬常選,劉愛紅.基于詞共現(xiàn)模型的常問問題集的自動(dòng)問答系統(tǒng)研究[J].情報(bào)學(xué)報(bào), 2009 (2): 242-247.
[3] ?ari[c] F, Glava? G, Karan M, et al. Takelab: Systems for measuring semantic text similarity[C]//Proceedings of the First Joint Conference on Lexical and Computational Semantics-Volume 1: Proceedings of the main conference and the shared task, and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation. Association for Computational Linguistics, 2012: 441-448.
[4] Mihalcea R, Corley C, Strapparava C. Corpus-based and knowledge-based measures of text semantic similarity[C]//AAAI. 2006, 6: 775-780.
[5] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
[6] Liu Q L, Gu X F, Li J P. Researches of Chinese sentence similarity based on HowNet[C]//Apperceiving Computing and Intelligence Analysis (ICACIA), 2010 International Conference on. IEEE, 2010: 26-29.
[7] Lavie A, Denkowski M J. The METEOR metric for automatic evaluation of machine translation[J]. Machine translation, 2009, 23(2-3): 105-115.
[8] Mitchell J, Lapata M. Vector-based Models of Semantic Composition[C]//ACL.2008: 236-244.
[9] 宋萬鵬.短文本相似度計(jì)算在用戶交互式問答系統(tǒng)中的應(yīng)用[D].合肥:中國科學(xué)技術(shù)大學(xué),2010.
[10] 李彬,劉挺,秦兵,等.基于語義依存的漢語句子相似度計(jì)算[J].計(jì)算機(jī)應(yīng)用研究,2004, 20(12):15-17.
[11] Oliva J, Serrano J I, del Castillo M D, et al. SyMSS: A syntax-based measure for short-text semantic similarity[J].Data & Knowledge Engineering, 2011,70(4): 390-405.
[12] Chang J W, Lee M C, Wang T I, et al. Using grammar patterns to evaluate semantic similarity for short texts[C]//Computing Technology and Information Management (ICCM), 2012 8th International Conference on. IEEE, 2012, 2: 548-553.
[13] 熊大平,王健,林鴻飛.一種基于 LDA 的社區(qū)問答問句相似度計(jì)算方法[J].中文信息學(xué)報(bào), 2012,26(5): 40-45.
[14] 田衛(wèi)東,強(qiáng)繼朋.基于問句類型的問句相似度計(jì)算[J].計(jì)算機(jī)應(yīng)用研究,2014,31(4): 1090-1093.