群毛措+安見才讓
摘要:該文提出了中小學(xué)藏語文問答系統(tǒng)中答案抽取算法,即采用了基于關(guān)鍵詞的相似度算法來抽取最佳的答案。
關(guān)鍵詞:相似度;答案抽取
中圖分類號:TP301 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)04-0101-01
1 概述
目前,國內(nèi)外有很多相對成熟的英文問答系統(tǒng)和中文問答系統(tǒng),學(xué)習(xí)中英文方面的內(nèi)容很方便,但到目前為止還沒有藏語文問答系統(tǒng)方面的研究成果,查找藏語文方面的內(nèi)容必須借助書本或咨詢的方式來完成,那樣給教師的教學(xué)和學(xué)生的學(xué)習(xí)也帶來了不便,所以研究這方面的內(nèi)容是很有必要的。
2 中小學(xué)藏語文問答系統(tǒng)
中小學(xué)藏語文問答系統(tǒng)是中小學(xué)藏語文課本為主的問答系統(tǒng),它主要由問題查詢、問題錄入和問題修改等主要有3個模塊。每個模塊的主要作用是:問題查詢模塊主要是用戶的問題提交到問答庫中并從中抽出最佳的答案返回給用戶。問題錄入模塊主要是向問答庫中添加新的問題。問題修改模塊主要是問答庫中已有的問題或答案進行修改和補充。
3 中小學(xué)藏語文答系統(tǒng)中答案抽取算法
3.1關(guān)鍵詞抽取
3.2基于關(guān)鍵詞的相似度計算
藏文句子是由一組不同含義的單詞、格助詞和虛詞組成。藏文句子就是一個字符串,經(jīng)過分詞處理后,把句子看成詞的線性序列,根據(jù)句子中的單詞出現(xiàn)的頻率等相關(guān)信息來計算句子的相似度。在向量空間模式中,把兩個句子之間相互匹配的問題轉(zhuǎn)化為向量空間中兩個向量之間相互匹配的問題,兩個句子的相似度可以用兩個空間向量之間的夾角來衡量,夾角越小相似度越高。公式如下:
我們把句子看成是由許多相互獨立的單字所組成,兩個句子進行分詞和去除一些冗余信息后,得到S1
通過公式(1)的計算,能得出兩個句子之間的相似度。
4 實驗結(jié)果分析
表1 藏文問答系統(tǒng)中答案抽取測試結(jié)果
[問題\&問題數(shù)/個\&正確應(yīng)答/個\&錯誤應(yīng)答/個\&沒有應(yīng)答/個\&準(zhǔn)確率%\&召回率%\&實驗1\&900\&655\&67\&178\&65.5\&80.2\&實驗2\&500\&315\&64\&121\&63.1\&75.8\&]
(下轉(zhuǎn)第106頁)
(上接第101頁)
實驗結(jié)果表明:這種算法雖然能抽出答案,但句子之間的同義詞過多時,相似度依然不高,原因是沒有考慮到句子的語義信息,該系統(tǒng)還對解決實際問題還未考慮周全,有待進一步完善。雖然目前該系統(tǒng)還不夠完善,但是已經(jīng)為中小學(xué)藏語文問答系統(tǒng)中答案抽取的研究奠定了一定的理論基礎(chǔ),該方法完全可行。
參考文獻:
[1] 余正濤,鄧錦輝,韓露,等.受限域FAQ中文問答系統(tǒng)研究[J].計算機研究與發(fā)展,2007,44(sl):579-586.
[2] 秦兵,劉挺,王洋,鄭實福,等. 基于常問問答集的中文問答系統(tǒng)研究[J].哈爾濱工業(yè)大學(xué)學(xué)報,2003,35(10):1179-1182.
[3] 安見才讓.藏語句子相似度算法的研究[J].中文信息學(xué)報,2011,25(4):110-114.
[4] 蔡東風(fēng),白宇,于水. 一種基于語境的詞語相似度計算方[J].中文信息學(xué)報,2010,24(3):24-28.