莊永新+武鵬+朱峰+黃振宇
摘要:自動(dòng)問答系統(tǒng)的設(shè)計(jì)一直是自然語言處理領(lǐng)域的研究熱點(diǎn)。尤其是在受限領(lǐng)域,基于問題庫的問答系統(tǒng)具有準(zhǔn)確、快捷和高效等優(yōu)點(diǎn)。該文設(shè)計(jì)了一種融合社交網(wǎng)絡(luò)技術(shù)的基于《計(jì)算機(jī)網(wǎng)絡(luò)》課程的自動(dòng)問答系統(tǒng),其問答庫的構(gòu)建采用了VSM模型。實(shí)驗(yàn)證明,該系統(tǒng)具有較高的準(zhǔn)確率,有一定的推廣意義。
關(guān)鍵詞:自動(dòng)問答;VSM;受限領(lǐng)域
中圖分類號:TP391.1 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)34-8186-02
自動(dòng)問答是指終端用戶通過人機(jī)對話界面,用自然語言提出一個(gè)問題,可以從系統(tǒng)得到一個(gè)簡潔,正確的回答。該技術(shù)一直是自然語言處理研究領(lǐng)域里的研究熱點(diǎn),用戶可以像日常生活一樣通過熟悉的自然語言提出問題,而不需要對于所提問題的詞法結(jié)構(gòu)做出特殊的分割。其次,問答系統(tǒng)給出的答案,是一段簡潔、正確的文本,而不是一個(gè)網(wǎng)頁或者長篇幅的文檔。
相比于基于搜索引擎的問答系統(tǒng),基于受限領(lǐng)域的自動(dòng)問答系統(tǒng)有其自身優(yōu)勢:首先,用戶從系統(tǒng)所得到的答案是一個(gè)或者幾個(gè)明確的答案文本,而不是海量的網(wǎng)頁,用戶可以輕易的尋找到自己所需要的答案。其次,系統(tǒng)對用戶自身的信息檢索能力要求不高,用戶通過自己所熟悉的自然語言進(jìn)行提問即可。最后,基于受限領(lǐng)域的自動(dòng)問答系統(tǒng)易于構(gòu)建,對問題響應(yīng)速度快,命中率高。
1 自動(dòng)問答系統(tǒng)的設(shè)計(jì)
為了減少系統(tǒng)的計(jì)算量,加快系統(tǒng)響應(yīng)速度,針對受限領(lǐng)域的特殊性,問答系統(tǒng)的設(shè)計(jì)一般包括四個(gè)部分:問題分析、信息檢索、答案抽取和用戶點(diǎn)評。問題分析階段,對于用戶用自然語提出的一個(gè)問題,系統(tǒng)進(jìn)行分詞、同義詞替換、去除停等詞等預(yù)處理工作,然后進(jìn)行關(guān)鍵詞提取,從而建立向量表示。信息檢索階段將問題向量與答案庫中的答案進(jìn)行匹配并計(jì)算相似度。答案抽取階段,依答案檢索中計(jì)算出的相似度進(jìn)行排序,選取相似度最高的前5個(gè)答案作為候選答案提供給用戶。用戶點(diǎn)評階段,用戶提問后,無論是直接從系統(tǒng)直接獲取答案還是其他用戶提供回答,均可以對得到的答案實(shí)現(xiàn)類DIGG點(diǎn)評。用戶整個(gè)系統(tǒng)的結(jié)構(gòu)如圖1所示。
2 自動(dòng)問答系統(tǒng)的具體實(shí)現(xiàn)
2.1 問題分析
首先對用戶用自然語言進(jìn)行的提問進(jìn)行分詞、同義詞替換、停等詞處理等預(yù)處理操作后建立問題的特征表示。問題的特征采用VSM模型來進(jìn)行表示,其形式如式(1) 所示。
其中[qi]為字典中出現(xiàn)的關(guān)鍵詞在該問題中的權(quán)值表示,可以以TFIDF值計(jì)算,TF值可以直接計(jì)算,IDF值可以依照字典本身存儲的該關(guān)鍵詞的IDF值計(jì)算。
向量空間模型(VSM:Vector Space Model)由Salton等人于20世紀(jì)70年代提出的一個(gè)應(yīng)用于信息過濾,信息擷取,索引以及評估相關(guān)性的代數(shù)模型,并成功地應(yīng)用于著名的SMART文本檢索系統(tǒng)。在VSM模型中,以向量的形式表示文檔。向量的每一維表示一個(gè)單詞,如果單詞在某篇文檔中出現(xiàn),則其向量值為其權(quán)重值,如果沒有出現(xiàn),則將其向量值記為零。假設(shè)文檔空間為[D],那么有式(2) 。
其中[di]表示文檔空間中的第[i]篇文檔。則其中任意一篇文檔[di]可以表示為式(3) 的形式。
其中[dij]表示第j維上單詞的權(quán)重。
對于權(quán)重的計(jì)算方式有很多種,其中比較常見的計(jì)算方式為以每一維單詞的TFIDF值為其權(quán)重值。詞頻逆文檔頻率(term frequency—inverse document frequency,TFIDF)是一種統(tǒng)計(jì)方法,用以評估一個(gè)字或詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。其思想是一個(gè)單詞在某篇文檔中出現(xiàn)的頻率越高,而在其他文檔中出現(xiàn)頻率越低,那么它對文檔的重要程度就越高。其計(jì)算公式為式(4):
[TF=f/m],其中f表示當(dāng)前詞在當(dāng)前文檔中出現(xiàn)的次數(shù),而m表示當(dāng)前文檔中出現(xiàn)次數(shù)最多的詞的次數(shù)。這樣TF值就在0和1之間。這樣做可以減少文檔中詞的頻率不合理分布所引起的誤差。[IDF=log2nnj+1],其中n表示在整個(gè)語料中文檔的總數(shù),而[nj]表示含有當(dāng)前詞的文檔數(shù)。這樣做可以減少在語料范圍內(nèi)詞頻分布不均勻造成的相似度誤差。
2.2 信息檢索
為了在答案庫中檢索出提問的所需要的答案,這里以問題和答案庫中的文檔之間的距離作為檢索標(biāo)準(zhǔn),與問題距離越小的答案越可能是最終問答系統(tǒng)中輸出的答案。
文檔向量之間的距離的計(jì)算方法很多,本系統(tǒng)中采用常用的余弦定理方法作為文檔相似度的度量標(biāo)準(zhǔn),其計(jì)算方法如公式(5) 所示:
2.3 答案抽取
依答案檢索中計(jì)算出的相似度進(jìn)行排序,選取相似度最高的前5個(gè)答案作為候選答案提供給用戶。如果不足5個(gè)答案,就全部提供給用戶。如果用戶沒有找到相關(guān)問題答案,可以選擇重新提問。
為了能夠充分調(diào)動(dòng)使用者的積極性,促使使用者共同建設(shè)該領(lǐng)域問題庫和答案庫,同時(shí)也彌補(bǔ)系統(tǒng)答案庫答案有限的弊端,設(shè)置了答案反饋模塊。當(dāng)用戶對系統(tǒng)所給出的答案不滿意的時(shí)候,可以在得到正確答案之后給出自己的答案。共同使得系統(tǒng)更加完善,也提高我們對于問題的查準(zhǔn)率,客觀上補(bǔ)充了算法上的劣勢。
2.4 用戶點(diǎn)評
用戶登陸可以對系統(tǒng)提供的參考答案或者用戶貢獻(xiàn)的答案實(shí)現(xiàn)類DIGG點(diǎn)評。用戶通過主觀判斷獲取的答案和提問是否相關(guān),進(jìn)而對答案進(jìn)行評價(jià)或添加評論。其中評價(jià)通過選擇“贊同”或“反對”兩種按鈕方式實(shí)現(xiàn),并進(jìn)而反饋給系統(tǒng)。添加評論通過對答案進(jìn)行主觀駁斥以提供給其他用戶參考。
在點(diǎn)評過程中,如果提問是直接面向系統(tǒng)的,則只能由提問用戶實(shí)現(xiàn)對系統(tǒng)提供答案進(jìn)行點(diǎn)評。如果問題是開放給所有用戶的,則任意用戶均可以參與點(diǎn)評。所有的點(diǎn)評結(jié)果均會經(jīng)過處理后反饋到系統(tǒng)后臺,從而提供給教師,作為教師對答案庫維護(hù)更新的重要依據(jù)。endprint
3 實(shí)驗(yàn)結(jié)果
針對《計(jì)算機(jī)網(wǎng)絡(luò)》課程的自動(dòng)問答系統(tǒng)如圖2所示。由于問答系統(tǒng)的特殊性,一般只以準(zhǔn)確率來考察系統(tǒng)的性能指標(biāo)。準(zhǔn)確率的計(jì)算公式按照TREC會議的計(jì)算公式如式(6) 所示來計(jì)算。
[準(zhǔn)確率=答對的問題分?jǐn)?shù)問題的總分?jǐn)?shù)] (6)
系統(tǒng)對每個(gè)問題提供5個(gè)答案,第一個(gè)答案即為正確答案,得5分;第二個(gè)答案為正確答案,得4分,第3個(gè)答案為正確答案,得3分,第4個(gè)答案為正確答案,得2分,第5個(gè)答案為正確答案,得1分。
實(shí)驗(yàn)中對系統(tǒng)提問問題數(shù)為30個(gè),最后的總得分?jǐn)?shù)為140分。系統(tǒng)的準(zhǔn)確率為93.3%。由于系統(tǒng)同時(shí)給出5個(gè)答案,如果考量用戶是否得到最終的正確答案,而不論該答案是否位于第一個(gè),則系統(tǒng)的準(zhǔn)確率為100%,說明在受限領(lǐng)域下,該系統(tǒng)方法簡單,可靠性好。
4 結(jié)束語
本系統(tǒng)基于VSM的文本匹配方法,依托社交網(wǎng)絡(luò)的交互性可以看出采用該模型在受限領(lǐng)域的問答系統(tǒng)中具有實(shí)現(xiàn)簡單、準(zhǔn)確率高、交互性廣的優(yōu)點(diǎn)。在理論和實(shí)際應(yīng)用中都有一定的價(jià)值。
參考文獻(xiàn):
[1] 王樹西. 問答系統(tǒng):核心技術(shù)、發(fā)展趨勢[J]. 計(jì)算機(jī)工程與應(yīng)用,2005(18).
[2] 秦兵,劉挺,王洋,鄭實(shí)福,李生. 基于常問問題集的中文問答系統(tǒng)研究[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào),2003(10).
[3] Salton A.Wong and C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(5).
[4] Salton G,and mcgill M J. Introduction to modern information retrieval[M]. mcgraw-Hill, 1983.
[5] 鄭實(shí)福,劉挺,秦兵,李生. 自動(dòng)問答綜述[J]. 中文信息學(xué)報(bào),2002(6).
[6] 劉偉. 基于限定領(lǐng)域的問句相似度[D]. 天津:天津師范大學(xué), 2008.
[7] 劉智慧. 基于搜索引擎的自動(dòng)問答系統(tǒng)[D]. 西安:西安電子科技大學(xué), 2010.
[8] 錢強(qiáng), 龐林斌, 高尚. 一種基于詞共現(xiàn)圖的受限領(lǐng)域自動(dòng)問答系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用研究, 2013,30(3): 841-843.
[9] 趙恒立. 惡意代碼檢測與分類技術(shù)研究[D]. 杭州:杭州電子科技大學(xué), 2009.
[10] 朱林, 余俠. 基于 Web 文檔的目標(biāo)信息預(yù)測采集控制策略[J]. 情報(bào)理論與實(shí)踐, 2006,28(6): 660-662.endprint
3 實(shí)驗(yàn)結(jié)果
針對《計(jì)算機(jī)網(wǎng)絡(luò)》課程的自動(dòng)問答系統(tǒng)如圖2所示。由于問答系統(tǒng)的特殊性,一般只以準(zhǔn)確率來考察系統(tǒng)的性能指標(biāo)。準(zhǔn)確率的計(jì)算公式按照TREC會議的計(jì)算公式如式(6) 所示來計(jì)算。
[準(zhǔn)確率=答對的問題分?jǐn)?shù)問題的總分?jǐn)?shù)] (6)
系統(tǒng)對每個(gè)問題提供5個(gè)答案,第一個(gè)答案即為正確答案,得5分;第二個(gè)答案為正確答案,得4分,第3個(gè)答案為正確答案,得3分,第4個(gè)答案為正確答案,得2分,第5個(gè)答案為正確答案,得1分。
實(shí)驗(yàn)中對系統(tǒng)提問問題數(shù)為30個(gè),最后的總得分?jǐn)?shù)為140分。系統(tǒng)的準(zhǔn)確率為93.3%。由于系統(tǒng)同時(shí)給出5個(gè)答案,如果考量用戶是否得到最終的正確答案,而不論該答案是否位于第一個(gè),則系統(tǒng)的準(zhǔn)確率為100%,說明在受限領(lǐng)域下,該系統(tǒng)方法簡單,可靠性好。
4 結(jié)束語
本系統(tǒng)基于VSM的文本匹配方法,依托社交網(wǎng)絡(luò)的交互性可以看出采用該模型在受限領(lǐng)域的問答系統(tǒng)中具有實(shí)現(xiàn)簡單、準(zhǔn)確率高、交互性廣的優(yōu)點(diǎn)。在理論和實(shí)際應(yīng)用中都有一定的價(jià)值。
參考文獻(xiàn):
[1] 王樹西. 問答系統(tǒng):核心技術(shù)、發(fā)展趨勢[J]. 計(jì)算機(jī)工程與應(yīng)用,2005(18).
[2] 秦兵,劉挺,王洋,鄭實(shí)福,李生. 基于常問問題集的中文問答系統(tǒng)研究[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào),2003(10).
[3] Salton A.Wong and C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(5).
[4] Salton G,and mcgill M J. Introduction to modern information retrieval[M]. mcgraw-Hill, 1983.
[5] 鄭實(shí)福,劉挺,秦兵,李生. 自動(dòng)問答綜述[J]. 中文信息學(xué)報(bào),2002(6).
[6] 劉偉. 基于限定領(lǐng)域的問句相似度[D]. 天津:天津師范大學(xué), 2008.
[7] 劉智慧. 基于搜索引擎的自動(dòng)問答系統(tǒng)[D]. 西安:西安電子科技大學(xué), 2010.
[8] 錢強(qiáng), 龐林斌, 高尚. 一種基于詞共現(xiàn)圖的受限領(lǐng)域自動(dòng)問答系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用研究, 2013,30(3): 841-843.
[9] 趙恒立. 惡意代碼檢測與分類技術(shù)研究[D]. 杭州:杭州電子科技大學(xué), 2009.
[10] 朱林, 余俠. 基于 Web 文檔的目標(biāo)信息預(yù)測采集控制策略[J]. 情報(bào)理論與實(shí)踐, 2006,28(6): 660-662.endprint
3 實(shí)驗(yàn)結(jié)果
針對《計(jì)算機(jī)網(wǎng)絡(luò)》課程的自動(dòng)問答系統(tǒng)如圖2所示。由于問答系統(tǒng)的特殊性,一般只以準(zhǔn)確率來考察系統(tǒng)的性能指標(biāo)。準(zhǔn)確率的計(jì)算公式按照TREC會議的計(jì)算公式如式(6) 所示來計(jì)算。
[準(zhǔn)確率=答對的問題分?jǐn)?shù)問題的總分?jǐn)?shù)] (6)
系統(tǒng)對每個(gè)問題提供5個(gè)答案,第一個(gè)答案即為正確答案,得5分;第二個(gè)答案為正確答案,得4分,第3個(gè)答案為正確答案,得3分,第4個(gè)答案為正確答案,得2分,第5個(gè)答案為正確答案,得1分。
實(shí)驗(yàn)中對系統(tǒng)提問問題數(shù)為30個(gè),最后的總得分?jǐn)?shù)為140分。系統(tǒng)的準(zhǔn)確率為93.3%。由于系統(tǒng)同時(shí)給出5個(gè)答案,如果考量用戶是否得到最終的正確答案,而不論該答案是否位于第一個(gè),則系統(tǒng)的準(zhǔn)確率為100%,說明在受限領(lǐng)域下,該系統(tǒng)方法簡單,可靠性好。
4 結(jié)束語
本系統(tǒng)基于VSM的文本匹配方法,依托社交網(wǎng)絡(luò)的交互性可以看出采用該模型在受限領(lǐng)域的問答系統(tǒng)中具有實(shí)現(xiàn)簡單、準(zhǔn)確率高、交互性廣的優(yōu)點(diǎn)。在理論和實(shí)際應(yīng)用中都有一定的價(jià)值。
參考文獻(xiàn):
[1] 王樹西. 問答系統(tǒng):核心技術(shù)、發(fā)展趨勢[J]. 計(jì)算機(jī)工程與應(yīng)用,2005(18).
[2] 秦兵,劉挺,王洋,鄭實(shí)福,李生. 基于常問問題集的中文問答系統(tǒng)研究[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào),2003(10).
[3] Salton A.Wong and C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(5).
[4] Salton G,and mcgill M J. Introduction to modern information retrieval[M]. mcgraw-Hill, 1983.
[5] 鄭實(shí)福,劉挺,秦兵,李生. 自動(dòng)問答綜述[J]. 中文信息學(xué)報(bào),2002(6).
[6] 劉偉. 基于限定領(lǐng)域的問句相似度[D]. 天津:天津師范大學(xué), 2008.
[7] 劉智慧. 基于搜索引擎的自動(dòng)問答系統(tǒng)[D]. 西安:西安電子科技大學(xué), 2010.
[8] 錢強(qiáng), 龐林斌, 高尚. 一種基于詞共現(xiàn)圖的受限領(lǐng)域自動(dòng)問答系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用研究, 2013,30(3): 841-843.
[9] 趙恒立. 惡意代碼檢測與分類技術(shù)研究[D]. 杭州:杭州電子科技大學(xué), 2009.
[10] 朱林, 余俠. 基于 Web 文檔的目標(biāo)信息預(yù)測采集控制策略[J]. 情報(bào)理論與實(shí)踐, 2006,28(6): 660-662.endprint