基于受限領(lǐng)域自動(dòng)問答系統(tǒng)設(shè)計(jì)

2015-01-06 05:26:36莊永新武鵬朱峰黃振宇

電腦知識與技術(shù) 2014年34期

莊永新+武鵬+朱峰+黃振宇

摘要：自動(dòng)問答系統(tǒng)的設(shè)計(jì)一直是自然語言處理領(lǐng)域的研究熱點(diǎn)。尤其是在受限領(lǐng)域，基于問題庫的問答系統(tǒng)具有準(zhǔn)確、快捷和高效等優(yōu)點(diǎn)。該文設(shè)計(jì)了一種融合社交網(wǎng)絡(luò)技術(shù)的基于《計(jì)算機(jī)網(wǎng)絡(luò)》課程的自動(dòng)問答系統(tǒng)，其問答庫的構(gòu)建采用了VSM模型。實(shí)驗(yàn)證明，該系統(tǒng)具有較高的準(zhǔn)確率，有一定的推廣意義。

關(guān)鍵詞：自動(dòng)問答；VSM；受限領(lǐng)域

中圖分類號：TP391.1 文獻(xiàn)標(biāo)識碼：A 文章編號：1009-3044（2014）34-8186-02

自動(dòng)問答是指終端用戶通過人機(jī)對話界面，用自然語言提出一個(gè)問題，可以從系統(tǒng)得到一個(gè)簡潔，正確的回答。該技術(shù)一直是自然語言處理研究領(lǐng)域里的研究熱點(diǎn)，用戶可以像日常生活一樣通過熟悉的自然語言提出問題，而不需要對于所提問題的詞法結(jié)構(gòu)做出特殊的分割。其次，問答系統(tǒng)給出的答案，是一段簡潔、正確的文本，而不是一個(gè)網(wǎng)頁或者長篇幅的文檔。

相比于基于搜索引擎的問答系統(tǒng)，基于受限領(lǐng)域的自動(dòng)問答系統(tǒng)有其自身優(yōu)勢：首先，用戶從系統(tǒng)所得到的答案是一個(gè)或者幾個(gè)明確的答案文本，而不是海量的網(wǎng)頁，用戶可以輕易的尋找到自己所需要的答案。其次，系統(tǒng)對用戶自身的信息檢索能力要求不高，用戶通過自己所熟悉的自然語言進(jìn)行提問即可。最后，基于受限領(lǐng)域的自動(dòng)問答系統(tǒng)易于構(gòu)建，對問題響應(yīng)速度快，命中率高。

1 自動(dòng)問答系統(tǒng)的設(shè)計(jì)

為了減少系統(tǒng)的計(jì)算量，加快系統(tǒng)響應(yīng)速度，針對受限領(lǐng)域的特殊性，問答系統(tǒng)的設(shè)計(jì)一般包括四個(gè)部分：問題分析、信息檢索、答案抽取和用戶點(diǎn)評。問題分析階段，對于用戶用自然語提出的一個(gè)問題，系統(tǒng)進(jìn)行分詞、同義詞替換、去除停等詞等預(yù)處理工作，然后進(jìn)行關(guān)鍵詞提取，從而建立向量表示。信息檢索階段將問題向量與答案庫中的答案進(jìn)行匹配并計(jì)算相似度。答案抽取階段，依答案檢索中計(jì)算出的相似度進(jìn)行排序，選取相似度最高的前5個(gè)答案作為候選答案提供給用戶。用戶點(diǎn)評階段，用戶提問后，無論是直接從系統(tǒng)直接獲取答案還是其他用戶提供回答，均可以對得到的答案實(shí)現(xiàn)類DIGG點(diǎn)評。用戶整個(gè)系統(tǒng)的結(jié)構(gòu)如圖1所示。

2 自動(dòng)問答系統(tǒng)的具體實(shí)現(xiàn)

2.1 問題分析

首先對用戶用自然語言進(jìn)行的提問進(jìn)行分詞、同義詞替換、停等詞處理等預(yù)處理操作后建立問題的特征表示。問題的特征采用VSM模型來進(jìn)行表示，其形式如式（1）所示。

其中[qi]為字典中出現(xiàn)的關(guān)鍵詞在該問題中的權(quán)值表示，可以以TFIDF值計(jì)算，TF值可以直接計(jì)算，IDF值可以依照字典本身存儲的該關(guān)鍵詞的IDF值計(jì)算。

向量空間模型（VSM：Vector Space Model）由Salton等人于20世紀(jì)70年代提出的一個(gè)應(yīng)用于信息過濾，信息擷取，索引以及評估相關(guān)性的代數(shù)模型，并成功地應(yīng)用于著名的SMART文本檢索系統(tǒng)。在VSM模型中，以向量的形式表示文檔。向量的每一維表示一個(gè)單詞，如果單詞在某篇文檔中出現(xiàn)，則其向量值為其權(quán)重值，如果沒有出現(xiàn)，則將其向量值記為零。假設(shè)文檔空間為[D]，那么有式（2）。

其中[di]表示文檔空間中的第[i]篇文檔。則其中任意一篇文檔[di]可以表示為式（3）的形式。

其中[dij]表示第j維上單詞的權(quán)重。

對于權(quán)重的計(jì)算方式有很多種，其中比較常見的計(jì)算方式為以每一維單詞的TFIDF值為其權(quán)重值。詞頻逆文檔頻率（term frequency—inverse document frequency，TFIDF）是一種統(tǒng)計(jì)方法，用以評估一個(gè)字或詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。其思想是一個(gè)單詞在某篇文檔中出現(xiàn)的頻率越高，而在其他文檔中出現(xiàn)頻率越低，那么它對文檔的重要程度就越高。其計(jì)算公式為式（4）：

[TF=f/m]，其中f表示當(dāng)前詞在當(dāng)前文檔中出現(xiàn)的次數(shù)，而m表示當(dāng)前文檔中出現(xiàn)次數(shù)最多的詞的次數(shù)。這樣TF值就在0和1之間。這樣做可以減少文檔中詞的頻率不合理分布所引起的誤差。[IDF=log2nnj+1]，其中n表示在整個(gè)語料中文檔的總數(shù)，而[nj]表示含有當(dāng)前詞的文檔數(shù)。這樣做可以減少在語料范圍內(nèi)詞頻分布不均勻造成的相似度誤差。

2.2 信息檢索

為了在答案庫中檢索出提問的所需要的答案，這里以問題和答案庫中的文檔之間的距離作為檢索標(biāo)準(zhǔn)，與問題距離越小的答案越可能是最終問答系統(tǒng)中輸出的答案。

文檔向量之間的距離的計(jì)算方法很多，本系統(tǒng)中采用常用的余弦定理方法作為文檔相似度的度量標(biāo)準(zhǔn)，其計(jì)算方法如公式（5）所示：

2.3 答案抽取

依答案檢索中計(jì)算出的相似度進(jìn)行排序，選取相似度最高的前5個(gè)答案作為候選答案提供給用戶。如果不足5個(gè)答案，就全部提供給用戶。如果用戶沒有找到相關(guān)問題答案，可以選擇重新提問。

為了能夠充分調(diào)動(dòng)使用者的積極性，促使使用者共同建設(shè)該領(lǐng)域問題庫和答案庫，同時(shí)也彌補(bǔ)系統(tǒng)答案庫答案有限的弊端，設(shè)置了答案反饋模塊。當(dāng)用戶對系統(tǒng)所給出的答案不滿意的時(shí)候，可以在得到正確答案之后給出自己的答案。共同使得系統(tǒng)更加完善，也提高我們對于問題的查準(zhǔn)率，客觀上補(bǔ)充了算法上的劣勢。

2.4 用戶點(diǎn)評

用戶登陸可以對系統(tǒng)提供的參考答案或者用戶貢獻(xiàn)的答案實(shí)現(xiàn)類DIGG點(diǎn)評。用戶通過主觀判斷獲取的答案和提問是否相關(guān)，進(jìn)而對答案進(jìn)行評價(jià)或添加評論。其中評價(jià)通過選擇“贊同”或“反對”兩種按鈕方式實(shí)現(xiàn)，并進(jìn)而反饋給系統(tǒng)。添加評論通過對答案進(jìn)行主觀駁斥以提供給其他用戶參考。

在點(diǎn)評過程中，如果提問是直接面向系統(tǒng)的，則只能由提問用戶實(shí)現(xiàn)對系統(tǒng)提供答案進(jìn)行點(diǎn)評。如果問題是開放給所有用戶的，則任意用戶均可以參與點(diǎn)評。所有的點(diǎn)評結(jié)果均會經(jīng)過處理后反饋到系統(tǒng)后臺，從而提供給教師，作為教師對答案庫維護(hù)更新的重要依據(jù)。endprint

3 實(shí)驗(yàn)結(jié)果

針對《計(jì)算機(jī)網(wǎng)絡(luò)》課程的自動(dòng)問答系統(tǒng)如圖2所示。由于問答系統(tǒng)的特殊性，一般只以準(zhǔn)確率來考察系統(tǒng)的性能指標(biāo)。準(zhǔn)確率的計(jì)算公式按照TREC會議的計(jì)算公式如式（6）所示來計(jì)算。

[準(zhǔn)確率=答對的問題分?jǐn)?shù)問題的總分?jǐn)?shù)] （6）

系統(tǒng)對每個(gè)問題提供5個(gè)答案，第一個(gè)答案即為正確答案，得5分；第二個(gè)答案為正確答案，得4分，第3個(gè)答案為正確答案，得3分，第4個(gè)答案為正確答案，得2分，第5個(gè)答案為正確答案，得1分。

實(shí)驗(yàn)中對系統(tǒng)提問問題數(shù)為30個(gè)，最后的總得分?jǐn)?shù)為140分。系統(tǒng)的準(zhǔn)確率為93.3%。由于系統(tǒng)同時(shí)給出5個(gè)答案，如果考量用戶是否得到最終的正確答案，而不論該答案是否位于第一個(gè)，則系統(tǒng)的準(zhǔn)確率為100%，說明在受限領(lǐng)域下，該系統(tǒng)方法簡單，可靠性好。

4 結(jié)束語

本系統(tǒng)基于VSM的文本匹配方法，依托社交網(wǎng)絡(luò)的交互性可以看出采用該模型在受限領(lǐng)域的問答系統(tǒng)中具有實(shí)現(xiàn)簡單、準(zhǔn)確率高、交互性廣的優(yōu)點(diǎn)。在理論和實(shí)際應(yīng)用中都有一定的價(jià)值。

參考文獻(xiàn)：

[1] 王樹西. 問答系統(tǒng)：核心技術(shù)、發(fā)展趨勢[J]. 計(jì)算機(jī)工程與應(yīng)用，2005（18）.

[2] 秦兵，劉挺，王洋，鄭實(shí)福，李生. 基于常問問題集的中文問答系統(tǒng)研究[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào)，2003（10）.

[3] Salton A.Wong and C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of the ACM，1975，18（5）.

[4] Salton G，and mcgill M J. Introduction to modern information retrieval[M]. mcgraw-Hill， 1983.

[5] 鄭實(shí)福，劉挺，秦兵，李生. 自動(dòng)問答綜述[J]. 中文信息學(xué)報(bào)，2002（6）.

[6] 劉偉. 基于限定領(lǐng)域的問句相似度[D]. 天津：天津師范大學(xué)， 2008.

[7] 劉智慧. 基于搜索引擎的自動(dòng)問答系統(tǒng)[D]. 西安：西安電子科技大學(xué)， 2010.

[8] 錢強(qiáng)，龐林斌，高尚. 一種基于詞共現(xiàn)圖的受限領(lǐng)域自動(dòng)問答系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用研究， 2013，30（3）： 841-843.

[9] 趙恒立. 惡意代碼檢測與分類技術(shù)研究[D]. 杭州：杭州電子科技大學(xué)， 2009.

[10] 朱林，余俠. 基于 Web 文檔的目標(biāo)信息預(yù)測采集控制策略[J]. 情報(bào)理論與實(shí)踐， 2006，28（6）： 660-662.endprint

3 實(shí)驗(yàn)結(jié)果

[準(zhǔn)確率=答對的問題分?jǐn)?shù)問題的總分?jǐn)?shù)] （6）

4 結(jié)束語

參考文獻(xiàn)：

[1] 王樹西. 問答系統(tǒng)：核心技術(shù)、發(fā)展趨勢[J]. 計(jì)算機(jī)工程與應(yīng)用，2005（18）.

[2] 秦兵，劉挺，王洋，鄭實(shí)福，李生. 基于常問問題集的中文問答系統(tǒng)研究[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào)，2003（10）.

[3] Salton A.Wong and C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of the ACM，1975，18（5）.

[4] Salton G，and mcgill M J. Introduction to modern information retrieval[M]. mcgraw-Hill， 1983.

[5] 鄭實(shí)福，劉挺，秦兵，李生. 自動(dòng)問答綜述[J]. 中文信息學(xué)報(bào)，2002（6）.

[6] 劉偉. 基于限定領(lǐng)域的問句相似度[D]. 天津：天津師范大學(xué)， 2008.

[7] 劉智慧. 基于搜索引擎的自動(dòng)問答系統(tǒng)[D]. 西安：西安電子科技大學(xué)， 2010.

[9] 趙恒立. 惡意代碼檢測與分類技術(shù)研究[D]. 杭州：杭州電子科技大學(xué)， 2009.

[10] 朱林，余俠. 基于 Web 文檔的目標(biāo)信息預(yù)測采集控制策略[J]. 情報(bào)理論與實(shí)踐， 2006，28（6）： 660-662.endprint

3 實(shí)驗(yàn)結(jié)果

[準(zhǔn)確率=答對的問題分?jǐn)?shù)問題的總分?jǐn)?shù)] （6）

4 結(jié)束語

參考文獻(xiàn)：

[1] 王樹西. 問答系統(tǒng)：核心技術(shù)、發(fā)展趨勢[J]. 計(jì)算機(jī)工程與應(yīng)用，2005（18）.

[2] 秦兵，劉挺，王洋，鄭實(shí)福，李生. 基于常問問題集的中文問答系統(tǒng)研究[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào)，2003（10）.

[3] Salton A.Wong and C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of the ACM，1975，18（5）.

[4] Salton G，and mcgill M J. Introduction to modern information retrieval[M]. mcgraw-Hill， 1983.

[5] 鄭實(shí)福，劉挺，秦兵，李生. 自動(dòng)問答綜述[J]. 中文信息學(xué)報(bào)，2002（6）.

[6] 劉偉. 基于限定領(lǐng)域的問句相似度[D]. 天津：天津師范大學(xué)， 2008.

[7] 劉智慧. 基于搜索引擎的自動(dòng)問答系統(tǒng)[D]. 西安：西安電子科技大學(xué)， 2010.

[9] 趙恒立. 惡意代碼檢測與分類技術(shù)研究[D]. 杭州：杭州電子科技大學(xué)， 2009.

[10] 朱林，余俠. 基于 Web 文檔的目標(biāo)信息預(yù)測采集控制策略[J]. 情報(bào)理論與實(shí)踐， 2006，28（6）： 660-662.endprint

電腦知識與技術(shù)2014年34期

電腦知識與技術(shù)的其它文章: Snort入侵檢測中模式匹配算法的研究和改進(jìn); 通信網(wǎng)絡(luò)的應(yīng)用與特點(diǎn)探討; 面向西部高校的網(wǎng)絡(luò)通信編程課程教改研究; 泛在學(xué)習(xí)環(huán)境中網(wǎng)絡(luò)學(xué)習(xí)資源的構(gòu)建與優(yōu)化研究; 無線傳感器網(wǎng)絡(luò)分簇路由算法研究與仿真設(shè)計(jì); 云計(jì)算服務(wù)等級協(xié)議初探

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于受限領(lǐng)域自動(dòng)問答系統(tǒng)設(shè)計(jì)