基于中文分詞的智能答疑系統(tǒng)的設(shè)計

2014-12-23 07:14付春捷

科技視界 2014年14期

付春捷胡萍

（浙江理工大學(xué) 科技與藝術(shù)學(xué)院，浙江杭州311121）

0 引言

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，基于網(wǎng)絡(luò)的教學(xué)活動越來越普及。在線答疑作為網(wǎng)絡(luò)遠(yuǎn)程教育或網(wǎng)絡(luò)輔助教育的一項必不可少的環(huán)節(jié)，其智能性、實時性要求越來越高。

國內(nèi)現(xiàn)階段使用的答疑系統(tǒng)，一般都是通過電子郵件、留言板、BBS[1]等非實時性手段來回答用戶提出的問題，少量的所謂“智能答疑系統(tǒng)”一般智能性不強、準(zhǔn)確性不高，主要體現(xiàn)在不能很好地支持自然語言提問，一般采取通過關(guān)鍵詞的邏輯組合在數(shù)據(jù)庫中進(jìn)行查詢的方式。

1 智能答疑系統(tǒng)涉及的關(guān)鍵技術(shù)

1.1 智能答疑系統(tǒng)分析

雖然國內(nèi)在智能答疑系統(tǒng)領(lǐng)域的研究取得了一定的成果，但相比較國外而言還存在一定差距，根本原因在于中文信息處理技術(shù)的研究還沒有趨于成熟。

由于漢語言是一種規(guī)則最少、最靈活、最簡潔和含蓄的語言，相比其他語言有更大的隨意性和自由性，中文信息處理的難點就是詞匯的切分以及語義分析。由于在智能答疑系統(tǒng)中用戶所提出問題長度比較短、問題比較專業(yè)以及問題中包含固定的疑問短語，所以在設(shè)計智能答疑系統(tǒng)時，沒有必要將過多的精力放在語義分析的處理上。中文分詞技術(shù)就成為了智能答疑系統(tǒng)中最基礎(chǔ)也是最關(guān)鍵的技術(shù)，它將直接影響系統(tǒng)的響應(yīng)速度和效率。

1.2 常用的分詞算法

中文分詞是指將中文文本語句切分成一個一個單獨的詞，是中文自然語言處理中最基本和主要的步驟，分詞的質(zhì)量直接影響自然語言處理的結(jié)果。從目前的研究成果看，中文分詞算法大體可分為兩大類：一是,基于詞典與規(guī)則的字符匹配算法；二是,基于統(tǒng)計的無詞典分詞算法。目前來說前者是一種發(fā)展比較成熟且應(yīng)用比較廣泛的算法。[2]

圖1 查詢詞典流程圖

基于詞典與規(guī)則的字符匹配算法是以機(jī)器詞典作為分詞的基礎(chǔ)，分詞過程中將預(yù)處理的自然語言字符串，按照一定的匹配規(guī)則和算法與機(jī)器詞典的詞條進(jìn)行匹配。常用的分詞算法有正向最大匹配法（Maximum Matching Method，簡稱MM 法），逆向最大匹配法（Reverse Maximum Matching Method，簡稱RMM 法）。

2 智能答疑系統(tǒng)的分詞模塊的構(gòu)建

2.1 詞典的設(shè)計

機(jī)器詞典是分詞算法實施的基礎(chǔ)。由于基于詞典的分詞算法在分詞過程中需要多次進(jìn)行詞典的查詢匹配，因此建立優(yōu)化的詞典結(jié)構(gòu)機(jī)制是提高分詞效率的前提。由于智能答疑系統(tǒng)中用戶提交的問句比較專業(yè)化，例如“計算機(jī)網(wǎng)絡(luò)的本質(zhì)是什么？ ”、“怎么配置局域網(wǎng)”等等。對于智能答疑系統(tǒng)來說，是否每個詞都被準(zhǔn)確的切分出來并不是最重要的，重要的是切分出對檢索結(jié)果又意義的相關(guān)詞語。

因此，本設(shè)計的詞典包括普通分詞詞典和專業(yè)分詞詞典兩部分。其查詢過程是首先在專業(yè)詞典中查詢是否存在某子串，若存在則確認(rèn)該子串成詞并切分，若不存在則查詢普通詞典，具體流程如圖1 所示。

2.2 分詞算法的選擇

統(tǒng)計結(jié)果表明，逆向匹配法比正向匹配法分詞的準(zhǔn)確率要高，單純使用MM 法的錯誤率為1/129，而單純使用RMM 法的錯誤率為1/245。[2]

智能答疑系統(tǒng)是針對某一領(lǐng)域或某一具體課程設(shè)計的，所以其詞匯一般是有限的。通過對詞典的分析，確定最大詞長后采用逆向最大匹配算法對問句進(jìn)行切分，算法思想為：

假設(shè)代處理的字串為Str，每次截取詞長最大為Max，結(jié)果輸出字符串為Str_res（空串）。

（1）從Str 的右端截取Max 個字設(shè)為s。

（2）在詞典中查找是否成詞，若是則轉(zhuǎn)向步驟（3），若不成詞則去掉s 左端的一個字，重復(fù)步驟（2），直到s 成詞或s 長度為1。

（3）從Str 中刪除s 子串，s 存入Str_res 中。若Str 為空，分詞結(jié)束，否則轉(zhuǎn)向步驟（1）。

2.3 分詞模塊的構(gòu)建模型

首先將用戶輸入的問句按標(biāo)點符號打散成一個一個的字串（分詞預(yù)處理），目的是讓處理的字串更短、效率更高。然后對每一個字串逐一進(jìn)行分詞，提取關(guān)鍵字。具體構(gòu)建模型如圖2 所示。

圖2 分詞模塊構(gòu)建模型

3 結(jié)束語

基于自然語言的智能答疑系統(tǒng)是今后網(wǎng)絡(luò)答疑的發(fā)展趨勢，中文分詞技術(shù)在智能答疑系統(tǒng)中的作用非常關(guān)鍵。在本文中，我們提出了一種基于中文分詞技術(shù)的實施方案，機(jī)器詞典的設(shè)計以及分詞算法的選擇是保證分詞效果的基礎(chǔ)。而完成一個智能答疑系統(tǒng)是要多種技術(shù)相配合的，如句子相似度算法以及領(lǐng)域本體構(gòu)建等問題也將影響智能答疑系統(tǒng)的智能性、高效性。

［1］田偉，等.基于切詞的受限領(lǐng)域智能答疑系統(tǒng)設(shè)計與實現(xiàn)[J].武漢理工大學(xué)學(xué)報，2010，32(16):148-151.

［2］潮俊華.基于自然語言提問的自動答疑系統(tǒng)設(shè)計[J].現(xiàn)代遠(yuǎn)程教育研究，2005(1):48-51.

［3］向志華,梁玉英.自然語言處理技術(shù)在網(wǎng)絡(luò)答疑系統(tǒng)中的應(yīng)用[J].牡丹江師范學(xué)院學(xué)報：自然科學(xué)版，2012(2):7-9.

［4］黎孟雄.模糊貼近度在智能答疑系統(tǒng)中的應(yīng)用[J].河南科技大學(xué)學(xué)報：自然科學(xué)版，2008(29):60-62.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡