付春捷 胡 萍
(浙江理工大學(xué) 科技與藝術(shù)學(xué)院,浙江 杭州311121)
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,基于網(wǎng)絡(luò)的教學(xué)活動越來越普及。 在線答疑作為網(wǎng)絡(luò)遠(yuǎn)程教育或網(wǎng)絡(luò)輔助教育的一項必不可少的環(huán)節(jié),其智能性、實時性要求越來越高。
國內(nèi)現(xiàn)階段使用的答疑系統(tǒng), 一般都是通過電子郵件、 留言板、BBS[1]等非實時性手段來回答用戶提出的問題,少量的所謂“智能答疑系統(tǒng)”一般智能性不強、準(zhǔn)確性不高,主要體現(xiàn)在不能很好地支持自然語言提問,一般采取通過關(guān)鍵詞的邏輯組合在數(shù)據(jù)庫中進(jìn)行查詢的方式。
雖然國內(nèi)在智能答疑系統(tǒng)領(lǐng)域的研究取得了一定的成果,但相比較國外而言還存在一定差距,根本原因在于中文信息處理技術(shù)的研究還沒有趨于成熟。
由于漢語言是一種規(guī)則最少、最靈活、最簡潔和含蓄的語言,相比其他語言有更大的隨意性和自由性,中文信息處理的難點就是詞匯的切分以及語義分析。由于在智能答疑系統(tǒng)中用戶所提出問題長度比較短、問題比較專業(yè)以及問題中包含固定的疑問短語,所以在設(shè)計智能答疑系統(tǒng)時,沒有必要將過多的精力放在語義分析的處理上。 中文分詞技術(shù)就成為了智能答疑系統(tǒng)中最基礎(chǔ)也是最關(guān)鍵的技術(shù),它將直接影響系統(tǒng)的響應(yīng)速度和效率。
中文分詞是指將中文文本語句切分成一個一個單獨的詞,是中文自然語言處理中最基本和主要的步驟,分詞的質(zhì)量直接影響自然語言處理的結(jié)果。從目前的研究成果看,中文分詞算法大體可分為兩大類:一是,基于詞典與規(guī)則的字符匹配算法;二是,基于統(tǒng)計的無詞典分詞算法。 目前來說前者是一種發(fā)展比較成熟且應(yīng)用比較廣泛的算法。[2]
圖1 查詢詞典流程圖
基于詞典與規(guī)則的字符匹配算法是以機(jī)器詞典作為分詞的基礎(chǔ),分詞過程中將預(yù)處理的自然語言字符串,按照一定的匹配規(guī)則和算法與機(jī)器詞典的詞條進(jìn)行匹配。 常用的分詞算法有正向最大匹配法(Maximum Matching Method,簡稱MM 法),逆向最大匹配法(Reverse Maximum Matching Method,簡稱RMM 法)。
機(jī)器詞典是分詞算法實施的基礎(chǔ)。由于基于詞典的分詞算法在分詞過程中需要多次進(jìn)行詞典的查詢匹配,因此建立優(yōu)化的詞典結(jié)構(gòu)機(jī)制是提高分詞效率的前提。由于智能答疑系統(tǒng)中用戶提交的問句比較專業(yè)化,例如“計算機(jī)網(wǎng)絡(luò)的本質(zhì)是什么? ”、“怎么配置局域網(wǎng)”等等。對于智能答疑系統(tǒng)來說,是否每個詞都被準(zhǔn)確的切分出來并不是最重要的,重要的是切分出對檢索結(jié)果又意義的相關(guān)詞語。
因此, 本設(shè)計的詞典包括普通分詞詞典和專業(yè)分詞詞典兩部分。其查詢過程是首先在專業(yè)詞典中查詢是否存在某子串,若存在則確認(rèn)該子串成詞并切分,若不存在則查詢普通詞典,具體流程如圖1 所示。
統(tǒng)計結(jié)果表明,逆向匹配法比正向匹配法分詞的準(zhǔn)確率要高,單純使用MM 法的錯誤率為1/129,而單純使用RMM 法的錯誤率為1/245。[2]
智能答疑系統(tǒng)是針對某一領(lǐng)域或某一具體課程設(shè)計的,所以其詞匯一般是有限的。 通過對詞典的分析,確定最大詞長后采用逆向最大匹配算法對問句進(jìn)行切分,算法思想為:
假設(shè)代處理的字串為Str,每次截取詞長最大為Max,結(jié)果輸出字符串為Str_res(空串)。
(1)從Str 的右端截取Max 個字設(shè)為s。
(2)在詞典中查找是否成詞,若是則轉(zhuǎn)向步驟(3),若不成詞則去掉s 左端的一個字,重復(fù)步驟(2),直到s 成詞或s 長度為1。
(3)從Str 中刪除s 子串,s 存入Str_res 中。若Str 為空,分詞結(jié)束,否則轉(zhuǎn)向步驟(1)。
首先將用戶輸入的問句按標(biāo)點符號打散成一個一個的字串(分詞預(yù)處理),目的是讓處理的字串更短、效率更高。 然后對每一個字串逐一進(jìn)行分詞,提取關(guān)鍵字。 具體構(gòu)建模型如圖2 所示。
圖2 分詞模塊構(gòu)建模型
基于自然語言的智能答疑系統(tǒng)是今后網(wǎng)絡(luò)答疑的發(fā)展趨勢,中文分詞技術(shù)在智能答疑系統(tǒng)中的作用非常關(guān)鍵。 在本文中,我們提出了一種基于中文分詞技術(shù)的實施方案,機(jī)器詞典的設(shè)計以及分詞算法的選擇是保證分詞效果的基礎(chǔ)。而完成一個智能答疑系統(tǒng)是要多種技術(shù)相配合的,如句子相似度算法以及領(lǐng)域本體構(gòu)建等問題也將影響智能答疑系統(tǒng)的智能性、高效性。
[1]田偉,等.基于切詞的受限領(lǐng)域智能答疑系統(tǒng)設(shè)計與實現(xiàn)[J].武漢理工大學(xué)學(xué)報,2010,32(16):148-151.
[2]潮俊華.基于自然語言提問的自動答疑系統(tǒng)設(shè)計[J].現(xiàn)代遠(yuǎn)程教育研究,2005(1):48-51.
[3]向志華,梁玉英.自然語言處理技術(shù)在網(wǎng)絡(luò)答疑系統(tǒng)中的應(yīng)用[J].牡丹江師范學(xué)院學(xué)報:自然科學(xué)版,2012(2):7-9.
[4]黎孟雄.模糊貼近度在智能答疑系統(tǒng)中的應(yīng)用[J].河南科技大學(xué)學(xué)報:自然科學(xué)版,2008(29):60-62.