【摘 要】在教學(xué)改革中,為了提高課程教學(xué)的質(zhì)量,諸多學(xué)校研究、開發(fā)了相關(guān)課程的智能答疑系統(tǒng)。學(xué)生通過該系統(tǒng),可以查找學(xué)習(xí)該課程過程中遇到的相關(guān)問題,增加對該課程知識的理解。傳統(tǒng)的智能答疑系統(tǒng)存在答案不精確、答案信息不全等問題,其原因主要是機器在識別學(xué)生提問的問句過程中,對問句理解不夠,不能真正明白學(xué)生問句的含義,從而導(dǎo)致搜索、查詢的答案存在較大的誤差。本文提出一種精確的句子相似度計算方法,從關(guān)鍵字特征和句子的詞義距離相似度兩個方面進行考慮,將兩變量視為句子的二維向量,通過獲取句子的二維向量值,從這兩個方面進行比較、分析,得到句子的相似度。通過這種改進方法可以獲取更多的信息,更加準確地描述句子的內(nèi)容,從而更加精確地查找問句的答案。
【關(guān)鍵詞】句子相似度 智能答疑系統(tǒng) 關(guān)鍵字
在《移動編程基礎(chǔ)》課程教學(xué)過程中,存在教師、學(xué)生之間面對面的信息交流時間不夠,效率低下等問題,學(xué)生在學(xué)習(xí)過程中,積壓的問題不斷增加,導(dǎo)致該課程教學(xué)質(zhì)量一直沒有明顯地提升。傳統(tǒng)的改進方式是通過引導(dǎo)學(xué)生進行網(wǎng)絡(luò)搜索,在網(wǎng)絡(luò)上查找相應(yīng)的問題答案。這種方式存在答案豐富多彩、不能準確定位、回答問題的用戶雜亂無章、對問句的理解不夠、答案不專業(yè)等問題,從而誤導(dǎo)學(xué)生學(xué)習(xí)。也有部分高校自行開發(fā)相應(yīng)的智能答疑系統(tǒng),早期的答疑系統(tǒng)基本上是通過簡單的形式實現(xiàn)答疑過程,這些系統(tǒng)在人工智能方面存在一定距離,且不具備專家系統(tǒng)技術(shù)的應(yīng)用。傳統(tǒng)的答疑平臺在進行問題關(guān)鍵詞檢索時,存在答案精確度不夠、答案不全、查詢速度較慢等問題,沒有很好地引導(dǎo)學(xué)生正確理解課程中的相關(guān)知識點,從而影響該課程的教學(xué)改革和教學(xué)質(zhì)量。
針對上述種種問題,開發(fā)出一個能精準定位、正確理解學(xué)生提問的語句的含義,查找正確、全面的問題答案的全新的智能答疑系統(tǒng)已迫在眉睫。本文提出一種精確的句子相似度計算方法,從關(guān)鍵字處理和句子相似度兩個方面進行了改進。對關(guān)鍵字、詞義距離進行相似度計算,對問句進行分解預(yù)處理,能夠有效提高答案的準確度和查詢速度,結(jié)果準確度提高了39%,信息響應(yīng)時間大大縮短,取得了不錯的效果。
一、基于關(guān)鍵字的計算方法
將《移動編程基礎(chǔ)》課程中所有出現(xiàn)的詞語分為停用詞庫與通用詞庫,使用比較頻繁的詞語存放在通用詞庫中,而一般很少使用或停止使用的詞語存放在停用詞庫中,這樣方便關(guān)鍵字的計算處理。
基于關(guān)鍵字特征的句子相似度計算是通過比較兩個句子中的所有有效詞,構(gòu)成問句的向量空間,然后計算兩個句子的向量,求出兩個向量夾角的余弦值,將此余弦值作為句子相似度。對于任意給出的兩個句子S1和S2,統(tǒng)計兩句子的有效詞,求出構(gòu)成該句子的向量空間為V=(x1,X2…X2),其中Xn為有效詞。句子S1的向量V1=(W1,W2…Wn),其中Wn為有效詞Xn在句子S1中出現(xiàn)的次數(shù)。句子S2的向量V2={∮1,∮2…∮n},其中∮n為有效詞Xi在句子S2中出現(xiàn)的次數(shù)。則兩個句子的相似度為:
這樣的方法非常方便地將詞表面的信息融合到計算公式中,特別是針對相關(guān)性小的語句,效果非常好。
二、基于詞義距離的句子相似度計算
計算句和句之間的相似度的關(guān)鍵是要獲取句中詞義所表達的內(nèi)容,具體方法如下:
設(shè)兩個句子M 和N,M包含的詞為M1.M2……Mm,N包含的詞為N1.N2……Nn,則詞Mi(1≤i≤m)和Ni(1≤i≤n)之間的相似度可用Similar(Mi,Nj)表示。這樣就得到兩個句子中任意兩個詞的相似度,M 和N句子之間的語義相似度如下公式:
式中ai與bi的含義如下:ai=max(Similar(Mi,N1),…,Similr(Mi,Nn),bi=max(Similar(Mi,N1),…,Similar(Mi,Nn)。
相似度計算的一個難點是要獲取句子中詞語更加深層的內(nèi)容信息,在表面不同的情況下通過一些手段將句子深層的、意義相同的詞語挖掘出來,便于相似度的計算。一旦出現(xiàn)詞典范圍缺失該項內(nèi)容的情況或者詞義代碼的丟失,將會給相似度計算帶來誤差。
句子相似度是智能答疑系統(tǒng)中的主要橋梁,是連接用戶表達意思與系統(tǒng)理解含義的通道。采用合理的句子相似度計算方法,可有效地增加系統(tǒng)搜尋答案的精確度,為學(xué)生提供精確、全面的答案保駕護航。本句子相似度計算方法在智能答疑系統(tǒng)中的應(yīng)用取得了很好的效果,查詢的答案完全能滿足學(xué)生的需要,該系統(tǒng)受到學(xué)生的一致好評。
【參考文獻】
[1]李佳媛.漢語句子相似度計算技術(shù)及其應(yīng)用[G].北京信息科技大學(xué),2013(6).
[2]劉松平.智能答疑平臺的研究與實現(xiàn)[G].湖南大學(xué),2013(4).
[3]薛慧芳.句子相似度計算理論及應(yīng)用研究[G].西北大學(xué),2011(7).