基于差分優(yōu)化語義相似度模型的智能組卷系統(tǒng)

2016-05-30 10:18胡慧君劉茂福

科教導(dǎo)刊 2016年4期

胡慧君　劉茂福

摘要文章針對組卷系統(tǒng)中容易對同一語義內(nèi)容但不同形式的題目多次出現(xiàn)在同一張試卷中的問題，提出了基于差分優(yōu)化語義相似度模型的組卷系統(tǒng)。此系統(tǒng)引入語義相似度模型，在組卷的過程較好地避免了重復(fù)知識點的考查，增加了組卷的成功率；在語義相似度模型的基礎(chǔ)上，對一些參數(shù)不再用手動的方式調(diào)整，采用差分算法對模型中的相關(guān)參數(shù)進(jìn)行動態(tài)的調(diào)控，不僅可以避免手動調(diào)整參數(shù)的辛苦，又在全局范圍中獲得最優(yōu)化的參數(shù)，從而保證了自動組卷系統(tǒng)的科學(xué)性、公正性、高效性，該系統(tǒng)對題目知識結(jié)構(gòu)，數(shù)據(jù)延展進(jìn)行全方位的跟蹤管理，多種考試形式豐富組織方式。

關(guān)鍵詞自動組卷系統(tǒng) 語義相似度模型余弦相似度差分優(yōu)化

中圖分類號：TP391.3 文獻(xiàn)標(biāo)識碼：A DOI：10.16400/j.cnki.kjdks.2016.02.073

0 引言

現(xiàn)階段，有不斷增加的考試類型和不斷提高的考試要求，隨即而來，也越來越增加了教師的工作量。為適應(yīng)現(xiàn)代考試的需要，傳統(tǒng)的考試方法應(yīng)該慢慢地被淘汰了。目前有著迅速發(fā)展的計算機(jī)應(yīng)用，網(wǎng)絡(luò)應(yīng)用不斷擴(kuò)大，如遠(yuǎn)程教育和虛擬大學(xué)的出現(xiàn)等等，且這些應(yīng)用正逐步深入到千家萬戶。在線考試都會需要這些網(wǎng)絡(luò)應(yīng)用技術(shù)，期待減輕教師的工作負(fù)擔(dān)以及提高工作效率，與此同時提高了考試的質(zhì)量，從而使考試更趨于公正、客觀，更加激發(fā)學(xué)生的學(xué)習(xí)興趣。鑒于以上現(xiàn)狀和結(jié)合當(dāng)前市面上考試系統(tǒng)的特點與不足，一種新型的語義相似度模型的自動組卷系統(tǒng)應(yīng)運而生。

1 基于差分優(yōu)化語義相似度模型的自動組卷系統(tǒng)

針對現(xiàn)有自動組卷系統(tǒng)的不足，本論文提出基于差分優(yōu)化語義相似度模型的自動組卷系統(tǒng)，以提高所組試卷的質(zhì)量。例如避免在組卷過程中產(chǎn)生選擇、填空、判斷三者之間對同一知識點考查多次的問題；改進(jìn)傳統(tǒng)的組卷系統(tǒng)，借助語義相似度模型實現(xiàn)對填空，問答的審閱，使得組卷變得更科學(xué)、更智能，以減輕老師負(fù)擔(dān)和提高系統(tǒng)工作效率?；诓罘謨?yōu)化語義相似度模型的自動組卷系統(tǒng)具有以下特點：

（1）引入語義相似度模型；（2）具有普適性，基于語義層面的相似度模型使得系統(tǒng)不再局限于少數(shù)幾門學(xué)科；（3）提高組卷效率，借助語義相似度模型，在組卷的過程較好地避免了重復(fù)知識點的考查，增加了組卷的成功率；（4）題型更加全面，借助文本相似度的計算實現(xiàn)了對填空，問答等主觀題的組卷；（5）組卷具有高效性，省去了人工組卷環(huán)節(jié)，系統(tǒng)的工作效率得到了質(zhì)的飛躍；（6）采用差分算法對模型中的相關(guān)參數(shù)進(jìn)行動態(tài)的調(diào)控，不僅可以避免手動調(diào)整參數(shù)的辛苦，又在全局范圍中獲得最優(yōu)化的參數(shù)，從而保證了自動組卷系統(tǒng)的科學(xué)性、公正性、高效性。

1.1 語義相似度模型的設(shè)計與實現(xiàn)

文本語義相似度量方法大多將文比文本看作一組詞的集合體，分析每個詞在文本中出現(xiàn)的次數(shù)以及在整個文本集合中出現(xiàn)的次數(shù)，進(jìn)而利用這些詞頻信息將文本建模為一個向量，并利用向量間的余弦相似度、Jaccard相似度等方法計算文本之間的相似度。基于語義的文本相似度量方法則通過同義詞、冗余和蘊涵等語義關(guān)系來考查文本之間的相似度。

鑒于已經(jīng)存在的問題的一些不足，在本文中將采用一種能有效降低文本表示模型的維度，又能結(jié)合詞項語義信息進(jìn)行相似度量計算的方法。

1.2 語義相似度模型具體算法

對于語義相似度模型的算法，主要有兩個關(guān)鍵操作：關(guān)鍵詞的提取、關(guān)鍵詞項向量間的相似度計算。

1.2.1 關(guān)鍵詞的提取

（1）首先預(yù)處理文本中的人名、地名、無實意的常用字（在TF-IDF方法中有相關(guān)識別技術(shù)），將它們用per，loc，org等詞代替，因為這類詞具有較高的TF-IDF值，從而容易導(dǎo)致對文本關(guān)鍵詞項的錯誤選擇；然后，必須對文本中的詞項進(jìn)行詞性分析，給出詞項的語義屬性，即該詞項是名詞、動詞還是副詞等。

（2）關(guān)鍵詞項的選擇：文本預(yù)處理完成后，需要對整個文本集合中的詞項進(jìn)行TF-IDF值計算，并將詞項的TF-IDF值進(jìn)行排序，選取TF-IDF值大于P（P為百分比）的名詞動詞詞項作為關(guān)鍵詞項。

（3）由于關(guān)鍵詞項代表了一篇文本中最重要的信息，因此文本的相似度就可以由關(guān)鍵詞項向量間的相似度來描述。因此，文本之間的相似度就轉(zhuǎn)換為關(guān)鍵詞項向量間的相似度。

1.2.2 關(guān)鍵詞項向量間的相似度計算

借助HowNet中的思想，將詞語理解為多個義原（語義的最小原子）的集合，兩個義原集合相似度即詞項相似度，先尋找最優(yōu)匹配，集合中批次最相似的元素兩兩組合，然后加權(quán)值就是整體相似度。每個義原在定義概念中的作用大小不同，義原所攜帶的語義信息越豐富，權(quán)值越大。義原相似度的計算則使用劉群的公式：sSim（S1，S2）=a/（a+distance（S1，S2））計算。若詞項整體相似度>0.5則判定為相似。然后，以類似的方法，借用權(quán)值在得出關(guān)鍵詞項相似度的情況下，計算文本相似度。

1.3 將語義相似度模型應(yīng)用到組卷模塊

為了避免題目內(nèi)容上的重復(fù)，把語義相似度模型應(yīng)用到組卷系統(tǒng)中，以實現(xiàn)組卷系統(tǒng)的試題在內(nèi)容上的非冗余性和形式上的科學(xué)性，其步驟如下：

獲取某一問答題考生所給答案文本及標(biāo)準(zhǔn)答案文本；

若試題標(biāo)準(zhǔn)答案已設(shè)置關(guān)鍵字，將考生所給答案文本與關(guān)鍵字做匹配，匹配成功率直接與最后評分關(guān)聯(lián)。若未預(yù)先設(shè)置關(guān)鍵字，直接進(jìn)行下一步；

將考生所給答案文本與標(biāo)準(zhǔn)答案文本做相似度計算，根據(jù)文本相似度計算結(jié)果以及提前設(shè)置的評分算法進(jìn)行評分。（評分算法：舉例 score=S1a%+S2b%，Score為此題最后得分，S1為中匹配成功率S2為中文本相似度計算結(jié)果a，b為權(quán)重比）

1.4 差分算法優(yōu)化語義相似度模型的相關(guān)參數(shù)

由于差分算法采用對個體進(jìn)行方向擾動，以達(dá)到對個體的函數(shù)值進(jìn)行下降的目的，此算法不利用函數(shù)的梯度信息，因此對函數(shù)的可導(dǎo)性甚至連續(xù)性沒有要求，適用性很強(qiáng)。對于詞項相似度的參數(shù)、文本相似度的參數(shù)，通過差分算法自動尋優(yōu)找到最優(yōu)的參數(shù)，擯棄傳統(tǒng)的手動主觀控制參數(shù)方式，從而得到更科學(xué)的語義相似度模型，進(jìn)而得到更智能、更客觀的組卷系統(tǒng)，這是手動組卷方法所不能企及的。

2 結(jié)論

針對組卷系統(tǒng)中容易對同一語義內(nèi)容但不同形式的題目多次出現(xiàn)在同一張試卷中的問題，提出了基于差分優(yōu)化語義相似度模型的組卷系統(tǒng)。采用一種能有效降低文本表示模型的維度，又能結(jié)合詞項語義信息進(jìn)行相似度量計算的方法進(jìn)行自動組卷，以提高自動組卷的質(zhì)量，實現(xiàn)自動組卷的科學(xué)性；通過差分算法自動尋優(yōu)找到最優(yōu)的參數(shù)，擯棄傳統(tǒng)的手動控制參數(shù)方式，從而得到更科學(xué)的語義相似度模型，進(jìn)而得到更智能、更客觀的組卷系統(tǒng)。

參考文獻(xiàn)

[1] Mikolov T. Word2vec project [EB/OL].（2014-09-03） [2015-04-10].http：//code.google.com/p/word2vec/.

[2] 谷波，劉開瑛.中文文本分類中一種簡單高效的特征詞選擇方法[C].//2005第一屆中國分類技術(shù)與應(yīng)用研討會（CSCA）.2005：356-360.

[3] 周練.Word2vec的工作原理及應(yīng)用探究[J].科技情報開發(fā)與經(jīng)濟(jì)，2015（2）：145-148.

[4] 鄭文超，徐鵬.利用word2vec對中文詞進(jìn)行聚類的研究[J].軟件，2013（12）：160-162.

科教導(dǎo)刊2016年4期

科教導(dǎo)刊的其它文章: 公安院校民警培訓(xùn)課程建設(shè)的思考; 計算機(jī)類專業(yè)學(xué)位碩士生教育質(zhì)量標(biāo)準(zhǔn)體系與評價維度探索; 臨床醫(yī)學(xué)專業(yè)學(xué)生三段式考核模式的探索研究; 航空類專業(yè)生產(chǎn)實習(xí)現(xiàn)狀與實習(xí)模式思考; 研究生“最優(yōu)化方法”課程教學(xué)改革中的幾點思考; 軟件技術(shù)專業(yè)課程改革與學(xué)生職業(yè)能力培養(yǎng)研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于差分優(yōu)化語義相似度模型的智能組卷系統(tǒng)