基于文本相似性檢索技術(shù)解決命題中重題檢測問題的實踐
——以北京市自學(xué)考試命題為例

2018-05-30 08:18:33沈鋼

中國考試 2018年3期

沈鋼

（北京教育考試院，北京 100083）

1 問題提出

如何控制復(fù)本試卷間試題的重復(fù)率是專業(yè)考試機構(gòu)的一個難題。以單個試題為基礎(chǔ)的題卡庫，重復(fù)的試題不僅造成資源浪費和額外的開銷，還會嚴重地影響組卷的質(zhì)量。以試卷為基礎(chǔ)的卷庫，試卷重復(fù)率超標①試卷重復(fù)率超標指的是一張試卷中的試題同復(fù)本試卷重題分值之和是否超標，其標準需要參照命題部門的內(nèi)部標準。，不僅影響考試的公平、公正與測驗的效度，還會讓社會對考試機構(gòu)的專業(yè)性產(chǎn)生質(zhì)疑。傳統(tǒng)的人工檢測既費時，又費力。舉例來說，假設(shè)題庫中已有1 000道試題，需要新添加10道試題，則需要進行10 000次檢測，才能完成人工核查試題重復(fù)率（以下簡稱“查重”）。如果要查重新命制試題與全部已考試題，人力根本無法勝任。從多年實際工作的效果來看，通過查重方式不僅效率低下，而且無法全面、準確地統(tǒng)計試題重復(fù)率，查重存在很大的風(fēng)險。鑒于此，我們引用計算機文本相似性檢索系統(tǒng)，結(jié)合已有的自學(xué)考試命題信息管理系統(tǒng)，設(shè)計了自學(xué)考試試題查重系統(tǒng)。

1.1 文本相似性檢索

文本相似性技術(shù)是數(shù)據(jù)挖掘、信息分類、信息檢索等電子信息處理研究領(lǐng)域的基礎(chǔ)，根據(jù)文本的內(nèi)容屬性來度量兩個電子文檔的相似程度，在論文剽竊檢索、稿件查重、版權(quán)保護等方面有著廣泛的應(yīng)用。相似試題檢測是指把試題庫中相似度很高的試題抽取出來，由學(xué)科專家來判定它們是否有同時存在的必要性，或由計算機自動篩掉相似度很高的試題[1]。本文提出的試題查重系統(tǒng)是在拓爾思（Text Retrieval System，TRS）相似文本檢索軟件的基礎(chǔ)上，結(jié)合自學(xué)考試的命題特點二次開發(fā)的計算機軟件。系統(tǒng)首先對文本進行分詞和詞性標注，然后使用特征提取技術(shù)抽取有用的文本特征，將提取的文本特征表示成文本“指紋”，最后到文檔“指紋”庫中檢索與當前文檔相似的文檔，并給出文檔的相似度量。

1.2 重題與相似試題的界定

在計算試題相似度之前，我們首先要定義重題和相似試題。重題，顧名思義就是完全或者幾乎完全雷同的試題。而相似試題是指兩道題在形式和內(nèi)容上有很大的相似之處，但又不完全相同，所產(chǎn)生的效果也是不相同的。例如兩道題，“在我國國家秘密的3個等級中，其密級應(yīng)由縣以上單位頒布的是”和“在我國國家秘密的3個等級中，其密級應(yīng)由市以上單位頒布的是”，題干文字內(nèi)容非常相近，但一個關(guān)鍵字的區(qū)別使兩道試題考查了同一個知識點的不同內(nèi)容，答案也完全不同。

重題不但會造成資源的浪費，還會產(chǎn)生試卷質(zhì)量的隱患。重題不應(yīng)該出現(xiàn)在題庫中。在卷庫的使用中也有嚴格的限制，需要計算一張試卷中重題的分值是否超標。而相似試題在很多時候?qū)τ诿}尤其是自學(xué)考試命題是有意義的。一本教材的知識點是有限的，題庫中不可能完全回避相同知識點的試題。從課程的學(xué)習(xí)和考試的規(guī)律上看，課程的重點內(nèi)容和重要知識點不僅不能回避，還應(yīng)該反復(fù)考核。一方面，只有考查課程的重點知識才能準確地測量被試的能力；另一方面，如果限制命題教師命制相似試題，則會產(chǎn)生大量的偏題、怪題，從而降低試卷的信度和效度；同時，由于相似試題的考點和試題形式相近，使用相似試題還有助于提高試卷之間的平行性。然而，在實際命題工作中，相似試題的使用也有相應(yīng)的要求。首先，相似試題不能出現(xiàn)在同一張試卷里，這有可能會造成考核點重復(fù)或者試題相互提示的問題；其次，對于相近期次的考試，相似試題的分值也要嚴格控制，以免考生抓住規(guī)律，投機取巧。

1.3 文本檢索工具

如何選擇文本檢索工具是設(shè)計試題查重系統(tǒng)時遇到的一個核心問題。經(jīng)過研究討論，有以下幾種方案可供選擇：1）利用數(shù)據(jù)庫產(chǎn)品的全文檢索功能。此方案的優(yōu)點是幾乎沒有額外研發(fā)和采購的成本，但是，查重的指標不清晰，檢索的體系封閉，很難做進一步的優(yōu)化。2）基于文本分詞進行比對，可以利用開源社區(qū)如Apache的Lucence項目成果。此方案優(yōu)點是整體技術(shù)可控，但未考慮忽略詞、同義詞的干擾因素，效果不好。3）利用現(xiàn)有文本特征提取和相似度計算的研究成果，選擇合適的算法并將算法程序化。此方案的優(yōu)點是采用的理論可以得到比較權(quán)威的證實，但對實驗室產(chǎn)品的實際效果缺乏案例支持，而且參數(shù)調(diào)校耗費大量精力。4）在商業(yè)化的文本檢索和語義理解產(chǎn)品基礎(chǔ)上開發(fā)查重系統(tǒng)。此方案的優(yōu)點是具有類似成功案例的支持，如網(wǎng)頁去重、專利查新、論文剽竊檢測等領(lǐng)域的應(yīng)用，并可以開放接口以便于二次開發(fā)；此方案的缺點是將付出較為昂貴的成本代價。在考慮自主開發(fā)程序的難度以及使用效果后，我們認為，第4種方案更適合本系統(tǒng)的開發(fā)，最終選用了業(yè)內(nèi)比較成熟的文本相似性檢索軟件——拓爾思作為系統(tǒng)的文本檢索工具。

2 系統(tǒng)的設(shè)計和實現(xiàn)

2.1 試題錄入模板

試題電子化是試題查重的基礎(chǔ)。因此，試題數(shù)據(jù)來源的規(guī)范以及信息讀取的完整與準確是查重系統(tǒng)的先決條件。試題錄入模板為命題教師提供了一個方便錄入試題和參數(shù)的載體，系統(tǒng)通過讀取模板文件可以將試題拆分成題干、選項、答案和參數(shù)等信息，并批量入庫。除上述信息外，試題模板還提供了課程代碼、試卷編號、每道試題的題號以及所屬題型等內(nèi)容。試題錄入模板采用word文件作為載體，word的錄入方式比軟件填寫方式更容易被命題教師所接受。試題錄入模板在word的基礎(chǔ)上加入保護區(qū)和書簽定位，命題教師只允許在保護區(qū)內(nèi)填寫內(nèi)容，保證了命題教師無法隨意改動模板的結(jié)構(gòu)。同時，系統(tǒng)通過書簽可以精準定位試題或參數(shù)的起始位置，并把相關(guān)內(nèi)容抽取出來[2]。

2.2 閾值的設(shè)定

本文的閾值是指兩道試題的匹配符合程度，數(shù)值為0～1之間的實數(shù)，共100個等級，數(shù)值越大，表明2道試題相似度越高。當取值為1時，表明兩道試題完全相同，即重復(fù)試題；數(shù)值越小，則表明兩道試題相似度越低，當取值為0時，表明兩道試題完全不同[3]。試題查重系統(tǒng)需要使用者預(yù)先設(shè)定閾值，系統(tǒng)在查重后會返回大于閾值的試題列表。我們根據(jù)自學(xué)考試的實際情況，設(shè)置不同閾值反復(fù)測試，最終將閾值的默認值設(shè)置為0.80。根據(jù)此閾值檢測出的試題，基本覆蓋所有相似試題和重題，并把需要人工復(fù)核的試題數(shù)量控制在一個合理的范圍，保證了實際使用的工作效率。另外，針對不同課程的具體情況，使用者也可以手動調(diào)整閾值，以達到最佳的查重效果。

2.3 查重系統(tǒng)工作流程

從命題工作程序來看，自學(xué)考試命題工作分為分散命題、試題接收、試題入庫、試卷生成、試卷校對、試卷驗收等環(huán)節(jié)。目前采用的人工試題查重設(shè)置在試卷驗收環(huán)節(jié)，這種工作模式的弊端在于：查重范圍有限；需要人工計算試卷重復(fù)試題的分數(shù)以及與某套試卷中重復(fù)試題的分數(shù)之和；若發(fā)現(xiàn)重復(fù)率超標的情況，就要由命題教師補救，工作比較被動。啟用試題查重系統(tǒng)后，可以在試題接收環(huán)節(jié)，即試題入庫前進行試題查重，將查重結(jié)果立即反饋給學(xué)科秘書和命題教師，學(xué)科秘書或命題教師可以在第一時間對疑似重復(fù)試題進行處理。如果使用者不希望人工干預(yù)，只需要把默認閾值設(shè)置的高一些，系統(tǒng)也可以完成自動相似試題檢測，但自動相似試題檢測的缺陷是可能產(chǎn)生誤判的現(xiàn)象[1]。

試題查重系統(tǒng)工作流程如圖1所示。具體工作流程如下：

圖1 試題查重系統(tǒng)流程圖

1）命題教師將填好的試題模板交給工作人員，通過命題管理信息系統(tǒng)對試題模板進行加載、拆分，生成試卷包導(dǎo)入系統(tǒng)。

2）工作人員對查重參數(shù)進行設(shè)置，包括閾值和是否同題型查重（一般為默認）。查重系統(tǒng)對導(dǎo)入的試題文本進行分析，內(nèi)容包括題干、選項和答案，提取文本特征并與題庫中同科目的試題進行對比。

3）系統(tǒng)列出查重結(jié)果，包括所有超過閾值的試題、系統(tǒng)對應(yīng)的已存在題庫中的試題題號、試題內(nèi)容、試題所屬試卷的試卷編號等。除此之外，系統(tǒng)還將計算出本次導(dǎo)入試題中超過閾值的試題的分數(shù)之和、與某套試卷中疑似重復(fù)試題的分數(shù)之和，并提供打印查重結(jié)果供學(xué)科秘書參考。

4）學(xué)科秘書對系統(tǒng)給出的查重結(jié)果進行人工審核，若確認本套試卷重復(fù)試題分數(shù)超過命題要求的標準，則反饋給命題教師進行修改。

5）命題教師對重復(fù)試題進行修改，將重新編輯后的試題模板導(dǎo)入系統(tǒng)，再次查重后如果確認合格，試題入庫。

3 實驗結(jié)果和討論

為了測試實際使用效果，我們利用自學(xué)考試題庫的數(shù)據(jù)對系統(tǒng)進行測試。選取5門自學(xué)考試課程作為測試對象，并對題庫中的部分試題進行改造，使其成為相似題和重題，以滿足測試的需要。

3.1 準確率和查全率

本文引入衡量信息檢索系統(tǒng)性能最重要的2個參數(shù)——準確率和查全率。準確率和查全率是廣泛用于信息檢索和統(tǒng)計學(xué)分類領(lǐng)域的2個度量值，用來評價結(jié)果的質(zhì)量。其中，準確率是檢索出相關(guān)文檔數(shù)與文檔總數(shù)的比率，查全率是指檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率。兩者取值在0～1，數(shù)值越接近1，準確率或查全率就越高。準確率和查全率的數(shù)學(xué)公式為：準確率=提取出的正確文本數(shù)/提取出的文本數(shù)×100%，查全率=提取出的正確文本數(shù)/樣本中的文本數(shù)×100%[4]。

3.2 實驗結(jié)果

5門課程在題庫中共有1 858道試題，我們準備了150道相似試題，50道重題。測試試題分布情況如表1所示。

表1 測試試題分布情況

本次測試統(tǒng)一采用0.80作為查重閾值。首先對查重結(jié)果進行逐題分析，判斷檢索出的試題是否與原題相關(guān)，是否屬于相似試題或重題。經(jīng)過對查重結(jié)果進行人工統(tǒng)計后，得出測試結(jié)果如表2所示。

表2 測試結(jié)果

通過測試結(jié)果可以看出，相似題和重題的準確率和查全率令人滿意。在閾值設(shè)置為0.80的情況下，相似題的查全率也可以達到100%。通過綜合分析，我們可以歸納出影響查重檢測結(jié)果的因素主要有：1）題庫中試題的總量。目前測試的課程在題庫中大約有8～10套的存量題，如果對容量更大的題庫進行測試，預(yù)計準確率將有所降低。但自學(xué)考試題庫受自學(xué)考試特點所限，實際題庫容量不會太大，因此，系統(tǒng)能夠滿足自學(xué)考試題庫的需求。2）閾值的大小。閾值的大小直接決定檢測出試題的數(shù)量和人工處理的工作量。在閾值設(shè)置為0.80的情況下，查全率可以達到100%，準確率也達到比較高的標準，人工復(fù)核的壓力較小。因此，0.80作為默認查重閾值是合理的。3）樣本的內(nèi)容。本次測試的樣本是對題庫中現(xiàn)有試題進行改造后形成的，對原題內(nèi)容改動的多少直接影響檢測結(jié)果。4）人工判斷。檢索出的試題是否與樣本相關(guān)，即是否認定為相似題或重題，取決于工作人員的人工判斷。本次測試過程的人工判斷是由具有豐富命題管理經(jīng)驗的學(xué)科秘書負責(zé)實施，認定的結(jié)果可以被認為是準確的。

4 結(jié)語

試題查重系統(tǒng)成功地將文本相似性檢索引入到試題查重檢測，并很好地融入了現(xiàn)有的命題流程，實現(xiàn)了半自動化的試題查重檢索。對5門自學(xué)考試課程進行實驗測試表明，試題查重的準確率和查全率均達到較高的水平。該系統(tǒng)的應(yīng)用使控制自學(xué)考試試題重復(fù)率成為可能，解決了命題管理中復(fù)本試卷間重復(fù)率超標的難題，節(jié)省了人力資源，提高了工作效率和命題質(zhì)量。該試題查重系統(tǒng)雖是以自學(xué)考試題庫作為模型設(shè)計開發(fā)的，但通用性較強，未來可以推廣到其他的考試項目。

[1]李峰超.基于領(lǐng)域知識的試題分類及相似試題檢測的研究[D].大連:大連海事大學(xué),2009.

[2]沈鋼,趙曉茫.自學(xué)考試計算機題庫管理系統(tǒng)的設(shè)計與實踐[J].中國考試,2014（4）:55-59.

[3]周舫.漢語句子相似度計算方法及其應(yīng)用的研究[D].開封:河南大學(xué),2005.

[4]李璐,江葆紅,孫紅紅.如何提高文獻信息檢索中的查全率與查準率[J].科技文獻信息管理,2010（1）:23-25.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于文本相似性檢索技術(shù)解決命題中重題檢測問題的實踐——以北京市自學(xué)考試命題為例