沈鋼
(北京教育考試院,北京 100083)
如何控制復(fù)本試卷間試題的重復(fù)率是專業(yè)考試機構(gòu)的一個難題。以單個試題為基礎(chǔ)的題卡庫,重復(fù)的試題不僅造成資源浪費和額外的開銷,還會嚴重地影響組卷的質(zhì)量。以試卷為基礎(chǔ)的卷庫,試卷重復(fù)率超標①試卷重復(fù)率超標指的是一張試卷中的試題同復(fù)本試卷重題分值之和是否超標,其標準需要參照命題部門的內(nèi)部標準。,不僅影響考試的公平、公正與測驗的效度,還會讓社會對考試機構(gòu)的專業(yè)性產(chǎn)生質(zhì)疑。傳統(tǒng)的人工檢測既費時,又費力。舉例來說,假設(shè)題庫中已有1 000道試題,需要新添加10道試題,則需要進行10 000次檢測,才能完成人工核查試題重復(fù)率(以下簡稱“查重”)。如果要查重新命制試題與全部已考試題,人力根本無法勝任。從多年實際工作的效果來看,通過查重方式不僅效率低下,而且無法全面、準確地統(tǒng)計試題重復(fù)率,查重存在很大的風(fēng)險。鑒于此,我們引用計算機文本相似性檢索系統(tǒng),結(jié)合已有的自學(xué)考試命題信息管理系統(tǒng),設(shè)計了自學(xué)考試試題查重系統(tǒng)。
文本相似性技術(shù)是數(shù)據(jù)挖掘、信息分類、信息檢索等電子信息處理研究領(lǐng)域的基礎(chǔ),根據(jù)文本的內(nèi)容屬性來度量兩個電子文檔的相似程度,在論文剽竊檢索、稿件查重、版權(quán)保護等方面有著廣泛的應(yīng)用。相似試題檢測是指把試題庫中相似度很高的試題抽取出來,由學(xué)科專家來判定它們是否有同時存在的必要性,或由計算機自動篩掉相似度很高的試題[1]。本文提出的試題查重系統(tǒng)是在拓爾思(Text Retrieval System,TRS)相似文本檢索軟件的基礎(chǔ)上,結(jié)合自學(xué)考試的命題特點二次開發(fā)的計算機軟件。系統(tǒng)首先對文本進行分詞和詞性標注,然后使用特征提取技術(shù)抽取有用的文本特征,將提取的文本特征表示成文本“指紋”,最后到文檔“指紋”庫中檢索與當前文檔相似的文檔,并給出文檔的相似度量。
在計算試題相似度之前,我們首先要定義重題和相似試題。重題,顧名思義就是完全或者幾乎完全雷同的試題。而相似試題是指兩道題在形式和內(nèi)容上有很大的相似之處,但又不完全相同,所產(chǎn)生的效果也是不相同的。例如兩道題,“在我國國家秘密的3個等級中,其密級應(yīng)由縣以上單位頒布的是”和“在我國國家秘密的3個等級中,其密級應(yīng)由市以上單位頒布的是”,題干文字內(nèi)容非常相近,但一個關(guān)鍵字的區(qū)別使兩道試題考查了同一個知識點的不同內(nèi)容,答案也完全不同。
重題不但會造成資源的浪費,還會產(chǎn)生試卷質(zhì)量的隱患。重題不應(yīng)該出現(xiàn)在題庫中。在卷庫的使用中也有嚴格的限制,需要計算一張試卷中重題的分值是否超標。而相似試題在很多時候?qū)τ诿}尤其是自學(xué)考試命題是有意義的。一本教材的知識點是有限的,題庫中不可能完全回避相同知識點的試題。從課程的學(xué)習(xí)和考試的規(guī)律上看,課程的重點內(nèi)容和重要知識點不僅不能回避,還應(yīng)該反復(fù)考核。一方面,只有考查課程的重點知識才能準確地測量被試的能力;另一方面,如果限制命題教師命制相似試題,則會產(chǎn)生大量的偏題、怪題,從而降低試卷的信度和效度;同時,由于相似試題的考點和試題形式相近,使用相似試題還有助于提高試卷之間的平行性。然而,在實際命題工作中,相似試題的使用也有相應(yīng)的要求。首先,相似試題不能出現(xiàn)在同一張試卷里,這有可能會造成考核點重復(fù)或者試題相互提示的問題;其次,對于相近期次的考試,相似試題的分值也要嚴格控制,以免考生抓住規(guī)律,投機取巧。
如何選擇文本檢索工具是設(shè)計試題查重系統(tǒng)時遇到的一個核心問題。經(jīng)過研究討論,有以下幾種方案可供選擇:1)利用數(shù)據(jù)庫產(chǎn)品的全文檢索功能。此方案的優(yōu)點是幾乎沒有額外研發(fā)和采購的成本,但是,查重的指標不清晰,檢索的體系封閉,很難做進一步的優(yōu)化。2)基于文本分詞進行比對,可以利用開源社區(qū)如Apache的Lucence項目成果。此方案優(yōu)點是整體技術(shù)可控,但未考慮忽略詞、同義詞的干擾因素,效果不好。3)利用現(xiàn)有文本特征提取和相似度計算的研究成果,選擇合適的算法并將算法程序化。此方案的優(yōu)點是采用的理論可以得到比較權(quán)威的證實,但對實驗室產(chǎn)品的實際效果缺乏案例支持,而且參數(shù)調(diào)校耗費大量精力。4)在商業(yè)化的文本檢索和語義理解產(chǎn)品基礎(chǔ)上開發(fā)查重系統(tǒng)。此方案的優(yōu)點是具有類似成功案例的支持,如網(wǎng)頁去重、專利查新、論文剽竊檢測等領(lǐng)域的應(yīng)用,并可以開放接口以便于二次開發(fā);此方案的缺點是將付出較為昂貴的成本代價。在考慮自主開發(fā)程序的難度以及使用效果后,我們認為,第4種方案更適合本系統(tǒng)的開發(fā),最終選用了業(yè)內(nèi)比較成熟的文本相似性檢索軟件——拓爾思作為系統(tǒng)的文本檢索工具。
試題電子化是試題查重的基礎(chǔ)。因此,試題數(shù)據(jù)來源的規(guī)范以及信息讀取的完整與準確是查重系統(tǒng)的先決條件。試題錄入模板為命題教師提供了一個方便錄入試題和參數(shù)的載體,系統(tǒng)通過讀取模板文件可以將試題拆分成題干、選項、答案和參數(shù)等信息,并批量入庫。除上述信息外,試題模板還提供了課程代碼、試卷編號、每道試題的題號以及所屬題型等內(nèi)容。試題錄入模板采用word文件作為載體,word的錄入方式比軟件填寫方式更容易被命題教師所接受。試題錄入模板在word的基礎(chǔ)上加入保護區(qū)和書簽定位,命題教師只允許在保護區(qū)內(nèi)填寫內(nèi)容,保證了命題教師無法隨意改動模板的結(jié)構(gòu)。同時,系統(tǒng)通過書簽可以精準定位試題或參數(shù)的起始位置,并把相關(guān)內(nèi)容抽取出來[2]。
本文的閾值是指兩道試題的匹配符合程度,數(shù)值為0~1之間的實數(shù),共100個等級,數(shù)值越大,表明2道試題相似度越高。當取值為1時,表明兩道試題完全相同,即重復(fù)試題;數(shù)值越小,則表明兩道試題相似度越低,當取值為0時,表明兩道試題完全不同[3]。試題查重系統(tǒng)需要使用者預(yù)先設(shè)定閾值,系統(tǒng)在查重后會返回大于閾值的試題列表。我們根據(jù)自學(xué)考試的實際情況,設(shè)置不同閾值反復(fù)測試,最終將閾值的默認值設(shè)置為0.80。根據(jù)此閾值檢測出的試題,基本覆蓋所有相似試題和重題,并把需要人工復(fù)核的試題數(shù)量控制在一個合理的范圍,保證了實際使用的工作效率。另外,針對不同課程的具體情況,使用者也可以手動調(diào)整閾值,以達到最佳的查重效果。
從命題工作程序來看,自學(xué)考試命題工作分為分散命題、試題接收、試題入庫、試卷生成、試卷校對、試卷驗收等環(huán)節(jié)。目前采用的人工試題查重設(shè)置在試卷驗收環(huán)節(jié),這種工作模式的弊端在于:查重范圍有限;需要人工計算試卷重復(fù)試題的分數(shù)以及與某套試卷中重復(fù)試題的分數(shù)之和;若發(fā)現(xiàn)重復(fù)率超標的情況,就要由命題教師補救,工作比較被動。啟用試題查重系統(tǒng)后,可以在試題接收環(huán)節(jié),即試題入庫前進行試題查重,將查重結(jié)果立即反饋給學(xué)科秘書和命題教師,學(xué)科秘書或命題教師可以在第一時間對疑似重復(fù)試題進行處理。如果使用者不希望人工干預(yù),只需要把默認閾值設(shè)置的高一些,系統(tǒng)也可以完成自動相似試題檢測,但自動相似試題檢測的缺陷是可能產(chǎn)生誤判的現(xiàn)象[1]。
試題查重系統(tǒng)工作流程如圖1所示。具體工作流程如下:
圖1 試題查重系統(tǒng)流程圖
1)命題教師將填好的試題模板交給工作人員,通過命題管理信息系統(tǒng)對試題模板進行加載、拆分,生成試卷包導(dǎo)入系統(tǒng)。
2)工作人員對查重參數(shù)進行設(shè)置,包括閾值和是否同題型查重(一般為默認)。查重系統(tǒng)對導(dǎo)入的試題文本進行分析,內(nèi)容包括題干、選項和答案,提取文本特征并與題庫中同科目的試題進行對比。
3)系統(tǒng)列出查重結(jié)果,包括所有超過閾值的試題、系統(tǒng)對應(yīng)的已存在題庫中的試題題號、試題內(nèi)容、試題所屬試卷的試卷編號等。除此之外,系統(tǒng)還將計算出本次導(dǎo)入試題中超過閾值的試題的分數(shù)之和、與某套試卷中疑似重復(fù)試題的分數(shù)之和,并提供打印查重結(jié)果供學(xué)科秘書參考。
4)學(xué)科秘書對系統(tǒng)給出的查重結(jié)果進行人工審核,若確認本套試卷重復(fù)試題分數(shù)超過命題要求的標準,則反饋給命題教師進行修改。
5)命題教師對重復(fù)試題進行修改,將重新編輯后的試題模板導(dǎo)入系統(tǒng),再次查重后如果確認合格,試題入庫。
為了測試實際使用效果,我們利用自學(xué)考試題庫的數(shù)據(jù)對系統(tǒng)進行測試。選取5門自學(xué)考試課程作為測試對象,并對題庫中的部分試題進行改造,使其成為相似題和重題,以滿足測試的需要。
本文引入衡量信息檢索系統(tǒng)性能最重要的2個參數(shù)——準確率和查全率。準確率和查全率是廣泛用于信息檢索和統(tǒng)計學(xué)分類領(lǐng)域的2個度量值,用來評價結(jié)果的質(zhì)量。其中,準確率是檢索出相關(guān)文檔數(shù)與文檔總數(shù)的比率,查全率是指檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率。兩者取值在0~1,數(shù)值越接近1,準確率或查全率就越高。準確率和查全率的數(shù)學(xué)公式為:準確率=提取出的正確文本數(shù)/提取出的文本數(shù)×100%,查全率=提取出的正確文本數(shù)/樣本中的文本數(shù)×100%[4]。
5門課程在題庫中共有1 858道試題,我們準備了150道相似試題,50道重題。測試試題分布情況如表1所示。
表1 測試試題分布情況
本次測試統(tǒng)一采用0.80作為查重閾值。首先對查重結(jié)果進行逐題分析,判斷檢索出的試題是否與原題相關(guān),是否屬于相似試題或重題。經(jīng)過對查重結(jié)果進行人工統(tǒng)計后,得出測試結(jié)果如表2所示。
表2 測試結(jié)果
通過測試結(jié)果可以看出,相似題和重題的準確率和查全率令人滿意。在閾值設(shè)置為0.80的情況下,相似題的查全率也可以達到100%。通過綜合分析,我們可以歸納出影響查重檢測結(jié)果的因素主要有:1)題庫中試題的總量。目前測試的課程在題庫中大約有8~10套的存量題,如果對容量更大的題庫進行測試,預(yù)計準確率將有所降低。但自學(xué)考試題庫受自學(xué)考試特點所限,實際題庫容量不會太大,因此,系統(tǒng)能夠滿足自學(xué)考試題庫的需求。2)閾值的大小。閾值的大小直接決定檢測出試題的數(shù)量和人工處理的工作量。在閾值設(shè)置為0.80的情況下,查全率可以達到100%,準確率也達到比較高的標準,人工復(fù)核的壓力較小。因此,0.80作為默認查重閾值是合理的。3)樣本的內(nèi)容。本次測試的樣本是對題庫中現(xiàn)有試題進行改造后形成的,對原題內(nèi)容改動的多少直接影響檢測結(jié)果。4)人工判斷。檢索出的試題是否與樣本相關(guān),即是否認定為相似題或重題,取決于工作人員的人工判斷。本次測試過程的人工判斷是由具有豐富命題管理經(jīng)驗的學(xué)科秘書負責(zé)實施,認定的結(jié)果可以被認為是準確的。
試題查重系統(tǒng)成功地將文本相似性檢索引入到試題查重檢測,并很好地融入了現(xiàn)有的命題流程,實現(xiàn)了半自動化的試題查重檢索。對5門自學(xué)考試課程進行實驗測試表明,試題查重的準確率和查全率均達到較高的水平。該系統(tǒng)的應(yīng)用使控制自學(xué)考試試題重復(fù)率成為可能,解決了命題管理中復(fù)本試卷間重復(fù)率超標的難題,節(jié)省了人力資源,提高了工作效率和命題質(zhì)量。該試題查重系統(tǒng)雖是以自學(xué)考試題庫作為模型設(shè)計開發(fā)的,但通用性較強,未來可以推廣到其他的考試項目。
[1]李峰超.基于領(lǐng)域知識的試題分類及相似試題檢測的研究[D].大連:大連海事大學(xué),2009.
[2]沈鋼,趙曉茫.自學(xué)考試計算機題庫管理系統(tǒng)的設(shè)計與實踐[J].中國考試,2014(4):55-59.
[3]周舫.漢語句子相似度計算方法及其應(yīng)用的研究[D].開封:河南大學(xué),2005.
[4]李璐,江葆紅,孫紅紅.如何提高文獻信息檢索中的查全率與查準率[J].科技文獻信息管理,2010(1):23-25.