德格加 安見才讓
摘? 要: 在教育教學(xué)信息化的進(jìn)程中,試題管理系統(tǒng)和組卷系統(tǒng)一直是人們致力研究的一個領(lǐng)域,對教育教學(xué)的自動化、高效化和精準(zhǔn)化具有重要的現(xiàn)實(shí)意義。由于試題知識點(diǎn)的不確定性、多樣性和隱蔽性等特點(diǎn),利用計(jì)算機(jī)技術(shù)自動抽取試題知識一直是該領(lǐng)域的難題之一。文章以藏文版試題為研究對象,通過深入研究試題的結(jié)構(gòu)特點(diǎn),探索研究了抽取藏文試題知識點(diǎn)的方法,力求提高試題管理和存儲的自動化,提升組卷系統(tǒng)的性能和效率。
關(guān)鍵詞: 組卷系統(tǒng); 藏文試題; 知識點(diǎn); 自動抽取
中圖分類號:TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號:1006-8228(2019)01-79-04
Abstract: In the process of education and teaching informationization, the test management system and the test paper generating system have always been one of the areas that people are committed to research, and have important practical significance for the automation, efficiency and precision of education and teaching. Due to the uncertainty, diversity and concealment of the knowledge point of test questions, the use of computer technology to automatically extract knowledge point of test questions has always been one of the problems in this field. This paper takes the Tibetan version of test questions as the research object, through in-depth study of the structural characteristics of test questions, explores how to extract the knowledge points of Tibetan test questions, and strives to improve the automation management and storage of test questions and improve the performance and efficiency of the test paper generating system.
Key words: test paper generating system; Tibetan test questions; knowledge points; automatic extraction
0 引言
計(jì)算機(jī)技術(shù)迅速發(fā)展,計(jì)算機(jī)輔助教學(xué)軟件相繼開發(fā),作為教學(xué)輔助系統(tǒng)中的重要組成部分,試題管理系統(tǒng)和組卷系統(tǒng)是人們研究的重要領(lǐng)域之一,在日常教學(xué)活動中發(fā)揮著積極的作用[1]。國內(nèi)外對試題管理系統(tǒng)中的組卷算法研究比較多,也提出了一些行之有效的組卷算法,但在試題的知識點(diǎn)抽取方面的研究與實(shí)現(xiàn)仍處于空白狀態(tài)。知識點(diǎn)自動抽取是組卷系統(tǒng)和試題管理系統(tǒng)的智能化和自動化的重要體現(xiàn),所以,研究抽取試題知識點(diǎn)的方法對提升整個系統(tǒng)的效率具有重要的現(xiàn)實(shí)意義。
理工科類試題的出題形式是各式各樣的,有純文字?jǐn)⑹龅?,有圖形的,有表格的,也有多種形式混合的。文字?jǐn)⑹鲂问降脑囶}以數(shù)學(xué)式子和符號類居多,而且數(shù)學(xué)式子和符號是用專門的軟件編輯的[2],這對利用計(jì)算機(jī)處理該類試題增加了很大難度。本文主要針對含有文字?jǐn)⑹鲂缘脑囶}進(jìn)行研究,探討試題知識點(diǎn)的抽取方法。
知識點(diǎn)是通過對題目多方面深入理解的基礎(chǔ)上才能提取確定的。對于藏文試題,試題的知識點(diǎn)往往表現(xiàn)在題目的中的某個關(guān)鍵字上或者算式中,因此,要確定題目的知識點(diǎn),首先對藏文試題進(jìn)行相關(guān)的預(yù)處理,提取題目中與知識點(diǎn)相關(guān)的關(guān)鍵詞,最后通過對關(guān)鍵詞的分析和判斷才能確定其知識點(diǎn)。
1 藏文試題知識點(diǎn)抽取方法
1.1 建立知識點(diǎn)網(wǎng)絡(luò)
利用計(jì)算機(jī)技術(shù)自動抽取試題知識點(diǎn),首先要建立一個健全的知識點(diǎn)網(wǎng)絡(luò),根據(jù)某課程的知識點(diǎn)分布結(jié)構(gòu),設(shè)計(jì)合理的知識點(diǎn)網(wǎng)絡(luò)庫,知識點(diǎn)網(wǎng)絡(luò)成樹狀結(jié)構(gòu)。比如建立一個人教版初中數(shù)學(xué)知識點(diǎn)庫,首先根據(jù)初中數(shù)學(xué)知識點(diǎn)的分布和編排結(jié)構(gòu),知識點(diǎn)編排方式有橫向上的同級知識點(diǎn)和縱向上的層級知識點(diǎn),因此,初中數(shù)學(xué)知識點(diǎn)可以用含有n階層級的樹狀形式來表示,如圖1所示。
根據(jù)人教版初中數(shù)學(xué)教材大綱中的知識點(diǎn)的編排順序和原則,綜合考慮計(jì)算機(jī)中易于編程實(shí)現(xiàn),將知識點(diǎn)樹狀網(wǎng)絡(luò)結(jié)構(gòu)簡化成縱向深度限定為3級;如圖2所示。
根據(jù)知識點(diǎn)網(wǎng)絡(luò)的結(jié)構(gòu),合理設(shè)計(jì)知識點(diǎn)網(wǎng)絡(luò)庫,將各層級的知識點(diǎn)按結(jié)構(gòu)和層級關(guān)系有序存入庫中。
1.2 藏文知識點(diǎn)抽取方法
要從一道藏文題目中抽取其知識點(diǎn),首先對藏文題目進(jìn)行預(yù)處理,包括提取題目中的文字性描述和對文字性描述進(jìn)行分詞,然后提取文字性描述中的數(shù)學(xué)關(guān)鍵字,最后對關(guān)鍵字結(jié)合知識點(diǎn)庫計(jì)算其權(quán)值確定題目中的主要知識點(diǎn)。
⑴ 預(yù)處理:藏文題目中除了文字性描述之外,還包含數(shù)學(xué)中的各種符號、字母和圖片等信息,在預(yù)處理階段應(yīng)把這些非文字性元素剔除,提取其藏文描述部分以便進(jìn)一步對其進(jìn)行處理;
⑵ 分詞:分詞是文字處理中最基礎(chǔ)也是最關(guān)鍵的一步,本文所采用的分詞方法是基于字典的機(jī)械分詞方法[3],與一般藏文分詞方法的不同之處在于,所使用的字典需要擴(kuò)充或使用專用的分詞字典。因?yàn)橐话愕牟匚脑~典中還未加入數(shù)學(xué)等現(xiàn)代理工科中的專業(yè)數(shù)學(xué)和詞條,如“”等詞條。本文中進(jìn)行擴(kuò)充原有藏文字典,在原字典中增加中學(xué)數(shù)學(xué)中的專用術(shù)語和名詞等詞條,這樣能夠保證在分詞過程中能夠準(zhǔn)確的切分出題目中的數(shù)學(xué)關(guān)鍵字,例如初中藏文試題:
⑶ 剔除噪音:所謂噪音是指對處理和研究主體無實(shí)際意義,甚至對研究起負(fù)面影響的元素,在提取試題知識點(diǎn)的問題中除了要剔除題目中的無實(shí)際意義的連詞和停用詞等虛詞外,還有數(shù)學(xué)試題中通用的一些動詞和指示詞也可剔除[4],所以要根據(jù)藏文試題的特點(diǎn),建立一個比較齊全的專用停用詞詞表,部分停用詞如表1所示。
根據(jù)表1剔除題目中的停用詞后,只保留試題題干中的關(guān)鍵詞,如例題⑴中,最后所保留的關(guān)鍵詞為<E:\方正創(chuàng)藝5.1\Fit201812\圖\dgj藏文5.tif>。
⑷ 確定知識點(diǎn):經(jīng)過預(yù)處理和分詞后,需要剔除其中的停用詞和虛詞等無實(shí)際意義的詞,經(jīng)過這樣的處理后用切分出的詞中只有數(shù)學(xué)術(shù)語和關(guān)鍵詞名詞等主要信息,最后用這些關(guān)鍵詞去查詢知識點(diǎn)網(wǎng)絡(luò)庫中,確定其中的知識點(diǎn)及級別,并賦予相應(yīng)的知識點(diǎn)權(quán)值[5]。如上面的例題中,提取出的關(guān)鍵詞為。
一般將提取出的關(guān)鍵詞用集合S={v1,v2,…,vn}來表示,用S中的元素vi(1?i?n)查詢知識點(diǎn)網(wǎng)絡(luò)庫,根據(jù)查詢匹配情況確定題目屬于哪一類知識點(diǎn)。
2 藏文試題知識點(diǎn)提取算法策略
2.1 知識點(diǎn)數(shù)據(jù)庫設(shè)計(jì)
根據(jù)以上對知識點(diǎn)庫的結(jié)構(gòu)分析,三個層級的知識點(diǎn)用三個相互關(guān)聯(lián)的數(shù)據(jù)表存儲,并各表之間創(chuàng)建合適的主外鍵關(guān)系,知識點(diǎn)庫E-R圖設(shè)計(jì)為如圖3所示。
2.2 知識點(diǎn)提取策略
根據(jù)知識點(diǎn)數(shù)據(jù)庫的結(jié)構(gòu),在算法設(shè)計(jì)中將知識點(diǎn)庫可以表示為三個集合;
集合S={K1,K2,K3}表示整個知識點(diǎn)網(wǎng)絡(luò)庫,則有:
其中知識點(diǎn)ki為kij的上一級知識點(diǎn),kij為kijz的上一級知識點(diǎn),這樣能保證各級知識點(diǎn)之間的從屬關(guān)系。
具體算法步驟如下:
Step 1:輸入藏文試題;進(jìn)行預(yù)處理,凈化等;
Step 2:對凈化后題目內(nèi)容進(jìn)行分詞,剔除停用詞和虛詞等無實(shí)際意義的詞,得到題目中的關(guān)鍵數(shù)學(xué)術(shù)語和名詞,用S={v1,v2,…,vn}表示;
Step 3:用S中的每個元素vi依次查詢表Ki(1?i?3),若vw在Ki中的知識點(diǎn)k匹配成功,則知識點(diǎn)k對于關(guān)鍵字vw的權(quán)值設(shè)為r=i,否則在下一級知識點(diǎn)表Ki+1中查詢匹配,并賦予相應(yīng)的權(quán)值r=i+1(r?3);
Step 4:對匹配成功的所有知識按其權(quán)值進(jìn)行排序,選擇其中權(quán)值最大的作為該題的知識點(diǎn)。
根據(jù)以上步驟確定試題的知識點(diǎn),算法中的權(quán)值代表的是知識點(diǎn)的層級,本文中知識點(diǎn)的層級最大有三級,層級越大,對應(yīng)的知識點(diǎn)越具體細(xì)致,所以選擇權(quán)值最大的知識點(diǎn)作為試題的知識點(diǎn)。
3 總結(jié)
本文主要探究了藏文試題的知識點(diǎn)確定方法,對藏文試題的呈現(xiàn)方式進(jìn)行了全面分析。由于試題的呈現(xiàn)方式各種各樣,以文、圖、數(shù)學(xué)符號和圖文混合等形式,本文討論的試題只限有文字描述或圖文并茂的試題,其主要知識點(diǎn)依賴于對文字描述部分的深入分析確定的,但組卷系統(tǒng)等試題管理系統(tǒng)中對試題知識點(diǎn)等屬性的設(shè)置方面要求較高[6],需要比較準(zhǔn)確的設(shè)置試題各屬性才可以保證整個系統(tǒng)的性能,所以在提取的準(zhǔn)確性和適用性方面都存在一定的優(yōu)化和提升空間。
參考文獻(xiàn)(References):
[1] 蓋洋僑.智能組卷系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].大連理工大學(xué),2016.
[2] 才項(xiàng)俄日,張有宜.藏語文試卷的智能生成研究與實(shí)現(xiàn)[J].電腦與信息,2015.6.
[3] 劉穎.計(jì)算語言學(xué)[M].清華大學(xué)出版社,2014.
[4] 劉懷蘭.基于改進(jìn)遺傳算法的智能組卷模型優(yōu)化[J].華中科技大學(xué)學(xué)報(bào),2013.5.
[5] 王淑佩.基于改進(jìn)自適應(yīng)遺傳算法的組卷研究[J].科學(xué)技術(shù)與工程,2012.2.
[6] 王慧敏.利用文本相似度改進(jìn)遺傳算法的組卷實(shí)現(xiàn)與研究[J].現(xiàn)代電子技術(shù),2016.5.