国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

在線氣象科普知識競賽試題的自動組卷方法

2021-06-03 06:39:24彭云建歐善國
計算機技術與發(fā)展 2021年5期
關鍵詞:特征詞科普知識題庫

彭云建,歐善國,梁 進

(1.華南理工大學 自動化科學與工程學院,廣東 廣州 510640;2.廣州市氣象學會,廣東 廣州 511430)

0 引 言

近年來,在線考試系統(tǒng)已經得到了廣泛的研究和推廣,不僅應用于自學考試、在線練習、遠程教學和職業(yè)培訓等專業(yè)教育領域,而且在專業(yè)輔導、氣象科普和社會調查等知識互動領域也逐步得到應用。其中,氣象科普組織在線知識競賽或搶答活動,能夠很好地提高科普活動的趣味性和效率??破罩R競賽涉及的知識面較廣,涵蓋很多學科交叉的知識點,采用的試題具有碎片化特點[1],因此,建立智能的在線考試系統(tǒng)及試題庫管理系統(tǒng)才能滿足氣象科普工作的長期需要,對科普知識競賽實現(xiàn)規(guī)范化、科學化、系統(tǒng)化的管理與實施。

通過氣象專家或氣象工作者提供試題,基于網絡化的信息服務系統(tǒng)組建氣象科普知識題庫,采用計算機自動或者輔助人工組卷和題庫分析,可以避免非專業(yè)的人工干預,保證氣象知識競賽的試題質量。由于試卷的嚴肅性、指標要求的綜合性(在內容、深度、難度、題型、時間、分數等方面必須滿足科普知識競賽要求)、規(guī)格多樣性,在系統(tǒng)實現(xiàn)上要求題型分析與組卷的智能方法具有良好的適應性,在抽題過程中要做到隨機、無法預知、不重復、優(yōu)化數據存取和快速組卷等目標需要有完整可行的技術方案[2]。

根據相關文獻,一般性的考試系統(tǒng)組卷方法包括:(1)隨機抽取算法,主要采取兩種隨機策略,一是蒙特卡羅隨機抽樣,選擇試題并匹配試卷的基本條件,通過反復抽題的迭代過程實現(xiàn)組卷;另一種根據指定的試題指標(如題型、知識點、分值等),隨機從題庫中尋找試題,指標符合則選入試卷,否則放棄,循環(huán)抽題直至組卷完畢或者遍歷完題庫[3]。該方法實現(xiàn)簡單,抽題速度較快,應用廣泛,但自動組卷的效率和成功率較低,沒有優(yōu)化試卷質量的能力。當題庫中各題型的平均出題量較低時,組卷往往以失敗而告終;(2)回溯試探法,改進了隨機抽取算法,在搜索問題解的過程中采用了深度優(yōu)先的方式。隨機抽取試題并記錄每一個試題組合類型,當搜索失敗時釋放前一次所記錄的試題組合類型,再重新進行試探,直到完成組卷或返回到抽題起點[4]。該算法適用于題庫規(guī)模較小的情況,但對于題庫規(guī)模較大時,算法收斂性較差;(3)遺傳算法[5],將選擇試題的過程作為基因組的進化變異和尋優(yōu)處理,最后可以收斂到一個最適應約束條件的試題集上,產生最優(yōu)組卷結果[6]。該算法適用范圍廣,容錯性強,但容易陷入局部最優(yōu)解,即出現(xiàn)“早熟”現(xiàn)象。

針對現(xiàn)有自動組卷方法的不足,該文把自動組卷分為兩步工作實現(xiàn):一面向多目標優(yōu)化的題庫分析,采用層析分析法[7]建立以權重矩陣表示的試題關聯(lián)性模型;其次,基于多指標權重模型,采用文本分類方法來處理組卷中試題相關性,用支持向量機(support vector machine,SVM)完成分析題庫和智能優(yōu)化自動組卷。支持向量機[8]是一種監(jiān)督學習模式下廣義線性分類器,其應用涵蓋了文本識別、人體部位、車輛交通、醫(yī)療檢測及其他領域。現(xiàn)階段基于SVM的文本分類[9]主要有以下3種:(1)改進混合核函數分類方法,使混合核函數具有較強的學習能力和泛化能力,提高了文本分類效果;(2)基于增量學習的SVM分類方法[10],引入邊界支持向量來改進算法,提高了訓練速度和精度;(3)特征選擇分類模型[11],采用能彌補傳統(tǒng)方法局限性的新類內信息優(yōu)化卡方統(tǒng)計特征選擇方法,對特征選取性能有進一步改善。該文根據試題組卷操作,改進了SVM方法,實現(xiàn)了氣象科普知識競賽組卷的智能優(yōu)化,應用于氣象科普知識競賽系統(tǒng)的開發(fā),取得了很好的效果。

1 在線知識競賽流程及其組卷優(yōu)化問題

氣象科普知識競賽是由科普工作者來組織和實施,而競賽內容往往需要氣象專家來提供,如何舉辦好此類知識競賽,除了采用在線考試系統(tǒng)之外,關鍵是有豐富、科學和趣味性強的氣象科普試題,而且針對不同的科普對象,譬如青少年或從事某一職業(yè)的成年人群體,需要因人出題,才能獲得科普知識競賽的效果。因此,對于長期舉辦氣象科普活動的單位,需要建設在線科普競賽系統(tǒng)和完整豐富的試題庫,每次科普活動抽選題目組成競賽試卷,發(fā)布競賽活動和考試頁面,參與者在線提交答卷到考試系統(tǒng),系統(tǒng)自動判分或人工判分后,工作人員在后臺可以看到分數統(tǒng)計結果,利用考試系統(tǒng)競賽試題分析模塊對答題情況分析評估,確定試題的難度和答題時間合適度,保存到題庫,整個過程如圖1所示。

圖1 在線知識競賽基本流程示意圖

在線科普知識競賽流程中,設計好競賽試卷和對考試結果進行合理評價是整個系統(tǒng)中的關鍵問題。首先,如何保證生成的試卷能最大程度地滿足不同主題的科普活動需要,并具有隨機性、科學性、合理性,是實現(xiàn)自動組卷的難點問題。其次,對競賽結果的答題情況進行科學分析,評價試題對參與人員的難度和題型的合適度,不僅可以增加考試的客觀性和公正性,還可以將分析結果關聯(lián)到試題,對試題難度做出更科學的評價。因此,研發(fā)一套具有自動組卷、自動閱卷、題庫分析功能的在線競賽系統(tǒng),需要根據氣象科普知識競賽的考卷特點和要求,應用組卷經驗知識和規(guī)則,設計出相應的試題智能歸類模式,按試題歸類模式選取試題組成試卷。為此,如何表示試題組卷的約束和規(guī)范以及試題的匹配模式,尋找優(yōu)化的自動組卷方法從而得到高質量的試卷,是非常重要的問題。自動組卷優(yōu)化問題具有文本數據的不精確性、模糊性、解的多樣性、多類特征性等特點,需要滿足如下條件:

(1)可以隨機產生多目標、內容與題序不同的試題分組;

(2)可以按學科、科目、知識點、題型等確定試題組織模式,各類試題可以根據考點重點改變分數所占比例;

(3)可以按照知識競賽的主題、考試對象或考試時間的不同,優(yōu)化試題的覆蓋面,保證檢測的知識點合理且具有代表性;

(4)可以通過氣象知識競賽的不同目的和不同類型來確定題類和題型比例。

根據自動組卷的功能特點,基于知識競賽的目標和被選試題的屬性調整試卷的總體指標,通過迭代尋優(yōu)方法實現(xiàn)組卷的優(yōu)化目標。

2 自動組卷智能優(yōu)化模型

氣象科普知識競賽的考試內容具有學科交叉性的特點,涉及到氣象學基礎理論、氣象技術、氣候現(xiàn)象、云知識、氣象諺語、氣象應用和學科綜合等,建立氣象知識試題庫,根據不同學科收集試題,表征試題的基本特征,組卷時則可以根據試題特征和試卷要求進行組合分析。而試卷整體包括題量、分數、平均難度程度、基礎題型比例、知識點的交叉與綜合、單題分數等。因此,通過題庫分析建立試題的特征模型,其次建立試題分類模型,從而實現(xiàn)智能組卷優(yōu)化方法。

2.1 試卷權重矩陣和試題增益特征向量

如果用五個變量(題量、難度、知識點類型、主題內容相關性、答題所需時長)表示試卷的主要特征,則可以定義出試卷的參數結構,如表1所示。

表1 試卷中試題的評價參數結構

由于試題類型可分為選擇題、填空題、判斷題、簡答題和綜合(計算)題,因此可以對不同題型的試題按照題量、難度、知識點類型、主題內容相關性、答題時長五個方面確定評估值,其中,題量、難度、學科分類與答題時間是數值或模糊量,即:a1i=bi,a2∈{容易,一般,較難,很難},a3∈{基礎科學,專業(yè)知識,氣象技術,科普應用},a5∈R+。

試題難度和答題時間在系統(tǒng)初始化時可以采用專家預估值,在線競賽系統(tǒng)使用后可以對考生的答卷進行統(tǒng)計分析,提高對試題難度和答題所需時間的評估值進行修正。

(1)

在權重和評價值的各類約束下,自動組卷的優(yōu)化目標函數是:

(2)

通過對每道題的優(yōu)化選擇實現(xiàn)試卷整體的優(yōu)化,這是一類典型的多目標優(yōu)化問題。其中,試題分析可以采用每次知識競賽答卷中各題的正誤率和平均答題時間來評估試題難度a2i和答題需要時間a5i。主題相關性a4i是組卷時考慮考試內容與科普活動主題相關性的主要因素,在式(1)中占有比較大的權重,也是試題內容歸類的重要依據。因此,該文從文本分類角度,實現(xiàn)試題歸類,需要分析試題文本,提取特征詞非常重要。

試題文本一般較短,可以提取出2~6個關鍵詞作為特征值。該文采用一種特征詞增量模型實現(xiàn)特征詞的擴容,保證試題匹配模式的完整性。首先,分析試題文本并提取特征詞,記E(E1,E2,…,Eu)為特征向量,通常u的取值不大于4;其次,“春耕”、“夏種”、“秋收”、“冬藏”等詞語描述了農事信息,可能會連帶務農節(jié)氣和氣候問題,將其可以看作是新增加的特征詞,記為Eu+1,當u=5,6,…,m,得到增益特征向量E(E1,E2,…,Em)。當u≥5時,增強了特征向量的代表性。

2.2 試題文本預處理方法

預處理試題文本的過程分為三個步驟:(1)從數據庫讀取試題圖文內容,如果包含圖片,則從圖片中提取文字;(2)文本過濾,將停用詞、介詞和連接詞等過濾,清除與試題內容匹配無關的字詞;(3)利用分詞工具對試題的純文本進行分詞處理,提取主題詞或專業(yè)詞。

該文設計的系統(tǒng)主要采用最基礎和自然的模式,即分詞工具精確模式,在最大程度上對試題的字句進行精確地劃分,適合試題文本分析。

2.3 試題文本TF-IDF特征提取法

針對試題的主題詞,需要采用TF-IDF特征提取法建模[13]。對于特征詞w,其特征提取函數為:

f(w)=TF(w)×IDF(w)×log[N/n(w)+1]

(3)

其中,TF表示特征詞(或主題詞)的頻率,IDF是反文檔頻率,它能使在大量文本中都含有特征詞的重要程度得到減弱,也能在只有少量文本包中含特征詞的重要程度得到增強。因此,通常TF與IDF配合使用。常用的IDF計算公式為:

IDF(w)=log[N/n(w)+1]

(4)

其中,N和n(w)分別表示文本總數和含有w的文本數。各個主題詞在組卷的試題集中的TF-IDF權重值可由式(3)得出,組卷篩選條件可以預先確定以便用來選取經過TF-IDF特征提取法降序排序后的前n個特征詞,進而對試題文本特征空間進行降維。

2.4 支持向量機(SVM)的試題分類器

試題文本分類方法可以確定試題文本的若干個特征詞[14]。采用SVM方法將尋找一個使樣本之間的間隔達到最大的最優(yōu)超平面,能有效加強分類器對于未知待分類文本數據的泛化能力[15]。對于構建支持向量機分類器,該文主要以二維線性可分文本數據為例進行探討,如圖2所示。

圖2 支持向量機(SVM)試題分類器的模型分析

假設m個線性可分的帶有特征值的試題樣本{(X1,d1),(X2,d2),…,(Xm,dm)},dm∈{-1,1},對于某一輸入樣本Xk,期望輸出其分類結果dk,則定義超平面方程為:

WTX+b=0

(5)

其中,W為權值向量,X為輸入,b為偏置誤差。任一訓練的試題樣本滿足:

dk(WTXkX+b)≥1

(6)

當取等號時,則樣本點分布在超平面附近,稱為支持向量。樣本空間內任一點X到最優(yōu)超平面的距離可定義為:

(7)

由式(7),支持向量到超平面的代數距離為:

(8)

可知,需要‖W‖最小。此時優(yōu)化問題可以轉換為在式(6)約束下,求

(9)

引入Lagrange函數,設樣本數據偏離超平面的距離因子為αk,則有:

(10)

根據拉格朗日極大值原理,最優(yōu)超平面對應Lagrange函數的最小值,則對W和b分別求偏導得到極小值條件為:

(11)

根據式(10)和式(11)可得對應W和b的極值為:

(12)

則有:

確定α最優(yōu)值后,根據式(5)和式(11)可得出W和b,則最優(yōu)分類判別函數為:

f(Xk)=sgn(WTXk+b)=

(14)

對于大多數線性不可分的試題樣本,可采用合適的映射函數將其映射到足夠高維數的特征向量空間,從而非線性可分模式則在特征空間中可轉換為線性可分模式。

3 基于SVM試題分類的組卷算法和流程

結合SVM文本分類器,自動組卷處理流程如圖3所示。經過預處理的試題文本存在詞語對分類貢獻不明確的問題,不能被計算機所識別,因此,除了提取文本特征要選擇的方法適當外,還要對特征詞的影響進行強化,以及對非特征詞的干擾進行減弱。通過TF與IDF的計算,特征詞關于試題分類的貢獻能通過TF-IDF文本特征提取算法有效標志出來。在訓練試題分類器前,將試題文本的訓練集和測試集按7∶3比例隨機分配,SVM分類器經過訓練集訓練后,輸入測試集可驗證試題分類器性能。

圖3 自動組卷的處理流程

采用SVM試題分類器進行組卷操作時還需要選擇一個合適的核函數[16],主要從四種內積核函數中選擇:

(1)線性核函數。

H(Xk,X)=XkX

(15)

(2)多項式核函數。

H(Xk,X)=[(XXk)+1]k

(16)

(3)徑向基核函數(RBF)。

H(Xk,X)=e-γ‖X-Xk‖2

(17)

其中,γ為徑向基核函數的參數。

(4)Sigmoid核函數。

H(Xk,X)=tanh[u(XXk)-r]

(18)

其中,u,r為Sigmoid的參數。

四種核函數應用在不同場景,其表現(xiàn)也會有差異。當特征詞數遠超過樣本數時,一般采用線性核函數即可滿足分類要求。

該文采用混淆矩陣檢驗方法,用來檢驗試題分類模型的靈敏度和準確率,分析被錯誤分類的情況。

對自動組卷的檢驗,主要分析分類器的準確度和處理不同試題樣本的分類算法收斂性。對于準確度的檢驗,準確率記為Ar,指在抽取分類樣本中,分類正確的樣本個數與樣本總數之比,即混淆矩陣的跡與樣本總數的比值:

(19)

在試題庫不變時,對于被抽取的多組試題樣本,抽樣和分類器將其分類多次,每分類一次產生一個隨機的準確率。從試題庫中抽取使用的試題訓練樣本數量大,分類器會有較高準確度,在100次實驗后,準確度達到98.5%左右。

對于算法的收斂性和穩(wěn)定性,相對于總分類的試題樣本,誤分類的數量越少,表明分類算法越穩(wěn)定,為此,主要采用誤分度Er刻畫算法的穩(wěn)定性,即:

(20)

其中,PCi為第i個試題分類所處理的樣本個數。對于誤分度,在(tij,i≠j)=0時:

(21)

在極少誤分情況時,誤分度和分類樣本數的倒數相近似,如果有大量預測樣本,選取的試題文本特征向量較為合理,則誤分度和實際情形相符合地趨近于0。

綜上所述,該文采用準確性與穩(wěn)定性的共同檢驗為1-0檢驗方法,在滿足檢驗條件時,分類結果理想,此類方法在考慮試卷分類和自動組卷成功率時,也兼顧了多類型試題的適用性。

4 智能組卷算法的實現(xiàn)與應用

通過題庫管理系統(tǒng)收集氣象科普知識試題5 200多個,包含氣象知識、氣象人文、農事節(jié)氣、廣東氣候、云知識等主題內容。選擇各類試題40%左右,提取文本用于分類器的訓練,然后采用該分類器進行分類檢驗。將評價分類器的性能指標選為精確度(Precision)、召回率(Recall)以及F1值(F1-score)。檢驗結果如表2所示,結果表明,SVM均具有良好的指標表現(xiàn),有更好的試題分類結果。

此外,在相同的訓練試題集下,從題庫中分別抽取600、1 200、2 100道進行實驗的試題。隨著逐步增加試題量,分類器的誤分度在稍微大于樣本數倒數的收斂值周圍波動,和樣本數倒數相趨近。因此,該文選擇的SVM方法在大規(guī)模題庫場景下性能較優(yōu)。

基于支持向量機的組卷算法實現(xiàn)中,目前核函數選擇的主要依據是文獻提供的經驗和實驗結果對比。該文通過對比實驗可知,線性核函數分類準確率能達到98%以上,而其他核函數只有45%左右,因此選擇線性核函數。

該分類方法應用在廣州市氣象局的氣象科普知識競賽系統(tǒng)中,該系統(tǒng)運行4年多,累計有3萬多學生參加在線知識競賽,規(guī)模和影響力大,成為廣州校園氣象科普第一品牌活動,也是全國唯一持續(xù)舉辦線上氣象知識競賽活動的平臺。在系統(tǒng)技術創(chuàng)新上采用了高度集成的在線考試智能管理系統(tǒng),可以低成本、便捷地開展活動,社會效益顯著,該氣象知識競賽平臺對覆蓋廣州市、輻射全國具有示范引領作用。

表2 不同分類器對試題分類的試驗結果

5 結束語

探討了在線氣象科普知識競賽系統(tǒng)中題庫分析和自動組卷關鍵問題,提出了試卷評價的層次分析模型和SVM試題分類與自動組卷方法。該分類器通過試題的特征詞提取實現(xiàn)了分類模型的合理性,在實際系統(tǒng)中進行了檢驗,結果表明該分類方法對試題組卷具有較高的準確性和穩(wěn)定性,在技術上也是易于實現(xiàn)的一類方法,可以應用于實際的在線競賽系統(tǒng)。后續(xù)工作中將采用文本分類方法研究主觀題的智能判分問題。

猜你喜歡
特征詞科普知識題庫
“勾股定理”優(yōu)題庫
“軸對稱”優(yōu)題庫
“軸對稱”優(yōu)題庫
“整式的乘法與因式分解”優(yōu)題庫
基于改進TFIDF算法的郵件分類技術
產品評論文本中特征詞提取及其關聯(lián)模型構建與應用
科普知識
科普知識
面向文本分類的特征詞選取方法研究與改進
科普知識
阿勒泰市| 安龙县| 呼和浩特市| 府谷县| 盐亭县| 玉溪市| 宜川县| 云阳县| 淮阳县| 郴州市| 阳西县| 汾西县| 错那县| 松溪县| 漾濞| 天长市| 凤翔县| 额尔古纳市| 安阳县| 金川县| 巴中市| 临沧市| 尼木县| 黎平县| 三穗县| 双城市| 青浦区| 泸水县| 宁波市| 木里| 彭山县| 含山县| 保山市| 尤溪县| 临高县| 将乐县| 略阳县| 天气| 淄博市| 醴陵市| 三台县|