關(guān)潮輝,丁樹良
(江西師范大學(xué)計算機信息工程學(xué)院,江西南昌330022)
項目反應(yīng)理論(item response theory,IRT)是一種新興的心理與教育測驗理論,是在克服經(jīng)典測驗理論局限而產(chǎn)生和發(fā)展的[1].參數(shù)估計是IRT的重要組成部分,但是由于IRT自身的復(fù)雜性,致使其相關(guān)模型的參數(shù)估計相對困難[2].傳統(tǒng)的參數(shù)估計方法要求測驗的人數(shù)和題數(shù)都較大時才有較理想的分析結(jié)果.使用BP神經(jīng)網(wǎng)絡(luò)進行參數(shù)估計(BP降維法)[3-5]對考生人數(shù)、測驗題數(shù)的要求較寬松且估計的精度較高.但是目前在設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)時,網(wǎng)絡(luò)隱層數(shù)及隱層節(jié)點數(shù)的確定還缺乏足夠的理論指導(dǎo),這使得網(wǎng)絡(luò)結(jié)構(gòu)的確定帶有較大的主觀性和藝術(shù)性[6-7].本文主要對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以及降維法進行改進,并達到了較好的效果.
文獻[4-5]提出BP神經(jīng)網(wǎng)絡(luò)降維法,采用BP神經(jīng)網(wǎng)絡(luò)與降維技術(shù)相結(jié)合,利用IRT中常用的聯(lián)合似然估計思想進行參數(shù)估計[5],用于處理各種IRT模型的參數(shù)估計,具有普遍適用性.本文主要討論0-1評分的3參數(shù)邏輯斯蒂模型(3PLM):
其中D=1.702 為常數(shù),aj、bj、cj分別表示第i個題目的區(qū)分度、難度和猜測度,Pαj表示能力為θα的被試答對第 j題的概率[1].
在文獻[4-5]中BP神經(jīng)網(wǎng)絡(luò)使用Matlab神經(jīng)網(wǎng)絡(luò)工具箱來設(shè)計,采用4層神經(jīng)網(wǎng)絡(luò),每層的節(jié)點數(shù)依次為10,7,3,1個,前3層采用 S型激活函數(shù)‘tansig’,最后一層采用線性激活函數(shù)‘purelin’,訓(xùn)練函數(shù)、學(xué)習(xí)函數(shù)采用默認方式,訓(xùn)練次數(shù)為100次.
根據(jù)Monte Carlo模擬生成的得分矩陣XN×M=(xij)進行降維.其中以被試i的平均得分作為該被試能力(θ)參數(shù)估計的輸入;以題分對總分的相關(guān)系數(shù)作為題目參數(shù)區(qū)分度a的輸入,以下si為第i個被試的總分,s-為N個被試的平均分,則
在文獻[4-5]提出的BP降維法中,BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)(4層,節(jié)點數(shù)分別為10,7,3,1)值得商榷.文獻[8]指出,一個有3層單元的網(wǎng)絡(luò)可以任意精度逼近任意函數(shù).過多的層數(shù)不僅影響神經(jīng)網(wǎng)絡(luò)訓(xùn)練的速度,而且可能導(dǎo)致過擬合[9],從而影響其泛化能力.通過湊試法[10]發(fā)現(xiàn),采用新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即2層神經(jīng)網(wǎng)絡(luò),每層的節(jié)點數(shù)依次為3、1,前層采用“S”型激活函數(shù)‘tansig’,后層采用線性激活函數(shù)‘purelin’,訓(xùn)練函數(shù)采用‘trainbr’、學(xué)習(xí)函數(shù)采用默認方式,訓(xùn)練次數(shù)為100次.訓(xùn)練速度更快,且實驗結(jié)果更好.
對于降維方法,文獻[3]提出了不同的方法,在新的網(wǎng)絡(luò)結(jié)構(gòu)下,實驗效果沒有進一步穩(wěn)定的提高,故還是沿用文獻[4-5]的降維方法,但作必要的修正.當(dāng)某題目所有被試均作答錯誤時,題目的區(qū)分度a對應(yīng)的相關(guān)系數(shù)計算公式的分母為0.針對這一缺陷,本文提出修改,當(dāng)?shù)趈題沒人答對時,即得分陣XN×M的第 j列均為 0 時,有
由于題目的通過率越高,題目相應(yīng)的難度應(yīng)該越小,采用通過率作為題目難度的輸入從邏輯上看是不合理的.針對這一問題,以題目的未通過率=作為題目參數(shù)難度b的輸入.對于猜測度c,當(dāng)被試人數(shù)的尾數(shù)不為0時,l30不是整數(shù),比如被試人數(shù)為45時,l30=13.5,與事實不符,故應(yīng)該進行取整處理.
蒙特卡洛模擬隨機生成M個項目參數(shù)和N個被試能力參數(shù),其中l(wèi)na~N(1,0.4)(且0<a≤2),θ,b~N(0,1.5)(且 -3≤θ,b≤3),c~β(3,30)(且0< c≤0.25).由(1)式計算Pαj,產(chǎn)生得分陣 XN×M=(xij)(rij~U(0,1),rij≤Pαj,xij=1,否則xij=0)[4-5]. 重復(fù)生成RN×M=(rij),產(chǎn)生30 個得分陣.采用上述的降維法以及修正后的降維法對得分陣進行降維,得出一行N列的向量(能力參數(shù))或M行一列的向量(項目參數(shù))作為30個神經(jīng)網(wǎng)絡(luò)的輸入,以對應(yīng)的能力參數(shù)或項目參數(shù)真值作為對應(yīng)的輸出,分別使用文獻[4-5]的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練神經(jīng)網(wǎng)絡(luò).
模擬生成N1個被試能力參數(shù),結(jié)合上述已經(jīng)生成的M組項目參數(shù),生成得分陣XN1×M,作為進行被試能力值的參數(shù)估計的測試樣本.降維后生成輸入向量,在原來訓(xùn)練好的30個網(wǎng)絡(luò)上測試,以N1個被試能力為網(wǎng)絡(luò)目標(biāo)值,每次網(wǎng)絡(luò)輸出進行相加,循環(huán).模擬生成M1組項目參數(shù),結(jié)合上述已經(jīng)生成的N個被試的能力參數(shù),模擬生成得分陣XNXM,通過上述方法,同樣可以完成項目參數(shù)估計.
使用估計值對真值的修復(fù)好壞的2個指標(biāo)Abs和Rmasd作為評價估計好壞的標(biāo)準[4-5]:
其中k,r表示待估參數(shù)個數(shù)和訓(xùn)練網(wǎng)絡(luò)數(shù),x∧ij表示參數(shù)的估算值,xij表示參數(shù)的真值.為了說明新的方法的時間效率有所提高,引入相對時間的概念:以新方法完成所有參數(shù)估計時程序的總耗時為一個單位時間,即T1=1,文獻[4-5]的方法有T2=toldtnew,其中told表示文獻[4-5]方法完成所有參數(shù)估計時程序的總耗時,tnew表示新方法的總耗時.
令題數(shù)M=200,人數(shù)N=150,測試題數(shù)M1=50,測試人數(shù)N1=50,分別使用文獻[4-5]的BP降維法和改進后的BP降維法進行試驗,得到結(jié)果如表1所示.
表1 2種BP降維方法得到的各參數(shù)評價指標(biāo)的比較
從表1可以看出,當(dāng)訓(xùn)練人數(shù)N為150,訓(xùn)練題數(shù)M為200,施測題數(shù)或施測人數(shù)為50時,新法得到的各個參數(shù)的指標(biāo)均優(yōu)于文獻[4-5].其中,能力參數(shù)θ的Abs和 Rmsd,新法明顯優(yōu)于文獻[4-5].文獻[4-5]的相對時間值為1.37,這相當(dāng)于新法的程序運行的時間效率提高了近40%.
在研究過程中,發(fā)現(xiàn)存在以下問題值得進一步討論:(i)當(dāng)M≤8且N≤8,而M1或N1保持不變時,新方法的實驗結(jié)果有時會比原來的方法差.事實上,當(dāng)訓(xùn)練樣本特別小的時候,是否還考慮使用降維法[4-5],值得商榷.(ii)BP網(wǎng)絡(luò)是目前使用最為廣泛的神經(jīng)網(wǎng)絡(luò)之一,盡管如此,它仍存在網(wǎng)絡(luò)易陷入局部極小、收斂速度慢、網(wǎng)絡(luò)泛化能力差等不足[6],如何結(jié)合神經(jīng)網(wǎng)絡(luò)集成法[7,11],對其進行改進并應(yīng)用于基于IRT的參數(shù)估計,值得研究.(iii)本文主要討論的是BP神經(jīng)網(wǎng)絡(luò),如果采用其他神經(jīng)網(wǎng)絡(luò)效果會如何?特別是BP神經(jīng)網(wǎng)絡(luò)是有監(jiān)督的神經(jīng)網(wǎng)絡(luò)[10],這大大限制了此類方法的實際應(yīng)用.(iv)本文只討論了基于簡單IRT模型的參數(shù)估計,即0-1評分,單維的3PLM,如果采用多級評分或多維的IRT模型,該如何進行試驗,值得討論.
[1]漆書青,戴海琦,丁樹良.現(xiàn)代教育與心理測量學(xué)原理[M].北京:高等教育出版社,2002:80-96,97-142.
[2] Baker F B.Item response theory:parameter estimation techniques[M].2nd.New York:Marcel Dekker,Inc,2004:23-58,157-200.
[3]劉文,邊玉芳,陳玲麗,等.BP神經(jīng)網(wǎng)絡(luò)估計IRT參數(shù)的比較研究[J].中國考試,2013(2):7-11.
[4]譚云蘭,丁樹良,辛銳銘,等.基于IRT模型參數(shù)的BP神經(jīng)網(wǎng)絡(luò)估計[J].計算機工程與應(yīng)用,2004,40(17):56-57,108.
[5]譚云蘭,丁樹良,辛銳銘.基于IRT模型的BP神經(jīng)網(wǎng)絡(luò)降維法參數(shù)估計及其應(yīng)用[J].江西師范大學(xué)學(xué)報:自然科學(xué)版,2004,28(6):485-488.
[6]范佳妮,王振雷,錢鋒.BP人工神經(jīng)網(wǎng)絡(luò)隱層結(jié)構(gòu)設(shè)計的研究進展[J].控制工程,2005,12(S1):105-109.
[7]余嘉元.基于神經(jīng)網(wǎng)絡(luò)集成的IRT參數(shù)估計[J].江南大學(xué)學(xué)報:自然科學(xué)版,2009,8(5):505-508.
[8]Tom M M.機器學(xué)習(xí)[M].曾華軍,譯.北京:機械工業(yè)出版社,2003:76-82.
[9]飛思科技產(chǎn)品研發(fā)中心.神經(jīng)網(wǎng)絡(luò)理論與MATLAB7實現(xiàn)[M].北京:機械工業(yè)出版社,2005:68-69,107-113.
[10] Hüsken M,Jin Y,Sendhoff B.Structure optimization of neural networks for evolutionary design optimization[J].Soft Computing-A Fusion of Foundations,Methodologies andApplications,2005,9(1):21-28.
[11]周志華,陳世福.神經(jīng)網(wǎng)絡(luò)集成[J].計算機學(xué)報,2002,25(1):1-8.