黎光明 張敏強(qiáng)
由于測驗等值涉及一些復(fù)雜的統(tǒng)計計算,給人們進(jìn)行等值操作帶來了較大困難,阻礙了當(dāng)前國內(nèi)等值技術(shù)的發(fā)展。造成這種窘境,皆因等值操作困難化。如何使用方便的等值軟件進(jìn)行思路清晰的流程化等值操作,是解決這一問題的關(guān)鍵所在。
在教育與心理測量實踐中,經(jīng)常遇到一個測驗需要配備多個測驗形式的情況,特別是那些測驗內(nèi)容容易受記憶和針對性訓(xùn)練影響的測驗,在測驗前需要嚴(yán)格保密,測驗后不能再用,必須配備多個不同形式供不同次施測使用。然而,各個不同形式的測驗測出的結(jié)果可能會有所不同。為了保證測驗的公平性和可比性,需要把不同測驗形式的分?jǐn)?shù)都轉(zhuǎn)換到同一個分?jǐn)?shù)系統(tǒng)上。測量學(xué)上把為達(dá)到這一目的而發(fā)展起來的一套專門技術(shù)稱為測驗等值(Test Equating)[1]。測驗等值是教育與心理測量中的一個重要研究領(lǐng)域。在我國考試實踐中有許多大規(guī)模的考試需要進(jìn)行測驗等值[2]。進(jìn)行測驗等值不是無條件的分?jǐn)?shù)轉(zhuǎn)換,需要滿足同質(zhì)性、等信度性、公平性、不變性等條件[3]。
基于不同的測量學(xué)理論框架,測驗等值可分為經(jīng)典測驗理論(Classical Test Theory,CTT)測驗等值與項目反應(yīng)理論(Item Response Theory,IRT)測驗等值兩種[4]。
經(jīng)典測驗理論的測驗等值方法存在不少困難與局限:首先,它們確定的轉(zhuǎn)換關(guān)系依賴于樣本,會隨被試樣組的不同而變化,等值條件的唯一性(不變性)要求不能滿足,無論哪種方法,都難以確保求出的轉(zhuǎn)換關(guān)系是對稱的、公平的。其次,經(jīng)典測驗等值方法應(yīng)用重點又都在被試觀察分?jǐn)?shù)等值上,很難妥善解決難度、區(qū)分度這類項目參數(shù)等值的問題。最后,更重要的是,即使在線性等值的情況下,經(jīng)典等值理論所認(rèn)定的應(yīng)予等值的測驗分?jǐn)?shù)間的線性轉(zhuǎn)換關(guān)系,也是假設(shè)能夠存在的,而不是必然能夠具有的[3]。
項目反應(yīng)理論卻根本不同,在所選反應(yīng)模型與實測資料適合良好的情況下,按項目反應(yīng)理論方法所確定的被試特質(zhì)與項目參數(shù)間的轉(zhuǎn)換關(guān)系,就是必然應(yīng)該具有的,這是因為特質(zhì)與項目參數(shù)本應(yīng)具有不變性。也正由于轉(zhuǎn)換關(guān)系是來自模型的理論性質(zhì)本身,所以,能夠保證全面地較好滿足唯一性、公平性、對稱性等要求。另外,由于項目反應(yīng)理論能同時估出特質(zhì)與項目參數(shù),特別是,項目難度又是直接定義在特質(zhì)參數(shù)量綱上,因而,就能同時解決特質(zhì)水平與項目參數(shù)的等值問題[5]。所以,項目反應(yīng)理論等值不僅在理論上具有優(yōu)良的性質(zhì),而且在實用上具有極強(qiáng)的功能。項目參數(shù)等值問題的解決為大型題庫的建設(shè)提供了有力的技術(shù)保證[6]。
在參考國內(nèi)外關(guān)于測驗等值的相關(guān)文獻(xiàn)[7][8][9]的基礎(chǔ)上,構(gòu)建出IRT測驗等值的流程化操作思路,如圖1所示。從圖1可以看出,進(jìn)行IRT測驗等值,需要進(jìn)行等值設(shè)計、數(shù)據(jù)收集、參數(shù)估計、量表化及測驗等值5個步驟。
根據(jù)等值中介因素的不同,可以將測驗等值設(shè)計主要分成以下三種形式:
(1)單組設(shè)計。單組設(shè)計是指把應(yīng)予等值的兩個或多個測驗同時向同一被試組施測,然后借助于同一被試組把應(yīng)予等值的測驗聯(lián)系起來的等值設(shè)計。運用單組設(shè)計比較兩組測驗分?jǐn)?shù)的差異主要歸因于兩個測驗的難度的不同。運用單組設(shè)計進(jìn)行等值的優(yōu)點是等值簡單且無抽樣誤差,缺點是存在練習(xí)效應(yīng)、疲勞及厭倦等因素的影響,會給等值結(jié)果帶來偏差不明顯的誤差。
(2)等組設(shè)計。等組設(shè)計是指從同一總體中隨機(jī)抽取兩組考生,這兩組考生被認(rèn)為在能力分布上是相同的或很接近,讓這兩組考生分別接受兩份不同測驗X和Y,然后把所得測驗分?jǐn)?shù)加以等值的設(shè)計。這種設(shè)計方案可克服練習(xí)效應(yīng)和疲勞等因素的不利影響,但由于兩組考生的能力分布可能不一樣,從而給等值帶來偏差。
圖1 心理與教育測量IRT測驗等值的流程化操作及相應(yīng)軟件
(3)錨測驗設(shè)計。錨測驗設(shè)計是指把應(yīng)予等值的測驗分別向不同的考生組施測,并將“錨測驗”作為等值的測驗的“橋梁”所進(jìn)行等值的設(shè)計。這種設(shè)計不要求兩個被試樣組的能力分布完全一樣,也不會給考生帶來太大的練習(xí)效應(yīng)和疲勞因素,因此它兼有第一和第二兩種設(shè)計方案的長處,又克服了其短處。因此,在等值設(shè)計中,錨測驗設(shè)計是常被采用的一種[10]。
當(dāng)選定了相應(yīng)的等值設(shè)計之后,一個重要的問題就是如何能準(zhǔn)確有效地收集數(shù)據(jù),以客觀而全面地反映所要研究的心理行為問題的真實狀況。數(shù)據(jù)收集需要注意二個方面:一是所收集的數(shù)據(jù)需要滿足等值設(shè)計的要求;二是數(shù)據(jù)必須有代表性,樣本容量不能過小。
多種等值數(shù)據(jù)資料的收集方法可以分為二大類,一類是采用以“人”為媒介的共同組設(shè)計,即讓一組人接受不同的測驗版本;另一類是以“題目”為媒介的“錨測驗”設(shè)計,即在不同測驗版本中含有共同的題目。共同組設(shè)計(common-subject equating design)中包括單組設(shè)計(single-group design)、平衡隨機(jī)組設(shè)計(counterbalanced random-group design)和等組設(shè)計(equivalent-group design)等幾種不同的設(shè)計。共同題等值設(shè)計(common-item equating design)包括錨測驗隨機(jī)組設(shè)計(anchor-test-random-group design)、錨測驗非等組設(shè)計(anchortest-nonequivalent-group design)、部分預(yù)先等值設(shè)計(section pre-equating design)、題目預(yù)先等值設(shè)計(item pre-equating design)等幾種不同的設(shè)計[7]。
心理測量的目的往往是定量地表示人員的某處心理特質(zhì)。比較直觀的方法就是根據(jù)被試答對項目的數(shù)目來進(jìn)行這種定量描述。項目反應(yīng)理論把被試潛在特質(zhì)和項目參數(shù)放在同一個數(shù)學(xué)表達(dá)式中加以考慮。這種表達(dá)式就是項目反應(yīng)模型,有時也稱為項目反應(yīng)函數(shù)。測量工作者的任務(wù)就是要把項目反應(yīng)模型中的各種參數(shù)(包括人員的潛在特質(zhì)參數(shù)和項目參數(shù))估計出來,估計這些參數(shù)受到諸多方面因素的影響,如題量及被試量等[11]。
在實際的測驗工作中,我們所能得到的只是被試對測驗項目答對或答錯的一組反應(yīng)數(shù)據(jù),并沒有任何一個項目參數(shù)的真實值。因此,必須根據(jù)觀察分?jǐn)?shù)來對項目參數(shù)進(jìn)行估計。項目參數(shù)估計的過程是項目反應(yīng)理論中最困難、最重要的過程。由于它的高度復(fù)雜性,使得只有運用專門的計算機(jī)軟件才能很好地完成這一任務(wù)。
量表化是將兩個或多個考試放到一個統(tǒng)一量表上的過程。現(xiàn)代標(biāo)準(zhǔn)化測驗誕生的一個標(biāo)志性測驗是法國心理學(xué)家比內(nèi)(Binet)1905年出版的《比內(nèi)智力測驗》。在這個測驗中,實際上已經(jīng)包含了“量表化”的過程。這個測驗適用于不同年齡的兒童,對不同年齡的兒童施測的題目不同,所報告的是具有可比性的智力分?jǐn)?shù)。在這個測驗中,已經(jīng)包含了對不同“試卷”的量表化連接。在這一新的關(guān)于量表化的框架體系內(nèi),量表化過程被劃分為“構(gòu)念(construct)相同”與“構(gòu)念不同”兩種情況。
相當(dāng)長的時間中,教育測量學(xué)家將等值分為橫向等值(horizontal equating)和縱向等值(vertical equating)。在考試的平行版本之間建立聯(lián)系的過程,被稱為橫向等值。有的時候,測驗被用來建立發(fā)展量表,一組水平不同的測驗被用來描述考生的發(fā)展水平。在這些不同水平的測驗之間建立聯(lián)系的過程被稱為縱向等值。顯然,這些被用于建立發(fā)展量表的測驗并不是相同水平的,將之稱為“等值”是不妥的[7]。將測驗之間的這類連接稱為“量表化”,似乎更為合理些。
測驗等值是教育與心理測量中的一個重要問題,同時又是測量實踐中的一個重要技術(shù)問題。從本質(zhì)上說,測驗等值是通過對考核同一種心理品質(zhì)的多個測驗形式作出測量單位系統(tǒng)的轉(zhuǎn)換,使所有測驗形式的測驗分?jǐn)?shù)轉(zhuǎn)化到一個作為基準(zhǔn)的度量系統(tǒng)上,進(jìn)而使得這些不同測驗形式的測驗分?jǐn)?shù)之間具備了可比性。等值是對同一個考試的不同版本的分?jǐn)?shù)進(jìn)行連接的過程,是在構(gòu)念相同、難度相同、信度相同和考生目標(biāo)總體相同的情況下的分?jǐn)?shù)連接。與預(yù)測和量表化相比,等值的條件最嚴(yán)格,是兩個測驗分?jǐn)?shù)之間最緊密的連接方式[7]。對考試分?jǐn)?shù)進(jìn)行等值處理不僅是保證測驗信度和公平性的重要環(huán)節(jié),也是建立題庫和實現(xiàn)計算機(jī)化自適應(yīng)性考試的核心環(huán)節(jié)。測驗等值是否可靠,可以通過考察產(chǎn)生的等值誤差來反映[12]。
目前,國內(nèi)關(guān)于測驗等值方面的研究存在以下問題:一是國內(nèi)一些教材測驗等值公式不統(tǒng)一,缺乏更新,甚至有明顯的符號遺漏;二是缺乏專門的數(shù)理統(tǒng)計推導(dǎo),僅為介紹性地闡述,具體如何計算不得而知;三是未交待如何獲取可操作的等值軟件,造成一些初學(xué)者產(chǎn)生畏懼的心理。因此,使用方便的等值軟件進(jìn)行思路清晰的流程化等值操作,顯得十分有必要。
對于參數(shù)估計,項目反應(yīng)理論包含一組分析軟件 包:BILOG、MULTILOG、PARSCALE、ANOTE等。這些軟件作為題目分析、題庫建設(shè)以及分?jǐn)?shù)估計等方面的重要工具在各個領(lǐng)域被廣泛應(yīng)用。
國際測量學(xué)界有幾個項目反應(yīng)理論處理多級計分資料的分析程序,最著名和最流行的是MULTILOG和PARSCALE。它們既能處理社會心理測量與心理衛(wèi)生評估中的5點、7點乃至更多級別的測評量表資料,又能處理成就測驗中的多等級計分題資料。但MULTILOG的最高等級數(shù)為10(即9個難度級別),PARSCALE的最高等級數(shù)為15(即14個難度級別)。在我國,心理測量等級計分資料一般多在9點以下,而成就測驗中,卻歷來有堅持綜合運用選擇題與多等計分題的良好傳統(tǒng)。一般,選擇題占分比重只是40%左右,主要部分是多計分題(即所謂的“主觀題”);而且,不少題型(如作文、分析論述、綜合證明等)的滿分值常在15分乃至20分或30分以上。因此MULTILOG和PARSCALE在我國教育測量中的使用范圍就受到一定限制。為滿足我國教育與心理測量工作實際發(fā)展的需要,近年來江西師范大學(xué)漆書青和戴海崎等人開發(fā)編制了通用測量程序(Analysis of Test System,ANOTE)。它能處理難度級別數(shù)超過20的等級計分資料。
(1)ST。ST是一個用于計算項目反應(yīng)理論量表轉(zhuǎn)換函數(shù)的C語言程序,適用于三參數(shù)邏輯斯蒂克模型(three-parameter logistic model,3PL,其中 D=1.7),適用于錨測驗設(shè)計(共同項目)。量表轉(zhuǎn)換方法:Haebara(1980)和Stocking-Lord(1983)。程序發(fā)布日期:2004年5月24日,版本:Windows Console Version??傻卿?http://www.uiowa.edu/~casma 進(jìn)行免費下載。
(2)POLYST。POLYST是一個用于計算項目反應(yīng)理論量表轉(zhuǎn)換方法的ANSI C程序,適用于參數(shù)邏輯斯蒂克模型(Logistic mode)、等級反應(yīng)模型(Graded Response model,GR)、拓廣分部評分模型(Generalized Partial Credit model,GPCM)、稱名模型(Nominal Response model,NR)和用于多重選擇項目的模型(Multiple-choice model,MC),適用于等組或單組設(shè)計(共同被試)。量表轉(zhuǎn)換方法包括mean/sigma(Marco,1977)、mean/mean(Loyd&Hoove,1980)、haebara(Haebara,1980)和 Stocking-Lord(Stocking&Lord,1983)。程序發(fā)布日期:2003年5月12日,版本:Version 1.0??傻卿沨ttp://www.uiowa.edu/~casma進(jìn)行免費下載。
(3)STUIRT。STUIRT是一個用于計算項目反應(yīng)理論量表轉(zhuǎn)換的程序,適用于參數(shù)邏輯斯蒂克模型、等級反應(yīng)模型、拓廣分部評分模型、稱名模型和用于多重選擇項目的模型,適用于錨測驗設(shè)計(共同項目)。量表轉(zhuǎn)換方法包括mean/sigma(Marco,1977)、mean/mean(Loyd&Hoove,1980)、haebara(Haebara,1980)和 Stocking-Lord(Stocking&Lord,1983)。STUIRT可看作是POLYST的擴(kuò)展版。ST和POLYST僅能處理單一格式的測驗(Single-format test form),也就是數(shù)據(jù)形式要么是二值,要么是多值。但是,STUIRT既可以處理二值數(shù)據(jù),也可以處理多值數(shù)據(jù),這類測驗叫做混合格式測驗(mixed-format test)。STUIRT是依靠共同項目(common item)來進(jìn)行量表化的,因此它是測驗等值良好量表化軟件,特別適用于后面要介紹的POLYEQUATE軟件(簡直就是為它設(shè)計的)。程序發(fā)布日期:2004年9月,版本:Version 1.0??傻卿沨ttp://www.uiowa.edu/~casma進(jìn)行免費下載。
(1)PIE。PIE(program for IRT Equating)是在Windows平臺下進(jìn)行IRT測驗等值的程序。它既能處理IRT觀察分?jǐn)?shù)測驗等值,也能處理IRT真分?jǐn)?shù)測驗等值。PIE僅適合IRT的基本模型,即邏輯斯蒂克模型,且D=1.7。在ST對收集到的數(shù)據(jù)進(jìn)行量表化之后,方可使用PIE程序。程序發(fā)布日期:2004年5月20日,版本:Windows Console Version??傻卿沨ttp://www.uiowa.edu/~casma進(jìn)行免費下載。
(2)POLYEQUATE。POLYEQUATE是一個由Fortran語句編寫的程序,既可以處理IRT觀察分?jǐn)?shù)等值,也可以處理IRT真分?jǐn)?shù)等值。與PIE相比,它可以處理多值的項目反應(yīng)理論模型,如三參數(shù)邏輯斯蒂克模型(Three-parameter Logistic Model)、塞姆吉馬正態(tài)肩形等級反應(yīng)模型(Samejima’s normal ogive Graded Response model)(Samejima,1997)、塞姆吉馬邏輯斯蒂克等級反應(yīng)模型(Samejima’s Logistic Graded Response model)(Samejima,1997)、貝克的稱名模型(Bock’s nominal model)(Bock,1997)和馬如克的拓廣分部評分模型(Muraki’s Generalized Partial Credit model)等。程序發(fā)布日期:2004年7月7日,版本:Windows Console Version??傻卿沨ttp://www.uiowa.edu/~casma進(jìn)行免費下載。
2005年佛山市普教進(jìn)行課程改革,分為“課改實驗區(qū)”和“非課改實驗區(qū)”[13][14]。課改區(qū)與非課改區(qū)考生能力有所差異,且測驗X與Y中有一個共用錨測驗,采用非等組錨測驗設(shè)計作為本研究的等值設(shè)計。IRT等值方法主要有MM(mean/mean)、MS(mean/sigma)、HA(Haebara)和SL(Stocking-Lord)方法。Stocking-Lord是基于項目特征曲線等值方法,具有較多優(yōu)良特性,本研究統(tǒng)一選用此種方法來進(jìn)行測驗等值。
由廣東省佛山市教育局提供的2005年“中考數(shù)學(xué)”實測數(shù)據(jù)?!爸锌紨?shù)學(xué)”相應(yīng)分為課改區(qū)的測驗X和非課改區(qū)的測驗Y。課改區(qū)有考生50 902人,非課改區(qū)有考生10 882人。測驗X、測驗Y各有24道題,其中客觀題15道,主觀題9道。測驗X和測驗Y有一個錨測驗V,測驗V的主客觀題共9道。
依據(jù)各種等值模型分別對測驗X和測驗Y進(jìn)行參數(shù)估計,得出各測驗的項目參數(shù)值。使用的軟件是 Parscale 3.5[15]和 Multilog 7.0[16],其中 Parscale用于估計SL、SN和GPCM的參數(shù),Multilog軟件用于估計NR的參數(shù)。X(50902)和Y(10882)的數(shù)據(jù)參數(shù)估計結(jié)果格式如表1所示。
在表1中,NR表示稱名反應(yīng)模型,GR表示等級反應(yīng)模型,PC表示分部評分模型,DW表示缺省權(quán)重,1.0/1.7表示模型的系數(shù),aX和aY分別表示X測驗和Y測驗估計的各題區(qū)分度,bX和bY分別表示X測驗和Y測驗估計的各題難度。
表1 等值測驗X和Y數(shù)據(jù)參數(shù)估計結(jié)果格式
根據(jù)等值測驗X(50902)和Y(10882)數(shù)據(jù)參數(shù)估計結(jié)果,將測驗X和測驗Y所得兩測驗的項目參數(shù)進(jìn)行量表化(Scaling),即統(tǒng)一量綱,使用的是STUIRT軟件。Multilog的稱名反應(yīng)模型的量表化格式、Parscale的SL和SN模型的量表化格式、Parscale的PCM模型的量表化格式分別如圖2~圖4所示。
根據(jù)圖2~圖4的量表化格式,編寫相應(yīng)的程序,等值測驗X(50902)和Y(10882)數(shù)據(jù)的量表化結(jié)果格式如圖5所示。
圖2 NR量表化格式
圖3 GR量表化格式
圖4 PCM量表化格式
根據(jù)測驗X和測驗Y量表化的結(jié)果,通過POLYEQUATE軟件進(jìn)行等值轉(zhuǎn)換,其程序如圖6和圖7所示。
圖6 POLYEQUATE等值程序
圖7 POLYEQUATE等值程序中qform代碼
測驗等值進(jìn)行后,將得到四種IRT模型下的測驗觀察分?jǐn)?shù)等值結(jié)果。四種IRT模型下的測驗觀察分?jǐn)?shù)等值部分結(jié)果列于表2。為節(jié)省篇幅,以10分為一分?jǐn)?shù)段列出。
表2 四種IRT多級模型測驗觀察分?jǐn)?shù)等值結(jié)果(舉例)
在表2中,X表示課改實驗區(qū)原始分?jǐn)?shù),f表示頻數(shù),Y()表示SL、SN、PCM和NR方法將X原始分?jǐn)?shù)等值到Y(jié)測驗上的原始分?jǐn)?shù)是。通過表2可以將實驗區(qū)與非實驗區(qū)分?jǐn)?shù)進(jìn)行相互轉(zhuǎn)換,從而達(dá)到測驗等值的目的。
在我國,測驗等值是測驗研究中相對薄弱的一個環(huán)節(jié),許多重要的考試都尚未實現(xiàn)統(tǒng)計等值。嚴(yán)格按照上述規(guī)定進(jìn)行測驗等值操作,能夠得到理想的等值結(jié)果。這種規(guī)定式的等值流程化操作思路,有助于“手把手”教人們?nèi)绾芜M(jìn)行測驗等值,從而能夠克服進(jìn)行等值時產(chǎn)生的畏懼心理,即便是“生手”,在看清等值操作的流程圖后,也可能覺得操作起來相對簡單。等值流程化操作有助于解決測驗等值操作困難化的難題,使得許多初學(xué)者有一個感性的認(rèn)識,并以此為基礎(chǔ)繼續(xù)深入探討一些具體的等值問題。按照心理與教育測量IRT測驗等值流程化操作思路,將有利于促進(jìn)人們積極參與等值化操作,從而推動我國測驗技術(shù)的發(fā)展。
[1] 戴海崎,張鋒,陳雪楓.心理與教育測量(第三版)[M].廣州:暨南大學(xué)出版社.2011.
[2] 張敏強(qiáng).教育測量學(xué)[M].北京:人民教育出版社.1998.
[3] 漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測量學(xué)原理[M].北京:高等教育出版社.2002.
[4] 張敏強(qiáng),黎光明,劉曉瑜,焦璨.教學(xué)管理與評價的測量技術(shù):測驗等值的理論、方法及應(yīng)用.教育研究與實驗[J],2009,2:54-57.
[5] Von Davier,Alina,A.L.,&Wilson,C.Investigating the population sensitivity assumption of item response theory true-score equating across two subgroups of examinees and two test formats.Applied Psychological Measurement,2008,32(1):11-26.
[6] 周駿,歐東明,徐淑媛,戴海崎,漆書青.等級反應(yīng)模型下項目特征曲線等值法在大型考試中的應(yīng)用[J].心理學(xué)報,2005(6):832-838.
[7] 謝小慶考試分?jǐn)?shù)等值的新框架考試研究[J].考試研究,2008,4(2):4-17.
[8] Kolen,M.J.,&Brennan,R.L.Test Equating:Methods andPractices.Springer-Verlag New York Inc.1995.
[9] Kolen,M.J.,&Brennan,R.L..Test equating,linking,and scaling:Methods and practices(2nd ed.).New York:Springer-Verlag.2004.
[10] 黎光明,劉曉瑜,張敏強(qiáng).測驗等值技術(shù)在中小學(xué)教學(xué)管理與評價中的應(yīng)用[J].教育測量與評價(理論版),2009,14(3):8-11.
[11] “基礎(chǔ)教育教學(xué)質(zhì)量監(jiān)測系統(tǒng)”項目組(張敏強(qiáng),黃憲,焦璨,黎光明等).IRT下題量與被試量對參數(shù)估計模擬返真性能的影響.中國考試,2009(6):3-10.
[12] 黎光明,張敏強(qiáng).全測驗與錨測驗題型分值比對等值誤差的影響.考試研究,20095(3):71-77.
[13] 張敏強(qiáng),黎光明,焦璨.普教“升中”考試中測驗等值的應(yīng)用研究——以廣東省佛山市“升中”考試為例.心理與行為研究,2009,7(1):27-31.
[14] 黎光明,張敏強(qiáng).IRT測驗等值模型的選擇——以廣東佛山市中考數(shù)學(xué)實測數(shù)據(jù)為例.中國考試,2012,2:8-13.
[15] Thissen,D.Multilog user’s guide:Multiple,categorical item analysis and test scoring using item response theory[Computer program].Chicago:Scientific Software International.1991.
[16] Muraki,E.,&Bock,R.D.PARSCALE(Version 3.5):IRT item analysis and test scoring for rating-scale data[Computer program].Lincolnwood,IL:Scientific Software.1998.