郭凡民 孟匯涓 Han Kyung (Chris)Tyek Talento-Miller Eileen
GMAT綜合推理試題的研發(fā)及效度驗(yàn)證
郭凡民 孟匯涓 Han Kyung (Chris)Tyek Talento-Miller Eileen
美國(guó)管理類研究生招生理事會(huì)在充分調(diào)研成功完成商學(xué)院核心課程所需要的學(xué)業(yè)技能的基礎(chǔ)上,歷時(shí)7年完成GMAT綜合推理試題的研發(fā),于2012年正式推出新版GMAT考試。本文介紹綜合推理試題的研發(fā)過(guò)程,并通過(guò)具體數(shù)據(jù)展示其考試效度,希望可以為考試主辦方開發(fā)考試、設(shè)計(jì)創(chuàng)新題型以及進(jìn)行效度研究提供參考。
考試開發(fā);效度驗(yàn)證;創(chuàng)新題型;GMAT
美國(guó)管理學(xué)研究生入學(xué)考試(Graduate Manage?ment Admission Test,GMAT)是專門用來(lái)測(cè)試商學(xué)院申請(qǐng)人學(xué)業(yè)能力的一項(xiàng)標(biāo)準(zhǔn)化考試,它的主辦機(jī)構(gòu)是美國(guó)管理類研究生招生理事會(huì)(Graduate Man?agement Admission Council,GMAC),其考試內(nèi)容由GMAC組織各大商學(xué)院的教授集體擬定,旨在為商學(xué)院篩選申請(qǐng)人提供客觀、科學(xué)、有效的考查標(biāo)準(zhǔn),并對(duì)學(xué)生在入學(xué)以后學(xué)業(yè)成功與否作出可靠的預(yù)測(cè)。GMAT自1953年問(wèn)世以來(lái),經(jīng)歷了許多變化,從筆試到機(jī)考,從固定試卷到使用題庫(kù),從單一難度試卷到為不同能力的考生量體裁制的自適應(yīng)考試,但它的測(cè)評(píng)宗旨從未改變。GMAC和不同商學(xué)院合作共完成1 241個(gè)研究報(bào)告,它的考試效度被屢屢證實(shí),它的考試結(jié)果也得到越來(lái)越多商學(xué)院的認(rèn)可。到目前為止,全球共有114個(gè)國(guó)家、2 100多所大學(xué)、6 000多個(gè)工商管理專業(yè)使用GMAT的考試分?jǐn)?shù)作為錄取學(xué)生的標(biāo)準(zhǔn)之一。
2012年6月5日,GMAC宣布GMAT在已有的文本推理(Verbal Reasoning)、定量推理(Quantita?tive Reasoning)和分析性寫作(Analytical Writing)3部分考查內(nèi)容之外,增加綜合推理(Integrated Rea?soning,IR)部分,以此來(lái)測(cè)量考生對(duì)不同來(lái)源、多種形式的信息進(jìn)行分析評(píng)估的能力。這一部分的考題大多使用創(chuàng)新題型(非傳統(tǒng)的單項(xiàng)選擇題),開發(fā)實(shí)施成本很高,題目撰寫費(fèi)時(shí)費(fèi)力,數(shù)據(jù)采集分析難度也大于其他部分的試題。GMAC為什么在GMAT早已成熟并為廣大商學(xué)院認(rèn)可的形勢(shì)下要做如此重大的改變?他們通過(guò)怎樣的研發(fā)過(guò)程來(lái)保證這一部分試題的有效性?4年過(guò)去了,大量的考試數(shù)據(jù)能否證實(shí)綜合推理在GMAT效度中占有一席之地?這是本文所要回答的問(wèn)題。
1.1 舊版GMAT考試信度與效度
舊版GMAT包括定量推理、文本推理和分析性寫作3部分(見表1),考試時(shí)間為3小時(shí)30分鐘。這一考試結(jié)構(gòu)確定于1997年GMAT首次使用題庫(kù)的計(jì)算機(jī)自適應(yīng)考試(Computerized Adaptive Test?ing,CAT),此后15年從未改變。GMAT考試分?jǐn)?shù)非常穩(wěn)定可靠,定量推理的平均信度為0.9,文本推理為0.89,分析性寫作的評(píng)分者信度(Rater Reliability)為0.88[1],而總量表分?jǐn)?shù)(包含定量推理和文本推理兩項(xiàng)分?jǐn)?shù))的信度則高達(dá)0.92,充分滿足了GMAC為商學(xué)院招生提供有效成績(jī)所需要的前提條件。
GMAC為全球諸多商學(xué)院完成了407份舊版GMAT的效度研究報(bào)告。在這些報(bào)告中,GMAT考試分?jǐn)?shù)和學(xué)生的本科平均成績(jī)(Undergraduate Grade Point Average,UGPA)被用來(lái)預(yù)測(cè)商學(xué)院研究生入學(xué)以來(lái)累計(jì)的平均成績(jī)(GPA),GMAT總量表分?jǐn)?shù)預(yù)測(cè)效度普遍高于學(xué)生的本科平均成績(jī)預(yù)測(cè)效度。
此外,作為一個(gè)全球性的考試,為了保證其公平性,GMAT的每一道題在正式使用進(jìn)入計(jì)分之前都需要預(yù)測(cè)試。通過(guò)大數(shù)據(jù)分析結(jié)果剔除表現(xiàn)不好的試題,以保證在同等能力的前提下,試題分?jǐn)?shù)不會(huì)因?yàn)榭忌谛詣e、地域、語(yǔ)言文化上的不同而出現(xiàn)系統(tǒng)性的偏差,從而使某一群體的考生處于不利或有利狀態(tài)。
所有這些分析研究結(jié)果表明,舊版GMAT自問(wèn)世以來(lái),在很長(zhǎng)一段時(shí)間內(nèi)都滿足了商學(xué)院擇優(yōu)招生的需求,與其他錄取條件(如本科成績(jī)、推薦信、個(gè)人陳述等)相比,它的分?jǐn)?shù)為校方比較申請(qǐng)人提供了一個(gè)公平、客觀、穩(wěn)定、有效的量化指標(biāo)。
1.2 GMAT改革:緣起與前瞻
進(jìn)入21世紀(jì),信息科學(xué)和電腦技術(shù)呈現(xiàn)加速發(fā)展,高等教育中與科技密切相關(guān)的商業(yè)學(xué)科自是首當(dāng)其沖,在課程結(jié)構(gòu)和專業(yè)設(shè)置上都呈現(xiàn)出比較明顯的變化[2]。很多商學(xué)院在傳統(tǒng)的MBA專業(yè)中增添了綜合性課程以及團(tuán)隊(duì)教學(xué)等元素,同時(shí),為了滿足不同行業(yè)、不同層次對(duì)管理人才的需求,專業(yè)類碩士(如會(huì)計(jì)、金融、市場(chǎng)營(yíng)銷等)及高級(jí)管理人員商科碩士(Executive MBA)等學(xué)位應(yīng)運(yùn)而生。針對(duì)這些變化,GMAC從2005年起就開始了一系列的前瞻研究,評(píng)估GMAT試題所考查的技能在當(dāng)下是否依然有效。
2005年4月至2006年8月,GMAC委托美國(guó)大學(xué)入學(xué)考試中心(ACT)開展了一項(xiàng)研究,來(lái)自北美233個(gè)管理專業(yè)的844名教授共同評(píng)定了成功完成商科第一年核心課程所需要的知識(shí)和技能。這個(gè)研究使用的方法與美國(guó)1999年版《教育與心理測(cè)量標(biāo)準(zhǔn)》(Standards for Educational and Psychological Testing)一書中所推薦的效度驗(yàn)證方法相吻合,它的結(jié)果為GMAC勾描出商科核心課程與學(xué)生必備的知識(shí)和技能之間的連接路徑,并為新版GMAT技能問(wèn)卷調(diào)查的擬定提供了堅(jiān)實(shí)的基礎(chǔ)。
表1 舊版GMAT考試結(jié)構(gòu)
2008年6月,針對(duì)歐洲國(guó)家新興的專業(yè)類碩士,GMAC委托荷蘭國(guó)際教育測(cè)量研究院(Cito)對(duì)10個(gè)歐洲國(guó)家、39所商學(xué)院的135個(gè)專業(yè)的核心課程進(jìn)行了調(diào)查,從中分析提煉出它們?cè)诮虒W(xué)上所側(cè)重的共同的內(nèi)容[3]。這個(gè)研究報(bào)告的結(jié)果提高了新版GMAT技能問(wèn)卷調(diào)查內(nèi)容的廣度,為GMAT在全球范圍內(nèi)服務(wù)于傳統(tǒng)的MBA和新興的專業(yè)類碩士招生工作增添了有力的效度證據(jù)。
在2006年及2008年兩項(xiàng)研究的基礎(chǔ)上,結(jié)合舊版GMAT的考試大綱,2009年GMAC再次授權(quán)ACT完成了一次大規(guī)模問(wèn)卷調(diào)查,來(lái)自全球740多名商學(xué)院的教授共同審評(píng)了成功完成商學(xué)院核心課程所需要的學(xué)業(yè)技能。教授們的評(píng)分確認(rèn)了文本推理、定量推理以及分析性寫作內(nèi)容的有效性。同時(shí),舊版GMAT試題沒(méi)有涵蓋或未能有效測(cè)量的技能浮出水面(見表2),這些技能是近10年以及未來(lái)15年商學(xué)院學(xué)生學(xué)習(xí)和工作必須掌握的新技能,其重要性評(píng)分不遜于其他部分考查技能在調(diào)查中得到的分?jǐn)?shù)。
表2 商科研究生學(xué)業(yè)成功需要的新技能
2.1 機(jī)遇與挑戰(zhàn)
表2表明,21世紀(jì)的商科人才需要具有對(duì)海量信息做高效分析以解決復(fù)雜問(wèn)題的能力。2009年的問(wèn)卷調(diào)查結(jié)果為GMAT改革指明了方向,GMAC作為眾多商學(xué)院所信賴的服務(wù)機(jī)構(gòu),無(wú)疑面臨著考試開發(fā)的巨大挑戰(zhàn)。這一挑戰(zhàn)表現(xiàn)在:第一,考試行業(yè)對(duì)文本和定量推理以及分析性寫作能力的測(cè)評(píng)已有多年歷史,從試題的內(nèi)容、形式、數(shù)據(jù)分析到最終評(píng)分,方方面面都積累了大量經(jīng)驗(yàn),而對(duì)多源信息綜合處理能力在標(biāo)準(zhǔn)化考試中的使用則是一個(gè)從未有人涉及的領(lǐng)域??上攵?,從抽象的對(duì)認(rèn)知能力的描述到撰寫客觀有效的試題之間是一段不易的路途。第二,雖然Pearson VUE(負(fù)責(zé)在世界各地發(fā)送GMAT的公司)是計(jì)算機(jī)考試行業(yè)中的佼佼者,但其當(dāng)時(shí)的系統(tǒng)內(nèi)并沒(méi)有適合此類試題的模板及相對(duì)應(yīng)的數(shù)據(jù)采集功能,這項(xiàng)開發(fā)的投入成本相當(dāng)可觀。第三,GMAT是一項(xiàng)有半個(gè)世紀(jì)歷史的優(yōu)質(zhì)考試,從內(nèi)容結(jié)構(gòu)到分?jǐn)?shù)的區(qū)間分布早已為全球各大商學(xué)院所熟悉。如果在考試中加入太多新元素,會(huì)不會(huì)讓學(xué)校錄取部門對(duì)使用GMAT分?jǐn)?shù)篩選申請(qǐng)人這種方法敬而遠(yuǎn)之?
面對(duì)這些困難和潛在風(fēng)險(xiǎn),GMAC的決策者決定順應(yīng)變化進(jìn)行改革。他們把這些挑戰(zhàn)當(dāng)作GMAT優(yōu)化發(fā)展的一次重大機(jī)遇。如果成功,這些改變會(huì)使GMAT更加全面地考核那些與商科碩士專業(yè)相關(guān)的知識(shí)和技能,提高考試效度,更好地為商學(xué)院選拔學(xué)生服務(wù)。同時(shí),機(jī)考創(chuàng)新題型的開發(fā)使用可以讓GMAC一如既往地走在測(cè)試行業(yè)的最前沿,為其他考試機(jī)構(gòu)提供可以借鑒的寶貴經(jīng)驗(yàn)。
2.2 研發(fā)過(guò)程
從2009年6月GMAC采取問(wèn)卷調(diào)查確定新增內(nèi)容,到新版GMAT正式啟動(dòng)歷時(shí)3年多,經(jīng)歷了4個(gè)階段,見圖1。
圖1 新版GMAT研發(fā)階段
針對(duì)在第一階段建構(gòu)研究中確認(rèn)的4項(xiàng)新技能,GMAC、ACT(負(fù)責(zé)試題開發(fā))和Pearson VUE(負(fù)責(zé)試題發(fā)送)3個(gè)公司從2009年末開始了綜合推理考試的研發(fā)工作。GMAC希望通過(guò)綜合推理試題考查考生對(duì)復(fù)雜信息進(jìn)行思辨、綜合、歸納、推理的能力,而已有的GMAT題型(單項(xiàng)選擇題)無(wú)法滿足這個(gè)測(cè)試需求。此外,對(duì)這種能力的測(cè)試從未出現(xiàn)在其他同類計(jì)算機(jī)考試中,沒(méi)有人清楚何種形式的試題既適合機(jī)考又可以準(zhǔn)確地測(cè)試新增技能。因此,開發(fā)團(tuán)隊(duì)首先詳細(xì)地定義了新技能和其可能對(duì)應(yīng)的考核途徑,瀏覽了Pearson VUE機(jī)考平臺(tái)中已有的創(chuàng)新題型模板,借鑒心理認(rèn)知理論和教育測(cè)量理論設(shè)計(jì)了15種全新題型。通過(guò)受試者有聲思考(Think Aloud)和兩次試測(cè)結(jié)果,開發(fā)團(tuán)隊(duì)最后確定了綜合推理試題包括表格分析、二段式分析、圖表解讀和多信息源推理4種題型(具體樣題可見GMAC官網(wǎng)),并在2011年7月至8月完成了題庫(kù)建設(shè)。
為了保證新題型研發(fā)的質(zhì)量和效率,GMAC制定了一套評(píng)估新題型的標(biāo)準(zhǔn)。主要有以下幾點(diǎn):
(1)測(cè)試新增技能:開發(fā)團(tuán)隊(duì)讓受試者一邊解題,一邊說(shuō)出他/她對(duì)試題的理解、思索問(wèn)題時(shí)使用的信息來(lái)源,以及回答問(wèn)題時(shí)考慮到的各種因素。通過(guò)他們的具體反饋,命題專家確定每種新題型測(cè)試的潛在建構(gòu),從而作出選擇。
(2)利用機(jī)考優(yōu)點(diǎn):入圍題型充分體現(xiàn)計(jì)算機(jī)的優(yōu)勢(shì),具有在紙筆考試中難以完成的特性。如在表格分析題目中,考生可以使用電子表格的排序功能來(lái)排列信息,這是商科人士日常辦公中經(jīng)常使用到的功能,卻只能在機(jī)考中實(shí)現(xiàn)。這些題型特有的內(nèi)容和形式極大程度地提升了GMAT的表面效度和內(nèi)容效度。
(3)方便記分:是否可以清晰準(zhǔn)確地評(píng)分是GMAC選擇題型的另一重要標(biāo)準(zhǔn)。因?yàn)橛?jì)算機(jī)的強(qiáng)大功能,機(jī)考題型可以非常新穎復(fù)雜,實(shí)現(xiàn)人機(jī)時(shí)時(shí)互動(dòng)。但是這樣的試題在自動(dòng)評(píng)分、其分?jǐn)?shù)的效度和解讀上往往存在很多問(wèn)題,限制了它們?cè)贕MAT這一類考試中的使用。
(4)有效防止舞弊:題目的信息量大、頭緒多,并且較為復(fù)雜,考生需要在有限的時(shí)間內(nèi)厘清關(guān)系,提取有用信息來(lái)回答問(wèn)題。這一類試題不太容易被復(fù)述下來(lái)或者通過(guò)幾個(gè)關(guān)鍵詞記住題干和答案,這樣可以較好地控制在高風(fēng)險(xiǎn)標(biāo)準(zhǔn)化考試中的偷題現(xiàn)象。
(5)有效區(qū)分考生水平且無(wú)偏差:GMAC在2010年和2011年收集了大量的試測(cè)數(shù)據(jù),分析總結(jié)每一類試題的難度、區(qū)分度、所用時(shí)間,與舊版GMAT分?jǐn)?shù)的相關(guān)系數(shù),以及就性別、語(yǔ)言、國(guó)籍得到的試題功能差異指標(biāo)(DIF)。這些結(jié)果為開發(fā)團(tuán)隊(duì)甄選題型提供了客觀標(biāo)準(zhǔn)。
(6)可以大量出題且經(jīng)濟(jì)可行:比起文本和定量推理試題,綜合推理題目更加復(fù)雜,實(shí)施成本也高出許多。另外,GMAT每年考生人數(shù)可觀,為了保證考試公平,GMAC需要定期更新題庫(kù),因此試題的需求量很大?;谶@些原因,最終入選的綜合推理題型普遍具有容變性強(qiáng)、在計(jì)算機(jī)上易于實(shí)現(xiàn)的特點(diǎn)。
根據(jù)2011年試題預(yù)測(cè)結(jié)果,開發(fā)團(tuán)隊(duì)初步擬定了綜合推理部分的考試設(shè)計(jì),包括內(nèi)容、比重、題目數(shù)量、難度和區(qū)分度的統(tǒng)計(jì)指標(biāo)以及考試時(shí)間。2012年1月進(jìn)行整卷試測(cè),建立了量表分?jǐn)?shù)。新版GMAT于2012年6月正式啟用,這是GMAC歷史上第10次重大的考試變革。在綜合推理題型(12題30分鐘)啟用的同時(shí),分析性寫作題目數(shù)量由2篇減為1篇,時(shí)間縮短為30分鐘[4],故考試總體時(shí)間沒(méi)有改變。綜合推理沒(méi)有采取自適應(yīng)考試的選題模式,而是使用了傳統(tǒng)的線性設(shè)計(jì),通過(guò)等值將試卷原始分?jǐn)?shù)轉(zhuǎn)換為量表分?jǐn)?shù)。
GMAC 3次大規(guī)模的問(wèn)卷調(diào)查以及對(duì)綜合推理試題的有聲思考結(jié)果,從定性的角度反映了GMAT考試的構(gòu)建效度。圍繞新增的綜合推理試題,GMAC也做了很多從定量角度出發(fā)的效度研究。
3.1 內(nèi)部相關(guān)系數(shù)(Internal Correlation)分析
這類研究主要是分析考試各部分之間的相關(guān)性。表3是新版GMAT考試各部分分?jǐn)?shù)的相關(guān)系數(shù)。綜合推理的分?jǐn)?shù)和已有的文本推理、定量推理、分析性寫作分?jǐn)?shù)以及量表總分均呈現(xiàn)出中等程度或中等偏下的正向相關(guān),這也是測(cè)試專家希望看到的結(jié)果。如果它們之間的相關(guān)系數(shù)過(guò)高,增加綜合推理考試就不可能提供新信息,它就沒(méi)有存在的必要。
表3 新版GMAT各項(xiàng)分?jǐn)?shù)的相關(guān)系數(shù)(美國(guó)考生)
3.2 考試維度分析
主成分分析(Principal Component Analysis)和驗(yàn)證性因子分析(Confirmatory Factor Analysis)都是從眾多變量中提取共同因子的統(tǒng)計(jì)技術(shù),它們常常被用來(lái)驗(yàn)證考試的維度,通過(guò)分析試題分?jǐn)?shù)或各項(xiàng)內(nèi)容的分?jǐn)?shù)來(lái)確定整個(gè)考試所考查的是否是同一領(lǐng)域中的知識(shí)和技能。舊版GMAT中兩大核心部分是定量推理和文本推理,它們之間有關(guān)聯(lián)但各有側(cè)重,所以兩維模型可以很好地解釋數(shù)據(jù)。綜合推理試題開發(fā)出來(lái)后,GMAC需要檢測(cè)這部分是否可以在定量推理和文本推理之外構(gòu)成一個(gè)單獨(dú)的維度,哪些試題最大程度地支持這個(gè)維度,它和已有的兩部分又有怎樣的關(guān)系。針對(duì)這些問(wèn)題,GMAC使用2012年11月的實(shí)測(cè)數(shù)據(jù)對(duì)新版GMAT進(jìn)行了維度分析。
因?yàn)榫C合推理部分是以固定試卷的模式發(fā)送考試,數(shù)據(jù)相對(duì)工整,而定量推理和文本推理兩部分是自適應(yīng)考試,考生數(shù)據(jù)里有很多題目沒(méi)有分?jǐn)?shù)(見圖2中的A),已有的題目分?jǐn)?shù)也受限于CAT獨(dú)特的選題方法,在分析中不能簡(jiǎn)單地計(jì)算并使用定量推理和文本推理部分中每項(xiàng)考查內(nèi)容的原始分?jǐn)?shù)(答對(duì)題目總數(shù)),它們之間的協(xié)方差也比較低。通過(guò)使用題目的IRT參數(shù),GMAC計(jì)算了單項(xiàng)內(nèi)容的能力分?jǐn)?shù)θ,從而獲得了可以用在主成分分析和因子分析中的完整數(shù)據(jù)(見圖2中的B)。加灰部分是回答某一套綜合推理試卷的所有考生的各項(xiàng)分?jǐn)?shù),無(wú)一疏漏。這種方法也曾被用在其他自適應(yīng)考試的建構(gòu)效度研究中[5]。
圖2 新版GMAT數(shù)據(jù)結(jié)構(gòu)
與其他研究不同的是,GMAC沒(méi)有使用已有題目參數(shù),而是將數(shù)據(jù)按單項(xiàng)內(nèi)容分開,在每個(gè)內(nèi)容下重新估計(jì)試題參數(shù),然后計(jì)算能力分?jǐn)?shù)θ。這樣做是因?yàn)樵诠浪忝坎糠诸}目參數(shù)時(shí),所有的試題都被假定為測(cè)試同一種能力(定量推理或文本推理)。在單維IRT模型下,不同題目所測(cè)試的技能和它們之間的關(guān)系有可能被削弱并簡(jiǎn)單化。而在每個(gè)部分每個(gè)內(nèi)容下單獨(dú)估算題目參數(shù)從理論上來(lái)說(shuō)弱化了這種影響,使維度分析更精確。
在主成分分析中[6],二維和三維模型被用來(lái)定義數(shù)據(jù)(定量推理和文本推理單項(xiàng)內(nèi)容的能力分?jǐn)?shù)和每個(gè)綜合推理試卷上的試題分?jǐn)?shù))。表4是主成分在單項(xiàng)內(nèi)容和每道綜合推理試題上的負(fù)荷。毋庸置疑,三維模型可以幫助我們更好地解釋數(shù)據(jù)里的變化(方差總量從39.6%增加到52.0%)。不少綜合推理試題在二維模型下的主成分負(fù)荷都小于0.3(可接受范圍的分界點(diǎn)),而在三維模型下,通過(guò)極大旋轉(zhuǎn)(Varimax),它們明顯附著于第三個(gè)成分,并和其他兩個(gè)主成分涇渭分明。
在主成分分析結(jié)果的基礎(chǔ)上,GMAC進(jìn)一步從不同角度(考查內(nèi)容、認(rèn)知能力、題目類型)對(duì)數(shù)據(jù)進(jìn)行了因子分析[7]。如圖3是從綜合推理考查內(nèi)容角度勾畫的內(nèi)部結(jié)構(gòu):兩項(xiàng)內(nèi)容,一項(xiàng)和數(shù)學(xué)有關(guān),一項(xiàng)和數(shù)學(xué)無(wú)關(guān),而驗(yàn)證性因子分析的結(jié)果可以幫助我們了解綜合推理這兩項(xiàng)內(nèi)容與文本推理及定量推理之間的關(guān)系。
在GMAT的結(jié)構(gòu)方程模型(Structural Equation Modeling,SEM)中,所有的因子之間可以有關(guān)聯(lián),文本推理和定量推理單項(xiàng)內(nèi)容的能力分?jǐn)?shù)被作為因子分?jǐn)?shù),它們的方差被固定為1。根據(jù)分析角度的不同,Han共計(jì)算出三組綜合推理潛在因子[7]。圖4中綜合推理部分的因子(IR_A1和IR_A2)是根據(jù)不同考查內(nèi)容下的試題分?jǐn)?shù)計(jì)算出來(lái)的。
表4 新版GMAT主成分分析對(duì)比
表5是圖4模型下的分析結(jié)果,文本推理與定量推理各自的因子之間的相關(guān)系數(shù)普遍很高(最小的為0.58),為它們使用IRT模型滿足單維假設(shè)提供了證據(jù)。在綜合推理下,與數(shù)學(xué)相關(guān)的試題(IR_A2)可以比較有效地同時(shí)測(cè)試文本推理和定量推理的能力,而與數(shù)學(xué)無(wú)關(guān)的試題(IR_A1)所考查的更多的是文本推理方面的能力。
圖3 新版GMAT內(nèi)部結(jié)構(gòu)(A:考查內(nèi)容;C:認(rèn)知能力;T:題型)
圖4 新版GMAT結(jié)構(gòu)方程模型(綜合推理分析角度:考查內(nèi)容)
表5 新版GMAT潛在變量之間的關(guān)聯(lián):從綜合推理考查內(nèi)容角度分析
表6中綜合推理的潛在因子是從認(rèn)知能力的角度計(jì)算出來(lái)的,它們之間關(guān)聯(lián)度很高(0.65~0.89),說(shuō)明考生在回答綜合推理問(wèn)題時(shí)所需要的認(rèn)知能力大體在同一范疇內(nèi)。它們與文本推理的因子之間相關(guān)系數(shù)比較高(0.54~0.63),但與定量推理的分?jǐn)?shù)因子之間的相關(guān)系數(shù)普遍較低。這個(gè)結(jié)果與綜合推理考試目的相吻合。畢竟不論測(cè)試的是哪種能力,對(duì)多源信息的綜合處理首先是建立在讀懂信息的基礎(chǔ)之上的。
表6 新版GMAT潛在因子之間的關(guān)聯(lián):從綜合推理的認(rèn)知能力角度分析
表7中綜合推理的潛在因子是從試題類型的角度計(jì)算出來(lái)的,結(jié)果和表6相似:4種題型之間高度相關(guān)(0.70~0.91),它們與文本推理的因子相關(guān)度也比較高(0.55~0.63)。其中兩種題型與定量推理的因子呈中度關(guān)聯(lián)(0.44~0.60),另外兩種結(jié)果偏低(0.22~0.40)。
這些驗(yàn)證性因子分析的結(jié)果為GMAC從各個(gè)層面理解綜合推理的試題以及確定考查內(nèi)容和試題題型在考試中的比重分布提供了重要依據(jù)。
3.3 預(yù)測(cè)效度(Predictive Validity)分析
自2012年6月新版GMAT正式使用以來(lái),GMAC與北美、歐洲及亞洲各大商學(xué)院合作,共進(jìn)行了25項(xiàng)包括綜合推理分?jǐn)?shù)的預(yù)測(cè)效度研究,用商學(xué)院在讀學(xué)生GMAT的各項(xiàng)成績(jī)和本科平均成績(jī)(UGPA)來(lái)預(yù)測(cè)他們?nèi)雽W(xué)后半年至一年內(nèi)的GPA。在這類研究中,預(yù)測(cè)效度系數(shù)就是預(yù)測(cè)變量和GPA之間的相關(guān)系數(shù)。對(duì)于錄取類的測(cè)試,相關(guān)系數(shù)在0.3~0.4就可以被用作考試預(yù)測(cè)有效的證據(jù)[8]。
表7 新版GMAT潛在因子之間的關(guān)聯(lián):從綜合推理的試題類型角度分析
因?yàn)樯虒W(xué)院錄取的學(xué)生只是所有申請(qǐng)人中的少數(shù),從學(xué)業(yè)表現(xiàn)來(lái)說(shuō),他們大多聚集在這個(gè)群體中的上端,有著相似的GMAT成績(jī)和UGPA,在很大程度上縮減了GPA中的方差并限制了預(yù)測(cè)效度系數(shù),因此研究者們一般會(huì)用公式調(diào)整變量之間的相關(guān)系數(shù),借以還原真實(shí)完整的考生群體數(shù)據(jù)。在這個(gè)公式中,rij和r*ij分別是變量之間原始相關(guān)系數(shù)和調(diào)整之后的相關(guān)系數(shù),U等于全體考生與商學(xué)院考生GMAT分?jǐn)?shù)或UGPA的標(biāo)準(zhǔn)方差之間的比率(U≥1)。
圖5 預(yù)測(cè)變量預(yù)測(cè)效度中位值
GMAC還使用多元回歸分析方法計(jì)算綜合推理可以多大程度地提高GMAT在UGPA之外預(yù)測(cè)學(xué)生GPA的能力。如表8(摘自某商學(xué)院2014年GMAT效度研究)所示,單獨(dú)使用UGPA預(yù)測(cè)效度系數(shù)是0.28,如果加入綜合推理分?jǐn)?shù),預(yù)測(cè)系數(shù)升到0.44;如果在UGPA外加入文本推理、定量推理和寫作,預(yù)測(cè)系數(shù)則升到0.47,再加入綜合推理,預(yù)測(cè)系數(shù)提升到0.51??紤]到綜合推理試卷只有12道試題,考試時(shí)間只有30分鐘,它對(duì)預(yù)測(cè)系數(shù)的提高已非常可觀。
圖6是這些變量在解釋GPA數(shù)據(jù)方差總量中所占的比例。其中,綜合推理高出UGPA 10個(gè)百分點(diǎn),高出分析性寫作14個(gè)百分點(diǎn),僅比GMAT總量表分?jǐn)?shù)(150分鐘,共88道題)低8個(gè)百分點(diǎn)。這從另一個(gè)角度展示了綜合推理在預(yù)測(cè)效度中的作用。
在這些預(yù)測(cè)效度分析之外,GMAC又針對(duì)性別、地域以及不同本科專業(yè)的學(xué)生做了同樣的分析,這些結(jié)果可以幫助商學(xué)院錄取學(xué)生時(shí)作出更精準(zhǔn)的判斷。
圖6 預(yù)測(cè)變量在解釋GPA方差中所占的比例
綜合推理試題在GMAT考試中已正式使用近4年,它對(duì)商科學(xué)生學(xué)業(yè)的預(yù)測(cè)能力逐漸為各大商學(xué)院所認(rèn)可。2016年3月GMAC在為美國(guó)6所著名大學(xué)EMBA申請(qǐng)人量身定做的入學(xué)考試(Executive Assessment)中,綜合推理的試題數(shù)量及考試時(shí)間已與文本推理、定量推理基本相當(dāng),進(jìn)一步表明了商科教授對(duì)這部分測(cè)試內(nèi)容的重視。另外,據(jù)GMAC在2013年對(duì)商學(xué)院校友的調(diào)查報(bào)告,善于使用綜合推理能力在職場(chǎng)中至關(guān)重要,它們?cè)诠ぷ髦斜皇褂玫念l率明顯影響到商科人士收入的高低。這些研究結(jié)果及市場(chǎng)反饋肯定了GMAT改版的前瞻性和必要性,也證實(shí)了綜合推理考試設(shè)計(jì)和創(chuàng)新題型研發(fā)的成功性。本文希望可以為其他考試機(jī)構(gòu)開發(fā)考試、設(shè)計(jì)創(chuàng)新題型,以及進(jìn)行效度研究提供一些可以借鑒的經(jīng)驗(yàn)。
表8 綜合推理考試對(duì)預(yù)測(cè)效度的提高
參考文獻(xiàn)
[1]SIEGERT K O,GUO F.Assessing the reliability of GMAT Analyti?cal Writing Assessment:GMAC Research Report,RR-09-02[R]. McLean,VA:Graduate Management Admission Council,2009.
[2]DUMAS C,BLODGETT M,CARLSON P,PANT L,VENKATRA?MAN M.Revitalizing the MBA for the new millennium:A collabora?tive action research approach[J].International Journal of Value-Based Management,2000,13(3):229-253.
[3]LOADES R.A Review of the Curricula of 135 European Pre-Experi?ence Master Degree Programmes:GMAC Research Report,RR-09-11[R].McLean,VA:Graduate Management Admission Council,2009.
[4]GAO X,BRENNAN R L,GUO F.Modeling Measurement Facets and Assessing Generalizability in a Large-scale Writing Assess?ment:GMAC Research Report,RR-15-01[R].Reston,VA:Grad?uate Management Admission Council,2015.
[5]WANG S,MCCALL M,JIAO H,HARRIS G.Construct validity and measurement invariance of computerized adaptive testing:Ap? plication to Measures of Academic Progress(MAP)using confirma?tory factor analysis[J].Journal of Educational and Developmental Psychology,2013,3(1):88.
[6]GUO F.Principal Component Analyses on the GMAT with Integrat?ed Reasoning:Assess the Underlying Statistical Structure of Your Test in order to Optimize Design and Scores[C].Scottsdale,AZ,2014.
[7]HAN K T.Using structural equation modeling approach to investi?gate latent factor structure across subtests:Assess the Underlying Statistical Structure of Your Test in order to Optimize Design and Scores[C].Scottsdale,AZ,2014.
[8]KAPLAN R,SACUZZO D.Psychological testing:Principles,appli?cations,and issues(4th ed.)[M].Pacific Grove,CA:Brooks/Cole,1997.
[9]HUNTER J,SCHMIDT F.Methods of meta-analysis:Correcting er?ror and bias in research findings[M].Newbury Park,CA:Sage,1990.
GMAT Integrated Reasoning Section:Design and Development
GUO Fanmin,MENG Huijuan,HAN Kyung(Chris)Tyek&TALENTO-MILLER Eileen
Based on the thorough surveys and investigations,Graduate Management Admission Council(GMAC)identified the academic abilities that business school students would need to successfully complete the graduate business school core curriculum.After 7 years’design,development,and research,in June 2012,GMAC added Integrated Reasoning,a new section with all newly designed innovative items,to the existing exam.This paper presents the research and development process of this section,and demonstrates its test validity through concrete evidences,hoping to shed lights on test development,innovative item design,and validity study.
Test Development;Validation;Innovative Item;GMAT
G405
A
1005-8427(2016)11-0003-10
(責(zé)任編輯:陳睿)
郭凡民,男,博士,美國(guó)管理類研究生招生理事會(huì),副總裁(美國(guó)弗吉尼亞州 22190)
孟匯涓,女,博士,美國(guó)管理類研究生招生理事會(huì),高級(jí)心理測(cè)量師(美國(guó)弗吉尼亞州 22190)
HanKyung(Chris)Tyek,男,博士,美國(guó)管理類研究生招生理事會(huì),高級(jí)心理測(cè)量師(美國(guó)弗吉尼亞州 22190)
Talento-Miller Eileen,女,博士,美國(guó)管理類研究生招生理事會(huì),高級(jí)心理測(cè)量師(美國(guó)弗吉尼亞州 22190)