国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于認知診斷理論的國際中文閱讀測驗Q 矩陣的構(gòu)建

2023-11-16 16:22:18李亞男
華文教學(xué)與研究 2023年4期
關(guān)鍵詞:測驗考查專家

劉 慧,李亞男,2

(1.北京語言大學(xué)語言科學(xué)院,北京 100083;2.漢考國際教育科技(北京) 有限公司,北京 100088)

1. 引言

閱讀能力是人類最重要的能力之一,同時,閱讀能力高度復(fù)雜。盡管在閱讀能力的構(gòu)成上,以往研究者并未能完全達成一致,但絕大多數(shù)研究者認為閱讀能力由不同能力要素構(gòu)成(Lee & Schallert,1997)。在語言測驗領(lǐng)域,很多研究者認為閱讀能力是可細分的(Grabe,2009:39),這些細分的閱讀能力就稱為閱讀子技能。

在國際中文教育中,學(xué)習(xí)者閱讀能力的發(fā)展情況,是教學(xué)中師生共同關(guān)心的問題?,F(xiàn)實中,由于個體差異的存在,尤其是國際中文學(xué)習(xí)者背景(母語、性格、語言學(xué)習(xí)能力、學(xué)習(xí)風(fēng)格、動機、對語言學(xué)習(xí)的態(tài)度等)差別大,這會在不同程度上對國際中文習(xí)得的不同方面產(chǎn)生影響,其閱讀能力的發(fā)展情況也會更加分化。然而,對于各閱讀子技能發(fā)展情況的描述,傳統(tǒng)的測驗分數(shù)和偏誤分析都無法實現(xiàn),而認知診斷分析可以勝任。

認知診斷理論通過運用統(tǒng)計模型識別技術(shù),能夠從被試在測驗各個題目上的實際作答反應(yīng)出發(fā),推斷其內(nèi)在子技能的發(fā)展?fàn)顩r。閱讀領(lǐng)域的認知診斷分析可以報告學(xué)生各閱讀子技能發(fā)展情況,明確其優(yōu)勢和弱勢;能夠為下一步的教學(xué)提供更加詳細的建議,進行更加直接的指導(dǎo),為“因材施教”提供基礎(chǔ)。

實際上,語言測驗都有提供診斷信息的潛力(Bachman,1990:60),以往國內(nèi)外相關(guān)研究也確實在閱讀領(lǐng)域成功進行了一系列診斷分析(Buck、Tatsuoka&Kostin,1997;Jang,2009)。不過,縱觀以往閱讀測驗領(lǐng)域的診斷研究,尤其是國際中文閱讀的相關(guān)研究,關(guān)注點多在于認知診斷模型的使用,主要考查認知診斷模型能否應(yīng)用于相應(yīng)的測驗,而對于如何構(gòu)建Q 矩陣關(guān)注不足。

Q 矩陣反應(yīng)的是子技能水平上的測驗結(jié)構(gòu),其合理構(gòu)建是成功進行認知診斷分析的先決條件(Tatsuoka,1983)。同時,目前的閱讀測評使用的幾乎均為大型標(biāo)準(zhǔn)化測驗,這些測驗一般基于非診斷目的開發(fā),屬于傳統(tǒng)的非診斷性測驗;想要從中獲取診斷信息,更是需要首先分析測驗本身所考查特質(zhì)的構(gòu)成,確定Q矩陣。因此,研究擬以中小學(xué)生漢語考試(以下簡稱“YCT”)測驗為例,對國際中文閱讀測驗Q矩陣的構(gòu)建進行專門探討,具體研究兩個問題:(1)YCT(四級)閱讀測驗考查了哪些閱讀子技能?(2)國際中文閱讀測驗的Q 矩陣應(yīng)當(dāng)如何構(gòu)建?期望對上述問題所進行的探討,能夠為后續(xù)研究確定Q 矩陣提供更多參考建議,提升國際中文閱讀測驗診斷分析的效用。

2. 研究背景

2.1 認知診斷理論

認知診斷理論(Cognitive Diagnostic Theory,CDT)是新一代測量理論,它不將測量的特質(zhì)看作意義模糊的統(tǒng)計結(jié)構(gòu),而是致力于描述個體不同的認知結(jié)構(gòu)。認知診斷理論由Q 矩陣和認知診斷模型兩部分構(gòu)成。

Q 矩陣定義的是正確作答每道題目所需要掌握的子技能,它從不可觀測的多個潛在子技能的角度對可觀測的測驗題目的表現(xiàn)進行解釋,體現(xiàn)了子技能水平上的測驗認知結(jié)構(gòu)。Q 矩陣的行代表題目,列代表子技能;如果Q 矩陣的元素qjk的值為1,就表示第j道題目考查了第k個子技能;如果為0,就表示第j道題目沒有考查第k個子技能。

認知診斷模型根據(jù)Q矩陣和實測作答反應(yīng)來推斷被試子技能掌握狀態(tài),目前大多數(shù)認知診斷模型都定義了一個函數(shù),這個函數(shù)用來表達被試對某道題目正確作答的概率與這道題目所考查的子技能和被試的子技能掌握情況之間的關(guān)系;它們既可以用于專門的診斷性測驗,也可以用于傳統(tǒng)的非診斷性測驗(Fu&Li,2007)。

2.2 以往的閱讀認知診斷研究及其Q 矩陣的構(gòu)建

從上世紀(jì)末開始,研究者就已經(jīng)開始了閱讀領(lǐng)域的認知診斷研究,目前已經(jīng)有了一定的積累。以往研究中,絕大多數(shù)都是基于傳統(tǒng)的非診斷性測驗開展的。

Buck 等(1997)是閱讀領(lǐng)域首批認知診斷研究的代表,研究采用文獻回顧、專家判斷和回歸分析等多種方法確定Q 矩陣,然后使用規(guī)則空間模型對考生在托業(yè)考試閱讀部分的作答進行分析。Jang(2009)是后期研究的代表,研究采用文獻回顧、出聲思維和基于縮減融合模型(The reduced reparametrized unified model,R-RUM) 的量化分析方法確定Q 矩陣,并用R-RUM 對LanguEdgeTM 閱讀測驗進行認知診斷分析。蔡艷等(2011)是國內(nèi)相關(guān)研究的代表,研究采用文獻回顧和專家判斷方法建立Q 矩陣,并采用分層回歸分析等方法對Q 矩陣進行認定,然后使用屬性層級模型對英語高考閱讀理解進行分析。

在國際中文閱讀領(lǐng)域,也有研究者不斷進行探索。黃海峰(2010)采用文獻回顧和因素分析相結(jié)合的方法確定了Q 矩陣,然后使用融合模型對考生在漢語水平考試(HSK)初、中等閱讀測驗上的作答表現(xiàn)進行分析;鹿士義和苗芳馨(2014)采用文獻回顧和問卷調(diào)查相結(jié)合的方法確定子技能及其層級關(guān)系并計算Q 矩陣,然后使用規(guī)則空間模型對某大學(xué)入學(xué)分班的閱讀理解測驗進行診斷性研究。

由以上研究可知,Q 矩陣的構(gòu)建是進行診斷分析的重要基礎(chǔ)。Q 矩陣構(gòu)建通常通過“定義子技能”和“建立Q 矩陣”這兩個步驟實現(xiàn)(Lee & Sawaki,2009)?!岸x子技能”時,一般會對相關(guān)領(lǐng)域認知子技能構(gòu)成的理論進行回顧,并結(jié)合目標(biāo)測驗的特點對測驗所考查的子技能進行定義;在條件具備的情況下,出聲思維法和專家判斷法也是定義子技能的比較有效的方法。“建立Q 矩陣”時,一般會使用兩類方法,一類是僅基于對測驗內(nèi)容本身的分析,另一類是將測驗內(nèi)容分析和量化分析相結(jié)合。第一類方法是指由一位或者多位專家對目標(biāo)測驗的每道題目內(nèi)容進行分析并編碼(Douglas、de la Torre、Chang、Henson&Templin,2006),第二類方法是指在測驗內(nèi)容分析的基礎(chǔ)上,再依靠量化分析識別內(nèi)容分析中專家判斷與實測數(shù)據(jù)不匹配之處,進而對依據(jù)測驗內(nèi)容分析所建立的Q 矩陣進行優(yōu)化。

以往大多數(shù)閱讀認知診斷研究在建立Q 矩陣時,采用了將測驗內(nèi)容分析和量化的實證數(shù)據(jù)分析相結(jié)合的方法。在量化方法的選擇上,有研究采用了因素分析(Jang,2005;黃海峰,2010)、回歸分析(Buck 等,1997)等方法,也有研究采用了基于認知診斷模型的量化分析方法。這些方法中,因素分析方法表現(xiàn)并不太好,尤其是對于傳統(tǒng)的非診斷性測驗來說(Li & Suen,2014);回歸分析方法也只能對Q矩陣的合理性進行較為粗略的判斷;而不少認知診斷模型能夠?qū)蝹€測驗題目的表現(xiàn)進行分析,并能夠?qū)ψ蛹寄芊峙涞木唧w情況進行評估,從而更精確地識別測驗內(nèi)容分析中可能出現(xiàn)的誤判,在Q 矩陣構(gòu)建中表現(xiàn)良好。R-RUM 模型(DiBello、Stout & Roussos,1995)就是這種認知診斷模型的典型代表。

在國際中文閱讀測驗領(lǐng)域,以往診斷研究在構(gòu)建Q 矩陣時,僅僅通過測驗內(nèi)容分析直接確定Q 矩陣(鹿士義、苗芳馨,2014),或者在測驗內(nèi)容分析的基礎(chǔ)上,通過因素分析、回歸分析等量化分析對Q 矩陣的合理性進行總體評估(黃海峰,2010);少有研究采用基于認知診斷模型的方法對Q 矩陣的合理性進行精細評估。

3. 研究方法

3.1 研究工具

本研究所用測驗為YCT(四級)的閱讀分測驗。

YCT 是一項旨在考察漢語非第一語言的中小學(xué)生的漢語應(yīng)用能力的大型國際漢語能力標(biāo)準(zhǔn)化考試,分為四個級別,水平從低到高分別為YCT(一級)、YCT(二級)、YCT(三級)、YCT(四級)。YCT(四級)考查考生的日常中文應(yīng)用能力,共80 題,分聽力、閱讀和書寫三部分,其中閱讀測驗長度為30 題,包括四種題型,均為四選一的單項選擇題。第一種題型,每題提供一張圖片和3 個句子選項,要求考生選出對應(yīng)圖片的一項;第二個題型提供20個句子,每10 個一組,要求考生找出對應(yīng)關(guān)系;第三個題型提供一個單輪對話,對話中有一個空格,要求考生選詞填空;第四個題型提供一句或兩句話,之后有一個問題,要求考生從備選項中選出答案。

3.2 研究設(shè)計

研究擬綜合采用文獻回顧法、專家判斷法和基于認知診斷模型的量化分析方法構(gòu)建Q 矩陣。首先,通過文獻回顧法初步析出測驗所考查的閱讀子技能;然后,利用專家判斷法,對初步析出的子技能進行考查并構(gòu)建初始Q 矩陣;接下來,采用基于R-RUM 模型的量化方法對初步構(gòu)建的Q 矩陣進行優(yōu)化;最后,對Q 矩陣的合理性進行檢驗。

專家判斷法的基本流程為:(1)對目標(biāo)測驗的目標(biāo)群體、考察目的、測驗構(gòu)成等相關(guān)情況進行詳細介紹,為專家分發(fā)全部題目,并請專家閱讀試題;(2)介紹主要的閱讀能力認知結(jié)構(gòu)理論模型,報告初步析出的閱讀子技能清單;(3)請專家結(jié)合目標(biāo)測驗具體情況,對初步析出的子技能清單進行討論,確定子技能清單;(4)專家對目標(biāo)測驗的每一道題目獨立標(biāo)注目標(biāo)群體在作答時需用到的子技能;(5)全部專家對題目標(biāo)注完成后,對各題所考查的子技能進行逐題討論;如果專家們在某題目上無法達成一致,就采用專家出聲思維法對該題考查的子技能進行討論并做出決定;(6)基于專家組確定的各題所考查的子技能,構(gòu)建初始Q矩陣。

3.3 被試構(gòu)成和專家組構(gòu)成

3.3.1 被試構(gòu)成

研究采用的數(shù)據(jù)為2017 年4 月全球施測的YCT(四級)閱讀分測驗的考生作答結(jié)果和成績,經(jīng)清理后的有效數(shù)據(jù)共1101 條。試卷質(zhì)量分析顯示:以原始分計,考生成績均值為18.04,測驗的平均通過率為0.60,試卷難度中等偏易;全卷標(biāo)準(zhǔn)差為6.67,考生成績變異合理,考生成績?nèi)酁? 分到滿分30 分,得分分布較廣;試卷α 系數(shù)為0.88,信度較高,較為穩(wěn)定;全卷平均點二列相關(guān)為0.47,題目區(qū)分度很好,試題質(zhì)量不錯。

3.3.2 專家構(gòu)成

專家組由5 名成員構(gòu)成,均有三年以上國際中文教學(xué)經(jīng)驗,熟悉漢語水平考試,且長期參與YCT 或HSK 的命題、審題工作。其中,有三位專家為大學(xué)教師,兩位專家為考試機構(gòu)資深工作人員,另有一位語言學(xué)專業(yè)的碩士生進行會議記錄。

3.4 數(shù)據(jù)處理

研究過程中涉及到的數(shù)據(jù)處理有三類:基本測量學(xué)指標(biāo)的分析采用ITEMAN 軟件完成,基于R-RUM 進行的分析采用Arpeggio 軟件完成,其他的數(shù)據(jù)整理和處理采用R 軟件自編程序完成。

4. 研究結(jié)果

4.1 認知子技能的初步析出及確認

研究首先基于YCT(四級)閱讀測驗的基本特點,在閱讀認知過程和閱讀能力評估相關(guān)文獻分析的基礎(chǔ)上,初步析出了YCT(四級)閱讀測驗所考查的閱讀子技能初始清單。

以往研究中,多數(shù)研究者認為閱讀是一種高度復(fù)雜的活動,閱讀能力由不同的能力要素構(gòu)成(LEE&Schallert,1997),并且認為閱讀能力可細分(Grabe,2009:39)。然而,在閱讀能力具體包含哪些子技能上,不同的研究者從不同的視角出發(fā),觀點并未能夠達成一致(Davis,1968;Grabe,2009:21-58)??紤]到閱讀能力的潛在結(jié)構(gòu)確實會隨研究內(nèi)容或研究目的不同而不同(Song, 2008),本研究采用文獻分析法初步析出子技能時,重點依據(jù)在閱讀測驗背景下構(gòu)建的閱讀認知過程模型。

Perfetti(1999)、Grabe(2009)以及Khalifa和Weir(2009)描述了語言測試領(lǐng)域比較重要的三種閱讀認知過程的模型。三個模型雖然在包含的具體要素上略有不同,但其大體結(jié)構(gòu)相似,均認為閱讀認知過程包括從“詞匯識別”到“建立命題”直至“建立各種層面的文本表征”,且各層級的切分框架與以往認知診斷研究的結(jié)果(Jang,2009;Li & Suen,2014)也較為一致。因此,我們將這類模型作為本研究析出YCT(四級)所考查閱讀子技能的基礎(chǔ)模型。具體到Y(jié)CT(四級)閱讀測驗來說,其涉及的文本均為一句或兩句話,不考查語段和篇章,那么測驗考查的閱讀子技能也就不應(yīng)包括語段及以上層面文本表征構(gòu)建的能力(Khalifa&Weir,2009:34-61)。

基于以上考慮,研究提取了上述三個模型中建立文本模型之前所涉及的全部五種認知技能(具體為“詞匯識別”“詞義獲取”“句法分析”“意義命題構(gòu)建”和“推理”),作為YCT(四級)閱讀測驗的認知子技能的初始清單,并將其提交至專家組。

在對試題內(nèi)容進行逐一考察后,專家組認為通過文獻回顧法析出的子技能初始清單總體合理。不過,結(jié)合YCT(四級)具體情況,專家組提出,作為一項大型標(biāo)準(zhǔn)化測驗,測驗中并沒有題目能夠?qū)Α霸~匯識別”與“詞義獲取”這兩種能力進行單獨考查,建議將兩子技能合并,統(tǒng)稱為“詞匯識別”。

通過以上步驟,研究確定了目標(biāo)測驗所考查的四個子技能,即:詞匯識別、句法分析、語義命題構(gòu)建和推理,見表1。

表1:閱讀子技能清單

4.2 Q 矩陣的初步析出及優(yōu)化

在確定子技能清單后,專家對每道題目所考查的子技能進行獨立判斷和標(biāo)注。全部專家均標(biāo)注完成后,專家組對題目所考查的子技能逐題匯總、討論。討論過程中,若專家組在某道題目所考查的子技能上無法達成一致,采用專家出聲思維法(Afflerbach &Johnston,1984)對相應(yīng)題目考查的子技能進行討論:請專家重新對相應(yīng)題目進行作答,在作答過程中,作為成熟且可以去自動化的閱讀者對自己的思考過程進行出聲報告,然后依據(jù)五位專家出聲思維報告的結(jié)果對該題目考查的子技能進行再次標(biāo)注和分析。多輪討論后,專家組對測驗在認知子技能水平上的結(jié)構(gòu)形成最終的意見,進而析出初始Q 矩陣(見表2)。

表2:初始Q 矩陣

如前所述,R-RUM 模型可以識別基于測驗內(nèi)容分析得到的初始Q 矩陣中可能出現(xiàn)的誤判,對其進行優(yōu)化。進行優(yōu)化時,主要考查模型的兩個題目參數(shù)π*和,它們能夠?qū) 矩陣為每道題目所指派每個子技能的合理性進行評估。

R-RUM 模型如公式(1)所示。

其中P是被試n正確作答題目i的概率;αn=(αn1,...αnk)代表被試n對所有k個子技能的掌握狀態(tài),αnk=0/1 表示該被試“未掌握/掌握”相應(yīng)子技能;π*是指被試在掌握某個題目所考查所有子技能的情況下正確作答題目的概率;是指沒有掌握題目i所考查的子技能的被試在題目i上的正確作答概率與掌握了子技能的被試在該題目上正確作答概率的比值,定義為,其值越小,表明題目i越能將掌握子技能k的被試和未掌握子技能k的被試區(qū)分開來。

基于初始Q 矩陣,本研究估計了30 個π*和42 個。一般認為,若值小于0.6,表示Q 矩陣對題目所考查子技能的指派不充分,也就是對于Q 矩陣中指派給第i道題目的子技能來說,這道題目過難,那么應(yīng)給第i道題目指派更多或更難的子技能;若參數(shù)值大于0.9,表示掌握子技能k對于被試在題目i上的表現(xiàn)影響很小,意味著Q 矩陣對題目所考查子技能的指派有冗余,應(yīng)將Q 矩陣中相應(yīng)的對應(yīng)關(guān)系解除(Leighton & Gierl,2007)。本研究初始Q矩陣估計結(jié)果顯示、、、和共五個參數(shù)值大于0.9,基于此,研究對相應(yīng)題目逐題分析,考查此五組對應(yīng)關(guān)系的指定是否合理。通過題目分析,專家組認為第11、13 和15 題對第一個子技能、第24 題對第二個子技能以及第3 題對第三個子技能并沒有進行考查,這五道題目和相應(yīng)子技能的五組對應(yīng)關(guān)系不存在,建議將這五組對應(yīng)關(guān)系刪除,形成優(yōu)化的Q 矩陣。

基于優(yōu)化的Q 矩陣,研究使用R-RUM 模型對被試作答反應(yīng)進行第二輪估計,結(jié)果如表3 所示。

表3:R-RUM 模型基于優(yōu)化Q 矩陣的題目參數(shù)估計結(jié)果

表3 顯示,全部題目參數(shù)均值為0.88,所有值均大于0.6,且過半值都大于0.9,也就是說優(yōu)化的Q 矩陣對題目考查的子技能的指派比較充分、無重要子技能遺漏;全部題目對所考查全部子技能的值均小于0.9,15 個值小于0.5,也就是說優(yōu)化的Q矩陣對題目與其所考查子技能關(guān)系的認定不存在冗余。

綜上,優(yōu)化的Q 矩陣對每道題目所考查子技能的認定既充分又無冗余,題目與其所考查子技能對應(yīng)關(guān)系的認定較為合理。

4.3 Q 矩陣的檢驗:模型與數(shù)據(jù)擬合檢驗

在確認估計出來的題目參數(shù)的合理性后,研究對模型與數(shù)據(jù)的擬合情況進行了檢驗。為了直接評估數(shù)據(jù)模型的擬合情況,并且充分利用R-RUM 模型估計的全信息,研究擬合優(yōu)度采用了后驗預(yù)測檢驗(Henson、Roussos &Templin,2005)。采用R-RUM 模型進行分析時,模型與數(shù)據(jù)的擬合檢驗指標(biāo)一般為題目難度、題目對之間的相關(guān)以及測驗分數(shù)分布情況的平均偏差(BIAS)、均方根誤差(The overall Root Mean Squared Error,RMSE)以及平均絕對離差(The overall Mean Absolute Deviations,MAD);另外,由于分數(shù)分布的平均偏差總是會為0,因此計算測驗分數(shù)分布的擬合情況時,計算指標(biāo)不是平均偏差,而是最大偏差(maximum deviation,MAXD)。本研究模型與數(shù)據(jù)的擬合情況見表4。

表4:模型與數(shù)據(jù)的擬合優(yōu)度

表4 顯示,在題目難度、題目對之間的相關(guān)以及測驗分數(shù)分布情況這三個方面,基于實際觀測值與基于模型的預(yù)測值計算得到的BIAS(MAXD)、RMSE 以及MAD 值均較小(Jang,2009;Henson、Roussos & Templin,2005)。這一結(jié)果表明數(shù)據(jù)與模型擬合較好,優(yōu)化的Q 矩陣得到了模型與數(shù)據(jù)擬合檢驗的支持。

5. 討論

5.1 YCT (四級)閱讀測驗所考查能力的構(gòu)成

確定目標(biāo)測驗所考查的子技能是構(gòu)建Q矩陣的第一步,因此研究首先對YCT(四級)閱讀分測驗所考查的子技能進行了分析。

文獻回顧和專家判斷顯示,YCT(四級)閱讀測驗考查了“詞匯識別”“句法分析”“語義命題構(gòu)建”和“推理”四種子技能。對照YCT(四級)大綱中規(guī)定考查的語言能力可知,其閱讀測驗的考查目標(biāo)集中在基礎(chǔ)閱讀能力上,對于高層級閱讀能力涉及較少。本文析出的四種閱讀子技能聚焦于詞匯和句子層面的基本語義理解和語義命題構(gòu)建,不涉及高層級能力,與YCT(四級)閱讀分測驗的考查目標(biāo)比較一致。

細觀可知,測驗對四個子技能的考查強度并不相同:“詞匯識別”子技能考查了21 次,“句法分析”5 次,“語義命題構(gòu)建”8 次,“推理”3 次?!霸~匯識別”和“語義命題構(gòu)建”均為低層級的閱讀技能(Grabe,2009:21-38),YCT(四級)將閱讀考查重點放在這兩種子技能上,與其考試定位一致。雖然“句法分析”也是一種低層級的閱讀技能,但測驗對其僅有5 次考查,且考查多嵌套在交際任務(wù)中,而非進行單純的語法考查,這應(yīng)與測驗開發(fā)的理念相關(guān):重視考生漢語實際應(yīng)用能力,不強調(diào)對具體語法點的考查。另外,“推理”是對文本中沒有明確提及信息的加工過程,它是基于“語義命題構(gòu)建”或者考生的背景知識進行的,屬于稍高層級的閱讀技能,不是YCT(四級)的考查重點,僅有3 次考查也符合這一定位。

這四種閱讀子技能的確認,不但明確了YCT(四級)閱讀測驗所考查能力的基本結(jié)構(gòu),而且為析出Q 矩陣,進而進行診斷分析奠定了基礎(chǔ)。

5.2 國際中文閱讀測驗Q 矩陣的構(gòu)建

合理的Q 矩陣是診斷分析指導(dǎo)教學(xué)實踐、為教學(xué)提供切實有效建議的重要基礎(chǔ)。以往研究中,雖有研究單獨采用質(zhì)性分析方法來構(gòu)建Q 矩陣,但更多的研究采用的是質(zhì)性與量化相結(jié)合的方法(Lee&Sawaki,2009)。

以往研究所采用的質(zhì)性分析方法主要包括文獻回顧、專家判斷和出聲思維等方法。本研究質(zhì)性分析同樣采用了文獻回顧和專家判斷方法,并基于這兩種方法,確認了測驗所考查的子技能、構(gòu)建了初始Q 矩陣。雖然被試的出聲思維報告可以更直接地獲取其語言處理過程(Kucan & Beck,1997),但研究未采用此方法,這主要是因為目標(biāo)被試在漢語水平和認知能力兩方面都處于不太成熟的階段,在完成試題作答的同時用漢語進行出聲思維報告存在較大的困難;而如果無法保證被試在報告過程中所述信息的準(zhǔn)確性,出聲思維方法的效果就會大打折扣。

構(gòu)建Q 矩陣所使用的量化方法,隨著模型開發(fā)的進展,存在較大的變化。早期研究中的量化方法一般采用較為簡單的指標(biāo),幫助研究者對子技能的取舍進行粗略判斷,比如Buck 等(1997)采用了多種基礎(chǔ)指標(biāo):均值低于0.98、與總分的相關(guān)大于0.2 和偏回歸系數(shù)(在對總分的多重線性回歸中)在0.0001水平上顯著不為0 的子技能能夠被保留下來。后期研究不少都采用了基于認知診斷模型的量化方法,能夠利用更為細致的指標(biāo)對子技能的作用進行具體評估,基于R-RUM 模型的方法就是其中較為突出的一種。本研究采用了質(zhì)性與量化相結(jié)合的方法,基于多角度證據(jù)來源構(gòu)建目標(biāo)測驗Q 矩陣。對實證數(shù)據(jù)進行量化分析時,研究通過R-RUM 模型的兩個題目參數(shù)對子技能指派的必要性和冗余度進行判斷,通過模型與題目的擬合指標(biāo)對Q 矩陣所構(gòu)建的模型與實測數(shù)據(jù)的擬合情況進行判斷,并以此為依據(jù)對初始Q 矩陣進行優(yōu)化和檢驗。

綜上,本研究采用文獻回顧、專家判斷、基于認知診斷模型的數(shù)據(jù)分析等橫跨質(zhì)性和量化兩方面的方法,構(gòu)建出了YCT(四級)閱讀測驗的Q 矩陣。對于結(jié)構(gòu)復(fù)雜、所包含子技能模糊的國際中文閱讀測驗來說,多角度的證據(jù)來源能夠進行交叉驗證,從而在更大程度上保障所構(gòu)建Q 矩陣的合理性。

5.3 非診斷性閱讀測驗Q 的構(gòu)建

開發(fā)真正的診斷性測驗或者從非診斷性測驗中抽取診斷信息,是當(dāng)下獲取診斷信息的兩種途徑。目前,在閱讀測驗領(lǐng)域,真正的診斷性測驗極少,因為診斷性測驗的開發(fā)絕非易事,需要耗費大量的人力、物力和時間(Alderson、Haapakangas、Huhta、Nieminen &Ullakonoja,2015)。因此,從非診斷性測驗中抽取診斷信息,雖然并非獲取診斷信息的最優(yōu)途徑,卻是目前較為可行的方案,尤其是對于還沒有真正的診斷性測驗的國際中文閱讀領(lǐng)域來說。

非診斷性測驗構(gòu)建Q 矩陣需要對現(xiàn)有測驗進行事后分析,合理的Q 矩陣對于診斷分析的成功實施具有決定性意義。本研究確認的閱讀子技能有4 個,這個數(shù)量與以往不少研究相當(dāng),比如Li & Suen(2014)和Lee & Sawaki(2009)。實際上,在構(gòu)建非診斷性測驗Q 矩陣時,子技能粒度大小的設(shè)置尤為關(guān)鍵。子技能粒度是指對子技能劃分的細致程度,粒度大則子技能劃分較粗、數(shù)量較少,粒度小則子技能劃分較細、數(shù)量較多。子技能粒度越小,診斷能力就越強,分析結(jié)果對現(xiàn)實中教學(xué)實踐的指導(dǎo)就可能越具針對性??紤]到診斷需求的滿足,子技能粒度應(yīng)小一些。然而,對于非診斷性測驗來說,測驗開發(fā)時的藍圖一般并未能考慮到事后進行診斷性分析的需求,如果在事后確定Q 矩陣時子技能劃分過細,很可能會導(dǎo)致測驗對某些重要子技能的考查次數(shù)過少甚至未能考查某些重要的子技能;而一般來說,如果單個子技能的考察次數(shù)不足三次,認知診斷模型中的相關(guān)參數(shù)很難得到準(zhǔn)確估計,也就是說子技能的考察次數(shù)不足會給后面的參數(shù)估計以及診斷分析的結(jié)果報告等帶來一系列的困難。由此可知,因為非診斷性測驗Q矩陣的構(gòu)建需要在現(xiàn)存測驗的框架下進行,就必須綜合、平衡更多方面的要求,從而更加具有挑戰(zhàn)性。

當(dāng)然,我們同樣清楚,即使構(gòu)建Q 矩陣時考慮得比較全面,基于非診斷性測驗所進行的診斷分析,仍然無法擺脫現(xiàn)存測驗本身固有特征的束縛。開發(fā)真正的診斷性測驗,能夠在根本上保障診斷信息的獲取,后續(xù)研究可以在這一領(lǐng)域持續(xù)發(fā)力。

6. 結(jié)論

研究通過文獻分析法與專家判斷法,得到了目標(biāo)測驗所考查的閱讀子技能并初步構(gòu)建了Q 矩陣;通過基于R-RUM 模型的量化分析,對初始Q 矩陣進行了優(yōu)化和檢驗。結(jié)果表明,YCT(四級)閱讀測驗考查了“詞匯識別”“句法分析”“語義命題構(gòu)建”和“推理”四種子技能;對于所考查能力結(jié)構(gòu)復(fù)雜的現(xiàn)存大型標(biāo)準(zhǔn)化國際中文閱讀測驗而言,采用質(zhì)性分析與量化分析相結(jié)合的方法,能夠?qū)y驗對各子技能的考查情況進行全面、細致評估,并在此基礎(chǔ)上有效構(gòu)建Q 矩陣。

猜你喜歡
測驗考查專家
配合物的常見考查
致謝審稿專家
創(chuàng)新視角下高考中關(guān)于統(tǒng)計的考查
《新年大測驗》大揭榜
趣味(語文)(2018年7期)2018-06-26 08:13:48
例談氯及其化合物的學(xué)習(xí)與考查
釩及其化合物在高考中的考查
兩個處理t測驗與F測驗的數(shù)學(xué)關(guān)系
考試周刊(2016年88期)2016-11-24 13:30:50
請叫我專家
專家面對面
你知道嗎?
崇仁县| 内黄县| 芦溪县| 高台县| 屏东县| 沙雅县| 湘乡市| 河津市| 乌拉特后旗| 揭阳市| 哈巴河县| 永兴县| 昭苏县| 南昌市| 娄底市| 那坡县| 甘孜县| 娄烦县| 珲春市| 内乡县| 仪陇县| 临江市| 宁城县| 达孜县| 罗江县| 蕉岭县| 海宁市| 普兰县| 孙吴县| 炉霍县| 长岭县| 冕宁县| 交城县| 凤庆县| 历史| 弋阳县| 新兴县| 汨罗市| 绍兴县| 绥中县| 北京市|