楊呂娜
(北京師范大學(xué),北京 100875)
《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》和2014年國務(wù)院《關(guān)于深化考試招生制度改革的實施意見》明確指出,要完善教育質(zhì)量評價制度以及改革、完善測評方式和分數(shù)報告。作為能夠為學(xué)生個體化學(xué)習(xí)提供全面反饋信息的評價方式,診斷性評價成為研究的焦點。診斷性評價在認知診斷評估、診斷能力以及診斷反饋方面的新進展,將為新一代評分方式和成績報告的完善提供新的思路和改進路徑。
心理與教育測量理論發(fā)展至今大約經(jīng)歷了2個階段:一是標準測量理論階段,包括經(jīng)典測量理論、項目反應(yīng)理論和概化理論;二是以認知診斷為核心的新一代測量理論[1-3]。認知診斷作為教育測量興起的方法受到人們的廣泛關(guān)注[4-7],其聚焦于對個體知識結(jié)構(gòu)、加工技能或認知過程進行診斷評估[8]。由于經(jīng)典測試理論和項目反應(yīng)理論實質(zhì)上是根據(jù)測驗題目,探索被試在特定能力的連續(xù)體的位置。因此,基于這類理論的測試結(jié)果不能為學(xué)生與教師提供學(xué)習(xí)和教授的知識與技能的全面信息[9]。認知診斷以現(xiàn)代測量理論為基礎(chǔ),探索被試在考試中的認知過程、適用策略與知識結(jié)構(gòu)及其運用情況,并對高能力被試與低能力被試的差別進行刻畫,為教學(xué)和學(xué)習(xí)提供了豐富的診斷信息。與經(jīng)典測試理論和項目反應(yīng)理論以測試題考查單一能力的前提不同,認知診斷測驗強調(diào)試題考查能力的多維性。通過對粒化認知屬性(Fine-grained Attribute)呈現(xiàn)的知識結(jié)構(gòu)、加工技能或認知過程的刻畫,認知診斷能夠為個體提供認知能力結(jié)構(gòu)和性狀的認知診斷反饋。
診斷分類模型是基于測量和統(tǒng)計模型發(fā)展起來的,其最為人知的術(shù)語是認知診斷模型(Cognitive Diagnostic Models),但是,Rupp等認為應(yīng)當(dāng)將其稱作診斷分類模型(Diagnostic Classification Model)更為合理,可以避免將認知診斷模型只局限于認知心理學(xué)的研究和應(yīng)用[7]。
常用的認知診斷模型有:規(guī)則空間模型(Rule Space Methodology)、線性對數(shù)模型(Linear Logistic Model,LLM)、融合模型(Fusion Model)、DINA 模型(Deterministic Input,Noisy and Gate Model)、NIDA模型(Noisy Input,Deterministic,and Gate Model)、貝葉斯網(wǎng)絡(luò)(Bayesian Network)、G-DINA模型(Generalized Deterministic Input,Noisy and Gate Model)。上述認知診斷模型可以歸納為3個類別:學(xué)生的思維模擬、概念網(wǎng)絡(luò)和心理計量的特質(zhì)模型[9]。目前認知診斷模型的研究發(fā)展主要體現(xiàn)在:一方面,對認知診斷模型的整合及模型—數(shù)據(jù)擬合的研究,如概括診斷模型;另一方面,從0-1評分到多級評分模型的拓展[3]。
許多學(xué)科均嘗試使用認知診斷方法研究考生的認知過程和心理特征。張偉平使用規(guī)則空間模型對中美學(xué)生的數(shù)學(xué)能力進行對比探索[10];涂冬波等將HO-DINA模型應(yīng)用到探討小學(xué)兒童數(shù)學(xué)問題解決的研究[11];許志勇等嘗試開發(fā)小學(xué)數(shù)學(xué)五年級的認知診斷測試[12];李金波等對高考考生在數(shù)學(xué)知識的掌握情況進行診斷[13-14];Sun等對小學(xué)六年級學(xué)生數(shù)學(xué)分數(shù)的認知屬性進行診斷[5];夏良英等對高中物理學(xué)業(yè)水平進行綜合認知診斷的探索[15];劉婷雁對漢語學(xué)習(xí)者漢字構(gòu)形意識進行概括診斷[16];徐式婧應(yīng)用認知診斷規(guī)則空間模型對參加漢語語言測試的考生進行聽力診斷,并為參測者提供聽力理解技能掌握情況的診斷性報告[17]。
在英語語言測試方面,認知診斷研究主要集中在閱讀和寫作領(lǐng)域[18-20]。陳慧麟等使用G-DINA模型對PISA閱讀測試屬性進行重新標定研究[21];Buck等對開放式答題的英語聽力試題采用規(guī)則空間方法的研究,共分離15種認知屬性,發(fā)現(xiàn)屬性之間存在14種交互[22];Jang針對模擬TOEFL考試的LanguEdge考試閱讀試題的認知屬性,具體展示了如何使用學(xué)生口頭報告與專家判斷確定試題和屬性間的關(guān)系,建立Q矩陣[4];Lee等針對TOEFL考試的閱讀和聽力試題的認知屬性,對概化認知診斷模型、融合模型、潛在特質(zhì)分析模型3種認知診斷模型的分析結(jié)果進行對比[6];蔡艷等針對中學(xué)生閱讀能力的認知屬性進行研究[23];Sheehan等針對美國青少年的文本加工技能進行研究[24];Buck等針對TOEIC考試閱讀試題的認知屬性進行研究[25];von Davier對TOEFL的閱讀和聽力試題的認知屬性進行研究[26];還有學(xué)者從評分標準入手,對寫作能力進行認知診斷研究[27-30]。
計算機化自適應(yīng)測驗(Computerized Adaptive Testing,CAT)隨著計算機技術(shù)和測量理論的發(fā)展,從20世紀70年代早期被引入到測試領(lǐng)域,目前已成為流行的測試方式。這種測試方式通過編程控制試題難度,使其盡量接近考生的能力水平,從而可以準確地刻畫考生的潛在特質(zhì)。隨著認知診斷理論的興起和快速發(fā)展,認知診斷計算機化自適應(yīng)測驗(Cognitive Diagnostic Computerized Adaptive Testing,CD-CAT)是CAT與認知診斷相結(jié)合的新方向。CD-CAT目前在教育測量領(lǐng)域的應(yīng)用得到了人們的廣泛關(guān)注,形成了一系列的研究成果[31-38]。CD-CAT不僅可以提供關(guān)于考生優(yōu)缺點的診斷反饋,而且可以提高診斷的準確性和效率。
作為一種評價方式,診斷性評價同樣需要教師和學(xué)習(xí)者具備發(fā)現(xiàn)關(guān)鍵特征和正確解讀分數(shù)的能力,即診斷能力(Diagnostic Competence)。對于教師而言,診斷能力在提倡培養(yǎng)和提高教師評估素養(yǎng)(Assessment Literacy)方面尤為重要。對于學(xué)習(xí)者而言,自我評估(Self-Assessment)也對學(xué)習(xí)者自身的診斷能力提出了要求。目前關(guān)于診斷能力的研究主要從形成性評價的角度出發(fā)[39-40],更關(guān)注對教師診斷能力的研究。
Salder在對形成性評價進行分析后,對診斷能力作出如下定義:“評價者應(yīng)對學(xué)生表現(xiàn)的質(zhì)量有明確的概念;能辨別學(xué)生目前的表現(xiàn)與目標間的差距以及能選擇適合的活動幫助學(xué)習(xí)者向目標邁進?!盵40]類似地,Edelenbos等對語言教師的診斷能力進行研究,將其定義為“能解讀學(xué)生的語言進步,能技巧地處理評價材料,能基于診斷給學(xué)生提供適宜的幫助”[41];同時,將教師診斷能力的行為表現(xiàn)劃分為6個級別的能力水平,并對各個級別的水平作出詳細的刻畫,為對教師診斷能力的培訓(xùn)和評價提供了良好的參照。
Rea-Dickins等通過研究形成性測試的信度和效度,探究教師的診斷能力[39]。這項研究通過將教師對學(xué)生課堂活動表現(xiàn)的記錄和轉(zhuǎn)錄的學(xué)生活動表現(xiàn)進行對比,發(fā)現(xiàn)在很多情況下教師對學(xué)生的表現(xiàn)只是記錄,并沒有注意到關(guān)鍵特征,而且在記錄學(xué)生表現(xiàn)時出現(xiàn)很多錯誤,為此,呼吁加強對教師進行診斷能力的培訓(xùn)。
診斷性評價為學(xué)習(xí)者提供更全面、更精細的反饋內(nèi)容,包括優(yōu)勢和劣勢信息。為了讓診斷反饋信息的使用效果最大化,診斷性評價對教師的診斷能力提出了更高的要求:應(yīng)能解讀學(xué)生反饋報告的信息,指導(dǎo)學(xué)生根據(jù)優(yōu)勢制定學(xué)習(xí)目標,幫助學(xué)生根據(jù)劣勢信息制定補救措施等。學(xué)生則需要能夠?qū)φZ言能力進行自評,解讀反饋報告信息并進行有效的使用;這也將成為診斷性評價中診斷能力研究的重要組成部分。
診斷性評價需要提供反饋,但是由于種種原因一直很少受到人們的關(guān)注,發(fā)展也比較滯后[42]。反饋的本質(zhì)是信息或數(shù)據(jù)的傳遞。反饋的研究表明:反饋通過促進學(xué)習(xí)者的知識建構(gòu),改進認知策略和促進學(xué)習(xí)者的目標設(shè)置,以促進學(xué)習(xí)者學(xué)業(yè)表現(xiàn)提高[43]。關(guān)于外部反饋的研究主要集中在反饋的表達方式、內(nèi)容屬性以及反饋效果上。根據(jù)內(nèi)容表達方式的不同,反饋可分為信息型反饋和控制型反饋。信息型反饋的重點在于告知個體任務(wù)完成的情況,包括結(jié)果成敗、正確作答或詳細反饋等內(nèi)容;控制型反饋強調(diào)外界的要求、期望和學(xué)習(xí)目標[2]。
過去,測驗的成績報告只是報告測驗總分,即便總分相同的考生群體,也可能具有不同的能力;現(xiàn)在,提供描述性的成績報告非常普遍,如在CET考試中,成績一般包括總分和各維度的分數(shù),這樣的反饋雖然給考生和分數(shù)適用提供了反映“所長所短”的成績報告,但也可能導(dǎo)致一些誤解,引發(fā)困惑。針對不同的反饋群體對象,在設(shè)計具體的診斷性反饋和反饋方式時,應(yīng)考慮將各群體關(guān)注的因素包含在內(nèi)。有學(xué)者建議:在考生個人層面上,提供反映各維度水平的診斷性成績報告,并提供改進學(xué)習(xí)的建議;在教師層面上,提供團體性診斷報告,報告整個群體在各維度的表現(xiàn),從而幫助教師發(fā)現(xiàn)在教學(xué)中存在的問題,并提出教學(xué)改進的建議[44]。
許多研究者提倡將診斷性評價融入學(xué)業(yè)測試和水平測試。從宏觀層面上,對聽說讀寫等技能提供反饋信息,現(xiàn)有的水平測試或?qū)W業(yè)成績測試在一定程度上也能夠?qū)崿F(xiàn)這一目的,但是要進行深入、具體的診斷卻并不容易。鑒于目前許多研究都嘗試利用學(xué)業(yè)測試或者水平測試提供診斷性反饋信息,Kunnan等從大規(guī)模評價情境和課堂評價情境角度概述了診斷性反饋[42]。
在TOEFL考試等大規(guī)模評價情境中,聽說讀寫的量表分數(shù)以及閱讀和聽力的反饋都比較籠統(tǒng),口語和寫作的反饋則比較細致;IELTS采用1~9個級別的等級量表向考生反饋聽說讀寫4項技能的信息。雖然這種利用水平考試的成績檔案提供診斷信息固然可以,但是由于診斷信息通常是針對某一水平群體,對個人的指導(dǎo)作用相對薄弱,除了提供考生和其他考生相對的成績位置以外,不能提供更多的信息[42]614。許多自評項目均嘗試為學(xué)習(xí)者提供診斷性反饋,如診斷性語言測試系統(tǒng)(Diagnostic Language Tests,DIALANG)以及Jang研制的DiagnOsis[45]。
診斷測試的反饋報告是多層面的,與測試目的密切相關(guān)。有些項目從地區(qū)、學(xué)校、班級等宏觀層面進行反饋;針對教師或?qū)W習(xí)者個體的微觀反饋,則對促進教學(xué)和學(xué)生的自主學(xué)習(xí)大有裨益,例如認知測試診斷能夠給學(xué)習(xí)者提供個體化的強項和弱項診斷信息[6]。在中小學(xué)學(xué)生學(xué)業(yè)成績分析、反饋與指導(dǎo)系統(tǒng)(Student Academic Achievement Evaluation,SAAE)項目中,系統(tǒng)從省份、區(qū)域、學(xué)校、班級4個層面呈現(xiàn)反饋信息,內(nèi)容包括對總體情況和所轄區(qū)縣的情況、學(xué)生學(xué)業(yè)成績的整體情況以及對學(xué)生學(xué)業(yè)成績的多種相關(guān)因素進行報告,諸如師生關(guān)系、學(xué)習(xí)壓力、學(xué)習(xí)環(huán)境、學(xué)習(xí)自信心和教師教學(xué)評價等因素。這些信息都將對區(qū)域教學(xué)改革或改進起到重大參考價值[46]。
診斷性反饋的多層面還體現(xiàn)在反饋采用的參照體系的不同上。國內(nèi)外研究者研發(fā)了針對不同語言水平的診斷性評價系統(tǒng),目前不少“診斷”測試都是以現(xiàn)有學(xué)業(yè)測試或水平測試為診斷工具,提供診斷性信息[6,42,47],但真正以診斷為目標設(shè)計的主要包括以下系統(tǒng)。
DIALANG測試系統(tǒng)是基于計算機和互聯(lián)網(wǎng)施測,提供14種歐洲官方語言的多語種診斷性測試。該測試依據(jù)歐洲共同語言參考標準(Common European Framework for Reference of Languages:Learning,Teaching,Assessment,CEFR)相關(guān)級別的語言能力水平要求,根據(jù)考生的答題情況,依照相應(yīng)的級別描述,提供語言能力評價和相應(yīng)的語言學(xué)習(xí)建議。
DELNA(Diagnostic English Language Needs Assessment)是針對新西蘭奧克蘭大學(xué)一年級新生研發(fā)的診斷性系統(tǒng),以區(qū)分國內(nèi)學(xué)生和國際學(xué)生的英語水平,從而滿足這2個群體對不同學(xué)術(shù)素養(yǎng)語言支持上的需求??荚嚨慕Y(jié)果用于指導(dǎo)學(xué)生尋求適合的學(xué)術(shù)語言支持[48]。
MASUS(Measuring the Academic Skills of University Students)是由悉尼大學(xué)語言中心開發(fā)和實施,通過對學(xué)生寫作水平強弱的診斷,為學(xué)生學(xué)術(shù)寫作提供幫助[49]。
SAAE系統(tǒng)是針對我國義務(wù)教育階段,基于課程標準的學(xué)習(xí)診斷性評價體系,涉及中小學(xué)的語文、數(shù)學(xué)、英語、科學(xué)、人文等不同學(xué)科。該項目旨在向參測地區(qū)的教育管理層、學(xué)校和教師提供不同的信息反饋[46]。
DELTA(Diagnostic English Language Tracking Assessment)是為香港地區(qū)本科生設(shè)計的多模塊在線診斷測試系統(tǒng),包括閱讀、聽力、寫作、語法和詞匯5個部分。該測試涉及不同文本類型,通過不同的話題,廣泛地考查學(xué)生的語言能力[50-51]。DELTA系統(tǒng)通過對學(xué)生語言能力強弱的診斷,為學(xué)生提供語言能力成長報告以及個性化指導(dǎo)與學(xué)習(xí)資源。
個性化英語學(xué)習(xí)診斷與策略指導(dǎo)咨詢系統(tǒng)(Personalized English Learning Diagnosis and Advice System,PELDAS)由馬曉梅課題組研發(fā),包括4個模塊。與DIALANG關(guān)注學(xué)生對各項技能水平進行自評不同,PELDAS提供個性化英語學(xué)習(xí)診斷與指導(dǎo)。該網(wǎng)絡(luò)系統(tǒng)重視評估學(xué)生自己的個體化學(xué)習(xí)風(fēng)格和特征[52-53]。
上述診斷系統(tǒng)提供的診斷性反饋分別采用標準參照、常模參照和個體自身參照3種不同的參照體系。
在SAAE診斷系統(tǒng)的診斷性反饋中,英語學(xué)科參照義務(wù)教育英語課程大綱4級標準對學(xué)生的作答表現(xiàn)劃定等級[54]。根據(jù)學(xué)生的能力級別和得分情況劃分為A、B、C、D 4個等級,即優(yōu)秀、良好、及格、有待及格。學(xué)科組與參測地區(qū)教研員、教師面對面地進行檢測信息診斷性反饋。內(nèi)容包括學(xué)業(yè)成績檢測以及分析指導(dǎo)思想與檢測工具的研制、檢測數(shù)據(jù)總體歸納分析、結(jié)合測試數(shù)據(jù)的典型題目講解和問卷信息調(diào)查的各種變量數(shù)據(jù)及其對學(xué)生學(xué)業(yè)成績的影響。反饋內(nèi)容既可以是宏觀層面,涉及課程教學(xué)的整體情況,又可以是微觀層面,重點反映教學(xué)的具體問題或值得重視的方面[46]。
DIALANG系統(tǒng)針對考生的自評部分和定位測試部分,并無詳細的反饋,只根據(jù)這2個部分的結(jié)果選擇考生適合的語言測試水平[55]。反饋內(nèi)容包括:1)語言水平,即根據(jù)測試結(jié)果,評估考生在6個水平中對應(yīng)的級別;2)核對答案,即展示分技能的作答情況;3)詞匯量,即提供詞匯量水平的信息并描述其意義;4)自評反饋,即考生對其語言水平的自評,著重分析自評與測驗結(jié)果不一致的原因;5)通過表格展示考生水平與上下相臨2個語言水平間的差異,鼓勵學(xué)生反思其語言學(xué)習(xí)。
DELNA系統(tǒng)分為2個階段的考試。第一個階段考試結(jié)果分為:優(yōu)秀、滿意、建議參加診斷測試3個類別。根據(jù)測試反饋結(jié)果,第一個類別的學(xué)生不需要參加任何語言活動;第二個類別的學(xué)生需要參加學(xué)校學(xué)生學(xué)習(xí)中心或英語自學(xué)中心的獨立活動;第三個類別的學(xué)生需要參加第二階段的考試。在第二個階段測試后,為了保證反饋信息使用的高效性,聽、讀、寫分別用A、B、C、D 4個等級報告學(xué)生語言能力;A和B水平分別對應(yīng)第一階段考試中的優(yōu)秀和滿意類別,處在這2個等級的學(xué)生會收到測試結(jié)果郵件,C和D水平的學(xué)生則會收到DELNA系統(tǒng)的語言建議。
DELTA系統(tǒng)是基于計算機的診斷測試系統(tǒng),采用正向報告的形式,為學(xué)習(xí)者提供0~200分的標準分反饋結(jié)果。聽、讀、寫、語法、詞匯5個分維度報告分別對應(yīng)考查的語言技能,并附有相應(yīng)的學(xué)習(xí)材料。學(xué)生可以自主選擇或者在教師的指導(dǎo)下,根據(jù)反饋報告選擇相應(yīng)的學(xué)習(xí)資源。該系統(tǒng)的優(yōu)勢在于為多次參加測試的學(xué)生提供語言能力發(fā)展報告[50]。目前該系統(tǒng)僅提供系統(tǒng)開發(fā)時已輸入的、固定模塊反饋信息,并不能提供具體的個體化反饋信息。這也是目前基于計算機的診斷測試系統(tǒng)的劣勢之一[56]。
MASUS診斷系統(tǒng)要求學(xué)生根據(jù)提供的背景信息,撰寫與專業(yè)背景相關(guān)的文章。所有的文章都由受過培訓(xùn)的閱卷員依照5個維度的標準化評分標準評分。每個維度從低到高分為1~4個等級,其中1~2個等級為“寫作能力較弱,需要寫作幫助”。學(xué)生可以根據(jù)反饋報告選擇學(xué)習(xí)中心提供的課程幫助[49]。
PELDAS反饋采用常模參照的形式[52-53]。該系統(tǒng)的診斷報告包括對學(xué)習(xí)者做個性診斷測量表的診斷分析和動態(tài)閱讀診斷分析;策略咨詢指導(dǎo)平臺和成功經(jīng)驗學(xué)習(xí)平臺設(shè)計主要以問答形式呈現(xiàn),點擊問題便可進入答案部分。動態(tài)閱讀診斷模塊對學(xué)生的閱讀水平、閱讀技能、閱讀習(xí)慣、閱讀時間從橫向和縱向角度進行統(tǒng)計,以圖表方式反饋閱讀者的絕對成績統(tǒng)計結(jié)果以及在系統(tǒng)常模中所處的位置。
在動態(tài)閱讀診斷模塊和個性特點靜態(tài)診斷模塊,系統(tǒng)針對學(xué)習(xí)者的閱讀行為和習(xí)慣、量表統(tǒng)計結(jié)果、閱讀者回讀情況以及英語學(xué)習(xí)方法提供個體化的分析結(jié)果和指導(dǎo)意見。個體閱讀者可以及時了解自己的學(xué)習(xí)、閱讀理解水平、閱讀過程特征及其不足,根據(jù)提供的指導(dǎo)意見,及時糾正不當(dāng)?shù)膶W(xué)習(xí)方法。咨詢指導(dǎo)模塊可供學(xué)習(xí)者對自己在聽、說、讀、寫和詞匯學(xué)習(xí)中所使用的策略是否得當(dāng)進行測試,測試后,系統(tǒng)針對學(xué)習(xí)者的學(xué)習(xí)方法提供反饋信息;成功者案例模塊主要以學(xué)生自行選擇案例學(xué)習(xí)為主,借鑒他人成功的學(xué)習(xí)方法和經(jīng)驗。
視聽診斷模塊為學(xué)生提供診斷評估報告和數(shù)據(jù)分析圖表,包括用戶平均成績統(tǒng)計、個人成績曲線和學(xué)習(xí)進度統(tǒng)計[57]。學(xué)生可以查看視聽強弱環(huán)節(jié)、相應(yīng)的文字評估和詳盡的策略指導(dǎo)。聽力診斷模塊一方面通過測試過程涉及的知識結(jié)構(gòu)、認知策略、屬性分布和過程參數(shù)等指標,對個體的視聽語言能力作出評估判斷;另一方面,通過認知心理特征及策略應(yīng)用作出相應(yīng)的評估,為學(xué)生提供綜合的診斷報告及其相應(yīng)的策略指導(dǎo)。
SAAE診斷系統(tǒng)不同于其他系統(tǒng)的特點在于:參測地區(qū)的教育管理部門可以參照項目所建的全國常模數(shù)據(jù)庫,對比所在地區(qū)課程發(fā)展是否與當(dāng)?shù)亟?jīng)濟發(fā)展總體水平以及教育投入相符。這部分反饋信息可作為區(qū)域教育有效性評估和教育決策的重要參考。
另外,一些研究者對不同學(xué)科的診斷性測試進行研究。夏良英等給出了高中物理學(xué)業(yè)水平綜合診斷和分層提高系統(tǒng)的評估報告[15],該診斷報告主要以文本形式呈現(xiàn),附以學(xué)生各屬性掌握情況和常模平均的對比表;學(xué)生可以查看每道測試題的屬性編碼、詳細解答過程、思路點撥、易錯點分析,同時還有個性化配置的學(xué)習(xí)資料。Sun等在對小學(xué)六年級學(xué)生進行認知診斷之后,提供了2個層面的反饋信息:一是根據(jù)學(xué)生在每個屬性上的準確率,用雷達圖展示學(xué)生的答題表現(xiàn);二是對學(xué)生進行聚類分析,在群體屬性掌握檔案中提供每個聚類屬性的完成概率[5]。
杜金榜提出以診斷報告為核心的電腦化診斷測試模型,并探索該模型在閱讀上的應(yīng)用路徑[58]。該研究將一系列閱讀技能劃分為識認、重組、欣賞3個層次。為了促進學(xué)生個體化學(xué)習(xí)的發(fā)展以及采用電腦化診斷測試提高反饋的效率,研究者設(shè)計了包括“補習(xí)”“題目編寫”“題庫管理”“施測”“數(shù)據(jù)處理”“診斷報告”6個部分的模型,并將重心放在“診斷報告”部分。測試過程記錄了大學(xué)二年級學(xué)生對答案的肯定程度、每篇閱讀遇到的難詞數(shù)目、難句數(shù)目及每篇閱讀的熟悉程度;此外,測試還記錄了學(xué)生閱讀使用的時間、答題回看文章的次數(shù)、改作次數(shù)等。作答完成后,對學(xué)生能力的分析結(jié)果根據(jù)標準差的數(shù)值,將能力劃分成高、中、低3個水平。診斷結(jié)果采用文字描述、曲線圖和直方圖等不同形式進行報告:文字描述主要針對學(xué)生的整體閱讀能力和分項能力進行刻畫;曲線圖展示個體閱讀要素能力和最高能力的對比;直方圖主要反映回答正誤、閱讀速度和肯定程度與最高能力的對比。反饋報告將受試群體中的最高水平作為參照標準,這種常模參照的反饋形式,可能對學(xué)生學(xué)習(xí)目標的設(shè)定及達成產(chǎn)生消極影響。
診斷性評價反饋的參照系統(tǒng)是采取常模參照還是標準參照,研究者觀點不一。最近的研究又出現(xiàn)了一種新的參照形式,即學(xué)習(xí)者自身參照。Jang基于對閱讀的認知診斷研究研發(fā)診斷報告單DiagnOsis。該報告單包括4個部分的診斷信息:答案回顧、提高技能、如何解讀技能掌握和技能描述。該研究采用了學(xué)習(xí)者自身參照體系,將自評融入到認知診斷信息當(dāng)中,形成技能檔案,將學(xué)習(xí)者自評信息與認知診斷成績一起呈現(xiàn)給學(xué)習(xí)者,為學(xué)習(xí)者自身學(xué)習(xí)目標的設(shè)定、學(xué)習(xí)調(diào)整和規(guī)劃提供參考[45]。
診斷性評價的使用非常廣泛。認知診斷測試的興起為個體化反饋提供了思路和方向,響應(yīng)了自主性學(xué)習(xí)的倡導(dǎo);但是,認知診斷在我國還處于理論研究的階段,在大規(guī)模測評項目應(yīng)用較少。利用認知診斷模型的優(yōu)勢,與現(xiàn)有成熟的非認知診斷測試融合可以提供新思路。此外,CD-CAT有良好的發(fā)展前景,但是,如何在大規(guī)模考試實踐中應(yīng)用認知診斷模型和CAT以及在實踐中會遇到什么問題,尚有待進一步探索。
診斷能力的提出不僅響應(yīng)了培養(yǎng)評估素養(yǎng)的呼吁,也豐富了評估素養(yǎng)的內(nèi)涵。診斷性信息的正確解讀和有效使用的能力成為重要的評估素養(yǎng)之一。診斷性反饋有效性的評估仍然有待進一步研究。目前,許多診斷性系統(tǒng)僅涉及反饋層面,很少對反饋信息的使用和效果進行追蹤和研究。有研究發(fā)現(xiàn):學(xué)生對反饋報告的態(tài)度不一、對利用該報告的效率并不理想,學(xué)生需要更多的指導(dǎo)才能高效利用反饋報告,并對其目標的設(shè)定產(chǎn)生影響[59-61];同時診斷性反饋的使用效果受到不同的因素影響,如學(xué)生不同的學(xué)習(xí)能力水平、學(xué)習(xí)態(tài)度、學(xué)習(xí)目標、或者學(xué)習(xí)情境等[42],也受到反饋關(guān)注的內(nèi)容、評價性或描述性等反饋性質(zhì)的影響[62]。如果要全面發(fā)揮診斷性評價反饋的價值,則需要對報告的使用方法進行追蹤,改進反饋內(nèi)容,提高診斷能力。
隨著我國加大對教育監(jiān)測、教育評價的重視,診斷性測試在未來的教育實踐中將發(fā)揮重要的作用,為課堂教學(xué)決策提供大數(shù)據(jù)參照[63],也為考試分數(shù)報告提供可參考的模式和路徑。如果利用認知診斷模型的優(yōu)勢,頂層設(shè)計基于學(xué)生表現(xiàn)的診斷性評價、反饋的參照體系和形式等,并與計算機考試迅速發(fā)展的優(yōu)勢相結(jié)合,診斷性評價將會有更廣泛的發(fā)展前景。