IRT在體育學(xué)習(xí)成果測評領(lǐng)域中的應(yīng)用及其對我國體育中考的啟示

2021-08-26 04:18何毅董國永

體育學(xué)刊 2021年4期

何毅董國永

摘?要：對項(xiàng)目反應(yīng)理論（IRT）在美國體育學(xué)習(xí)成果測評體系（PE Metrics）中的應(yīng)用進(jìn)行解析，并提煉了基于IRT的PE Metrics測評體系表現(xiàn)特征。研究認(rèn)為，IRT在PE Metrics中的應(yīng)用主要體現(xiàn)在基于測驗(yàn)等值技術(shù)的數(shù)據(jù)采集設(shè)計(jì)、利用多層面Rasch模型進(jìn)行參數(shù)估計(jì)、通過標(biāo)定與校準(zhǔn)建立體育學(xué)習(xí)成果測評題（項(xiàng)目）庫等方面。在IRT方法和技術(shù)的支持下，PE Metrics具備測評項(xiàng)目及量規(guī)的難度參數(shù)恒定且分布均勻、不同運(yùn)動項(xiàng)目的測評結(jié)果可進(jìn)行交流、學(xué)生能力估計(jì)的精確性、測評項(xiàng)目開發(fā)的動態(tài)性和可延續(xù)性等特征。在此基礎(chǔ)上，提出完善我國體育中考測評體系的應(yīng)然之策，主要包括：廣泛納入“真實(shí)性”運(yùn)動技能測評內(nèi)容，突破體育中考的“應(yīng)試化”桎梏;利用測驗(yàn)等值技術(shù)，實(shí)現(xiàn)體育中考運(yùn)動技能測評分?jǐn)?shù)的可比性;研制參數(shù)詳實(shí)的測評工具，提高體育中考分?jǐn)?shù)的精確性和區(qū)分度;建立動態(tài)體育中考題（項(xiàng)目）庫，不斷豐富和完善體育中考測試內(nèi)容。

關(guān)?鍵?詞：學(xué)校體育;體育學(xué)習(xí)成果測評;體育中考;項(xiàng)目反應(yīng)理論

中圖分類號：G807?文獻(xiàn)標(biāo)志碼：A?文章編號：1006-7116（2021）04-0094-07

Abstract： This paper analyzes the application of IRT in PE metrics of American sports learning achievement evaluation system， and refines the performance characteristics of PE metrics evaluation system based on IRT. The research shows that the application of IRT in PE metrics is mainly reflected in the design of data collection based on test equivalence technology， parameter estimation by using multi-level Rasch model， and the establishment of test （item） database of physical education learning achievements through calibration and correction. With the support of IRT method and technology， PE metrics has the characteristics as follows： constant and uniform distribution of difficulty parameters of evaluation items and rubrics， communication of evaluation results with different sports items， accuracy of students' ability estimation， and dynamic and continuity of development of evaluation items. On this basis， this paper puts forward the corresponding measures to improve the evaluation system of China's physical education examination for high school， which mainly includes： widely introducing the "authenticity" sports skills evaluation content， breaking through the "exam oriented" shackles of physical education examination for high school; realizing the comparability of sports skills evaluation scores by using test equivalent technology; developing the test instruments with detailed parameters in order to improve the accuracy and differential degree for the scores of physical education examination for high school， and establishing a dynamic database of physical education examination programs （items） to constantly enrich and perfect the contents of the physical education examination.

Key words： school physical education;physical education learning achievement evaluation;physical education examination for high school;item response theory

2020年8月體育總局與教育部聯(lián)合印發(fā)的《關(guān)于深化體教融合促進(jìn)青少年健康發(fā)展的意見》和2020年10月中共中央辦公廳、國務(wù)院辦公廳印發(fā)的《關(guān)于全面加強(qiáng)和改進(jìn)新時(shí)代學(xué)校體育工作的意見》提出：“將體育科目納入初、高中學(xué)業(yè)水平考試范圍。改進(jìn)中考體育測試內(nèi)容、方式和計(jì)分辦法，科學(xué)確定并逐步提高分值。”[1-2]由此可見，隨著體育在學(xué)校教育中地位不斷提升，學(xué)生的體育考試成績將不再是無關(guān)緊要的分?jǐn)?shù)，而是更有可能成為學(xué)生綜合素質(zhì)評定甚至是中高考的重要組成部分。與此同時(shí)，在體育考試逐漸演變?yōu)椤案呃Α睖y試的背景下，體育考試分?jǐn)?shù)必然會成為學(xué)生、學(xué)校和社會關(guān)注的焦點(diǎn)。因此，如何確保體育“高利害”測試的科學(xué)性、合理性和公平性成為決定我國體育考試制度有效實(shí)施的關(guān)鍵所在。然而，從現(xiàn)階段我國體育中考實(shí)施效果來看，雖基本滿足體育“高利害”測試的制度要求，但仍存在爭議，有待進(jìn)一步完善，如“應(yīng)試化”傾向嚴(yán)重、評分標(biāo)準(zhǔn)區(qū)分度不足、項(xiàng)目設(shè)置不盡合理等[3]。究其原因，現(xiàn)階段我國體育中考的測評方法和技術(shù)難以滿足體育“高利害”測試的科學(xué)性、合理性和公平性需求，成為掣肘體育中考測試內(nèi)容選擇、測評方式改進(jìn)和計(jì)分辦法更新的重要因素。

現(xiàn)階段我國大部分地區(qū)體育中考的測量標(biāo)準(zhǔn)和工具均是以經(jīng)典測量理論（Classical Test Theory，CTT）為基礎(chǔ)而構(gòu)建的，因此難以克服其理論體系的先天局限性，如弱或差的信效度控制、孤立的測試開發(fā)、評價(jià)結(jié)果無法進(jìn)行交流等[4]。為了克服CTT的局限性，一種新興的測量理論——項(xiàng)目反應(yīng)理論（Item Response Theory，IRT）逐漸發(fā)展起來?；贗RT設(shè)計(jì)的標(biāo)準(zhǔn)化測驗(yàn)不僅在理論上更加符合測量原理，同時(shí)也具有更大的解決實(shí)際測量問題的潛力，因此在現(xiàn)代心理和教育測量領(lǐng)域得到了廣泛應(yīng)用[5]。然而，在當(dāng)前我國體育學(xué)習(xí)成果測評領(lǐng)域，IRT的研究與實(shí)踐應(yīng)用不足，在一定程度上限制了我國體育測量特別是體育中考測評改革與發(fā)展的推進(jìn)步伐。美國國家運(yùn)動與體育教育協(xié)會（National Association for Sport and Physical Education，NASPE）研制推出的體育學(xué)習(xí)成果測評體系——PE Metrics（簡稱PEM）正是以IRT為基礎(chǔ)，充分利用現(xiàn)代測量理論與方法的優(yōu)勢，突破傳統(tǒng)體育學(xué)習(xí)成果測量的局限性，在體育學(xué)習(xí)成果測量實(shí)踐中取得顯著效果，為強(qiáng)調(diào)問責(zé)與改進(jìn)的美國學(xué)校體育作出了突出貢獻(xiàn)。實(shí)踐證明，PEM不僅獲得了體育教師的廣泛認(rèn)可，同時(shí)也是體育科研人員較為信賴的大范圍體育學(xué)習(xí)成果測評工具[6]。它山之石，可以攻玉。本研究從研制方法和技術(shù)層面深入剖析IRT在美國PEM測評體系中的應(yīng)用，總結(jié)歸納基于IRT的PEM的表現(xiàn)特征，并針對我國體育中考所面臨的現(xiàn)實(shí)困境，提出完善我國體育中考測評的應(yīng)然之策，為進(jìn)一步推進(jìn)我國體育中考改革助益。

1?基于IRT的PEM研制

PEM是針對美國K-12年級的以標(biāo)準(zhǔn)為參照的體育學(xué)習(xí)成果測評體系。NASPE成立的評價(jià)工作組（Assessment Task Force，ATF）依據(jù)美國國家體育課程標(biāo)準(zhǔn)（以2013年版為例）的5個(gè)領(lǐng)域目標(biāo)，開發(fā)涵蓋了兩個(gè)維度的評價(jià)內(nèi)容，即針對標(biāo)準(zhǔn)1的運(yùn)動技能評價(jià)和針對標(biāo)準(zhǔn)2～5的認(rèn)知評價(jià)。對于標(biāo)準(zhǔn)1統(tǒng)領(lǐng)的運(yùn)動技能評價(jià)，ATF根據(jù)不同評價(jià)（運(yùn)動）項(xiàng)目或任務(wù)制定了詳細(xì)的評價(jià)量表，每份量表中均包含有表現(xiàn)性指標(biāo)、評價(jià)任務(wù)、評分量規(guī)和評價(jià)方案、設(shè)備或材料、空間或位置圖等內(nèi)容，評價(jià)者依據(jù)評分量規(guī)對學(xué)生在評價(jià)任務(wù)中的表現(xiàn)進(jìn)行打分，而評價(jià)方案、設(shè)備或材料、空間或位置圖等則主要用于評價(jià)過程中對學(xué)生和評價(jià)者的詳細(xì)指導(dǎo);對于標(biāo)準(zhǔn)2～5所涵蓋的知識、概念和態(tài)度，因?yàn)殡y于將其操作化，ATF最終決定采用紙筆測驗(yàn)形式對學(xué)生進(jìn)行考核[7]。此外，ATF還開發(fā)了網(wǎng)絡(luò)在線平臺PEM在線（PE Metrics online），其主要功能包括：為評價(jià)者提供更加直觀的視頻指導(dǎo)，幫助評價(jià)者提高評分準(zhǔn)確性和操作熟練程度;提供已開發(fā)或后續(xù)開發(fā)的評價(jià)工具;幫助評價(jià)者錄入、分析和解釋評價(jià)結(jié)果，為評價(jià)的利益相關(guān)者提供反饋信息[8]。

1.1?IRT—PEM研制的理論基礎(chǔ)

CTT作為歷史上第一個(gè)測驗(yàn)理論，經(jīng)過多年探索與發(fā)展已經(jīng)形成了一套較為完整的理論體系，是過去測量實(shí)踐中使用較為廣泛的理論模型。然而，CTT也存在著無法克服的先天缺陷，包括無法區(qū)分各類測量誤差、樣本依賴性、能力量表與難度量表的不一致性等[9]。20世紀(jì)50年代，在分析和克服CTT自身不足和缺陷的基礎(chǔ)上，加之電子計(jì)算機(jī)的普及與發(fā)展，一個(gè)更加復(fù)雜、統(tǒng)計(jì)效率更高的測量理論模型——IRT應(yīng)運(yùn)而生。

IRT的主要內(nèi)容是通過數(shù)學(xué)函數(shù)揭示被試者在測驗(yàn)項(xiàng)目上的反應(yīng)行為與被試者潛在特質(zhì)之間的關(guān)系。這種關(guān)系函數(shù)表達(dá)式，即項(xiàng)目特征曲線解析式，被稱為IRT各種模型的項(xiàng)目反應(yīng)函數(shù)[10]。常用的IRT模型有正態(tài)卵形模型，單、雙、三參數(shù)Logistic模型，其中單參數(shù)Logistic模型也被稱Rasch模型。在實(shí)際應(yīng)用中，通過這些模型對測驗(yàn)分?jǐn)?shù)進(jìn)行統(tǒng)計(jì)調(diào)整，能有效解決測量實(shí)踐中測驗(yàn)分?jǐn)?shù)等值、項(xiàng)目參數(shù)估計(jì)和誤差控制等問題。隨著IRT模型的不斷豐富和擴(kuò)展，其逐漸實(shí)現(xiàn)了對人格特質(zhì)、潛在能力、行為意向、情景評價(jià)等多種目標(biāo)的測量。如今，IRT已成為教育領(lǐng)域幾項(xiàng)重要測驗(yàn)的基石，如美國研究生入學(xué)考試（GRE）、學(xué)術(shù)評估測試（SAT）以及中國大學(xué)生英語水平測試（CET）等。

IRT的測量優(yōu)勢主要體現(xiàn)在以下幾個(gè)方面：第一，題目參數(shù)的不變性。IRT的題目參數(shù)估計(jì)是獨(dú)立于考生樣本的，即題目難度不會因?yàn)槌闃訉W(xué)生能力水平的高低而變化;第二，題目參數(shù)與能力參數(shù)的一致性。項(xiàng)目反應(yīng)理論將項(xiàng)目難度和被試者能力置于同一尺度，使用共同的Logit單位;第三，誤差控制的精確性。在測驗(yàn)中，不同能力或得分有其不同的概率誤差。項(xiàng)目反應(yīng)理論通過提供題目信息函數(shù)和測驗(yàn)信息函數(shù)兩個(gè)統(tǒng)計(jì)量，控制不同能力水平被試者的測量誤差，從而更精確地估計(jì)每個(gè)考生的能力水平[11]?？傮w而言，IRT具有諸多CTT所不具備的優(yōu)勢，是現(xiàn)代心理和教育測量實(shí)踐中最受歡迎的測量理論之一。

1.2?IRT在PEM研制過程中的應(yīng)用

1）基于測驗(yàn)等值技術(shù)的數(shù)據(jù)采集設(shè)計(jì)。

在教育和心理測量實(shí)踐中，往往需要通過多種測驗(yàn)形式來測量同一知識結(jié)構(gòu)或心理品質(zhì)，為了使不同測驗(yàn)形式的分?jǐn)?shù)建立在同一尺度之上，進(jìn)而比較不同測驗(yàn)形式中受試者的能力水平，就需要對測驗(yàn)分?jǐn)?shù)進(jìn)行等值處理。因此，測驗(yàn)等值對于測驗(yàn)結(jié)果的可比性、保證測驗(yàn)的公平性具有重要意義。當(dāng)不同測驗(yàn)形式分別施測于不同被試組時(shí)，等值需要完成參數(shù)量表的變換，即將不同被試群體的參數(shù)標(biāo)刻在同一參數(shù)量表之上，而實(shí)現(xiàn)變換的前提是不同測驗(yàn)形式必須有公共測驗(yàn)題（項(xiàng)）目相關(guān)聯(lián)，即鉚測驗(yàn)-非等組設(shè)計(jì)。因此，ATF在全國性數(shù)據(jù)采集中使用了水平和垂直等值設(shè)計(jì)，其包含共同項(xiàng)目（試題）和連接項(xiàng)目（試題）。共同項(xiàng)目用于校準(zhǔn)同一年級中不同項(xiàng)目，而連接項(xiàng)目用于關(guān)聯(lián)不同年級之間項(xiàng)目。共同項(xiàng)目和連接項(xiàng)目的選擇并不是事先預(yù)定的，而是根據(jù)試點(diǎn)測試階段數(shù)據(jù)的常規(guī)項(xiàng)目分析結(jié)果決定。其中，共同項(xiàng)目是在常規(guī)項(xiàng)目分析結(jié)果中顯示出良好區(qū)分度的項(xiàng)目，連接項(xiàng)目則是根據(jù)難度水平進(jìn)行選擇，如“原地運(yùn)球”和“單腳跳”是幼兒園評價(jià)中的共同項(xiàng)目，“滑步”和“用拍擊球”是用于連接幼兒園和2年級之間的連接項(xiàng)目[12]?？梢钥闯觯诨贗RT的測驗(yàn)等值技術(shù)指導(dǎo)下ATF制定了科學(xué)合理的數(shù)據(jù)采集方案，為后續(xù)項(xiàng)目分析與校準(zhǔn)奠定基礎(chǔ)。

2）利用多層面Rasch模型進(jìn)行參數(shù)估計(jì)。

ATF在不斷對測評（項(xiàng)目）進(jìn)行修改和完善后，利用廣泛的項(xiàng)目管理網(wǎng)絡(luò)從全國各地進(jìn)行數(shù)據(jù)采集，以進(jìn)行后續(xù)數(shù)據(jù)分析和校準(zhǔn)。具體而言，ATF專門雇傭評分人員根據(jù)測試錄像和評分量規(guī)對學(xué)生運(yùn)動表現(xiàn)進(jìn)行評分[13]。評分?jǐn)?shù)據(jù)使用傳統(tǒng)的和基于IRT的兩種方式進(jìn)行分析。首先采用描述性統(tǒng)計(jì)分析，對數(shù)據(jù)中的異常值或打字錯誤進(jìn)行篩選、識別和刪除;然后計(jì)算項(xiàng)目反應(yīng)頻率，以及每項(xiàng)評價(jià)的平均值和標(biāo)準(zhǔn)偏差;最后，使用多層面Rasch模型分析不同測評項(xiàng)目、評分量規(guī)和學(xué)生能力水平。多層面Rasch模型是經(jīng)過拓展的Rasch模型之一，其主要作用在于通過被試者在題（項(xiàng)）目上作出特定反應(yīng)概率來計(jì)算個(gè)體能力和題（項(xiàng)）目難度。評分?jǐn)?shù)據(jù)的多層面Rasch分析是通過FACETS軟件完成的，其報(bào)告結(jié)果包括項(xiàng)目及量規(guī)難度、學(xué)生能力水平、殘差均方和加權(quán)后的殘差均方。項(xiàng)目及量規(guī)難度值和學(xué)生能力水平值均以logit為單位，這也實(shí)現(xiàn)了題目難度與學(xué)生能力水平的參數(shù)估計(jì)及校準(zhǔn)。ATF的統(tǒng)計(jì)分析結(jié)果表明，PEM的采集數(shù)據(jù)與模型擬合良好，量規(guī)及評價(jià)項(xiàng)目難度等分布均勻[12]。

3）通過標(biāo)定與校準(zhǔn)建立體育學(xué)習(xí)成果測評題（項(xiàng)目）庫。

在數(shù)據(jù)分析過程中，ATF首先對特定年級的評分?jǐn)?shù)據(jù)進(jìn)行分析并錨定，再分析其他年級評價(jià)項(xiàng)目的統(tǒng)計(jì)數(shù)據(jù)。如在運(yùn)動技能評價(jià)（項(xiàng)目）構(gòu)建中，首先分析2年級的評分?jǐn)?shù)據(jù)，然后在2年級的尺度上對其他年級數(shù)據(jù)進(jìn)行分析，最終將所有年級的量規(guī)及項(xiàng)目都標(biāo)定在同一尺度之上。事實(shí)上，PEM的構(gòu)建正是遵循了題庫開發(fā)的基本程序，在將所有測評題（項(xiàng)）目和量規(guī)都置于同一尺度之后，就形成了一個(gè)包含不同項(xiàng)目及其相關(guān)統(tǒng)計(jì)資料（如難度）的體育學(xué)習(xí)成果測評資源庫。從PEM的研制流程和成果發(fā)布可以看出，題庫建設(shè)并不是一蹴而就的，而是一個(gè)動態(tài)的持續(xù)不斷的過程。如在PEM的研制過程中，ATF首先發(fā)布了針對小學(xué)階段的運(yùn)動技能測評工具[14]，隨著測評項(xiàng)目和測試工作的逐步完成，NASPE又陸續(xù)發(fā)布了小學(xué)和中學(xué)階段的運(yùn)動技能和認(rèn)知測評工具[15]，由此逐步構(gòu)建中小學(xué)體育學(xué)習(xí)成果測評體系PEM的基本框架。此后，通過IRT的標(biāo)定和校準(zhǔn)，ATF不斷地豐富和完善測評工具與內(nèi)容，最終形成了一個(gè)資源豐富、交互共享的K-12年級體育學(xué)習(xí)成果測評題（項(xiàng)目）庫。

2?基于IRT的PEM表現(xiàn)特征分析

2.1?測評項(xiàng)目及量規(guī)的難度參數(shù)恒定且分布均勻

在以CTT為基礎(chǔ)的測量實(shí)踐中，對于項(xiàng)目難度、區(qū)分度等參數(shù)的估計(jì)是根據(jù)測試樣本獲得的，因此，樣本代表性直接影響著參數(shù)值的大小。以難度參數(shù)而言，對于同一個(gè)測驗(yàn)項(xiàng)目，若測試樣本的整體水平較高，就會過低地估計(jì)項(xiàng)目難度值;若測試樣本的整體水平較低，則會過高地估計(jì)項(xiàng)目難度值。相反，在IRT中難度被認(rèn)為是題（項(xiàng)）目的固有屬性，其估計(jì)得出的參數(shù)不受樣本能力水平的影響，即參數(shù)不變性。PEM正是利用了IRT的這一特性，準(zhǔn)確估計(jì)出評價(jià)項(xiàng)目及量規(guī)的難度參數(shù)值，很好地解決了樣本依賴性問題，從而確保評價(jià)工具的有效性和可靠性。此外，在PEM的構(gòu)建過程中，ATF經(jīng)過多次實(shí)地測試和項(xiàng)目分析，并根據(jù)分析結(jié)果對測評（項(xiàng)目）進(jìn)行修改，其目的在于確保項(xiàng)目及量規(guī)的難度參數(shù)適當(dāng)，即既要保證項(xiàng)目及量規(guī)難度范圍的廣度，也兼顧其難度參數(shù)的連續(xù)性。在實(shí)際應(yīng)用中，由于測評項(xiàng)目及量規(guī)是恒定的并且是已知的，教師或研究人員可以根據(jù)評價(jià)目的和意圖形成測驗(yàn)。例如，若想了解學(xué)生的整體能力水平，那么就可選擇難度范圍較廣的測評項(xiàng)目;若想構(gòu)建標(biāo)準(zhǔn)參照類型的測試（如資格證考試），則可選擇與截至分?jǐn)?shù)（或標(biāo)準(zhǔn)）難度相當(dāng)?shù)臏y評項(xiàng)目。

2.2?不同運(yùn)動項(xiàng)目的評價(jià)結(jié)果可進(jìn)行交流

PEM包含兩個(gè)維度的測評內(nèi)容，即針對標(biāo)準(zhǔn)1的運(yùn)動技能測評和針對標(biāo)準(zhǔn)2～5的認(rèn)知測評。其中，標(biāo)準(zhǔn)1引領(lǐng)的運(yùn)動技能測評中包含多個(gè)運(yùn)動項(xiàng)目或任務(wù)，彼此之間的內(nèi)容也大不相同。在CTT中真分?jǐn)?shù)的意義僅僅限于一組特定的測評項(xiàng)目，因此無法建立不同運(yùn)動技能測評結(jié)果之間的聯(lián)系，這也進(jìn)一步限制了測評項(xiàng)目的豐富和測評結(jié)果的應(yīng)用。相對而言，基于IRT的等值技術(shù)為這一問題提供了很好的解決途徑。在PEM的構(gòu)建過程中，ATF利用Rasch模型進(jìn)行校準(zhǔn)，使所有項(xiàng)目、量規(guī)及學(xué)生能力置換于同一量表之上，進(jìn)而使得不同項(xiàng)目之間、不同量規(guī)之間、項(xiàng)目及量規(guī)與學(xué)生能力之間可以進(jìn)行比較，很好地解決了不同測驗(yàn)版本之間的等值問題。如在PEM中，參加籃球運(yùn)動項(xiàng)目測評的學(xué)生成績可以直接和參加排球運(yùn)動項(xiàng)目測評的學(xué)生成績進(jìn)行比較，但前提是需將學(xué)生在量規(guī)上的得分轉(zhuǎn)換為“能力分?jǐn)?shù)”。

此外，評價(jià)分?jǐn)?shù)可進(jìn)行比較的另外一個(gè)好處就是，可以測量學(xué)生成績的變化和增長。如某學(xué)生在2年級時(shí)參加“立定跳遠(yuǎn)”項(xiàng)目測評，但隨著該學(xué)生年級升高和教學(xué)內(nèi)容及難度變化，其在5年級須參加“體操”項(xiàng)目測評，這種情況下通過PEM依然可以比較學(xué)生隨著年級變化的能力水平。評價(jià)結(jié)果可進(jìn)行交流這一特性使得PEM具備應(yīng)用于大規(guī)模標(biāo)準(zhǔn)化運(yùn)動技能測試的潛力，確保了大范圍評價(jià)分?jǐn)?shù)的統(tǒng)計(jì)學(xué)意義，這也是PEM逐漸開始應(yīng)用于體育科研領(lǐng)域的重要原因之一。

2.3?學(xué)生能力估計(jì)的精確性

傳統(tǒng)體育學(xué)習(xí)成果測評方式是以常模參照為基礎(chǔ)的，這就意味著只能通過將個(gè)人成績與常模團(tuán)體進(jìn)行比較，進(jìn)而判斷個(gè)體在團(tuán)體中的相對位置和名次，但無法準(zhǔn)確判斷學(xué)生學(xué)習(xí)目標(biāo)的達(dá)成情況。相較而言，標(biāo)準(zhǔn)參照評價(jià)更加關(guān)注個(gè)體對知識和技能掌握的真實(shí)情況，是一種以過程性評價(jià)為主，過程性評價(jià)與終結(jié)性評價(jià)相結(jié)合的評價(jià)范式。因此，標(biāo)準(zhǔn)參照評價(jià)可以更準(zhǔn)確診斷學(xué)生的學(xué)習(xí)成果。在PEM構(gòu)建過程中，ATF通過解析“課程標(biāo)準(zhǔn)”，撰寫具有可操作性的表現(xiàn)性指標(biāo)和評價(jià)量規(guī)，進(jìn)而開發(fā)出相應(yīng)的測評內(nèi)容和方式，其目的在于構(gòu)建標(biāo)準(zhǔn)參照的體育學(xué)習(xí)成果測評體系，即PEM。此外，在形成測評題（項(xiàng)目）庫之后評價(jià)可以選擇與學(xué)生能力相當(dāng)?shù)脑u價(jià)項(xiàng)目，進(jìn)而精準(zhǔn)定位學(xué)生的能力水平。

實(shí)際上，為了確保測評結(jié)果的精確性和可靠性，ATF在PEM的構(gòu)建過程中做了大量工作。如在測評項(xiàng)目及量規(guī)的參數(shù)估計(jì)過程中，ATF通過不斷測試、反饋及修訂，確保測評項(xiàng)目及量規(guī)難度參數(shù)的連續(xù)性，從而為評價(jià)者提供更加精確的學(xué)生能力水平信息。此外，為了檢驗(yàn)PEM測量準(zhǔn)確性，ATF成員還對測驗(yàn)中所需最少的測評項(xiàng)目數(shù)量這一問題進(jìn)行驗(yàn)證。結(jié)果表明：當(dāng)PEM用于“高利害”測試時(shí)，應(yīng)當(dāng)使用至少兩個(gè)測評項(xiàng)目精準(zhǔn)定位學(xué)生能力;而在教學(xué)實(shí)踐中，依然可以使用單一測評項(xiàng)目去確定學(xué)生的運(yùn)動水平，只是需要教師更加謹(jǐn)慎地對結(jié)果進(jìn)行解釋[16]。

2.4?測評（項(xiàng)目）開發(fā)的動態(tài)性和可延續(xù)性

基于IRT的題庫建設(shè)是現(xiàn)代教育測量領(lǐng)域的主流趨勢，并在各個(gè)學(xué)科領(lǐng)域得到了廣泛應(yīng)用。雖然PEM根據(jù)課程標(biāo)準(zhǔn)的年級水平劃分包含各個(gè)年級特有的測評項(xiàng)目，但從本質(zhì)上來說，在將所有評價(jià)項(xiàng)目置于同一尺度之后，年級水平僅僅起到參考作用，而整個(gè)測評項(xiàng)目所組成的項(xiàng)目庫才是其實(shí)質(zhì)所在。換言之，評價(jià)者不一定需要局限于從特定年級的評價(jià)項(xiàng)目中選擇測評工具，而可以從整個(gè)題（項(xiàng)目）庫中選取合適測評工具。除此之外，題庫建設(shè)實(shí)現(xiàn)了測評（項(xiàng)目）開發(fā)的動態(tài)性和可延續(xù)性。過去以CTT為基礎(chǔ)的測量實(shí)踐中，因其信效度和誤差控制問題，大多測試都是孤立開發(fā)的，無法對其進(jìn)行改進(jìn)和完善。而在PEM中，通過對評價(jià)項(xiàng)目及量規(guī)進(jìn)行標(biāo)定和校準(zhǔn)，從而使所有評價(jià)項(xiàng)目都置于同一尺度，在后續(xù)也可以依照已有項(xiàng)目尺度增添新的測評項(xiàng)目。實(shí)際上，從PEM的研制流程及成果發(fā)布上也可以看出其評價(jià)開發(fā)的動態(tài)性和可延續(xù)性特征。由于測評體系研制是一個(gè)極其復(fù)雜又耗費(fèi)資源的過程，特別是在需要進(jìn)行全國性測試和數(shù)據(jù)采集的情況下，ATF通過將研制任務(wù)階段化，即在開發(fā)小學(xué)標(biāo)準(zhǔn)1測評項(xiàng)目之后繼而開發(fā)中學(xué)測評項(xiàng)目，逐步實(shí)現(xiàn)對測評題（項(xiàng)目）庫的構(gòu)建。

3?對我國體育中考的啟示

多年來體育中考為我國學(xué)校體育發(fā)展帶來的積極效應(yīng)顯而易見，而且體育中考經(jīng)過多年改革與發(fā)展，在不斷實(shí)現(xiàn)自我完善的同時(shí)，也為各學(xué)段學(xué)生綜合素質(zhì)評定中體育評價(jià)及體育高考積累豐富和寶貴經(jīng)驗(yàn)，進(jìn)一步推進(jìn)了我國學(xué)校體育評價(jià)與考試制度的改革與發(fā)展步伐。事實(shí)上，雖然我國在體育中考改革與發(fā)展進(jìn)程中積累了一定經(jīng)驗(yàn)，但在體育中考實(shí)踐中存在一些問題或不足，亟待進(jìn)一步解決和完善。如體能性、碎片化的考試內(nèi)容致使體育中考的“應(yīng)試化”傾向嚴(yán)重;評分標(biāo)準(zhǔn)的科學(xué)性、公平性欠缺，體育中考分?jǐn)?shù)的真實(shí)性和有效性大打折扣;體育中考與學(xué)校體育課程教學(xué)缺乏有效銜接，“考什么，教什么”使得課程標(biāo)準(zhǔn)的效力削減等[18]。簡言之，體育中考處于“風(fēng)口浪尖”的重要原因是其考試性質(zhì)發(fā)生了根本性改變，即由水平性考試轉(zhuǎn)變?yōu)檫x拔性考試，而沿用傳統(tǒng)測量技術(shù)、考核方式、評分標(biāo)準(zhǔn)等內(nèi)容顯然很難滿足選拔性考試需要，其結(jié)果必然導(dǎo)致體育中考的部分功能難以顯現(xiàn)或缺失。因此，在體育中考上升為國家戰(zhàn)略且具有法律效應(yīng)的既定事實(shí)下，改進(jìn)與更新傳統(tǒng)體育中考的測評方式、評價(jià)內(nèi)容和計(jì)分標(biāo)準(zhǔn)等具體操作，是完善我國體育中考制度、推進(jìn)體育中考改革與發(fā)展的關(guān)鍵。因此，我國體育中考應(yīng)借鑒美國PEM的成功經(jīng)驗(yàn)，充分利用現(xiàn)代測量理論IRT的方法和優(yōu)勢，突破傳統(tǒng)體育學(xué)習(xí)成果測評的現(xiàn)實(shí)困境，以建立科學(xué)、合理和公平的體育考試制度。

3.1?廣泛納入“真實(shí)性”運(yùn)動技能測評內(nèi)容，突破體育中考的“應(yīng)試化”桎梏

2020年10月中共中央、國務(wù)院印發(fā)的《深化新時(shí)代教育評價(jià)改革總體方案》指出：“改進(jìn)中考體育測試內(nèi)容、方式和計(jì)分辦法，形成激勵學(xué)生加強(qiáng)體育鍛煉的有效機(jī)制?！笨梢钥闯?，體育中考不僅是對學(xué)生體育學(xué)習(xí)效果進(jìn)行總結(jié)性評價(jià)，而是希望成為促使學(xué)生養(yǎng)成良好鍛煉習(xí)慣進(jìn)而提升體質(zhì)的長效手段。然而，近年來隨著體育科目分值在中考成績中的比重逐年提升，體育中考中的“異化”和“應(yīng)試化”現(xiàn)象也越來越嚴(yán)重，關(guān)于體育中考中“吃藥”“潛規(guī)則”“考前突擊”等事件的報(bào)道屢見不鮮[19]。究其原因，體育中考的項(xiàng)目設(shè)置及測試內(nèi)容不盡合理。如目前各省市中考體育測試項(xiàng)目中技能項(xiàng)目明顯少于素質(zhì)項(xiàng)目，且部分技能項(xiàng)目也僅僅是單個(gè)動作考試（如籃球投籃、足球顛球），忽視體育運(yùn)動的技能性、情境性特點(diǎn)[20]。單一化和機(jī)械性的考試內(nèi)容使得學(xué)生、家長和學(xué)校能夠通過短時(shí)間集訓(xùn)“應(yīng)對”體育中考，使得正常體育教學(xué)秩序也受到嚴(yán)重干擾，成為“應(yīng)試教育”的附庸產(chǎn)物[21]。

美國PEM以IRT為指導(dǎo)，基于課程標(biāo)準(zhǔn)構(gòu)建運(yùn)動項(xiàng)目測試表現(xiàn)性指標(biāo)體系，開發(fā)豐富多樣的“情境性”運(yùn)動技能測評方案，進(jìn)而實(shí)現(xiàn)對體育運(yùn)動技能的“真實(shí)性”評價(jià)，極大地弱化了測評的“應(yīng)試化”傾向。因此，我國體育中考應(yīng)廣泛納入“真實(shí)性”運(yùn)動技能測評內(nèi)容，基于課程標(biāo)準(zhǔn)的目標(biāo)體系構(gòu)建統(tǒng)一的運(yùn)動技能表現(xiàn)性指標(biāo)體系，據(jù)此開發(fā)種類豐富的運(yùn)動技能測評任務(wù)或方案，以突破體育中考的“應(yīng)試化”桎梏，促進(jìn)學(xué)生體育鍛煉習(xí)慣和終身體育思想的養(yǎng)成，使學(xué)生真正掌握一至兩項(xiàng)運(yùn)動技能，提高學(xué)生的運(yùn)動興趣和鍛煉參與熱情，最大限度發(fā)揮體育中考對學(xué)生身心健康發(fā)展的長期效益。

3.2?利用測驗(yàn)等值技術(shù)，實(shí)現(xiàn)體育中考運(yùn)動技能測評分?jǐn)?shù)的可比性

當(dāng)前，我國各地區(qū)體育中考均含有對學(xué)生運(yùn)動技能模塊考核，學(xué)生選考一至兩項(xiàng)運(yùn)動技能項(xiàng)目計(jì)入總分，主要包括排球墊球、排球發(fā)球過網(wǎng)、籃球運(yùn)球、1分鐘運(yùn)球投籃、足球運(yùn)球等內(nèi)容[22]。暫且不論某一基本技術(shù)是否能夠代表學(xué)生真正掌握這項(xiàng)運(yùn)動，單從評分標(biāo)準(zhǔn)和計(jì)分規(guī)則來看，便很難真正體現(xiàn)體育中考的科學(xué)性和公平性。如2020年10月云南省公布的《初中生體育考試專項(xiàng)技能考試內(nèi)容及分值》中，七年級足球顛球的0.5分與籃球30秒原地定點(diǎn)雙手胸前傳球的0.5分是否可以等同？相同分?jǐn)?shù)是否意味著難度相同或者說學(xué)生需要付出同等時(shí)間和精力？隨著年級增長，同一項(xiàng)目得分越高是否代表著學(xué)生運(yùn)動能力增強(qiáng)？顯然，在沒有經(jīng)過科學(xué)論證的情況下以上問題很難給予肯定答案。實(shí)際上，在以CTT為基礎(chǔ)的真分?jǐn)?shù)模型中，受試者能力量表與評價(jià)項(xiàng)目難度量表不一致，實(shí)測分?jǐn)?shù)并不處于等距量表之上，且由于其對于樣本的依賴性很難建立“平行測驗(yàn)”。因此，即使是對同一能力的考核，兩個(gè)測驗(yàn)分?jǐn)?shù)也難以進(jìn)行比較。簡言之，以真分?jǐn)?shù)模型為基礎(chǔ)的體育中考測驗(yàn)中，既不能將不同運(yùn)動項(xiàng)目的測驗(yàn)分?jǐn)?shù)進(jìn)行橫向比較，也不能將同一項(xiàng)目的不同測驗(yàn)分?jǐn)?shù)進(jìn)行縱向比較。簡單的分?jǐn)?shù)疊加和對比不僅削弱了體育中考測驗(yàn)的科學(xué)性和公平性，同時(shí)也無法提供更多大范圍反饋和改進(jìn)信息，由此更進(jìn)一步加深了體育中考的“終結(jié)性”意蘊(yùn)。

如前所述，測評體系的構(gòu)建是一項(xiàng)極其復(fù)雜而又專業(yè)的工作，必須按照規(guī)范化、標(biāo)準(zhǔn)化和科學(xué)化的操作流程進(jìn)行。因此，我國體育中考應(yīng)以省、自治區(qū)為單位，在確定測試內(nèi)容后進(jìn)行大范圍試驗(yàn)和數(shù)據(jù)收集，利用測驗(yàn)等值技術(shù)制定相應(yīng)的評分標(biāo)準(zhǔn)和細(xì)則，實(shí)現(xiàn)體育中考分?jǐn)?shù)的可交流性，進(jìn)一步提升體育中考分?jǐn)?shù)的科學(xué)性和公平性。

3.3?研制參數(shù)詳實(shí)的測評工具，提高體育中考分?jǐn)?shù)的精確性和區(qū)分度

作為一種升學(xué)考試，體育中考的目的不僅在于“以考促練”，提高學(xué)生的運(yùn)動參與和體質(zhì)健康，還應(yīng)當(dāng)兼具考試所具有的競爭、選拔作用。因此，體育中考成績應(yīng)有合理區(qū)分度且符合正態(tài)分布。若大部分學(xué)生都能獲得高分甚至滿分，顯然不會引起學(xué)生和家長的重視，無法體現(xiàn)體育中考的本質(zhì)功能，最終極有可能導(dǎo)致體育中考流于形式。然而，調(diào)查結(jié)果顯示，部分地區(qū)或?qū)W校的體育中考合格率甚至是滿分率高達(dá)90%[23]?？梢娫谌巳硕伎赡酶叻值那闆r下，體育中考已然淪為“合格性”考試，其效果可想而知。反之，若體育中考分?jǐn)?shù)的差異性和區(qū)分度不斷提高，其分?jǐn)?shù)必然會引起學(xué)生、家長和社會的“錙銖必較”，由此便對體育中考分?jǐn)?shù)的準(zhǔn)確性提出更高要求。然而，在真分?jǐn)?shù)模型中所測得的實(shí)測分?jǐn)?shù)并不位于等距量表上，同一測試中被測學(xué)生必須置于被測對象團(tuán)體中，根據(jù)相對等級和相對位置來評估其能力水平或評分，只有在施測能力水平與測驗(yàn)難度相當(dāng)?shù)谋辉囌邥r(shí)，才容易獲得比較高的測量精度。

以美國PEM以IRT為基礎(chǔ)，對ATF研制出的每一個(gè)評價(jià)工具進(jìn)行參數(shù)估計(jì)，將個(gè)人能力與項(xiàng)目難度置于同一尺度，最終形成項(xiàng)目難度已知且分布均勻的評價(jià)工具庫，使得測評者可根據(jù)相應(yīng)難度的測評工具準(zhǔn)確定位學(xué)生能力，確保測評分?jǐn)?shù)的區(qū)分度和精確性。實(shí)際上在我國其他學(xué)科測評領(lǐng)域，上述技術(shù)和方法已經(jīng)得到運(yùn)用并取得了突出效果。如大學(xué)生英語水平測試，測驗(yàn)者根據(jù)難度系數(shù)選擇試題并形成測驗(yàn)，不僅準(zhǔn)確估計(jì)受試者真實(shí)英語水平，同時(shí)也保證每次測驗(yàn)的難度一致。因此，隨著體育中考分值的不斷上升，精確估計(jì)學(xué)生體育學(xué)習(xí)成果和能力便顯得尤為重要。我國應(yīng)充分利用現(xiàn)代教育測量理論的優(yōu)勢，開發(fā)參數(shù)詳實(shí)的體育測評工具，確保體育中考測評分?jǐn)?shù)的科學(xué)性、嚴(yán)謹(jǐn)性和精確性。

3.4?建立動態(tài)體育中考題（項(xiàng)目）庫，不斷豐富和完善體育中考測試內(nèi)容

我國體育中考對于正常體育教學(xué)秩序的沖擊是不言而喻的，這不僅是由于“體能性”“應(yīng)試化”的測評內(nèi)容和方式使得體育教學(xué)淪為“訓(xùn)練課”，更體現(xiàn)于中考測試內(nèi)容對體育教學(xué)內(nèi)容選擇的束縛。當(dāng)前我國各省、市公布的體育中考測試內(nèi)容明顯少于《義務(wù)教育體育與健康課程標(biāo)準(zhǔn)（2011年版）》中水平目標(biāo)所要求和涉及的內(nèi)容。進(jìn)一步調(diào)查發(fā)現(xiàn)，為了“備戰(zhàn)”體育中考部分學(xué)校只會開設(shè)中考體育測試內(nèi)容所包含的體育課程，不僅限制了學(xué)生體育學(xué)習(xí)內(nèi)容的可選范圍，不利于提高學(xué)生體育學(xué)習(xí)興趣和動力，而且降低了《義務(wù)教育體育與健康課程標(biāo)準(zhǔn)（2011年版）》對于體育教學(xué)的指導(dǎo)意義和價(jià)值，很可能導(dǎo)致體育“新課改”多年積累的成果付之一炬。此外，在實(shí)施健康中國戰(zhàn)略背景下，無論是以《健康中國2030》政策為代表的宏觀設(shè)計(jì)，還是體育與健康課程標(biāo)準(zhǔn)的中觀指引，亦或是學(xué)生個(gè)人對健康的微觀訴求，均體現(xiàn)出新時(shí)代國家和人民對健康的重視程度?，F(xiàn)階段，體育與健康課程作為我國健康教育實(shí)施的重要平臺和載體，體育中考理應(yīng)納入對學(xué)生健康能力和知識的考核，以此促進(jìn)學(xué)生健康知識的儲備和健康生活方式的養(yǎng)成。

實(shí)際上，在以CTT為基礎(chǔ)的測量實(shí)踐中，因其信效度和誤差控制的問題且大多數(shù)測試都是孤立開發(fā)的，故很難對其進(jìn)行后續(xù)改進(jìn)和完善。美國PEM在IRT技術(shù)和方法的支持下，遵循題庫開發(fā)的基本程序和方法，構(gòu)建內(nèi)容豐富、科學(xué)合理的體育學(xué)習(xí)成果測評題（項(xiàng)目）庫，不僅確保測評項(xiàng)目和內(nèi)容開發(fā)的動態(tài)性和可持續(xù)性，更實(shí)現(xiàn)了對題（項(xiàng)目）庫測評工具的不斷改進(jìn)和更新。因此，我國體育中考應(yīng)遵循題（項(xiàng)目）庫開發(fā)的基本原理和方法，建立體育中考項(xiàng)目庫，不斷豐富和完善體育中考測試內(nèi)容，滿足學(xué)生對不同運(yùn)動項(xiàng)目的學(xué)習(xí)需求，使得“考什么練什么”轉(zhuǎn)變?yōu)椤熬毷裁纯际裁础保岣邔W(xué)生體育學(xué)習(xí)興趣和動力。同時(shí)，也應(yīng)建立體育中考試題庫，采用紙筆測試形式納入對學(xué)生健康知識儲備和健康素養(yǎng)的考核，以此促進(jìn)學(xué)生健康生活方式的養(yǎng)成，為深入貫徹落實(shí)“新課改”和“健康中國”戰(zhàn)略的理念和要求助力。

隨著國家和社會對于青少年身心健康問題越來越重視，體育在學(xué)校教育中的地位不斷提升，各層次、各學(xué)段體育考試將成為國家和社會獲取體育教學(xué)質(zhì)量有效信息及問責(zé)的重要參考指標(biāo)。鑒于體育中考的制度要求和實(shí)踐問題，在體育考試“高利害”性越來越突出的背景下，如何構(gòu)建科學(xué)合理的體育中考測評體系是完善我國體育考試制度的必要前提和必由路徑。現(xiàn)階段我國可借鑒國外優(yōu)秀經(jīng)驗(yàn)，充分利用現(xiàn)代測量理論的優(yōu)勢，突破傳統(tǒng)體育學(xué)習(xí)成果測評的現(xiàn)實(shí)困境，彌補(bǔ)我國體育學(xué)習(xí)測量領(lǐng)域的缺陷和不足。在此基礎(chǔ)上，還須立足于本土實(shí)際，在實(shí)踐中積極探索體育中考的新方法、新技術(shù)、新路徑，不斷更新和改進(jìn)體育中考的測試內(nèi)容、測評技術(shù)和計(jì)分辦法，以建立更加科學(xué)、更加合理、更符合現(xiàn)代教育發(fā)展趨勢的體育學(xué)習(xí)成果測評體系，為進(jìn)一步完善我國體育考試制度提供充分經(jīng)驗(yàn)與技術(shù)支持。

參考文獻(xiàn)：

[1] 中華人民共和國教育部. 關(guān)于印發(fā)深化體教融合促進(jìn)青少年健康發(fā)展意見的通知[EB/OL]. （2020-08-31）[2020-11-20]. http：//www.moe.gov.cn/jyb_xxgk/moe_1777/moe_1779/202009/t20200922_489794.html.

[2] 中華人民共和國教育部. 中共中央辦公廳國務(wù)院辦公廳印發(fā)《關(guān)于全面加強(qiáng)和改進(jìn)新時(shí)代學(xué)校體育工作的意見》和《關(guān)于全面加強(qiáng)和改進(jìn)新時(shí)代學(xué)校美育工作的意見》[EB/OL]. （2020-10-15）[2020-11-25]. http：//www.moe.gov.cn/jyb_xxgk/moe_1777/moe_1778/202010/t20201015_494794.html.

[3] 李小偉，劉亦凡. 中考體育如何在阻力中前行[J]. 人民教育，2020（Z3）：99-101.

[4] ZHU W，RINK J，PLACEK J H，et al. PE Metrics：Background，testing theory，and methods[J]. Measurement in Physical Education and Exercise Science，2011，15（2）：87-99.

[5] 盧榮偉. 項(xiàng)目反應(yīng)理論在大規(guī)?？荚囋囶}分析中的應(yīng)用[J]. 統(tǒng)計(jì)與管理，2017，32（10）：50-52.

[6] CHEN W，HAMMOND BENNETT A，HYPNAR A. Examination of motor skill competency in students：Evidence-based physical education curriculum[J]. BMC Public Health，2017，17（1）：222-229.

[7] Society of Health and Physical Educators. PE Metrics：Assessing student performance using the national standards & grade-level outcomes for K-12 physical education[M]. 3rd ed. Champaign：Human Kinetics，2018.

[8] 何毅，董國永. 美國PEM體育學(xué)習(xí)評價(jià)體系研究[J]. 首都體育學(xué)院學(xué)報(bào)，2018，30（6）：537-541.

[9] 杜文久. 高等項(xiàng)目反應(yīng)理論[M]. 北京：科學(xué)出版社，2014.

[10] 戴海琦，羅照盛. 項(xiàng)目反應(yīng)理論原理與當(dāng)前應(yīng)用熱點(diǎn)概覽[J]. 心理學(xué)探新，2013，33（5）：392-395.

[11] 鄭日昌. 心理與教育測量[M]. 北京：人民教育出版社，2011.

[12] WEIMO Z，CONNIE F，YOUNGSIK P，et al. Development and calibration of an item bank for PE Metrics assessments：Standard 1[J]. Measurement in Physical Education & Exercise Science，2011，15（2）：119-137.

[13] BENEDICT D，JUDITH H P，KIM C G，et al. Development of PE Metrics elementary assessments for national physical education standard 1[J]. Measurement in Physical Education & Exercise Science，2011，15（2）：100-118.

[14] Society of Health and Physical Educators. PE Metrics：Assessing the national standards，standard 1：elementary[M]. Champaign：Human Kinetics，2008.

[15] Society of Health and Physical Educators. PE Metrics：Assessing national standards 1-6 in elementary school[M]. Champaign：Human Kinetics，2010.

[16] CONNIE F，WEIMO Z，YOUNGSIK P，et al. Related critical psychometric issues and their resolutions during development of PE Metrics[J]. Measurement in Physical Education & Exercise Science，2011，15（2）：138-154.

[17] 吳鍵，袁圣敏. 1985—2014年全國學(xué)生身體機(jī)能和身體素質(zhì)動態(tài)分析[J]. 北京體育大學(xué)學(xué)報(bào)，2019，42（6）：23-32.

[18] 楊立遠(yuǎn). 體教融合背景下體育中考的歷史回顧、現(xiàn)實(shí)困境與發(fā)展出路——“體育中考”云學(xué)術(shù)工作坊綜述[J]. 體育與科學(xué)，2020，41（6）：111-116.

[19] 斯涵涵. 瘋狂的應(yīng)試體育，誰該“吃藥”[N]. 健康報(bào)，2017-07-13（002）.

[20] 徐燁，朱琳. 體育中考的公平訴求及因應(yīng)之策[J]. 武漢體育學(xué)院學(xué)報(bào)，2013，47（11）：30-35.

[21] 周凰，古雅輝，劉昕. 中考改革背景下學(xué)校體育發(fā)展的熱效應(yīng)與冷思考[J]. 北京體育大學(xué)學(xué)報(bào)，2017，40（7）：68-75.

[22] 買佳，金光輝，董國永. 利益相關(guān)者視角下體育中考執(zhí)行現(xiàn)狀及實(shí)施對策[J]. 體育學(xué)刊，2020，27（3）：79-84.

[23] 常州中考. 常州市武進(jìn)體育中考滿分率接近90%. [EB/OL]. （2020-06-07）[2020-11-09]. http：//www.wljyyjy.com/ChangZhouZhongKao/364217.html.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

IRT在體育學(xué)習(xí)成果測評領(lǐng)域中的應(yīng)用及其對我國體育中考的啟示