高考選考科目定級計分和校準的若干問題

2020-06-23 09:54:34溫忠麟

華東師范大學(xué)學(xué)報(教育科學(xué)版) 2020年6期

溫忠麟

（華南師范大學(xué)心理應(yīng)用研究中心/心理學(xué)院，廣州 510631）

從2006 年開始，陸續(xù)有文章指出，高考選考科目成績（分數(shù)或者等級）有必要使用必考科目成績進行校準（羅冠中，2013；溫忠麟，2014，2017；溫忠麟，羅冠中，2006，2008，2010），其中包含了兩層意思：第一，選考科目成績不做校準是有問題的，這對考生整體能力較強的選考科目不利；第二，利用必考科目成績對選考科目成績進行校準是合理可行的。關(guān)于第一層意思，實踐已經(jīng)一再證明了選考科目成績不校準會帶來問題。而且，實踐也證明，如果沒有用一個合理的方法去校準選考科目成績，而是碰到一個問題就出臺一個應(yīng)對措施，這樣的結(jié)果只能是一個問題解決了，另一個問題又出來了，“按下葫蘆浮起瓢”。關(guān)于第二層意思，國內(nèi)（特指中國內(nèi)地）高考至今沒有采取用必考科目成績?nèi)バ蔬x考科目成績的方法，主要原因在于政策制定者甚至部分專家對這種校準方法有疑慮。

本文首先回顧了選考科目成績不校準帶來的問題，舉了幾個典型的計分方案作為例子，這一部分屬于問題的討論部分，觀前預(yù)后。隨后，文章解答了有關(guān)采用必考科目成績?nèi)バ蔬x考科目成績方面的問題，設(shè)計了校準方法的簡單變式（包括只加不減方案），這一部分屬于問題的澄清部分，釋疑解惑。

一、問題從試圖擺平各科難度開始

如大家所知，考試分數(shù)反映了兩個關(guān)鍵指標，一個是考生能力，一個是試題難度。抓住能力和難度就可以把很多問題說清楚。

一次考試結(jié)束之后，就固定一個科目而言，試題難度就固定了，分數(shù)高低反映了考生在該科目上的能力高低；就固定一個大的考生群體（如一個省或全國考生）而言，考生能力就固定了，科目的平均分（即均值）大小反映了該科試題難度的高低（如果各科滿分不同，難度為均值除以滿分值）。如果要比較考試分數(shù)，要么是用固定科目去比考生能力，要么是用固定考生群體去比科目試題難度（簡稱科目難度）。若要各科分數(shù)具有可比性，前提是要各科的難度相同。難度不同的科目，直接比較分數(shù)是有問題的。

高考的目的是評價考生能力以選拔考生，最后要比較的是考生能力而不是科目難度。所以，合理的高考評分計分方案應(yīng)當(dāng)力求消除不同科目難度的差異，也就是說，設(shè)法讓各科難度盡可能相同。

考試分數(shù)的分布在很大程度上由均值和標準差決定（正態(tài)分布，則完全由均值和標準差決定）。均值反映難度，而標準差與區(qū)分度有關(guān)。本文在重點考慮均值之外，也會考慮標準差，或者兩者一并考慮的分數(shù)分布。簡言之，考慮均值相當(dāng)于考慮了難度，考慮標準差則在某種程度上考慮了區(qū)分度。

（一）沒有選考科目的情形

在沒有選考科目的時候，各科考生群體可以認為是相同的，個別缺考的情況可以忽略不計。這時候，用平均分除以滿分值就反映了難度。如果滿分值相同，兩科的難度相同當(dāng)且僅當(dāng)平均分相同。

當(dāng)然，如果能在出試題的時候就讓各科試題難度相同，那就沒有后面的問題了，比如，據(jù)說有的考試機構(gòu)會在事前規(guī)定一個難度指標（如0.7）。但是，難度是考試以后才能計算出來的。由于不同科目的命題、評卷人員不同，因此很難提前設(shè)置一個評分標準使得難度等于預(yù)設(shè)的數(shù)值。例如，同是滿分值150，語文和數(shù)學(xué)的原始分數(shù)平均分可能會相差30 多分（溫忠麟，羅冠中，2008）。

在1985—2006 年間，我國許多省份在高考中采用了平均分為500、標準差為100 的標準分（范圍100～900）。在沒有選考科目的情形下，使用標準分可以消除各科難度差異（同時消除了各科區(qū)分度差異），擺平不同科目的難度，是比較合理的做法。具體來說就是，各科標準分的平均分（都是500）相同、滿分值（都是900）相同，各科的難度也就相同了。因此，使用標準分，各科分數(shù)有可比性，而這個可比性提高了合成高考總分的合理性。

（二）有選考科目的情形

在有選考科目的時候，即使各科能設(shè)置評分標準使得難度等于預(yù)設(shè)的數(shù)值（如0.7），也不能說各科的難度就真的相同了，因為各科考生的整體能力可能是不同的，原始分均值已經(jīng)無法反映難度了。

而且，在有選考科目的時候，通常的計算標準分的方法也有問題（溫忠麟，羅冠中，2006）。這種做法不僅將各個選考科目的難度變成一樣了，而且將不同選考科目考生群體的分數(shù)分布也弄成相同了。由于分數(shù)反映了能力，因此這就相當(dāng)于將各科考生的能力分布也弄成一樣的了。如果各個選考科目考生群體的整體能力相近（就像隨機分派那樣），這樣做的問題不大，但現(xiàn)實是選考物理的考生整體能力較高（溫忠麟，2017），因此使用標準分對物理科考生（尤其是中位數(shù)以下的考生）最不利。廣東省從1999 年開始實行“3+X”并沿用1985 年開始使用的標準分以來，選考物理的考生比例逐年下降得很厲害，因此在2007 年又退回去使用原始分。但使用原始分還是有問題（各科難度擺不平），結(jié)果便是在 2010 年放棄了選考科目。由此可見，在有選考科目的情形下，使用原始分不妥，使用通常的標準分算法也不妥。

二、選考科目擺平難度引發(fā)的連串問題

在有選考科目的情形下，由于考生群體的能力高低不平，此時要擺平各科難度的做法是有問題的。因為在擺平難度的時候，各科考生群體的成績（以及成績反映的能力）也被抹平了。

（一）新高考第一批試點的選考科目計分問題

新高考第一批試點?。ㄊ校ㄉ虾：驼憬┻x考科目使用的是所謂的比例等級制計分，不少學(xué)者對此計分方法所導(dǎo)致的問題多有討論（例如：陳愛文，胡銀泉，2017；柯政，2016；王小虎等，2017；于涵等，2018）。為了比較前后三批試點的選考科目計分方案及其問題，這里對第一批的計分方案也作一些簡要介紹。比例等級制的做法是預(yù)設(shè)比例按考生分數(shù)排位劃分等級并賦分。以上海為例，11 個等級從高到底的比例依次為：最高的A+占5%，接著的9 個等級各占10%，最低等級E 占5%（見表1）。由于相等成績的考生等級要相同，而最低等級的劃分還有其他規(guī)定條件，因此在實踐中上述百分比只是一個約數(shù)。這就意味著，一個考生在選考科目上的最后得分，與該科試題的難易沒有關(guān)系，而是取決于他在該科分數(shù)上的排位。在這一點上，選考科目實行比例等級制賦分與在選考科目使用標準分（這是1999 年—2006 年間廣東實行“3+X”時的做法）在本質(zhì)上是相同的。也就是說，如果成績（按百分等級）的排位相同，那么最后的得分也就相同。這種做法在擺平選考科目難度的同時，也抹平了不同選考科目考生整體能力的差異。

表1 2017 年上海高考選考科目等級、比例與賦分

這個方案的問題出在兩個方面：一個與難度有關(guān)，另一個與區(qū)分度有關(guān)。先說第一個問題。因為比例等級制類似于標準分，在擺平難度的同時也抹平了不同選考科目考生的整體能力差異，因而對科目整體能力較高的考生不利。這對物理科的影響較大，容易直接導(dǎo)致選考物理的考生變少。為了補救，上海和浙江都出臺了“保底”措施：如果物理考生人數(shù)少于保底人數(shù)，按保底人數(shù)（上海物理保底人數(shù)是15000）計算，從高到低給考生定級賦分。這種設(shè)計的不合理之處很明顯：如果該科考生人數(shù)超過保底人數(shù)，考生會繼續(xù)吃虧；如果該科考生人數(shù)只有保底人數(shù)的一半左右，那么最差的一個考生也可以得到C+等級（55 分），也是不合理的。第二個問題是分數(shù)區(qū)間[40，70]的全距（最大值減去最小值）只有30，與必考科目的全距150 比較，標準差小了很多，因而區(qū)分度也低了很多。這種計分方法會讓選考科目變得不重要，因為在這些科目上付出再多的努力也多不了幾分。

第一個問題會導(dǎo)致選考物理的人數(shù)受到影響，第二個問題會讓選考科目發(fā)揮的作用不大。設(shè)想一下：如果非常多的人不愿意選考物理，或者說選了的人也不會怎么努力學(xué)習(xí)，這將產(chǎn)生什么樣的結(jié)果？不難想象，這樣的選考科目計分方案會對我們國家的教育乃至社會發(fā)展產(chǎn)生什么不可估量的影響。

（二）新高考第二批試點的選考科目計分問題

在新高考第二批試點中，山東方案是一個代表。它與前面選考科目相同的地方在于還是采用比例等級制，不同的則是等級比例的設(shè)置和賦分規(guī)則：將每個選考科目的卷面原始分數(shù)，參照正態(tài)分布劃分為8 個等級并確定相應(yīng)比例（見表2）；將8 個等級內(nèi)考生的原始分數(shù)依照等比例轉(zhuǎn)換法則分別轉(zhuǎn)換到8 個分數(shù)區(qū)間（最后一列），得到考生的等級成績（見圖1）（山東省人民政府，2018）。

表2 山東高考選考科目等級、比例與賦分

圖1 山東高考選考科目等級比例及計分規(guī)則

相對于上海的方案而言，山東方案確實改進了不少：一是分數(shù)區(qū)間變大，增加了區(qū)分度；二是使用正態(tài)化等級比例而不是上海那樣的均勻等級比例（兩端除外）；三是避免了同級必定同分的現(xiàn)象，使同一等級內(nèi)原始分數(shù)的差異信息得以保留（于涵等，2018）。然而，這個方案還是在把各科難度擺平（嚴格來說是幾乎擺平）了的同時也抹平了不同選考科目考生的整體能力差異。下面給出詳細解釋。

以B 級為例。得到B 級考生的原始分數(shù)有一個區(qū)間，原始分數(shù)在區(qū)間中點以上（以下）的考生得分高于（低于）75.5（區(qū)間71～80 的中點）。如果原始分數(shù)在區(qū)間中點以上和以下的考生人數(shù)一樣多，那么B 級考生的等級成績平均分正好就是75.5。如果所有級別都是這種理想狀態(tài)，那么考生的等級成績平均分為：

其實，根據(jù)等級比例的對稱性，我們也容易知道平均分等于最小值21 與最大值100 的均值。一般情況下，沒有上述的那么理想（通常是越靠近科目平均分的人數(shù)越密集），因而每個等級的平均分與理想狀態(tài)會有少許差異，但每個等級上的差異往往有正有負。正負抵消的結(jié)果是每個選考科目平均分與60.5 會很接近，尤其是當(dāng)考生人數(shù)比較多的時候（一個選考科目的考生一般都過萬人）。

退一步說，即使各科的等級成績平均分不完全相同，也改變不了對物理考生不利的狀況，甚至可能物理考生的這個平均分還比其他科考生的低呢。所以說，山東方案，還是和上海方案一樣對物理考生不利。而且，因為選考科目的分數(shù)范圍比上海方案大，選考科目的重要性比較高，因而對物理考生的不利情況也會超過上海方案。

第二批試點中的海南方案值得提一下：等級考試成績使用標準分計入高考總成績；高考錄取總成績將由統(tǒng)一高考的語文、數(shù)學(xué)、外語3 個科目成績和考生自主選擇的學(xué)業(yè)水平等級考試的3 個科目成績組成，以標準分呈現(xiàn)（海南省人民政府，2018）。具體來說就是，必考科目和選考科目都轉(zhuǎn)換為正態(tài)化標準分作為單科分：均值180、標準差30、分數(shù)區(qū)間[60, 300]。在合成總分的時候，必考科目權(quán)重為1.5，選考科目權(quán)重為1，6 科相加成總分，然后再將總分轉(zhuǎn)換為正態(tài)化標準分作為高考綜合分：均值500、標準差100、分數(shù)區(qū)間[100, 900]（海南省教育廳，2020）。

首先，海南方案在必考科目使用標準分，比其他使用原始分的方案要合理，這一點是很值得肯定的。其次，我們可以看一下選考科目在方案中的重要性。選考科目與必考科目的分數(shù)全距比值，上海的是0.20，山東的是0.53，海南的是0.67。這個比值越小，說明選考科目在高考總分中越不重要，其考生越?jīng)]有努力的動機；反之，這個比值越大，選考科目越重要，對整體能力高的選考科目考生群體越不利（在選考科目使用標準分或者比例計分的情況下）。

相對于上海方案和山東方案來說，海南方案的選考科目重要性較高，對整體能力高的選考科目考生群體比較不利，但與當(dāng)年廣東“3+X”的標準分方案（溫忠麟, 羅冠中, 2006）相比較而言，海南新高考方案有下面幾方面的改進：一是當(dāng)年廣東方案中選考科目與必考科目的標準分合成總分的權(quán)重相同，即選考科目與必考科目的分數(shù)全距比值是1，而海南方案的這個比值降為0.67；二是當(dāng)年廣東方案只有1 個選考科目，海南方案有3 個選考科目。綜合上面兩點可知，海南方案中的任何單個選考科目的重要性遠低于當(dāng)年廣東方案的選考科目，這樣就減少了因為使用標準分對某些科目帶來的不利結(jié)果。具體來說就是，與當(dāng)年廣東使用的標準分方案比較，海南方案對物理科考生的不利程度減輕了很多。

海南新高考方案還有一個改進就是，單科標準分的區(qū)間由[100, 900]變成[60, 300]，壓縮了分數(shù)間距，可以解決新高考選考模式下選考人數(shù)少的科目分數(shù)稀疏的現(xiàn)象。這可以避免單科原始分的一分之差可能導(dǎo)致單科標準分甚至綜合標準分的不合理差距。

（三）新高考第三批試點的選考科目計分問題

與前兩批試點相比，以江蘇省為代表的第三批方案有較大的變化：必考物理或歷史。具體來說就是，除了語文、數(shù)學(xué)、外語3 科必考外，首先在物理、歷史中選擇1 科，再從思想政治、地理、化學(xué)、生物中選擇兩科，考試分數(shù)計入考生總分。必考三科使用滿分值150 的原始分（這與上海、山東的一樣），選考科目滿分值為100 分。物理、歷史科目以原始分計入總分；其余科目以等級分計入總分（江蘇省人民政府，2019）。

這種做法可以解決前面兩批試點中許多考生不愿選考物理（還有歷史）的問題，但得到的結(jié)果是：“理科生”必選物理，“文科生”必選歷史。如果招生的時候嚴格走兩條線（如計算機專業(yè)招物理考生、文學(xué)專業(yè)招歷史考生），就不存在這兩科分數(shù)的可比性問題，但在現(xiàn)實中有不少專業(yè)是兼招的（如心理學(xué)專業(yè)同時招物理和歷史考生），這樣就有選擇物理或歷史哪科更有利的問題。與在選考科目使用比例等級制相比，直接使用原始分有可能對物理科考生更加不利，因為物理科的平均分比歷史科的低。

既然物理或歷史必考，那剩下四個選考科目對哪一科考生會比較不利?多數(shù)人擔(dān)心的是化學(xué)。原因有兩個：一是重點大學(xué)需要化學(xué)的專業(yè)比需要生物的專業(yè)多，因而這兩科相比有更多優(yōu)秀考生選考化學(xué)（一般考生避強選弱就可能不會選化學(xué)）；二是化學(xué)的內(nèi)容較多、備考需要較長時間（一般考生避難選易也可能不會選化學(xué)）。四個選考科目如果還是使用比例等級制（加上“如果”是因為還未見公布具體做法），江蘇方案中的化學(xué)科可能會面臨第一批方案中物理科的局面，即選考化學(xué)的人數(shù)會減少。

三、選考科目成績合理的校準方法：擺平各科難度但不抹平考生群體成績

從上面討論可知，目前國內(nèi)選考科目的定級和計分方法都是在擺平各選考科目難度的同時也抹平了各科考生的群體成績，而抹平成績與各科考生群體實際上的能力差異是矛盾的，這就是問題的根源。一種合理的做法是基于必考科目成績對選考科目成績進行校準（溫忠麟，2014，2017）。校準方法有多種變式，其中一種變式是組別能力指數(shù)（羅冠中，2013）。從2012 年開始，香港就在中學(xué)文憑考試中采納了該方法。多年的實踐證明，該方法合理可行，不會系統(tǒng)出現(xiàn)考生選科時的“避強選弱”和“避難選易”的問題（溫忠麟，2017）。

為何國內(nèi)高考不設(shè)計一種基于必考科目成績對選考科目成績進行校準的方案呢?從部分政策制定者和專家那里，我們了解到了緣由，并收到了有代表性的看法和意見反饋：

（1）基于必考科目的校準方法復(fù)雜，難以接受；

（2）對于考生而言，加分容易接受，減分很難接受；

（3）回歸分析不能用來做等值；必考科目與選考科目沒有因果關(guān)系，不適合用回歸來做預(yù)測；

（4）用必考科目成績來校準的話，如果一個考生很拔尖但他的選考科目考生群體在必考科目上的表現(xiàn)比較差，那么他會吃虧。

下面我會逐一回答并澄清這些問題。

（一）基于必考科目成績的選考科目成績校準方法可以很簡單

基于必考科目成績對選考科目成績進行校準，這是一類方法，它有多個不同的變式，有的設(shè)計得比較復(fù)雜（溫忠麟，2017），但也可以設(shè)計得很簡單。這里介紹一種比較簡單的方法。

首先，使用規(guī)定的比例等級表對全體考生的必考科目進行定級。為了明確起見，這里以山東省的等級賦分表為例（見上表2），但暫時不會涉及等級賦分，只用到等級比例（如A 等級占3%，等等）。根據(jù)這個等級表，每個考生在語文科和數(shù)學(xué)科各有一個等級。

考慮到必考科目語文、數(shù)學(xué)和英語中有兩個都是文科科目，所以比較公平合理且簡單的做法是：只基于語文和數(shù)學(xué)兩科成績對選考科目進行校準?，F(xiàn)在考慮某個選考科目，我們以物理科為例。假設(shè)物理科考生有4%的人在語文科獲得A 等級，有10%的人在數(shù)學(xué)科獲得A 等級，則物理科考生在語文和數(shù)學(xué)兩科獲得A 等級比例的平均值為7%。那么，就規(guī)定物理科考生7%的人獲得A 等級（而不是等級表上的3%）。同理可以計算物理科其他等級的人數(shù)比例。有了等級比例就可以得到等級切分點，然后就可以按等比例轉(zhuǎn)換法則（見上圖1）計分了。

這種校準方法的優(yōu)勢在于，一方面它使物理科等級比例與物理科試題難度無關(guān)，不論物理科試題的難易程度如何，其等級比例完全由物理科考生在語文和數(shù)學(xué)上的表現(xiàn)所決定。另一方面，它沒有把物理科考生的成績拉平到與其他選考科目上的一樣。

關(guān)于這種校準方法的合理性我在以前的有關(guān)文章中有詳細討論（溫忠麟，羅冠中，2006，2010），簡單來說就是：既然不同選考科目的試題難度不同，考生群體能力也不同，而最后的成績又要有可比性（計入總分進行比較），那我們只好以考生在必考科目上的表現(xiàn)來進行比較，以確定各科考生的群體能力。具體到每個考生，雖然不一定考生的語文、數(shù)學(xué)成績好，其選考科目成績就一定好，但選考科目考生群體（往往上萬人），在各個科目上的能力分布可以認為是近似的。

（二）一個變式：校準選考科目成績時只加不減

對于考生及其家長而言，加分容易接受，減分很難接受。校準選考科目成績一個妥協(xié)的變式是在比例等級制基礎(chǔ)上只加不減，這樣也比不校準要好很多。

還是以山東方案的等級比例表為例。對選考科目只加不減的做法是，從高級別到低級別依次往下，使用累計比例進行計算和比較，然后按只加不減的規(guī)則來定等級比例。首先考慮A 等級比例：如果按校準方法計算的A 等級比例為5%（高于表中比例3%），則使用5%；如果計算的A 等級比例為2%（低于表中比例3%），則使用3%。然后考慮“B+及以上等級”比例（即累計比例），如果計算的“B+及以上等級”比例為11%（高于表中累計比例10%），則使用11%；如果計算的“B+及以上等級”比例為9%（低于表中累計比例10%），則使用10%。往下依次考慮“B 及以上等級”比例，“C+及以上等級”比例……最后是“E 及以上等級”比例為100%（有可能之前某一步的累計比例已經(jīng)達到100%，后面的就不用計算了）。

表3 是選考科目X 科只加不減校準方案的一個示例。第二、三行是設(shè)計的比例和累計比例（來自表2）。第四、五行是X 科考生在必考科目獲得的等級比例和累計比例。在每個等級，取設(shè)計的等級累計（%）和X 科考生的必考科目等級累計（%）較大者，作為X 科等級累計（%）（倒數(shù)第二行），就可以計算X 科等級比例（%）（最后一行）。例如B+等級，有11%的X 科考生在必考科目上獲得“B+及以上等級”，大于10%（設(shè)計的“B+及以上等級”），則X 科獲得“B+及以上等級”的比例為11%（這時比設(shè)計的高就是加了）。又如B 等級，有24%的X 科考生在必考科目上獲得“B 及以上等級”，小于26%（設(shè)計的“B 及以上等級”），則X 科獲得“B 及以上等級”的比例為26%（這時跟隨設(shè)計就是不減）。

表3 X 科只加不減的等級及其比例

有了上面的那些累計比例，自然也就可以從上到下地計算每一個等級的比例。其實，根據(jù)累計比例，已經(jīng)可以得到每個等級的切分點，也就劃分了等級。但要留意的是，必須按表3 示范的那樣用等級累計比例去只加不減，而不能像本文第三部分第一節(jié)中所介紹的那樣計算每個等級比例去只加不減。原因很簡單，如果每個等級比例都只加不減，那么所有等級比例之和就不止100%了。

還有一種只加不減的校準方法是：只對某個或某幾個選考科目進行校準，也就是針對那些不校準便對考生不利的科目。只加不減的校準方法比一般的可加可減的校準方法更容易被接受，尤其是在剛開始的時候。

（三）選考科目分數(shù)校準中回歸分析的作用

因為基于必考科目成績的選考科目成績校準方法的一些變式在某個環(huán)節(jié)會涉及回歸分析，例如香港的中學(xué)文憑考試中使用的組別能力指數(shù)校準方法（羅冠中，2013）就有回歸分析的環(huán)節(jié)，因此有人質(zhì)疑“回歸方法不能用來做等值”“必考科目與選考科目沒有因果關(guān)系，不適合用回歸方法做預(yù)測”等等。前一個質(zhì)疑說明質(zhì)疑者沒有理解回歸在其中扮演的角色，而后一個質(zhì)疑說明質(zhì)疑者沒有明白回歸與因果的邏輯關(guān)系。由于兩個質(zhì)疑都與回歸有關(guān)，所以我放在本小節(jié)一起討論。

沒錯，回歸不能用來做等值，所以明晰回歸在選考科目成績校準方法中的作用很重要。香港在中學(xué)文憑考試中使用的組別能力指數(shù)校準方法中的回歸分析，是用來找權(quán)重的，而不是用來做等值的。本文第三部分第一節(jié)中介紹的方法，其實是將語文和數(shù)學(xué)的權(quán)重當(dāng)作一樣來看待，所以用的是等級比例的平均值。實際上，物理與數(shù)學(xué)的相關(guān)往往大于物理與語文的相關(guān)，而歷史與語文的相關(guān)往往大于歷史與數(shù)學(xué)的相關(guān)。所以，用必考科目成績校準選考科目成績的時候，使用不同的權(quán)重是更好的做法：校準物理科成績的時候，數(shù)學(xué)權(quán)重大于語文權(quán)重；校準歷史科成績的時候，語文權(quán)重大于數(shù)學(xué)權(quán)重。香港中學(xué)文憑考試中必考的四科（中文、英文、數(shù)學(xué)和通識）都用來校準選考科目成績，使用了回歸方法去找四科的權(quán)重。不難理解，這樣找出來的權(quán)重，比用各科相等權(quán)重去校準要好。

按溫忠麟（2017）的分類，香港中學(xué)文憑考試的組別能力指數(shù)校準方法屬于強假設(shè)下的校準方法。此外，筆者也還提出了一種弱假設(shè)下的校準方法，其中用到了多重相關(guān)系數(shù)R，這也是通過回歸分析得到的，而這里就涉及到了回歸預(yù)測的問題。

回歸不能做等值轉(zhuǎn)換的一個原因是，回歸方程中兩個變量的地位是不平等的，而等值關(guān)系中兩個變量是平等的。但如果只是用回歸來做預(yù)測，關(guān)鍵就在于能否精準預(yù)測到誤差可以忽略不計的問題。用一個（或多個）變量去預(yù)測另一個變量，能否通過回歸精準地預(yù)測，這取決于相關(guān)系數(shù)（或多重相關(guān)系數(shù)）的大小，因為只有相關(guān)系數(shù)（或多重相關(guān)系數(shù)）很接近1 時，才能進行精準地預(yù)測。不同科目的成績，通常相關(guān)系數(shù)都遠小于1，所以單個的測驗分數(shù)不能通過回歸去預(yù)測。但就群體均值的預(yù)測而言，如果群體比較大，誤差則會很小。這里以通過身高來預(yù)測體重為例，試作說明。假如只是預(yù)測一個身高1.7 米的單個人的體重，那么預(yù)測出來的體重與實際體重出入超過10 公斤都可能，預(yù)測誤差很大。但對于平均值為1.7 米的一群男性來說，預(yù)測他們的平均體重，會相當(dāng)準確。而如果要預(yù)測的男性群體有1 萬人，那么誤差大約是0.1 公斤（溫忠麟，2017）。在這里，身高與體重談不上等值的問題，但卻可以用一個變量去做另一個變量的均值預(yù)測。

或許有人會接著質(zhì)疑：上面說的群體均值的預(yù)測誤差很小，指的是從大總體中隨機抽取的一群人，而現(xiàn)在選考科目考生群體不是隨機抽取的，那還可以預(yù)測嗎?這個說法有點道理。以選考物理科的考生為例，如果放到全體考生來看，選考物理科的考生的物理平均成績，應(yīng)當(dāng)比隨機抽取的一群考生（該群考生的語文和數(shù)學(xué)成績與選考物理的考生群體的語文和數(shù)學(xué)成績相當(dāng)）的物理成績要好。這就說明，回歸預(yù)測的成績只是選考物理科的考生平均成績的一個下限，選考物理科的考生平均成績至少應(yīng)當(dāng)校準到預(yù)測值那里。換句話說，物理科考生用回歸預(yù)測值去校準還是太保守了，這就是為什么可以建議在R 與1 之間讓專家設(shè)置一個值去校準（溫忠麟，2017）。

對于“必考科目與選考科目沒有因果關(guān)系，不適合用回歸方法做預(yù)測”這個質(zhì)疑，也很容易證明它是一個錯誤的看法。這個質(zhì)疑的逆否命題為“適合用回歸方法做預(yù)測的關(guān)系，是因果關(guān)系”。一個命題與它的逆否命題等價。眾所周知，“適合用回歸方法做預(yù)測的關(guān)系，是因果關(guān)系”是錯誤的，所以“必考科目與選考科目沒有因果關(guān)系，不適合用回歸方法做預(yù)測”也是錯誤的。

（四）選考科目分數(shù)校準后拔尖考生不會吃虧

選考科目的分數(shù)校準是在群體層面進行的，如果一個選考科目群體在必考科目上的表現(xiàn)較差，意味著校準后該群體在選考科目上的成績也比較差。那么，一個拔尖的考生，如果其所在群體的必考科目成績比較差，他會不會吃虧呢?

如果考生甲在一個選考科目上拔尖，那么只要該選考科目群體有少數(shù)人在必考科目上獲得A 等級，考生甲在該選考科目就可以獲得A 等級了。如果考生甲在必考科目上拔尖，在選考科目上應(yīng)當(dāng)也不會太差（因為他可以選考他比較擅長的科目）。如果他的選考科目群體在必考科目上的表現(xiàn)較差，說明該科考生整體能力較低，那么他的必考科目表現(xiàn)會更加突出，即所謂的“小塘大魚效應(yīng)”（Ludtke et al.，2005）。就算他的選考科目成績一般，在錄取的競爭中也還是更有對比優(yōu)勢。道理很簡單，因為甲在必考科目上拔尖，而與其競爭的同科考生群體又在必考科目上表現(xiàn)較差，他就像一個在全球都算得上是富豪的人去到一個窮國一樣，顯得更加富有。

還有一個相反的問題就是：一個很差的考生，在一個最出色的選考科目群體中會不會占便宜?這是有可能的。一個最差的考生，在所有的選考科目都是墊底的話，這時他如果在最出色的選考科目群體中墊底是比較合算的。就像一個最窮的人，與其在一個窮國當(dāng)窮人，不如在一個富國當(dāng)窮人。不過，這樣的考生，不管他選考什么都改變不了會落榜的結(jié)果。

當(dāng)然，人們總可以舉出一些特定的個案，認為用必考科目成績校準選考科目成績時或多或少會吃虧，但這種選考科目校準方法的關(guān)鍵在于，它對各科公平。必考科目是每位考生都要考的，用必考科目作為校準的依據(jù)，對每一個選考科目的考生而言都是比較公平的。

四、結(jié)語

新高考中的選考科目定級計分方法，第一批的兩個?。ㄊ校┰趯嵤┮淮魏缶托枰瞥觥氨５住贝胧?。以山東為代表的第二批試點省份在同一等級上做分數(shù)細化計分，但還是在把各選考科目難度擺平的同時也抹平了不同選考科目考生的整體能力差異，沒有解決根本問題。與第一批試點省份一樣，第二批試點改革對物理科考生不利。

以江蘇省為代表的第三批試點省份，要求物理和歷史必選一科。如果大學(xué)在招生的時候沒有交叉錄取，那就沒有問題，否則這兩科也存在分數(shù)比較的問題。因為，直接使用原始分有可能對物理科考生更加不利。至于其余四科（化學(xué)、生物、政治、地理）由于是自由選考，如果還是使用比例等級制計分的話，對差生及少人去選的科目比較不利，并且會惡性循環(huán)。

新高考改革從第一批試點到第三批試點所采用的選考科目定級計分方法表明，前一批的方法有問題，而后一批出現(xiàn)的問題也亟待規(guī)避和解決。一個問題解決了，另一個問題又來了：在用簡單的方法擺平選考科目難度的同時，也抹平了選考科目考生整體能力實際上存在的差異。

選考科目考生群體能力是動態(tài)變化的，不同科目考生群體之間是存在差異的，而這種差異在不同年份之間也會發(fā)生變化。如果不將上述差異和變化考慮在內(nèi)的任何定級計分方法，都注定會有問題。例如，發(fā)現(xiàn)某科考生吃虧了，就將其分數(shù)提高（提高平均分），雖然有可能會吸引更多差生去選考，但下一年該科考生的整體能力就下降了，因此繼續(xù)按上一年方法來處理就會有問題。根據(jù)必考科目成績校準選考科目成績的方法，依據(jù)的是每一年每一科選考群體的必考科目成績，因此能夠同時考慮到上述的差異和變化，可以系統(tǒng)性地解決問題。

嚴格來說，不同的選考科目成績不好比較。如果不需要合成高考總分，只需分別報告各科成績，然后由高校根據(jù)各科成績?nèi)フ猩?，那么對選考科目成績不進行校準，問題也不大。但既然要合成高考總分，相當(dāng)于要比較選考科目成績，那么用必考科目成績做參照去校準選考科目成績是比較合理的。它雖然不是最好的方法，但卻是經(jīng)實踐檢驗過的可行的方法。此外，我們還可以結(jié)合基于課程標準的專家校準，做出比較合理的選考科目計分方案。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡