小學(xué)期末考試成績出來了,學(xué)校對每個班的成績進行綜合比較并排名,而張老師為此煩惱不已——在他擔(dān)任班主任的班級里,男生的平均成績與女生的平均成績均在全年級排名第一,但在綜合排名中屈居中流。為什么會出現(xiàn)這種現(xiàn)象呢?原來,在小學(xué)階段,女生的成績一般要好于男生,而該班男生居多,結(jié)果使得該班在綜合排名中“吃虧”了。
在分組比較中占據(jù)優(yōu)勢的一方,在綜合評估中卻成為失勢的一方。這是一個著名的統(tǒng)計現(xiàn)象,被稱為辛普森悖論。此悖論凸顯了綜合比較的謬誤。為了更好地理解這一點,我們在此提供一個更加詳細的案例:一家醫(yī)學(xué)實驗室對某種疾病的新舊兩種療法進行對比實驗。在實驗中,按照性別,病人被分成兩組。實驗結(jié)果顯示,對于男性病人組,新舊兩種療法的治愈率分別為80%與75%;對于女性病人組,則分別為67%與50%。對于每一組,新療法的效果顯然都要優(yōu)于舊療法。然而,當(dāng)研究人員對實驗結(jié)果進行匯總統(tǒng)計后卻發(fā)現(xiàn),新療法竟然劣于舊療法——新療法匯總的治愈率為66%,而舊療法匯總的治愈率為73%。辛普森悖論在此出現(xiàn),其根源是,研究人員在分配療法給男女病人時,沒有做到分配的隨機性,新療法主要用于女性病人,從而其匯總的治愈率處于67%與80%之間,并更接近于67%;而舊療法主要用于男性病人,從而其匯總的治愈率處于50%與75%之間,并更接近于75%。換言之,新療法用于女性病人的療效與舊療法用于男性病人的療效,主導(dǎo)了綜合評估的結(jié)果。
辛普森悖論表明,要進行科學(xué)的綜合比較,必須滿足比較的公平性,即相互間要具有可比性。例如,在比較小學(xué)班級的成績時,每個班級中男女生所占比例不同,就會使得班級間缺乏可比性;在比較新舊兩種療法的療效時,每種療法中男女患者所占比例不同,就會使得療法間缺乏可比性。然而問題在于,比較對象難免存在很多差異,那么在實踐中,我們究竟該如何控制各種差異對綜合比較的“污染”呢?以小學(xué)班級成績比較為例,我們首先應(yīng)基于理論、常識或者經(jīng)驗,對差異如何“污染”綜合比較有所認識。例如,在比較小學(xué)班級的成績時,我們要認識到,小學(xué)階段的女生在心智上一般要比同齡男生更成熟,進而其成績一般要好于男生,結(jié)果使得一個班級的男女生所占比例會影響班級的綜合排名。接下來要認識到,除非在當(dāng)初組成班級時遵循了男女生隨機分班原則,從而保證了每個班級的性別比例基本一致,否則進行綜合比較是不公平的。如果不是男女生隨機分班呢?此時,為了滿足比較的公平性,我們應(yīng)該在班級間對男女生進行分組比較。
在日常生活中,不少排行榜都是綜合比較的結(jié)果,很可能因為忽視了可比性而產(chǎn)生辛普森悖論。因此,在面對那些五花八門的排行榜時,我們須擦亮眼睛,謹防被誤導(dǎo)。
(火箭熊摘自2019年10月2日《今晚報》,河川圖)