秦文波
(重慶市璧山區(qū)教師進修學(xué)校)
獨立性檢驗是高中階段所學(xué)的一種檢驗方法,是近年來高考的考查熱點.為了更好地復(fù)習(xí)備考,本文就獨立性檢驗的考向進行詮釋,并結(jié)合新課標要求給出備考建議.
例1在下面頻率等高條形圖中,兩個分類變量x與y關(guān)系最強的是( ).
例2假設(shè)兩個分類變量x與y的2×2列聯(lián)表如表1所示.
表1
對于以下數(shù)據(jù),對同一樣本能說明x與y有關(guān)系的可能性最大的一組為( ).
A.a=20,b=30,c=40,d=50
B.a=50,b=30,c=30,d=40
C.a=30,b=60,c=20,d=50
D.a=50,b=30,c=40,d=30
例3在研究色盲與性別的關(guān)系調(diào)查中,調(diào)查了男性50人,其中有20人患色盲,調(diào)查的60個女性中15人患色盲,則變量K2的值約為( ).
A.1.60 B.2.83 C.2.712 D.6.004
列出2×2列聯(lián)表如表2所示.
表2
故選B.
例4有關(guān)獨立性檢驗的四個命題,其中為假命題的是( ).
A.兩個分類變量的2×2列聯(lián)表中,對角線上數(shù)據(jù)的乘積相差越大,說明這兩個變量有關(guān)系的可能性就越大
B.對分類變量X與Y的隨機變量K2的觀測值k來說,k越小,“X與Y有關(guān)系”的可信程度越小
C.從獨立性檢驗可知:有95%把握認為禿頂與患心臟病有關(guān),我們說某人禿頂,那么他有95%可能患有心臟病
D.從獨立性檢驗可知:有99%的把握認為吸煙與患肺癌有關(guān),是指在犯錯誤的概率不超過1%前提下認為吸煙與患肺癌有關(guān)
例5(2022年全國甲卷文17,節(jié)選)甲、乙兩城之間的長途客車均由A和B兩家公司運營,為了解這兩家公司長途客車的運行情況,隨機調(diào)查了甲、乙兩城之間的500個班次,得到列聯(lián)表(如表3).
表3
能否有90%的把握認為甲、乙兩城之間的長途客車是否準點與客車所屬公司有關(guān)?
例6為了檢測某種抗病毒疫苗的免疫效果,需要進行動物與人體試驗,研究人員將疫苗注射到200只小白鼠體內(nèi),一段時間后測量小白鼠的某項指標值,按[0,20),[20,40),[40,60),[60,80),[80,100]分組,繪制頻率分布直方圖如圖1所示,試驗發(fā)現(xiàn)小白鼠體內(nèi)產(chǎn)生抗體的共有160只,其中該項指標值不小于60的有110只.假設(shè)小白鼠注射疫苗后是否產(chǎn)生抗體相互獨立.
圖1
(1)請根據(jù)α=0.05的獨立性檢驗,判斷能否認為注射疫苗后小白鼠產(chǎn)生抗體與指標值不小于60有關(guān).
(2)為檢驗疫苗二次接種的免疫抗體性,對第一次注射疫苗后沒有產(chǎn)生抗體的40只小白鼠進行第二次注射疫苗,結(jié)果又有20只小白鼠產(chǎn)生抗體.
(ⅰ)用頻率估計概率,求一只小白鼠注射2次疫苗后產(chǎn)生抗體的概率p;
(ⅱ)以(ⅰ)中確定的概率p作為人體注射2次疫苗后產(chǎn)生抗體的概率,進行人體接種試驗,記n個人注射2次疫苗后產(chǎn)生抗體的數(shù)量為隨機變量X.試驗后統(tǒng)計數(shù)據(jù)顯示,當X=90時,P(X)取最大值,求參加人體接種試驗的人數(shù)n及E(X).
在[0,20)內(nèi)有0.0025×20×200=10只;
在[20,40)內(nèi)有0.00625×20×200=25只;
在[40,60)內(nèi)有0.00875×20×200=35只;
在[60,80)內(nèi)有0.025×20×200=100只;
在[80,100]內(nèi)有0.0075×20×200=30只.
由題意,有抗體且指標值小于60的有50 只;而指標值小于60的小白鼠共有10+25+35=70只,所以指標值小于60且沒有抗體的小白鼠有20只.同理,指標值不小于60且沒有抗體的小白鼠有20只,故列聯(lián)表(單位:只)如表4所示.
表4
零假設(shè)為H0:注射疫苗后小白鼠產(chǎn)生抗體與指標值不小于60無關(guān)聯(lián).
根據(jù)列聯(lián)表中數(shù)據(jù),得
根據(jù)α=0.05 的獨立性檢驗,推斷H0不成立,即認為注射疫苗后小白鼠產(chǎn)生抗體與指標值不小于60有關(guān),此推斷犯錯誤的概率不大于0.05.
(2)(ⅰ)令事件A為“小白鼠第一次注射疫苗產(chǎn)生抗體”,事件B為“小白鼠第二次注射疫苗產(chǎn)生抗體”,事件C為“小白鼠注射2次疫苗后產(chǎn)生抗體”.
記事件A,B,C發(fā)生的概率分別為P(A),P(B),P(C),則
所以一只小白鼠注射2 次疫苗后產(chǎn)生抗體的概率為0.9.
(ⅱ)由題意,知隨機變量X~B(n,0.9),則
當接種人數(shù)為99 時,E(X)=np=99×0.9=89.1;當接種人數(shù)為100 時,E(X)=np=100×0.9=90.
本部分內(nèi)容的基礎(chǔ)知識包括:2×2列聯(lián)表、等高條形圖、統(tǒng)計量K2、獨立性檢驗的概念、基本思想以及操作步驟等,這些都是高考重點考查的內(nèi)容,需要準確理解并牢固掌握.
學(xué)生要能快速且準確地列出2×2列聯(lián)表并畫出等高條形圖,要能根據(jù)等高條形圖準確列出2×2列聯(lián)表,要熟練獨立性檢驗的操作步驟和結(jié)果的表述方式.
關(guān)于統(tǒng)計量K2的觀測值的獲得需要較大的運算量,我們平時要提高自己的運算求解能力,計算時最好能提取公因數(shù)或借助平方差公式因式分解后再約分化簡求解,結(jié)果最好先以分式形式呈現(xiàn),再根據(jù)題目要求保留相應(yīng)小數(shù)點位數(shù).
平時的練習(xí)題要在重視基礎(chǔ)的前提下適當顧及廣度、深度和難度,練習(xí)題盡量選取各省市或名校模擬試題以及高考真題.
獨立性檢驗本質(zhì)上是對兩個分類變量獨立性的假設(shè)檢驗,基本思路:先假設(shè)兩個分類變量獨立,再在給定顯著性水平下計算統(tǒng)計量K2的觀測值并與臨界值比較,最后根據(jù)比較結(jié)果作出拒絕假設(shè)或接受假設(shè)的概率解釋.
2×2列聯(lián)表、等高條形圖和統(tǒng)計量K2的觀測值可以判斷兩個分類變量是否有關(guān)系.2×2列聯(lián)表對角線乘積相差越大,則兩個分類變量有關(guān)系的可能性越大;等高條形圖下方顏色高度相差越大,則兩個分類變量有關(guān)系的可能性越大;統(tǒng)計量K2的觀測值越大,則兩個分類變量有關(guān)系的可能性越大.
在給定顯著性水平α的條件下,利用統(tǒng)計量K2的觀測值k與α對應(yīng)的臨界值k0的大小關(guān)系可以從概率的角度判斷兩個分類變量是否有關(guān)系.若k≥k0,則可表述為能在犯錯誤的概率不超過α的前提下認為這兩類分類變量有關(guān)系;有1-α(百分比)的把握認為這兩個分類變量有關(guān)系.若k<k0,則可表述為不能在犯錯誤的概率不超過α的前提下判定這兩個分類變量有關(guān);沒有1-α(百分比)的把握認為這兩個分類變量有關(guān).
練習(xí)1(多選題)為了增強學(xué)生的身體素質(zhì),某校將冬天長跑作為一項制度固定下來,每天大課間例行跑操.為了調(diào)查學(xué)生喜歡跑步是否與性別有關(guān),研究人員隨機調(diào)查了相同人數(shù)的男、女學(xué)生,發(fā)現(xiàn)男生中有80%喜歡跑步,女生中有40%不喜歡跑步,且有95%的把握判斷喜歡跑步與性別有關(guān),但沒有99%的把握判斷喜歡跑步與性別有關(guān),則被調(diào)查的男、女學(xué)生的總?cè)藬?shù)可能為( ).
A.120 B.130 C.240 D.250
答案AB.
練習(xí)2某種常見疾病可分為Ⅰ,Ⅱ兩種類型.為了了解該疾病類型與地域、初次患該疾病的年齡(以下簡稱初次患病年齡)的關(guān)系,在甲、乙兩個地區(qū)共隨機抽取100名患者調(diào)查其疾病類型及初次患病年齡,得到的數(shù)據(jù)如表5所示.
表5
記初次患病年齡在[10,40)的患者為低齡患者,初次患病年齡在[40,70]的患者為高齡患者.根據(jù)表5中數(shù)據(jù),解決以下問題:
(1)將以下列聯(lián)表(表6和表7)補充完整,并判斷地域、初次患病年齡這兩個變量中哪個變量與該疾病的類型有關(guān)聯(lián)的可能性更大(直接寫出結(jié)論,不必說明理由).
表6
表7
(2)記(1)中與該疾病的類型有關(guān)聯(lián)的可能性更大的變量為X.問:是否有99%的把握認為該疾病的類型與X有關(guān)?
答案(1)列聯(lián)表略,初次患病年齡與該疾病的類型有關(guān)聯(lián)的可能性更大.
(2)有99%的把握認為該疾病類型與初次患病年齡有關(guān).
練習(xí)3為迎接2022年北京冬季奧運會,普及冬奧知識,某校開展了“冰雪答題王”冬奧知識競賽活動.現(xiàn)從參加冬奧知識競賽活動的學(xué)生中隨機抽取100名學(xué)生,將他們的競賽成績(滿分為100 分)分為6組:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],得到如圖2所示的頻率分布直方圖.
圖2
(1)估計這100名學(xué)生的平均成績(同一組中的數(shù)據(jù)用該組區(qū)間的中點值為代表),并估計這100 名學(xué)生成績的中位數(shù)(精確到0.01);
(2)在抽取的100名學(xué)生中,規(guī)定:競賽成績不低于80分為“優(yōu)秀”,競賽成績低于80分為“非優(yōu)秀”.
(ⅰ)請判斷是否有99%的把握認為“競賽成績是否優(yōu)秀與性別有關(guān)”?
(ⅱ)求出等高條形圖需要的數(shù)據(jù),并畫出等高條形圖(按圖3中“優(yōu)秀”和“非優(yōu)秀”所對應(yīng)陰影線畫),利用條形圖判斷競賽成績優(yōu)秀與性別是否有關(guān)系?
圖3
答案 (1)平均成績73,中位數(shù)73.33.
(2)(ⅰ)略,沒有;(ⅱ)略,有.
本文可能用到的參考公式及數(shù)據(jù):
表8
(完)