金石
回歸分析與獨立性檢驗是常見的統(tǒng)計方法,這部分內(nèi)容多出現(xiàn)在高考試題中,更是近幾年高考的熱點. 此部分知識主要考查同學(xué)們的統(tǒng)計基本思想及初步應(yīng)用,試題難度為中等偏上.
重點難點
重點:理解回歸分析、獨立性檢驗的基本思想及實施步驟.
難點:回歸分析中殘差變量的解釋與分析,相關(guān)系數(shù)、指標(biāo)R2的理解;獨立性檢驗中隨機(jī)變量K2的含義.
方法突破
(1)回歸分析中重點考查的是對兩個線性相關(guān)關(guān)系的變量的研究,具體步驟是:①畫散點圖;②利用最小二乘法求回歸直線方程中的■=■=■,■=■-■■;③用回歸直線方程進(jìn)行預(yù)報.
(2)首先要充分理解獨立性檢驗原理. 獨立性檢驗原理指的是在一個已知假設(shè)下,如果一個與該假設(shè)矛盾的小概率事件發(fā)生,就判斷這個假設(shè)不成立,且該推斷犯錯誤的概率不超過這個小概率. 在解決具體問題時通過計算隨機(jī)變量K2=■的觀測值k(注意公式中a,b,c,d,a+c,b+d,a+b,c+d在2×2列聯(lián)表中的位置),并且在臨界值表格中找到滿足k≥k0的臨界值k0,那么犯錯誤的概率不超過k0對應(yīng)的P(k≥k0)即為判斷犯錯誤的概率,從而得出有多大的把握認(rèn)為兩個分類變量有關(guān).
典例精講
■例1 某產(chǎn)品的廣告費用x與銷售額y的統(tǒng)計數(shù)據(jù)如下表:
■
根據(jù)上表可得回歸方程■=■x+■中的■=9.4,據(jù)此模型預(yù)報廣告費用為6萬元時銷售額為( )
A. 63.6萬元 ?搖 B. 65.5萬元?搖?搖
C. 67.7萬元 ?搖 D. 72.0萬元
思索 由于回歸直線過樣本點的中心(■,■),所以利用所給數(shù)據(jù)求出■,■,將其帶入回歸方程中,求出■,從而得出回歸直線方程;再令x=6,求得■的值即為本題的答案.
破解 由已知可得■=■=3.5,■=■=42,所以樣本點的中心為(3.5,42),且■=9.4. 由此得■=■-■■=42-9.4×3.5=9.1. 所以回歸直線方程為■=9.4x+9.1. 當(dāng)x=6時,■=65.5萬元,故選B.
■例2 某地區(qū)2007年至2013年農(nóng)村居民家庭人均純收入y(單位:千元)的數(shù)據(jù)如下表:
■
■
(1)求y關(guān)于t的線性回歸方程;
(2)利用(1)中的回歸方程,分析2007年至2013年該地區(qū)農(nóng)村居民家庭人均純收入的變化情況,并預(yù)測該地區(qū)2015年農(nóng)村居民家庭人均純收入.
附:回歸直線的斜率和截距的最小二乘估計公式分別為:
■=■,■=■-■■.
思索 利用所給數(shù)據(jù)和回歸直線的斜率和截距的最小二乘估計公式求出■,■,進(jìn)而得到回歸直線方程. 利用(1)中的回歸方程,分析2007年至2013年該地區(qū)農(nóng)村居民家庭人均純收入的變化情況,可以從正負(fù)相關(guān)及該地區(qū)農(nóng)村居民家庭人均純收入每年變化幅度方面加以說明. 預(yù)測該地區(qū)2015年農(nóng)村居民家庭人均純收入,可將2015年的年份代號9代入所求的回歸直線方程求出■即可.
破解 (1)由所給數(shù)據(jù)計算得■=■(1+2+3+4+5+6+7)=4,■=■(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,■(ti-■)2=9+4+1+0+1+4+9=28,■(ti-■)(yi-■)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,■=■=■=0.5,■=■-■■=4.3-0.5×4=2.3. 故所求回歸方程為■=0.5t+2.3.
(2)由(1)知,■=0.5>0,故2007年至2013年該地區(qū)農(nóng)村居民家庭人均純收入逐年增加,平均每年增加0.5千元. 將2015年的年份代號t=9代入(1)中的回歸方程,得■=0.5×9+2.3=6.8,故預(yù)測該地區(qū)2015年農(nóng)村居民家庭人均純收入為6.8千元.
■例3 通過隨機(jī)詢問110名性別不同的大學(xué)生是否愛好某項運動,得到如下的列聯(lián)表:
■
由K2=■算得K2=■≈7.8.
附表:
■
參照附表,判斷下列結(jié)論正確的是( )
A. 在犯錯誤的概率不超過0.1%的前提下,認(rèn)為“愛好該項運動與性別有關(guān)”
B. 在犯錯誤的概率不超過0.1%的前提下,認(rèn)為“愛好該項運動與性別無關(guān)”
C. 有99%以上的把握認(rèn)為“愛好該項運動與性別有關(guān)”
D. 有99%以上的把握認(rèn)為“愛好該項運動與性別無關(guān)”
思索 由所給隨機(jī)變量K2的觀測值k在臨界值表格中找到滿足k≥k0的臨界值k0,那么犯錯誤的概率不超過k0對應(yīng)的P(k≥k0)即為判斷犯錯誤的概率,從而得到有多大的把握認(rèn)為兩個分類變量有關(guān).
破解 由于K2的觀測值k在臨界值表格中找到滿足k≥k0的臨界值k0=6.635,那么犯錯誤的概率不超過k0對應(yīng)的P(k≥k0)=0.010即為判斷犯錯誤的概率,所以在犯錯誤的概率不超過1%的前提下,認(rèn)為“愛好該項運動與性別有關(guān)”. 也可以表示為有99%以上的把握認(rèn)為“愛好該項運動與性別有關(guān)”. 故選C.
■例4 為調(diào)查某地區(qū)老人是否需要志愿者提供幫助,用簡單隨機(jī)抽樣方法從該地區(qū)調(diào)查了500位老年人,結(jié)果如下:
■
(1)估計該地區(qū)老年人中,需要志愿者提供幫助的老年人的比例;
(2)能否有99%的把握認(rèn)為該地區(qū)的老年人是否需要志愿者提供幫助與性別有關(guān)?
附表:
■
K2=■.
思索 首先將2×2列聯(lián)表補(bǔ)充完整,可以清晰地得出調(diào)查的500位老年人中有多少位需要志愿者提供幫助,這樣就可以得出該地區(qū)老年人中,需要幫助的老年人的比例的估算值了. 再由所給隨機(jī)變量K2公式求出觀測值k在臨界值表格中找到滿足k≥k■的臨界值k■,那么犯錯誤的概率不超過k0對應(yīng)的P(k≥k0)即為判斷犯錯誤的概率,從而得到有多大的把握認(rèn)為兩個分類變量有關(guān).endprint
破解 首先將2×2列聯(lián)表補(bǔ)充完整,如下表:
■
(1)由表中清晰地得出調(diào)查的500位老年人中有70位需要志愿者提供幫助,因此該地區(qū)老年人中,需要志愿者幫助的老年人的比例的估算值為■=14%.
(2)由所給隨機(jī)變量K2公式求出觀測值k=■≈9.967,由于9.967>6.635,所以有99%的把握認(rèn)為該地區(qū)的老年人是否需要幫助與性別有關(guān).
變式練習(xí)
1. 已知變量x與y正相關(guān),且由觀測數(shù)據(jù)算得樣本平均數(shù)■=3,■=3.5,則由該觀測數(shù)據(jù)算得的線性回歸方程可能是( )
A. ■=0.4x+2.3?搖 B. ■=2x-2.4
C. ■=-2x+9.5?搖 D. ■=-0.3x+4.4
2. 設(shè)某大學(xué)的女生體重y(單位:kg)與身高x(單位:cm)具有線性相關(guān)關(guān)系,根據(jù)一組樣本數(shù)據(jù)(xi,yi)(i=1,2,…,n),用最小二乘法建立的回歸方程為■=0.85x-85.71,則下列結(jié)論中不正確的是( )
A. y與x具有正的線性相關(guān)關(guān)系
B. 回歸直線過樣本點的中心(■,■)
C. 若該大學(xué)某女生身高增加1cm,則其體重約增加0.85kg?搖
D. 若該大學(xué)某女生身高為170cm,則可斷定其體重必為58.79kg
3. 下表提供了某廠節(jié)能降耗技術(shù)改造后生產(chǎn)甲產(chǎn)品過程中記錄的產(chǎn)量x(單位:噸)與相應(yīng)的生產(chǎn)能耗y(單位:噸標(biāo)準(zhǔn)煤)的幾組對照數(shù)據(jù):
■
(1)請畫出上表數(shù)據(jù)的散點圖;
(2)請根據(jù)上表提供的數(shù)據(jù),用最小二乘法求出y關(guān)于x的線性回歸方程■=■x+■;
(3)已知該廠技改前100噸甲產(chǎn)品的生產(chǎn)能耗為90噸標(biāo)準(zhǔn)煤. 試根據(jù)(2)求出的線性回歸方程,預(yù)測生產(chǎn)100噸甲產(chǎn)品的生產(chǎn)能耗比技改前降低多少噸標(biāo)準(zhǔn)煤?
(參考數(shù)值:3×2.5+4×3+5×4+6×4.5=66.5)
4. “十一”期間,某城市通過隨機(jī)詢問100名性別不同的居民是否能做到“光盤”行動,得到如下的列聯(lián)表,下列結(jié)論正確的是( )
■
A. 在犯錯誤的概率不超過1%的前提下,認(rèn)為“該市居民能否做到‘光盤與性別有關(guān)”
B. 在犯錯誤的概率不超過1%的前提下,認(rèn)為“該市居民能否做到‘光盤與性別無關(guān)”
C. 有90%以上的把握認(rèn)為“該市居民能否做到‘光盤與性別有關(guān)”
D. 有90%以上的把握認(rèn)為“該市居民能否做到‘光盤與性別無關(guān)”
5. 為考察高中生的性別與是否喜歡數(shù)學(xué)課程之間的關(guān)系,在我市某普通中學(xué)高中生中隨機(jī)抽取200名學(xué)生,得到如下2×2列聯(lián)表:
■
根據(jù)獨立性檢驗的基本思想,約有多大的把握認(rèn)為“性別與喜歡數(shù)學(xué)課之間有關(guān)系”?
附表:
■
■
K2=■.
參考答案
1. A 2. D
3. (1)圖略;
(2)■xiyi=66.5,■=■=4.5,■=■=3.5,■x2i=32+42+52+62=86,■=■=■=0.7,■=■-■■=3.5-0.7×4.5=0.35. 故線性回歸方程為■=0.7x+0.35.
(3)根據(jù)回歸方程的預(yù)測,現(xiàn)在生產(chǎn)100噸產(chǎn)品消耗的標(biāo)準(zhǔn)煤的數(shù)量為0.7×100+0.35=70.35,故耗能減少了90-70.35=19.65(噸標(biāo)準(zhǔn)煤).
4. C
5. 由所給隨機(jī)變量K2公式求出觀測值k=■≈6.061>5.024,所以約有97.5%的把握認(rèn)為“性別與喜歡數(shù)學(xué)課之間有關(guān)系”.endprint
數(shù)學(xué)教學(xué)通訊·初中版2015年2期