王衛(wèi)華
(湖北大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院應(yīng)用數(shù)學(xué)湖北省重點(diǎn)實(shí)驗(yàn)室 湖北·武漢 430062)
概率論與數(shù)理統(tǒng)計(jì)里面常見(jiàn)的有這幾種數(shù)字特征:數(shù)學(xué)期望,極差,方差,均方差,變異系數(shù),分位數(shù),中位數(shù),偏度系數(shù),峰度系數(shù),協(xié)方差,相關(guān)系數(shù)。這些數(shù)字特征各從一個(gè)側(cè)面描述隨機(jī)變量某些方面的特征,在理論上和實(shí)踐上具有重要意義,它們能更直接,更簡(jiǎn)單,更清晰,更實(shí)用的反映出隨機(jī)變量的本質(zhì)。經(jīng)常性地,在許多實(shí)際問(wèn)題中,人們并不需要考察一個(gè)隨機(jī)變量的分布函數(shù),概率密度,而只需要知道它的某幾個(gè)數(shù)字特征即可。
首先介紹一下最常用最重要的數(shù)字特征——數(shù)學(xué)期望,也稱為平均值,期望值,并不是所有的隨機(jī)變量都存在期望值,數(shù)學(xué)期望的物理解釋是重心,中心,質(zhì)量分布的重心,或者線段,平面等的中心位置。數(shù)學(xué)期望的理論意義深刻,它是一個(gè)實(shí)數(shù),消除了隨機(jī)變量的隨機(jī)性。數(shù)學(xué)期望的應(yīng)用廣泛,如評(píng)價(jià)各產(chǎn)糧區(qū)糧食產(chǎn)量水平時(shí),只需要比較各地區(qū)糧食的評(píng)價(jià)產(chǎn)量,比較各班某學(xué)科成績(jī)時(shí),可比較整個(gè)班某學(xué)科的平均成績(jī)和方差。
有了對(duì)數(shù)學(xué)期望,平均值的理解,我們可以解決,理解生活中的許多問(wèn)題。如,據(jù)報(bào)道,某人在一平均深度為2尺的河水中溺亡,這可能嗎?2尺不能淹死人?。孔⒁?,平均值為2尺,但某人是陷在一個(gè)10尺深的坑中沉下去的。又如,由帕萊托定律可知,百分之十的人擁有百分之九十的社會(huì)財(cái)富,這就是為什么大部分人都會(huì)覺(jué)得自己的收入低于國(guó)民的平均收入,拉了全國(guó)人民的后腿。有了數(shù)學(xué)期望這個(gè)有力的武器,我們就不會(huì)為很多商業(yè)促銷所打動(dòng)。商業(yè)促銷無(wú)處不在,現(xiàn)在我們來(lái)看一個(gè)簡(jiǎn)單的例子,某商場(chǎng)促銷,購(gòu)物滿88元可抽獎(jiǎng)一次,10000張獎(jiǎng)票中,一等獎(jiǎng)一個(gè),是500元購(gòu)物卡,二等獎(jiǎng)十個(gè),是100元購(gòu)物卡,三等獎(jiǎng)一百個(gè),是10元購(gòu)物卡,四等獎(jiǎng)一千個(gè),是2元購(gòu)物卡,某人已購(gòu)物500余元,可抽獎(jiǎng)5次,可是排隊(duì)抽獎(jiǎng)的人比較多,是否值得花時(shí)間排隊(duì)抽獎(jiǎng)呢?我們來(lái)計(jì)算他抽獎(jiǎng)所得的期望值,平均值。我們先求出來(lái)抽獎(jiǎng)一次的期望得獎(jiǎng)值是0.45元,那么由數(shù)學(xué)期望的性質(zhì),抽獎(jiǎng)5次是2.25元,從結(jié)果看,期望值很小,不值得排隊(duì)。
數(shù)學(xué)期望也有它的不足,如,當(dāng)二個(gè)班平均成績(jī)不相上下時(shí),如何再進(jìn)一步比較呢,比較簡(jiǎn)單的度量數(shù)據(jù)離散程度的方法是用極差,極差雖然能在一定程度是刻畫(huà)數(shù)據(jù)的離散程度,但因?yàn)闃O差只使用了數(shù)據(jù)中最大及最小兩個(gè)信息,對(duì)其他數(shù)據(jù)的取值沒(méi)有涉及,所以極差所含的信息量很少,這時(shí)候,方差出場(chǎng)了,它用來(lái)比較成績(jī)的波動(dòng)程度,方差越大,則成績(jī)?cè)讲环€(wěn)定,但方差又有它的缺點(diǎn),方差是離差的平方的數(shù)學(xué)期望,即它是隨機(jī)變量與它自己中心的差的平方的平均值,平方之后,方差放大或縮小了隨機(jī)變量的波動(dòng)程度。并不是所有的隨機(jī)變量都有方差。于是,又有了均方差,均方差是方差的算術(shù)平方根,能更準(zhǔn)確地比較兩個(gè)隨機(jī)變量的波動(dòng)程度。
數(shù)學(xué)期望和方差聯(lián)手,可以解決很多實(shí)際問(wèn)題,比如說(shuō),我們知道了某地區(qū)成年男子的平均身高h(yuǎn)以及身高的均方差s,那么我們可以根據(jù)這兩個(gè)數(shù)據(jù)確定此地區(qū)地鐵車門的高度,因?yàn)槌赡昴凶影俜种攀宓纳砀叨荚冢╤-2s,h+2s)這個(gè)區(qū)域,車門高度略高于h+2s即可。概率統(tǒng)計(jì)中常用的分布,二項(xiàng)分布,泊松分布,指數(shù)分布,正態(tài)分布,均勻分布都可以由期望和方差這兩個(gè)常數(shù)確定,有了期望和方差,我們就能寫(xiě)出這些分布的分布列或概率密度函數(shù),多么神奇??!很多隨機(jī)變量的比較,我們不需要去進(jìn)行大量的計(jì)算,只去比較一下數(shù)字特征就可以。比如,兩種不同型號(hào)的手機(jī),要比較它們的使用壽命,使用壽命都服從指數(shù)分布,知道了兩個(gè)指數(shù)分布的兩個(gè)參數(shù),就可以比較,參數(shù)的倒數(shù)是數(shù)學(xué)期望,是平均壽命,所以,參數(shù)大的,使用壽命短。
方差、均方差反映了隨機(jī)變量取值波動(dòng)程度,但在比較兩個(gè)隨機(jī)變量的波動(dòng)大小時(shí),只看方差或均方差有時(shí)候是不合理的。因?yàn)槭紫入S機(jī)變量的取值有量綱,其次取值的大小有一個(gè)相對(duì)性問(wèn)題,取值較大的隨機(jī)變量的方差或均方差允許大一些。為了避免這些因素的影響,引入變異系數(shù)(均方差除以數(shù)學(xué)期望得到的數(shù),稱為變異系數(shù))。均方差與數(shù)學(xué)期望的量綱相同,所以變異函數(shù)沒(méi)有量綱了,消除了量綱對(duì)波動(dòng)的影響。舉個(gè)例子,用X表示某種同齡樹(shù)的高度,用Y表示某年齡段兒童的身高,量綱都是米,樹(shù)的平均高度為10米,兒童的平均身高為1米,樹(shù)的取值較大,樹(shù)的均方差是1米,兒童的均方差是0.04米,表面上看樹(shù)的均方差大于兒童的均方差,但是比較它們的變異系數(shù),樹(shù)的變異系數(shù)是0.1,兒童身高的變異系數(shù)是0.2,說(shuō)明兒童身高的波動(dòng)比樹(shù)高的波動(dòng)大。
我們知道,密度函數(shù)與X軸所夾面積為1,分位數(shù)是X軸上的一個(gè)點(diǎn),這個(gè)點(diǎn),把面積分成了兩部分,左側(cè)面積為p,右側(cè)面積為1-p。或者說(shuō),分布函數(shù)在分位數(shù)處的函數(shù)值是p,即比如,某場(chǎng)考試要根據(jù)考試成績(jī)錄取總?cè)藬?shù)的前10%,那就是求成績(jī)這個(gè)隨機(jī)變量的0.9分位數(shù)。再比如一個(gè)工廠車間的工人生產(chǎn)產(chǎn)品,根據(jù)每個(gè)人的產(chǎn)量制定懲罰措施,后5%要扣獎(jiǎng)金,那就是求產(chǎn)量這個(gè)隨機(jī)變量的0.05分位數(shù)。當(dāng)p取特殊值0.5時(shí),0.5分位數(shù)稱為中位數(shù),也就是說(shuō)有一半的隨機(jī)變量落在中位數(shù)的左邊,另一半的隨機(jī)變量落在中位數(shù)的右邊,或者說(shuō),分布函數(shù)在中位數(shù)這一點(diǎn)的函數(shù)值是0.5分位數(shù)和中位數(shù)一般是指連續(xù)型隨機(jī)變量的分位數(shù)和中位數(shù)。對(duì)離散分布雖然可以引入分位數(shù)和中位數(shù)的概念,但分位數(shù)和中位數(shù)有可能不存在或不唯一。所以,在離散分布里面很少使用分位數(shù)。中位數(shù)和平均值一樣都是隨機(jī)變量的特征數(shù),它兩各有優(yōu)勢(shì),在某些情況下,中位數(shù)更能說(shuō)明問(wèn)題。比如A國(guó)人年齡的中位數(shù)是40歲,說(shuō)明有一半人的年齡超過(guò)40歲,B國(guó)人年齡的中位數(shù)是50歲,說(shuō)明有一半人的年齡超過(guò)50歲,B國(guó)人比A國(guó)人老齡化更嚴(yán)重。與中位數(shù)相比,平均值也有自己的優(yōu)點(diǎn),比如,一組數(shù)據(jù),如果或數(shù)值發(fā)生變化,那么平均值會(huì)跟著發(fā)生變化,但中位數(shù)卻沒(méi)有變化,因?yàn)槠骄蹬c每一個(gè)數(shù)據(jù)都有關(guān),但中位數(shù)只利用了數(shù)據(jù)中間位置的一個(gè)或者兩個(gè)值,而沒(méi)有利用其他數(shù)據(jù),因此與中位數(shù)相比較,平均值反映了數(shù)據(jù)的更多信息,對(duì)樣本中的極端值更敏感。但有些特殊分布,當(dāng)這些分布是關(guān)于Y=C對(duì)稱時(shí),這些分布的中位數(shù)與均值相等,均為點(diǎn)C。例如正態(tài)分布,均勻分布。在實(shí)際應(yīng)用中,除了經(jīng)常用到中位數(shù),還有0.25分位數(shù),0.75分位數(shù),這三個(gè)分位數(shù)把數(shù)據(jù)分成了四等份,因此也稱為四分位數(shù)。四分位數(shù)在數(shù)據(jù)分析中起著重要作用。
接著來(lái)說(shuō)一下偏度系數(shù)和峰度系數(shù)。偏度系數(shù)是用來(lái)描述分布偏離對(duì)稱性程度的一個(gè)特征數(shù),當(dāng)密度函數(shù)是對(duì)稱圖形時(shí),偏度系數(shù)為0,任何正態(tài)分布,以及一維均勻分布偏度均為0。偏度系數(shù)不為0時(shí),分為左偏和右偏,當(dāng)密度函數(shù)最大值左邊的變量多于右邊的變量時(shí),密度函數(shù)圖形在左邊有長(zhǎng)尾巴,稱為左偏,反之成為右偏。偏度系數(shù)為0時(shí),平均值與中位數(shù)相等;左偏時(shí),平均值在尾巴那邊,平均值小于中位數(shù);右偏時(shí),平均值在尾巴那邊,平均數(shù)大于中位數(shù)。峰度函數(shù)是描述分布尖峭程度和尾部粗細(xì)的一個(gè)特征數(shù),峰度是相對(duì)正態(tài)分布而言的超出量,以標(biāo)準(zhǔn)正態(tài)分布為基準(zhǔn)確定其大小。若標(biāo)準(zhǔn)化后的分布比標(biāo)準(zhǔn)正態(tài)分布更尖峭,則峰度系數(shù)大于0,若標(biāo)準(zhǔn)化后的分布比標(biāo)準(zhǔn)正態(tài)分布更平坦,則峰度系數(shù)小于0。偏度與峰度都是描述分布形狀的特征數(shù),它們的設(shè)置均以標(biāo)準(zhǔn)正態(tài)分布為基準(zhǔn),正態(tài)分布的偏度和峰度均為0。
前面介紹的都是一維隨機(jī)變量的數(shù)字特征,經(jīng)常地,我們會(huì)用多個(gè)隨機(jī)變量從不同的方向去描述同一樣本點(diǎn),那么這多個(gè)隨機(jī)變量之間有時(shí)候有一定的依賴關(guān)系。比如,一個(gè)成年人去體檢,測(cè)身高、體重和量血壓,體重與身高有一定的關(guān)系,血壓與體重又有一定關(guān)系。協(xié)方差就是反映隨機(jī)變量之間依賴關(guān)系的一個(gè)數(shù)字特征,它是對(duì)兩個(gè)隨機(jī)變量的協(xié)同變化的度量。協(xié)方差是兩個(gè)隨機(jī)變量的各自的離差的乘積的數(shù)學(xué)期望。協(xié)方差大于0時(shí),稱兩個(gè)隨機(jī)變量正相關(guān),即兩個(gè)隨機(jī)變量有同時(shí)增加或同時(shí)減少的傾向;協(xié)方差小于0時(shí),稱兩個(gè)隨機(jī)變量負(fù)相關(guān),這時(shí)有X增加而Y減少的傾向,或反之;協(xié)方差等于0時(shí),稱X與Y不相關(guān),這時(shí)候可能是兩種情況,其一是X與Y的取值毫無(wú)關(guān)系,其二是X與Y之間有關(guān)聯(lián),但不是線性關(guān)系。協(xié)方差的引入完善了方差的計(jì)算,在X與Y相關(guān)的情況,和的方差并不等于方差的和,X與Y的正相關(guān)會(huì)增加X(jué)與Y的和的方差,負(fù)相關(guān)會(huì)減少和的方差,而在X與Y不相關(guān)時(shí),和的方差等于方差的和。
協(xié)方差也有缺點(diǎn),它是兩個(gè)變量的積的數(shù)學(xué)期望,當(dāng)兩個(gè)變量的量綱不同時(shí),協(xié)方差的量綱無(wú)意義,而且,kX和kY之間的統(tǒng)計(jì)關(guān)系與X和Y之間的統(tǒng)計(jì)關(guān)系應(yīng)該是一樣的,但其協(xié)方差卻擴(kuò)大了k的平方倍,為了消除量綱的影響,用協(xié)方差去除它們各自的均方差,得到一個(gè)新的數(shù)字特征—相關(guān)系數(shù),相關(guān)系數(shù)實(shí)際上是普通隨機(jī)變量標(biāo)準(zhǔn)化之后的協(xié)方差,相關(guān)系數(shù)描述了兩個(gè)變量之間的線性關(guān)系的強(qiáng)弱,也稱為線性相關(guān)系數(shù),相關(guān)系數(shù)取值在-1到1之間,其絕對(duì)值越接近于0,則線性相關(guān)程度越低。相關(guān)系數(shù)為0時(shí),稱兩個(gè)隨機(jī)變量不相關(guān),其絕對(duì)值越接近1,則線性相關(guān)程度越高。相關(guān)系數(shù)為1時(shí),稱X與Y完全正相關(guān)。相關(guān)系數(shù)為-1時(shí),稱X與Y完全負(fù)相關(guān)。相關(guān)系數(shù)與協(xié)方差是同符號(hào)的,即同為正,或同為負(fù),或同為零。我們經(jīng)常利用相關(guān)系數(shù)的性質(zhì)求解,考研有一個(gè)經(jīng)典題型是,一根木棍長(zhǎng)為m,分成兩部分,一部分長(zhǎng)為x,另一部分長(zhǎng)為y,求兩個(gè)隨機(jī)變量x與y的相關(guān)系數(shù)。因?yàn)閤+y=m,x與y是線性關(guān)系,x越大,y越小,負(fù)相關(guān),所以這個(gè)題目不需要計(jì)算,直接回答,相關(guān)系數(shù)是-1。
以上總結(jié)了概率統(tǒng)計(jì)里面常用的特征數(shù),特征數(shù)包含著很多信息,它們?cè)趯W(xué)習(xí)生活生產(chǎn)實(shí)踐中發(fā)揮著重要作用。我們要了解它們,掌握它們,應(yīng)用它們。
隨著社會(huì)的不斷進(jìn)步和科學(xué)技術(shù)水平的提高,概率統(tǒng)計(jì)將發(fā)揮它的最大作用,使之最大限度地為人類服務(wù)。