田載今
研究問(wèn)題時(shí)需要關(guān)注各種相關(guān)信息,這些信息通常以數(shù)字形式呈現(xiàn),即統(tǒng)計(jì)中所稱(chēng)的數(shù)據(jù),數(shù)據(jù)不僅能簡(jiǎn)潔地表達(dá)信息,而且能定量地刻畫(huà)信息,便于我們科學(xué)地分析信息,因而數(shù)據(jù)是研究問(wèn)題的重要依據(jù),隨著計(jì)算機(jī)和云計(jì)算的迅速發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),海量數(shù)據(jù)的處理得到越來(lái)越廣泛的應(yīng)用.
統(tǒng)計(jì)學(xué)是研究數(shù)據(jù)處理的學(xué)科,統(tǒng)計(jì)的全過(guò)程包括:收集數(shù)據(jù)、整理數(shù)據(jù)、分析數(shù)據(jù)(發(fā)現(xiàn)并研究數(shù)據(jù)的分布特征),并依此推斷、評(píng)判已發(fā)生的事或預(yù)測(cè)將發(fā)生的事,在統(tǒng)計(jì)過(guò)程中,已收集到而未進(jìn)一步處理的數(shù)據(jù)叫作原始數(shù)據(jù).一般情況下,直接面對(duì)一組未經(jīng)整理的原始數(shù)據(jù),難以發(fā)現(xiàn)其分布特征.因此,通常需要對(duì)原始數(shù)據(jù)進(jìn)一步加工整理,使其分布狀況變得清晰.從中得出相應(yīng)的特征值作為數(shù)據(jù)代表,再?gòu)难芯繑?shù)據(jù)代表人手,深入研究相關(guān)問(wèn)題.
一組數(shù)據(jù)的分布特征可以從不同方面進(jìn)行分析,下面從數(shù)據(jù)分布的集中趨勢(shì)和離散程度兩方面,討論統(tǒng)計(jì)中常用的平均數(shù)、中位數(shù)、眾數(shù)和方差等數(shù)據(jù)代表.
一、描述集中趨勢(shì)的數(shù)據(jù)代表
“一組數(shù)據(jù)圍繞哪個(gè)中心數(shù)值分布?”這是分析數(shù)據(jù)時(shí)通常關(guān)注的一個(gè)問(wèn)題.它關(guān)系到一組數(shù)據(jù)的平均水平或一般情況,對(duì)統(tǒng)計(jì)推斷有重要參考價(jià)值.在統(tǒng)計(jì)學(xué)中,把一組數(shù)據(jù)向某一中心數(shù)值靠攏的情形,稱(chēng)為這組數(shù)據(jù)的集中趨勢(shì).在描述數(shù)據(jù)的集中趨勢(shì)時(shí),常從平均數(shù)、中位數(shù)和眾數(shù)中選擇合適的數(shù)據(jù)代表.
如果以一組數(shù)據(jù)大小的平均水平描述集中趨勢(shì),則可用平均數(shù)作為數(shù)據(jù)代表.平均數(shù)由全部原始數(shù)據(jù)計(jì)算得出.如果以一組數(shù)據(jù)大小的中間水平描述集中趨勢(shì),則可用中位數(shù)作為數(shù)據(jù)代表.一組數(shù)據(jù)按大小排列時(shí),中位數(shù)在居中位置.如果以一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù)描述集中趨勢(shì),則可用眾數(shù)作為數(shù)據(jù)代表,眾數(shù)是一組原始數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)據(jù).一組數(shù)據(jù)的眾數(shù)可能有一個(gè),也可能有多個(gè),還可能一個(gè)也沒(méi)有,平均數(shù)、中位數(shù)和眾數(shù)各有各的作用,分別適合從不同角度分析數(shù)據(jù)的集中趨勢(shì).
平均數(shù)是最常用的一個(gè)數(shù)據(jù)代表,它反映了一組數(shù)據(jù)大小的平均水平.需要注意的是,如果一組數(shù)據(jù)中有極端數(shù)據(jù),即與多數(shù)數(shù)據(jù)相比過(guò)大或過(guò)小的個(gè)別數(shù)據(jù),則它會(huì)使平均數(shù)的值與多數(shù)數(shù)據(jù)存在較大差距.如仍以平均數(shù)代表該組數(shù)據(jù)的中心數(shù)值,則不能恰如其分地反映這組數(shù)據(jù)的分布狀態(tài).這種情形下,選擇中位數(shù)或眾數(shù)作為數(shù)據(jù)代表,能更好地反映一組數(shù)據(jù)的集中趨勢(shì).
例1 表1為一條自動(dòng)包裝線(xiàn)某月每天包裝物品的數(shù)量及相應(yīng)的天數(shù).
(l)分別求出表中數(shù)據(jù)的平均數(shù)、中位數(shù)和眾數(shù).
(2)用平均數(shù)作為數(shù)據(jù)代表,能客觀(guān)反映這個(gè)月每天包裝物品數(shù)量的一般情況嗎?
解:(1)通過(guò)計(jì)算加權(quán)平均數(shù),得表中數(shù)據(jù)的平均數(shù)為
(20+2355×10+2360×4+2365×14+2370)÷30=2283.
表中共有30天的數(shù)據(jù),這30個(gè)數(shù)據(jù)從小到大排列時(shí),處于正中間位置的第15和第16兩個(gè)數(shù)據(jù)的平均數(shù)為(2360+2365)÷2=2362.5.因此2362.5是該組數(shù)據(jù)的中位數(shù).
30個(gè)數(shù)據(jù)中,2365出現(xiàn)14次,出現(xiàn)次數(shù)最多,因此2365是該組數(shù)據(jù)的眾數(shù).
(2)觀(guān)察表中數(shù)據(jù)不難發(fā)現(xiàn),30天中有29天的數(shù)據(jù)都不小于2355,它們都大于平均數(shù),且與平均數(shù)的差都不小于72.這30天中有1天的數(shù)據(jù)20遠(yuǎn)小于平均數(shù)2283,這可能是某一天自動(dòng)包裝線(xiàn)有突發(fā)故障造成的反常結(jié)果,顯然,20這個(gè)極端數(shù)據(jù),使得正常情況下應(yīng)有的平均數(shù)的值變小.如果仍以平均數(shù)2283作為數(shù)據(jù)代表,則與自動(dòng)包裝線(xiàn)每天工作的一般狀況差距較大.而以中位數(shù)2362.5或眾數(shù)2365作為數(shù)據(jù)代表,則能較客觀(guān)地反映一般情形下包裝物品數(shù)量的實(shí)際情況.因此,此問(wèn)題不宜用平均數(shù)作為數(shù)據(jù)代表描述數(shù)據(jù)的集中趨勢(shì).
二、描述離散程度的數(shù)據(jù)代表
“一組數(shù)據(jù)中,各個(gè)數(shù)據(jù)與這組數(shù)據(jù)的中心數(shù)值(例如平均數(shù))的偏離程度有多大?”這是分析數(shù)據(jù)時(shí)通常關(guān)注的另一個(gè)問(wèn)題,在統(tǒng)計(jì)學(xué)中,把這種偏離程度稱(chēng)為這組數(shù)據(jù)的離散程度(或離中程度),它反映了一組數(shù)據(jù)大小的波動(dòng)狀態(tài).我們結(jié)合下面的問(wèn)題對(duì)數(shù)據(jù)離散程度予以說(shuō)明.
表2是某一周內(nèi)甲、乙兩個(gè)書(shū)店接待顧客人數(shù)的記錄.
計(jì)算可知,甲、乙兩個(gè)書(shū)店該周內(nèi)平均每天接待顧客人數(shù)分別約為146.9和147.1.兩者非常接近,我們?cè)倏紤]兩組數(shù)據(jù)的波動(dòng)狀態(tài).先觀(guān)察數(shù)據(jù)散點(diǎn)圖,圖1和圖2中的點(diǎn)分別表示甲、乙兩個(gè)書(shū)店的顧客數(shù)量,各點(diǎn)的橫坐標(biāo)為時(shí)間(星期一到星期日),縱坐標(biāo)為顧客人數(shù).圖中的水平線(xiàn)與縱軸交點(diǎn)的縱坐標(biāo)是7個(gè)數(shù)據(jù)的平均數(shù).
比較兩圖,直觀(guān)上可以發(fā)現(xiàn):圖1中各數(shù)據(jù)點(diǎn)分布較緊密,波動(dòng)較小,即總體上看各點(diǎn)與平均值對(duì)應(yīng)的水平線(xiàn)的偏離度較?。簣D2中各數(shù)據(jù)點(diǎn)分布較松散,波動(dòng)較大,即總體上看各點(diǎn)與平均值對(duì)應(yīng)的水平線(xiàn)的偏離度較大.這里的偏離度是對(duì)7個(gè)點(diǎn)偏離度的平均水平而言,是根據(jù)各數(shù)據(jù)點(diǎn)與平均數(shù)直線(xiàn)的距離大小而得出的.盡管與平均數(shù)直線(xiàn)相比,有些數(shù)據(jù)點(diǎn)高,有些數(shù)據(jù)點(diǎn)低,但各點(diǎn)與直線(xiàn)的距離都是非負(fù)的值.即高度差的絕對(duì)值,兩組數(shù)據(jù)相比,甲店數(shù)據(jù)的離散程度較小,乙店數(shù)據(jù)的離散程度較大.
統(tǒng)計(jì)學(xué)中常用方差對(duì)一組數(shù)據(jù)的波動(dòng)情況(即各數(shù)據(jù)與平均數(shù)的偏離狀態(tài))作定量的刻畫(huà),描述數(shù)據(jù)的離散程度.計(jì)算方差的方法為:(1)計(jì)算一組數(shù)據(jù)的平均數(shù);(2)計(jì)算各數(shù)據(jù)與平均數(shù)之差的平方和;(3)用所得平方和除以這組數(shù)據(jù)的個(gè)數(shù).設(shè)一組數(shù)據(jù)為x1,x2,…,xn(共n個(gè)),記其平均數(shù)為x,方差為s2.則
例2 分別計(jì)算上面問(wèn)題中甲、乙兩個(gè)書(shū)店某一周接待顧客人數(shù)的方差.南所得方差你能看出哪種可能性?
解:由以上所述可知,甲、乙兩個(gè)書(shū)店某一周平均每天接待顧客人數(shù)分別為146.9和147.1(保留到0.1).計(jì)算兩組數(shù)據(jù)的方差,得甲店數(shù)據(jù)的方差s2甲=32.1,乙店數(shù)據(jù)的方差sz=272.1.比較兩個(gè)方差,得S2甲.
為什么計(jì)算方差要用各數(shù)據(jù)與平均數(shù)之差的平方和,而不直接把各數(shù)據(jù)與平均數(shù)之差相加呢?一般情形下,一組數(shù)據(jù)中可能有些數(shù)據(jù)比平均數(shù)大,有些數(shù)據(jù)比平均數(shù)?。鼈兣c平均數(shù)之差會(huì)有正有負(fù),如果直接把這些差相加,就會(huì)出現(xiàn)正負(fù)相抵.例如,一組數(shù)據(jù)為1,2,3,4,5,平均數(shù)為3,各數(shù)據(jù)與平均數(shù)之差分別為-2,一1,0,1,2.這些差之和為0,但這并不意味著這組數(shù)據(jù)都是緊靠著平均數(shù)的,用各數(shù)據(jù)與平均數(shù)之差的平方和,則利用了平方的非負(fù)性,防止出現(xiàn)做加法時(shí)正負(fù)相抵而隱藏了相關(guān)數(shù)據(jù)對(duì)平均數(shù)的偏離,方差名稱(chēng)中的“方”正是“平方”的簡(jiǎn)稱(chēng).
對(duì)方差的算式進(jìn)行恒等變形:
這給出了方差的另一種算法:各數(shù)據(jù)平方的平均數(shù)減各數(shù)據(jù)平均數(shù)的平方.
從上面幾例可以看出,得出平均數(shù)、中位數(shù)、眾數(shù)和方差這四種常用數(shù)據(jù)代表的方法不同,這些數(shù)據(jù)代表所表示的意義也不同,在反映一組數(shù)據(jù)的分布特征時(shí),它們有各自的側(cè)重點(diǎn).根據(jù)實(shí)際問(wèn)題的需要,選取合適的數(shù)據(jù)代表來(lái)認(rèn)識(shí)一組數(shù)據(jù)的集中趨勢(shì)與離散程度,是分析數(shù)據(jù)的常用做法.