国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)背景的相關(guān)系數(shù)研究

2017-11-14 12:03:28姜詠梅倪中華
關(guān)鍵詞:協(xié)方差標準差總體

姜詠梅,倪中華

(1.九州職業(yè)技術(shù)學(xué)院,江蘇 徐州 221116; 2.商丘職業(yè)技術(shù)學(xué)院,河南 商丘 476000)

基于大數(shù)據(jù)背景的相關(guān)系數(shù)研究

姜詠梅1,倪中華2

(1.九州職業(yè)技術(shù)學(xué)院,江蘇 徐州 221116; 2.商丘職業(yè)技術(shù)學(xué)院,河南 商丘 476000)

隨著信息技術(shù)的發(fā)展,我們迎來了大數(shù)據(jù)時代,許多領(lǐng)域都出現(xiàn)了海量的數(shù)據(jù).探求紛繁復(fù)雜的數(shù)據(jù)之間的相關(guān)關(guān)系比尋找因果關(guān)系更受關(guān)注,而統(tǒng)計學(xué)中的相關(guān)系數(shù)正是用來描述兩個變量之間相關(guān)關(guān)系的指標.文章先給出相關(guān)系數(shù)的由來以及在概率論中的定義和性質(zhì),再推導(dǎo)出統(tǒng)計學(xué)中常見的2個計算相關(guān)系數(shù)的公式,最后舉例計算以提高對相關(guān)系數(shù)的理解以及應(yīng)用的能力.

大數(shù)據(jù);相關(guān)系數(shù);均值;標準差;隨機變量

0 引言

自然界中的各種現(xiàn)象總是普遍聯(lián)系和相互依存的,客觀現(xiàn)象之間的數(shù)量聯(lián)系,也叫相關(guān)關(guān)系.維克托·邁爾-舍恩伯格在其著作大數(shù)據(jù)時代[1]12中明確指出,大數(shù)據(jù)時代最大的轉(zhuǎn)變就是放棄對因果關(guān)系的渴求,取而代之關(guān)注相關(guān)關(guān)系.相關(guān)關(guān)系作為統(tǒng)計學(xué)中的一個工具的魅力在于將兩個變量的關(guān)聯(lián)精煉成一個描述性數(shù)據(jù):相關(guān)系數(shù)[2]73-74.相關(guān)系數(shù)是用來說明變量之間在直線相關(guān)條件下相關(guān)關(guān)系密切程度和方向的統(tǒng)計分析指標[3]206-207.例如,人的身高和體重,某種商品的價格與需求,證券市場價格與投資者心理之間都存在著一定的相關(guān)關(guān)系.而當今社會隨著手機、電腦、互聯(lián)網(wǎng)的普及與發(fā)展,我們能獲取的數(shù)據(jù)越來越多,若能對這些數(shù)據(jù)及時地進行分析和預(yù)測它們之間的相關(guān)關(guān)系,將會深刻影響人們的決策.

1 概率中的相關(guān)系數(shù)

1.1 定義的由來

如何來描述兩個隨機變量的線性相關(guān)程度呢.謝明文[4]33-36利用最小二乘法:假設(shè)隨機變量X與Y具有一定的線性關(guān)系,則存在實數(shù)a和b,使得Y≈aX+b.為使這種近似程度達到最高,這就要求均方差S=E(Y-aX-b)2達到最小,有

1.2 概率中的定義

設(shè)對二維隨機變量(X,Y),E(X),E(Y)和E{[X-E(X)][Y-E(Y)]}都存在,則稱E{[X-E(X)][Y-E(Y)]}為X與Y的協(xié)方差,記作Cov(X,Y),即

Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}.

若Cov(X,Y)存在,并且D(X),D(Y)存在且都不為0,則稱

為X與Y的相關(guān)系數(shù)[5]112-113.把(2)式帶入(1)式得

由(3)式可以得出相關(guān)系數(shù)的性質(zhì)如下:

1) -1≤ρXY≤1.

2) 若|ρXY|的值越大,則X與Y的相關(guān)程度越高;若|ρXY|的值越小,則X與Y的相關(guān)程度越低.

3)ρ=1為完全正相關(guān);ρ=-1為完全負相關(guān),表明隨機變量之間為完全線性相關(guān),即函數(shù)關(guān)系.ρ=0表明隨機變量之間無線性相關(guān)關(guān)系.

2 統(tǒng)計中相關(guān)系數(shù)的兩個常用公式

設(shè)x1,x2,…,xn為來自總體X的一組樣本觀測值,y1,y2,…,yn為來自總體Y的一組樣本觀測值,ρ表示總體的相關(guān)系數(shù),r表示樣本的相關(guān)系數(shù),σxy表示兩組變量的協(xié)方差,σx表示X的標準差,σy表示Y的標準差,則有

由概率知識得

將上面3個式子帶入(4)式得

即相關(guān)系數(shù)可以表示成兩組變量的協(xié)方差與兩組變量標準差乘積的商,(5)式也是統(tǒng)計學(xué)中常用的計算公式之一.

(6)式也是統(tǒng)計學(xué)中計算相關(guān)系數(shù)的一個常用公式.

相關(guān)系數(shù)可以反映兩組變量之間相互關(guān)聯(lián)的程度并且不受變量單位的限制(由(2)式可以看出我們把隨機變量單位化了),也就是說我們可以計算體重和身高之間的關(guān)聯(lián)性,哪怕它們的單位分別是千克和厘米.

3 應(yīng)用

3.1 傳統(tǒng)統(tǒng)計學(xué)中相關(guān)系數(shù)的計算

由于以前的條件所限,搜集總體的數(shù)據(jù)比較困難,所以傳統(tǒng)統(tǒng)計學(xué)中用來計算相關(guān)系數(shù)的數(shù)據(jù)往往是對總體進行抽樣,用樣本觀測值對總體進行推測.比如我們想考察某個城市青少年的體重和身高的相互關(guān)系,我們可以應(yīng)用公式(5)借助于Excel計算體重與身高的相關(guān)系數(shù),具體步驟為:

1) 選取一個樣本(比如取10個人),獲取樣本中每一位青少年體重與身高的觀測值;

2) 求出體重與身高的平均值和標準差;

3) 將每個人的體重和身高轉(zhuǎn)換成標準值:

(體重-平均體重)/ 體重標準差、(身高-平均身高)/ 身高標準差;

4) 將每個人體重標準值與身高標準值相乘;

5) 將第4步得到的乘積相加再除以總?cè)藬?shù)(即10),就得到體重與身高的相關(guān)系數(shù).(見表1)

表1 身高體重相關(guān)系數(shù)

3.2 大數(shù)據(jù)背景下相關(guān)系數(shù)的計算

在大數(shù)據(jù)時代,我們可以采集事物整體的全部數(shù)據(jù),并且得到的數(shù)據(jù)是動態(tài)的而非靜態(tài)的,因此我們能夠用兩者之間的相關(guān)關(guān)系來捕捉到事物的現(xiàn)在和預(yù)測未來,而非傳統(tǒng)的只是檢驗過去.如我們想考察某個企業(yè)的產(chǎn)量與單位成本的相互關(guān)系,我們可以搜集到它們的全部數(shù)據(jù),然后按照如下步驟計算出兩者的相關(guān)系數(shù).

1) 分別求出產(chǎn)量和單位成本的平方;

2) 求出產(chǎn)量與單位成本的乘積;

3) 分別求出產(chǎn)量、單位成本、產(chǎn)量的平方、單位成本的平方、產(chǎn)量與單位成本乘積的和;

4) 代入公式(6)計算得出相關(guān)系數(shù).

根據(jù)經(jīng)驗可將相關(guān)程度分為以下幾種情況:1)|r|≥0.8,一般稱為高度線性相關(guān); 2)0.5≤|r|<0.8,為顯著線性相關(guān);3)0.3≤|r|<0.5,為低度線性相關(guān);4)|r|<0.3,為無線性相關(guān).

對比上述兩種相關(guān)系數(shù)的計算方法,我們可以得出:傳統(tǒng)統(tǒng)計學(xué)是先算出樣本中體重與身高的相關(guān)系數(shù)繼而推測總體的身高和體重之間的相關(guān)關(guān)系.比如樣本的體重與身高的相關(guān)系數(shù)是0.97,從而得出總體的身高和體重為高度線性相關(guān),也就是說一般情況下身高高的人體重也重,當然也不排除個別情況,身高矮體重也是重的.由于抽取樣本的有限性,可能會隱藏一些數(shù)據(jù),從而使得到的結(jié)果與實際有偏差.但在大數(shù)據(jù)背景下,就可以很好的解決這個問題,因為我們用的是該企業(yè)產(chǎn)量和單位成本的全部數(shù)據(jù),這樣就能更全面地考察該企業(yè),從而給決策者提供有益參考.

4 結(jié)語

在大數(shù)據(jù)時代,我們的核心任務(wù)是預(yù)測,而相關(guān)系數(shù)是統(tǒng)計中常用的分析數(shù)據(jù)的工具,它可以將大量繁雜無序、單位不同的復(fù)雜數(shù)據(jù)加工成一個簡潔、優(yōu)雅的描述性數(shù)據(jù),給人們提供有益參考.事物之間的相關(guān)關(guān)系可能不會準確地告知事物發(fā)生的內(nèi)在原因,但是它會提醒人們事物之間的相互聯(lián)系[6]23-28,從而為社會的經(jīng)濟發(fā)展提供幫助.但需要注意的是相關(guān)關(guān)系不等于因果關(guān)系,也就是說兩個變量存在高度相關(guān)關(guān)系并不代表其中一個變量的改變是由另一個變量的變化引起的.舉個例子,身高和體重存在高度的正相關(guān)關(guān)系的意思不是你想長高就多吃飯增加體重就可以了.當然現(xiàn)在有許多流行的統(tǒng)計軟件,如SAS、SPSS和R語言等來分析處理大數(shù)據(jù),我們不光要會計算還要會分析數(shù)據(jù)和理論聯(lián)系實際.

[1] 維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代[M].盛楊燕,周 濤,譯.杭州:浙江人民出版社,2013.

[2] 查爾斯·惠倫.赤裸裸的統(tǒng)計學(xué)[M].曹 檳,譯.北京:中信出版社,2013.

[3] 陳正偉.新編統(tǒng)計學(xué)[M].北京:北京郵電大學(xué)出版社,2012.

[4] 謝明文.關(guān)于協(xié)方差、相關(guān)系數(shù)與相關(guān)性的關(guān)系[J].數(shù)理統(tǒng)計與管理,2004,23(3).

[5] 王玉孝,姜炳麟,汪彩云.概率論、隨機過程與數(shù)理統(tǒng)計[M].北京:北京郵電大學(xué)出版社,2010.

[6] 秦榮生.大數(shù)據(jù)、云計算技術(shù)對審計的影響研究[J].審計研究,2014(6).

ResearchonCorrelationCoefficientBasedonBigDataBackground

JIANG Yongmei1, NI Zhonghua2

(1.JiuzhouCollegeofVocationandTechnology,Xuzhou221116,China;2.ShangqiuPolytenic,Shangqiu476000,China)

With the development of information technology, people ushered in the era of big data and there are many areas of massive data. The correlation between the complicated data is more concerned than looking for causality while the statistics of the correlation coefficient is used to describe the relationship between two variables. The paper first gives the origin of correlation coefficient and its definition and characteristics in probability theory, and then it deduces several common formulas for calculating correlation coefficient. Finally it gives examples of calculation to improve the understanding of this concept and applicable ability. Theory and practice are combined closely in this way.

big data; correlation coefficient; mean; standard deviation; random variable.

O211.5;O212.1

A

1671-8127(2017)05-0068-04

2017-04-28

姜詠梅(1981- ),女,山東煙臺人,九州職業(yè)技術(shù)學(xué)院副教授,理學(xué)碩士,主要從事概率論與數(shù)理統(tǒng)計研究。

[責(zé)任編輯梧桐雨]

猜你喜歡
協(xié)方差標準差總體
用樣本估計總體復(fù)習(xí)點撥
用Pro-Kin Line平衡反饋訓(xùn)練儀對早期帕金森病患者進行治療對其動態(tài)平衡功能的影響
2020年秋糧收購總體進度快于上年
外匯市場運行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
中國外匯(2019年6期)2019-07-13 05:44:06
直擊高考中的用樣本估計總體
不確定系統(tǒng)改進的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預(yù)報器
一種基于廣義協(xié)方差矩陣的欠定盲辨識方法
對于平均差與標準差的數(shù)學(xué)關(guān)系和應(yīng)用價值比較研究
縱向數(shù)據(jù)分析中使用滑動平均Cholesky分解對回歸均值和協(xié)方差矩陣進行同時半?yún)?shù)建模
關(guān)于協(xié)方差的U統(tǒng)計量檢驗法
和硕县| 北海市| 郓城县| 香格里拉县| 聂拉木县| 达州市| 南宫市| 宿迁市| 上犹县| 巴楚县| 句容市| 海丰县| 赤水市| 嘉义市| 黄骅市| 池州市| 偃师市| 利津县| 卫辉市| 成都市| 嵩明县| 县级市| 抚远县| 韩城市| 云霄县| 本溪市| 碌曲县| 汉阴县| 太康县| 鄂温| 天长市| 盐边县| 孝义市| 湖南省| 彝良县| 保德县| 怀远县| 漳平市| 潞城市| 五寨县| 城步|