国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

房?jī)r(jià)大數(shù)據(jù)分析模型檢驗(yàn)方法

2017-04-22 12:25陸紅
教育教學(xué)論壇 2017年17期
關(guān)鍵詞:檢驗(yàn)方法分析模型大數(shù)據(jù)

陸紅

摘要:大數(shù)據(jù)分析模型構(gòu)建完成后,最重要的是對(duì)模型進(jìn)行檢驗(yàn),如何檢驗(yàn)是困擾我們的一個(gè)難題,本文圍繞房?jī)r(jià)大數(shù)據(jù)分析模型,介紹幾種大數(shù)據(jù)分析模型的檢驗(yàn)方法,供從事大數(shù)據(jù)分析研究的人員借鑒和參考。

關(guān)鍵詞:大數(shù)據(jù);分析模型;檢驗(yàn)方法

中圖分類(lèi)號(hào):G712 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2017)17-0082-02

一、引言

房?jī)r(jià)大數(shù)據(jù)分析模型通過(guò)機(jī)器學(xué)習(xí)方法構(gòu)建,模型建立完成后需要對(duì)模型進(jìn)行檢驗(yàn),房?jī)r(jià)大數(shù)據(jù)模型需要檢驗(yàn)擬合的情況,欠擬合說(shuō)明模型對(duì)數(shù)據(jù)的覆蓋程度不夠,過(guò)擬合無(wú)法反應(yīng)模型的通用性。通過(guò)回歸診斷,診斷殘差情況,殘差是反映真實(shí)值與假設(shè)值之間的差,希望模型殘差盡量小,假設(shè)值極大地逼近真實(shí)值。通過(guò)檢驗(yàn)可以剔除奇異數(shù),剔除一些干擾項(xiàng)。

二、回歸診斷

1.房?jī)r(jià)大數(shù)據(jù)分析模型。price1<-data.frame(price=c(130,140,150,135,200,220,210,280,300,320,350),size=c(50,55,60,55,80,90,90,110,120,130,140),room=c(1,1,1,1,2,2,2,3,3,3,3));tline<-function(){plot(price~room+size,data=price1,pch=16,col='red');model1=lm(price~room+size,data=price1);)tline();summary(model1)。模型構(gòu)建采用最小二乘算法進(jìn)行機(jī)器學(xué)習(xí),經(jīng)過(guò)訓(xùn)練數(shù)據(jù)訓(xùn)練,訓(xùn)練出房?jī)r(jià)大數(shù)據(jù)分析模型。通過(guò)summary(model1)函數(shù),生成模型檢驗(yàn)數(shù)據(jù),檢驗(yàn)?zāi)P蛿M合情況、殘差數(shù)據(jù)、正態(tài)分布情況、方差檢驗(yàn)、奇異數(shù)檢驗(yàn),通過(guò)模型檢驗(yàn)數(shù)據(jù)分析模型是否需要進(jìn)一步優(yōu)化。

Residuals:

Min 1Q Median 3Q Max

-7.5556 -2.6667 -0.2222 3.5556 8.6667

殘差最小是-7.5556,最大是8.6667,中值是-0.2222。估計(jì)的值與真實(shí)值存在一定的誤差,通過(guò)求極值算法使之最小。

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 43.7778 5.7061 7.672 0.000256 ***

size 1.5111 0.2461 6.140 0.000855 ***

room 15.7778 10.7282 1.471 0.191782

Signif. codes: 0 ‘*** 0.001 ‘** 0.01 ‘* 0.05 ‘.‘ 1

Residual standard error: 5.837 on 6 degrees of freedom

Multiple R-squared: 0.9949,Adjusted R-squared: 0.9932

F-statistic:582.3 on 2 and 6 DF, p-value: 1.346e-07

2.模型參數(shù)。采用最小二乘法算法,經(jīng)過(guò)機(jī)器學(xué)習(xí),訓(xùn)練出模型參數(shù),構(gòu)成房?jī)r(jià)大數(shù)據(jù)分析模型:房?jī)r(jià)大數(shù)據(jù)分析模型為y=aX1+bX2+C,其中:X1=size(面積),X2=room(間數(shù)),y(總價(jià))。經(jīng)過(guò)機(jī)器學(xué)習(xí)得到模型以下參數(shù):Size=1.5111;Room=15.7778;截距=

43.7778;y=1.5111*X1+15.7778*X2+43.7778,此函數(shù)為房?jī)r(jià)大數(shù)據(jù)分析模型。

3.顯著性檢驗(yàn)。

Estimate Std. Error t value Pr(>|t|)

(Intercept) 43.7778 5.7061 7.672 0.000256 ***

size 1.5111 0.2461 6.140 0.000855 ***

room 15.7778 10.7282 1.471 0.191782

Signif. codes: 0 ‘*** 0.001 ‘** 0.01 ‘* 0.05 ‘.‘ 1

殘差自由度為6的殘差標(biāo)準(zhǔn)誤差為5.837,p-value:1.346e-07,P值很小說(shuō)明無(wú)自相關(guān)性,殘差項(xiàng)之間獨(dú)立。自變量與應(yīng)變量相關(guān)性,截距和size顯著性均為三顆星***,說(shuō)明截距和size與Y相關(guān)性顯著;room沒(méi)有星,說(shuō)明room與Y房?jī)r(jià)相關(guān)性不顯著。

4.擬合情況分析。

通過(guò)數(shù)據(jù)可視化,觀察房?jī)r(jià)大數(shù)據(jù)散點(diǎn)圖,可以看出房?jī)r(jià)大數(shù)據(jù)訓(xùn)練樣本呈直線分布??梢杂镁€性回歸進(jìn)行房?jī)r(jià)大數(shù)據(jù)分析模型的構(gòu)建。

通過(guò)殘差與擬合圖,觀察和分析模型對(duì)訓(xùn)練數(shù)據(jù)集擬合程度,從上圖擬合線(紅線)對(duì)數(shù)據(jù)的擬合情況看,基本上擬合了大多數(shù)數(shù)據(jù)。沒(méi)有發(fā)生欠擬合或過(guò)擬合。Multiple R-squared: 0.9949,Adjusted R-squared: 0.9932,從這兩個(gè)數(shù)據(jù)可以看出擬合達(dá)到99%以上,擬合程度很高。

5.假設(shè)性檢驗(yàn)。從正態(tài)Q-Q圖上可以看出,數(shù)據(jù)分布在45°直線周?chē)瑯?biāo)準(zhǔn)殘差成正態(tài)分布,滿(mǎn)足正態(tài)性假設(shè)。

6.方差檢驗(yàn)。同方差性,若滿(mǎn)足不變方差假設(shè),位置—尺度圖縱坐標(biāo)為標(biāo)準(zhǔn)化殘差的平方根,殘差越大,點(diǎn)的位置越高。從圖中可以看出經(jīng)過(guò)對(duì)殘差處理為標(biāo)準(zhǔn)化殘差的平方根,擬合的總體趨勢(shì)還可以,個(gè)別點(diǎn)可以看出遠(yuǎn)離擬合線如“點(diǎn)5”、“點(diǎn)7”,奇異點(diǎn)已經(jīng)顯露。

7.奇異數(shù)檢驗(yàn)。從殘差與杠桿圖中可以看出離群點(diǎn)和影響強(qiáng)度。Cook's distance值衡量強(qiáng)影響點(diǎn)的強(qiáng)度,從圖中可以看出“點(diǎn)7”這個(gè)點(diǎn)Cook's distance值超過(guò)0.5是所有數(shù)據(jù)中Cook's distance值最高的數(shù)據(jù),它是目前的強(qiáng)影響點(diǎn)。杠桿值高的數(shù)據(jù)是離群點(diǎn),目前“點(diǎn)4”杠桿值也較高,它也是離群點(diǎn)。

三、交叉驗(yàn)證

從訓(xùn)練數(shù)據(jù)集中提取一部分?jǐn)?shù)據(jù)作為驗(yàn)證數(shù)據(jù),將驗(yàn)證數(shù)據(jù)代入房?jī)r(jià)大數(shù)據(jù)分析模型,得出的結(jié)果與真實(shí)數(shù)據(jù)進(jìn)行比較。如果與真實(shí)值很接近,說(shuō)明分析模型預(yù)測(cè)房?jī)r(jià)比較準(zhǔn)確;如果模型得出的結(jié)果與真實(shí)的房?jī)r(jià)相差較大,需要優(yōu)化房?jī)r(jià)大數(shù)據(jù)分析模型算法。

猜你喜歡
檢驗(yàn)方法分析模型大數(shù)據(jù)
基于BERT-VGG16的多模態(tài)情感分析模型
新形勢(shì)下對(duì)變?cè)煳募z驗(yàn)的新認(rèn)識(shí)
層次分析模型在結(jié)核疾病預(yù)防控制系統(tǒng)中的應(yīng)用
全啟發(fā)式語(yǔ)言分析模型
IFC4結(jié)構(gòu)分析模型應(yīng)用技術(shù)
沙洋县| 卢龙县| 聂荣县| 五峰| 阿坝县| 高州市| 娄烦县| 桂林市| 务川| 巩义市| 延边| 泗阳县| 竹溪县| 丁青县| 塘沽区| 靖边县| 思南县| 澄江县| 布尔津县| 和龙市| 通江县| 巴南区| 安远县| 天长市| 鄯善县| 四川省| 永新县| 贵德县| 砀山县| 阿克陶县| 瑞金市| 同心县| 锡林浩特市| 淮安市| 花垣县| 柯坪县| 葫芦岛市| 沁阳市| 铜鼓县| 赞皇县| 两当县|