国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)背景下統(tǒng)計(jì)軟件在數(shù)據(jù)分析中的應(yīng)用

2016-07-11 23:41孟雪井李宏飛楊亞飛
現(xiàn)代經(jīng)濟(jì)信息 2016年12期
關(guān)鍵詞:數(shù)據(jù)分析大數(shù)據(jù)

孟雪井 李宏飛 楊亞飛

摘要:大數(shù)據(jù)時(shí)代,各種數(shù)據(jù)層出不窮,如何從海量數(shù)據(jù)中挖掘有效信息并加以利用,是各行各業(yè)面臨的重要問(wèn)題。統(tǒng)計(jì)軟件在數(shù)據(jù)處理過(guò)程中起到至關(guān)重要的作用。結(jié)合大數(shù)據(jù)的數(shù)據(jù)特征,本文從數(shù)據(jù)處理的角度,介紹了常用軟件Excel、Eviews、SPSS、Stata、SAS、R及Python在數(shù)據(jù)整理與分析過(guò)程中各自的優(yōu)勢(shì)和不足,為數(shù)據(jù)分析工作者提供參考。

關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計(jì)軟件;數(shù)據(jù)分析

中圖分類(lèi)號(hào):TP393.4 文獻(xiàn)識(shí)別碼:A 文章編號(hào):1001-828X(2016)012-000-01

在大數(shù)據(jù)時(shí)代,每個(gè)人身邊都存在著海量、豐富可深入挖掘的數(shù)據(jù),人人生產(chǎn)數(shù)據(jù),時(shí)時(shí)產(chǎn)生數(shù)據(jù)。大數(shù)據(jù)一般分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),大體上,結(jié)構(gòu)化數(shù)據(jù)占10%、半結(jié)構(gòu)化數(shù)據(jù)占5%、非結(jié)構(gòu)化數(shù)據(jù)占85%,包括各種格式的辦公文本、圖片、報(bào)表、音頻、視頻等。對(duì)統(tǒng)計(jì)學(xué)習(xí)而言,最大的考驗(yàn)是如何對(duì)這些海量的數(shù)據(jù)信息進(jìn)行充分的開(kāi)發(fā),找出數(shù)據(jù)之間隱藏的規(guī)律與關(guān)系。

首先對(duì)于結(jié)構(gòu)化的數(shù)據(jù),一般基礎(chǔ)數(shù)據(jù)分析用Excel等統(tǒng)計(jì)軟件,既可滿(mǎn)足基礎(chǔ)要求;大數(shù)據(jù)分析用Eviews,SPSS,Stata,SAS,R,Python等,其中R和Python對(duì)于半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的挖掘和分析有很好的應(yīng)用。下面對(duì)各軟件在大數(shù)據(jù)分析中的特點(diǎn)進(jìn)行簡(jiǎn)單介紹:

Excel電子表格是Microsoft公司推出的Office系列產(chǎn)品之一,是一個(gè)功能強(qiáng)大的電子表格軟件。特點(diǎn)是對(duì)表格的管理和統(tǒng)計(jì)圖制作功能強(qiáng)大,容易操作。Excel的數(shù)據(jù)分析插件XLSTAT,也能進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析,但不足的是運(yùn)算速度慢,統(tǒng)計(jì)方法不全,因此Excel在大數(shù)據(jù)分析中存在一定的局限性,但適合一些基礎(chǔ)的數(shù)據(jù)處理。

Eviews是美國(guó)QMS公司研制的在Windows下專(zhuān)門(mén)從事數(shù)據(jù)分析、回歸分析和預(yù)測(cè)的工具。使用Eviews可以迅速地從數(shù)據(jù)中尋找出統(tǒng)計(jì)關(guān)系,并用得到的關(guān)系去預(yù)測(cè)數(shù)據(jù)的未來(lái)值。Eviews處理回歸方程是它的長(zhǎng)處,能處理一般的回歸包括多元回歸問(wèn)題。不過(guò)這個(gè)軟件的劣勢(shì)在于它的黑箱式的處理過(guò)程,出來(lái)的結(jié)果可能會(huì)不夠精確,有的人可能會(huì)為得到一些結(jié)論而偽造一些結(jié)果,可信度不是很高。在大數(shù)據(jù)分析中Eviews只適合時(shí)間序列數(shù)據(jù)的分析。

SPSS由美國(guó)斯坦福大學(xué)的三位研究生研制。SPSS系統(tǒng)特點(diǎn)是操作比較方便,統(tǒng)計(jì)方法比較齊全,繪制圖形、表格較有方便,輸出結(jié)果比較直觀。SPSS在橫截面數(shù)據(jù)的分析中有很大的優(yōu)勢(shì),適合進(jìn)行從事社會(huì)學(xué)調(diào)查中的大數(shù)據(jù)分析處理。另外,值得一提的是,最新版的SPSS采用DAA(Distributed Analysis Architecture,分布式分析系統(tǒng)),全面適應(yīng)互聯(lián)網(wǎng),支持動(dòng)態(tài)收集、分析數(shù)據(jù)和HTML格式報(bào)告,使SPSS更加適應(yīng)大數(shù)據(jù)的潮流。

Stata統(tǒng)計(jì)軟件由美國(guó)計(jì)算機(jī)資源中心(Computer Resource Center)1985年研制。特點(diǎn)是采用命令操作,程序容量較小,統(tǒng)計(jì)分析方法較齊全,計(jì)算結(jié)果的輸出形式簡(jiǎn)潔,繪出的圖形精美。不足之處是數(shù)據(jù)的兼容性差,占內(nèi)存空間較大,數(shù)據(jù)管理功能需要加強(qiáng),這使得Stata在大數(shù)據(jù)分析中處于不利地位,但是相較于Eviews和SPSS,Stata在面板數(shù)據(jù)分析的優(yōu)勢(shì)是毋庸置疑的,Stata更加適合大數(shù)據(jù)中的面板數(shù)據(jù)分析。

SAS軟件在數(shù)據(jù)挖掘上具有優(yōu)勢(shì),其板塊的獨(dú)特功能為大數(shù)據(jù)分析提供了利器。對(duì)于不熟悉計(jì)算機(jī)編程語(yǔ)言的統(tǒng)計(jì)學(xué)習(xí)者可使用SAS。SAS軟件的EM模塊及sas base擁有強(qiáng)大的數(shù)據(jù)處理功能。在SAS的EM模塊中,包含了數(shù)據(jù)處理、模型建立、簡(jiǎn)單算法等豐富的數(shù)據(jù)處理功能。例如對(duì)獲取的數(shù)據(jù)可進(jìn)行再次抽樣,抽樣的方式是多種多樣的,有:隨機(jī)抽樣、等距抽樣、分層抽樣、從起始順序抽樣和分類(lèi)抽樣等方式。而且抽樣的過(guò)程不需要程序運(yùn)行,只需要建立流程圖即可。更加復(fù)雜的數(shù)據(jù)模型如生存分析、神經(jīng)網(wǎng)絡(luò)、SVM、決策樹(shù)、MBR等可以在數(shù)據(jù)建模中添加節(jié)點(diǎn)來(lái)進(jìn)行。在對(duì)數(shù)據(jù)進(jìn)行分析以后,SAS會(huì)導(dǎo)出程序記錄和最后結(jié)果。盡管SAS有眾多優(yōu)良特性,但其并非腳本語(yǔ)言,所以它在數(shù)據(jù)運(yùn)行上占有CPU較高,特別在使用EM模塊時(shí),花費(fèi)的時(shí)間相對(duì)較長(zhǎng)。

Python和R都是開(kāi)源軟件,相較于上述軟件,在大數(shù)據(jù)分析中有著絕對(duì)的優(yōu)勢(shì)。Python的網(wǎng)絡(luò)爬蟲(chóng)及R的RCurl包、Rweibo包等都可以進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)和文本挖掘,對(duì)非結(jié)構(gòu)性數(shù)據(jù)亦能進(jìn)行分析處理。眾多的R語(yǔ)言包使得其在數(shù)據(jù)可視化方面也有著很大的優(yōu)勢(shì)。Python和R各有其特點(diǎn):

R的優(yōu)勢(shì)在于有包羅萬(wàn)象的統(tǒng)計(jì)函數(shù)可以調(diào)用,特別是在時(shí)間序列分析方面(主要用在金融分析與趨勢(shì)預(yù)測(cè))無(wú)論是經(jīng)典還是前沿的方法都有相應(yīng)的包直接使用;相比python在這方面貧乏不少。

Python的優(yōu)勢(shì)在于其膠水語(yǔ)言的特性,一些底層用C寫(xiě)的算法封裝在python包里后性能非常高效(例如:Python的數(shù)據(jù)挖掘包Orange canve中的決策樹(shù)分析50萬(wàn)用戶(hù)10秒出結(jié)果,用R幾個(gè)小時(shí)也出不來(lái),8G內(nèi)存全部占滿(mǎn))。

Python與R相比速度要快。Python可以直接處理上G的數(shù)據(jù);R不行,R分析數(shù)據(jù)時(shí)需要先通過(guò)數(shù)據(jù)庫(kù)把大數(shù)據(jù)轉(zhuǎn)化為小數(shù)據(jù)(通過(guò)groupby)才能交給R做分析,因此R不可能直接分析行為詳單,只能分析統(tǒng)計(jì)結(jié)果。因此,在大數(shù)據(jù)分析中,Python更適合對(duì)海量數(shù)據(jù)的處理,而R更適合對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析。

目前,最流行的數(shù)據(jù)分析軟件是R。KDnuggets網(wǎng)站每年會(huì)做一些數(shù)據(jù)分析和數(shù)據(jù)挖掘軟件使用的專(zhuān)題問(wèn)卷調(diào)查。據(jù)該網(wǎng)站2011年對(duì)570個(gè)數(shù)據(jù)挖掘和數(shù)據(jù)分析的工作者關(guān)于過(guò)去12個(gè)月數(shù)據(jù)挖掘和數(shù)據(jù)分析所使用的編程語(yǔ)言的調(diào)查顯示,R語(yǔ)言排名第一,所占比例近一半(45%)。免費(fèi)是R流行開(kāi)來(lái)的最大的一個(gè)因素,現(xiàn)在還有很多人使用SPSS或SAS,但大都用的是盜版軟件。R擁有出色的可視化圖形、豐富的統(tǒng)計(jì)方法及高效的更新速度,由一個(gè)龐大而活躍的全球性社區(qū)維護(hù),使用R的人分布在各個(gè)研究領(lǐng)域,任何做數(shù)據(jù)分析的工作者都應(yīng)該學(xué)會(huì)使用R。

參考文獻(xiàn):

[1]方匡南,朱建平,姜葉飛.R數(shù)據(jù)分析:方法與案例詳解[M].電子工業(yè)出版社,2015.

[2]維克托·邁爾·舍恩伯格,肯尼思·庫(kù)克耶著,盛楊燕,周濤譯.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].浙江人民出版社.2013.

作者簡(jiǎn)介:孟雪井(1985-),女,漢族,安徽淮北人,博士,講師,研究方向:金融統(tǒng)計(jì)。

課題:國(guó)家社科基金項(xiàng)目“大數(shù)據(jù)背景下金融統(tǒng)計(jì)方法研究”(14CTJ008)

基金資助:國(guó)家社會(huì)科學(xué)基金資助項(xiàng)目(14CTJ008);中國(guó)博士后科學(xué)基金第58批面上資助項(xiàng)目(2015M582317)。

猜你喜歡
數(shù)據(jù)分析大數(shù)據(jù)
淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營(yíng)銷(xiāo)模式的影響
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶(hù)端的傳統(tǒng)媒體轉(zhuǎn)型思路