龍草芳
摘要:隨著大數(shù)據(jù)及人工智能時(shí)代的到來,數(shù)據(jù)分析逐漸成為數(shù)據(jù)科學(xué)研究中的一個(gè)重要領(lǐng)域。本文主要介紹了數(shù)據(jù)分析的概念、數(shù)據(jù)分析方法、常用分析工具。
關(guān)鍵詞:大數(shù)據(jù);人工智能;數(shù)據(jù)分析
中圖分類號:TP393 ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)14-0226-02
1數(shù)據(jù)分析
20世紀(jì)初期如果要對一問題進(jìn)行分析,需要人們手工計(jì)算,這導(dǎo)致運(yùn)算速度非常慢,隨著時(shí)間的流逝,現(xiàn)在的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過以前的運(yùn)算規(guī)模,傳統(tǒng)手工的計(jì)算手段更加滿足不了現(xiàn)在的需求。
為了解決運(yùn)算的問題,人們一直在致力這方面的研發(fā),用電子代替人工。隨著計(jì)算機(jī)的出現(xiàn)和發(fā)展,這一問題被有效地解決了,人們進(jìn)入了自動化時(shí)代。移動互聯(lián)網(wǎng)時(shí)代的來臨直接推進(jìn)了大數(shù)據(jù)時(shí)代的到來。如何處理分析這些數(shù)據(jù)得到有效的信息,這是個(gè)巨大的挑戰(zhàn),人們不斷地在尋求合適的解決方案。
眾所周知,大數(shù)據(jù)不單是數(shù)據(jù)量大的事情,最重要的是怎么利用好這些大數(shù)據(jù),也就是對大數(shù)據(jù)進(jìn)行分析,通過分析得到有價(jià)值的信息,并將這些信息加工成人們可快速、準(zhǔn)確理解的知識?,F(xiàn)在越來越多的行業(yè)應(yīng)用涉及了大數(shù)據(jù),例如金融、零售業(yè)、醫(yī)療、電信、航空等。這些行業(yè)應(yīng)用不斷地產(chǎn)生大量數(shù)據(jù),而這些數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性,復(fù)雜性等都在呈現(xiàn)不斷增長的復(fù)雜性,這些都要通過合適的分析方法來處理,所以說大數(shù)據(jù)的分析方法起到?jīng)Q定性作用。
數(shù)據(jù)分析是指用適當(dāng)?shù)姆治龇椒ê凸ぞ邔?zhǔn)備好的數(shù)據(jù)進(jìn)行分析和解釋,提取出有用的信息,以得到有效的結(jié)論并通過可視化技術(shù)展現(xiàn)出來的過程。因此,要學(xué)習(xí)數(shù)據(jù)分析首先需清楚數(shù)據(jù)分析與數(shù)據(jù)展現(xiàn)的方法以及對數(shù)據(jù)分析工具的使用。
2 數(shù)據(jù)分析方法
目前,數(shù)據(jù)分析方法中常見的基本分析方法包括對比分析、趨勢分析、差異顯著性檢驗(yàn)、分組分析法、結(jié)構(gòu)分析、因素分析法、交叉分析法、綜合評價(jià)分析法等。
2.1對比分析
對比分析也稱為比較分析,該方法通過對客觀事物進(jìn)行對比,從而認(rèn)識事物的本質(zhì)以及挖掘事物的規(guī)律并給出準(zhǔn)確的評價(jià)。對比分析的分析對象一般為相互聯(lián)系的兩個(gè)指標(biāo)數(shù)據(jù),它主要展示與說明研究對象水平的高低、速度的快慢、規(guī)模的大小以及各關(guān)系之間是否協(xié)調(diào)。
2.2趨勢分析
趨勢分析是指將實(shí)際達(dá)到的結(jié)果,通過比較同類指標(biāo)不同時(shí)期的數(shù)據(jù),繼而明確該指標(biāo)的變化趨勢以及變化規(guī)律的一種分析方法。趨勢分析主要是運(yùn)用在財(cái)務(wù)分析方面,具體的分析方法包括定比和環(huán)比兩種方法。定比分析是報(bào)告分析期的水筆比上某一特定時(shí)期的水平,它闡釋的是該現(xiàn)象在不短的一段時(shí)期內(nèi)總的變化水平。環(huán)比分析指的是報(bào)告分析期水平比上前一時(shí)段水平,表示是逐期變化趨勢的現(xiàn)象,然后通過本期數(shù)據(jù)與上期數(shù)據(jù)的對比,形成時(shí)間序列圖。
2.3顯著性檢驗(yàn)
“顯著性檢驗(yàn)”是Significance Test翻譯過來的,在統(tǒng)計(jì)學(xué)中,顯著性檢驗(yàn)屬于“統(tǒng)計(jì)假設(shè)檢驗(yàn)”(Statistical hypothesis testing)一類,顯著性檢驗(yàn)是用于檢測科學(xué)實(shí)驗(yàn)中實(shí)驗(yàn)組對照組之間是否有差異及差異是否顯著的辦法。事先要設(shè)立一個(gè)假設(shè),然后判斷該假設(shè)是否合理,即判斷假設(shè)與真實(shí)情況是否存在顯著性差異。或者說,顯著性檢驗(yàn)是判斷樣本與對總體所做的假設(shè)之間的差異是屬于機(jī)會變異,還是由所做的假設(shè)與總體真實(shí)情況之間不一致而產(chǎn)生的差異。
2.4分組分析
分組分析法是將總體數(shù)據(jù)按照某一特征劃分成若干個(gè)部分再加以分析的一種方法。是根據(jù)目標(biāo)數(shù)據(jù)的性質(zhì)、特征,按照一定指標(biāo),將數(shù)據(jù)總體劃分成幾個(gè)部分,來認(rèn)識所要分析對象的不同特征,不同性質(zhì)以及相互關(guān)系的方法。
分組時(shí)需要遵循窮盡原則和相互獨(dú)立原則。窮盡原則:即分組中要包含所有數(shù)據(jù),不能遺漏,各組的空間能容納所有的數(shù)據(jù)。相互獨(dú)立原則:即分組之間不能交叉,組別之間差異明顯,一個(gè)數(shù)據(jù)只能歸屬于某一個(gè)組。
2.5結(jié)構(gòu)分析
結(jié)構(gòu)分析是建立在對比分析的基礎(chǔ)上,擴(kuò)大對比范用,然后運(yùn)用結(jié)構(gòu)分析進(jìn)行一一比較,通過結(jié)構(gòu)指標(biāo)來解釋企業(yè)資源結(jié)構(gòu)分布、生產(chǎn)布局的狀況,便于經(jīng)營者進(jìn)行調(diào)整,投資者長期決策。
結(jié)構(gòu)指標(biāo)(%)=(總體中某一部分總體總量) X 100%
結(jié)構(gòu)指標(biāo)是指總體某一部分占總體總量的比重,總體中各個(gè)部分的結(jié)構(gòu)相對數(shù)的和等于100%。
結(jié)構(gòu)分析廣泛應(yīng)用于財(cái)政收支領(lǐng)域,它能夠從不同的維度展開結(jié)構(gòu)分析,如科目結(jié)構(gòu)、區(qū)域結(jié)構(gòu)等。同時(shí)餅圖、圓錐圖和金字塔圖等都是開展結(jié)構(gòu)分析的有效工具。根據(jù)關(guān)注的時(shí)間,可分成靜態(tài)結(jié)構(gòu)分析和動態(tài)結(jié)構(gòu)分析;根據(jù)關(guān)注的對象,結(jié)構(gòu)分析可分成增量結(jié)構(gòu)分析、元素的比重分析以及總量結(jié)構(gòu)分析。
2.6因素分析
因素分析法是斯皮爾曼( C.Spearman )在1904年提出的,根據(jù)分析指標(biāo)與其影響因素的關(guān)系,從而確定不同因素對分析指標(biāo)影響程度以及影響方向的一種方法。因素分析法既能夠獨(dú)立分析某個(gè)因素對經(jīng)濟(jì)指標(biāo)的影響,又能夠全面分析各因素對某一經(jīng)濟(jì)指標(biāo)的影響,因素分析法實(shí)際就是相關(guān)性概念,是在心理學(xué)領(lǐng)域中發(fā)展起來的一種多變量解析手段。
2.7交叉分析法
交叉分析法是指將有一定聯(lián)系的兩個(gè)變量及其值交叉排列在一張表內(nèi),使各變量值成為不同變量的交叉結(jié)點(diǎn),形成交叉表,從而分析交叉表中變量之間的關(guān)系,也叫交叉表分析法。它是從交叉、立體的角度出發(fā),由淺入深、由低級到高級的一種分析方法。雖然復(fù)雜,但這種方法彌補(bǔ)了“各自為政”分析方法所帶來的偏差。常用的是二維交叉表分析法,也有二維以上的交叉表,當(dāng)然維度越多表就越復(fù)雜,這需要根據(jù)分析目的來確定。
2.8綜合評價(jià)分析方法
使用多個(gè)指標(biāo)對多個(gè)參評對象評價(jià)的方法一般稱為綜合評價(jià)分析,其核心思想是利用一定的指標(biāo)體系,采用特定的評價(jià)方法,將參評對象多個(gè)方面的特征轉(zhuǎn)化為一個(gè)綜合指標(biāo),從而確定參評對象的優(yōu)劣、類型或進(jìn)行排序等。綜合評價(jià)分析方法可以用在不同社會發(fā)展水平的地區(qū)或者對不同企業(yè)的經(jīng)濟(jì)效益進(jìn)行評價(jià)。
3 常用分析工具
3.1 Excel
Excel是微軟公司研發(fā)的辦公軟件Microsoft office的組件之一,是由微軟為Windows和MAC操作系統(tǒng)的計(jì)算機(jī)編寫和運(yùn)行的一款表格計(jì)算軟件。Excel是Office中的一個(gè)常用軟件,它可以用于數(shù)據(jù)處理與統(tǒng)計(jì)分析,并可以將結(jié)果以圖形方式呈現(xiàn),Excel是一個(gè)非常容易入門的軟件。使用Excel進(jìn)行數(shù)據(jù)分析,簡單的分析運(yùn)用里面最基礎(chǔ)的運(yùn)算和圖表的制作就可以了,稍微復(fù)雜一點(diǎn)的分析工作可能用到函數(shù)和數(shù)據(jù)透視表,VBA和宏是其數(shù)據(jù)分析的高級應(yīng)用?;蛘呖梢韵螺dXLstat插件(一個(gè)統(tǒng)計(jì)分析插件),可以完成大部分SPSS數(shù)據(jù)分析功能。
3.2 SPSS
SPSS(Statistical Product and Serivice Solutions,統(tǒng)計(jì)產(chǎn)品和服務(wù)解決方案),是世界著名的商用統(tǒng)計(jì)分析軟件之一,它的數(shù)據(jù)管理和輸入方法與Excel很相似,數(shù)據(jù)接口基本通用,可以很方便地從數(shù)據(jù)庫中讀取數(shù)據(jù)。其內(nèi)含模型包括常用的、較為成熟的統(tǒng)計(jì)分析模型,完全可以滿足非統(tǒng)計(jì)專業(yè)人士的工作需要。另外,SPSS的輸出結(jié)果十分直觀、漂亮,很多都是以圖表的形式輸出,存儲時(shí)則使用SPO格式,且可以轉(zhuǎn)存為HTML格式和文本格式。對于熟悉編程運(yùn)行方式的用戶,可直接使用語句生成窗口,只需要在菜單中選擇好各個(gè)選項(xiàng),然后粘貼就可以自動生成標(biāo)準(zhǔn)的SPSS程序。SPSS可以直接讀取Excel及DBF數(shù)據(jù)文件,且它的分析結(jié)果直觀、清晰、易學(xué)易用。現(xiàn)已推廣到多種操作系統(tǒng)的計(jì)算機(jī)上,極大地方便了中、高級用戶。
3. 3 SAS
SAS(Statistical Analysis System)于1976年正式推出。SAS主要用于大型集成信息系統(tǒng)的決策支持,最初它的功能僅限于統(tǒng)計(jì)分析,至今,它的重要組成部分和核心功能也仍然是統(tǒng)計(jì)分析功能。SAS對于處理大數(shù)據(jù)具有很大優(yōu)勢,在金融領(lǐng)域SAS使用非常廣泛。相對于SPSS來說,SAS有更加強(qiáng)大的繪圖工具,而且可以編程,但是也更難掌握。
3.4 Stata
Stata是Statacorp于1985年開發(fā)的一套軟件,可以為使用者提供數(shù)據(jù)分析、數(shù)據(jù)管理以及繪制專業(yè)圖表等服務(wù)。它提供了一系列的功能,包含線性混合模型、均衡重復(fù)反復(fù)及多項(xiàng)式普羅比模式。
Stata的統(tǒng)計(jì)功能強(qiáng)大,不但有傳統(tǒng)的統(tǒng)計(jì)分析方法,還收集了近些年發(fā)展的新方法,在許多方面遠(yuǎn)遠(yuǎn)超過了SPSS和SAS。Stata在分析時(shí)是將數(shù)據(jù)全部讀入內(nèi)存,分析完成后才和磁盤交換數(shù)據(jù),從而運(yùn)算速度極快。Stata具有很強(qiáng)的程序語言功能,但使用比SAS簡單。其生存數(shù)據(jù)分析、縱向數(shù)據(jù)分析等模塊的功能很出色,大大超過了SAS。另外,Stata作圖功能方面,它提供八種基本圖形的制作,基本滿足大部分用戶的作圖要求。Stata在全球范圍內(nèi)被廣泛應(yīng)用于企業(yè)和學(xué)術(shù)機(jī)構(gòu)中,許多使用者是工作在特定研究領(lǐng)域一線的人員,比如經(jīng)濟(jì)學(xué)、社會學(xué)、政治學(xué)及流行病學(xué)等領(lǐng)域。
3.5 MATLAB
MATLAB是由美國MathWorks公司出品的商業(yè)數(shù)學(xué)軟件,主要包括MATLAB和Simulink兩大部分,MATLAB一詞來源于matrix和laboratory兩個(gè)詞的組合,即矩陣實(shí)驗(yàn)室。MATLAB用于科學(xué)計(jì)算、可視化以及交互式程序設(shè)計(jì)的高科技計(jì)算環(huán)境,被用于算法開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計(jì)算等場合。
3.6 R語言
R誕生于1980年左右的S語言的一個(gè)分支,在統(tǒng)計(jì)領(lǐng)域廣泛使用,可以認(rèn)為R是S語言的一種實(shí)現(xiàn),而S語言是由AT&T貝爾實(shí)驗(yàn)室開發(fā)的一種用來進(jìn)行數(shù)據(jù)檢索、統(tǒng)計(jì)分析和作圖的解釋型語言。
R語言擁有一套完整的數(shù)據(jù)處理、計(jì)算和制圖軟件,其功能包括:數(shù)據(jù)存儲和處理系統(tǒng);數(shù)組運(yùn)算工具(其向量、矩陣運(yùn)算方面功能尤其強(qiáng)大);完整連貫的統(tǒng)計(jì)分析工具;優(yōu)秀的統(tǒng)計(jì)制圖功能;簡便而強(qiáng)大的編程語言既可以操縱數(shù)據(jù)的輸入和輸出,也可以實(shí)現(xiàn)分支和循環(huán)結(jié)構(gòu)。而最重要的是R語言是完全免費(fèi)開源的,所以對于很多中小型公司來說,R語言是數(shù)據(jù)分析的首選工具。
4 小結(jié)
大數(shù)據(jù)的關(guān)注點(diǎn)已經(jīng)不再僅僅是數(shù)據(jù)量大,而最重要的是對大數(shù)據(jù)進(jìn)行分析和挖掘,只有通過智能分析才能獲取深入的、有價(jià)值的信息,并將這些信息加工成人們可快速、準(zhǔn)確理解的知識。
參考文獻(xiàn):
[1] 程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,25(9):1889-1908.
[2] 劉鵬,張燕,張重生,張志立.大數(shù)據(jù)[M].北京:電子工業(yè)出版社,2017.
[3] 王國胤,劉群,于洪,曾憲華.大數(shù)據(jù)挖掘及應(yīng)用[M].北京:清華大學(xué)出版社,2017.
[4] 大數(shù)據(jù)戰(zhàn)略重點(diǎn)實(shí)驗(yàn)室.大數(shù)據(jù)概念與發(fā)展[J].中國科技術(shù)語,2017(4):43-50.
【通聯(lián)編輯:光文玲】