孫雪琴
摘要:從學科層面來看,大數(shù)據(jù)作為一種新的數(shù)據(jù)分析方案,其基于數(shù)據(jù)關系的內(nèi)在本質(zhì)直接決定了大數(shù)據(jù)與統(tǒng)計學之間所存在必然聯(lián)系,對統(tǒng)計學來說,大數(shù)據(jù)不僅是一種挑戰(zhàn),同時也是良好的機遇,深入探討大數(shù)據(jù)背景下統(tǒng)計學的發(fā)展趨勢就成為社會各界共同關注的焦點。
關鍵詞:大數(shù)據(jù);統(tǒng)計學;發(fā)展
大數(shù)據(jù)背景下,信息化技術、定位系統(tǒng)以及傳感器等各類技術不斷發(fā)展,使得許多曾經(jīng)難以收集的數(shù)據(jù)能夠進行大規(guī)模收集,云計算則使得大規(guī)模數(shù)據(jù)處理得以實現(xiàn)?;诖笠?guī)模數(shù)據(jù)分析能夠讓我們獲取傳統(tǒng)只使用樣本時不能達成的全新視野,其為統(tǒng)計學未來發(fā)展提供了良好的機遇。與此同時,基于樣本的傳統(tǒng)統(tǒng)計理論及方法顯然已經(jīng)無法適應大數(shù)據(jù)背景下相關需求,這就需要我們充分結(jié)合大數(shù)據(jù)需求與特征針對統(tǒng)計學進行改進,從大數(shù)據(jù)當中挖掘更多信息,促進統(tǒng)計學更好的發(fā)展。
1健全總體、個體以及樣本的定義
傳統(tǒng)統(tǒng)計分析需要從總體當中進行抽樣,再針對抽樣樣本性質(zhì)來決定總體特點。由于其需要從總體當中獲取數(shù)據(jù),即應當明確整體范圍來當作研究目標,然后利用抽樣樣本分析來針對總體進行分析。大數(shù)據(jù)環(huán)境則是完全相反,其需要先有數(shù)據(jù),然后后總體,并不需要定義目標,只包含某一段時間點的所有數(shù)據(jù)對應的整體概念。由于個體所具有的不確定性,數(shù)據(jù)本身是一個動態(tài)的進程,不能事前依靠數(shù)據(jù)庫當中的單位實施編制,這個時間段與下一個時間段的數(shù)據(jù)是存在差異性的,所以也難以在事后進行個體識別?;ヂ?lián)網(wǎng)中,相同個體可以存在多個符號與稱謂,相同符號或者稱謂則能夠代表多個個體,并且個體以為的現(xiàn)象也非常多,所以大數(shù)據(jù)通常能夠看到整體數(shù)據(jù)的外形,難以針對個體進行考究。然而對于大數(shù)據(jù)分析而言,針對個體實施身份識別仍舊是至關重要的,這就需要我們針對傳統(tǒng)意義層面中個體與總體的定義方式進行改革,而傳統(tǒng)意義層面上的樣本定義方式無法從大數(shù)據(jù)當中提取樣本數(shù)據(jù)。當然,因為大數(shù)據(jù)動態(tài)性,在任意時間段的整體,其都能夠作為界面樣本。
2積極拓展統(tǒng)計學體系
大數(shù)據(jù)背景下需要我們采用辯證、發(fā)展眼光來對待統(tǒng)計學的發(fā)展,統(tǒng)計學要想有效適應大數(shù)據(jù)的相關需求,應當積極構(gòu)建基于大數(shù)據(jù)框架的學科體系。統(tǒng)計學必須要把大數(shù)據(jù)整體統(tǒng)計的方法與思想歸納到學科體系當中,統(tǒng)計學相關的內(nèi)容則應當從傳統(tǒng)樣本統(tǒng)計逐步過渡到樣本統(tǒng)計與總體統(tǒng)計的整合。樣本統(tǒng)計主要是利用帶有隨即性質(zhì)的觀測數(shù)據(jù)來針對整體進行推斷,樣本的生成存在隨機性,采用樣本去進行整體推斷會出現(xiàn)代表性誤差,而基于大數(shù)據(jù)的整體統(tǒng)計則能夠有效彌補上述不足。通過大數(shù)據(jù)的引入,統(tǒng)計學科能夠劃分為總體統(tǒng)計與樣本統(tǒng)計,樣本統(tǒng)計的作用在于“以小見大”,而總體統(tǒng)計則在于“由繁入簡”,兩者的有效整合能夠更好的適應大數(shù)據(jù)的相關需求。
3研發(fā)新的分類與梳理方法
傳統(tǒng)統(tǒng)計學主要是根據(jù)預先設置的方案實施數(shù)據(jù)分類與梳理,所參考的指標與最終獲得的分類都屬于結(jié)構(gòu)化的,針對數(shù)據(jù)實施分類與梳理屬于數(shù)據(jù)預處理的必要步驟,屬于統(tǒng)計分析的重要部分。但針對大數(shù)據(jù)來說,因為數(shù)據(jù)的來源、形式以及表現(xiàn)方式等都是多元化的,如果還根據(jù)傳統(tǒng)統(tǒng)計學方式在研究以前針對信息的類型、分類依據(jù)標識、標示之間的關系以及類與類之間區(qū)別度等實施更為嚴格的設定,顯然是不現(xiàn)實的,只可以在針對數(shù)據(jù)實施預處理以后,依照數(shù)據(jù)自身的特征來實施完善與補充。顯然,傳統(tǒng)的數(shù)據(jù)分類與梳理已經(jīng)不適用于大數(shù)據(jù)要求,應當積極研發(fā)適用于大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分類與梳理方法,并在此基礎上研發(fā)新的數(shù)據(jù)分析方法。
4整合多種統(tǒng)計學方法
傳統(tǒng)統(tǒng)計分析中,歸納推斷法屬于最為主要的研究方法,通過分析樣本數(shù)據(jù)的主要特征,然后在這個基礎上進行總體特征的推斷。針對大數(shù)據(jù),歸納法依據(jù)能夠作為大數(shù)據(jù)分析的主要方法,依據(jù)需要利用具體個體的特征來進行總體特征的推斷,依然需要從個體信息當中去不斷發(fā)現(xiàn)新的知識。然而針對大數(shù)據(jù)而言,如果僅僅只是注重一般或者總體特征的歸納,則會造成嚴重的浪費。部分類別甚至是個體,或者某些異常值,都能夠據(jù)此推斷出全新的預測或者結(jié)論。所以,還必須要針對個體的信息實施更為深入的挖掘,同時需要根據(jù)現(xiàn)有的相關經(jīng)驗知識與分布特征去針對其他更為具體的規(guī)律實施推理分析,能夠更為深入的挖掘事物之間存在的聯(lián)系,并據(jù)此來針對新事物實施判斷,即演繹推理法。演繹法能夠幫助我們基于現(xiàn)有知識經(jīng)驗基礎,實施進一步的研究挖掘,避免研究進程中忽略一些細小、關鍵的特點。通過歸納法與演繹法的有效整合,能夠從大數(shù)據(jù)當中的偶然性中發(fā)現(xiàn)必然性,并通過全面數(shù)據(jù)當中的必然性去觀察偶然性、認知偶然性、利用偶然性,以此來全面提升偶然性的駕馭水平。
綜上所述,大數(shù)據(jù)在為傳統(tǒng)統(tǒng)計學帶來嚴峻挑戰(zhàn)的同時,也能夠為傳統(tǒng)統(tǒng)計學創(chuàng)造發(fā)展提供良好的機遇。處在大數(shù)據(jù)快速發(fā)展的時代中,我們必須要意識到大數(shù)據(jù)對傳統(tǒng)統(tǒng)計學來說是一種補充而并非替代,傳統(tǒng)統(tǒng)計學仍舊會在經(jīng)濟分析、社會統(tǒng)計領域發(fā)揮至關重要的作用。