武思翮
摘 要:科技的迅速發(fā)展與積累使人類快速步入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)分析和統(tǒng)計(jì)學(xué)均是分析數(shù)據(jù)的科學(xué),它們之間有許多相同點(diǎn)和差異點(diǎn),大數(shù)據(jù)的飛快發(fā)展不僅為傳統(tǒng)統(tǒng)計(jì)學(xué)發(fā)展提供了巨大挑戰(zhàn),更帶來(lái)了難得的機(jī)遇,研究大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)的發(fā)展脈絡(luò)具有重大意義。文章以大數(shù)據(jù)背景下大數(shù)據(jù)的內(nèi)涵與特點(diǎn)為出發(fā)點(diǎn),分析討論了大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)學(xué)科發(fā)展的機(jī)遇和挑戰(zhàn),進(jìn)而提出大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)發(fā)展建議,望對(duì)新時(shí)代下統(tǒng)計(jì)學(xué)的發(fā)展變革與社會(huì)經(jīng)濟(jì)的進(jìn)步與增長(zhǎng)有所裨益。
關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計(jì)學(xué);挑戰(zhàn);機(jī)遇;發(fā)展建議
中圖分類號(hào):C81 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2018)21-0241-02
1 引言
采集、分析、展示與解釋數(shù)據(jù)是統(tǒng)計(jì)學(xué)研究的核心內(nèi)容,其研究對(duì)象是基于總體的隨機(jī)抽樣樣本,然而隨著科學(xué)技術(shù)的進(jìn)步與積累,信息化技術(shù)的應(yīng)用使得傳統(tǒng)難以收集的數(shù)據(jù)得以實(shí)現(xiàn),大數(shù)據(jù)已進(jìn)入數(shù)據(jù)科學(xué)的研究視野[1]。大數(shù)據(jù)最明顯的特征是數(shù)據(jù)規(guī)模大,大數(shù)據(jù)分析不只是單純?nèi)讉€(gè)單一個(gè)體的某一項(xiàng)數(shù)據(jù),而是采取全體所有數(shù)據(jù)進(jìn)行分析研究,基于大規(guī)模數(shù)據(jù)的科學(xué)分析能夠使我們獲取傳統(tǒng)統(tǒng)計(jì)學(xué)研究只采用抽樣樣本分析時(shí)不能企及的全新視野,為統(tǒng)計(jì)學(xué)未來(lái)發(fā)展提供了良好機(jī)遇與巨大挑戰(zhàn)[2]。因此,在大數(shù)據(jù)背景下研究統(tǒng)計(jì)學(xué)的發(fā)展思路,結(jié)合時(shí)代特點(diǎn)重構(gòu)傳統(tǒng)統(tǒng)計(jì)學(xué)研究框架對(duì)數(shù)據(jù)科學(xué)乃至社會(huì)發(fā)展具有重大現(xiàn)實(shí)意義。
2 大數(shù)據(jù)的內(nèi)涵與特點(diǎn)
數(shù)據(jù)是指表征客觀事物性質(zhì)、狀態(tài)及相互關(guān)系的可識(shí)別符號(hào),而大數(shù)據(jù)則是在一定時(shí)空范圍內(nèi)利用一定測(cè)量手段進(jìn)行收集、分析、處理和解釋的海量數(shù)據(jù)集合。近年來(lái)在以互聯(lián)網(wǎng)為載體的發(fā)展背景下,大數(shù)據(jù)主要來(lái)源于網(wǎng)絡(luò)數(shù)據(jù),在互聯(lián)網(wǎng)和物聯(lián)網(wǎng)中對(duì)事物信息進(jìn)行標(biāo)識(shí),通過(guò)計(jì)算機(jī)讀取功能讀取事物“標(biāo)識(shí)碼”,將事物的屬性信息轉(zhuǎn)化為能夠在網(wǎng)絡(luò)上進(jìn)行輸送傳遞的有效數(shù)據(jù),進(jìn)而由數(shù)據(jù)處理中心進(jìn)行存儲(chǔ)。在此數(shù)據(jù)識(shí)別、轉(zhuǎn)化、傳輸和存儲(chǔ)過(guò)程中,通過(guò)數(shù)據(jù)傳輸痕跡可以得到海量數(shù)據(jù),即所謂的大數(shù)據(jù)[3-4]。
大數(shù)據(jù)根據(jù)數(shù)據(jù)存儲(chǔ)形式可劃分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)三種類型。結(jié)構(gòu)化數(shù)據(jù)可以應(yīng)用二維表形式進(jìn)行邏輯表達(dá),而非結(jié)構(gòu)化數(shù)據(jù)沒(méi)有標(biāo)準(zhǔn)表達(dá)格式,半結(jié)構(gòu)化數(shù)據(jù)介于兩者之間,表達(dá)形式較為規(guī)范,主要為純文本數(shù)據(jù)。進(jìn)入大數(shù)據(jù)時(shí)代以來(lái),諸多領(lǐng)域產(chǎn)生了高維復(fù)雜數(shù)據(jù),隨著人們對(duì)其進(jìn)行逐步深入研究,普遍認(rèn)為大數(shù)據(jù)具有海量化、多樣化、快速化、價(jià)值化和真實(shí)化五個(gè)特點(diǎn)。海量化是指數(shù)據(jù)規(guī)模龐大,數(shù)據(jù)量已經(jīng)不再是傳統(tǒng)TB、PB級(jí)別,而是EB甚至ZB數(shù)量級(jí),海量化特征體現(xiàn)在數(shù)據(jù)規(guī)模呈現(xiàn)爆炸式增長(zhǎng)。多樣化是指是數(shù)據(jù)種類繁多且復(fù)雜,數(shù)據(jù)不只是增長(zhǎng)速度快,而且數(shù)據(jù)類型也豐富多樣。數(shù)據(jù)包括文字、圖片、視頻、音頻、動(dòng)圖和位置等形式,如何處理這些類型不同但卻存在關(guān)聯(lián)的數(shù)據(jù)目前也是一個(gè)巨大的挑戰(zhàn)??焖倩侵复髷?shù)據(jù)時(shí)效性強(qiáng),巨量數(shù)據(jù)產(chǎn)生、更新速度極快,能否及時(shí)從中得到反饋信息非??简?yàn)相關(guān)組織的能力,快速化要求大數(shù)據(jù)處理速度很高。價(jià)值化是指數(shù)據(jù)價(jià)值的挖掘與利用,大數(shù)據(jù)的價(jià)值從不體現(xiàn)在本身,而更主要的是體現(xiàn)在數(shù)據(jù)的深度挖掘上,如何分析數(shù)據(jù)獲取有價(jià)值信息才是數(shù)據(jù)科學(xué)的研究目的及其價(jià)值體現(xiàn)。真實(shí)性是指數(shù)據(jù)收集來(lái)源于客觀記錄,并不具備任何主觀行為[5]。
3 大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)發(fā)展的機(jī)遇與挑戰(zhàn)
基于分析數(shù)據(jù)內(nèi)在關(guān)系本質(zhì)的大數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)有著相當(dāng)緊密的聯(lián)系,大數(shù)據(jù)時(shí)代的到來(lái)不僅為統(tǒng)計(jì)學(xué)發(fā)展提供了良好機(jī)遇,而且還帶來(lái)了巨大挑戰(zhàn)。在發(fā)展機(jī)遇方面,大數(shù)據(jù)時(shí)代背景下,統(tǒng)計(jì)學(xué)的思維方式也發(fā)生著重大變化,基于傳統(tǒng)統(tǒng)計(jì)的基礎(chǔ)理論在大數(shù)據(jù)沖擊下進(jìn)行著新一代變革,統(tǒng)計(jì)學(xué)研究對(duì)象、統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)、統(tǒng)計(jì)學(xué)因果關(guān)系、統(tǒng)計(jì)學(xué)模型構(gòu)建等傳統(tǒng)統(tǒng)計(jì)學(xué)理論不斷接近于現(xiàn)實(shí)情況。此外,大數(shù)據(jù)背景大幅度提高了統(tǒng)計(jì)學(xué)學(xué)科的效率,使得傳統(tǒng)統(tǒng)計(jì)學(xué)可以利用計(jì)算機(jī)信息技術(shù)彌補(bǔ)抽樣統(tǒng)計(jì)中數(shù)據(jù)量較少、不夠全面和處理數(shù)據(jù)時(shí)間過(guò)長(zhǎng)等不足。同時(shí),大數(shù)據(jù)的發(fā)展擴(kuò)大了統(tǒng)計(jì)學(xué)的應(yīng)用范圍,補(bǔ)充并延伸了統(tǒng)計(jì)學(xué)科體系。如今大數(shù)據(jù)使統(tǒng)計(jì)學(xué)有了新的發(fā)展方向的同時(shí),也使得統(tǒng)計(jì)學(xué)方法可以更廣泛應(yīng)用于更多領(lǐng)域,無(wú)論是企業(yè)、政府、人工智能,還是醫(yī)療、金融、服務(wù)等行業(yè)都需要分析海量數(shù)據(jù),大數(shù)據(jù)使統(tǒng)計(jì)學(xué)地位變得更加重要[6]。
在發(fā)展挑戰(zhàn)方面,傳統(tǒng)統(tǒng)計(jì)學(xué)基本采用隨機(jī)抽樣的方法得到樣本數(shù)據(jù),進(jìn)而挖掘、分析并推斷整體,因此得到的結(jié)果無(wú)法精確對(duì)應(yīng)每一個(gè)個(gè)體,只能有概率化的數(shù)據(jù)方向。大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)的研究對(duì)象已從樣本趨于總體,是所有數(shù)據(jù)的集合而并非之前抽樣數(shù)據(jù)。其次,在大數(shù)據(jù)背景下,數(shù)據(jù)時(shí)時(shí)刻刻都在產(chǎn)生,傳統(tǒng)靜態(tài)讀取數(shù)據(jù)信息的方式已不能服務(wù)于大數(shù)據(jù)庫(kù)系統(tǒng),現(xiàn)有結(jié)構(gòu)和體系下的數(shù)據(jù)必須采用動(dòng)態(tài)方法邊讀取邊分析,并且計(jì)算機(jī)處理速度也遠(yuǎn)遠(yuǎn)達(dá)不到所希望的要求,因此,大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)應(yīng)用計(jì)算機(jī)的體系結(jié)構(gòu)也提出了更高的要求。此外,傳統(tǒng)統(tǒng)計(jì)學(xué)所處理的數(shù)據(jù)要求均是結(jié)構(gòu)化數(shù)據(jù),而大數(shù)據(jù)時(shí)代所搜集到的數(shù)據(jù)信息并非只是結(jié)構(gòu)化類型,80%左右數(shù)據(jù)是非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),抽樣統(tǒng)計(jì)的方法在數(shù)據(jù)結(jié)構(gòu)類型繁多的狀況下已經(jīng)越來(lái)越難以適應(yīng),因此,如何從非結(jié)構(gòu)化數(shù)據(jù)中提取有價(jià)值信息,將結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行相互轉(zhuǎn)化,發(fā)展傳統(tǒng)統(tǒng)計(jì)學(xué)處理非結(jié)構(gòu)化數(shù)據(jù)的功能將是大數(shù)據(jù)背景下密切關(guān)注的問(wèn)題[7]。
4 大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)發(fā)展建議
大數(shù)據(jù)不僅是計(jì)算機(jī)信息技術(shù)的變革,更重要的是數(shù)據(jù)應(yīng)用的變革,兩者共同改變著傳統(tǒng)統(tǒng)計(jì)學(xué)的發(fā)展模式。在大數(shù)據(jù)背景下,傳統(tǒng)統(tǒng)計(jì)學(xué)發(fā)展面臨著巨大挑戰(zhàn),但同時(shí)也迎來(lái)前所未有的機(jī)遇,結(jié)合傳統(tǒng)統(tǒng)計(jì)學(xué)的發(fā)展機(jī)遇與挑戰(zhàn)為統(tǒng)計(jì)學(xué)未來(lái)發(fā)展提供建議具有重大意義。
首先,加強(qiáng)人才培養(yǎng)輸送,提升大數(shù)據(jù)統(tǒng)計(jì)人員的綜合水平。國(guó)家層面應(yīng)該高度重視人才培養(yǎng)工作,在政策制定、資源投入、人才培養(yǎng)等方面應(yīng)出臺(tái)有效政策措施給予強(qiáng)強(qiáng)有力支持,大數(shù)據(jù)時(shí)代打的不僅是信息戰(zhàn)、技術(shù)戰(zhàn),更重要的是人才戰(zhàn)。其次高校和研究院所應(yīng)結(jié)合當(dāng)代使命,擬定、制定或改革傳統(tǒng)統(tǒng)計(jì)學(xué)培養(yǎng)方案,逐漸建立從數(shù)據(jù)分析到大數(shù)據(jù)分析的統(tǒng)計(jì)模式和理論體系,在數(shù)據(jù)搜集、前期處理、整合結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)、提高計(jì)算速度與效率等方面加大努力,將大數(shù)據(jù)與統(tǒng)計(jì)學(xué)相互關(guān)聯(lián),取優(yōu)彌短,共同發(fā)展[6-7]。最后,從現(xiàn)實(shí)意義講,理論與技術(shù)發(fā)展的動(dòng)力源于生產(chǎn)實(shí)際,因此,國(guó)家、科研院所與企業(yè)間也要不斷加強(qiáng)發(fā)展合作,建立良性的大數(shù)據(jù)與統(tǒng)計(jì)學(xué)的生態(tài)系統(tǒng)產(chǎn)業(yè)鏈,以提高生產(chǎn)力為目的,強(qiáng)化大數(shù)據(jù)與統(tǒng)計(jì)技術(shù)的應(yīng)用服務(wù);以大數(shù)據(jù)鏈建設(shè)為載體,建立大數(shù)據(jù)安全網(wǎng)絡(luò);以大數(shù)據(jù)平臺(tái)為支撐,提高統(tǒng)計(jì)軟件的新時(shí)代發(fā)展與應(yīng)用,打造大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)發(fā)展多方共贏的產(chǎn)業(yè)圈;以市場(chǎng)主體為依托,全面融入大數(shù)據(jù)與統(tǒng)計(jì)發(fā)展新時(shí)代。
參考文獻(xiàn)
[1]陳鞏,譚雪霏,趙春波.大數(shù)據(jù)背景下統(tǒng)計(jì)新思維的探索研究[J].信息通信,2016,(12):163-164.
[2]孫雪琴.大數(shù)據(jù)背景下對(duì)統(tǒng)計(jì)學(xué)發(fā)展的思考[J].科技經(jīng)濟(jì)市場(chǎng),2016,(5):184.
[3]朱建平,張悅涵.大數(shù)據(jù)時(shí)代對(duì)傳統(tǒng)統(tǒng)計(jì)學(xué)變革的思考[J].統(tǒng)計(jì)研究,2016,(2):3-9.
[4]楊秀艷.大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)相關(guān)概念解讀[J].統(tǒng)計(jì)科學(xué)與實(shí)踐,2018,(3):38-40.
[5]王澤賢.大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)面臨的挑戰(zhàn)[J]時(shí)代金融2016,(11):237-241.
[6]王麗君.關(guān)于大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)相關(guān)問(wèn)題的研究[J].中國(guó)高新區(qū),2018,(7):208-209.
[7]韓建彬.大數(shù)據(jù)分析與數(shù)理統(tǒng)計(jì)的比較[J].信息與電腦,2018,(5):134-137.