王賀超
摘要:伴隨互聯(lián)網(wǎng)技術(shù)的突飛猛進,大數(shù)據(jù)領(lǐng)域發(fā)展迅猛。門戶網(wǎng)站、電子商務(wù)、社交網(wǎng)絡(luò)、影視游戲等應(yīng)用中產(chǎn)生了海量數(shù)據(jù),這些數(shù)據(jù)需要統(tǒng)計學(xué)發(fā)揮作用來挖掘其中的價值。統(tǒng)計學(xué)作為交叉性、實用性很強的方法論科學(xué),面對大數(shù)據(jù)這一新興事物,需要積極變革,發(fā)展新的統(tǒng)計方法和工具。一方面幫助大數(shù)據(jù)領(lǐng)域有效地處理數(shù)據(jù),另一方面借助大數(shù)據(jù)技術(shù)推動統(tǒng)計學(xué)的不斷進步。在大數(shù)據(jù)時代,統(tǒng)計學(xué)要正視嚴(yán)峻的挑戰(zhàn),研究切實有用的方法,抓住新時代的發(fā)展機遇。
關(guān)鍵詞:統(tǒng)計學(xué);大數(shù)據(jù);互聯(lián)網(wǎng)技術(shù)
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)03-0007-02
1 統(tǒng)計學(xué)需要在大數(shù)據(jù)領(lǐng)域發(fā)展
統(tǒng)計學(xué)能夠提供很多有效的工具和手段幫助大數(shù)據(jù)領(lǐng)域挖掘數(shù)據(jù)價值。大數(shù)據(jù)技術(shù)包含數(shù)據(jù)采集技術(shù)、數(shù)據(jù)存儲技術(shù)、數(shù)據(jù)處理技術(shù),其中至關(guān)重要的就是數(shù)據(jù)處理技術(shù)中的挖掘數(shù)據(jù)價值。傳統(tǒng)IT數(shù)據(jù)所產(chǎn)生的數(shù)據(jù)量級小、單位價值高,可以看作是在黑土地上精耕細(xì)作。大數(shù)據(jù)時代的數(shù)據(jù)量級大、單位價值低,可以看作是在沙漠中淘金。在大數(shù)據(jù)領(lǐng)域經(jīng)常需要分析某批數(shù)據(jù)的宏觀特征、某批數(shù)據(jù)背后隱藏的要素相關(guān)性,傳統(tǒng)IT的數(shù)據(jù)分析方法已經(jīng)無法實現(xiàn)這些目標(biāo),這時就需要統(tǒng)計學(xué)發(fā)揮自己的特長,在不同時期、從不同角度挖掘數(shù)據(jù)價值。
統(tǒng)計學(xué)在解決大數(shù)據(jù)領(lǐng)域問題時會展示出統(tǒng)計工作的新生命力。統(tǒng)計作為一種古老的活動一直參與到生活、社會、經(jīng)濟領(lǐng)域中。起初統(tǒng)計服務(wù)于社會管理需要,搜集、整理有關(guān)歷史、行政、科學(xué)、藝術(shù)、人口、資源、財富等社會和經(jīng)濟情況,并進行一定的分析和描述,展示數(shù)據(jù)的宏觀特征。而后隨著數(shù)據(jù)資料積累到一定規(guī)模,人們要求統(tǒng)計能夠提供揭示事物內(nèi)在規(guī)律的研究方法,以達(dá)到推斷數(shù)據(jù)本質(zhì)、甚至預(yù)測數(shù)據(jù)未來趨勢的目的。在大數(shù)據(jù)時代,統(tǒng)計學(xué)需要面對更為龐大、更為豐富的數(shù)據(jù),會產(chǎn)生新的統(tǒng)計方法,衍生出新的統(tǒng)計思路。
統(tǒng)計學(xué)在解決大數(shù)據(jù)問題過程中,借助大數(shù)據(jù)技術(shù)豐富和擴充統(tǒng)計工具。信息爆炸和互聯(lián)網(wǎng)技術(shù)更新給大數(shù)據(jù)帶來一系列的新技術(shù),涵蓋了數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理。從數(shù)據(jù)采集上講,傳統(tǒng)統(tǒng)計經(jīng)常使用統(tǒng)計報表、典型調(diào)查、電話訪談、調(diào)查問卷等方法,大數(shù)據(jù)領(lǐng)域有行為數(shù)據(jù)收集、內(nèi)容數(shù)據(jù)記錄等方式。從數(shù)據(jù)存儲上講,傳統(tǒng)統(tǒng)計使用紙張文檔、Excel表格、關(guān)系型數(shù)據(jù)庫等載體,大數(shù)據(jù)領(lǐng)域有文件系統(tǒng)、日志系統(tǒng)、NoSQL數(shù)據(jù)庫系統(tǒng)等工具。從數(shù)據(jù)處理上講,傳統(tǒng)統(tǒng)計使用人工分析、專用軟件計算等方法,大數(shù)據(jù)領(lǐng)域有可視化分析、數(shù)據(jù)挖掘算法、語義引擎、流式計算等方式。這些技術(shù)能夠被統(tǒng)計工作所吸收、采納,推動統(tǒng)計學(xué)的發(fā)展。
大數(shù)據(jù)的意義不止于管理龐大的數(shù)據(jù)信息,更在于發(fā)現(xiàn)這些數(shù)據(jù)背后的潛在價值,這就需要統(tǒng)計學(xué)的分析能力參與其中,實現(xiàn)數(shù)據(jù)的增值。在大數(shù)據(jù)和統(tǒng)計學(xué)的合作過程中,后者也需要進行自我變革。
2 大數(shù)據(jù)領(lǐng)域的特點
大數(shù)據(jù)有很多種定義,獲得廣泛認(rèn)可的是:大數(shù)據(jù)(big da-ta),是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)的數(shù)量級巨大。根據(jù)國際數(shù)據(jù)公司(IDC)的研究報告得知,2018年全球產(chǎn)生的數(shù)據(jù)為33ZB(約33萬億GB)。市場研究機構(gòu)Synergy Research發(fā)布數(shù)據(jù),2018年全球新增超大規(guī)模數(shù)據(jù)中心40個,每個超大規(guī)模數(shù)據(jù)中心一般擁有5萬-10萬服務(wù)器。騰訊董事局主席馬化騰曾披露騰訊數(shù)據(jù)中心存儲總量超過1000PB(約10億GB),而且每天新增500TB(約50萬GB)的數(shù)據(jù);騰訊用戶每天在微信朋友圈和QQ空間上傳的圖片達(dá)10億張,騰訊視頻(含微信公眾號H5視頻)每天播放量達(dá)20億次,除夕當(dāng)天紅包支付超過25億筆,每天移動支付超過5億筆。由此可見,大數(shù)據(jù)時代的數(shù)據(jù)體量巨大,并且持續(xù)快速增長。
大數(shù)據(jù)的種類多樣。傳統(tǒng)的IT數(shù)據(jù)主要以數(shù)據(jù)庫記錄為主,這是一種規(guī)范的、層次分明的結(jié)構(gòu)化數(shù)據(jù)。但是在大數(shù)據(jù)時代,數(shù)據(jù)不僅限于數(shù)據(jù)庫記錄,經(jīng)常以行為日志、電子文檔、語音視頻、地圖圖片等形式存在,形成非結(jié)構(gòu)化數(shù)據(jù)。
大數(shù)據(jù)的速度很快。這個“速度”包括數(shù)據(jù)的生成速度、數(shù)據(jù)的增長速度、數(shù)據(jù)的更新速度,從而要求數(shù)據(jù)的獲取速度、數(shù)據(jù)的傳輸速度、數(shù)據(jù)的存儲速度、數(shù)據(jù)的處理速度也要很快。進一步對數(shù)據(jù)的分析和解釋速度提出了更高的要求。
大數(shù)據(jù)依賴互聯(lián)網(wǎng)技術(shù)。大數(shù)據(jù)作為互聯(lián)網(wǎng)發(fā)展的產(chǎn)物,其采集、存儲、處理同互聯(lián)網(wǎng)技術(shù)密不可分。數(shù)據(jù)采集是指將數(shù)據(jù)寫入數(shù)據(jù)倉庫,通常使用Flume NC、NDC、Logstash等工具實現(xiàn)數(shù)據(jù)的收集。數(shù)據(jù)存儲用于存放大量數(shù)據(jù)、同時給數(shù)據(jù)的處理提供便利,通常采用Hadoop、HBase等分布式存儲方案實現(xiàn)。數(shù)據(jù)處理是非常重要的環(huán)節(jié),可以使用MapReduce、Oozie等技術(shù)實現(xiàn)數(shù)據(jù)的管理、計算,挖掘數(shù)據(jù)特性和價值。
統(tǒng)計工作者應(yīng)該了解大數(shù)據(jù)領(lǐng)域的特點,掌握大數(shù)據(jù)的共性和特性。面對不同體量、不同形態(tài)、不同表現(xiàn)的數(shù)據(jù),應(yīng)該思考如何找到辦法、工具將數(shù)據(jù)轉(zhuǎn)化為可以進行統(tǒng)計研究的對象。在實際工作中,將統(tǒng)計工具同互聯(lián)網(wǎng)技術(shù)相結(jié)合,采用合適的統(tǒng)計方法,分析和處理現(xiàn)實問題。
3 統(tǒng)計學(xué)在大數(shù)據(jù)領(lǐng)域的具體實踐
統(tǒng)計學(xué)一直以數(shù)據(jù)作為研究對象,幾百年來深入不同領(lǐng)域進行研究,逐步發(fā)展出成體系的收集和分析數(shù)據(jù)的方法,這些統(tǒng)計方法旨在發(fā)現(xiàn)事物特征,探索事物規(guī)律。在面對大數(shù)據(jù),統(tǒng)計學(xué)繼續(xù)發(fā)揮自己的作用,大數(shù)據(jù)的擁有者也在自發(fā)地進行統(tǒng)計工作。
3.1 統(tǒng)計工作發(fā)掘大數(shù)據(jù)中的價值
雙十一購物節(jié)作為全網(wǎng)購物狂歡節(jié),吸引了億萬消費者參與其中,2019年全網(wǎng)成交額超過4000億,消費數(shù)據(jù)背后隱藏著巨大的價值。
中國人民銀行公布雙十一期間網(wǎng)絡(luò)支付業(yè)務(wù)數(shù)據(jù):網(wǎng)聯(lián)、銀聯(lián)共處理網(wǎng)絡(luò)支付業(yè)務(wù)17.79億筆、金額14820.70億元,同比分別增長35.49%、162.60%?!?7.79億筆”指明了金融支付系統(tǒng)需要在雙十一當(dāng)天完成交易筆數(shù),這對其電子支付系統(tǒng)提出了嚴(yán)峻的挑戰(zhàn)。為此多家銀行、支付機構(gòu)提前擴充系統(tǒng)資源、準(zhǔn)備應(yīng)急方案,在統(tǒng)計數(shù)據(jù)的幫助下,實現(xiàn)電子支付系統(tǒng)平穩(wěn)運行。
京東雙十一購物節(jié)的數(shù)據(jù)顯示:3000元以上價位段手機銷量同比增長200%,70英寸及以上電視成交額同比增長超過400%,2000元以上高端美容器產(chǎn)品成交額同比增170%,有機牛奶成交額是去年同期四倍,定制旅游行產(chǎn)品成交額同比增長6倍。由統(tǒng)計數(shù)據(jù)得知:中國消費者需要更高端的電子產(chǎn)品,更有機的食品,更個性化的定制服務(wù),追求品質(zhì)化的生活。商家會傾向于提供更多的類似產(chǎn)品,消費者能夠獲得更豐富的產(chǎn)品。
根據(jù)國家郵政局的監(jiān)測數(shù)據(jù),雙十一全天各郵政、快遞企業(yè)共處理5.35億快件,是二季度以來日常處理量的3倍,同比增長28.6%。通過這些數(shù)據(jù),物流行業(yè)能夠識別出物流壓力,并尋找合適的辦法撫平波動,充分利用社會資源,提高物流效率。
通過對數(shù)據(jù)的分類整理、定量計算,進行計數(shù)分析、分布特征分析、評價判定分析,結(jié)合實際應(yīng)用場景,評估出數(shù)據(jù)統(tǒng)計特征背后的潛在價值。
3.2 統(tǒng)計工作探求事物規(guī)律
百度地圖發(fā)布了春運出行預(yù)測報告,基于鐵路車次大數(shù)據(jù)、高速公路信息大數(shù)據(jù)、地圖定位大數(shù)據(jù)等歷年春運出行數(shù)據(jù)的統(tǒng)計特征,對春運期間人口遷徙情況、交通擁堵進行了預(yù)測。通過統(tǒng)計分析得出了諸如:上海地區(qū)用車訂單或?qū)⑹瞧饺諆杀肚乙讚矶?、泰國大皇宮熱度較高等具有指導(dǎo)意義的預(yù)判。
阿里巴巴以阿里電商數(shù)據(jù)為核心,基于網(wǎng)站瀏覽量、瀏覽人次、供求產(chǎn)品數(shù)量、公司數(shù)量等指標(biāo)統(tǒng)計計算得出阿里指數(shù)。經(jīng)過統(tǒng)計分析后發(fā)布市場行情、熱門行業(yè)的綜合趨勢,進一步提供產(chǎn)業(yè)內(nèi)貿(mào)易聯(lián)系、行業(yè)上下游關(guān)系。
通過對數(shù)據(jù)的估計推算分析、動態(tài)預(yù)測分析、關(guān)聯(lián)關(guān)系分析、系統(tǒng)評審分析、數(shù)據(jù)挖掘分析,解釋信息要素之間關(guān)系,發(fā)現(xiàn)事物規(guī)律。
3.3 統(tǒng)計工作使用大數(shù)據(jù)工具
Python是一種面向?qū)ο蟮挠嬎銠C程序設(shè)計語言,也是一種解釋性腳本語言。由于Python簡單易用、能夠快速處理大數(shù)據(jù),在大數(shù)據(jù)時代被廣泛用作大數(shù)據(jù)處理工具,也成了統(tǒng)計分析的有力助手。第一,Python有專門的可算計算擴展庫,例如:NumPy(數(shù)組處理)、SciPy(數(shù)值運算)、matplotlib(繪圖功能)等,能夠幫助研究人員快速進行數(shù)值分析。第二,用Python可以寫簡單爬蟲,從而快速地獲取大量網(wǎng)頁數(shù)據(jù),同時Pvthon提供了簡單的文檔處理功能,可以通過極短的代碼完成大部分文檔的處理。
大數(shù)據(jù)雖然量級大、種類多,但仍然是一種數(shù)據(jù),一種統(tǒng)計學(xué)研究的對象。統(tǒng)計學(xué)作為方法論科學(xué),結(jié)合大數(shù)據(jù)領(lǐng)域現(xiàn)狀,深入研究各類現(xiàn)實問題,形成一系列具有實際價值的實踐。4統(tǒng)計學(xué)在大數(shù)據(jù)領(lǐng)域面臨的問題
大數(shù)據(jù)領(lǐng)域給統(tǒng)計學(xué)帶來了新發(fā)展的同時,也給其帶來了更多的挑戰(zhàn)。統(tǒng)計學(xué)需要認(rèn)真思考如何處理大數(shù)據(jù)帶來的問題,才能實現(xiàn)自我變革。
大數(shù)據(jù)和樣本。有人持有一種觀點:大數(shù)據(jù)不用隨機分析法(抽樣調(diào)查)這樣傳統(tǒng)的分析方法處理數(shù)據(jù),而是對所有的數(shù)據(jù)進行分析處理,所以大數(shù)據(jù)是總體。雖然大數(shù)據(jù)量級大、大數(shù)據(jù)技術(shù)可以做到對全部數(shù)據(jù)進行處理,但是這并不意味著已經(jīng)掌握的大數(shù)據(jù)就是總體。結(jié)合現(xiàn)實來講,已有數(shù)據(jù)不完全等同于所有數(shù)據(jù),采集大數(shù)據(jù)的過程,只是從某一方面、某一時間段從遠(yuǎn)遠(yuǎn)不斷地信息流中抓取數(shù)據(jù)。大數(shù)據(jù)雖然大,但仍然是客觀事實的一個樣本。這就引發(fā)了一系列思考:采集的大數(shù)據(jù)能否具有充分代表性,通過對大數(shù)據(jù)(樣本)的分析能否獲得總體的特征。
非結(jié)構(gòu)化數(shù)據(jù)和統(tǒng)計方法。在采集、記錄數(shù)據(jù)時,往往不知道這些數(shù)據(jù)有何用途,通常是為了記錄而記錄數(shù)據(jù),這就導(dǎo)致了非結(jié)構(gòu)化數(shù)據(jù)的大量存在。按照傳統(tǒng)統(tǒng)計方法,在獲取數(shù)據(jù)之前已經(jīng)能夠明確目標(biāo)數(shù)據(jù)的類型,統(tǒng)計方法的確定早于數(shù)據(jù)采集。在大數(shù)據(jù)領(lǐng)域,一方面統(tǒng)計工作通常晚于數(shù)據(jù)采集,另一方面需要從多個角度對大數(shù)據(jù)進行多種統(tǒng)計分析。如何處理非結(jié)構(gòu)化數(shù)據(jù)對統(tǒng)計方法有很大影響。
大數(shù)據(jù)技術(shù)和統(tǒng)計工作者。大數(shù)據(jù)時代的來臨離不開信息技術(shù)的發(fā)展,傳統(tǒng)的統(tǒng)計工具不足以實現(xiàn)大數(shù)據(jù)的分析處理。統(tǒng)計工作者需要學(xué)習(xí)掌握大數(shù)據(jù)技術(shù),結(jié)合統(tǒng)計方法,創(chuàng)造出大數(shù)據(jù)時代的統(tǒng)計工具,才能充分發(fā)掘大數(shù)據(jù)的價值。
5 總結(jié)
統(tǒng)計學(xué)作為一門綜合學(xué)科,從社會、經(jīng)濟統(tǒng)計向多分支學(xué)科發(fā)展,統(tǒng)計的范疇已覆蓋了社會生活的一切領(lǐng)域,幾乎無所不包,成為通用的方法論科學(xué)。在互聯(lián)網(wǎng)蓬勃發(fā)展的年代,大數(shù)據(jù)領(lǐng)域陡然出現(xiàn),既幫助統(tǒng)計學(xué)收集、處理數(shù)據(jù),也向統(tǒng)計學(xué)提出了新的要求。統(tǒng)計學(xué)應(yīng)該及時開拓進取,進行自我變革,擴展統(tǒng)計學(xué)的應(yīng)用領(lǐng)域,創(chuàng)造大數(shù)據(jù)時代的統(tǒng)計方法。
參考文獻(xiàn):
[1]符一平,淺談統(tǒng)計學(xué)在大數(shù)據(jù)時代面臨的機遇、挑戰(zhàn)及其發(fā)展趨勢[J].中國管理信息化,2016,19(14):245-246.
[2]朱艷麗.大數(shù)據(jù)背景下對統(tǒng)計學(xué)課程建設(shè)的思考[J].科技經(jīng)濟導(dǎo)刊,2019(20):133-134.
[3]徐延軍,左宇曉,王茹川.大數(shù)據(jù)時代下的統(tǒng)計探討[J]市場研究,2019(9):24-26.
[4]趙博.基于大數(shù)據(jù)的戰(zhàn)略預(yù)見研究[D].北京:中共中央黨校,2016.
[5]張燕南,大數(shù)據(jù)的教育領(lǐng)域應(yīng)用之研究[D].上海:華東師范大學(xué),2016.
[6]李金昌,基于大數(shù)據(jù)思維的統(tǒng)計學(xué)若干理論問題[J].統(tǒng)計研究,2016,33(11):3-10.
[7]胡前防,連鵬偉,陳乾坤.Python在統(tǒng)計數(shù)據(jù)處理中的應(yīng)用[J]市場研究,2019(8):33-35.
[8]齊慧.基于python的WEB數(shù)據(jù)挖掘技術(shù)實現(xiàn)與研究[J].軟件工程,2019,22(8):21-23.
[9]耿直.大數(shù)據(jù)時代統(tǒng)計學(xué)面臨的機遇與挑戰(zhàn)[J].統(tǒng)計研究,2014,31(1):5-9.
[10]劉旭.探析大數(shù)據(jù)時代對傳統(tǒng)統(tǒng)計學(xué)變革的思考[J].才智,2016(35):244.
[11]朱建平,張悅涵,大數(shù)據(jù)時代對傳統(tǒng)統(tǒng)計學(xué)變革的思考[J]統(tǒng)計研究.2016,33(2):3-9.
[12]打造“智能教育云”平臺標(biāo)桿案例滬江與騰訊云達(dá)成戰(zhàn)略合作,新華網(wǎng)[EB/OL].http://www. xinhuanet. com/itown/2017-04/28/c_13 6242662.htm.
[13]透過“雙十一”數(shù)據(jù)單看中國消費市場新活力.人民網(wǎng)[EB/OL]. http://finance. people. com. cn/nl/2019/1112/c1004-3 1450983.html.