徐延軍 左宇曉 王茹川/ 文
人類文明的每一次進步都以科學技術(shù)革新為標志。從19世紀的“蒸汽機時代”,20 世紀的“信息技術(shù)”到21 世紀“大數(shù)據(jù)時代”的變革,現(xiàn)如今大數(shù)據(jù)與數(shù)字經(jīng)濟正在全球范圍內(nèi)掀起一陣顛覆傳統(tǒng)的熱潮,成為各國重塑競爭優(yōu)勢的共同選擇。黨中央國務院高度重視大數(shù)據(jù)在經(jīng)濟社會發(fā)展中的作用,黨的十八屆五中全會提出“實施國家大數(shù)據(jù)戰(zhàn)略”,國務院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,全面推進大數(shù)據(jù)發(fā)展,加快建設數(shù)據(jù)強國。據(jù)《2018 全球大數(shù)據(jù)發(fā)展分析報告》顯示,隨著全球海量數(shù)據(jù)的增長,無論是中國還是世界,大數(shù)據(jù)能否轉(zhuǎn)化為決策力都面臨著數(shù)據(jù)結(jié)構(gòu)化以及系統(tǒng)建模分析等諸多難題。由此可見,數(shù)據(jù)已經(jīng)成為重要的基礎性戰(zhàn)略資源,而且取之不盡用之不竭,越用越豐富,是21 世紀的“鉆石礦”。大數(shù)據(jù)時代數(shù)據(jù)資源豐盈的同時,數(shù)據(jù)分析顯得更加重要,數(shù)據(jù)分析的核心是統(tǒng)計。大數(shù)據(jù)時代統(tǒng)計思維不再束縛于傳統(tǒng)的統(tǒng)計方式,尤其是數(shù)據(jù)采集和分析的方法,不論是政府統(tǒng)計還是民間統(tǒng)計,都必須順應大數(shù)據(jù)時代的變革,未來的統(tǒng)計將是傳統(tǒng)統(tǒng)計和大數(shù)據(jù)的高度融合,構(gòu)造多數(shù)據(jù)源的大統(tǒng)計。
統(tǒng)計源于國家管理需要而產(chǎn)生,比如最早的人口統(tǒng)計。統(tǒng)計有三方面的含義:統(tǒng)計工作、統(tǒng)計資料和統(tǒng)計學。一般來說,統(tǒng)計來源于實踐,通過統(tǒng)計工作獲取統(tǒng)計資料,進而隨著認識的不斷深入,統(tǒng)計學上升為一門學科。統(tǒng)計學作為一門學科已有三百多年的歷史。通常可以將統(tǒng)計學的發(fā)展史分為三個階段:古典統(tǒng)計學、近代統(tǒng)計學和現(xiàn)代統(tǒng)計學。
古典統(tǒng)計學時期(17 世紀中葉到18 世紀)以政治算術(shù)學派和國勢學派為代表,二者相互滲透和借鑒。其中政治算術(shù)學派以威廉·配第(Willian Petty,1623—1687 年)和約翰·格朗特(John Graunt,1620—1674 年)為代表,國勢學派以海爾曼·康令(Hermann Conring,1606—1681 年)為代表,統(tǒng)計主要為國家管理和社會福利改善提供服務和指導。
近代統(tǒng)計學時期(18 世紀末—19 世紀末)以數(shù)理統(tǒng)計和社會統(tǒng)計為代表。源于歐洲各國的工業(yè)革命和科學技術(shù)的迅猛發(fā)展,天文、氣象、社會人口等領域的數(shù)據(jù)資料積累到一定規(guī)模,國家層面對統(tǒng)計的需求開始擴展至社會科學各個領域。社會統(tǒng)計學派主要代表人物是恩格爾(C.L.E.Engel,1821—1896 年)和梅爾(C.G.V.Mayer,1841—1925 年),他們認為統(tǒng)計學的研究對象是社會經(jīng)濟現(xiàn)象。對事物現(xiàn)象的靜態(tài)描述也不能滿足社會需求,數(shù)理統(tǒng)計學派創(chuàng)始人凱特勒(A.J.Quetelet,1796—1874 年)率先將概率論引進古典統(tǒng)計學,提出了大數(shù)定律思想,使得統(tǒng)計學逐步成為揭示事物內(nèi)在規(guī)律的一般性研究方法,由此凱特勒被歐美統(tǒng)計學界譽為“近代統(tǒng)計學之父”。
現(xiàn)代統(tǒng)計學時期(20 世紀以來)以凱特勒的數(shù)理統(tǒng)計學為基礎,經(jīng)過高爾頓(F.Galton,1822—1921 年)、皮爾遜(K.Pearson,1857—1936 年)、鮑萊(A.L.Bowley,1869—1957 年)和費歇爾(R.A.Fisher,1880—1962 年)等統(tǒng)計學家的不斷豐富和完善,主要成果是數(shù)理統(tǒng)計在隨機抽樣基礎上建立起來的推斷統(tǒng)計學。隨著計算機技術(shù)的發(fā)展,一系列統(tǒng)計方法技術(shù)被開發(fā)出來,如MCMC 模擬計算、Jackknife、Bootstrap 等。21 世紀大數(shù)據(jù)時代的到來,以互聯(lián)網(wǎng)為中心的云計算技術(shù)為大數(shù)據(jù)提供了存儲、訪問的場所和渠道,由此而來的一系列面向大數(shù)據(jù)的抽樣、分類、聚類、關(guān)聯(lián)分析方法應運而生。例如,社交網(wǎng)絡的發(fā)展直接促進了基于網(wǎng)絡的統(tǒng)計方法的產(chǎn)生,大數(shù)據(jù)流環(huán)境促進了數(shù)據(jù)流算法的產(chǎn)生等。因此,計算機技術(shù)可以說是大數(shù)據(jù)發(fā)展的基礎,同時計算機對統(tǒng)計學的發(fā)展起到了很大的促進作用。
縱觀統(tǒng)計學發(fā)展史,作為統(tǒng)計研究對象的數(shù)據(jù)的產(chǎn)生,尤其是大數(shù)據(jù)的產(chǎn)生和存儲,離不開計算機技術(shù)的迅猛發(fā)展?,F(xiàn)在已經(jīng)進入計算機、大數(shù)據(jù)和統(tǒng)計方法相互融合的時代,統(tǒng)計分析也經(jīng)歷了簡單的計數(shù)分析、簡單描述統(tǒng)計分析、抽樣分布特征分析、估計檢驗推算分析、動態(tài)預測分析、評價判定分析、變量關(guān)聯(lián)關(guān)系分析、數(shù)據(jù)挖掘分析等階段,相應的產(chǎn)生了不同的統(tǒng)計分析方法,包括大量觀察法、統(tǒng)計分組法、綜合指標法、模型方程法、數(shù)據(jù)挖掘等方法,并且對計算機和軟件的利用程度也越來越深。
如何從海量數(shù)據(jù)中進行數(shù)據(jù)的清洗,并提煉有用的信息,是大數(shù)據(jù)時代統(tǒng)計學面臨的重大挑戰(zhàn)。
Viktor 和Kenneth(2013)認為大數(shù)據(jù)時代將開啟全部數(shù)據(jù)的分析模式,不再需要隨機抽樣推斷分析的統(tǒng)計方法。統(tǒng)計是動態(tài)的歷史,歷史是靜態(tài)的統(tǒng)計。著名統(tǒng)計學家、哈佛大學終身教授劉軍則指出,全數(shù)據(jù)的概念經(jīng)不起推敲,而且“在大數(shù)據(jù)時代,統(tǒng)計學依然是數(shù)據(jù)分析的靈魂”。如果將大數(shù)據(jù)比喻成“海洋”,那么統(tǒng)計學必定是匯入“大數(shù)據(jù)海洋”的主干河流之一。大數(shù)據(jù)時代的統(tǒng)計從數(shù)據(jù)采集、數(shù)據(jù)分析到數(shù)據(jù)的發(fā)布等都將對統(tǒng)計學產(chǎn)生重要影響。接下來我們從三個方面探討大數(shù)據(jù)環(huán)境下的統(tǒng)計問題進行辨析。
討論一:大數(shù)據(jù)是總體還是樣本呢?面對海量數(shù)據(jù)的產(chǎn)生,有人認為大數(shù)據(jù)是全部所有的數(shù)據(jù),因此不需要隨機抽樣,將大數(shù)據(jù)定義為總體的研究對象。另一說法是大數(shù)據(jù)再大也只是相對的,隨著時間的推演,大數(shù)據(jù)還在源源不斷地產(chǎn)生,而且由于時空的交錯,我們很難采集到所有的數(shù)據(jù)。互聯(lián)網(wǎng)外還有大魚,數(shù)據(jù)再大也是相對的,今天的大數(shù)據(jù)相對而言只是明天的小數(shù)據(jù),我們不可能窮盡獲取所有數(shù)據(jù),而且對數(shù)據(jù)的掌控也是有限的。北京大學耿直教授給的定義為:“大數(shù)據(jù)是一個大樣本和高維變量的數(shù)據(jù)集合。”
這里以居民消費價格指數(shù)(consumer price index,簡稱CPI)為例。國家統(tǒng)計局編制CPI,一些電商也在編制CPI。國家統(tǒng)計局編制的CPI 包括8 大類商品,260 多個基本分類,700 多種代表商品,調(diào)查范圍涵蓋全國31 個?。ㄊ?、區(qū))500 多個市縣4000多個調(diào)查網(wǎng)點??墒?,全國2000 多個縣,市場上有數(shù)以億計的商品和服務,而且數(shù)以萬計的商業(yè)網(wǎng)點和電商的數(shù)據(jù)沒有全部包括進去。那么我們是否能在全國范圍內(nèi)編制總體的CPI 呢?答案是不可以也不可取。從目前全國實施情況來看,小范圍可以實現(xiàn),如某個行業(yè),或某個電商平臺?,F(xiàn)在一些電商也在編制自己的網(wǎng)購價格指數(shù),如阿里巴巴的網(wǎng)購價格指數(shù)。
因此,總的來說大數(shù)據(jù)等于總體說法是不準確的,也是不可取的。在某些特定的場合,大數(shù)據(jù)約等于總體,例如小范圍大數(shù)據(jù)近似等于小總體,直接就可以對總體進行分析。但在很多場合,大數(shù)據(jù)表現(xiàn)出來的是一個海量的樣本,可以通過再抽樣減少樣本量,大數(shù)據(jù)如何再抽樣,達到估計的精度。
討論二:大數(shù)據(jù)時代還需要傳統(tǒng)的抽樣嗎?因為大數(shù)據(jù)的稀疏性,它需要清洗掉80%以上的垃圾信息,如果按照隨機抽樣的原則,對清洗后的數(shù)據(jù)進行抽樣實施,那么總體分布將是有偏的,抽取的樣本也存在偏倚。傳統(tǒng)的數(shù)據(jù)采集方式是主動獲取的數(shù)據(jù),大數(shù)據(jù)時代數(shù)據(jù)如潮水般涌來進而被囤積下來,兩種數(shù)據(jù)源如何實現(xiàn)有效融合是統(tǒng)計學面臨的重要問題。針對大數(shù)據(jù)流環(huán)境,耿直(2014)提出需要探究如何抽取足以滿足統(tǒng)計調(diào)查目的和精度的樣本,需要研究新的適應性,序慣性和動態(tài)的抽樣方法。例如,對政府的宏觀經(jīng)濟統(tǒng)計而言,如何從原來的政府統(tǒng)計(以抽樣調(diào)查為主)到將來的政府大數(shù)據(jù)統(tǒng)計(微觀個體和企業(yè)),將各種來源的數(shù)據(jù)庫實現(xiàn)有效的融合和對接至關(guān)重要。對于企業(yè)而言,可以從原來的用戶滿意度抽樣調(diào)查上升到借助大數(shù)據(jù)挖掘用戶的消費畫像,從而實現(xiàn)用戶的精準營銷。對于家庭或個人而言,大數(shù)據(jù)時代電子支付手段的使用,所有的消費行為都會被記錄下來,可以更加清晰地發(fā)現(xiàn)家庭的消費支出特征,為進一步優(yōu)化消費結(jié)構(gòu)提供依據(jù)。
討論三:在大數(shù)據(jù)環(huán)境下,統(tǒng)計學的經(jīng)典分析方法會被淘汰嗎?有人認為如果大數(shù)據(jù)包含了所有的數(shù)據(jù),抽樣誤差將消失,模型顯得不重要了,被統(tǒng)計學視為經(jīng)典的回歸模型分析法等將被淘汰。大數(shù)據(jù)時代思維的改變是更關(guān)注數(shù)據(jù)的相關(guān)關(guān)系,舍恩伯格等提道:“相關(guān)關(guān)系比因果關(guān)系能更好地了解這個世界”。例如,某些電商平臺的推薦系統(tǒng),基于數(shù)據(jù)的抓取、挖掘和可視化呈現(xiàn)的數(shù)據(jù)新聞等。這些通過數(shù)據(jù)挖掘?qū)崿F(xiàn)了從數(shù)據(jù)到價值的轉(zhuǎn)變,創(chuàng)造出很好地經(jīng)濟利潤和社會效益,更好地實現(xiàn)精準營銷。但是對象之間相關(guān)關(guān)系越強也可能并不存在本質(zhì)上的關(guān)聯(lián)性,而且相關(guān)分析不能進一步的解釋現(xiàn)象之間的因果關(guān)系。因此,大數(shù)據(jù)時代依然需要借助傳統(tǒng)的統(tǒng)計分析方法,而致力于因果關(guān)系研究的回歸分析或?qū)嶒炘O計等方法在大數(shù)據(jù)時代依然重要,比如說人工智能核心領域的機器學習,回歸分析是有監(jiān)督學習的主要方法之一,而且和統(tǒng)計密不可分。因此,傳統(tǒng)的統(tǒng)計經(jīng)典分析方法不會被淘汰,相反依托于大數(shù)據(jù),可以實現(xiàn)現(xiàn)代和傳統(tǒng)統(tǒng)計分析技術(shù)的有機結(jié)合。
伴隨著大數(shù)據(jù)時代統(tǒng)計分析技術(shù)的提高,從大數(shù)據(jù)采集到數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)挖掘與分析、數(shù)據(jù)可視化與決策這樣一個完整的大數(shù)據(jù)資源價值才能得到完整的利用。隨著非結(jié)構(gòu)化數(shù)據(jù)的井噴式增長,語音信息處理、數(shù)據(jù)挖掘、機器學習成為大數(shù)據(jù)統(tǒng)計分析的重要領域,我們的目標是建立面向大數(shù)據(jù)的宏觀統(tǒng)計核算體系,充分利用各種信息技術(shù)和手段,運用統(tǒng)計理論方法實現(xiàn)大數(shù)據(jù)資源的價值提升,把統(tǒng)計測度與數(shù)據(jù)清洗、數(shù)據(jù)分析模型、計算方法相結(jié)合,努力建立融自動搜索、動態(tài)演化和自主優(yōu)選統(tǒng)計測度為一體的大數(shù)據(jù)統(tǒng)計測度方法體系。在政府國民核算方面,將新興經(jīng)濟核算作為拓展核算納入國民經(jīng)濟核算體系,而新興經(jīng)濟中很大一部分屬于數(shù)字經(jīng)濟。為了準確核算數(shù)字經(jīng)濟發(fā)展規(guī)模及其對宏觀經(jīng)濟的貢獻,數(shù)據(jù)的獲取非常重要。除了完善數(shù)字平臺相關(guān)數(shù)據(jù),開展專項調(diào)查之外,還需要充分挖掘大數(shù)據(jù)技術(shù)記錄存儲基礎數(shù)據(jù),充分挖掘網(wǎng)絡來源數(shù)據(jù)等。將這些大數(shù)據(jù)與各部門行政、稅收、商業(yè)等數(shù)據(jù)互補結(jié)合,采取傳統(tǒng)調(diào)查為主、網(wǎng)絡記錄數(shù)據(jù)為輔的原則。因此,伴隨著數(shù)字經(jīng)濟的快速發(fā)展,亟須構(gòu)建數(shù)字經(jīng)濟核算體系。大數(shù)據(jù)時代表現(xiàn)出來的數(shù)字經(jīng)濟離不開大數(shù)據(jù)和云計算技術(shù),通過新型技術(shù)實現(xiàn)對傳統(tǒng)業(yè)務和模式的數(shù)據(jù)改變,從而推動政府、企業(yè)、消費者多層次多目標數(shù)據(jù)源的發(fā)展,提高大數(shù)據(jù)質(zhì)量,加快建設數(shù)字中國。
從統(tǒng)計的發(fā)展歷程可以看出,隨著計算機和大數(shù)據(jù)的出現(xiàn),統(tǒng)計已經(jīng)發(fā)生了翻天覆地的變化。統(tǒng)計思維方式也將發(fā)生變革,如何將不同數(shù)據(jù)源的數(shù)據(jù)整合,大數(shù)據(jù)與小數(shù)據(jù)的對接,主動獲取的數(shù)據(jù)和被動囤積的數(shù)據(jù)相銜接。未來的統(tǒng)計將融合計算機、大數(shù)據(jù)為一體,呈現(xiàn)出大統(tǒng)計百花爭艷的局面,在數(shù)字全球化背景下如何構(gòu)造宏觀大數(shù)據(jù)統(tǒng)計體系,在此基礎上構(gòu)建數(shù)字經(jīng)濟核算體系,進而為提高大數(shù)據(jù)質(zhì)量,加快數(shù)字中國建設建言獻策。