張航
摘要:近年來,在科學技術不斷發(fā)展的同時,推動了互聯(lián)網與物聯(lián)網的進步,這也同樣意味著海量數(shù)據(jù)時代的到來,并處于迅速發(fā)展的階段。在此背景下,電子商務與互聯(lián)網等多種領域中已經出現(xiàn)了大量的數(shù)據(jù)積累,因此“大數(shù)據(jù)”產生。文章以統(tǒng)計學的角度來對“大數(shù)據(jù)時代”的概念進行了界定,同時滲入研究了“大數(shù)據(jù)時代”的定義,結合其具體的特點,對目前階段統(tǒng)計研究工作以及統(tǒng)計理念中的挑戰(zhàn)進行了探討,最終積極的明確了統(tǒng)計工作與研究合理變動的具體想法。
關鍵詞:大數(shù)據(jù)時代;大數(shù)據(jù);統(tǒng)計學;數(shù)據(jù)分析
引言:
目前階段,在計算機處理技術不斷發(fā)展的背景下,在對規(guī)模較大并且較為復雜的數(shù)據(jù)進行處理過程中,人們已經逐漸掌握了方法與技能,并且能夠在大規(guī)模的數(shù)據(jù)中找出具有一定價值的信息,所以,大數(shù)據(jù)時代已經來臨。在數(shù)據(jù)時代中,在人文社科與人類自然科學技術等方面都會有較大的發(fā)展,同時也會一定程度上改變人們的生活與工作方式。除此之外,大數(shù)據(jù)時代也同樣為統(tǒng)計學提供了良好的發(fā)展機會,但也存在一定的挑戰(zhàn)。
一、大數(shù)據(jù)時代的概念
大數(shù)據(jù)時代的提出者是麥肯錫,他認為數(shù)據(jù)已經逐漸進入到各個行業(yè)與各業(yè)務職能的領域中,并且逐漸成為了主要的生產因素[1]。因此,人們在對大規(guī)模數(shù)據(jù)進行挖掘與應用的過程,也就意味著新的生產率增長的來臨。雖然“大數(shù)據(jù)”在眾多行業(yè)被廣泛應用,但是,特別是在信息與互聯(lián)網的領域中應用突出。
二、怎樣理解大數(shù)據(jù)
(一)大數(shù)據(jù)概念界定與構成
大數(shù)據(jù),即由于日常產生的數(shù)據(jù)量快速增長,使得數(shù)據(jù)庫無法利用相應的管理工具對其進行管理與收集,最終導致在進行搜索、分析、存取、共享數(shù)據(jù)時具有較大的困難。
大數(shù)據(jù)的構成包括四部分,并將其總結為4V,即Volume,Variety,Value,Velocity[2]。第一部分是價值密度低,將視頻作為具體實例來說,實現(xiàn)連續(xù)并且不間斷的監(jiān)控,其中有價值的數(shù)據(jù)信息只有一兩秒。第二部分是數(shù)據(jù)體量極大,已經從TB實現(xiàn)了PB的躍升。第三部分是數(shù)據(jù)類型眾多,主要包括視頻、圖片、網絡日志以及地理信息等。第四部分是處理的速度超快,可以用一秒定律來解釋。
(二)海量數(shù)據(jù)帶來哪些挑戰(zhàn)
第一,數(shù)據(jù)存儲。由于大數(shù)據(jù)的數(shù)據(jù)規(guī)模是PB級別,所以,存儲的系統(tǒng)也需要進行等級的拓展,并且可以通過磁盤柜或者是增加模塊實現(xiàn)容量的增加。然而,目前階段,數(shù)據(jù)的增長速度驚人,所以系統(tǒng)資源的消耗也不斷增加,導致系統(tǒng)的運行效率有所下降[3]。因為對海量數(shù)據(jù)始終停留在分布式的存儲階段,所以,對于爆炸式的數(shù)據(jù)增長,原有的存儲方案已經無法滿足現(xiàn)有的數(shù)據(jù)變化需求。
第二,處理技術。由于海量數(shù)據(jù)的分布性與數(shù)據(jù)量與以往存在較大的差異,所以,原有的數(shù)據(jù)管理技術已經處于落后狀態(tài)。
第三,數(shù)據(jù)安全。在互聯(lián)網規(guī)模逐漸擴大的情況下,數(shù)據(jù)的應用已經出現(xiàn)指數(shù)級別的增長,所以,對于數(shù)據(jù)安全的保護與監(jiān)控來說具有一定的難度。
(三)大數(shù)據(jù)相關應用與實踐
第一,體育賽事應用。以2014年的世界杯為例,在充分發(fā)揮記者與編輯敏銳度的基礎上,騰訊也利用對大數(shù)據(jù)的分析以及云計算等方式來為為其提供移動與社交的數(shù)據(jù)。與此同時,騰訊與IBM進行合作,并通過文化、賽事與球迷三方面來對世界杯球迷的關注重點進行信息的挖掘,進而實現(xiàn)新欄目的創(chuàng)作,并且在短時間內贏得了廣大球迷的認可與關注。
第二,產品推薦應用。產品推薦的應用比較廣泛,可以對客戶信息、交易歷史、購買過程等數(shù)據(jù)進行全面的分析,并進行有價值信息的挖掘。同時,針對同一產品的不同客戶訪問信息也可以進行挖掘。最終,通過對客戶行為的分析,來確定消費者的共性行為,這樣就可以更好的為客戶推薦產品。
除此之外,在產品推薦中,可以在對客戶社交行為進行信息挖掘與分析的基礎上來進行社區(qū)的營銷。對客戶微信微博以及社區(qū)活動中的偏好數(shù)據(jù)進行分析,并為其提供符合客戶興趣愛好的產品。
圖一
三、如何分析大數(shù)據(jù)
(一)如何挖掘數(shù)據(jù)中價值
以匹配廣告為具體事例進行分析,主要有兩種數(shù)據(jù)。第一種是廣告庫,其中包括廣告庫以及廣告的客戶信息[4]。但是這種數(shù)據(jù)信息比較適合在傳統(tǒng)數(shù)據(jù)庫中應用。第二種是用戶在觀看廣告后的行為。可以把以上兩種數(shù)據(jù)進行有效的結合,并通過相應的算法來體現(xiàn)價值。在實踐應用過程中,可以充分體會到第二種信息的重要作用??梢詾橛脩籼峁┢渌璧男畔ⅲ⑼ㄟ^群體智能以及群體行為對之前用戶使用的效果進行分析,最終通過具體的反饋機制,將最優(yōu)質的信息提供給用戶,還可以進行搜索或者是查詢信息。
(二)如何做處理與分析
第一,更新抽樣調查的工作理念。由于大數(shù)據(jù)時代的數(shù)據(jù)樣本是以往資料綜合,所以,可以對相關事務的數(shù)據(jù)信息進行分析,進一步對總體進行了解,還可以更好的了解局部。同時需要解決以下問題:抽樣框架不穩(wěn)定,調查目的設定不合理、樣本量受限[5]。第二,積極改變對于數(shù)據(jù)精確度的標準。在大數(shù)據(jù)時代的背景下,數(shù)據(jù)的來源比較廣泛,并且對數(shù)據(jù)進行處理的技術也有所提高,所以,可以允許數(shù)據(jù)存在不準確的情況。大數(shù)據(jù)時代需要吸收多種數(shù)據(jù),但并需要一味的要求數(shù)據(jù)精準。第三,合理轉變數(shù)據(jù)關系的分析重點。由于大數(shù)據(jù)時代的數(shù)據(jù)規(guī)模比較大,而且結構也十分復雜,變量的關系也比較繁雜。所以,在對數(shù)據(jù)進行分析的過程中,不應該對因果關系進行仔細的分析,而重要的是對事物相關的關系進行分析。需要轉換思路,對事物關系的形式與目的進行詳細的分析。
四、 大數(shù)據(jù)對統(tǒng)計學科和統(tǒng)計研究工作的影響
(一) 拓展統(tǒng)計學研究領域
因為大數(shù)據(jù)時代的到來,所以會對各個領域產生一定的影響,同樣給統(tǒng)計學帶來影響。在統(tǒng)計學中,其主要的研究對象就是其所要認識的客體,是客觀存在事物自身的數(shù)量特征與關系。其中,統(tǒng)計學研究對象最主要的特點就是數(shù)量性。然而,在傳統(tǒng)的統(tǒng)計學當中,數(shù)據(jù)主要是試驗與調查的數(shù)值。在大數(shù)據(jù)時代中,統(tǒng)計研究的對象不僅包括以結構數(shù)據(jù)度量的數(shù)量,此外,還可以包括一些無法用數(shù)量關系進行衡量的半結構與非結構數(shù)據(jù),其中可以包括動畫、圖片、聲音、文本等等[6]。所以,可以說,在大數(shù)據(jù)時代背景下,統(tǒng)計學的研究對象領域有所擴大。
(二) 對統(tǒng)計計算規(guī)范產生影響
在傳統(tǒng)的統(tǒng)計學當中,一般是使用方差、平均數(shù)以及相對數(shù)等數(shù)據(jù)計算規(guī)范來真實反映事物量特征的,同時還可以反映事物量的關系與界限,能夠通過數(shù)據(jù)計算規(guī)范來計算出具體的數(shù)值。但是,半結構與非結構的數(shù)據(jù)是無法通過傳統(tǒng)數(shù)據(jù)計算規(guī)范進行計算的[7]。所以,在大數(shù)據(jù)時代的背景下,傳統(tǒng)的數(shù)據(jù)計算規(guī)范也同樣遇到了難題。
(三) 對統(tǒng)計研究工作的過程產生影響
1. 數(shù)據(jù)整理和分析
第一,數(shù)據(jù)審核。原有的數(shù)據(jù)審核主要的目的就是對數(shù)據(jù)準確性和完整性進行嚴格的檢查。但是,在大數(shù)據(jù)的時代中,對數(shù)據(jù)的審核就必須要確保數(shù)據(jù)處理的速度以及預測的準確程度,同時還需要對數(shù)處理的規(guī)模進行準確的確定,也就是數(shù)據(jù)量級別的確定。除此之外,因為大數(shù)據(jù)自身具有不穩(wěn)定性,并且十分混亂。但是,即使是這樣,大數(shù)據(jù)也能夠挖掘出信息內部存在的隱蔽關系以及有價值的知識。所以,大數(shù)據(jù)所反映的研究對象存在準確與不準確兩種,但是,任何一種的數(shù)據(jù)都具有一定的價值,通常情況下是不需要進行替換或者是刪除的[8]。
第二,數(shù)據(jù)存儲。在以往的數(shù)據(jù)存儲中,審核、匯總以及編制的圖表等資料是重點資料,并且需要進行保存起來的。然而,大數(shù)據(jù)保存最主要的目的就是對存儲的成本進行有效的控制,同時需要根據(jù)相應的法規(guī)計劃來確定數(shù)據(jù)存儲的規(guī)模。
2. 數(shù)據(jù)積累、開發(fā)與應用
第一,數(shù)據(jù)積累。傳統(tǒng)統(tǒng)計工作主要是根據(jù)所制定的研究目的來對數(shù)據(jù)進行匯總與分類,并進行保存,這樣可以更好的為后期數(shù)據(jù)的分析與查詢提供有利的條件。但是,在大數(shù)據(jù)的積累中,具有價值的信息需要對大數(shù)據(jù)進行處理后才可以發(fā)現(xiàn)。不容置疑,大數(shù)據(jù)具有一定的復雜性,所以,在積累的過程中,不可以進行簡單的處理。因為大數(shù)據(jù)的規(guī)模大,結構也比較復雜,無法實現(xiàn)簡單的分類,而且,在對大數(shù)據(jù)進行簡單整理時非常容易使其混亂,對其真實性產生影響,可能會丟失具有價值的信息。
第二,數(shù)據(jù)開發(fā)。大數(shù)據(jù)時代下的數(shù)據(jù)流動性極強,所以,其自身的價值有再生性。因此,大數(shù)據(jù)時代的數(shù)據(jù)不會貶值,反而會增值。為了能夠對所研究的對象進行更深入的了解,就需要對其整合。
第三,數(shù)據(jù)應用。對數(shù)據(jù)的傳統(tǒng)應用主要是為了對現(xiàn)象進行解釋與預測。但是,在大數(shù)據(jù)時代,數(shù)據(jù)應用的核心就是在相關關系前提下的預測。
結語
綜上所述,現(xiàn)階段我國社會正處于大數(shù)據(jù)時代,并且對于社會未來的發(fā)展具有重要的意義。文章對大數(shù)據(jù)時代的概念與定義以及構成進行了闡述與分析,同時,對大數(shù)據(jù)的實際應用與實踐進行了探討。針對大數(shù)據(jù)價值的挖掘與分析處理進行了研究,最后列舉了大數(shù)據(jù)對統(tǒng)計學科以及統(tǒng)計研究工作的影響,進而對今后大數(shù)據(jù)的數(shù)據(jù)分析工作提供了有價值的理論依據(jù),并積極的推動了大數(shù)據(jù)時代的發(fā)展,進一步促進了社會的進步。(作者單位:中國人民大學)
參考文獻:
[1]朱建平,章貴軍,劉曉葳等.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014,31(2):10-19.
[2]張學敏.大數(shù)據(jù)時代的數(shù)據(jù)分析[J].電子世界,2014(16):5-5,6.
[3]李祥歌,王奇奇,郭軼博等.基于大數(shù)據(jù)時代的數(shù)據(jù)挖掘及分析[J].電子制作,2015(3):81-81.
[4]劉江娜.大數(shù)據(jù)時代:為什么數(shù)據(jù)分析能讓你的企業(yè)脫穎而出[J].環(huán)球市場信息導報,2014(36):92-93.
[5]郭華庚,向禮花.大數(shù)據(jù)時代網絡信息歸檔的元數(shù)據(jù)分析[J].貴州師范學院學報,2015,31(3):24-28.
[6]高書國.大數(shù)據(jù)時代的數(shù)據(jù)困惑——教育研究的數(shù)據(jù)困境[J].教育科學研究,2015(1):24-30.
[7]王惠.大數(shù)據(jù)時代下數(shù)據(jù)分析理念研究[J].中國市場,2015(22):74,85.
[8]胡佳.大數(shù)據(jù)時代的數(shù)據(jù)分析與挖掘[J].中國新通信,2014(23):34-34.