◆聶 珊 肖 煬
探究大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)
◆聶 珊1肖 煬2
(1.四川省計(jì)算機(jī)研究院 四川 610041;2.成都哈佛依曼科技有限公司 四川 610041)
隨著科學(xué)技術(shù)的不斷進(jìn)步和發(fā)展,互聯(lián)網(wǎng)技術(shù)已經(jīng)逐漸的應(yīng)用到社會(huì)的發(fā)展和人們的生活之中,將人類社會(huì)帶入了一個(gè)大數(shù)據(jù)的信息時(shí)代。幾乎每一個(gè)公民的生活中,我們都可以發(fā)現(xiàn)數(shù)據(jù)的身影,同時(shí),也更加體現(xiàn)了人類的生活逐漸實(shí)現(xiàn)了信息化和網(wǎng)絡(luò)化。隨著社會(huì)整體信息量的急劇增加,導(dǎo)致了個(gè)人的和可獲取信息數(shù)量也在與日俱增,這是大數(shù)據(jù)時(shí)代最主要的兩個(gè)特點(diǎn),從科技發(fā)展的角度來分析,社會(huì)數(shù)據(jù)化已經(jīng)成為了一個(gè)社會(huì)發(fā)展的必然趨勢(shì),隨著社會(huì)數(shù)據(jù)化進(jìn)程的不斷加深,我們的社會(huì)終將會(huì)實(shí)現(xiàn)全面的信息化和數(shù)字化,導(dǎo)致我們對(duì)大數(shù)據(jù)的需求也越來越迫切。因此,本文對(duì)大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)進(jìn)行了深入的探究和分析,從國內(nèi)大數(shù)據(jù)的發(fā)展現(xiàn)狀入手,進(jìn)一步探究了大數(shù)據(jù)的主要分析模式和分析技術(shù),詳細(xì)地闡述了在數(shù)據(jù)分析過程中應(yīng)該注意到的事項(xiàng),為日后研究數(shù)據(jù)分析工作提供了一定的理論基礎(chǔ)。
大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)化
對(duì)于數(shù)據(jù)處理來說,數(shù)據(jù)的分析是一個(gè)核心的內(nèi)容,數(shù)據(jù)處理的價(jià)值體現(xiàn)也是由數(shù)據(jù)分析來完成的。而大數(shù)據(jù)的分析同以往的數(shù)據(jù)分析有著明顯的區(qū)別,數(shù)據(jù)量之間發(fā)生了顯著的差異,由于數(shù)據(jù)量的急劇增加,導(dǎo)致數(shù)據(jù)的儲(chǔ)存和查詢工作加深了一定的難度。因此,從實(shí)際的角度出發(fā),要想實(shí)現(xiàn)大數(shù)據(jù)的分析,我們就必須根據(jù)原有的數(shù)據(jù)來探究一種新型的分析模式,尋找到實(shí)際的根源,從而建立一個(gè)合理的模型來對(duì)數(shù)據(jù)進(jìn)行儲(chǔ)存和查詢,從而實(shí)現(xiàn)社會(huì)各個(gè)部門的協(xié)調(diào)與創(chuàng)新。
目前來看,雖然大數(shù)據(jù)已經(jīng)逐漸滲透到社會(huì)的各個(gè)領(lǐng)域,然而,在我國大數(shù)據(jù)分析的發(fā)展仍然處于一個(gè)起步的階段,從行業(yè)的操作方面來看,從事這一部分的企業(yè)只占據(jù)了一小部分,而且在這一些小部分企業(yè)中,只是能夠?qū)Υ髷?shù)據(jù)進(jìn)行基本的分析,然后將結(jié)果應(yīng)用到最終的決策中。這些行業(yè)主要集中體現(xiàn)在銀行業(yè)、電信業(yè)和電商業(yè)等等,以銀行為主,目前在我國的大型國有銀行中都已經(jīng)引進(jìn)了數(shù)據(jù)分析業(yè)務(wù),發(fā)展但效果也較為理想,可是卻沒有涉及到過多的領(lǐng)域,運(yùn)行管理等方面仍然處于一個(gè)數(shù)據(jù)缺失的狀態(tài),其他的中小銀行無論是在運(yùn)行管理方面,還是在主營業(yè)務(wù)方面都沒有投入數(shù)據(jù)分析,數(shù)據(jù)分析的建設(shè)也仍然處于一個(gè)起步的階段。除此之外,在我國的國民經(jīng)濟(jì)中占據(jù)主要力量的建筑業(yè)和外貿(mào)業(yè),也沒有從根本上引入數(shù)據(jù)化的發(fā)展,沒有對(duì)數(shù)據(jù)進(jìn)行一個(gè)合理的分析,從而導(dǎo)致我國整體的數(shù)據(jù)分析仍然處于一個(gè)起步的階段。
從數(shù)據(jù)來源的角度來分析,數(shù)據(jù)化能夠保障企業(yè)的穩(wěn)定運(yùn)行。目前來看,大部分的企業(yè)只是單純地依靠企業(yè)本身所具有的數(shù)據(jù),來解決已經(jīng)出現(xiàn)的問題,或者是只有當(dāng)發(fā)現(xiàn)問題的時(shí)候,才會(huì)對(duì)數(shù)據(jù)進(jìn)行收集和整理。很少有企業(yè)從根本上認(rèn)識(shí)到了數(shù)據(jù)對(duì)于企業(yè)發(fā)展和諧運(yùn)行的重要性,因此,數(shù)據(jù)化所產(chǎn)生的巨大價(jià)值幾乎很少地發(fā)揮在企業(yè)的運(yùn)行和建設(shè)過程之中。除此之外,企業(yè)的內(nèi)部和外部所產(chǎn)生的數(shù)據(jù)也沒有得到一個(gè)合理的運(yùn)用,通過企業(yè)內(nèi)部、外部的數(shù)據(jù)分析,可以對(duì)企業(yè)即將面臨的問題做出一個(gè)科學(xué)的預(yù)測(cè),從而幫助企業(yè)針對(duì)企業(yè)自身的情況作出一個(gè)合理的決策。目前來看,以上提到的這些內(nèi)容,我國在企業(yè)仍然存在著較大的進(jìn)步空間,大數(shù)據(jù)化下的智能數(shù)據(jù)分析帶動(dòng)企業(yè)的運(yùn)營發(fā)展也有待進(jìn)一步的發(fā)展。
在大數(shù)據(jù)的時(shí)代,對(duì)數(shù)據(jù)進(jìn)行分析的最顯著的一個(gè)特征就是多源頭、異結(jié)構(gòu)。數(shù)據(jù)化的分析過程并不是一個(gè)具體而形象的概念,它具有一定的抽象性和降維性,同時(shí)也包含了較強(qiáng)的概括性。從數(shù)據(jù)收集的源頭出發(fā),可以將大數(shù)據(jù)分析的數(shù)據(jù)對(duì)象,分為以下幾類。第一類,是根據(jù)網(wǎng)頁中網(wǎng)民的瀏覽次數(shù)、點(diǎn)擊率等內(nèi)容實(shí)施數(shù)據(jù)的監(jiān)控,所產(chǎn)生的互聯(lián)網(wǎng)數(shù)據(jù),或是對(duì)某一網(wǎng)站的變化和所搜索的關(guān)鍵詞的數(shù)量,來實(shí)施數(shù)據(jù)監(jiān)控。第二類,是根據(jù)用戶的行為以及操作系統(tǒng)和系統(tǒng)運(yùn)行的狀態(tài)等日志數(shù)據(jù)的數(shù)據(jù)監(jiān)控。第三類,是通過在通信領(lǐng)域中所產(chǎn)生的信號(hào)、信令數(shù)據(jù),用戶的個(gè)人信息以及通話的位置時(shí)長(zhǎng)等數(shù)據(jù)的情況。第四類,是在國民經(jīng)濟(jì)的各個(gè)領(lǐng)域中,不同的行業(yè)之間所進(jìn)行的數(shù)據(jù)統(tǒng)計(jì)。
對(duì)于以上這些大數(shù)量、多源頭的數(shù)據(jù),他們沒有一個(gè)完整而統(tǒng)一的結(jié)構(gòu)。因此,對(duì)于這些數(shù)據(jù)的分析應(yīng)該采取以下幾種模式。首先,對(duì)于互聯(lián)網(wǎng)所產(chǎn)生的數(shù)據(jù),我們采取的主要分析模式是建立搜索引擎,通過搜索引擎來對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的搜索和處理。隨著互聯(lián)網(wǎng)技術(shù)的不斷進(jìn)步和發(fā)展,搜索引擎也得到了更好的提升,它的效能和工作效率都上升到了一定的高度,能夠在海量的數(shù)據(jù)中對(duì)數(shù)據(jù)進(jìn)行刪選,從而獲得更有價(jià)值的信息內(nèi)容。其次,是對(duì)日志數(shù)據(jù)進(jìn)行收集,可以通過用戶的行為日志和系統(tǒng)運(yùn)行的情況,對(duì)用戶所產(chǎn)生的數(shù)據(jù)日志進(jìn)行分析,從而導(dǎo)致系統(tǒng)能夠根據(jù)日志的情況作出更加準(zhǔn)確的判斷。處理日志數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)的方法極為相似,都是通過引擎的方式對(duì)數(shù)據(jù)進(jìn)行刪選,篩選出有價(jià)值的數(shù)據(jù),這種處理數(shù)據(jù)的模式,我們可以稱之為離線批量處理。它不僅可以對(duì)網(wǎng)頁中的數(shù)據(jù)進(jìn)行刪選和查詢,同時(shí)也可以為決策人員提供有價(jià)值的數(shù)據(jù)信息,確保決策人員在最短的時(shí)間內(nèi)獲得價(jià)值量最高的信息,以此來保障用戶獲得一個(gè)最理想的體驗(yàn)感覺。除此之外,常用的數(shù)據(jù)分析模式還有查詢式分析以及實(shí)時(shí)數(shù)據(jù)分析,實(shí)時(shí)數(shù)據(jù)分析可以被廣泛地應(yīng)用到國民經(jīng)濟(jì)中占據(jù)主導(dǎo)力量的行業(yè)之間的數(shù)據(jù)監(jiān)控之中。
要想從數(shù)量如此龐大的信息中,篩選出最有價(jià)值的信息,就必須要具有先進(jìn)的分析技術(shù),在大數(shù)據(jù)分析的過程中,所使用的分析技術(shù)主要有以下幾個(gè)特點(diǎn):首先,大數(shù)據(jù)的分析技術(shù)必須要適應(yīng)大數(shù)據(jù)的增長(zhǎng)速度。其次,大數(shù)據(jù)的分析技術(shù)必須要可以面對(duì)數(shù)據(jù)的多變性和多樣化,同時(shí)分析的技術(shù)應(yīng)該以非結(jié)構(gòu)化為主。第三是分析的技術(shù),具有一定的快速性,也就是實(shí)時(shí)分析的過程。只有滿足了這些技術(shù)特點(diǎn),才可以適應(yīng)大數(shù)據(jù)的發(fā)展和變化。為了滿足,大數(shù)據(jù)進(jìn)步所提出的要求和標(biāo)準(zhǔn),目前所采取的主要數(shù)據(jù)分析技術(shù)有Qracle的Exadata 和EMC的GreenPlum。而目前分析處理大數(shù)據(jù)應(yīng)用最廣泛的核心技術(shù)為Hadoop。
在大數(shù)據(jù)的時(shí)代下,對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的收集和處理,是為了要明確市場(chǎng)變化中的所有變量,這也就意味著在數(shù)據(jù)分析的過程中,應(yīng)該要努力去尋找數(shù)據(jù)前后所產(chǎn)生的變量,也就是數(shù)據(jù)的變化,通過對(duì)數(shù)據(jù)變化的對(duì)比,我們可以分析出對(duì)于大數(shù)據(jù)變化所產(chǎn)生的影響因素,來判斷數(shù)據(jù)的價(jià)值,從而來決定市場(chǎng)的走向,這樣不僅可以對(duì)市場(chǎng)的發(fā)展提供有利的條件,還可以幫助決策者對(duì)市場(chǎng)的走向做出一個(gè)合理的判斷。
在大數(shù)據(jù)全面來臨的情況之下,數(shù)據(jù)的不精確性不僅不會(huì)影響到數(shù)據(jù)整體信息的真實(shí)性和可靠性,同時(shí),還會(huì)促進(jìn)對(duì)整體信息、情況的了解和掌握。大數(shù)據(jù)時(shí)代之下,人們所掌握的信息也越來越復(fù)雜,在如此錯(cuò)綜復(fù)雜的數(shù)據(jù)信息之下,數(shù)據(jù)之間的傳遞就會(huì)發(fā)生參次不齊的情況,如果對(duì)于每一個(gè)數(shù)據(jù)都要要求它的精準(zhǔn)性,那么就會(huì)給整個(gè)統(tǒng)計(jì)工作增加不必要的難度。因此,在對(duì)大數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析的過程中,我們不需要再去追求數(shù)據(jù)的具體精準(zhǔn)性,吹毛求疵,應(yīng)該用樣本的數(shù)量來反映總體的情況,樣本的數(shù)量越多,樣本的平均水平就會(huì)和總體的實(shí)際情況越接近,如此,就會(huì)大幅度的縮短總體和樣本之間的差異,從而使樣本所表示出來的數(shù)據(jù)能夠更加真實(shí)地反映總體的實(shí)際情況。
[1]王惠.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念研究[J].中國市場(chǎng),2015.
[2]朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計(jì)研究,2014.
[3]鄔賀銓.大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)[J].求是,2013.
[4]朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計(jì)研究,2014.
[5]李金昌.大數(shù)據(jù)與統(tǒng)計(jì)新思維[J].統(tǒng)計(jì)研究,2014.
[6]俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟(jì)學(xué)[J].中國軟科學(xué),2013.