金宗澤 馮亞麗 文必龍 楊正男 張希東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院
大數(shù)據(jù)分析流程框架的研究
金宗澤 馮亞麗 文必龍 楊正男 張希
東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院
隨著信息技術(shù)的不斷創(chuàng)新,信息量的不斷擴(kuò)大,大數(shù)據(jù)已經(jīng)成為了與日常生活息息相關(guān)的話題。挖掘大數(shù)據(jù)的價(jià)值已經(jīng)炙手可熱,如何能夠更高效、更快速地分析大數(shù)據(jù)已經(jīng)成為大數(shù)據(jù)發(fā)展的重要挑戰(zhàn)之一。近年來(lái),學(xué)術(shù)界與工業(yè)界就大數(shù)據(jù)的分析進(jìn)行了研究,取得了一些研究成果,但針對(duì)大數(shù)據(jù)分析的研究還是非常有限。文中首先從傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)時(shí)代數(shù)據(jù)倉(cāng)庫(kù)作了對(duì)比,引入了大數(shù)據(jù)的分析流程框架,對(duì)分析流程框架的各個(gè)部分做了一一闡述,并通過(guò)實(shí)驗(yàn)驗(yàn)證分析了流程框架的可行性。
大數(shù)據(jù) 分析 數(shù)據(jù)倉(cāng)庫(kù)
當(dāng)今時(shí)代不僅是一個(gè)數(shù)據(jù)爆炸的時(shí)代,更是一個(gè)大數(shù)據(jù)爆發(fā)的時(shí)代。面對(duì)大數(shù)據(jù)的激流,多元化數(shù)據(jù)的大量涌現(xiàn),大數(shù)據(jù)已經(jīng)影響了社會(huì)生活的各個(gè)角落。大數(shù)據(jù)的“大”并不僅僅指容量,同傳統(tǒng)數(shù)據(jù)源比較,大數(shù)據(jù)的速度(數(shù)據(jù)傳輸和接收的速度)、復(fù)雜度以及多樣性都有明顯的增加。文獻(xiàn)提出了大數(shù)據(jù)的主要4V 特性:數(shù)據(jù)量( Volume) 、多樣性( Variety) 、處理速度( Velocity)及數(shù)據(jù)價(jià)值(Value)。由于數(shù)據(jù)量從TB級(jí)向PB級(jí)躍遷,對(duì)于數(shù)據(jù)的分析要從常規(guī)的分析轉(zhuǎn)入深入的分析,同時(shí)要實(shí)現(xiàn)對(duì)于從高成本的硬件平臺(tái)向低成本的硬件平臺(tái)進(jìn)行過(guò)渡,這一系列變化都為大數(shù)據(jù)的分析帶來(lái)了挑戰(zhàn)。
傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)將整個(gè)數(shù)據(jù)分析的層次劃分為4層。傳統(tǒng)的數(shù)據(jù)源中的數(shù)據(jù),經(jīng)過(guò)ETL工具對(duì)其進(jìn)行相應(yīng)的抽取,并將其在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行集中存儲(chǔ)和管理。再通過(guò)經(jīng)典模型(如星型模型)組織數(shù)據(jù),之后使用OLAP工具從數(shù)據(jù)倉(cāng)庫(kù)中對(duì)其進(jìn)行讀取,生成數(shù)據(jù)立方體(MOLAP)或者是直接訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行數(shù)據(jù)分析(R OLAP)。
相較于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù),為大數(shù)據(jù)的變化帶來(lái)了諸多問(wèn)題:
3.1 數(shù)據(jù)的成本問(wèn)題
數(shù)據(jù)在通過(guò)復(fù)雜的ETL過(guò)程后,存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中,在OLAP服務(wù)器中轉(zhuǎn)換為經(jīng)典模型。并且在執(zhí)行分析時(shí),在連接數(shù)據(jù)庫(kù)將其數(shù)據(jù)取出,這些代價(jià)在TB級(jí)時(shí)尚可接受,當(dāng)面對(duì)呈指數(shù)級(jí)別增長(zhǎng)的大數(shù)據(jù)時(shí),會(huì)帶來(lái)很高的移動(dòng)數(shù)據(jù)的成本。因此傳統(tǒng)的方式不可取。
3.2 數(shù)據(jù)的變化性
傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)主題是變化較少,在傳統(tǒng)數(shù)據(jù)庫(kù)中解決變化的方式對(duì)數(shù)據(jù)源到前端展現(xiàn)的整個(gè)流程中的每個(gè)部分進(jìn)行更改,然后再重新加載數(shù)據(jù)。甚至有可能重新計(jì)算數(shù)據(jù),導(dǎo)致其適應(yīng)變化的周期較長(zhǎng)。此模式適應(yīng)的場(chǎng)合,是數(shù)據(jù)質(zhì)量較高、查詢性能高及不是十分計(jì)較預(yù)處理代價(jià)。而在大數(shù)據(jù)的時(shí)代,數(shù)據(jù)富于變化和多樣,因此這種模式不適應(yīng)新的需求。
3.3 數(shù)據(jù)集的處理
傳統(tǒng)的數(shù)據(jù)集都是在數(shù)據(jù)庫(kù)外進(jìn)行創(chuàng)建,每個(gè)分析專家都會(huì)獨(dú)立創(chuàng)建自己的分析數(shù)據(jù)集,并且,每個(gè)分析工作都是由這些專家獨(dú)立完成的,這表明了可能會(huì)有更多的人同時(shí)在創(chuàng)建不同的企業(yè)數(shù)據(jù)視圖。一個(gè)ADS(Analytic Data Sets)通常只會(huì)服務(wù)一個(gè)項(xiàng)目,每個(gè)專家都會(huì)擁有自己的生產(chǎn)數(shù)據(jù)樣本。這些獨(dú)立的數(shù)據(jù)集都會(huì)導(dǎo)致每個(gè)項(xiàng)目最終產(chǎn)生大量的數(shù)據(jù),而在大數(shù)據(jù)的環(huán)境下,首先數(shù)據(jù)量就很大,數(shù)據(jù)本身占用空間。其次是對(duì)于數(shù)據(jù)的價(jià)值的重復(fù)利用,微小差別而不同的結(jié)果集的取舍。再次是對(duì)資源和精力的節(jié)約,以降低成本。
在文獻(xiàn)中提到了采用Map R educe及并行式數(shù)據(jù)庫(kù)的混合架構(gòu)型的解決方案同時(shí)與Map R educe主導(dǎo)型和并行式數(shù)據(jù)庫(kù)主導(dǎo)型作了對(duì)比分析,文中在采用Map R educe及并行式數(shù)據(jù)庫(kù)集成型的數(shù)據(jù)庫(kù)的基礎(chǔ)上提出一個(gè)大數(shù)據(jù)分析的流程框架。系統(tǒng)地闡述了大數(shù)據(jù)分析的整個(gè)過(guò)程。其流程分為6個(gè)重要的階段。在現(xiàn)代的庫(kù)內(nèi)分析框架下,通過(guò)對(duì)于大數(shù)據(jù)的使用和研究,做出了一個(gè)大數(shù)據(jù)分析的初步流程:大數(shù)據(jù)的預(yù)處理階段、大數(shù)據(jù)的輸入接口、分析沙箱、大數(shù)據(jù)的輸出接口、大數(shù)據(jù)的展示以及大數(shù)據(jù)的價(jià)值評(píng)價(jià)。
3.3.1 大數(shù)據(jù)的預(yù)處理階段
大數(shù)據(jù)的預(yù)處理過(guò)程即一個(gè)數(shù)據(jù)的清洗過(guò)程,從字面上理解是將以存儲(chǔ)好的數(shù)據(jù)進(jìn)行一個(gè)去“臟”的過(guò)程。更確切的說(shuō)法是將存儲(chǔ)數(shù)據(jù)中可識(shí)別的錯(cuò)誤去除。在數(shù)據(jù)倉(cāng)庫(kù)中和數(shù)據(jù)挖掘過(guò)程中,數(shù)據(jù)清洗是使得數(shù)據(jù)在一致性(Consistency)、正確性(Correctness)、完整性(Completeness)和最小性(Minimality)四個(gè)指標(biāo)滿足上達(dá)到最優(yōu)。
數(shù)據(jù)的預(yù)處理過(guò)程是對(duì)大數(shù)據(jù)進(jìn)行正式使用和分析的最后一道門檻,在大數(shù)據(jù)的背景之下,在來(lái)源不一的海量數(shù)據(jù)中,存儲(chǔ)了冗余、復(fù)雜及錯(cuò)誤的數(shù)據(jù),之后的“去粗存精”、“去偽存真”的過(guò)程交給了數(shù)據(jù)的預(yù)處理階段,能夠在極短的時(shí)間內(nèi),抽取出高質(zhì)量的數(shù)據(jù),形成統(tǒng)一的規(guī)范,滿足接下來(lái)的數(shù)據(jù)的接口,將是大數(shù)據(jù)研究的熱點(diǎn)。
在Map R educe中,一次性的分析操作居多。對(duì)于多維數(shù)據(jù)的預(yù)計(jì)算,大數(shù)據(jù)上的分析操作雖然難以預(yù)測(cè),但傳統(tǒng)的分析,如基于報(bào)表和多維數(shù)據(jù)的分析仍占多數(shù)。因此,在Map R educe與并行數(shù)據(jù)庫(kù)框架下的大數(shù)據(jù)分析平臺(tái)應(yīng)該利用預(yù)計(jì)算等手段加快數(shù)據(jù)分析的速度。出于對(duì)運(yùn)算的存儲(chǔ)空間的考慮,MOLAP顯然不可取,試想在數(shù)據(jù)量爆棚的時(shí)候計(jì)算數(shù)據(jù)立方體是多么可怕的事情,因此優(yōu)先考慮HOLAP的實(shí)現(xiàn)方案。在此階段,采用Map R educe的分布式預(yù)處理的策略,能一定程度上減少大數(shù)據(jù)移動(dòng)所帶來(lái)的成本消耗。
3.3.2 大數(shù)據(jù)的輸入接口
在大數(shù)據(jù)的預(yù)處理階段完成后,對(duì)其滿足輸入規(guī)范的數(shù)據(jù)進(jìn)行統(tǒng)一管理,并將輸入數(shù)據(jù)進(jìn)行一定的特征提取和數(shù)據(jù)的關(guān)聯(lián)分析。在通過(guò)使用輸入接口的同時(shí),開(kāi)放算法接口模塊卡,接收來(lái)自不同的算法,而對(duì)數(shù)據(jù)集進(jìn)行分析和整理。
在整個(gè)大數(shù)據(jù)的輸入接口部分應(yīng)該要實(shí)現(xiàn)對(duì)數(shù)據(jù)分析的展示,特別是對(duì)復(fù)雜分析的解釋關(guān)聯(lián)展示,努力做到模塊接口的可視化。在形成可分析的數(shù)據(jù)集后,輸入接口與輸出接口應(yīng)同時(shí)具有按照主題或語(yǔ)義分類的存儲(chǔ),這樣能夠解決主題變化,做到當(dāng)數(shù)據(jù)在輸入時(shí)就可以隨主題變化而改變。
3.3.3 分析沙箱
顧名思義,“沙箱”,一種孩子們常見(jiàn)的玩具,孩子們可以根據(jù)個(gè)人意愿在沙箱里把沙子堆砌成各種形狀。同樣,分析沙箱就研究而言,相當(dāng)于一個(gè)資源組,在這個(gè)資源組里,分析專家們能夠根據(jù)個(gè)人的意愿對(duì)數(shù)據(jù)進(jìn)行各種探索。在分析的整個(gè)流程中,沙箱為使用分析平臺(tái)的專家們提供更為專業(yè)的模塊接口和參數(shù)選擇,方便分析人員提取更為有效的數(shù)據(jù)參數(shù),來(lái)更加精確地展示分析結(jié)果。
3.3.4 大數(shù)據(jù)的輸出接口
作為大數(shù)據(jù)分析的出口,為大數(shù)據(jù)的輸出提供了統(tǒng)一的規(guī)范和標(biāo)準(zhǔn)。作為大數(shù)據(jù)展示的最后一道工序,大數(shù)據(jù)的輸出接口應(yīng)具備如下特點(diǎn):
①規(guī)范性:通過(guò)大數(shù)據(jù)輸出接口的數(shù)據(jù)應(yīng)具有一定的規(guī)范性,規(guī)范性為大數(shù)據(jù)的結(jié)果展示做了良好的保證。
②可復(fù)用性及剩余資料保存性:作為輸出結(jié)果集,大數(shù)據(jù)的所有參數(shù)或者是專家選擇參數(shù),在一次的分析過(guò)程中,其潛在的價(jià)值有可能被隱藏,需要有特定的、專門的數(shù)據(jù)倉(cāng)庫(kù)來(lái)暫時(shí)保存這些具有潛在價(jià)值的結(jié)果集,對(duì)于使用專用算法的,其輸出結(jié)果集必然是其專用的數(shù)據(jù)參數(shù)集,而對(duì)于其未被專家選擇的參數(shù),輸出結(jié)果集應(yīng)對(duì)剩余參數(shù)進(jìn)行適當(dāng)保留,直到不再挖掘其價(jià)值為止。
③模型化:在大數(shù)據(jù)的輸出階段,應(yīng)盡可能將其模型化,以便在價(jià)值評(píng)估階段有利于數(shù)據(jù)的利用和評(píng)分,更有利于將其應(yīng)用在新的數(shù)據(jù)中,實(shí)現(xiàn)模型的復(fù)用。
④查詢共享性:Map R educe采用步步物化的處理方式,導(dǎo)致其I/O代價(jià)及網(wǎng)絡(luò)傳輸代價(jià)較高。在多個(gè)查詢間共享物化的中間結(jié)果(甚至原始數(shù)據(jù)),用以分?jǐn)偞鷥r(jià)并避免重復(fù)計(jì)算,這樣可以有效地降低Map R educe在物化過(guò)程中產(chǎn)生的代價(jià)。由此可見(jiàn),如何在數(shù)據(jù)結(jié)果集之間建立多查詢的共享中間結(jié)果將是一項(xiàng)非常有實(shí)際應(yīng)用價(jià)值的研究。
⑤索引性:輸出結(jié)果集應(yīng)該具有一定的索引性,其輸入數(shù)據(jù)是多維度的,其結(jié)果也是多維度的,在其具有一定的規(guī)范性,應(yīng)該在Map R educe的背景框架下能夠完成多維索引,并且實(shí)現(xiàn)對(duì)于多維索引的查詢速度的提高。
3.3.5 大數(shù)據(jù)的展示
可視化工具發(fā)展得如此迅速,同時(shí)也被越來(lái)越多地應(yīng)用在各個(gè)領(lǐng)域,在大數(shù)據(jù)的結(jié)果展示中,采用數(shù)據(jù)可視化技術(shù)將更加高效形象地展示大數(shù)據(jù)的價(jià)值和鮮明的對(duì)比性。
應(yīng)用可視化技術(shù)具有以下特點(diǎn):
①關(guān)聯(lián)性??梢詫⒈硎緦?duì)象或事件的數(shù)據(jù)的單個(gè)或者多個(gè)屬性和變量進(jìn)行關(guān)聯(lián),而數(shù)據(jù)可以按其所在的不同維度,將其分類、排序、組合、關(guān)聯(lián)和顯示。在一定程度上體現(xiàn)出了數(shù)據(jù)之間的關(guān)聯(lián)性,簡(jiǎn)單說(shuō)可以將財(cái)務(wù)報(bào)表與銷售報(bào)表進(jìn)行關(guān)聯(lián),就復(fù)雜關(guān)聯(lián)來(lái)講,讓尿布與啤酒的銷售量關(guān)聯(lián)也成為了可能。
②互動(dòng)性。使用者可以方便地使用交互的方式管理和開(kāi)發(fā)數(shù)據(jù)。
③可視性。通過(guò)數(shù)據(jù)接口的數(shù)據(jù)可以用圖像、曲線、三維立體及動(dòng)畫(huà)等多種方式來(lái)展示,通過(guò)展示后,專家可以對(duì)其模式、關(guān)系和趨勢(shì)進(jìn)行進(jìn)一步明了的分析。
3.3.6 大數(shù)據(jù)的價(jià)值評(píng)估
隨著分析流程的擴(kuò)展性不斷提高,新的分析流程如何利用分析后的價(jià)值把企業(yè)帶到一個(gè)更高的層次,文中引入對(duì)于大數(shù)據(jù)的價(jià)值評(píng)估方案。分析流程最終會(huì)產(chǎn)生新的信息,比如,在市場(chǎng)營(yíng)銷方面,客戶購(gòu)買某一種產(chǎn)品的概率,某個(gè)產(chǎn)品的最優(yōu)價(jià)格或者是在促銷活動(dòng)中能帶來(lái)銷量提升的區(qū)域。將大數(shù)據(jù)輸出接口中的分析模型應(yīng)用于最新數(shù)據(jù),就是評(píng)分。在大數(shù)據(jù)的價(jià)值評(píng)估階段,應(yīng)具備兩種要素:
①嵌入式評(píng)分。嵌入式評(píng)分能在數(shù)據(jù)庫(kù)內(nèi)定期地執(zhí)行評(píng)分過(guò)程,令使用者可以更加高效地、更加方便地使用結(jié)果集所輸出的模型。應(yīng)該盡可能包含部署每一個(gè)獨(dú)立的評(píng)分過(guò)程和建立一個(gè)健全的機(jī)制來(lái)管理和監(jiān)控這個(gè)評(píng)分過(guò)程。
②校驗(yàn)評(píng)估。校驗(yàn)評(píng)估是在檢驗(yàn)對(duì)于專業(yè)數(shù)據(jù)處理分析的準(zhǔn)確性,同人工神經(jīng)網(wǎng)絡(luò)和決策樹(shù)判定一樣,大數(shù)據(jù)的應(yīng)用管理同時(shí)需要檢驗(yàn),檢驗(yàn)它在某一個(gè)專業(yè)領(lǐng)域的可行性,是否可以根據(jù)該分析方法和分析模型來(lái)判定這種方式的可行性,其準(zhǔn)確的校驗(yàn)識(shí)別率決定這種分析模型的可行性。例如,就石油勘探開(kāi)發(fā)領(lǐng)域應(yīng)用,在使用大數(shù)據(jù)進(jìn)行儲(chǔ)層參數(shù)預(yù)測(cè)時(shí),可以根據(jù)大數(shù)據(jù)對(duì)儲(chǔ)層參數(shù)進(jìn)行識(shí)別和匹配,尋找相似的儲(chǔ)層參數(shù),從而進(jìn)行評(píng)估。而在最初投放生產(chǎn)中,需要對(duì)其使用進(jìn)行有效地評(píng)估,確定這個(gè)模型的建立與使用是否有效和可行,可以同經(jīng)典的算法準(zhǔn)確率作對(duì)比,計(jì)算校驗(yàn)誤差值,來(lái)判定模型是否可行。
通過(guò)對(duì)大數(shù)據(jù)分析流程框架的制定,通過(guò)實(shí)驗(yàn)對(duì)其進(jìn)行驗(yàn)證。大數(shù)據(jù)分析流程框架在油氣勘探開(kāi)發(fā)中的應(yīng)用,通過(guò)對(duì)修井記錄和以往的分析數(shù)據(jù)的抽取和對(duì)樣本數(shù)據(jù)的預(yù)處理,通過(guò)對(duì)分析方法目錄的算法調(diào)用,通過(guò)樣本數(shù)據(jù)對(duì)整個(gè)大數(shù)據(jù)分析系統(tǒng)進(jìn)行訓(xùn)練,使用輸入接口輸入帶診斷數(shù)據(jù)實(shí)現(xiàn)對(duì)分析數(shù)據(jù)的參數(shù)識(shí)別,最終生成診斷結(jié)果,并由大數(shù)據(jù)分析平臺(tái)系統(tǒng)對(duì)其識(shí)別進(jìn)行相應(yīng)的評(píng)估,生成評(píng)估結(jié)果。通過(guò)該應(yīng)用實(shí)現(xiàn)對(duì)大數(shù)據(jù)分析流程框架驗(yàn)證。
文中通過(guò)對(duì)傳統(tǒng)的數(shù)據(jù)分析流程的闡述,并對(duì)大數(shù)據(jù)形勢(shì)下的數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行了對(duì)比。在此基礎(chǔ)上,提出了新形勢(shì)下的大數(shù)據(jù)分析流程框架,并詳細(xì)地闡述了大數(shù)據(jù)分析流程每一部分所要完成的工作。將其理論模型應(yīng)用到油氣勘探開(kāi)發(fā)的抽油機(jī)故障診斷中,能夠?qū)⒋髷?shù)據(jù)的分析投入使用并推廣,將具有更廣闊的發(fā)展空間與前景。