莫祖英
〔摘要〕大數(shù)據(jù)的規(guī)模性、高速性和數(shù)據(jù)來(lái)源的多樣性,使數(shù)據(jù)更可能產(chǎn)生不一致和沖突,這會(huì)導(dǎo)致大數(shù)據(jù)質(zhì)量問(wèn)題。本文在界定大數(shù)據(jù)質(zhì)量?jī)?nèi)涵及其維度的基礎(chǔ)上,分析大數(shù)據(jù)處理流程中數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理與分析、數(shù)據(jù)可視化及應(yīng)用等環(huán)節(jié)對(duì)大數(shù)據(jù)質(zhì)量的影響及關(guān)鍵因素,構(gòu)建大數(shù)據(jù)流程的質(zhì)量影響模型,并提出大數(shù)據(jù)質(zhì)量保障的建議與措施。
〔關(guān)鍵詞〕數(shù)據(jù)質(zhì)量;大數(shù)據(jù)流程;質(zhì)量影響模型;影響因素
DOI:10.3969/j.issn.1008-0821.2017.03.013
〔中圖分類(lèi)號(hào)〕G203〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2017)03-0069-04
〔Abstract〕The large scale,high-speed and diversity of data sources in big data,make it more likely to have inconsistency and conflict,which lead to quality issues of big data.In this article,the paper defined connotation of big data quality and its dimensions,and then analyzed the influence that data collection,data preprocessing,data storage,data processing and analysis,data visualization and its application in the procedure of big data processing exerted on big data quality and key factors;finally,the paper constructed a quality influencing model in big data process,and put forwards suggestions on quality assurance of big data.
〔Key words〕data quality;big data process;quality influencing model;influence factors
大數(shù)據(jù)時(shí)代,強(qiáng)調(diào)對(duì)總體數(shù)據(jù)的處理與分析,關(guān)注事物之間的相關(guān)關(guān)系,以及對(duì)發(fā)展趨勢(shì)的分析預(yù)測(cè)。大數(shù)據(jù)的規(guī)模性、高速性和數(shù)據(jù)來(lái)源及形式上的多樣性,使數(shù)據(jù)更可能產(chǎn)生不一致和沖突,這些都會(huì)導(dǎo)致大數(shù)據(jù)質(zhì)量問(wèn)題,因此需要對(duì)大數(shù)據(jù)進(jìn)行質(zhì)量管理。大數(shù)據(jù)主要由社交網(wǎng)絡(luò)、移動(dòng)計(jì)算、監(jiān)控設(shè)備和傳感器等信息源產(chǎn)生,包括用戶(hù)多媒體服務(wù)數(shù)據(jù)、服務(wù)系統(tǒng)監(jiān)控與管理數(shù)據(jù)、用戶(hù)行為數(shù)據(jù)、服務(wù)市場(chǎng)環(huán)境和客戶(hù)關(guān)系數(shù)據(jù)等。大數(shù)據(jù)的來(lái)源復(fù)雜性和類(lèi)型多樣性造成價(jià)值密度低、提取難度大等特點(diǎn),同時(shí)也給大數(shù)據(jù)質(zhì)量管理帶來(lái)了困擾。
在大數(shù)據(jù)質(zhì)量的相關(guān)研究中,宗威等[1]在分析大數(shù)據(jù)特點(diǎn)的基礎(chǔ)上,提出了大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量的重要性及其挑戰(zhàn),并分別從大數(shù)據(jù)流程、大數(shù)據(jù)技術(shù)和大數(shù)據(jù)管理3個(gè)視角提出如何保證大數(shù)據(jù)質(zhì)量,尤其在大數(shù)據(jù)流程方面,主要從數(shù)據(jù)收集、存儲(chǔ)和使用3個(gè)階段提出了質(zhì)量保證的建議。胡雄偉等[2]提出大數(shù)據(jù)中的數(shù)據(jù)質(zhì)量問(wèn)題涉及數(shù)據(jù)收集、使用、發(fā)布的整個(gè)過(guò)程,貫穿數(shù)據(jù)管理工作的始終,并分析了美國(guó)頒布的《數(shù)據(jù)質(zhì)量法》中的3個(gè)數(shù)據(jù)質(zhì)量原則——數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)、質(zhì)量管理流程和數(shù)據(jù)質(zhì)量救助機(jī)制。Vijay Khatri等[3]設(shè)計(jì)了大數(shù)據(jù)治理的5個(gè)決策領(lǐng)域,包括數(shù)據(jù)準(zhǔn)則、數(shù)據(jù)質(zhì)量、元數(shù)據(jù)、數(shù)據(jù)訪問(wèn)和數(shù)據(jù)生命周期。Sharma等[4]提出有效的數(shù)據(jù)資產(chǎn)管理,必須涉及元數(shù)據(jù)管理(Meta Data)、數(shù)據(jù)質(zhì)量(Data Quality)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)架構(gòu)、數(shù)據(jù)權(quán)限(Right)、數(shù)據(jù)安全性(Safety)、數(shù)據(jù)生命周期(Data Lifecycle)、主數(shù)據(jù)管理(Master Data Management)等各個(gè)方面。王宇德[5]提出利用信息架構(gòu)原則和實(shí)踐,實(shí)現(xiàn)大數(shù)據(jù)與企業(yè)數(shù)據(jù)的靈活集成,達(dá)到大數(shù)據(jù)治理的目標(biāo)。其中大數(shù)據(jù)信息架構(gòu)的主要原則是通過(guò)價(jià)值、成本和風(fēng)險(xiǎn)透鏡將數(shù)據(jù)視為資產(chǎn),并確保數(shù)據(jù)的時(shí)效性、質(zhì)量和準(zhǔn)確性;由于大數(shù)據(jù)的質(zhì)量和準(zhǔn)確性要求存在巨大差異,需要對(duì)其進(jìn)行合適的取舍以滿(mǎn)足實(shí)際需求。馬曉亭[6]以圖書(shū)館大數(shù)據(jù)為研究對(duì)象,提出為保證圖書(shū)館大數(shù)據(jù)的價(jià)值分析與服務(wù)質(zhì)量,需進(jìn)行大數(shù)據(jù)質(zhì)量管理,如管理員從全局層面挖掘數(shù)據(jù)間的相關(guān)關(guān)系,加強(qiáng)對(duì)讀者閱讀行為、閱讀關(guān)系和閱讀社交輿情等大數(shù)據(jù)資源的質(zhì)量管理,注重大數(shù)據(jù)質(zhì)量管理中的用戶(hù)隱私保護(hù)等,實(shí)現(xiàn)以讀者個(gè)性化需求為中心的圖書(shū)館大數(shù)據(jù)價(jià)值發(fā)現(xiàn)。本文將在界定大數(shù)據(jù)質(zhì)量?jī)?nèi)涵及其維度的基礎(chǔ)上,分析大數(shù)據(jù)處理流程中數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理與分析、數(shù)據(jù)可視化及應(yīng)用等環(huán)節(jié)對(duì)大數(shù)據(jù)質(zhì)量的影響及其因素,構(gòu)建大數(shù)據(jù)流程的質(zhì)量影響模型,并提出大數(shù)據(jù)質(zhì)量保障的建議與措施。
1大數(shù)據(jù)質(zhì)量的界定
11大數(shù)據(jù)質(zhì)量
美國(guó)著名咨詢(xún)公司麥肯錫給出的大數(shù)據(jù)定義(2011)是“數(shù)據(jù)規(guī)模超出典型數(shù)據(jù)庫(kù)軟件工具收集、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集”,維基百科給出的定義是“大數(shù)據(jù)指所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工在合理的時(shí)間內(nèi)達(dá)到截取、管理、處理并整理成為人類(lèi)所能解讀的信息”。由此可見(jiàn),大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的本質(zhì)特征在于大數(shù)據(jù)已超出了傳統(tǒng)常規(guī)軟件的數(shù)據(jù)處理能力,只有采用新平臺(tái)、新技術(shù)才能有效處理的數(shù)據(jù)集,因而催生了大數(shù)據(jù)技術(shù)、大數(shù)據(jù)平臺(tái)和大數(shù)據(jù)應(yīng)用等的發(fā)展。
業(yè)界普遍認(rèn)可的國(guó)際數(shù)據(jù)公司IDC定義的大數(shù)據(jù)具有4V特征,即數(shù)據(jù)量大、數(shù)據(jù)類(lèi)型繁多、處理速度快和價(jià)值密度低。其中數(shù)據(jù)量大和數(shù)據(jù)類(lèi)型繁多是大數(shù)據(jù)的表現(xiàn)形式,而處理速度快和價(jià)值密度低是大數(shù)據(jù)處理過(guò)程和結(jié)果的體現(xiàn)。大數(shù)據(jù)通常是由網(wǎng)站、傳感器、系統(tǒng)等設(shè)備自動(dòng)生成,故具有真實(shí)性特征。大數(shù)據(jù)類(lèi)型多樣,既包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),又包括系統(tǒng)生成的數(shù)據(jù)、傳感器產(chǎn)生的數(shù)據(jù)和社交媒體數(shù)據(jù)等;從數(shù)據(jù)格式上看,包括文本數(shù)據(jù)、圖片數(shù)據(jù)、數(shù)值數(shù)據(jù)、音頻視頻數(shù)據(jù)等類(lèi)型。
基于以上大數(shù)據(jù)的定義和特征,對(duì)大數(shù)據(jù)質(zhì)量進(jìn)行分析。借鑒Juran提出的質(zhì)量就是“適合于使用”這一定義,那么大數(shù)據(jù)質(zhì)量即是大數(shù)據(jù)中適合于進(jìn)行數(shù)據(jù)分析、處理、預(yù)測(cè)等使用過(guò)程并滿(mǎn)足用戶(hù)需求的特征。大數(shù)據(jù)處理流程主要包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析與挖掘、數(shù)據(jù)展示(可視化過(guò)程)、大數(shù)據(jù)應(yīng)用等環(huán)節(jié),數(shù)據(jù)質(zhì)量貫穿于整個(gè)大數(shù)據(jù)流程,故可將大數(shù)據(jù)質(zhì)量分為原始質(zhì)量、過(guò)程質(zhì)量和結(jié)果質(zhì)量。大數(shù)據(jù)原始質(zhì)量是指數(shù)據(jù)采集過(guò)程中采集到的原始大數(shù)據(jù)的質(zhì)量,包括數(shù)據(jù)完整性、一致性、準(zhǔn)確性、時(shí)效性等方面;大數(shù)據(jù)過(guò)程質(zhì)量指經(jīng)過(guò)數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)等環(huán)節(jié)后的大數(shù)據(jù)質(zhì)量,它為大數(shù)據(jù)分析與挖掘提供準(zhǔn)備,其質(zhì)量高低直接關(guān)系到大數(shù)據(jù)分析結(jié)果的價(jià)值;大數(shù)據(jù)結(jié)果質(zhì)量指經(jīng)過(guò)數(shù)據(jù)分析與挖掘、數(shù)據(jù)展示后產(chǎn)生的最終結(jié)果的質(zhì)量,包括分析結(jié)果的價(jià)值性、直觀性等,與用戶(hù)的需求與感知有關(guān)。大數(shù)據(jù)應(yīng)用是直接檢驗(yàn)大數(shù)據(jù)結(jié)果質(zhì)量的重要環(huán)節(jié)。
12大數(shù)據(jù)質(zhì)量維度
根據(jù)大數(shù)據(jù)質(zhì)量的內(nèi)涵及大數(shù)據(jù)特征可知,大數(shù)據(jù)質(zhì)量維度包括以下幾個(gè)方面:
121數(shù)據(jù)真實(shí)性
大數(shù)據(jù)是由系統(tǒng)、傳感器、網(wǎng)站等設(shè)備自動(dòng)生成的,它真實(shí)記錄了數(shù)據(jù)對(duì)象的變化狀態(tài)及其運(yùn)行方式,體現(xiàn)了原始大數(shù)據(jù)的真實(shí)性質(zhì)量。根據(jù)Yuri Demchenko等人提出的大數(shù)據(jù)5V特征,真實(shí)性特征主要包括數(shù)據(jù)的可信性、真?zhèn)涡?、?lái)源和信譽(yù)、有效性和可審計(jì)性等特征。值得注意的是,大數(shù)據(jù)主要存在于虛擬網(wǎng)絡(luò)環(huán)境下,一些惡意攻擊性的“數(shù)據(jù)污染”會(huì)影響組織決策,需要采取必要的措施保證其真實(shí)性和客觀性,它是實(shí)現(xiàn)大數(shù)據(jù)價(jià)值挖掘與趨勢(shì)預(yù)測(cè)的前提。
122數(shù)據(jù)完整性
主要指大數(shù)據(jù)采集的完整性,包括數(shù)據(jù)采集時(shí)間段的完整性、數(shù)據(jù)屬性值的完備性、數(shù)據(jù)值的無(wú)缺失等方面。大數(shù)據(jù)的一個(gè)主要特征就是通過(guò)大量數(shù)據(jù)甚至是海量數(shù)據(jù)來(lái)全面、完整地刻畫(huà)事物,并通過(guò)海量數(shù)據(jù)分析獲取事物的本質(zhì)與規(guī)律,故數(shù)據(jù)完整性也是實(shí)現(xiàn)大數(shù)據(jù)價(jià)值的重要質(zhì)量屬性。
123數(shù)據(jù)一致性
主要包括同構(gòu)/異構(gòu)來(lái)源數(shù)據(jù)的一致性、數(shù)據(jù)格式的一致性、數(shù)據(jù)編碼的一致性等方面[7],可在預(yù)處理階段通過(guò)數(shù)據(jù)不一致檢測(cè)技術(shù)進(jìn)行過(guò)濾,以確保數(shù)據(jù)的一致性。數(shù)據(jù)一致性是實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)確性的前提,也是保障大數(shù)據(jù)分析結(jié)果質(zhì)量的重要屬性。
124數(shù)據(jù)準(zhǔn)確性
既包括采集到的原始大數(shù)據(jù)的準(zhǔn)確性,也包括經(jīng)過(guò)預(yù)處理的過(guò)程大數(shù)據(jù)的準(zhǔn)確性,還包括大數(shù)據(jù)分析結(jié)果的準(zhǔn)確性,即在整個(gè)大數(shù)據(jù)采集、處理、分析、顯示等過(guò)程中均涉及數(shù)據(jù)的準(zhǔn)確性特征。數(shù)據(jù)準(zhǔn)確性是決定大數(shù)據(jù)分析結(jié)果價(jià)值大小的關(guān)鍵屬性。不同的大數(shù)據(jù)應(yīng)用對(duì)數(shù)據(jù)準(zhǔn)確度的要求也不盡相同,這取決于應(yīng)用目標(biāo)與決策需求。
125數(shù)據(jù)時(shí)效性
大數(shù)據(jù)是信息的一種,同樣具有生命周期性。時(shí)效性指大數(shù)據(jù)在時(shí)間方面的質(zhì)量,即數(shù)據(jù)時(shí)效性越高,則數(shù)據(jù)分析結(jié)果的準(zhǔn)確性越高。大數(shù)據(jù)的時(shí)效性主要體現(xiàn)在原始大數(shù)據(jù)和結(jié)果大數(shù)據(jù)兩個(gè)方面。原始大數(shù)據(jù)的時(shí)效性,指超出一定時(shí)間范圍的原始大數(shù)據(jù)在分析與預(yù)測(cè)結(jié)果上會(huì)出現(xiàn)數(shù)據(jù)“過(guò)期”問(wèn)題,即預(yù)測(cè)結(jié)果與事實(shí)不符。而且,由于大數(shù)據(jù)多是由機(jī)器、系統(tǒng)、網(wǎng)站等自動(dòng)采集或存儲(chǔ)的,其產(chǎn)生速度快、流通快,時(shí)間上呈現(xiàn)連續(xù)性特征,使原始大數(shù)據(jù)具有更強(qiáng)的時(shí)效性。因此時(shí)間越近的原始大數(shù)據(jù),其分析與預(yù)測(cè)的結(jié)果越接近事實(shí)。結(jié)果大數(shù)據(jù)的時(shí)效性指大數(shù)據(jù)的分析預(yù)測(cè)結(jié)果只在一定時(shí)間范圍內(nèi)有效,故需要持續(xù)地?cái)?shù)據(jù)更新與預(yù)測(cè),以保證預(yù)測(cè)結(jié)果數(shù)據(jù)的價(jià)值性。
126數(shù)據(jù)安全性
包括數(shù)據(jù)來(lái)源的安全性、數(shù)據(jù)存取的安全性、權(quán)限管理、訪問(wèn)控制等方面,數(shù)據(jù)安全性是實(shí)現(xiàn)大數(shù)據(jù)分析處理與預(yù)測(cè)的基本要求,對(duì)大數(shù)據(jù)的可用性、真實(shí)性和機(jī)密性具有保障作用。
127數(shù)據(jù)可用性
包括兩個(gè)方面:一是經(jīng)過(guò)采集、預(yù)處理并進(jìn)行存儲(chǔ)的過(guò)程數(shù)據(jù)可用于大數(shù)據(jù)分析、預(yù)測(cè)而獲取有價(jià)值信息的屬性;二是經(jīng)過(guò)一系列大數(shù)據(jù)處理而得到的結(jié)果數(shù)據(jù)可實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用的屬性。即過(guò)程數(shù)據(jù)和結(jié)果數(shù)據(jù)的可用性。過(guò)程數(shù)據(jù)的可用性指可用于進(jìn)一步的數(shù)據(jù)分析與處理,實(shí)現(xiàn)大數(shù)據(jù)價(jià)值;結(jié)果數(shù)據(jù)的可用性是可將分析結(jié)果用于管理決策、趨勢(shì)預(yù)測(cè)等,是大數(shù)據(jù)分析結(jié)果的價(jià)值轉(zhuǎn)化過(guò)程。
128數(shù)據(jù)價(jià)值性
即經(jīng)過(guò)大數(shù)據(jù)分析處理后的最終結(jié)果數(shù)據(jù)的價(jià)值性,這一價(jià)值性主要體現(xiàn)在大數(shù)據(jù)應(yīng)用上,接受應(yīng)用實(shí)踐的檢驗(yàn)。通過(guò)對(duì)海量數(shù)據(jù)的分析處理,大數(shù)據(jù)預(yù)測(cè)結(jié)果相比于傳統(tǒng)的抽樣調(diào)查結(jié)果,其準(zhǔn)確性和可信性要高,同樣其數(shù)據(jù)價(jià)值也更高。大數(shù)據(jù)分析與預(yù)測(cè)結(jié)果的價(jià)值由企業(yè)應(yīng)用實(shí)踐和用戶(hù)感知來(lái)衡量。
129易于理解性
指大數(shù)據(jù)處理結(jié)果的展現(xiàn)是否便于用戶(hù)理解與使用,主要體現(xiàn)在大數(shù)據(jù)的結(jié)果質(zhì)量方面,與用戶(hù)感知相關(guān)。
2基于處理流程的大數(shù)據(jù)質(zhì)量影響分析
大數(shù)據(jù)處理流程主要包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理與分析、數(shù)據(jù)展示/數(shù)據(jù)可視化、數(shù)據(jù)應(yīng)用等環(huán)節(jié),其中數(shù)據(jù)質(zhì)量貫穿于整個(gè)大數(shù)據(jù)流程,每一個(gè)數(shù)據(jù)處理環(huán)節(jié)都會(huì)對(duì)大數(shù)據(jù)質(zhì)量產(chǎn)生影響作用。通常,一個(gè)好的大數(shù)據(jù)產(chǎn)品要有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)處理、精確的數(shù)據(jù)分析與預(yù)測(cè)、優(yōu)秀的可視化圖表以及簡(jiǎn)練易懂的結(jié)果解釋?zhuān)竟?jié)將基于以上環(huán)節(jié)分別分析不同階段對(duì)大數(shù)據(jù)質(zhì)量的影響及其關(guān)鍵影響因素。
21數(shù)據(jù)收集環(huán)節(jié)
數(shù)據(jù)收集是獲取原始大數(shù)據(jù)集合的過(guò)程。大數(shù)據(jù)通常由不同數(shù)據(jù)源產(chǎn)生,且由機(jī)器自動(dòng)生成,然后通過(guò)網(wǎng)絡(luò)傳輸?shù)街付ǖ奈恢?,這是一種大數(shù)據(jù)生成即收集的方式;或者由企業(yè)或組織根據(jù)自身需求,有針對(duì)性地從各種來(lái)源收集所需數(shù)據(jù),如用戶(hù)的各種數(shù)據(jù)等??傊瑪?shù)據(jù)收集需從不同數(shù)據(jù)源實(shí)時(shí)地或及時(shí)地收集各種類(lèi)型數(shù)據(jù),并發(fā)送給存儲(chǔ)系統(tǒng)或數(shù)據(jù)中間件系統(tǒng)進(jìn)行后續(xù)處理。數(shù)據(jù)收集可分為設(shè)備數(shù)據(jù)收集和Web數(shù)據(jù)爬取兩種,由各種數(shù)據(jù)收集軟件和網(wǎng)絡(luò)爬蟲(chóng)完成。數(shù)據(jù)收集環(huán)節(jié)對(duì)大數(shù)據(jù)質(zhì)量的真實(shí)性、完整性、一致性、準(zhǔn)確性、時(shí)效性、安全性等維度均產(chǎn)生影響作用。
211數(shù)據(jù)源
在數(shù)據(jù)收集過(guò)程中,數(shù)據(jù)源會(huì)影響大數(shù)據(jù)質(zhì)量的真實(shí)性、完整性、一致性、準(zhǔn)確性和安全性。大數(shù)據(jù)的數(shù)據(jù)源主要指各種網(wǎng)站、系統(tǒng)、傳感器設(shè)備等,這些數(shù)據(jù)源的安全運(yùn)行、防止惡意攻擊與篡改是保障大數(shù)據(jù)真實(shí)性、準(zhǔn)確性和安全性質(zhì)量的重要條件。同時(shí),數(shù)據(jù)源運(yùn)行的穩(wěn)定性、無(wú)間斷性是保障大數(shù)據(jù)完整性的重要條件。不同數(shù)據(jù)源之間的統(tǒng)一編碼、相互協(xié)調(diào)是保障同構(gòu)或異構(gòu)大數(shù)據(jù)的一致性質(zhì)量的重要前提,它要求數(shù)據(jù)源之間的同步與協(xié)作。故在數(shù)據(jù)收集環(huán)節(jié),數(shù)據(jù)源是影響大數(shù)據(jù)真實(shí)性、完整性、一致性、準(zhǔn)確性和安全性質(zhì)量的重要因素之一。
212數(shù)據(jù)收集方式
數(shù)據(jù)的實(shí)時(shí)收集方式可有效保障大數(shù)據(jù)的時(shí)效性質(zhì)量,確保大數(shù)據(jù)分析與預(yù)測(cè)結(jié)果的時(shí)效性和價(jià)值性。設(shè)備收集多為實(shí)時(shí)的數(shù)據(jù)收集,且以流式數(shù)據(jù)進(jìn)行采集、處理與分析,從而確保大數(shù)據(jù)的時(shí)效性質(zhì)量。對(duì)于Web數(shù)據(jù),多采用網(wǎng)絡(luò)爬蟲(chóng)方式進(jìn)行收集,這需要對(duì)爬蟲(chóng)軟件進(jìn)行時(shí)間設(shè)置以保障收集到的數(shù)據(jù)時(shí)效性質(zhì)量。故數(shù)據(jù)收集方式是影響大數(shù)據(jù)時(shí)效性質(zhì)量的重要因素之一。
213數(shù)據(jù)收集技術(shù)
數(shù)據(jù)收集技術(shù)在這一階段是非常重要的技術(shù)因素,收集技術(shù)的好壞直接決定了數(shù)據(jù)收集的速度和質(zhì)量。通常數(shù)據(jù)收集分為兩種——設(shè)備數(shù)據(jù)收集和互聯(lián)網(wǎng)數(shù)據(jù)爬取,常用的收集軟件有Splunk、Sqoop、Flume、Logstash、Kettle以及各種網(wǎng)絡(luò)爬蟲(chóng),如Heritrix、Nutch等[8],這些軟件是大數(shù)據(jù)發(fā)展與應(yīng)用的重要一環(huán),也是英特爾、Facebook、谷歌等公司可以獲取大量數(shù)據(jù)的直接原因。故數(shù)據(jù)收集技術(shù)是影響大數(shù)據(jù)原始質(zhì)量的重要因素之一。
22數(shù)據(jù)預(yù)處理與存儲(chǔ)環(huán)節(jié)
221數(shù)據(jù)預(yù)處理
大數(shù)據(jù)采集過(guò)程中通常有一個(gè)或多個(gè)數(shù)據(jù)源,這些數(shù)據(jù)源包括同構(gòu)或異構(gòu)的數(shù)據(jù)庫(kù)、文件系統(tǒng)、服務(wù)接口等,易受到噪聲數(shù)據(jù)、數(shù)據(jù)值缺失、數(shù)據(jù)沖突等影響,因此需首先對(duì)收集到的大數(shù)據(jù)集合進(jìn)行預(yù)處理,以保證大數(shù)據(jù)分析與預(yù)測(cè)結(jié)果的準(zhǔn)確性與價(jià)值性。大數(shù)據(jù)的預(yù)處理環(huán)節(jié)主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉(zhuǎn)換等內(nèi)容,可以大大提高大數(shù)據(jù)的總體質(zhì)量,是大數(shù)據(jù)過(guò)程質(zhì)量的體現(xiàn)。
數(shù)據(jù)清理技術(shù)包括對(duì)數(shù)據(jù)的不一致檢測(cè)、噪聲數(shù)據(jù)的識(shí)別、數(shù)據(jù)過(guò)濾與修正等方面,有利于提高大數(shù)據(jù)的一致性、準(zhǔn)確性、真實(shí)性和可用性等方面的質(zhì)量;數(shù)據(jù)集成則是將多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行集成,從而形成集中、統(tǒng)一的數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體等,這一過(guò)程有利于提高大數(shù)據(jù)的完整性、一致性、安全性和可用性等方面質(zhì)量;數(shù)據(jù)歸約是在不損害分析結(jié)果準(zhǔn)確性的前提下降低數(shù)據(jù)集規(guī)模,使之簡(jiǎn)化,包括維歸約、數(shù)據(jù)歸約、數(shù)據(jù)抽樣等技術(shù),這一過(guò)程有利于提高大數(shù)據(jù)的價(jià)值密度,即提高大數(shù)據(jù)存儲(chǔ)的價(jià)值性。數(shù)據(jù)轉(zhuǎn)換處理包括基于規(guī)則或元數(shù)據(jù)的轉(zhuǎn)換、基于模型與學(xué)習(xí)的轉(zhuǎn)換等技術(shù),可通過(guò)轉(zhuǎn)換實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一,這一過(guò)程有利于提高大數(shù)據(jù)的一致性和可用性。總之,數(shù)據(jù)預(yù)處理環(huán)節(jié)有利于提高大數(shù)據(jù)的一致性、準(zhǔn)確性、真實(shí)性、可用性、完整性、安全性和價(jià)值性等方面質(zhì)量,而大數(shù)據(jù)預(yù)處理中的相關(guān)技術(shù)是影響大數(shù)據(jù)過(guò)程質(zhì)量的關(guān)鍵因素。
222數(shù)據(jù)存儲(chǔ)
在大數(shù)據(jù)存儲(chǔ)中,分布式存儲(chǔ)與訪問(wèn)是其關(guān)鍵技術(shù),它具有高效、經(jīng)濟(jì)、容錯(cuò)性好等特點(diǎn)。分布式存儲(chǔ)技術(shù)與數(shù)據(jù)存儲(chǔ)介質(zhì)的類(lèi)型和數(shù)據(jù)的組織管理形式直接相關(guān)。數(shù)據(jù)存儲(chǔ)介質(zhì)的類(lèi)型主要有內(nèi)存、磁盤(pán)、磁帶等,數(shù)據(jù)組織管理形式主要包括以行、列、鍵值、關(guān)系等進(jìn)行組織,不同的存儲(chǔ)介質(zhì)和組織管理形式對(duì)應(yīng)于不同的大數(shù)據(jù)特征和應(yīng)用。
分布式文件系統(tǒng),它是大數(shù)據(jù)領(lǐng)域最基礎(chǔ)、最核心的功能組件之一,其關(guān)鍵在于實(shí)現(xiàn)分布式存儲(chǔ)的高性能、高擴(kuò)展和高可用性。文檔存儲(chǔ),支持對(duì)結(jié)構(gòu)化數(shù)據(jù)的訪問(wèn),支持嵌套結(jié)構(gòu)、二級(jí)索引,以實(shí)現(xiàn)數(shù)據(jù)的高效查詢(xún)。列式存儲(chǔ)可減少數(shù)據(jù)存取量、提高數(shù)據(jù)處理效率。鍵值存儲(chǔ)可有效減少讀寫(xiě)磁盤(pán)的次數(shù),但不提供事務(wù)處理機(jī)制。圖形數(shù)據(jù)庫(kù)可實(shí)現(xiàn)事物之間相關(guān)關(guān)系的存儲(chǔ),并使用圖模型來(lái)映射這些網(wǎng)絡(luò)關(guān)系,實(shí)現(xiàn)對(duì)真實(shí)世界中各種對(duì)象的建模存儲(chǔ)。內(nèi)存存儲(chǔ)是將數(shù)據(jù)庫(kù)的工作版本放在內(nèi)存中,其設(shè)計(jì)目標(biāo)是提高數(shù)據(jù)庫(kù)的效率和存儲(chǔ)空間的利用率??傊?,不同的數(shù)據(jù)存儲(chǔ)技術(shù)具有不同的特征與優(yōu)勢(shì),它們對(duì)于提高大數(shù)據(jù)的時(shí)效性、安全性、可用性和準(zhǔn)確性等質(zhì)量維度具有重要影響。
23數(shù)據(jù)處理與分析環(huán)節(jié)
231數(shù)據(jù)處理
大數(shù)據(jù)的分布式處理技術(shù)與存儲(chǔ)形式、業(yè)務(wù)數(shù)據(jù)類(lèi)型等相關(guān),針對(duì)大數(shù)據(jù)處理的主要計(jì)算模型有MapReduce分布式計(jì)算框架、分布式內(nèi)存計(jì)算系統(tǒng)、分布式流計(jì)算系統(tǒng)等。MapReduce是一個(gè)批處理的分布式計(jì)算框架,可對(duì)海量數(shù)據(jù)進(jìn)行并行分析與處理,它適合對(duì)各種結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的處理。分布式內(nèi)存計(jì)算系統(tǒng)可有效減少數(shù)據(jù)讀寫(xiě)和移動(dòng)的開(kāi)銷(xiāo),提高大數(shù)據(jù)處理性能。分布式流計(jì)算系統(tǒng)則是對(duì)數(shù)據(jù)流進(jìn)行實(shí)時(shí)處理,以保障大數(shù)據(jù)的時(shí)效性和價(jià)值性??傊?,無(wú)論哪種大數(shù)據(jù)分布式處理與計(jì)算系統(tǒng),都有利于提高大數(shù)據(jù)的價(jià)值性、可用性、時(shí)效性和準(zhǔn)確性。大數(shù)據(jù)的類(lèi)型和存儲(chǔ)形式?jīng)Q定了其所采用的數(shù)據(jù)處理系統(tǒng),而數(shù)據(jù)處理系統(tǒng)的性能與優(yōu)劣直接影響大數(shù)據(jù)質(zhì)量的價(jià)值性、可用性、時(shí)效性和準(zhǔn)確性。因此在進(jìn)行大數(shù)據(jù)處理時(shí),要根據(jù)大數(shù)據(jù)類(lèi)型選擇合適的存儲(chǔ)形式和數(shù)據(jù)處理系統(tǒng),以實(shí)現(xiàn)大數(shù)據(jù)質(zhì)量的最優(yōu)化。
232數(shù)據(jù)分析
大數(shù)據(jù)分析技術(shù)主要包括已有數(shù)據(jù)的分布式統(tǒng)計(jì)分析技術(shù)和未知數(shù)據(jù)的分布式挖掘、深度學(xué)習(xí)技術(shù)。分布式統(tǒng)計(jì)分析可由數(shù)據(jù)處理技術(shù)完成,分布式挖掘和深度學(xué)習(xí)技術(shù)則在大數(shù)據(jù)分析階段完成,包括聚類(lèi)與分類(lèi)、關(guān)聯(lián)分析、深度學(xué)習(xí)等,可挖掘大數(shù)據(jù)集合中的數(shù)據(jù)關(guān)聯(lián)性,形成對(duì)事物的描述模式或?qū)傩砸?guī)則,可通過(guò)構(gòu)建機(jī)器學(xué)習(xí)模型和海量訓(xùn)練數(shù)據(jù)提升數(shù)據(jù)分析與預(yù)測(cè)的準(zhǔn)確性。數(shù)據(jù)分析是大數(shù)據(jù)處理與應(yīng)用的關(guān)鍵環(huán)節(jié),它決定了大數(shù)據(jù)集合的價(jià)值性和可用性,以及分析預(yù)測(cè)結(jié)果的準(zhǔn)確性。在數(shù)據(jù)分析環(huán)節(jié),應(yīng)根據(jù)大數(shù)據(jù)應(yīng)用情境與決策需求,選擇合適的數(shù)據(jù)分析技術(shù),提高大數(shù)據(jù)分析結(jié)果的可用性、價(jià)值性和準(zhǔn)確性質(zhì)量。
24數(shù)據(jù)可視化與應(yīng)用環(huán)節(jié)
數(shù)據(jù)可視化是指將大數(shù)據(jù)分析與預(yù)測(cè)結(jié)果以計(jì)算機(jī)圖形或圖像的直觀方式顯示給用戶(hù)的過(guò)程,并可與用戶(hù)進(jìn)行交互式處理。數(shù)據(jù)可視化技術(shù)有利于發(fā)現(xiàn)大量金融、通信、商業(yè)等業(yè)務(wù)數(shù)據(jù)中隱含的規(guī)律性信息,以支持管理決策。數(shù)據(jù)可視化環(huán)節(jié)可大大提高大數(shù)據(jù)分析結(jié)果的直觀性,便于用戶(hù)理解與使用,故數(shù)據(jù)可視化是影響大數(shù)據(jù)可用性和易于理解性質(zhì)量的關(guān)鍵因素。
大數(shù)據(jù)應(yīng)用是指將經(jīng)過(guò)分析處理后挖掘得到的大數(shù)據(jù)結(jié)果應(yīng)用于管理決策、戰(zhàn)略規(guī)劃、市場(chǎng)營(yíng)銷(xiāo)等的過(guò)程,它是對(duì)大數(shù)據(jù)分析結(jié)果的檢驗(yàn)與驗(yàn)證,大數(shù)據(jù)應(yīng)用過(guò)程直接體現(xiàn)了大數(shù)據(jù)分析處理結(jié)果的價(jià)值性和可用性。大數(shù)據(jù)應(yīng)用對(duì)大數(shù)據(jù)的分析處理具有引導(dǎo)作用。在大數(shù)據(jù)收集、處理等一系列操作之前,通過(guò)對(duì)應(yīng)用情境的充分調(diào)研、對(duì)管理決策需求信息的深入分析,可明確大數(shù)據(jù)處理與分析的目標(biāo),從而為大數(shù)據(jù)收集、存儲(chǔ)、處理、分析等過(guò)程提供明確的方向,并保障大數(shù)據(jù)分析結(jié)果的可用性、價(jià)值性和用戶(hù)需求的滿(mǎn)足。
3大數(shù)據(jù)流程的質(zhì)量影響模型
由以上分析可知,大數(shù)據(jù)質(zhì)量與其整個(gè)數(shù)據(jù)流程有關(guān),影響大數(shù)據(jù)質(zhì)量的重要因素包括數(shù)據(jù)源、數(shù)據(jù)收集方式與技術(shù)、預(yù)處理技術(shù)、存儲(chǔ)系統(tǒng)與技術(shù)、數(shù)據(jù)處理系統(tǒng)、數(shù)據(jù)分析技術(shù)、數(shù)據(jù)可視化技術(shù)等,技術(shù)性是大數(shù)據(jù)質(zhì)量影響因素的主要特征。它們的影響關(guān)系如圖1所示。
由圖1可知,大數(shù)據(jù)流程中的前期處理環(huán)節(jié)對(duì)大數(shù)據(jù)質(zhì)量的影響較大,尤其是大數(shù)據(jù)收集和預(yù)處理階段,影響最大。而在大數(shù)據(jù)質(zhì)量的各維度中,數(shù)據(jù)可用性、數(shù)據(jù)準(zhǔn)確性和數(shù)據(jù)價(jià)值性受大數(shù)據(jù)處理流程的影響較大,這說(shuō)明通過(guò)對(duì)大數(shù)據(jù)流程的管理與控制,可有效保障大數(shù)據(jù)的可用性、準(zhǔn)確性和價(jià)值性。
最后,根據(jù)以上分析,提出保障大數(shù)據(jù)質(zhì)量的建議與措施,主要包括:
1)大數(shù)據(jù)采集中的數(shù)據(jù)保護(hù)和數(shù)據(jù)源甄別。在數(shù)據(jù)采集過(guò)程中,尤其是對(duì)他人數(shù)據(jù)的采集中,企業(yè)應(yīng)注意不收集、統(tǒng)計(jì)敏感信息以保護(hù)用戶(hù)隱私;同時(shí),需注意對(duì)數(shù)據(jù)來(lái)源進(jìn)行甄別和驗(yàn)證,保證數(shù)據(jù)的真實(shí)性和有效性。
2)大數(shù)據(jù)存儲(chǔ)中的技術(shù)保障手段??蓞⒖紓鹘y(tǒng)的信息技術(shù)手段,以保證數(shù)據(jù)的可用性、完整性和私密性。如通過(guò)冗余設(shè)置以保障數(shù)據(jù)的可用性,采用校驗(yàn)技術(shù)保障數(shù)據(jù)的完整性,使用訪問(wèn)控制技術(shù)、安全審計(jì)功能保障數(shù)據(jù)安全性等。
3)大數(shù)據(jù)處理分析中的質(zhì)量保障措施??赏ㄟ^(guò)對(duì)大數(shù)據(jù)讀寫(xiě)操作的權(quán)限設(shè)置實(shí)現(xiàn)安全性管理,通過(guò)對(duì)不同分析策略產(chǎn)生的結(jié)果進(jìn)行相互驗(yàn)證來(lái)保障分析結(jié)果的準(zhǔn)確性和可用性,通過(guò)不斷優(yōu)化分析策略以提高大數(shù)據(jù)處理的性能和效率。
4)大數(shù)據(jù)可視化中的結(jié)果安全性保護(hù)??赏ㄟ^(guò)設(shè)置訪問(wèn)控制、認(rèn)證授權(quán)等策略對(duì)分析結(jié)果進(jìn)行保護(hù)。
5)大數(shù)據(jù)處理流程的全局管理。大數(shù)據(jù)處理流程經(jīng)過(guò)了數(shù)據(jù)采集、預(yù)處理、存儲(chǔ)、處理與分析、可視化等一系列環(huán)節(jié),在這些環(huán)節(jié)中要注重全局管理和不同環(huán)節(jié)之間的協(xié)調(diào)與連貫。如數(shù)據(jù)存儲(chǔ)形式的選擇要考慮采集到的大數(shù)據(jù)類(lèi)型、后期分析處理可用的數(shù)據(jù)處理系統(tǒng),以及分析結(jié)果的準(zhǔn)確性和可用性,以實(shí)現(xiàn)大數(shù)據(jù)質(zhì)量的最優(yōu)化。
總之,在大數(shù)據(jù)浪潮下企業(yè)是否能把握機(jī)遇,數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理正成為重要的工具和手段。大數(shù)據(jù)商業(yè)價(jià)值在于不斷開(kāi)發(fā)與分析,這一過(guò)程中離不開(kāi)數(shù)據(jù)質(zhì)量管理與治理的持續(xù)與循環(huán),以保障大數(shù)據(jù)價(jià)值的挖掘。
參考文獻(xiàn)
[1]宗威,吳鋒.大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J].西安交通大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2013,(5):38-43.
[2]胡雄偉,張寶林,李抵飛,等.大數(shù)據(jù)研究與應(yīng)用綜述(上)[J].標(biāo)準(zhǔn)科學(xué),2013,(9):29-34.
[3]Vijay Khatri,Carol V.Brown communications of the ACM[J].January,2010,53(1):148-153.
[4]Sharma S,Tim U S,Wong J,et al.A brief review on leading big data models[J].Data Science Journal,2014,13(0):138-157.
[5]王宇德.企業(yè)大數(shù)據(jù)治理研究[J].互聯(lián)網(wǎng)天地,2014,(1):20-24.
[6]馬曉亭.基于用戶(hù)服務(wù)價(jià)值的圖書(shū)館大數(shù)據(jù)價(jià)值分析與服務(wù)質(zhì)量保證研究[J].圖書(shū)館,2014,(5):95-98.
[7]桑尼爾·索雷斯.大數(shù)據(jù)治理[M].北京:清華大學(xué)出版社,2014.
[8]中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院.大數(shù)據(jù)標(biāo)準(zhǔn)化白皮書(shū)V20[EB/OL].http:∥www.cesi.ac.cn/cesi/guanwanglanmu/biaozhunhuayanjiu/2015/1224/12264.html,2015-12-29.
(本文責(zé)任編輯:郭沫含)