摘要:由于科學(xué)實(shí)驗(yàn)與互聯(lián)網(wǎng)的飛速發(fā)展,出現(xiàn)了大數(shù)據(jù)。對大數(shù)據(jù)進(jìn)行合理的分析和管理必將會推動科學(xué)進(jìn)步和企業(yè)發(fā)展,也會為社會創(chuàng)造出更多、更新的成果。文章介紹大數(shù)據(jù)的概念與特征、產(chǎn)生源泉以及相關(guān)的技術(shù)問題。
關(guān)鍵詞:大數(shù)據(jù);復(fù)雜性;非結(jié)構(gòu)化
1.背景
近年,來自人們?nèi)粘I?,特別是互聯(lián)網(wǎng)服務(wù)的數(shù)據(jù)量飆升。僅過去兩年間,新產(chǎn)生的數(shù)據(jù)就占到了全球數(shù)量總量的90%;預(yù)計(jì)到2020年,全世界需要管理的數(shù)據(jù)將達(dá)到35個ZB,其中主要包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理信息等各種類型,存儲在不同地域的各類服務(wù)器中。數(shù)據(jù)是重要的戰(zhàn)略資源,隱含著巨大的經(jīng)濟(jì)價值。通過對大量數(shù)據(jù)的交換、整合、分析與利用,我們可以發(fā)現(xiàn)新的知識、創(chuàng)造新的價值,形成大知識和大科技,帶來大利潤和大發(fā)展。因此,多國政府已將數(shù)據(jù)提升為與水、石油、煤炭一樣的高度,并將擁有數(shù)據(jù)的規(guī)模和數(shù)據(jù)分析能力視為國家的核心競爭力。
2.大數(shù)據(jù)科學(xué)與技術(shù)
2.1定義
大數(shù)據(jù)是指規(guī)模大、類型多、高變化率的數(shù)據(jù)集合。大數(shù)據(jù)的定義至少涉及容量、種類和傳輸速度三個要素。
如何快速訪問龐大的數(shù)據(jù),如何有效處理包含數(shù)千萬個文檔、數(shù)百萬張照片或者工程設(shè)計(jì)圖的數(shù)據(jù)集等,是大數(shù)據(jù)研究者面臨的挑戰(zhàn)。
2.2大數(shù)據(jù)產(chǎn)生的源泉
大數(shù)據(jù)主要來自互聯(lián)網(wǎng)世界與物理世界。
1)互聯(lián)網(wǎng)世界。
大數(shù)據(jù)來自人類社會,尤其是互聯(lián)網(wǎng)的發(fā)展為數(shù)據(jù)的存儲、傳輸與應(yīng)用創(chuàng)造了基礎(chǔ)與環(huán)境。依據(jù)基于唯象假設(shè)的六度理論而建立的社交網(wǎng)絡(luò)服務(wù)(SNS,Social Network Service),使用者以認(rèn)識朋友的朋友為基礎(chǔ),擴(kuò)展自己的人脈。在基于W2.0網(wǎng)站建立的社交網(wǎng)絡(luò)中,用戶既是網(wǎng)站信息的使用者,也是網(wǎng)站信息的制作者。
2)物理世界。
科學(xué)實(shí)驗(yàn)是科技人員設(shè)計(jì)的,其中的數(shù)據(jù)采集、數(shù)據(jù)處理需要事先設(shè)計(jì),無論是檢索還是模式識別都有科學(xué)規(guī)律可循。例如,希格斯粒子(又稱為上帝粒子)的尋找,采用了大型強(qiáng)子對撞機(jī)實(shí)驗(yàn),至少要在1萬億個事例中才可能找出一個希格斯粒子。這是一個典型的基于大數(shù)據(jù)的科學(xué)實(shí)驗(yàn)。從這一實(shí)驗(yàn)可以看出,科學(xué)實(shí)驗(yàn)的大數(shù)據(jù)處理是整個實(shí)驗(yàn)的一個預(yù)定步驟,這是一個有規(guī)律的設(shè)計(jì),可以預(yù)見性地發(fā)現(xiàn)有價值的信息。
2.3大數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)有以下5個特點(diǎn),分析這些特點(diǎn)對有效傳輸、存儲、處理、應(yīng)用和管理大數(shù)據(jù)至關(guān)重要。
1)容量巨大。
一般說來,超大規(guī)模數(shù)據(jù)是指GB(1GB(千兆)=1 024MB)級的數(shù)據(jù),海量數(shù)據(jù)是指TB(1TB(萬億字節(jié),太字節(jié))=1024GB)級的數(shù)據(jù),而大數(shù)據(jù)則是指PB(1PB(千萬億字節(jié),拍字節(jié))=1024TB)級及其以上(EB、ZB和YB)的數(shù)據(jù)??梢韵胂螅萘康闹笜?biāo)是動態(tài)變化的。相對于當(dāng)前的CPU和存儲技術(shù)水平而言,系統(tǒng)管理這些規(guī)模過大的數(shù)據(jù)需要特別對待。
2)類型繁多。
大數(shù)據(jù)包含大量不同的數(shù)據(jù)和文件類型,如各種聲音和電影文件、圖像、文檔、地理定位數(shù)據(jù)、網(wǎng)絡(luò)日志、文本字符串文件、元數(shù)據(jù)、網(wǎng)頁、電子郵件、社交媒體供稿、表格數(shù)據(jù)等。
3)速度快。
大數(shù)據(jù)速度快是指數(shù)據(jù)的變化率高,傳統(tǒng)技術(shù)并不適于大數(shù)據(jù)的高速儲存、管理和使用。
4)非結(jié)構(gòu)化。
非結(jié)構(gòu)化數(shù)據(jù)是指在獲得數(shù)據(jù)之前無法預(yù)知其結(jié)構(gòu)的數(shù)據(jù)。目前所獲的數(shù)據(jù)85%以上是非結(jié)構(gòu)化數(shù)據(jù),而不再是純粹的關(guān)系數(shù)據(jù),傳統(tǒng)的系統(tǒng)無法勝任這些數(shù)據(jù)的處理。從應(yīng)用角度,非結(jié)構(gòu)化數(shù)據(jù)的計(jì)算是計(jì)算機(jī)科學(xué)的前沿。大數(shù)據(jù)的高度異構(gòu)也導(dǎo)致難以抽取出合適數(shù)量的語義信息。
5)價值密度低。
以視頻為例,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅為1~2秒內(nèi)的數(shù)據(jù)。
2.4大數(shù)據(jù)的研究領(lǐng)域
大數(shù)據(jù)可分成大數(shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)應(yīng)用等領(lǐng)域。大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營的過程,注重發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系;大數(shù)據(jù)技術(shù)包括對大數(shù)據(jù)的估算、表示、處理等技術(shù);大數(shù)據(jù)工程是指大數(shù)據(jù)的規(guī)劃、建設(shè)、運(yùn)營和管理;大數(shù)據(jù)的應(yīng)用領(lǐng)域主要包括科學(xué)決策、應(yīng)急管理(如疾病防治、災(zāi)害預(yù)測與控制、食品安全與群體事件等)、環(huán)境管理、社會計(jì)算、知識經(jīng)濟(jì)等。
大數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué),是在某個領(lǐng)域中有條件地尋找數(shù)據(jù)相互關(guān)系和普適性規(guī)律。因?yàn)楦黝I(lǐng)域的數(shù)據(jù)分析方法和結(jié)果存在一定程度的普適性,所以抽取領(lǐng)域的共性科學(xué)問題很有意義,但這往往需要較長的時間,需要一段時間的實(shí)踐積累,通過分層次、不斷抽象,共性科學(xué)問題才會逐步清晰明朗??茖W(xué)研究的軌跡是先做白盒模型研究,通過積累就可以抽象出通用性強(qiáng)大的黑盒模型。
大數(shù)據(jù)研究是一種方法研究,數(shù)據(jù)本身不作為研究目標(biāo),而是作為方法研究和發(fā)現(xiàn)新知識的工具。大數(shù)據(jù)研究是一種交叉學(xué)科研究,它與數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、搜索等人工智能方法密切相關(guān)。在傳統(tǒng)數(shù)據(jù)挖掘研究中,當(dāng)數(shù)據(jù)維度和規(guī)模增大時,所需資源呈指數(shù)級增加,但對PB級以上(EB、ZB和YB)的大數(shù)據(jù)需要研究新的方法。統(tǒng)計(jì)學(xué)的目標(biāo)是從各種類型的數(shù)據(jù)中提取有價值的信息,進(jìn)而實(shí)現(xiàn)預(yù)見性,但一般不強(qiáng)調(diào)因果邏輯。人工智能則需要將統(tǒng)計(jì)方法和其他方法結(jié)合,采用多元化的方法來建立綜合模型。
目前業(yè)界探討最多的是大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。
3.大數(shù)據(jù)技術(shù)
如何獲取并動態(tài)高效處理大數(shù)據(jù)將成為處理大數(shù)據(jù)的關(guān)鍵技術(shù)。由于大數(shù)據(jù)的異質(zhì)異構(gòu)、非結(jié)構(gòu)及不可信等特征,大數(shù)據(jù)的管理和分析研究需要解決表示、處理和可靠性等一系列重要問題。
3.1數(shù)據(jù)量復(fù)雜性估算
時間復(fù)雜性和空間復(fù)雜性是計(jì)算機(jī)科學(xué)的基本問題。大數(shù)據(jù)處理除了要考慮時間和空間復(fù)雜性外,還需要考慮數(shù)據(jù)量復(fù)雜性。數(shù)據(jù)量復(fù)雜性是指解決一個問題需要多大的數(shù)據(jù)量,即需要建立求解一個問題達(dá)到某種滿意程度需要多大規(guī)模的數(shù)據(jù)量理論。顯然,這類問題為預(yù)言型數(shù)據(jù)分析問題。目前社會科學(xué)的研究已開始涉及大數(shù)據(jù),如輿情分析、情感分析等,這些都迫切需要計(jì)算機(jī)學(xué)者與社會科學(xué)領(lǐng)域的學(xué)者密切合作,共同開拓新的理論。
3.2大數(shù)據(jù)的表示
利用統(tǒng)一的模型對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析處理困難巨大,傳統(tǒng)的數(shù)據(jù)表示方法不能直觀地展現(xiàn)數(shù)據(jù)本身含義。為了有效利用數(shù)據(jù)并挖掘其中的知識,必須尋找最合適而有效的數(shù)據(jù)表示方法。目前使用的方法是數(shù)據(jù)標(biāo)識,標(biāo)識方法可減輕數(shù)據(jù)識別和分類的困難,但卻給用戶增添了預(yù)處理工作量。研究既有效又簡易的數(shù)據(jù)表示方法是進(jìn)行大數(shù)據(jù)處理首先面臨的技術(shù)難題之一。
3.3大數(shù)據(jù)的處理
全球數(shù)據(jù)量每18個月翻一番(遵循摩爾定律),數(shù)據(jù)規(guī)模急劇擴(kuò)大,已超越現(xiàn)有計(jì)算機(jī)存儲與處理能力。不僅數(shù)據(jù)處理規(guī)模巨大,而且處理需求多樣化,數(shù)據(jù)處理能力已成為企業(yè)核心競爭力的關(guān)鍵。而數(shù)據(jù)處理需要結(jié)合多學(xué)科,探索一種處理新型數(shù)據(jù)的方法,以便在數(shù)據(jù)多樣性和不確定性的前提下研究數(shù)據(jù)規(guī)律和統(tǒng)計(jì)特征,具體研究內(nèi)容包括以下幾個方面。
1)數(shù)據(jù)的非結(jié)構(gòu)性。
大量出現(xiàn)的各種數(shù)據(jù)本身是非結(jié)構(gòu)化的或弱結(jié)構(gòu)化的,如留言、博客、圖像、視頻數(shù)據(jù)等,如何將這些數(shù)據(jù)轉(zhuǎn)化成一個結(jié)構(gòu)化的格式是研究者面臨的一項(xiàng)重大挑戰(zhàn)。
2)數(shù)據(jù)的不完備性。
數(shù)據(jù)的不完備性是指在大數(shù)據(jù)條件下所獲取的數(shù)據(jù)常常包含一些不完整的信息,甚至是錯誤的數(shù)據(jù)。數(shù)據(jù)的不完備性必須在數(shù)據(jù)分析階段得到有效處理。
3)數(shù)據(jù)的時效性。
處理大數(shù)據(jù)的速度非常重要。數(shù)據(jù)規(guī)模越大,分析處理時間就會越長。如果設(shè)計(jì)一個專門處理固定大小數(shù)據(jù)量的數(shù)據(jù)系統(tǒng),其處理速度可能會非??欤⒉荒苓m應(yīng)大數(shù)據(jù)的要求。在許多情況下,用戶要求立即得到數(shù)據(jù)的分析結(jié)果,這需要在處理速度與規(guī)模上折中考慮,并尋求新的方法。
4)數(shù)據(jù)的安全性與可靠性。
大數(shù)據(jù)高度依賴數(shù)據(jù)存儲與共享,必須考慮尋求更好的方法消除各種隱患與漏洞,才能有效地管控安全風(fēng)險。數(shù)據(jù)的隱私保護(hù)是大數(shù)據(jù)分析和處理面臨的重要問題,既是技術(shù)問題也是社會學(xué)問題。如果對私人數(shù)據(jù)使用不當(dāng),尤其是泄漏有一定關(guān)聯(lián)的多組數(shù)據(jù),將導(dǎo)致用戶的隱私泄漏。
基于上述特性,目前,對大數(shù)據(jù)的處理多采用數(shù)據(jù)清洗、去冗等技術(shù),提取有價值數(shù)據(jù),實(shí)現(xiàn)對數(shù)據(jù)質(zhì)量的高效管理。其中,對數(shù)據(jù)的安全訪問和隱私保護(hù)已成為大數(shù)據(jù)可靠性的關(guān)鍵需求,因此,如何滿足對互聯(lián)網(wǎng)大規(guī)模真實(shí)運(yùn)行數(shù)據(jù)的高效處理和持續(xù)服務(wù)的需求,數(shù)據(jù)的可靠性處理將成為重要環(huán)節(jié)。
4.大數(shù)據(jù)處理的工具
Hadoop是一個開源軟件框架,被稱為處理大數(shù)據(jù)的利器,一些大零售商常常通過Hadoop平臺用大數(shù)據(jù)鎖定客戶。Hadoop平臺包括多種專門設(shè)計(jì)的組件,主要用于解決大規(guī)模分布式數(shù)據(jù)存儲、分析和檢索任務(wù)。但并不是所有的Hadoop組件都是必要,對于一個大數(shù)據(jù)解決方案,其中的一些組件可取代某些技術(shù),更好地配合用戶的需求。如MapR的Hadoop,它用NFs替代HDFs,并提供了一個完整的隨機(jī)存取與讀/寫文件系統(tǒng)。
5.結(jié)語
數(shù)據(jù)為王的時代已經(jīng)到來,研究熱點(diǎn)從計(jì)算速度轉(zhuǎn)向大數(shù)據(jù)處理能力,從以編程為主轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。云計(jì)算、社交計(jì)算和移動計(jì)算三大技術(shù)趨勢正在重塑著IT世界,并推動數(shù)據(jù)以更大容量、更多種類及更快速度迅猛增長。中國IT的發(fā)展比世界任何地方都要快,數(shù)據(jù)產(chǎn)生量也是最多的。未來十年,將是一個由大數(shù)據(jù)引領(lǐng)的智慧科技時代,其廣闊的研究領(lǐng)域和應(yīng)用前景將會越來越受到人們的重視。
(編輯:彭遠(yuǎn)紅)