文/李國(guó)杰 程學(xué)旗
中國(guó)科學(xué)院計(jì)算技術(shù)研究所 北京 100190
近年來(lái),大數(shù)據(jù)引起了產(chǎn)業(yè)界、科技界和政府部門的高度關(guān)注。2012年3月22日,奧巴馬宣布美國(guó)政府投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃(Big Data Research and Development Initiative)”。這是繼1993年美國(guó)宣布“信息高速公路”計(jì)劃后的又一次重大科技發(fā)展部署。美國(guó)政府認(rèn)為,大數(shù)據(jù)是“未來(lái)的新石油”,并將對(duì)大數(shù)據(jù)的研究上升為國(guó)家意志,這對(duì)未來(lái)的科技與經(jīng)濟(jì)發(fā)展必將帶來(lái)深遠(yuǎn)影響。
人、機(jī)、物三元世界的高度融合引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長(zhǎng)和數(shù)據(jù)模式的高度復(fù)雜化,世界已進(jìn)入網(wǎng)絡(luò)化的大數(shù)據(jù)(Big Data)時(shí)代[1,16]。以數(shù)據(jù)為中心的傳統(tǒng)學(xué)科(如基因組學(xué)、蛋白組學(xué),天體物理學(xué)和腦科學(xué)等)的研究產(chǎn)生了越來(lái)越多的數(shù)據(jù)。例如,用電子顯微鏡重建大腦中的突觸網(wǎng)絡(luò),1立方毫米大腦的圖像數(shù)據(jù)就超過(guò)1PB。但近年來(lái)大數(shù)據(jù)的飆升主要還是來(lái)自日常生活,特別是互聯(lián)網(wǎng)公司的服務(wù)。據(jù)著名咨詢公司IDC的統(tǒng)計(jì),2011年全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量為1.8ZB(10的21次方),其中75%來(lái)自于個(gè)人(主要是圖片、視頻和音樂(lè)),遠(yuǎn)遠(yuǎn)超過(guò)人類有史以來(lái)所有印刷材料的數(shù)據(jù)總量(200PB)[11]。Google公司通過(guò)大規(guī)模集群和MapReduce軟件,每月處理的數(shù)據(jù)量超過(guò)400PB;百度每天大約要處理幾十PB數(shù)據(jù);Facebook注冊(cè)用戶超過(guò)10億,每月上傳的照片超過(guò)10億張,每天生成300TB以上的日志數(shù)據(jù);淘寶網(wǎng)會(huì)員超過(guò)3.7億,在線商品超過(guò)8.8億,每天交易數(shù)千萬(wàn)筆,產(chǎn)生約20TB數(shù)據(jù)。傳感網(wǎng)和物聯(lián)網(wǎng)的蓬勃發(fā)展是大數(shù)據(jù)的又一推動(dòng)力,各個(gè)城市的視頻監(jiān)控每時(shí)每刻都在采集巨量的流媒體數(shù)據(jù)。工業(yè)設(shè)備的監(jiān)控也是大數(shù)據(jù)的重要來(lái)源。例如,勞斯萊斯公司對(duì)全世界數(shù)以萬(wàn)計(jì)的飛機(jī)引擎進(jìn)行實(shí)時(shí)監(jiān)控,每年傳送PB數(shù)量級(jí)的數(shù)據(jù)。
一般意義上,大數(shù)據(jù)是指無(wú)法在可容忍的時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。大數(shù)據(jù)的特點(diǎn)可以總結(jié)為4個(gè)V,即Volume(體量浩大)、Variety(模態(tài)繁多)、Velocity(生成快速)和Value(價(jià)值巨大但密度很低)。首先,數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已從GB到TB再到PB級(jí),甚至開始以EB和ZB來(lái)計(jì)數(shù)。IDC的研究報(bào)告稱,未來(lái)10年全球大數(shù)據(jù)將增加50倍,管理數(shù)據(jù)倉(cāng)庫(kù)的服務(wù)器數(shù)量將增加10倍[11]。其次,大數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)?,F(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出非結(jié)構(gòu)化數(shù)據(jù)大幅增長(zhǎng)的特點(diǎn),至2012年末,非結(jié)構(gòu)化數(shù)據(jù)占有比例將達(dá)到整個(gè)數(shù)據(jù)量的75%以上。同時(shí),由于數(shù)據(jù)顯性或隱性的網(wǎng)絡(luò)化存在,使得數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)無(wú)所不在。再次,大數(shù)據(jù)往往以數(shù)據(jù)流的形式動(dòng)態(tài)、快速地產(chǎn)生,具有很強(qiáng)的時(shí)效性,用戶只有把握好對(duì)數(shù)據(jù)流的掌控才能有效利用這些數(shù)據(jù)。另外,數(shù)據(jù)自身的狀態(tài)與價(jià)值也往往隨時(shí)空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯。最后,雖然數(shù)據(jù)的價(jià)值巨大,但是基于傳統(tǒng)思維與技術(shù),人們?cè)趯?shí)際環(huán)境中往往面臨信息泛濫而知識(shí)匱乏的窘態(tài),大數(shù)據(jù)的價(jià)值利用密度低。
毫無(wú)疑問(wèn),大數(shù)據(jù)隱含著巨大的社會(huì)、經(jīng)濟(jì)、科研價(jià)值,已引起了各行各業(yè)的高度重視[14,15,17]。如果能有效地組織和使用大數(shù)據(jù),將對(duì)社會(huì)經(jīng)濟(jì)和科學(xué)研究發(fā)展產(chǎn)生巨大的推動(dòng)作用,同時(shí)也孕育著前所未有的機(jī)遇。著名的O'Reilly公司斷言:“數(shù)據(jù)是下一個(gè)‘Intel Inside’,未來(lái)屬于將數(shù)據(jù)轉(zhuǎn)換成產(chǎn)品的公司和人們。”
IBM、Oracle、Microsoft、Google、Amazon、Facebook等跨國(guó)巨頭是發(fā)展大數(shù)據(jù)處理技術(shù)的主要推動(dòng)者。自2005年以來(lái),IBM投資160億美元進(jìn)行了30次與大數(shù)據(jù)有關(guān)的收購(gòu),促使其業(yè)績(jī)穩(wěn)定高速增長(zhǎng)。2012年,IBM股價(jià)突破200美元大關(guān),3年之內(nèi)股價(jià)翻了3倍。華爾街早就開始招聘精通數(shù)據(jù)分析的天文學(xué)家和理論數(shù)學(xué)家來(lái)設(shè)計(jì)金融產(chǎn)品。IBM現(xiàn)在是全球數(shù)學(xué)博士的最大雇主,數(shù)學(xué)家正在將其數(shù)據(jù)分析的才能應(yīng)用于石油勘探、醫(yī)療健康等各個(gè)領(lǐng)域。eBay通過(guò)數(shù)據(jù)挖掘可精確計(jì)算出廣告中的每一個(gè)關(guān)鍵字為公司帶來(lái)的回報(bào)。通過(guò)對(duì)廣告投放的優(yōu)化,2007年以來(lái)eBay產(chǎn)品銷售的廣告費(fèi)降低了99%,而頂級(jí)賣家占總銷售額的百分比卻上升至32%。目前推動(dòng)大數(shù)據(jù)研究的動(dòng)力主要是企業(yè)經(jīng)濟(jì)效益,巨大的經(jīng)濟(jì)利益驅(qū)使大企業(yè)不斷擴(kuò)大數(shù)據(jù)處理規(guī)模[14,15,17]。
近幾年,Nature和Science等國(guó)際頂級(jí)學(xué)術(shù)刊物相繼出版??瘉?lái)專門探討對(duì)大數(shù)據(jù)的研究[6-9]。2008年Nature出版??癇ig Data”[6],從互聯(lián)網(wǎng)技術(shù)、網(wǎng)絡(luò)經(jīng)濟(jì)學(xué)、超級(jí)計(jì)算、環(huán)境科學(xué)、生物醫(yī)藥等多個(gè)方面介紹了海量數(shù)據(jù)帶來(lái)的挑戰(zhàn)。2011年Science推出關(guān)于數(shù)據(jù)處理的??癉ealing with da?ta”[7],討論了數(shù)據(jù)洪流(Data Deluge)所帶來(lái)的挑戰(zhàn),特別指出,倘若能夠更有效地組織和使用這些數(shù)據(jù),人們將得到更多的機(jī)會(huì)發(fā)揮科學(xué)技術(shù)對(duì)社會(huì)發(fā)展的巨大推動(dòng)作用。2012年4月歐洲信息學(xué)與數(shù)學(xué)研究協(xié)會(huì)會(huì)刊ERCIM News出版專刊“Big Data”[9],討論了大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理、數(shù)據(jù)密集型研究的創(chuàng)新技術(shù)等問(wèn)題,并介紹了歐洲科研機(jī)構(gòu)開展的研究活動(dòng)和取得的創(chuàng)新性進(jìn)展。在這樣的大背景下,2012年5月,香山科學(xué)會(huì)議組織了以“大數(shù)據(jù)科學(xué)與工程——一門新興的交叉學(xué)科?”為主題的第424次學(xué)術(shù)討論會(huì),來(lái)自國(guó)內(nèi)外35個(gè)單位橫跨IT、經(jīng)濟(jì)、管理、社會(huì)、生物等多個(gè)不同學(xué)科領(lǐng)域的43位專家代表參會(huì),并就大數(shù)據(jù)的理論與工程技術(shù)研究、應(yīng)用方向以及大數(shù)據(jù)研究的組織方式與資源支持形式等重要問(wèn)題進(jìn)行了深入討論。6月,中國(guó)計(jì)算機(jī)學(xué)會(huì)青年計(jì)算機(jī)科技論壇(CCF YOCSEF)舉辦了“大數(shù)據(jù)時(shí)代,智謀未來(lái)”學(xué)術(shù)報(bào)告會(huì),就大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘、體系架構(gòu)理論、大數(shù)據(jù)安全、大數(shù)據(jù)平臺(tái)開發(fā)與大數(shù)據(jù)現(xiàn)實(shí)案例進(jìn)行了全面的討論。總體而言,大數(shù)據(jù)技術(shù)及相應(yīng)的基礎(chǔ)研究已經(jīng)成為科技界的研究熱點(diǎn),大數(shù)據(jù)科學(xué)作為一個(gè)橫跨信息科學(xué)、社會(huì)科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的新興交叉學(xué)科方向正在逐步形成。
大數(shù)據(jù)同時(shí)也引起了包括美國(guó)在內(nèi)的許多國(guó)家政府的極大關(guān)注。如前所述,2012年3月,美國(guó)公布了“大數(shù)據(jù)研發(fā)計(jì)劃”[13]。該計(jì)劃旨在提高和改進(jìn)人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識(shí)的能力,進(jìn)而加速美國(guó)在科學(xué)與工程領(lǐng)域發(fā)明的步伐,增強(qiáng)國(guó)家安全。根據(jù)該計(jì)劃,美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)、國(guó)立衛(wèi)生研究院(NIH)、國(guó)防部(DOD)、能源部(DOE)、國(guó)防部高級(jí)研究計(jì)劃局(DARPA)、地質(zhì)勘探局(USGS)6個(gè)聯(lián)邦部門和機(jī)構(gòu)共同提高收集、儲(chǔ)存、保留、管理、分析和共享海量數(shù)據(jù)所需的核心技術(shù),擴(kuò)大大數(shù)據(jù)技術(shù)開發(fā)和應(yīng)用所需人才的供給。該計(jì)劃還強(qiáng)調(diào),大數(shù)據(jù)技術(shù)事關(guān)美國(guó)國(guó)家安全、科學(xué)和研究的步伐,將引發(fā)教育和學(xué)習(xí)的變革。歐盟方面也有類似的舉措。過(guò)去幾年歐盟已對(duì)科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施投資1億多歐元,并將數(shù)據(jù)信息化基礎(chǔ)設(shè)施作為Horizon 2020計(jì)劃的優(yōu)先領(lǐng)域之一。2012年1月截止的預(yù)算為5000萬(wàn)歐元的FP7 Call 8專門征集針對(duì)大數(shù)據(jù)的研究項(xiàng)目,仍以基礎(chǔ)設(shè)施為先導(dǎo)[9]??v觀國(guó)際形勢(shì),對(duì)大數(shù)據(jù)的研究與應(yīng)用已引起各國(guó)政府的高度重視,并已成為重要的戰(zhàn)略布局方向。
大數(shù)據(jù)是與自然資源、人力資源一樣重要的戰(zhàn)略資源,是一個(gè)國(guó)家數(shù)字主權(quán)的體現(xiàn)。大數(shù)據(jù)時(shí)代,國(guó)家層面的競(jìng)爭(zhēng)力將部分體現(xiàn)為一國(guó)擁有大數(shù)據(jù)的規(guī)模、活性以及對(duì)數(shù)據(jù)的解釋、運(yùn)用的能力。一個(gè)國(guó)家在網(wǎng)絡(luò)空間的數(shù)據(jù)主權(quán)將是繼海、陸、空、天之后另一個(gè)大國(guó)博弈的空間。在大數(shù)據(jù)領(lǐng)域的落后,意味著失守產(chǎn)業(yè)戰(zhàn)略制高點(diǎn),意味著數(shù)字主權(quán)無(wú)險(xiǎn)可守,意味著國(guó)家安全將出現(xiàn)漏洞。大數(shù)據(jù)將直接影響國(guó)家和社會(huì)穩(wěn)定,是關(guān)系國(guó)家安全的戰(zhàn)略性問(wèn)題。因此,我國(guó)應(yīng)盡快研究并制定我們國(guó)家的大數(shù)據(jù)戰(zhàn)略。
大數(shù)據(jù)是現(xiàn)有產(chǎn)業(yè)升級(jí)與新產(chǎn)業(yè)誕生的重要推動(dòng)力量。數(shù)據(jù)為王的大數(shù)據(jù)時(shí)代的到來(lái),產(chǎn)業(yè)界需求與關(guān)注點(diǎn)發(fā)生了重大轉(zhuǎn)變:企業(yè)關(guān)注的重點(diǎn)轉(zhuǎn)向數(shù)據(jù),計(jì)算機(jī)行業(yè)正在轉(zhuǎn)變?yōu)檎嬲男畔⑿袠I(yè),從追求計(jì)算速度轉(zhuǎn)變?yōu)殛P(guān)注大數(shù)據(jù)處理能力,軟件也將從編程為主轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。大數(shù)據(jù)處理的興起也改變了云計(jì)算的發(fā)展方向,使其進(jìn)入以分析即服務(wù)(AaaS)為主要標(biāo)志的Cloud 2.0時(shí)代。采用大數(shù)據(jù)處理方法,生物制藥、新材料研制生產(chǎn)的流程會(huì)發(fā)生革命性的變化,可以通過(guò)數(shù)據(jù)處理能力極高的計(jì)算機(jī)并行處理,同時(shí)進(jìn)行大批量的仿真比較和篩選,大大提高科研和生產(chǎn)效率,甚至使整個(gè)行業(yè)邁入數(shù)字化與信息化的新階段。數(shù)據(jù)已成為與礦物和化學(xué)元素一樣的原始材料,未來(lái)可能形成數(shù)據(jù)服務(wù)、數(shù)據(jù)探礦、數(shù)據(jù)化學(xué)、數(shù)據(jù)材料、數(shù)據(jù)制藥等一系列戰(zhàn)略性的新興產(chǎn)業(yè)。
大數(shù)據(jù)還引起了科技界對(duì)科學(xué)研究方法論的重新審視,正在引發(fā)科學(xué)研究思維與方法的一場(chǎng)革命。最早的科學(xué)研究只有實(shí)驗(yàn)科學(xué),隨后出現(xiàn)了以研究各種定律和定理為特征的理論科學(xué)。由于理論分析方法在許多問(wèn)題上過(guò)于復(fù)雜,難以解決實(shí)際問(wèn)題,人們開始尋求模擬的方法,導(dǎo)致計(jì)算科學(xué)的興起。海量數(shù)據(jù)的出現(xiàn)催生了一種新的科研模式,即面對(duì)海量數(shù)據(jù),科研人員只需從數(shù)據(jù)中直接查找或挖掘所需要的信息、知識(shí)和智慧,甚至無(wú)需直接接觸需研究的對(duì)象。2007年,已故的圖靈獎(jiǎng)得主吉姆·格雷(Jim Gray)在他最后一次演講中描繪了數(shù)據(jù)密集型科學(xué)研究的“第四范式”(The Fourth Paradigm)[5],把數(shù)據(jù)密集型科學(xué)從計(jì)算科學(xué)中單獨(dú)區(qū)分開來(lái)。格雷認(rèn)為,要解決我們面臨的某些最棘手的全球性挑戰(zhàn),“第四范式”可能是唯一具有系統(tǒng)性的方法。其實(shí),“第四范式”不僅是科研方式的轉(zhuǎn)變,也是人們思維方式的大變化。
計(jì)算機(jī)科學(xué)是關(guān)于算法的科學(xué),數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué)。從事數(shù)據(jù)科學(xué)研究的學(xué)者更關(guān)注數(shù)據(jù)的科學(xué)價(jià)值,試圖把數(shù)據(jù)當(dāng)成一個(gè)“自然體(Data nature)”來(lái)研究,提出所謂“數(shù)據(jù)界(Data universe)”的概念,頗有把計(jì)算機(jī)科學(xué)劃歸為自然科學(xué)的傾向。但脫離各個(gè)領(lǐng)域的“物理世界”,作為客觀事物間接存在形式的“數(shù)據(jù)界”究竟有什么共性問(wèn)題還不清楚。物理世界在網(wǎng)絡(luò)空間中有其數(shù)據(jù)映像,目前一些學(xué)者認(rèn)為,數(shù)據(jù)界的規(guī)律其本質(zhì)可能是物理世界的規(guī)律(還需要在物理世界中測(cè)試驗(yàn)證)。除去各個(gè)領(lǐng)域的規(guī)律,作為映像的“數(shù)據(jù)界”還有其獨(dú)特的共同規(guī)律嗎?這是一個(gè)值得深思的問(wèn)題。
任何領(lǐng)域的研究,若要成為一門科學(xué),一定是研究共性的問(wèn)題。針對(duì)非常狹窄領(lǐng)域的某個(gè)具體問(wèn)題,主要依靠該問(wèn)題涉及的特殊條件和專門知識(shí)做數(shù)據(jù)挖掘,不大可能使大數(shù)據(jù)成為一門科學(xué)。數(shù)據(jù)研究能成為一門科學(xué)的前提是,在一個(gè)領(lǐng)域發(fā)現(xiàn)的數(shù)據(jù)相互關(guān)系和規(guī)律具有可推廣到其他領(lǐng)域的普適性。抽象出一個(gè)領(lǐng)域的共性科學(xué)問(wèn)題往往需要較長(zhǎng)的時(shí)間,提煉“數(shù)據(jù)界”的共性科學(xué)問(wèn)題還需要一段時(shí)間的實(shí)踐積累。至少未來(lái)5—10年內(nèi)計(jì)算機(jī)界的學(xué)者還需多花精力協(xié)助其他領(lǐng)域的學(xué)者解決大數(shù)據(jù)帶來(lái)的技術(shù)挑戰(zhàn)問(wèn)題。通過(guò)分層次的不斷抽象,大數(shù)據(jù)的共性科學(xué)問(wèn)題才會(huì)逐步清晰明朗。
當(dāng)前數(shù)據(jù)科學(xué)的目標(biāo)還不很明確,但與其他學(xué)科一樣,科學(xué)研究的道路常常是先做“白盒研究”,知識(shí)積累多了就有可能抽象出通用性較強(qiáng)的“黑盒模型”和普適規(guī)律。數(shù)據(jù)庫(kù)理論是一個(gè)很好的例子。在經(jīng)歷了層次數(shù)據(jù)庫(kù)、網(wǎng)狀數(shù)據(jù)庫(kù)多年實(shí)踐后,Codd[18]發(fā)現(xiàn)了數(shù)據(jù)庫(kù)應(yīng)用的共性規(guī)律,建立了有堅(jiān)實(shí)理論基礎(chǔ)的關(guān)系模型。在這之前人們也一直在問(wèn)數(shù)據(jù)庫(kù)可不可能有共性的理論?,F(xiàn)在大數(shù)據(jù)研究要做的事就是提出像關(guān)系數(shù)據(jù)庫(kù)這樣的理論來(lái)指導(dǎo)海量非結(jié)構(gòu)化數(shù)據(jù)的處理。
信息技術(shù)的發(fā)展使我們逐步進(jìn)入“人-機(jī)-物”融合的三元世界,未來(lái)的世界可以做到“機(jī)中有人,人中有機(jī),物中有機(jī),機(jī)中有物”。所謂“機(jī)”就是聯(lián)系人類社會(huì)(包括個(gè)人身體與大腦)與物理世界的網(wǎng)絡(luò)空間,其最基本的構(gòu)成元素是不同于原子和神經(jīng)元的bit。物理空間和人類社會(huì)(包括人的大腦)都有共性的科學(xué)問(wèn)題和規(guī)律,與這兩者有密切聯(lián)系的網(wǎng)絡(luò)空間會(huì)不會(huì)有不同的共性科學(xué)問(wèn)題?從“人-機(jī)-物”三元世界的角度來(lái)探討大數(shù)據(jù)科學(xué)的共性問(wèn)題,也許是一個(gè)可以嘗試的突破口。
觀察各種復(fù)雜系統(tǒng)得到的大數(shù)據(jù),直接反映的往往是一個(gè)個(gè)孤立的數(shù)據(jù)和分散的鏈接,但這些反映相互關(guān)系的鏈接整合起來(lái)就是一個(gè)網(wǎng)絡(luò)。例如,基因數(shù)據(jù)構(gòu)成基因網(wǎng)絡(luò),腦科學(xué)實(shí)驗(yàn)數(shù)據(jù)形成神經(jīng)網(wǎng)絡(luò),Web數(shù)據(jù)反映出社會(huì)網(wǎng)絡(luò)。數(shù)據(jù)的共性、網(wǎng)絡(luò)的整體特征隱藏在數(shù)據(jù)網(wǎng)絡(luò)中,大數(shù)據(jù)往往以復(fù)雜關(guān)聯(lián)的數(shù)據(jù)網(wǎng)絡(luò)這樣一種獨(dú)特的形式存在,因此要理解大數(shù)據(jù)就要對(duì)大數(shù)據(jù)后面的網(wǎng)絡(luò)進(jìn)行深入分析。網(wǎng)絡(luò)有不少參數(shù)和性質(zhì),如平均路徑長(zhǎng)度、度分布、聚集系數(shù)、核數(shù)、介數(shù)等,這些性質(zhì)和參數(shù)也許能刻畫大數(shù)據(jù)背后網(wǎng)絡(luò)的共性。因此,大數(shù)據(jù)面臨的科學(xué)問(wèn)題本質(zhì)上可能就是網(wǎng)絡(luò)科學(xué)問(wèn)題,復(fù)雜網(wǎng)絡(luò)分析應(yīng)該是數(shù)據(jù)科學(xué)的重要基石。
目前,研究Web數(shù)據(jù)的學(xué)者以復(fù)雜網(wǎng)絡(luò)上的數(shù)據(jù)(信息)傳播機(jī)理、搜索、聚類、同步和控制作為主要研究方向。最新的研究成果表明[4],隨機(jī)的Scale-free網(wǎng)絡(luò)不是一般的“小世界”,而是“超小世界(Ultrasmall world)”,規(guī)模為N的網(wǎng)絡(luò)的最短路徑的平均長(zhǎng)度不是一般小世界的lnN而是lnlnN。網(wǎng)絡(luò)數(shù)據(jù)研究應(yīng)發(fā)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)產(chǎn)生、傳播以及網(wǎng)絡(luò)信息涌現(xiàn)的內(nèi)在機(jī)制,還要研究隱藏在數(shù)據(jù)背后的社會(huì)學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)的機(jī)理,同時(shí)利用這些機(jī)理研究互聯(lián)網(wǎng)對(duì)政治、經(jīng)濟(jì)、文化、教育、科研的影響?;诖髷?shù)據(jù)對(duì)復(fù)雜系統(tǒng)內(nèi)在機(jī)理進(jìn)行整體性的研究,也許將為研究復(fù)雜系統(tǒng)提供新的途徑。從這種意義上看,數(shù)據(jù)科學(xué)是從整體上研究復(fù)雜系統(tǒng)的一門科學(xué)。
發(fā)現(xiàn)Scale-free網(wǎng)絡(luò)的Albert-László Barabási教授在2012年1月的Nature Phys?ics上發(fā)表一篇重要文章“The network take?over”[3]。文章認(rèn)為:20世紀(jì)是量子力學(xué)的世紀(jì),從電子學(xué)到天文物理學(xué),從核能到量子計(jì)算,都離不開量子力學(xué);而到了21世紀(jì),網(wǎng)絡(luò)理論正在成為量子力學(xué)的可尊敬的后繼,正在構(gòu)建一個(gè)新的理論和算法的框架。
大數(shù)據(jù)研究不同于傳統(tǒng)的邏輯推理研究,而是對(duì)數(shù)量巨大的數(shù)據(jù)做統(tǒng)計(jì)性的搜索、比較、聚類、分類等分析歸納,因此繼承了統(tǒng)計(jì)科學(xué)的一些特點(diǎn)。統(tǒng)計(jì)學(xué)關(guān)注數(shù)據(jù)的相關(guān)性或稱關(guān)聯(lián)性,所謂“相關(guān)性”是指兩個(gè)或兩個(gè)以上變量的取值之間存在某種規(guī)律性?!跋嚓P(guān)分析”的目的是找出數(shù)據(jù)集里隱藏的相互關(guān)系網(wǎng)(關(guān)聯(lián)網(wǎng)),一般用支持度、可信度、興趣度等參數(shù)反映相關(guān)性。兩個(gè)數(shù)據(jù)A和B有相關(guān)性,只有反映A和B在取值時(shí)相互有影響,并不能告訴我們有A就一定有B,或者反過(guò)來(lái)有B就一定有A。嚴(yán)格來(lái)講,統(tǒng)計(jì)學(xué)無(wú)法檢驗(yàn)邏輯上的因果關(guān)系。如,根據(jù)統(tǒng)計(jì)結(jié)果:可以說(shuō)“吸煙的人群肺癌發(fā)病率會(huì)比不吸煙的人群高幾倍”,但統(tǒng)計(jì)結(jié)果無(wú)法得出“吸煙致癌”的邏輯結(jié)論。統(tǒng)計(jì)學(xué)的相關(guān)性有時(shí)可能會(huì)產(chǎn)生把結(jié)果當(dāng)成原因的錯(cuò)覺(jué)。如,統(tǒng)計(jì)結(jié)果表明:下雨之前常見到燕子低飛,從時(shí)間先后看兩者的關(guān)系可能得出燕子低飛是下雨的原因,而事實(shí)上,將要下雨才是燕子低飛的原因。
也許正是因?yàn)榻y(tǒng)計(jì)方法不能致力于尋找真正的原因,才促使數(shù)據(jù)挖掘和大數(shù)據(jù)技術(shù)在商業(yè)領(lǐng)域廣泛流行。企業(yè)的目標(biāo)是多賺錢,只要從數(shù)據(jù)挖掘中發(fā)現(xiàn)某種措施與增加企業(yè)利潤(rùn)有較強(qiáng)的相關(guān)性,采取這種措施就是了,不必深究為什么能增加利潤(rùn),更不必發(fā)現(xiàn)其背后的內(nèi)在規(guī)律和模型。一般而言,企業(yè)收集和處理大數(shù)據(jù),不是按學(xué)者們經(jīng)常描述的“從數(shù)據(jù)到信息再到知識(shí)和智慧”的研究思路,而是走“從數(shù)據(jù)直接到價(jià)值”的捷徑。Google廣告獲得巨額收入經(jīng)常被引用作為大數(shù)據(jù)相關(guān)分析的成功案例,美國(guó)Wired雜志主編Chris Anderson在他的著名文章“The End of Theory”的結(jié)尾發(fā)問(wèn):“現(xiàn)在是時(shí)候問(wèn)這一句了:科學(xué)能從谷歌那兒學(xué)到什么?”[2]。
因果關(guān)系的研究曾引發(fā)了科學(xué)體系的建立,近代科學(xué)體系獲得的成就已經(jīng)證明,科學(xué)是研究因果關(guān)系最重要的手段。相關(guān)性研究是可以替代因果分析的科學(xué)新發(fā)展還只是因果分析的補(bǔ)充,不同的學(xué)者有完全不同的看法。我們都是從做平面幾何證明題開始進(jìn)入科學(xué)大花園的,腦子里固有的邏輯思維模式少不了因果分析,判斷是否是真理也習(xí)慣看充分必要條件,對(duì)于大數(shù)據(jù)的關(guān)聯(lián)分析蘊(yùn)含的科學(xué)意義往往理解不深。對(duì)于簡(jiǎn)單封閉的系統(tǒng),基于小數(shù)據(jù)的因果分析容易做到。當(dāng)年開普勒發(fā)現(xiàn)行星三大定律,牛頓發(fā)現(xiàn)力學(xué)三大定律都是基于小數(shù)據(jù)。但對(duì)于開放復(fù)雜的巨系統(tǒng),傳統(tǒng)的因果分析難以奏效,因?yàn)橄到y(tǒng)中各個(gè)組成部分之間相互有影響,可能互為因果,因果關(guān)系隱藏在整個(gè)系統(tǒng)之中。現(xiàn)在的“因”可能是過(guò)去的“果”,此處的“果”也可能是別處的“因”,因果關(guān)系本質(zhì)上是一種相互糾纏的相關(guān)性。在物理學(xué)的基本粒子理論中,頗受重視的歐幾里德量子引力學(xué)(霍金所倡導(dǎo)的理論)本身并不包括因果律。因此,對(duì)于大數(shù)據(jù)的關(guān)聯(lián)分析是不是“知其然而不知其所以然”,其中可能包含深?yuàn)W的哲理,不能貿(mào)然下結(jié)論。
根據(jù)數(shù)據(jù)的來(lái)源,大數(shù)據(jù)可以初略地分成兩大類:一類來(lái)自物理世界,另一類來(lái)自人類社會(huì)。前者多半是科學(xué)實(shí)驗(yàn)數(shù)據(jù)或傳感數(shù)據(jù),后者與人的活動(dòng)有關(guān)系,特別是與互聯(lián)網(wǎng)有關(guān)。這兩類數(shù)據(jù)的處理方式和目標(biāo)差別較大,不能照搬處理科學(xué)實(shí)驗(yàn)數(shù)據(jù)的方法來(lái)處理Web數(shù)據(jù)。
科學(xué)實(shí)驗(yàn)是科技人員設(shè)計(jì)的,如何采集數(shù)據(jù)、處理數(shù)據(jù)事先都已想好了,不管是檢索還是模式識(shí)別,都有一定的科學(xué)規(guī)律可循。美國(guó)的大數(shù)據(jù)研究計(jì)劃中專門列出尋找希格斯粒子(被稱為“上帝粒子”)的大型強(qiáng)子對(duì)撞機(jī)(LHC)實(shí)驗(yàn)。這是一個(gè)典型的基于大數(shù)據(jù)的科學(xué)實(shí)驗(yàn),至少要在1萬(wàn)億個(gè)事例中才可能找出1個(gè)希格斯粒子。2012年7月4日,CERN宣布發(fā)現(xiàn)新的玻色子,標(biāo)準(zhǔn)差為4.9,被認(rèn)為可能是希格斯玻色子(承認(rèn)是希格斯玻色子粒子需要5個(gè)標(biāo)準(zhǔn)差,即99.99943%的可能性是對(duì)的)[12]。設(shè)計(jì)這一實(shí)驗(yàn)的激動(dòng)人心之處在于,不論找到還是沒(méi)有找到希格斯粒子,都是物理學(xué)的重大突破。從這一實(shí)驗(yàn)可以看出,科學(xué)實(shí)驗(yàn)的大數(shù)據(jù)處理是整個(gè)實(shí)驗(yàn)的一個(gè)預(yù)定步驟,發(fā)現(xiàn)有價(jià)值的信息往往在預(yù)料之中。
Web上的信息(譬如微博)是千千萬(wàn)萬(wàn)的人隨機(jī)產(chǎn)生的,從事社會(huì)科學(xué)研究的學(xué)者要從這些看似雜亂無(wú)章的數(shù)據(jù)中尋找有價(jià)值的蛛絲馬跡。網(wǎng)絡(luò)大數(shù)據(jù)有許多不同于自然科學(xué)數(shù)據(jù)的特點(diǎn),包括多源異構(gòu)、交互性、時(shí)效性、社會(huì)性、突發(fā)性和高噪聲等,不但非結(jié)構(gòu)化數(shù)據(jù)多,而且數(shù)據(jù)的實(shí)時(shí)性強(qiáng),大量數(shù)據(jù)都是隨機(jī)動(dòng)態(tài)產(chǎn)生??茖W(xué)數(shù)據(jù)的采集一般代價(jià)較高,LHC實(shí)驗(yàn)設(shè)備花了幾十億美元,因此對(duì)采集什么數(shù)據(jù)要做精心安排。而網(wǎng)絡(luò)數(shù)據(jù)的采集相對(duì)成本較低,網(wǎng)上許多數(shù)據(jù)是重復(fù)的或者沒(méi)有價(jià)值,價(jià)值密度很低。一般而言,社會(huì)科學(xué)的大數(shù)據(jù)分析,特別是根據(jù)Web數(shù)據(jù)做經(jīng)濟(jì)形勢(shì)、安全形勢(shì)、社會(huì)群體事件的預(yù)測(cè),比科學(xué)實(shí)驗(yàn)的數(shù)據(jù)分析更困難。
未來(lái)的任務(wù)主要不是獲取越來(lái)來(lái)越多的數(shù)據(jù),而是數(shù)據(jù)的去冗分類、去粗取精,從數(shù)據(jù)中挖掘知識(shí)。幾百年來(lái),科學(xué)研究一直在做“從薄到厚”的事情,把“小數(shù)據(jù)”變成“大數(shù)據(jù)”,現(xiàn)在要做的事情是“從厚到薄”,要把大數(shù)據(jù)變成小數(shù)據(jù)。要在不明顯增加采集成本的條件下盡可能提高數(shù)據(jù)的質(zhì)量。要研究如何科學(xué)合理地抽樣采集數(shù)據(jù),減少不必要的數(shù)據(jù)采集。兩三歲的小孩學(xué)習(xí)識(shí)別動(dòng)物和汽車等,往往幾十張樣本圖片就足夠了,研究清楚人類為什么具有小數(shù)據(jù)學(xué)習(xí)能力,對(duì)開展大數(shù)據(jù)分析研究具有深刻的指導(dǎo)意義。
近10年來(lái)增長(zhǎng)最快的數(shù)據(jù)是網(wǎng)絡(luò)上傳播的各種非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)的背后是相互聯(lián)系的各種人群,網(wǎng)絡(luò)大數(shù)據(jù)的處理能力直接關(guān)系到國(guó)家的信息空間安全和社會(huì)穩(wěn)定[10]。從心理學(xué)、經(jīng)濟(jì)學(xué)、信息科學(xué)等不同學(xué)科領(lǐng)域共同探討網(wǎng)絡(luò)數(shù)據(jù)的產(chǎn)生、擴(kuò)散、涌現(xiàn)的基本規(guī)律,是建立安全和諧的網(wǎng)絡(luò)環(huán)境的重大戰(zhàn)略需求,是促使國(guó)家長(zhǎng)治久安的大事。我國(guó)擁有世界上最多的網(wǎng)民和最大的訪問(wèn)量,在網(wǎng)絡(luò)大數(shù)據(jù)分析方面已有較強(qiáng)的基礎(chǔ),有望做出世界領(lǐng)先的原始創(chuàng)新成果,應(yīng)加大網(wǎng)絡(luò)大數(shù)據(jù)分析方面的研究力度。
計(jì)算復(fù)雜性是計(jì)算機(jī)科學(xué)的基本問(wèn)題,科學(xué)計(jì)算主要考慮時(shí)間復(fù)雜性和空間復(fù)雜性。對(duì)于大數(shù)據(jù)處理,除了時(shí)間和空間復(fù)雜性外,可能還需要考慮解決一個(gè)問(wèn)題需要多大的數(shù)據(jù)量,暫且稱為“數(shù)據(jù)量復(fù)雜性”。數(shù)據(jù)量復(fù)雜性和空間復(fù)雜性不是一個(gè)概念,空間復(fù)雜性要考慮計(jì)算過(guò)程中產(chǎn)生的空間需求。
設(shè)想有人采集完全隨機(jī)地拋擲硬幣的正反面數(shù)據(jù),得到極長(zhǎng)的01數(shù)字序列,通過(guò)統(tǒng)計(jì)可計(jì)算出現(xiàn)正面的比例??梢钥隙?,收集的數(shù)據(jù)越多,其結(jié)果與0.5的誤差越小,這是一個(gè)無(wú)限漸進(jìn)的過(guò)程?;谖ㄏ蠹僭O(shè)的數(shù)據(jù)處理常出現(xiàn)這類增量式進(jìn)步,數(shù)據(jù)多一點(diǎn),結(jié)果就好一點(diǎn)。這類問(wèn)題的數(shù)據(jù)科學(xué)價(jià)值可能不大。反過(guò)來(lái),可能有些問(wèn)題的數(shù)據(jù)處理像個(gè)無(wú)底洞,無(wú)論多少數(shù)據(jù)都不可能解決問(wèn)題。這種問(wèn)題有些類似NP問(wèn)題。我們需要建立一種理論,對(duì)求解一個(gè)問(wèn)題達(dá)到某種滿意程度(對(duì)判定問(wèn)題是有多大把握說(shuō)“是”或“否”,優(yōu)化問(wèn)題是接近最優(yōu)解的程度)需要多大規(guī)模的數(shù)據(jù)量給出理論上的判斷。當(dāng)然,目前還有很多問(wèn)題沒(méi)有定義清楚,比如,對(duì)于網(wǎng)絡(luò)搜索之類的問(wèn)題,如何定義問(wèn)題規(guī)模和數(shù)據(jù)規(guī)模等。
對(duì)從事大數(shù)據(jù)研究的學(xué)者而言,最有意思的問(wèn)題應(yīng)該是,解決一個(gè)問(wèn)題的數(shù)據(jù)規(guī)模有一個(gè)閾值。數(shù)據(jù)少于這個(gè)閾值,問(wèn)題解決不了;達(dá)到這個(gè)閾值,就可以解決以前解決不了的大問(wèn)題;而數(shù)據(jù)規(guī)模超過(guò)這個(gè)閾值,對(duì)解決問(wèn)題也沒(méi)有更多的幫助。我們把這類問(wèn)題稱為“預(yù)言性數(shù)據(jù)分析問(wèn)題”,即在做大數(shù)據(jù)處理之前,我們可以預(yù)言,當(dāng)數(shù)據(jù)量到達(dá)多大規(guī)模時(shí),該問(wèn)題的解可以達(dá)到何種滿意程度。
與社會(huì)科學(xué)有關(guān)的大數(shù)據(jù)問(wèn)題,例如輿情分析、情感分析等,許多理論問(wèn)題過(guò)去沒(méi)有考慮過(guò),才剛剛開始研究。迫切需要計(jì)算機(jī)學(xué)者與社會(huì)科學(xué)領(lǐng)域的學(xué)者密切合作,共同開拓新的疆域。借助大數(shù)據(jù)的推力,社會(huì)科學(xué)將脫下“準(zhǔn)科學(xué)”的外衣,真正邁進(jìn)科學(xué)的殿堂。
已故圖靈獎(jiǎng)得主吉姆·格雷提出的數(shù)據(jù)密集型科研“第四范式(the fourth paradigm)”,將大數(shù)據(jù)科研從第三范式(計(jì)算科學(xué))中分離出來(lái)單獨(dú)作為一種科研范式,是因?yàn)槠溲芯糠绞讲煌诨跀?shù)學(xué)模型的傳統(tǒng)研究方式[5]。Google公司的研究部主任Peter Norvig的一句名言可以概括兩者的區(qū)別:“所有的模型都是錯(cuò)誤的,進(jìn)一步說(shuō),沒(méi)有模型你也可以成功(All models are wrong,and increasingly you can succeed without them)”[2]。PB級(jí)數(shù)據(jù)使我們可以做到?jīng)]有模型和假設(shè)就可以分析數(shù)據(jù)。將數(shù)據(jù)丟進(jìn)巨大的計(jì)算機(jī)機(jī)群中,只要有相互關(guān)系的數(shù)據(jù),統(tǒng)計(jì)分析算法可以發(fā)現(xiàn)過(guò)去的科學(xué)方法發(fā)現(xiàn)不了的新模式、新知識(shí)甚至新規(guī)律。實(shí)際上,Google的廣告優(yōu)化配置、戰(zhàn)勝人類的IBM沃森問(wèn)答系統(tǒng)都是這么實(shí)現(xiàn)的,這就是“第四范式”的魅力!
美國(guó)Wired雜志主編Chris Anderson 2008年曾發(fā)出“理論已終結(jié)”的驚人斷言:“數(shù)據(jù)洪流使(傳統(tǒng))科學(xué)方法變得過(guò)時(shí)(The Data Deluge Makes the Scientific Method Obsolete)”[2]。他指出,獲得海量數(shù)據(jù)和處理這些數(shù)據(jù)的統(tǒng)計(jì)工具的可能性提供了理解世界的一條完整的新途徑。Petabytes讓我們說(shuō):相互關(guān)系已經(jīng)足夠(Correlation is enough)。我們可以停止尋找模型,相互關(guān)系取代了因果關(guān)系,沒(méi)有具有一致性的模型、統(tǒng)一的理論和任何機(jī)械式的說(shuō)明,科學(xué)也可以進(jìn)步。
Chris Anderson的極端看法并沒(méi)有得到科學(xué)界的普遍認(rèn)同,數(shù)據(jù)量的增加能否引起科研方法本質(zhì)性的改變?nèi)匀皇且粋€(gè)值得探討的問(wèn)題。對(duì)研究領(lǐng)域的深刻理解(如空氣動(dòng)力學(xué)方程用于風(fēng)洞實(shí)驗(yàn))和數(shù)據(jù)量的積累應(yīng)是一個(gè)迭代累進(jìn)的過(guò)程。沒(méi)有科學(xué)假設(shè)和模型就能發(fā)現(xiàn)新知識(shí)究竟有多大的普適性也需要實(shí)踐來(lái)檢驗(yàn),我們需要思考:這類問(wèn)題有多大的普遍性?這種優(yōu)勢(shì)是數(shù)據(jù)量特別大帶來(lái)的還是問(wèn)題本身有這種特性?所謂從數(shù)據(jù)中獲取知識(shí)要不要人的參與,人在機(jī)器自動(dòng)學(xué)習(xí)和運(yùn)行中應(yīng)該扮演什么角色?也許有些領(lǐng)域可以先用第四范式,等領(lǐng)域知識(shí)逐步豐富了再過(guò)渡到第三范式。
現(xiàn)有的數(shù)據(jù)中心技術(shù)很難滿足大數(shù)據(jù)的需求,需要考慮對(duì)整個(gè)IT架構(gòu)進(jìn)行革命性的重構(gòu)。而存儲(chǔ)能力的增長(zhǎng)遠(yuǎn)遠(yuǎn)趕不上數(shù)據(jù)的增長(zhǎng),因此設(shè)計(jì)最合理的分層存儲(chǔ)架構(gòu)已成為IT系統(tǒng)的關(guān)鍵。數(shù)據(jù)的移動(dòng)已成為IT系統(tǒng)最大的開銷,目前傳送大數(shù)據(jù)最高效也最實(shí)用的方式是通過(guò)飛機(jī)或地面交通工具運(yùn)送磁盤而不是網(wǎng)絡(luò)通信。在大數(shù)據(jù)時(shí)代,IT系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰鴶?shù)據(jù)轉(zhuǎn),將計(jì)算推送給數(shù)據(jù),而不是將數(shù)據(jù)推送給計(jì)算。大數(shù)據(jù)也導(dǎo)致高可擴(kuò)展性成為對(duì)IT系統(tǒng)最本質(zhì)的需求,并發(fā)執(zhí)行(同時(shí)執(zhí)行的線程)的規(guī)模要從現(xiàn)在的千萬(wàn)量級(jí)提高到10億級(jí)以上。
在應(yīng)對(duì)處理大數(shù)據(jù)的各種技術(shù)挑戰(zhàn)中,以下幾個(gè)問(wèn)題值得高度重視:
(1)大數(shù)據(jù)的去冗降噪技術(shù)。大數(shù)據(jù)一般都來(lái)自多個(gè)不同的源頭,而且往往以動(dòng)態(tài)數(shù)據(jù)流的形式產(chǎn)生。因此,大數(shù)據(jù)中常常包含有不同形態(tài)的噪聲數(shù)據(jù)。另外,數(shù)據(jù)采樣算法缺陷與設(shè)備故障也可能會(huì)導(dǎo)致大數(shù)據(jù)的噪聲。大數(shù)據(jù)的冗余則通常來(lái)自兩個(gè)方面:一方面,大數(shù)據(jù)的多源性導(dǎo)致了不同源頭的數(shù)據(jù)中存在有相同的數(shù)據(jù),從而造成數(shù)據(jù)的絕對(duì)冗余;另一方面,就具體的應(yīng)用需求而言,大數(shù)據(jù)可能會(huì)提供超量特別是超精度的數(shù)據(jù),這又形成數(shù)據(jù)的相對(duì)冗余。降低噪聲、消除冗余是提高數(shù)據(jù)質(zhì)量、降低數(shù)據(jù)存儲(chǔ)成本的基礎(chǔ);
(2)大數(shù)據(jù)的新型表示方法。目前表示數(shù)據(jù)的方法,不一定能直觀地展現(xiàn)出大數(shù)據(jù)本身的意義。要想有效利用數(shù)據(jù)并挖掘其中的信息或知識(shí),必須找到最合適的數(shù)據(jù)表示方法。在一種不合適的數(shù)據(jù)表示中尋找大數(shù)據(jù)的固定模式、因果關(guān)系和關(guān)聯(lián)關(guān)系時(shí),可能會(huì)落入固有的偏見之中。數(shù)據(jù)表示方法和最初的數(shù)據(jù)產(chǎn)生者有著密切關(guān)系。如果原始數(shù)據(jù)有必要的標(biāo)識(shí),就會(huì)大大減輕事后數(shù)據(jù)識(shí)別和分類的困難。但標(biāo)識(shí)數(shù)據(jù)會(huì)給用戶增添麻煩,所以往往得不到用戶認(rèn)可。研究既有效又簡(jiǎn)易的數(shù)據(jù)表示方法是處理網(wǎng)絡(luò)大數(shù)據(jù)必須解決的技術(shù)難題之一;
(3)高效率低成本的大數(shù)據(jù)存儲(chǔ)。大數(shù)據(jù)的存儲(chǔ)方式不僅影響其后的數(shù)據(jù)分析處理效率也影響數(shù)據(jù)存儲(chǔ)的成本。因此,就需要研究高效率低成本的數(shù)據(jù)存儲(chǔ)方式。具體則需要研究多源多模態(tài)數(shù)據(jù)高質(zhì)量獲取與整合的理論和技術(shù)、流式數(shù)據(jù)的高速索引創(chuàng)建與存儲(chǔ)、錯(cuò)誤自動(dòng)檢測(cè)與修復(fù)的理論和技術(shù)、低質(zhì)量數(shù)據(jù)上的近似計(jì)算的理論和算法等;
(4)大數(shù)據(jù)的有效融合。數(shù)據(jù)不整合就發(fā)揮不出大數(shù)據(jù)的大價(jià)值。大數(shù)據(jù)的泛濫與數(shù)據(jù)格式太多有關(guān)。大數(shù)據(jù)面臨的一個(gè)重要問(wèn)題是個(gè)人、企業(yè)和政府機(jī)構(gòu)的各種數(shù)據(jù)和信息能否方便地融合。如同人類有許多種自然語(yǔ)言一樣,作為網(wǎng)絡(luò)空間中唯一客觀存在的數(shù)據(jù)難免有多種格式。但為了掃清網(wǎng)絡(luò)大數(shù)據(jù)處理的障礙,應(yīng)研究推廣不與平臺(tái)綁定的數(shù)據(jù)格式。大數(shù)據(jù)已成為聯(lián)系人類社會(huì)、物理世界和網(wǎng)絡(luò)空間的紐帶,需要通過(guò)統(tǒng)一的數(shù)據(jù)格式構(gòu)建融合人、機(jī)、物三元世界的統(tǒng)一信息系統(tǒng);
(5)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的高效處理。據(jù)統(tǒng)計(jì),目前采集到的數(shù)據(jù)85%以上是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)技術(shù)無(wú)法勝任這些數(shù)據(jù)的處理,因?yàn)殛P(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的出發(fā)點(diǎn)是追求高度的數(shù)據(jù)一致性和容錯(cuò)性。根據(jù)CAP(Consistency,Availability,tolerance to network Partitions)理論,在分布式系統(tǒng)中,一致性、可用性、分區(qū)容錯(cuò)性三者不可兼得,因而并行關(guān)系數(shù)據(jù)庫(kù)必然無(wú)法獲得較強(qiáng)的擴(kuò)展性和良好的系統(tǒng)可用性。系統(tǒng)的高擴(kuò)展性是大數(shù)據(jù)分析最重要的需求,必須尋找高擴(kuò)展性的數(shù)據(jù)分析技術(shù)。以MapReduce和Hadoop為代表的非關(guān)系數(shù)據(jù)分析技術(shù),以其適合非結(jié)構(gòu)數(shù)據(jù)處理、大規(guī)模并行處理、簡(jiǎn)單易用等突出優(yōu)勢(shì),在互聯(lián)網(wǎng)信息搜索和其他大數(shù)據(jù)分析領(lǐng)域取得了重大進(jìn)展,已成為大數(shù)據(jù)分析的主流技術(shù)。MapReduce和Hadoop在應(yīng)用性能等方面還存在不少問(wèn)題,還需要研究開發(fā)更有效、更實(shí)用的大數(shù)據(jù)分析和管理技術(shù);
(6)適合不同行業(yè)的大數(shù)據(jù)挖掘分析工具和開發(fā)環(huán)境。不同行業(yè)需要不同的大數(shù)據(jù)分析工具和開發(fā)環(huán)境,應(yīng)鼓勵(lì)計(jì)算機(jī)算法研究人員與各領(lǐng)域的科研人員密切合作,在分析工具和開發(fā)環(huán)境上創(chuàng)新。當(dāng)前跨領(lǐng)域跨行業(yè)的數(shù)據(jù)共享仍存在大量壁壘,海量數(shù)據(jù)的收集,特別是關(guān)聯(lián)領(lǐng)域的同時(shí)收集還存在很大挑戰(zhàn)。只有跨領(lǐng)域的數(shù)據(jù)分析才更有可能形成真正的知識(shí)和智能,產(chǎn)生更大的價(jià)值;
(7)大幅度降低數(shù)據(jù)處理、存儲(chǔ)和通信能耗的新技術(shù)。大數(shù)據(jù)的獲取、通信、存儲(chǔ)、管理與分析處理都需要消耗大量的能源。在能源問(wèn)題日益突出的今天,研究創(chuàng)新的數(shù)據(jù)處理和傳送的節(jié)能方法與技術(shù)是重要的研究方向。
盡管大數(shù)據(jù)意味著大機(jī)遇,但同時(shí)也意味著工程技術(shù)、管理政策、人才培養(yǎng)等方面的大挑戰(zhàn)。只有解決了這些基礎(chǔ)性的挑戰(zhàn)問(wèn)題,才能充分利用這個(gè)大機(jī)遇,得到大數(shù)據(jù)的大價(jià)值。因此,我國(guó)亟需在國(guó)家層面對(duì)大數(shù)據(jù)給予高度重視,特別需要從政策制定、資源投入、人才培養(yǎng)等方面給予強(qiáng)有力的支持;另一方面,建立良性的大數(shù)據(jù)生態(tài)環(huán)境是有效應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的唯一出路,需要科技界、工業(yè)界以及政府部門在國(guó)家政策的引導(dǎo)下共同努力,通過(guò)消除壁壘、成立聯(lián)盟、建立專業(yè)組織等途徑,建立和諧的大數(shù)據(jù)生態(tài)系統(tǒng)。
就大數(shù)據(jù)研究計(jì)劃與措施,我們有如下的建議:
大數(shù)據(jù)涉及物理、生物、腦科學(xué)、醫(yī)療、環(huán)保、經(jīng)濟(jì)、文化、安全等眾多領(lǐng)域。網(wǎng)絡(luò)空間中的數(shù)據(jù)是大數(shù)據(jù)的重要組成部分,這類大數(shù)據(jù)與人的活動(dòng)密切相關(guān),因此也與社會(huì)科學(xué)密切相關(guān)。而網(wǎng)絡(luò)數(shù)據(jù)科學(xué)和工程是信息科學(xué)技術(shù)與社會(huì)科學(xué)等多個(gè)不同領(lǐng)域高度交叉的新型學(xué)科方向,對(duì)國(guó)家的穩(wěn)定與發(fā)展有獨(dú)特的作用,因此應(yīng)特別重視與支持網(wǎng)絡(luò)大數(shù)據(jù)的研究。大數(shù)據(jù)涉及應(yīng)用領(lǐng)域很廣,當(dāng)前大數(shù)據(jù)的研究應(yīng)與國(guó)計(jì)民生密切相關(guān)的科學(xué)決策、環(huán)境與社會(huì)管理、金融工程、應(yīng)急管理(如疾病防治、災(zāi)害預(yù)測(cè)與控制、食品安全與群體事件)以及知識(shí)經(jīng)濟(jì)為主要應(yīng)用領(lǐng)域。
無(wú)論是國(guó)外政府的大數(shù)據(jù)研究計(jì)劃,還是國(guó)內(nèi)外大公司的大數(shù)據(jù)研發(fā),當(dāng)前最重視的都是大數(shù)據(jù)分析算法和大數(shù)據(jù)系統(tǒng)的效率。因此,當(dāng)工業(yè)界把主要精力放在應(yīng)對(duì)大數(shù)據(jù)的工程技術(shù)挑戰(zhàn)的時(shí)候,科技界應(yīng)開始著手關(guān)注大數(shù)據(jù)的基礎(chǔ)理論研究。大數(shù)據(jù)科學(xué)作為一個(gè)新興的交叉學(xué)科方向,其共性理論基礎(chǔ)將來(lái)自多個(gè)不同的學(xué)科領(lǐng)域,包括計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、人工智能、社會(huì)科學(xué)等。因此,大數(shù)據(jù)的基礎(chǔ)研究離不開對(duì)相關(guān)學(xué)科的領(lǐng)域知識(shí)與研究方法論的借鑒。在大數(shù)據(jù)的基礎(chǔ)研究方面,建議研究大數(shù)據(jù)的內(nèi)在機(jī)理,包括大數(shù)據(jù)的生命周期、演化與傳播規(guī)律,數(shù)據(jù)科學(xué)與社會(huì)學(xué)、經(jīng)濟(jì)學(xué)等之間的互動(dòng)機(jī)制,以及大數(shù)據(jù)的結(jié)構(gòu)與效能的規(guī)律性(如社會(huì)效應(yīng)、經(jīng)濟(jì)效應(yīng)等)。在大數(shù)據(jù)計(jì)算方面,研究大數(shù)據(jù)表示、數(shù)據(jù)復(fù)雜性以及大數(shù)據(jù)計(jì)算模型。在大數(shù)據(jù)應(yīng)用基礎(chǔ)理論方面,研究大數(shù)據(jù)與知識(shí)發(fā)現(xiàn)(學(xué)習(xí)方法、語(yǔ)義解釋),大數(shù)據(jù)環(huán)境下的實(shí)驗(yàn)與驗(yàn)證方法,以及大數(shù)據(jù)的安全與隱私等。
2012年10月,中國(guó)計(jì)算機(jī)學(xué)會(huì)和中國(guó)通信學(xué)會(huì)各自成立了大數(shù)據(jù)專家委員會(huì),從行業(yè)學(xué)會(huì)的層面來(lái)組織和推動(dòng)大數(shù)據(jù)的相關(guān)產(chǎn)學(xué)研用活動(dòng)。但這還不夠,建議中科院、科技部、基金委共同推動(dòng)成立一個(gè)組織機(jī)構(gòu),建立一個(gè)大數(shù)據(jù)科學(xué)研究平臺(tái),更好地組織大數(shù)據(jù)的協(xié)同創(chuàng)新研究與戰(zhàn)略性應(yīng)用;成立國(guó)家級(jí)的行業(yè)大數(shù)據(jù)共享聯(lián)盟,使產(chǎn)業(yè)界、科技界以及政府部門都能夠參與進(jìn)來(lái),一方面為學(xué)術(shù)研究提供基本的數(shù)據(jù)資源,另一方面為大數(shù)據(jù)的應(yīng)用提供理論與技術(shù)支持。此外,還需成立國(guó)家級(jí)的面向大數(shù)據(jù)研究與應(yīng)用的開源社區(qū),同時(shí)也向國(guó)際開源社區(qū)的核心團(tuán)隊(duì)舉薦核心成員,使國(guó)際頂級(jí)的開源社區(qū)能夠聽到來(lái)自中國(guó)的“聲音”。
在資源支持方面,建議啟動(dòng)“中國(guó)大數(shù)據(jù)科學(xué)與工程研究計(jì)劃”,從宏觀上對(duì)我國(guó)的大數(shù)據(jù)產(chǎn)學(xué)研用做出系統(tǒng)全面的短期與長(zhǎng)期規(guī)劃。設(shè)立自然科學(xué)重大研究計(jì)劃(基金重大)以及重大基礎(chǔ)科學(xué)研究項(xiàng)目群(“973”項(xiàng)目群或“863”重大項(xiàng)目)等專項(xiàng)資金,有針對(duì)性地資助有關(guān)大數(shù)據(jù)的重大科研活動(dòng)。此外,國(guó)家在大數(shù)據(jù)平臺(tái)的構(gòu)建、典型行業(yè)的應(yīng)用以及研發(fā)人才的培養(yǎng)等方面應(yīng)提供相應(yīng)的財(cái)力、物力與人力支持。
1 李國(guó)杰.大數(shù)據(jù)研究的科學(xué)價(jià)值.中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2012,8(9):8-15.
2 Chris Anderson.The End of Theory:The Data Deluge Makes the Scientific Method Obsolete.Wired,2008,16(7).
3 Albert-László Barabási.The network takeover.Nature Physics,2012,8(1):14-16.
4 Reuven Cohen,Shlomo Havlin.Scale-Free Networks Are Ultrasmall.Physical Review Letters,2003,90,(5).
5 Tony Hey,Stewart Tansley,Kristin Tolle(Editors).The Fourth Paradigm:Data-Intensive Scientific Discovery.Microsoft,2009,October 16.
6 Big Data.Nature,2008,455(7209):1-136.
7 Dealing with data.Science,2011,331(6018):639-806.
8 Complexity.Nature Physics,2012,8(1).
9 Big Data.ERCIM News,2012,(89).
10 David Lazer,Alex Pentland,Lada Adamic et al.Computational Social Science.Science,2009,323(5915):721-723.
11 The 2011 Digital Universe Study:Extracting Value from Chaos.International Data Corporation and EMC,June 2011.
12 CERN experiments observe particle consistent with long-sought Higgs boson.CERN press release,July 4,2012.
13 Tom Kalil.Big Data is a Big Deal,March 29,2012.Available at:http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.
14 Divyakant Agrawal,Philip Bernstein,Elisa Bertino et al.Challenges and Opportunities with Big Data,Cyber Center Technical Reports,February 2012.Available at:http://docs.lib.purdue.edu/cctech/1.
15 James Manyika,Michael Chui,Brad Brown et al.Big data:The next frontier for innovation,competition,and productivity.McK-insey Global Institute,May 2011.
16 Steve Lohr.The Age of Big Data.New York Times,February 11,2012.
17 Pattern-Based Strategy:Getting Value from Big Data.Gartner Group press release,July 2011.
18 Codd E F.A Relational Model of Data for Large Shared Data Banks.Communications of the ACM,1970,13(6):377-387.