厲 劍 張紹雄 劉俊杰 李成柱
(中國人民解放軍75660部隊(duì),廣西 桂林 541002)
隨著各種社交網(wǎng)絡(luò)日漸成熟,移動(dòng)帶寬迅速提升,云計(jì)算、物聯(lián)網(wǎng)應(yīng)用更加豐富,各種各樣的傳感設(shè)備、移動(dòng)終端接入網(wǎng)絡(luò),由此產(chǎn)生的數(shù)據(jù)也正呈現(xiàn)出爆炸式增長態(tài)勢。美國互聯(lián)網(wǎng)數(shù)據(jù)中心(Internet Data Center,IDC)指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年翻一番,目前世界上90%以上的數(shù)據(jù)卻是最近幾年才產(chǎn)生的,由此可見,世界已開始進(jìn)入網(wǎng)絡(luò)化的大數(shù)據(jù)(Big Data)時(shí)代?!按髷?shù)據(jù)”已成為目前IT界的流行詞匯,引起了產(chǎn)業(yè)界、科技界和政府部門的高度關(guān)注。數(shù)據(jù)信息的大爆炸預(yù)示著未來將會因大數(shù)據(jù)而改變。
大數(shù)據(jù)(Big data)是指無法在一定時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對其進(jìn)行感知、獲取、管理、處理和應(yīng)用的海量、復(fù)雜的數(shù)據(jù)集合,其并非單純指互聯(lián)網(wǎng)上的相關(guān)信息,物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,都是數(shù)據(jù)來源或者承載方式。大數(shù)據(jù)通常是指數(shù)字化時(shí)代創(chuàng)造出的大量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。根據(jù)數(shù)據(jù)來源,可以分為兩大類:一類來自物理世界,多半是科學(xué)實(shí)驗(yàn)數(shù)據(jù)或傳感數(shù)據(jù);另一類來自人類社會,與人的活動(dòng)密切相關(guān),特別是與互聯(lián)網(wǎng)有關(guān)。大數(shù)據(jù)的特點(diǎn)可用 4V來概括:①數(shù)據(jù)體量(Volume) 大,指收集和分析的數(shù)據(jù)量非常大,已經(jīng)形成了PB級的數(shù)據(jù)量;②數(shù)據(jù)類型(Variety)多,數(shù)據(jù)來源廣、格式豐富,已沖破了常規(guī)的以事務(wù)為代表的結(jié)構(gòu)化數(shù)據(jù)范疇,還包括以網(wǎng)頁為代表的半結(jié)構(gòu)化數(shù)據(jù)和以視頻、語音信息為代表的非結(jié)構(gòu)化數(shù)據(jù);③數(shù)據(jù)處理速度(Velocity)快,大數(shù)據(jù)往往以數(shù)據(jù)流的形式動(dòng)態(tài)、快速地產(chǎn)生,涌現(xiàn)特征明顯,而且自身的狀態(tài)與價(jià)值也往往隨時(shí)空變化而發(fā)生演變,數(shù)據(jù)的采集、處理都要求具有很強(qiáng)的時(shí)效性;④價(jià)值(Value)密度低。雖然大數(shù)據(jù)的潛在價(jià)值巨大,但是基于傳統(tǒng)思維與技術(shù),人們只會被淹沒在數(shù)據(jù)海洋中,造成信息極度泛濫而無法從中獲取有效知識的困境,數(shù)據(jù)價(jià)值利用密度低。
大數(shù)據(jù)技術(shù)是指從大數(shù)據(jù)中快速獲得有價(jià)值信息的技術(shù)。按照層次不同,可大概分為以下六類:①數(shù)據(jù)采集:利用 ETL( Extraction-Transformation-Loading,數(shù)據(jù)提取、轉(zhuǎn)換和加載)工具將分布的異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ);②數(shù)據(jù)存?。簲?shù)據(jù)壓縮、重復(fù)數(shù)據(jù)刪除、自動(dòng)精簡配置、自動(dòng)分層存儲、虛擬化存儲、SQL數(shù)據(jù)庫、NOSQL數(shù)據(jù)庫等技術(shù);③基礎(chǔ)架構(gòu):云計(jì)算平臺、分布式文件系統(tǒng)等;④數(shù)據(jù)處理:自然語言處理(NLP,NaturalLanguageProcessing),讓計(jì)算機(jī)"理解"人類的自然語言,是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué);⑤數(shù)據(jù)挖掘:假設(shè)檢驗(yàn)、差異分析、相關(guān)分析、回歸分析、曲線估計(jì)、因子分析、聚類分析、主成分分析、判別分析、對應(yīng)分析、bootstrap、預(yù)測、時(shí)序模式、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻)等技術(shù);⑥模型預(yù)測:預(yù)測模型、機(jī)器學(xué)習(xí)、建模仿真。
大數(shù)據(jù)使我們的認(rèn)識從定量、結(jié)構(gòu)的世界轉(zhuǎn)為不確定、非結(jié)構(gòu)的世界,它將和交通、通訊網(wǎng)絡(luò)一樣逐漸成為現(xiàn)代社會基礎(chǔ)設(shè)施的一部分,進(jìn)而影響社會領(lǐng)域的各個(gè)層面。概括而言,大數(shù)據(jù)的價(jià)值主要體現(xiàn)在以下六個(gè)方面。
(1)大數(shù)據(jù)彰顯國家發(fā)展戰(zhàn)略大智慧。大數(shù)據(jù)是與人力資源、自然資源一樣重要的戰(zhàn)略資源。大數(shù)據(jù)時(shí)代,國家層面的競爭力將很大程度上體現(xiàn)在擁有大數(shù)據(jù)的規(guī)模、活性以及對數(shù)據(jù)的解釋、運(yùn)用的能力上,網(wǎng)絡(luò)空間的數(shù)據(jù)主權(quán)是國家數(shù)字主權(quán)的集中體現(xiàn)。大數(shù)據(jù)領(lǐng)域的落后,就意味著產(chǎn)業(yè)戰(zhàn)略制高點(diǎn)的失守,意味著數(shù)字主權(quán)無險(xiǎn)可守。能否抓住機(jī)遇、搶占大數(shù)據(jù)戰(zhàn)略制高點(diǎn),是國家發(fā)展大智慧的重要體現(xiàn)。
(2)大數(shù)據(jù)引發(fā)科學(xué)研究方法大變革。海量數(shù)據(jù)催生了一種新的科研模式,即科研人員只需從數(shù)據(jù)中直接查找或挖掘所需要的信息、知識和智慧,甚至無需直接接觸所研究的對象。2007年已故圖靈獎(jiǎng)得主吉姆·格雷在他最后一次演講中描繪了數(shù)據(jù)密集型科學(xué)研究的“第四范式”,把數(shù)據(jù)密集型科學(xué)從計(jì)算科學(xué)中區(qū)分開來,認(rèn)為“第四范式”將是解決某些全球性挑戰(zhàn)的唯一具有系統(tǒng)性的方法。
(3)大數(shù)據(jù)推動(dòng)現(xiàn)有產(chǎn)業(yè)轉(zhuǎn)型與新產(chǎn)業(yè)誕生。大數(shù)據(jù)的興起,使信息經(jīng)濟(jì)由以信息技術(shù)產(chǎn)業(yè)為重點(diǎn)向以信息收集與處理為重點(diǎn)轉(zhuǎn)變,從實(shí)體服務(wù)向數(shù)據(jù)服務(wù)轉(zhuǎn)變。產(chǎn)業(yè)界需求與關(guān)注點(diǎn)因此發(fā)生了重大轉(zhuǎn)變:企業(yè)關(guān)注的重點(diǎn)轉(zhuǎn)向數(shù)據(jù);計(jì)算機(jī)行業(yè)從追求計(jì)算能力轉(zhuǎn)變?yōu)閿?shù)據(jù)處理能力;軟件業(yè)也將從編程為主轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為主;云計(jì)算的主導(dǎo)權(quán)也將從云供應(yīng)商轉(zhuǎn)向云需求者,由技術(shù)資源轉(zhuǎn)向商業(yè)資源,進(jìn)入以分析即服務(wù)(AaaS)為主要標(biāo)志的 Cloud 2.0時(shí)代。數(shù)據(jù)已成為各類應(yīng)用的原始材料,未來將形成數(shù)據(jù)服務(wù)、數(shù)據(jù)探礦、數(shù)據(jù)化學(xué)、數(shù)據(jù)材料、數(shù)據(jù)制藥等一系列戰(zhàn)略性新興產(chǎn)業(yè)。
(4)大數(shù)據(jù)幫助經(jīng)濟(jì)過程實(shí)現(xiàn)逆轉(zhuǎn)。大數(shù)據(jù)改變經(jīng)濟(jì)過程的作用在于實(shí)現(xiàn)“產(chǎn)消逆轉(zhuǎn)”,推動(dòng)經(jīng)濟(jì)從B2C(Business-to-Customer,生產(chǎn)者對消費(fèi)者)轉(zhuǎn)向C2B,即轉(zhuǎn)變了以往以生產(chǎn)者為起點(diǎn)、消費(fèi)者為終點(diǎn)的過程。今后將是消費(fèi)者向生產(chǎn)者發(fā)送信息,生產(chǎn)者根據(jù)這些消費(fèi)信息定制產(chǎn)品。由于消費(fèi)者量大、分散,就需要發(fā)揮大數(shù)據(jù)的重要作用,幫助人們從源頭獲取準(zhǔn)確消費(fèi)需求,從而幫助生產(chǎn)者提高生產(chǎn)效益。
(5)大數(shù)據(jù)導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)組織變革。大數(shù)據(jù)導(dǎo)致全球互聯(lián)網(wǎng)去中心化。大數(shù)據(jù)時(shí)代,越來越多的網(wǎng)絡(luò)內(nèi)容不再由專業(yè)網(wǎng)站或特定人群所產(chǎn)生,而是全體網(wǎng)民共同參與的結(jié)果。而且隨著如 Twitter、Facebook等更多簡單易用的去中心化網(wǎng)絡(luò)服務(wù)的出現(xiàn),網(wǎng)民參與互聯(lián)網(wǎng)、貢獻(xiàn)內(nèi)容更加簡便、多元化,每一個(gè)網(wǎng)民都將變成一個(gè)獨(dú)立的信息提供商,使網(wǎng)絡(luò)內(nèi)容逐漸去中心化。巨量網(wǎng)絡(luò)數(shù)據(jù)如果只存儲在少數(shù)的中心服務(wù)器和門戶網(wǎng)站,就會給數(shù)據(jù)安全帶來嚴(yán)重威脅,數(shù)據(jù)價(jià)值越高,不法分子犯罪成本也將同步提高。為了弱化安全威脅,提高數(shù)據(jù)可靠性,將利用多服務(wù)器、分散系統(tǒng)承載大數(shù)據(jù)。同時(shí),大數(shù)據(jù)大流量、高時(shí)效的特點(diǎn)也將使各數(shù)據(jù)節(jié)點(diǎn)繞過中心節(jié)點(diǎn)實(shí)現(xiàn)網(wǎng)狀直連,網(wǎng)絡(luò)架構(gòu)也將逐步實(shí)現(xiàn)去中心化。
(6)大數(shù)據(jù)提供智慧城市建設(shè)新引擎。建設(shè)智慧城市,是城市發(fā)展的新范式和新戰(zhàn)略。智慧城市是通過物與物、物與人、人與人的互聯(lián)互通能力、全面感知能力和信息利用能力,通過物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、云計(jì)算等新一代信息技術(shù),實(shí)現(xiàn)城市高效的政府管理、便捷的民生服務(wù)、可持續(xù)的產(chǎn)業(yè)發(fā)展。智慧城市建設(shè)中在政府決策與服務(wù)、城市產(chǎn)業(yè)規(guī)劃、城市運(yùn)營管理、人民衣食住行等方面將產(chǎn)生爆發(fā)式增長的數(shù)據(jù)量,只有大數(shù)據(jù)技術(shù)才能支撐起城市智慧化建設(shè)。大數(shù)據(jù)可在城市規(guī)劃、交通管理、輿情監(jiān)控、公共服務(wù)、衣食住行、安防與防災(zāi)等領(lǐng)域?yàn)楦骷壊块T和機(jī)構(gòu)提供決策支持,使城市從“經(jīng)驗(yàn)粗放型管理”轉(zhuǎn)向“科學(xué)精準(zhǔn)型治理”。
目前推動(dòng)大數(shù)據(jù)研究的動(dòng)力主要是企業(yè)經(jīng)濟(jì)效益。IDC研究顯示,當(dāng)前所有企業(yè)的商業(yè)數(shù)據(jù)每隔1.2年就將遞增一倍,到2015年,大數(shù)據(jù)市場前景將達(dá)到169億美元的規(guī)模。2012年年底,世界財(cái)富 500 強(qiáng)企業(yè)中 90%的企業(yè)都開展了大數(shù)據(jù)的項(xiàng)目。在國外,大數(shù)據(jù)被許多科技企業(yè)看作是云計(jì)算之后的另一個(gè)巨大商機(jī),IBM、Oracle、Microsoft、Google、Amazon、Facebook等跨國巨頭是大數(shù)據(jù)發(fā)展的主要推動(dòng)者,如谷歌基于搜索數(shù)據(jù)成功建立了盈利模式,亞馬遜通過云技術(shù)、大數(shù)據(jù)構(gòu)建了電商帝國等,大數(shù)據(jù)引發(fā)的信息融合正在改變著IT企業(yè)的發(fā)展方式。在國內(nèi),騰訊公司作為移動(dòng)互聯(lián)網(wǎng)巨頭是最早嘗到大數(shù)據(jù)甜頭的企業(yè),現(xiàn)在,幾乎每個(gè)擁有手機(jī)的網(wǎng)民都是手機(jī)QQ用戶。另一個(gè)互聯(lián)網(wǎng)巨頭百度的新一代搜索引擎的重要支柱之一就是依托大數(shù)據(jù),才得以為用戶提供更便捷與智能的各種搜索服務(wù),如用戶可以在百度搜索引擎中便捷地獲取相關(guān)病癥的原因、癥狀、治療等信息,還可以通過搜索引擎,在線咨詢醫(yī)生、在線掛號,大大降低了人們獲得醫(yī)療信息和服務(wù)的門檻。除此之外,阿里巴巴的云計(jì)算、奇虎 360的商業(yè)模式、微信的運(yùn)作等等,無不與“大數(shù)據(jù)”緊密相連。
在科技界,Nature和Science等國際頂級學(xué)術(shù)刊物相繼出版??瘜Υ髷?shù)據(jù)進(jìn)行探討研究。2008年 Nature出版??癇ig Data”,從不同層面介紹了海量數(shù)據(jù)帶來的挑戰(zhàn)。2011年Science推出關(guān)于數(shù)據(jù)處理的??癉ealing with data”,討論了 Data Deluge(數(shù)據(jù)洪流)所帶來的挑戰(zhàn)。2012年 4月歐洲信息學(xué)與數(shù)學(xué)研究協(xié)會會刊 ERCIM News出版??癇igData”,討論了大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理、數(shù)據(jù)密集型研究的創(chuàng)新技術(shù)等問題,介紹了歐洲科研機(jī)構(gòu)開展的研究活動(dòng)和取得的創(chuàng)新性進(jìn)展。2012年5月,中國香山科學(xué)會議組織了以“大數(shù)據(jù)科學(xué)與工程——門新興的交叉學(xué)科”為主題的第 424次學(xué)術(shù)討論會,就大數(shù)據(jù)理論與工程技術(shù)研究、應(yīng)用方向以及大數(shù)據(jù)研究的組織方式與資源支持形式等重要問題進(jìn)行了深入探討。同年 6月,CCF YOCSEF(中國計(jì)算機(jī)學(xué)會青年計(jì)算機(jī)科技論壇)舉辦了“大數(shù)據(jù)時(shí)代,智謀未來”學(xué)術(shù)報(bào)告會,就大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘、體系架構(gòu)理論、大數(shù)據(jù)安全、大數(shù)據(jù)平臺開發(fā)與大數(shù)據(jù)現(xiàn)實(shí)案例進(jìn)行了全面的討論??傮w看,大數(shù)據(jù)科學(xué)正在逐步形成一個(gè)橫跨信息科學(xué)、社會科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的新興交叉學(xué)科。
大數(shù)據(jù)的出現(xiàn)也同樣引起了許多國家政府的極大關(guān)注。美國政府將大數(shù)據(jù)看作“未來的新石油”,并于2012年3月22日投資 2億美元啟動(dòng)了“Big Data Research and Development Initiatives” (大數(shù)據(jù)研究和發(fā)展計(jì)劃),正式將大數(shù)據(jù)研究上升為國家意志。歐盟在過去幾年已對科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施投資 1億多歐元,并將數(shù)據(jù)信息化基礎(chǔ)設(shè)施作為Horizon2020計(jì)劃的優(yōu)先領(lǐng)域之一,2012年1月截止的預(yù)算為5000萬歐元的FP7 Call 8專門征集針對大數(shù)據(jù)的研究項(xiàng)目,仍以基礎(chǔ)設(shè)施為先導(dǎo)。日本于2013年6月公布了“創(chuàng)建最尖端IT國家宣言”,全面闡述了2013~2020年IT界將以發(fā)展開放公共數(shù)據(jù)和大數(shù)據(jù)為核心,提出要把日本建設(shè)成為一個(gè)具有“世界最高水準(zhǔn)的廣泛運(yùn)用信息產(chǎn)業(yè)技術(shù)的社會”,大數(shù)據(jù)已被安倍政府?dāng)[在了新IT國家戰(zhàn)略的核心位置。我國目前無論在政府統(tǒng)籌規(guī)劃、學(xué)術(shù)理論研究、還是行業(yè)實(shí)踐應(yīng)用方面在還處于初級階段。2012年9月,科技部的《中國云科技發(fā)展“十二五”專項(xiàng)規(guī)劃》和工信部的《物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃》等都把大數(shù)據(jù)技術(shù)作為一項(xiàng)重點(diǎn)予以支持。在中國硅谷之稱的中關(guān)村,大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)納入《中關(guān)村戰(zhàn)略性新興產(chǎn)業(yè)集群創(chuàng)新引領(lǐng)工程(2013-2015年)》,將開展云運(yùn)營和大數(shù)據(jù)示范應(yīng)用,建設(shè)云計(jì)算應(yīng)用支撐平臺、虛擬化平臺,支持開展海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘和分析等技術(shù)的行業(yè)應(yīng)用??v觀國際形勢,對大數(shù)據(jù)的研究與應(yīng)用已成為許多國家重要的戰(zhàn)略布局方向。在國家層面,大數(shù)據(jù)已經(jīng)成為繼邊防、海防、空防之后大國博弈的第四個(gè)空間。
未來大數(shù)據(jù)的發(fā)展趨勢可主要概括為以下四個(gè)方面:①數(shù)據(jù)將成為資產(chǎn)。未來企業(yè)的競爭,將是擁有數(shù)據(jù)規(guī)模和活性的競爭,將是對數(shù)據(jù)解釋和運(yùn)用的競爭。圍繞數(shù)據(jù),可以演繹出六種新的商業(yè)模式:租售數(shù)據(jù)模式、租售信息模式、數(shù)字媒體模式、數(shù)據(jù)使能模式、數(shù)據(jù)空間運(yùn)營模式、大數(shù)據(jù)技術(shù)提供商;②大數(shù)據(jù)應(yīng)用廣泛化。用戶習(xí)慣分析、網(wǎng)絡(luò)安全、人工智能、售后服務(wù)等都可以通過大數(shù)據(jù)處理做成產(chǎn)品或者應(yīng)用而實(shí)現(xiàn)。現(xiàn)在的大數(shù)據(jù)技術(shù)已經(jīng)被帶入了許多網(wǎng)絡(luò)和手機(jī)的應(yīng)用中,從購物推薦到找到和自己有關(guān)聯(lián)的人等等。③機(jī)器學(xué)習(xí)無處不在。和數(shù)據(jù)挖掘相比,機(jī)器學(xué)習(xí)算法并不固定,而是帶有自調(diào)適參數(shù),能夠隨著計(jì)算次數(shù)和數(shù)據(jù)量的增多,像人類一樣通過不斷學(xué)習(xí)積累逐步自我提高改善,從而使挖掘和預(yù)測的功能更為準(zhǔn)確。機(jī)器學(xué)習(xí)是人類社會在從信息時(shí)代邁向智能時(shí)代的重要標(biāo)志。④手機(jī)將成為人工智能的數(shù)據(jù)來源。人們的手機(jī)及手機(jī)中的應(yīng)用將會是最大的私人信息來源。應(yīng)用(如 Google Now、Siri)通過語音識別、語言處理、機(jī)器學(xué)習(xí),能夠理解人類的自然語言,可以清楚的知道人們的工作生活習(xí)慣、交往圈子、興趣愛好以及關(guān)注點(diǎn),并為我們工作生活主動(dòng)進(jìn)行出謀劃策或發(fā)出通知提醒。
作為一個(gè)新生領(lǐng)域,盡管大數(shù)據(jù)意味著大機(jī)遇、大價(jià)值,但同時(shí)也遭遇工程技術(shù)、管理政策、資金投入、人才培養(yǎng)等諸多領(lǐng)域的大挑戰(zhàn)。只有解決這些基礎(chǔ)性的挑戰(zhàn)問題,才能讓大數(shù)據(jù)發(fā)揮巨大的的企業(yè)和社會效益。主要存在以三個(gè)方面的問題。
(1)當(dāng)今大數(shù)據(jù)運(yùn)用仍面臨多種技術(shù)難關(guān)。要以低成本和可擴(kuò)展的方式處理大數(shù)據(jù),這就需要對整個(gè)IT架構(gòu)進(jìn)行重構(gòu),開發(fā)先進(jìn)的軟件平臺和算法。主要有大數(shù)據(jù)的去冗降噪技術(shù),大數(shù)據(jù)的新型表示方法,高效率低成本的大數(shù)據(jù)存儲,大數(shù)據(jù)的有效融合,非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的高效處理,適合不同行業(yè)的大數(shù)據(jù)挖掘分析工具和開發(fā)環(huán)境,大幅度降低數(shù)據(jù)處理、存儲和通信能耗的新技術(shù)。我國數(shù)據(jù)處理技術(shù)基礎(chǔ)薄弱,總體上以跟隨為主,短時(shí)期內(nèi)難以滿足大數(shù)據(jù)大規(guī)模應(yīng)用的需求。
(2)數(shù)據(jù)還不夠豐富,開放與共享數(shù)據(jù)還很難。豐富的數(shù)據(jù)源是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的前提。而我國數(shù)字化的數(shù)據(jù)資源總量遠(yuǎn)遠(yuǎn)低于美歐,每年新增數(shù)據(jù)量僅為美國的7%,歐洲的12%,就已有的有限數(shù)據(jù)資源來說,還存在標(biāo)準(zhǔn)化、準(zhǔn)確性、完整性低,利用價(jià)值不高的不足。數(shù)據(jù)增值的關(guān)鍵在于整合,整合的前提是數(shù)據(jù)的開放,但我國政府、企業(yè)和行業(yè)信息化系統(tǒng)建設(shè)往往缺少統(tǒng)一規(guī)劃和科學(xué)論證,系統(tǒng)之間缺乏統(tǒng)一的標(biāo)準(zhǔn),形成了眾多“信息孤島”,而且受行政壟斷和商業(yè)利益所限,數(shù)據(jù)開放程度較低,這給大數(shù)據(jù)利用造成極大障礙。制約數(shù)據(jù)資源開放和共享的一個(gè)重要因素是政策法規(guī)不完善,一方面欠缺推動(dòng)政府和公共數(shù)據(jù)的政策,另一方面數(shù)據(jù)保護(hù)和隱私保護(hù)方面的制度不完善抑制了開放的積極性。
(3)管理理念和運(yùn)作方式還難以適配數(shù)據(jù)化決策。大數(shù)據(jù)開發(fā)的根本目的是以數(shù)據(jù)分析為基礎(chǔ),幫助人們做出更明智的決策,優(yōu)化企業(yè)和社會運(yùn)轉(zhuǎn)。哈佛商業(yè)評論說,大數(shù)據(jù)本質(zhì)上是“一場管理革命”。大數(shù)據(jù)時(shí)代的決策不能僅憑經(jīng)驗(yàn),而真正要“拿數(shù)據(jù)說話”。因此,大數(shù)據(jù)能夠真正發(fā)揮作用,深層次看,還要改善傳統(tǒng)的管理模式,需要管理方式和架構(gòu)與大數(shù)據(jù)技術(shù)工具相適配。
(1)健全大數(shù)據(jù)研究組織機(jī)構(gòu)。2012年10月,中國計(jì)算機(jī)學(xué)會(CCF)和中國通信學(xué)會(CIC)各自成立了大數(shù)據(jù)專家委員會,從行業(yè)學(xué)會的層面來組織和推動(dòng)大數(shù)據(jù)的相關(guān)產(chǎn)學(xué)研用活動(dòng)。但這遠(yuǎn)遠(yuǎn)不夠,應(yīng)站在國家發(fā)展戰(zhàn)略的高度,成立由政府部門、科技界、產(chǎn)業(yè)界共同參與的國家級的大數(shù)據(jù)科學(xué)研究平臺,更好地為大數(shù)據(jù)統(tǒng)籌建設(shè)布局、協(xié)同創(chuàng)新研究、推進(jìn)戰(zhàn)略性應(yīng)用,使大數(shù)據(jù)建設(shè)科學(xué)高效發(fā)展。此外,還需成立國家級的面向大數(shù)據(jù)研究與應(yīng)用的開源社區(qū),集大眾智慧力量共建大數(shù)據(jù)美好未來。
(2)注重大數(shù)據(jù)科學(xué)基礎(chǔ)研究。大數(shù)據(jù)科學(xué)作為一個(gè)新興的交叉學(xué)科方向,其共性理論基礎(chǔ)將來自多個(gè)不同的學(xué)科領(lǐng)域,包括計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、人工智能、社會科學(xué)等,因此,大數(shù)據(jù)的基礎(chǔ)研究離不開對相關(guān)學(xué)科的領(lǐng)域知識與研究方法的借鑒。在大數(shù)據(jù)的基礎(chǔ)研究方面,應(yīng)重點(diǎn)研究大數(shù)據(jù)的內(nèi)在機(jī)理,包括大數(shù)據(jù)的生命周期、演化與傳播規(guī)律,數(shù)據(jù)科學(xué)與社會學(xué)、經(jīng)濟(jì)學(xué)等之間的互動(dòng)機(jī)制,以及大數(shù)據(jù)的結(jié)構(gòu)與效能的規(guī)律性(如社會效應(yīng)、經(jīng)濟(jì)效應(yīng)等)。在大數(shù)據(jù)應(yīng)用基礎(chǔ)理論方面,應(yīng)重點(diǎn)研究大數(shù)據(jù)與知識發(fā)現(xiàn)(學(xué)習(xí)方法、語義解釋),大數(shù)據(jù)環(huán)境下的實(shí)驗(yàn)與驗(yàn)證方法等。
(3)布局關(guān)鍵技術(shù)研發(fā)創(chuàng)新。一是優(yōu)先支持網(wǎng)絡(luò)大數(shù)據(jù)研究。網(wǎng)絡(luò)空間中的數(shù)據(jù)與人的活動(dòng)、社會科學(xué)密切相關(guān),是大數(shù)據(jù)的重要組成部分,對國家的穩(wěn)定和社會發(fā)展有獨(dú)特的作用,應(yīng)重視并優(yōu)先支持網(wǎng)絡(luò)大數(shù)據(jù)研究。二是加強(qiáng)各類技術(shù)研發(fā)。面向大數(shù)據(jù)應(yīng)用,加強(qiáng)網(wǎng)頁搜索技術(shù)、知識計(jì)算(搜索)技術(shù)、知識庫技術(shù)、非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)、非關(guān)系型數(shù)據(jù)庫管理技術(shù)、可視化技術(shù)、人工智能、商業(yè)智能、機(jī)器學(xué)習(xí)等技術(shù)研發(fā),并推動(dòng)與云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等技術(shù)的融合,形成成熟可行的解決方案,為實(shí)現(xiàn)商業(yè)智能服務(wù)提供技術(shù)體系支撐。
(4)推進(jìn)大數(shù)據(jù)示范應(yīng)用。一是面向醫(yī)療、能源、金融、電信、流通等數(shù)據(jù)量大的領(lǐng)域,引導(dǎo)行業(yè)廠商參與,大力發(fā)展數(shù)據(jù)監(jiān)測、商業(yè)決策、數(shù)據(jù)分析、橫向擴(kuò)展存儲等軟硬件一體化的行業(yè)應(yīng)用解決方案。二是面向智慧城市建設(shè)與人民日常生活需求,加快推動(dòng)大數(shù)據(jù)在智慧城市建設(shè)及個(gè)人娛樂、生活服務(wù)領(lǐng)域的應(yīng)用。三是選擇重點(diǎn)領(lǐng)域、重點(diǎn)企業(yè),鼓勵(lì)其應(yīng)用數(shù)據(jù)清洗等手段,對企業(yè)積累的數(shù)據(jù)進(jìn)行初步分析整理,提高大數(shù)據(jù)建設(shè)質(zhì)量。
(5)完善大數(shù)據(jù)發(fā)展環(huán)境。一是加強(qiáng)大數(shù)據(jù)應(yīng)用背景下信息安全問題的研究,應(yīng)對好大數(shù)據(jù)應(yīng)用帶來的信息安全風(fēng)險(xiǎn),特別是研究基于大數(shù)據(jù)的情報(bào)收集分析工作的信息保密問題。二是加大配套政策法規(guī)建設(shè)。研究制定“國家數(shù)據(jù)信息資源管理法”,從國家層面對大數(shù)據(jù)發(fā)展進(jìn)行宏觀調(diào)控,對各類數(shù)據(jù)資源的管理、共享和使用進(jìn)行制度化、法律化的規(guī)范,為大數(shù)據(jù)建設(shè)筑牢發(fā)展之基、鋪平發(fā)展之路。
世界的本質(zhì)是數(shù)據(jù),未來社會將是由“大數(shù)據(jù)”引領(lǐng)和創(chuàng)造的智慧科技的時(shí)代。大數(shù)據(jù)建設(shè)與發(fā)展充滿了誘惑,也面臨著諸多難關(guān),我們應(yīng)將大數(shù)據(jù)作為新一輪國家競爭和產(chǎn)業(yè)發(fā)展的戰(zhàn)略制高點(diǎn),有目標(biāo)、分階段、按步驟地搞好長遠(yuǎn)籌劃和短期建設(shè),牢牢掌握大數(shù)據(jù)發(fā)展主動(dòng)權(quán),切實(shí)為改善民生、提升國力發(fā)揮重大作用。
[1]姜奇平.大數(shù)據(jù)與信息社會的意義結(jié)構(gòu)[J].互聯(lián)網(wǎng)周刊,2012(12):70-71.
[2]鄔賀銓.大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)[J].求是,2013(4):47-49.
[3]趙國棟.大數(shù)據(jù)時(shí)代的三大發(fā)展趨勢[J].高科技與產(chǎn)業(yè)化,2012(5):50-53.
[4]趙國棟,易歡歡,糜萬軍,鄂維南.大數(shù)據(jù)時(shí)代的歷史機(jī)遇-產(chǎn)業(yè)變革與數(shù)據(jù)科學(xué)[M].北京:清華大學(xué)出版社,2013:10-41.
[5](日)城田真琴.大數(shù)據(jù)的沖擊[M].北京:人民郵電出版社,2013:34-51.
[6]嚴(yán)霄鳳,張德馨.大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(4):38-41.
[7]范承工,周寶曜,劉偉.大數(shù)據(jù):戰(zhàn)略·技術(shù)·實(shí)踐[M].北京:電子工業(yè)出版社,2013:73-76.
[8]王珊,王會舉,覃雄派,周烜.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011(10):17-19.
[9]白云川.迎接大數(shù)據(jù)時(shí)代[J].中國制造業(yè)信息化, 2011 (12):16-18 .
[10]周傲英.海量數(shù)據(jù)處理[J].計(jì)算機(jī)學(xué)報(bào),2011(10):1-3 .
[11]張延松,焦敏,王占偉,等.海量數(shù)據(jù)分析的One-size-fits-all OLAP技術(shù)[J].計(jì)算機(jī)學(xué)報(bào). 2011(10):20-21.
[12]涂蘭敬.專家觀點(diǎn):“大數(shù)據(jù)”與“海量數(shù)據(jù)”的區(qū)別[J].網(wǎng)絡(luò)與信息, 2011(12):11-12 .
[13]覃雄派,王會舉,杜小勇,等.大數(shù)據(jù)分析—RDBMS與MapReduce的競爭與共生[J].軟件學(xué)報(bào),2012(01):21-23.
[14]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報(bào),2013(7):142-143.