許 曄
(中國科學技術發(fā)展戰(zhàn)略研究院,北京 100038)
大數據時代中國面臨的挑戰(zhàn)與對策
許 曄
(中國科學技術發(fā)展戰(zhàn)略研究院,北京 100038)
本文通過研究大數據及其特征,分析全球大數據增長對世界的影響,指出在大數據時代中國所面臨的安全管理能力、存儲及處理能力、應用能力以及人才培養(yǎng)能力等方面的挑戰(zhàn),并提出對策建議。
大數據;戰(zhàn)略資源;數據安全;數據人才
2012年3月,美國奧巴馬政府發(fā)起了《大數據研究和發(fā)展倡議》,將大數據定義為“未來的新石油”,稱將斥資2億美元用于大數據研究,以應對大數據革命正在帶來的大機遇。據美國咨詢機構Gartner預測,到2015年,大數據將會在世界范圍內創(chuàng)造440萬個工作崗位。
1.1 大數據及其特征
關于大數據(Big Data),麥肯錫全球研究所在報告《大數據:創(chuàng)新、競爭和生產力的下一個前沿》中定義:所謂大數據,是指大小超出了傳統(tǒng)數據庫軟件工具的抓取、存儲、管理和分析能力的數據群。也有專家認為,大數據的“大”是指大型數據集,即數據量一般在10TB規(guī)模左右;多個用戶把多個數據集放在一起,形成PB級的數據量;同時,這些數據又來自多種數據源,并以實時、迭代的方式來實現,即“大數據=海量數據+復雜類型的數據”[1]。
大數據具有大量化、多樣化、快速化和價值化的特征[2],也稱“4V”。
(1)大量化(Volume):是指數據量非常龐大,即數據存儲量大、計算量大。
(2)多樣化(Variety):是指大數據不但包含結構化的數據表和半結構化的文本、視頻、圖像等信息,而且數據之間的交互也非常頻繁和廣泛。
(3)快速化(Velocity):是指數據不斷更新,增長的速度快,同時數據存儲、傳輸等的處理速度也非??臁?/p>
(4)價值化(Value):是指數據正在成為一種新型資產,一種形成競爭力的重要基礎?;诖罅繑祿姆治龊陀嬎悖梢援a生更大的價值。
1.2 大數據的爆發(fā)增長
據國際數據資訊公司(Global Pulse)估測[3],數據數量一直在快速增加,每年增長50%,這個速度不僅是指數據流的增長,而且還包括全新的數據種類的增多。
有研究統(tǒng)計,從人類文明開始到2003年,人類共創(chuàng)造了5TB(兆億字節(jié))的信息。而現在,這樣的數據量卻僅需兩天就能夠被創(chuàng)造出來,且速度仍在加快。據統(tǒng)計,全球企業(yè)2010年在硬盤上存儲了超過7EB的新數據,消費者在PC和筆記本電腦等設備上存儲了超過6EB新數據,而1EB數據就相當于美國國會圖書館中存儲數據的4000多倍[4]。目前數據容量增長的速度已經大大超過了硬件技術的發(fā)展速度,并正在引發(fā)數據存儲和處理的危機。
1.3 全球大數據布局
世界上許多國家都已經認識到了大數據所蘊含的重要戰(zhàn)略意義,紛紛開始在國家層面進行戰(zhàn)略部署,以迎接大數據技術革命正在帶來的新機遇和新挑戰(zhàn)。
美國在《大數據研究和發(fā)展倡議》中提出,將通過收集龐大而復雜的數字資料,從中獲得知識和洞見,以提升能力,并協(xié)助加速在科學、工程上發(fā)現的步伐,強化美國國土安全,轉變教育和學習模式。根據這一計劃,美國希望利用大數據技術實現在多個領域的突破,包括科研教學、環(huán)境保護、工程技術、國土安全、生物醫(yī)藥等。其中具體的研發(fā)計劃涉及了美國國家科學基金會、國家衛(wèi)生研究院、國防部、能源部、國防部高級研究局、地質勘探局等聯(lián)邦部門和機構。
英國政府2012年計劃在未來兩年內,在大數據和節(jié)能計算研究上投資1.89億英鎊,以帶動企業(yè)在該領域的投資。大數據被英國看作是自己的優(yōu)勢所在,且英國認為已在政府層面為大數據做好了準備。
法國政府宣布在2013年投入1150萬歐元,用于7個大數據市場研發(fā)項目。目的在于“通過發(fā)展創(chuàng)新性解決方案,并將其用于實踐,來促進法國在大數據領域的發(fā)展”。法國政府在《數字化路線圖》中列出了五項將大力支持的戰(zhàn)略性高新技術,大數據就是其中一項。
日本于2013年6月公布了新IT戰(zhàn)略,即“創(chuàng)建最尖端IT國家宣言”,全面闡述了2013—2020年,將以發(fā)展開放公共數據和大數據為核心的日本新IT國家戰(zhàn)略,并提出要把日本建設成為一個具有“世界最高水準的廣泛運用信息產業(yè)技術的社會”。
此外,加拿大、新西蘭、德國和印度等國也在大數據領域進行了研究部署,還紛紛推出本國的公共數據開放網站,以使更多的人可以使用大數據資源,并從中獲得利益。目前,全球已經擁有大大小小的數據開放網站50余個。
2.1 “大數據資源”成為重要的戰(zhàn)略資源
互聯(lián)網時代,“資源”的含義正在發(fā)生極大的變化,它已不再僅僅只是指煤、石油、礦產等一些看得見、摸得著的實體,大數據也正在演變成不可或缺的戰(zhàn)略資源?;ヂ?lián)網、物聯(lián)網每天都在產生大量的數據,這些龐大的數據資源,為人們依據數據了解世界、了解市場、了解人們的生活提供了可能。大數據已經被視為一種資產、一種財富、一種可以被衡量和計算的價值。得大數據者得天下,是一些推崇大數據時代的變革者所堅信不疑的判斷。
很多專家認為,在大數據時代,誰能有效地壟斷數據,誰就有可能成為世界的霸主[5]。2006年,微軟以1.1億美元的價格,購買了大數據公司Farecast。2008年,谷歌則以7億美元的價格,購買了為Farecast提供數據的ITA Software公司。
2.2 “大數據安全”上升為國家安全
傳統(tǒng)意義上的國家安全,是指軍隊對國家領土安全的保護,是國家之間軍事實力的較量。但在互聯(lián)網高度發(fā)達的大數據時代,網絡變成了幾乎是透明的虛擬世界,也因此使國家安全的環(huán)境和內涵發(fā)生了極大的變化,對大數據的安全保存、防丟失和防破壞等問題,成為我們必須要面對的安全難題。大數據安全,已經上升成為國家安全的重要組成部分。
在大數據時代,數據安全的威脅隨時都有可能發(fā)生。各種國家信息基礎設施和重要機構所承載的龐大數據信息,如由信息網絡系統(tǒng)所控制的石油和天然氣管道、水、電力、交通、銀行、金融、商業(yè)和軍事等,都有可能成為被攻擊的目標。此外,大數據也為網絡恐怖分子提供了新的資源支持,有可能使恐怖分子通過網絡侵入到人們工作生活的方方面面,并通過威脅、攻擊、破壞、癱瘓民用或軍事基礎設施等手段,達到其制造心理恐慌和財產損失、威脅國家安全和社會安全的目的。
2.3 “大數據決策”成為一種新的決策方式
依據大數據進行決策,從數據中獲取價值,讓數據主導決策,是一種前所未有的決策方式,并正在推動著人類信息管理準則的重新定位。隨著大數據分析和預測性分析對管理決策影響力的逐漸加大,依靠直覺做決定的狀況將會被徹底改變。
2009年爆發(fā)的甲型H1N1流感病毒,谷歌公司就是通過觀察人們在網上搜索的大量記錄,在流感爆發(fā)的幾周前,就判斷出流感是從哪里傳播出來的,從而使公共衛(wèi)生機構的官員獲得了極有價值的數據信息,并做出有針對性的行動決策,而這比疾控中心的判斷提前了一兩周[6]。美國的Farecast系統(tǒng)的一個功能就是飛機票價預測,它通過從旅游網站獲得的大量數據,分析41天之內的12000個價格樣本,分析所有特定航線機票的銷售價格,并預測出當前機票價格在未來一段時間內的漲降走勢,從而幫助虛擬乘客選擇最佳的購票時機,并降低可觀的購票成本。
2.4 “大數據應用”促進信息技術與各行業(yè)的深度融合
有專家指出,大數據及其分析將會在未來10年改變幾乎每一個行業(yè)的業(yè)務功能。從科學研究到醫(yī)療保險、從銀行業(yè)到互聯(lián)網,各個不同的領域都在遭遇爆發(fā)式增長的數據量。在美國的17個行業(yè)中,已經有15個行業(yè)大公司擁有大量的數據,其平均擁有的數據量已經遠遠超過了美國國會圖書館所擁有的數據量。
系統(tǒng)共使用580個采樣點數據,主要分布在廣西人工林種植集中區(qū),為了得到覆蓋全廣西的主要林地范圍的連續(xù)數據,采用了高斯格呂克空間插值方法,對包括pH值在內的15種養(yǎng)分含量分布生成土壤養(yǎng)分柵格圖,形成一個包含15個圖層的柵格數據集。采樣點分布和土壤養(yǎng)分含量(有機質)插值結果如圖3。這個柵格數據集通過ArcGIS Server發(fā)布成影像服務后,就可以實現在客戶端查詢土壤養(yǎng)分的功能。
在醫(yī)療與健康行業(yè),根據麥肯錫預測,如果具備相關的IT設施、數據庫投資和分析能力等條件,大數據將在未來10年,使美國醫(yī)療市場獲得每年3000億美元的新價值,并削減2/3的全國醫(yī)療開支。
在制造業(yè)領域,制造企業(yè)為管理產品生命周期將采用IT系統(tǒng),包括電腦輔助設計、工程、制造、產品開發(fā)管理工具和數字制造,制造商可以建立一個產品生命周期管理平臺PLM(Product Lifecycle Management),從而將多種系統(tǒng)的數據集整合在一起,共同創(chuàng)造出新的產品。
此外,在交通、能源、材料、商業(yè)和服務等領域,甚至在新聞傳媒領域,也都在以大數據為發(fā)展契機,加速這些行業(yè)與信息技術的深度融合。
2.5 “大數據開發(fā)”推動新技術和新應用的不斷涌現
大數據的應用需求,是大數據新技術開發(fā)的源泉。在不久的將來,也許很多原來單純依靠人類自身判斷力的領域應用,最終都將被計算機系統(tǒng)的數據分析和數據挖掘功能所普遍改變甚至取代。一小片合適的信息,也許會促使創(chuàng)新邁進一大步;一組數據,也可能會得到數據收集人難以想象的應用,甚至可能在另一個看起來毫不相關的領域得到應用。借助這些創(chuàng)新型的大數據應用,數據的能量將會層層被放大[7]。
“語義網(Semantic Web)”也稱為下一代互聯(lián)網,實際上就是“數據網(Web of Data)”。語義網是一個全球的數據庫網,在這個數據庫網中,計算機可自動為用戶搜尋、檢索和集成網上的信息,而不再需要搜索引擎。大數據時代正在催生的這個最大的技術變革,就是要重新構造互聯(lián)網,打造出下一代互聯(lián)網。
目前,已經出現的“大數據分析方法”包括:情感分析、關聯(lián)規(guī)則學習、預測建模等。已經出現的“大數據應用技術”包括:數據倉庫、“混搭”、云計算等。已經出現的“大數據可視化技術”包括:標簽云、聚類分析、歷史流以及空間信息流等。此外,已經出現的“大數據新應用”包括:通過數據流量判斷消費者喜好、用微博數據預測股市投資時機、用手機數據預測疾病傳播和城市繁榮,等等。
3.1 大數據的安全管理能力挑戰(zhàn)
數據安全管理問題,是中國應用大數據面臨的最大風險。雖然將海量數據集中存儲,方便了數據分析和處理,但由于安全管理不當所造成的大數據丟失和損壞,則將引發(fā)毀滅性的災難。有專家指出:由于新技術的產生和發(fā)展,對隱私權的侵犯已經不再需要物理的、強制性的侵入,而是以更加微妙的方式廣泛衍生,由此所引發(fā)的數據風險和隱私風險也將更為嚴重。
3.2 大數據的存儲及處理能力挑戰(zhàn)
當前,中國大數據存儲、分析和處理的能力還很薄弱,與大數據相關的技術和工具的運用也相當不成熟,大部分企業(yè)仍處于IT產業(yè)鏈的低端。中國在數據庫、數據倉庫、數據挖掘以及云計算等領域的技術,普遍落后于國外先進水平。
在大數據存儲方面,數據的爆炸式增長、數據來源的極其豐富和數據類型的多種多樣,使數據存儲量更龐大、對數據展現的要求更高,而目前中國傳統(tǒng)的數據庫還難以存儲如此巨大的數據量。在大數據的分析處理方面,由于針對具體的應用類型,需要采用不同的處理方式,因此必須通過建立高級大數據的分析模型,來實現快速抽取大數據的核心數據、高效分析這些核心數據并從中發(fā)現價值,而這些數據分析能力中國還很欠缺。
3.3 大數據的應用能力挑戰(zhàn)
中國擁有龐大的人口資源和大數據應用市場,市場復雜度高且變化多端,使中國成為世界上最復雜的大數據國家。中國互聯(lián)網用戶通過利用互聯(lián)網上的海量數據來提升自身的商業(yè)和科研價值,企業(yè)用戶也已積累了大量的數據信息資產,如產品數據、運營數據和價值鏈數據等。隨著中國企業(yè)信息化系統(tǒng)的深入部署和逐步完善,大數據應用能力所引發(fā)的商業(yè)模式的改變,將直接影響中國企業(yè)的競爭能力。
在政府決策方面,當前中國政府部門的數據規(guī)模還很小,多數仍集中在對結構化數據的應用上,而對于非結構化數據的利用則幾乎為空白。利用數據分析來支撐政府決策,中國做得還很不夠。從認識到“大數據能產生價值”,到實現了“從大數據中找到價值”,再到“有效使用大數據產生的價值”,政府目前也只是剛剛起步[9]。
3.4 大數據的人才培養(yǎng)能力挑戰(zhàn)
大數據領域技術人才和商業(yè)人才的缺乏,是一個全球性的問題。麥肯錫的一項研究顯示,僅美國每年就有14萬~19萬名數據科學家的缺口,預計到2018年將達到44萬~49萬名,而數據科學家則更是嚴重缺乏。
中國大數據分析專業(yè)人才缺口究竟有多大,有專家粗略估算至少需要100萬人。當前,具備綜合掌控數學、統(tǒng)計學、機器學習等方面知識的復合型人才,同時又可承擔數據分析和數據挖掘的數據科學家,在中國尤為奇缺。目前,中國初級的分析人員只能對數據進行簡單的報表和描述性分析,而隨著未來大數據應用的不斷增長,中國大數據人才儲備不足的問題將更加嚴重。
發(fā)展中國的大數據產業(yè),積極應對大數據時代帶來的諸多挑戰(zhàn),需要我們具有超前的戰(zhàn)略部署思維、完備的數據安全保障能力、先進的數據開發(fā)能力,更要具有一流的數據分析人才培養(yǎng)機制。
4.1 大數據的應用能力挑戰(zhàn)
大數據時代,國家之間的競爭已經部分體現為擁有大數據規(guī)模的競爭,體現為對大數據分析和運用能力的競爭。有專家指出,大數據是國家在網絡空間數字主權的體現,也將是繼海、陸、空、天競爭之后,大國之間進行博弈的另一個空間。
當前,發(fā)達國家已經開始了大數據的戰(zhàn)略部署,但中國的大數據發(fā)展還只處于起步階段。IDC于2012年下半年發(fā)布的《中國大數據技術與服務市場2012—2016年預測與分析》顯示,中國大數據市場規(guī)模將從2011年的7760萬美元,增長到2016年的6.17億美元,未來5年的復合增長率將達51.4%。因此,中國亟需在國家層面對大數據發(fā)展給予高度重視,提早開始對大數據的戰(zhàn)略部署,特別需要從政策制定、資源投入、關鍵技術研發(fā)和人才培養(yǎng)等方面,從國家宏觀層面給予大力支持。2012年6月,中國計算機協(xié)會決定成立“CCF大數據專家委員會”,積極推動大數據在中國的發(fā)展。2012年7月,“第二屆大數據世界論壇”在北京召開,同月首屆中國大數據應用論壇在北京大學召開。
4.2 重視安全防護,保障大數據信息安全
從數據安全防護的角度,保障中國大數據的信息安全,需要從數據的收集、存儲、傳輸、分析和處理以及可視化展示等各個環(huán)節(jié),注重大數據信息的保護。特別要在提高安全防護技術水平、保障網絡安全以及保障云存儲和云安全等方面加強研究。同時,也要注重在保護用戶個人隱私安全方面的研究。
完善中國的數據安全保障體系,同樣需要在數據安全保護和數據開放利用兩方面尋找平衡,使大眾能夠在享用大數據帶來的社會進步的同時,也可保障數據的信息安全。此外,適時出臺大數據相關政策和法律法規(guī),也對保障中國大數據的信息安全具有重要意義。國外的通常做法是設置安全機制,采用第三方信息安全審計,并對數據的使用做出明確規(guī)定。美國的“大數據研究發(fā)展倡議”還專門設立了多項與信息安全相關的項目,以解決大數據應用中的安全問題。
4.3 創(chuàng)新培養(yǎng)模式,打造大數據一流人才
大數據人才包括數據科學家、數據工程師和首席數據執(zhí)行官(CDO)等,通常都需要具備多個領域的專業(yè)知識背景,且至少具備四個方面的專業(yè)技能,即技術(軟件和系統(tǒng)等)、數學(統(tǒng)計、建模和算法等)、商業(yè)分析(從事領域的相關知識)和可視化(語言和圖表等)。目前傳統(tǒng)的數據分析人員僅僅具備一個或兩個這方面的專業(yè)技能,還不具備開發(fā)分析應用程序模型等技能[10]。
加強中國大數據人才的培養(yǎng),需要創(chuàng)新培養(yǎng)模式,探索企業(yè)依據發(fā)展需求自主培養(yǎng),或大學與企業(yè)聯(lián)合培養(yǎng)的新模式。2013年,北京航空航天大學計算機學院、軟件學院和百度、淘寶、騰訊等企業(yè)合作,聯(lián)合開辦了國內第一個大數據專業(yè)的工程碩士班。這種由企業(yè)和大學合作來培養(yǎng)所需要的大數據人才,主要是考慮大數據的解剖對象是大量的數據,而學校并不生產數據,只有企業(yè)才擁有數據。因此,在企業(yè)的支持下,學校將能夠通過具有針對性的實踐訓練,培養(yǎng)學生的數據分析能力,打造社會所需要的大數據人才。
4.4 研發(fā)關鍵技術,促進中國大數據產業(yè)發(fā)展
大數據的競爭是技術實力與創(chuàng)新能力的競爭,距離數據越近的產業(yè)環(huán)節(jié),其產生的產業(yè)價值就越大。誰掌控了相關的關鍵技術,誰就有可能成為大數據產業(yè)的主導者。中科院專家指出,大數據的技術挑戰(zhàn)主要包括7種[11]:大數據的去冗降噪技術,大數據的新型表示方法,高效率低成本的大數據存儲,大數據的有效融合,非結構化和半結構化數據的高效處理,適合不同行業(yè)的大數據挖掘分析工具和開發(fā)環(huán)境,大幅度降低數據處理、存儲和通信能耗的新技術。
目前國外已經有一些公司試圖通過數據挖掘提取更多的價值,它們開發(fā)的數據挖掘工具也已經開始嵌入到需要數據分析的企業(yè)內部。例如,Hadoop平臺、SQL Server等都開始深入海量數據的挖掘工作。中國的購物網站之一淘寶網,也正在利用其掌握的第一手用戶數據推出“淘寶魔方”服務,通過后臺數據,挖掘用戶評論、瀏覽量、收藏量等信息,進而預測商家或商品的銷售趨勢[12]。
中國應在大數據的關鍵技術領域加強研發(fā),如在大數據的分析方法、應用技術及可視化技術等方面加大研發(fā)力度。尤其是要加大對大數據的實時集成、海量信息處理和管理、云存儲、云計算等關鍵技術的研發(fā)力度。
[1]但彬.大數據、大挑戰(zhàn)、大機遇[EB/OL].[2011-11-02].http://www.yesky.com/.
[2]李志剛.大數據——大價值、大機遇、大變革[M].北京:電子工業(yè)出版社,2012.
[3]郭曉科.大數據[M].北京:清華大學出版社,2013.
[4]James Manyika,Michael Chui,Brad Brown,Jacques Bughin,Richard Dobbs,Charles Roxburgh,Angela Hung Byers.Big Data:the Next Frontier for Innovation,Competition,and Productivity.McKinsey Global Institute.Annual Report:(6)[EB/OL].http://www.mckinsey/insight/business_technology/.2011.
[5]許曄,郭鐵成.“智慧地球”:從戰(zhàn)略理念到改變生活[N].經濟參考報,2013-03-19(5).
[6][英]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
[7]涂子沛.大數據:正在到來的數據革命[M].桂林:廣西師范大學出版社,2012.
[8]惠志斌.大數據時代個人信息安全保護[N].社會科學報,2013-05-04(3).
[9]朱幼平.大數據決策將強力推進我國經濟發(fā)展方式轉型[EB/OL].[2012-12-21].國家信息中心中經網http://m.blog.sina.com.cn/s/blog_5009e20501019ays.html.
[10]譚光柱.大數據時代已來臨 分析成難點[EB/OL].[2012-11-09].中國互聯(lián)網絡信息中心http://www.cnidp.cn.
[11]趙海娟.掘金大數據 亟待國家戰(zhàn)略支持[N].中國經濟時報,2013-01-22(2).
[12]郭曉科.大數據[M].北京:清華大學出版社,2013.
(責任編輯 沈蓉)
Challenges and Countermeasures in the Age of Big Data
Xu Ye
(Chinese Academy of Science and Technology for Development,Beijing 100038,China)
In this paper,we study the concept and features of big data,analyze the pattern of data’s big bang,as well as what it may bring about to the world.At the same time,we point out several challenges China has to face in the age of big data,which contains managing in security,storing and progressing,applying,and experts training.And then,we propose some advices and proposals.
Big data;Strategic resources;Data security;Data talents
國家軟科學研究計劃(2011GXS4K077),國家軟科學研究計劃(2011GXS5K101)。
2014-06-06
許曄(1966-),女,遼寧大連人,中國科學技術發(fā)展戰(zhàn)略研究院研究員;研究方向:信息通信、技術預測、科技戰(zhàn)略。
G312
A