在2 0 1 7年中國大數(shù)據(jù)技術(shù)大會(B DTC)開幕式上,中國計算機學會(CCF)大數(shù)據(jù)專家委員會(以下簡稱大專委)如期發(fā)布了2018年大數(shù)據(jù)十大發(fā)展趨勢預測,引發(fā)了業(yè)界的廣泛關(guān)注和持續(xù)傳播。
本次大數(shù)據(jù)發(fā)展趨勢預測經(jīng)歷了候選項征集和正式投票兩個環(huán)節(jié)。在候選項征集環(huán)節(jié),補充了若干體現(xiàn)大數(shù)據(jù)領(lǐng)域最新進展的候選項,并調(diào)整和刪除了一些過時選項,最終形成的預測選項包括67項發(fā)展趨勢選項和9項專項調(diào)研選項。在正式投票環(huán)節(jié),投票范圍面向大專委的正式委員和通訊委員,共收回選票82份。通過對這些選票的匯總和整理,形成了對2018年發(fā)展趨勢的預測,與2017年預測結(jié)果的對比見表1。
表1 大專委2017年、2018年大數(shù)據(jù)十大發(fā)展趨勢預測對比
通過對比不難發(fā)現(xiàn),大專委對2018年大數(shù)據(jù)發(fā)展趨勢預測的結(jié)果與2017年預測結(jié)果的重合度較高,10條預測項中有6條出現(xiàn)在2017年度的預測結(jié)果中。新出現(xiàn)的4條預測項反映了本次大專委預測結(jié)果的兩大特點:一是人工智能在大數(shù)據(jù)應(yīng)用中具有壓倒性的優(yōu)勢,新增的4條預測項中,3條與人工智能相關(guān)(2018年預測排名中的第6條、第8條、第10條);二是對大數(shù)據(jù)學科建設(shè)的依賴性增強,體現(xiàn)在新出現(xiàn)的另外一條預測項上(2018預測排名中的第4條),大專委的專家既對數(shù)據(jù)科學寄予厚望,又擔心其學科突破進展緩慢。本文將對2018年大數(shù)據(jù)十大發(fā)展趨勢預測進行簡要的解讀。
該項延續(xù)了2017年的預測結(jié)果,再次在投票中拔得頭籌,可見其公認度之高和穩(wěn)定?!按髷?shù)據(jù)”一詞原本是數(shù)據(jù)量大、數(shù)據(jù)樣式復雜等特性的代名詞,如今已經(jīng)逐漸轉(zhuǎn)變?yōu)轭A測分析、用戶行為分析、態(tài)勢感知等高級智能分析方法的運用。
大數(shù)據(jù)智能分析旨在從數(shù)據(jù)中挖掘提取潛藏的巨大價值,這正是大數(shù)據(jù)的核心意義所在。智能分析方法均以機器學習為核心,甚至可以說是機器學習技術(shù)的不同表現(xiàn)形式。機器學習(包括近年來興起的深度學習、強化學習等)已是從事大數(shù)據(jù)行業(yè)的人員應(yīng)具備的基礎(chǔ)技能之一,它在大量數(shù)據(jù)樣本的支撐與分布式存儲管理及計算處理等技術(shù)的支持配合下,成為將大數(shù)據(jù)轉(zhuǎn)化為實際價值的核心手段的不二之選。
與趨勢一相同,該項也延續(xù)了2017年預測結(jié)果的排位,再次占據(jù)投票排行的榜眼位置。腦科學也稱神經(jīng)科學(Neuroscience),近年來在研究深度和寬度上有了重大突破,包含從對單個神經(jīng)細胞的分子與細胞級的研究到對全腦神經(jīng)網(wǎng)絡(luò)的活動成像。人工智能與腦科學的結(jié)合可以追溯到20世紀四五十年代,人工神經(jīng)網(wǎng)絡(luò)的出現(xiàn)正是兩個學科的最初也是最重要的成果之一。DeepMind公司在2017年12月發(fā)布的AlphaZero同時在圍棋、國際象棋上展現(xiàn)出超越人類的強大智能,其中采用的卷積神經(jīng)網(wǎng)絡(luò)等深度學習技術(shù)的思想也是起源于人工神經(jīng)網(wǎng)絡(luò)及一些對人腦的初步研究結(jié)論,這說明了腦科學與人工智能結(jié)合的巨大潛力。
然而,腦科學研究與人工智能的真正融合還沒有發(fā)生,因為研究者尚未完成對人腦神經(jīng)結(jié)構(gòu)的解析,不清楚百億級的神經(jīng)元如何交互,以完成高效的信息處理。腦科學的研究進展可能成為人工智能跨越發(fā)展的關(guān)鍵助推,如神經(jīng)網(wǎng)絡(luò)的自組織、自學習等,從而為大數(shù)據(jù)分析帶來突破。因此,對人工智能與腦科學的結(jié)合研究將持續(xù)升溫,成為相關(guān)領(lǐng)域的重要熱點。
該項是2017年預測結(jié)果趨勢四——“多學科融合與數(shù)據(jù)科學興起”的發(fā)展演進。數(shù)據(jù)科學從興起逐漸成長為現(xiàn)實,專門的研究機構(gòu)的建立以及相應(yīng)的專業(yè)與學位的設(shè)立是這一過程的真實寫照,數(shù)據(jù)科學家已然成為21世紀最受追捧的職業(yè)之一。但從本質(zhì)上看,數(shù)據(jù)科學是一門綜合統(tǒng)計、數(shù)據(jù)挖掘、機器學習、數(shù)據(jù)可視化、分布式系統(tǒng)、高性能計算等多項理論及技術(shù),以從數(shù)據(jù)中提取潛在價值為目標的學科,它的存在本身就是多學科融合的典范。因此,數(shù)據(jù)科學的發(fā)展成熟必然會進一步推動相關(guān)學科的深入交叉融合。
此外,數(shù)據(jù)科學的發(fā)展對其他領(lǐng)域也產(chǎn)生了重要影響,包括經(jīng)濟學、醫(yī)學、生物學、社會學等,它提供的數(shù)據(jù)處理及分析技術(shù)為研究者們提供了極大的幫助。人們發(fā)現(xiàn)越來越多的來自不同學科領(lǐng)域的問題可以采用類似的思想和方法進行研究,從而推動學科間的交流融合,促進共同發(fā)展。
該項是十大預測中的新面孔。隨著大數(shù)據(jù)技術(shù)的廣泛應(yīng)用,近年來數(shù)據(jù)學科已然興起。國內(nèi)外一些高校已經(jīng)設(shè)立了相關(guān)專業(yè),開設(shè)有關(guān)課程,逐步探索其發(fā)展方向。國外很多大學將數(shù)據(jù)科學與原有特色專業(yè)結(jié)合,在本校具有優(yōu)勢的領(lǐng)域中關(guān)注和實踐數(shù)據(jù)科學。國內(nèi)高校也紛紛設(shè)立了與大數(shù)據(jù)相關(guān)的專業(yè)或研究所,探索數(shù)據(jù)科學專業(yè)的未來發(fā)展。2016—2017年,經(jīng)教育部批準,國內(nèi)共有35所高校成功申請了“數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)”本科專業(yè)。除了數(shù)學、通信和計算機等基礎(chǔ)課程外,開設(shè)的專業(yè)課程主要分為3個方向,即大數(shù)據(jù)分析方向、大數(shù)據(jù)平臺方向和深度計算分析方向。
學科是人類知識體系中的基本組成部分,任何一個學科的發(fā)展都會經(jīng)歷萌生、形成、成長到成熟的過程??傮w來說,大數(shù)據(jù)學科建設(shè)尚處于摸索階段,還沒有一個成熟的學科體系,相關(guān)課程體系及要求尚未完全達成共識,還需要進行進一步的技術(shù)研究、實踐積累和理論提升,只有相應(yīng)的知識被創(chuàng)造并逐步發(fā)展成系統(tǒng)化的理論與方法,才能形成一個有特色的學科。
趨勢四與趨勢三共同出現(xiàn),反映了大專委的專家對大數(shù)據(jù)學科建設(shè)的矛盾心理。一方面,大專委的專家寄希望于在具體的應(yīng)用技術(shù)之外,能夠通過學科建設(shè)帶動大數(shù)據(jù)的發(fā)展;另一方面,又對學科建設(shè)發(fā)展的進度持悲觀看法。暫且不考慮這種矛盾性,這兩項趨勢預測同時出現(xiàn),也體現(xiàn)了大專委越來越多的專家開始在技術(shù)之外,從科學的角度思考大數(shù)據(jù)的本質(zhì)問題。
該項來自于2017年預測結(jié)果的趨勢九。數(shù)據(jù)安全和個人隱私泄漏已然成為全球安全問題的焦點,近年來,有關(guān)數(shù)據(jù)和個人隱私數(shù)據(jù)泄露的安全事件頻頻爆出,如美國信用機構(gòu)Equifax因遭到黑客襲擊,大約1.43億名用戶的數(shù)據(jù)被泄露,相關(guān)內(nèi)容包括社保號碼、生日、地址等。所以,在2018年的十大趨勢中,該項被更多的專家關(guān)注,一舉進入前五。
要做到對數(shù)據(jù)加強保護,除了采用技術(shù)手段和行業(yè)自律外,還應(yīng)加強法律建設(shè)和政府監(jiān)管。2017年6月1日起,我國開始施行的《中華人民共和國網(wǎng)絡(luò)安全法》用一個章節(jié)的篇幅專門規(guī)定網(wǎng)絡(luò)信息安全保護相關(guān)條款,這對加強數(shù)據(jù)保護起到了非常積極的作用。但是,還要看到,由于技術(shù)的快速發(fā)展和現(xiàn)實情況的復雜多變,我國現(xiàn)行的法律法規(guī)中對網(wǎng)絡(luò)信息保護的條款還不夠,相互之間的協(xié)調(diào)也還存在一定的問題。因此,要從數(shù)據(jù)的全生命周期進行綜合考慮,進一步推動數(shù)據(jù)立法,從法律層面對數(shù)據(jù)的采集、傳輸、流轉(zhuǎn)、交易、使用和銷毀等環(huán)節(jié)做出明確約束,使得個人數(shù)據(jù)隱私保護有法可依,以更好地對數(shù)據(jù)和個人隱私進行強有力的法律保護。
這是有關(guān)大數(shù)據(jù)應(yīng)用場景的預測。利用大數(shù)據(jù)做預測和決策支持是大數(shù)據(jù)的經(jīng)典應(yīng)用場景,也與機器學習和數(shù)據(jù)挖掘密切相關(guān)。典型做法是通過分析海量歷史數(shù)據(jù),找到現(xiàn)有現(xiàn)象之間的相關(guān)關(guān)系,建立相應(yīng)的機器學習模型,并應(yīng)用構(gòu)建的模型預測未來,進而向決策者提供決策支持。
通過對海量的多維、異構(gòu)數(shù)據(jù)進行融合分析,可以從時間、空間、網(wǎng)絡(luò)等多個維度面向特定對象建立更全面和精準的畫像,分析歷史行為軌跡,預測未來發(fā)展態(tài)勢。典型應(yīng)用場景包括個性化推薦、資源配置優(yōu)化、企業(yè)決策支持等。例如,電子商務(wù)企業(yè)通過分析用戶的歷史購買行為,進行精準的商品推薦;網(wǎng)約車企業(yè)通過歷史數(shù)據(jù)對特定區(qū)域未來的客流量進行預測,進而實現(xiàn)車輛預先調(diào)度,達到整體資源利用最優(yōu)化的目的。
該項在2017年的預測中排名第六,2018年的排名變化不大。數(shù)據(jù)語義化是通過符號變換將文檔轉(zhuǎn)換成機器可“理解”的符號的過程;數(shù)據(jù)知識化是在語義化的基礎(chǔ)上進一步挖掘并展示數(shù)據(jù)深層含義的過程,這兩個過程是知識自動發(fā)現(xiàn)和挖掘的基礎(chǔ)。從Linked of Data的發(fā)展,到Google知識圖譜,再到Google Vault以及深度問答應(yīng)用的出現(xiàn),證明了數(shù)據(jù)的知識化組織和語義關(guān)聯(lián)是發(fā)現(xiàn)、挖掘并有效管理大數(shù)據(jù)深層價值的前提。在可預見的未來,人們將面臨更快的數(shù)據(jù)增長和更廣的數(shù)據(jù)維度,面對這些海量復雜數(shù)據(jù),數(shù)據(jù)的價值更容易被淹沒。如何更好地發(fā)現(xiàn)和理解這些海量數(shù)據(jù),依然會是未來持續(xù)關(guān)注的問題。
該項同樣是趨勢預測中的新面孔,可以作為趨勢七的后續(xù)。2017年人工智能領(lǐng)域的一大熱點是出現(xiàn)了像“AlphaGo”“AlphaZero”這種不基于人類已有知識的智能模式,但大專委的專家給出的預測中包含了基于海量知識的智能模式,這也體現(xiàn)了人工智能應(yīng)用模式多樣化的趨勢。
計算機既能存儲人們積累起來的知識和經(jīng)驗,又可以挖掘大數(shù)據(jù)中包含的信息,因此可以取代部分人腦的勞動。如果對人腦的研究有重大科學突破,機器很有可能成為人工大腦,像會思考的人一樣處理信息。人工大腦的實現(xiàn)依賴于海量數(shù)據(jù)語義挖掘、信息抽取和知識庫構(gòu)建的創(chuàng)新及實用方法以及面向海量語義知識庫(信息)的語義查詢技術(shù)和方法。在趨勢七的基礎(chǔ)上,利用大數(shù)據(jù)實現(xiàn)基于海量知識的智能,也就順理成章了。
這是最近5年來連續(xù)出現(xiàn)在預測結(jié)果中的選項,只是每年的排名會有一些變化。大數(shù)據(jù)安全風險伴隨大數(shù)據(jù)應(yīng)用而生,人們在享受大數(shù)據(jù)福祉的同時,也遭受著前所未有的安全挑戰(zhàn)。隨著大數(shù)據(jù)應(yīng)用的爆發(fā),應(yīng)用系統(tǒng)遭受攻擊、數(shù)據(jù)丟失和個人信息泄漏的事件常有發(fā)生,而地下數(shù)據(jù)交易“黑灰產(chǎn)”也導致了大量的數(shù)據(jù)濫用和網(wǎng)絡(luò)詐騙事件。這些安全事件,有的造成了個人的財產(chǎn)損失,有的引發(fā)了惡性社會事件,有的甚至危及了國家安全??梢哉f當前環(huán)境下,大數(shù)據(jù)平臺與技術(shù)、大數(shù)據(jù)環(huán)境下的數(shù)據(jù)和個人信息、大數(shù)據(jù)應(yīng)用等方面都面臨著極大的安全挑戰(zhàn),這些挑戰(zhàn)不僅對個人會產(chǎn)生重大的影響,更直接威脅到社會穩(wěn)定和國家安全。
相對于業(yè)務(wù)功能,安全手段往往具有滯后性。現(xiàn)有大數(shù)據(jù)平臺和技術(shù)主要圍繞大容量、高速率的數(shù)據(jù)處理功能開發(fā),在安全機制方面多通過調(diào)用外部安全組件、修補安全補丁的方式進行,存在整體安全規(guī)劃不足、缺乏內(nèi)建安全機制和安全措施協(xié)調(diào)不夠等問題。因此,要想讓大數(shù)據(jù)發(fā)揮作用,其安全保護仍然是一個要花大力氣、持續(xù)解決的重要事項。
該項首次出現(xiàn)在大專委的調(diào)查問卷中,就成功入選十大趨勢,可見知識圖譜在大數(shù)據(jù)領(lǐng)域的受關(guān)注程度。知識圖譜是一種以符號形式描述物理世界中概念、實體及其關(guān)系的網(wǎng)狀知識結(jié)構(gòu)。當前知識圖譜技術(shù)主要應(yīng)用于智能語義搜索(如Knowledge Vault)、移動個人助理(如Google Now、Apple Siri)以及深度問答系統(tǒng)(如IBM Watson、Wolfram Alpha)等。然而,隨著各領(lǐng)域數(shù)據(jù)的積累,海量復雜數(shù)據(jù)將不斷加劇知識的碎片化和復雜化,知識的碎片化會降低知識的價值,而知識的復雜化會降低知識的易用性。因此,需要一個能夠有效管理領(lǐng)域知識的載體。知識圖譜的出現(xiàn),不僅可以將信息表達成更近似人類認知世界的形式,而且提供了一種更好的組織、管理和利用海量復雜數(shù)據(jù)的方式。現(xiàn)在基于知識圖譜的大數(shù)據(jù)應(yīng)用已經(jīng)開始慢慢滲透到各行各業(yè),例如,互聯(lián)網(wǎng)金融中的反欺詐應(yīng)用、企業(yè)的精準營銷應(yīng)用、生命科學中的藥物發(fā)現(xiàn)應(yīng)用、電信行業(yè)的客戶關(guān)系發(fā)現(xiàn)應(yīng)用等。預期未來基于知識圖譜的大數(shù)據(jù)應(yīng)用將會滲透到更多領(lǐng)域和場景。
大數(shù)據(jù)的發(fā)展最直接的推動力來自于應(yīng)用,最近5年大數(shù)據(jù)“最令人矚目的應(yīng)用領(lǐng)域”的專項調(diào)研結(jié)果見表2。前三甲一直都是互聯(lián)網(wǎng)和電子商務(wù)、金融、健康醫(yī)療,但2018年金融超越互聯(lián)網(wǎng)和電子商務(wù),排名上升到首位,這在調(diào)研中還是首次出現(xiàn)。此外,城鎮(zhèn)化和智慧城市的得票數(shù)也有所上升,其他選項的得票數(shù)與前四名相去甚遠,不足以出現(xiàn)在排名中。這反映出隨著國家智慧城市建設(shè)的推進,面向智慧城市的大數(shù)據(jù)應(yīng)用受到了更多的關(guān)注。
表2 大數(shù)據(jù)應(yīng)用最令人矚目領(lǐng)域調(diào)查結(jié)果對比
所謂“取得應(yīng)用和技術(shù)突破的數(shù)據(jù)類型”是指當前的分析技術(shù)和應(yīng)用形態(tài)還不成熟、在未來一年最有可能取得突破性進展的數(shù)據(jù)類型,最近4年的預測結(jié)果見表3。其中對2018年的預測集中在城市數(shù)據(jù)和視頻數(shù)據(jù),排名第三的語音數(shù)據(jù)及后續(xù)項目的得票數(shù)與前兩名相去甚遠。這可能與對這兩類數(shù)據(jù)的處理還沒有成熟的應(yīng)用模式有關(guān),而對語音、互聯(lián)網(wǎng)、圖形圖像等數(shù)據(jù)的處理技術(shù)和應(yīng)用模式已相對成熟,要想取得新的突破難度更大。
表3 取得應(yīng)用和技術(shù)突破的數(shù)據(jù)類型調(diào)查結(jié)果對比
本項調(diào)查結(jié)果見表4。在對2018年的預測中,“機器人和人工智能”得票數(shù)遠高于其他候選項,以至于其他選項都不足以出現(xiàn)在該統(tǒng)計表中。人工智能呈現(xiàn)出的“一邊倒”的優(yōu)勢,也反映了正處于風口上的人工智能的火熱程度。
表4 與大數(shù)據(jù)最匹配的概念調(diào)查結(jié)果對比
本項關(guān)注到底是什么樣的力量在推動大數(shù)據(jù)的技術(shù)、產(chǎn)業(yè)、應(yīng)用的發(fā)展,調(diào)研結(jié)果見表5??梢钥闯?,除了大型互聯(lián)網(wǎng)公司和政府機構(gòu),其他的推動者都已經(jīng)先后淡出了這個名單。這說明大專委的專家們已經(jīng)形成了較為一致的看法:能夠推動大數(shù)據(jù)發(fā)展的,要么是具備資金、技術(shù)和數(shù)據(jù)優(yōu)勢的互聯(lián)網(wǎng)公司,要么是具備政策影響力的政府機構(gòu),其他機構(gòu)對大數(shù)據(jù)發(fā)展的推動力都十分有限。
表5 我國大數(shù)據(jù)發(fā)展的最主要推動者調(diào)查結(jié)果對比
本項借用Gartner技術(shù)成熟度曲線中對技術(shù)發(fā)展階段的劃分,評估人們對大數(shù)據(jù)當前發(fā)展階段的看法,見表6。從這6個階段的投票分布來看,第二階段(即將快速增長)和第六階段(穩(wěn)步成長中)占投票數(shù)的63%,對比2017年的預測集中度有了進一步的提升,這表明整體上大專委的專家對大數(shù)據(jù)的發(fā)展前景持更加樂觀的態(tài)度。事實上Gartner從2015年起,已經(jīng)不在每年的新興技術(shù)成熟度曲線中給出大數(shù)據(jù)的位置,Gartner對此的解釋是大數(shù)據(jù)已經(jīng)快速發(fā)展成為一項各個領(lǐng)域通用的基礎(chǔ)技術(shù),因此不再作為新興技術(shù)進行定位。大專委的專家們給出的發(fā)展階段判斷與Gartner的判斷有一定的一致性。
表6 大數(shù)據(jù)發(fā)展階段判斷調(diào)查結(jié)果對比
本文介紹了CCF大專委對2018年大數(shù)據(jù)發(fā)展趨勢預測的結(jié)果,并將最近幾年的預測結(jié)果進行了對比分析,以便讀者能夠全面地了解大數(shù)據(jù)的發(fā)展趨勢。
當前在各個領(lǐng)域通過采集、分析和運用數(shù)據(jù)提升能力的行為越來越普遍,大數(shù)據(jù)已經(jīng)真正成為眾多行業(yè)的底層關(guān)鍵技術(shù)。在國家戰(zhàn)略層面,新一屆政治局在2017年底就實施國家大數(shù)據(jù)戰(zhàn)略進行了第二次集體學習,習近平總書記強調(diào)要通過大數(shù)據(jù)進行產(chǎn)業(yè)創(chuàng)新、打造數(shù)字經(jīng)濟、提升國家治理水平、改善民生以及保障國家數(shù)據(jù)安全。期待國內(nèi)的大數(shù)據(jù)產(chǎn)業(yè)和技術(shù)能夠?qū)崿F(xiàn)快速、良性的發(fā)展,為社會創(chuàng)造更多的價值。