周傲英,錢衛(wèi)寧,王長波
華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院 上海 200062
數(shù)據(jù)科學(xué)與工程:大數(shù)據(jù)時代的新興交叉學(xué)科
周傲英,錢衛(wèi)寧,王長波
華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院 上海 200062
大數(shù)據(jù)時代的IT發(fā)展的基本特點是:應(yīng)用驅(qū)動創(chuàng)新,開源加速創(chuàng)新,硬件助力創(chuàng)新?;趯@些特點的認識,從社會創(chuàng)新發(fā)展、人才需求變化、技術(shù)發(fā)展趨勢等方面論述了數(shù)據(jù)科學(xué)與工程這一新興交叉學(xué)科的發(fā)展必然性,進一步闡述了數(shù)據(jù)科學(xué)與工程學(xué)科的特點、學(xué)科內(nèi)涵與知識體系,最后從科學(xué)研究、系統(tǒng)開發(fā)和人才培養(yǎng)的角度探討了數(shù)據(jù)科學(xué)與工程學(xué)科的建設(shè)思路。
大數(shù)據(jù);數(shù)據(jù)科學(xué)與工程;交叉學(xué)科;萬眾創(chuàng)新;人才培養(yǎng)
當前,“大數(shù)據(jù)”這一術(shù)語已經(jīng)遠遠超越了當初的互聯(lián)網(wǎng)或信息技術(shù)(IT)的技術(shù)范疇,變成了一個時代的標志。大數(shù)據(jù)時代的到來有其必然性,當計算和通信取得長足進步的時候,當傳感器網(wǎng)絡(luò)和互聯(lián)網(wǎng)等信息采集平臺日臻完善的時候,數(shù)據(jù)的存儲管理和分析處理就自然成為關(guān)注的焦點?!按髷?shù)據(jù)”概念的提出意味著信息技術(shù)領(lǐng)域的重點由“計算”轉(zhuǎn)為“數(shù)據(jù)”。稍微留意一下就可以看到,許多原本在IT其他領(lǐng)域成就卓著的著名專家和學(xué)者都紛紛轉(zhuǎn)向大數(shù)據(jù)領(lǐng)域。這種現(xiàn)象可以引發(fā)大家的思考:類比于已經(jīng)發(fā)展了半個多世紀的“計算機科學(xué)”,現(xiàn)在是否也應(yīng)該單獨認真考慮一下“數(shù)據(jù)科學(xué)”這樣一個學(xué)科方向?
大數(shù)據(jù)不僅僅是信息技術(shù)領(lǐng)域的事情,它的典型特點就是與應(yīng)用密切結(jié)合。在當前階段,大數(shù)據(jù)概念的提出和被廣泛接受才不過三四年,屬于發(fā)展初期。這個時期,如果離開了應(yīng)用來談大數(shù)據(jù),相信大家都會認為是“空談”。回顧一下,大數(shù)據(jù)在科學(xué)研究(如地球科學(xué)、生命科學(xué)、高能物理研究等)[1]和商業(yè)領(lǐng)域(如行為分析、趨勢分析、行情預(yù)測、精準營銷、商品推薦等)[2]都有成功的應(yīng)用?;ヂ?lián)網(wǎng)已經(jīng)成為人們生活生產(chǎn)中不可或缺的環(huán)境和平臺,正因為大數(shù)據(jù)在互聯(lián)網(wǎng)商業(yè)領(lǐng)域的巨大成功,使得這一概念已經(jīng)被社會各個層面廣泛認可,開始從線上走到線下,越來越多的人從企業(yè)管理、社會治理、科學(xué)研究等領(lǐng)域探討大數(shù)據(jù)的應(yīng)用。這種來源于應(yīng)用的關(guān)于大數(shù)據(jù)技術(shù)的爆發(fā)式需求,為一門新型的獨立學(xué)科的形成和發(fā)展帶來了挑戰(zhàn)和機遇。因為其“應(yīng)用驅(qū)動”的特點,工程實現(xiàn)和應(yīng)用部署至關(guān)重要,“數(shù)據(jù)科學(xué)與工程”是個更貼切的學(xué)科名稱。
基于以上基本認識,本文從社會需求、學(xué)科本質(zhì)以及人才培養(yǎng)等方面進行探討。
2.1 我國創(chuàng)新驅(qū)動發(fā)展的需求
我國的社會經(jīng)濟發(fā)展進入新常態(tài),經(jīng)濟發(fā)展從高速進入中高速,生產(chǎn)制造從中低端轉(zhuǎn)向中高端。在新常態(tài)下,如何有效促進經(jīng)濟結(jié)構(gòu)調(diào)整,同時保證就業(yè)和經(jīng)濟平穩(wěn)發(fā)展,這有賴于信息化。新時期的信息化還和建設(shè)生態(tài)文明、拉動消費、提高產(chǎn)品競爭力等密切關(guān)聯(lián)。與以前的“信息化帶動工業(yè)化”以及稍后的“兩化融合”等信息化戰(zhàn)略相比,新型的信息化是在移動互聯(lián)網(wǎng)的環(huán)境下提出來的,有著深刻的云計算和大數(shù)據(jù)背景,對數(shù)據(jù)科學(xué)與工程學(xué)科的發(fā)展有重要的指導(dǎo)意義。
自從斯諾登“棱鏡門”事件以來,世界各國都高度重視網(wǎng)絡(luò)(空間)安全問題。我國成立了由最高領(lǐng)導(dǎo)人擔(dān)任組長的國家網(wǎng)絡(luò)安全領(lǐng)導(dǎo)小組,負責(zé)制定和指導(dǎo)關(guān)鍵任務(wù)信息系統(tǒng)及其安全的規(guī)劃和建設(shè)。習(xí)近平總書記提出了“沒有網(wǎng)絡(luò)安全就沒有國家安全”的論斷。目前,我國的核心信息系統(tǒng)主要還是運行在來自美國的IT壟斷企業(yè)的基礎(chǔ)系統(tǒng)和平臺之上,擺脫這種技術(shù)依賴是IT業(yè)界和關(guān)鍵應(yīng)用行業(yè)的當務(wù)之急。針對這種狀況,互聯(lián)網(wǎng)業(yè)界從成本考慮,提出了“去IOE”(即擺脫對IBM主機、Oracle高性能數(shù)據(jù)庫以及EMC高端存儲的依賴)的口號。對于國家核心信息系統(tǒng),這不僅僅是成本問題,更是安全問題。因此,“技術(shù)先進、企業(yè)領(lǐng)先、安全可靠、自主可控”已經(jīng)成為我國發(fā)展信息技術(shù)和系統(tǒng)的基本戰(zhàn)略。這對從事IT研發(fā)和人才培養(yǎng)的專業(yè)人士提出了很高的要求。為滿足這一要求,需要與時俱進,從新的學(xué)科角度來審視面臨的挑戰(zhàn)和機遇,尋找實現(xiàn)“跨越式發(fā)展”和“彎道超車”的發(fā)展途徑。
2015年3月5日,李克強總理在政府工作報告中發(fā)出了“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”的號召,得到了全社會的積極響應(yīng)?;仡櫼幌挛覈膭?chuàng)新發(fā)展戰(zhàn)略,改革開放以來的30多年,大致經(jīng)歷了從以“星期日工程師”為標志的大學(xué)創(chuàng)新,到“企業(yè)是創(chuàng)新的主體”的企業(yè)創(chuàng)新,再到2011年胡錦濤總書記提出的“協(xié)同創(chuàng)新”,一直到當前的“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”4個階段,創(chuàng)新一直被高度重視。自1996年4月江澤民總書記提出“創(chuàng)新是一個民族進步的靈魂”的論斷以來,迄今也有20年時間,離2020年建成創(chuàng)新型國家的時間節(jié)點也日益迫近。黨的十八大以來,隨著“兩個一百年”奮斗目標和實現(xiàn)中華民族偉大復(fù)興的“中國夢”的提出,“創(chuàng)新驅(qū)動發(fā)展”作為國家的發(fā)展戰(zhàn)略被提到前所未有的高度,凸顯了新一代領(lǐng)導(dǎo)人對于創(chuàng)新的高度重視。從李克強總理提出的“互聯(lián)網(wǎng)+”理念以及在各種場合對創(chuàng)新創(chuàng)業(yè)的解讀來看,中國互聯(lián)網(wǎng)企業(yè)的巨大成功是“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”最好的注解,互聯(lián)網(wǎng)本身作為人和人之間的連接平臺,為創(chuàng)新創(chuàng)業(yè)提供了嶄新的環(huán)境。互聯(lián)網(wǎng)和“互聯(lián)網(wǎng)+”的成功與否本質(zhì)上就取決于大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用。在當前的創(chuàng)新創(chuàng)業(yè)背景下,探討數(shù)據(jù)科學(xué)與工程學(xué)科恰逢其時。
2.2 IT人才市場變化的需求
信息技術(shù)作為近年來發(fā)展最快的領(lǐng)域,人才市場需求的變化也最為明顯。2006年是一個轉(zhuǎn)折點,這個轉(zhuǎn)折點的標志性事件是,百度作為國內(nèi)互聯(lián)網(wǎng)企業(yè),第一次對國內(nèi)高校的畢業(yè)生給出了比老牌的跨國IT企業(yè)更高的薪酬。在那之前,國內(nèi)高校的大多數(shù)畢業(yè)生是以拿到那些著名跨國IT企業(yè)提供的職位為追求目標的。其深層次的原因在于,國內(nèi)的信息系統(tǒng)都是架構(gòu)在這些跨國IT企業(yè)的基礎(chǔ)系統(tǒng)或平臺之上的,國內(nèi)的IT企業(yè)實際上就是系統(tǒng)集成商或是解決方案提供商,所有源頭的核心技術(shù)都不掌握在自己手里,我國培養(yǎng)的IT人才要做的就是用好壟斷企業(yè)的系統(tǒng)和平臺,最多需要再做些簡單的二次開發(fā)。壟斷企業(yè)對優(yōu)秀人才的吸引也進一步枯竭了我國自主創(chuàng)新和研發(fā)的能力。
近10年來,以BAT(指百度(B)、阿里巴巴(A)、騰訊(T))為代表的中國互聯(lián)網(wǎng)企業(yè)在商業(yè)上取得了被世人認可的巨大成功,這對于我國信息技術(shù)產(chǎn)業(yè)以及其他相關(guān)領(lǐng)域的影響也同樣巨大。當然,互聯(lián)網(wǎng)企業(yè)不是IT企業(yè),因為它不提供諸如硬件、軟件或是咨詢服務(wù)、解決方案等傳統(tǒng)IT企業(yè)提供的產(chǎn)品,它只是第三產(chǎn)業(yè)中的信息服務(wù)業(yè)企業(yè)。但是,對互聯(lián)網(wǎng)企業(yè)而言,IT能力是其核心競爭力。互聯(lián)網(wǎng)企業(yè)的IT能力建設(shè)不依賴于傳統(tǒng)的IT企業(yè),這一事實有著非凡的意義:一是破除迷信,打破了IT界以往對于傳統(tǒng)壟斷性IT企業(yè)的盲目崇拜,以為那些高端的技術(shù)和系統(tǒng)是他們的獨門秘籍,是我們望塵莫及的;二是解放思想,使得各行各業(yè)可以效仿互聯(lián)網(wǎng)業(yè)界,針對自身的應(yīng)用需求,融會貫通地利用掌握的IT知識和開源技術(shù),從應(yīng)用需求出發(fā),從硬件體系結(jié)構(gòu)到網(wǎng)絡(luò)架構(gòu)再到軟件系統(tǒng)直至應(yīng)用軟件,度身定制所需要的IT系統(tǒng)和平臺。這帶來的不僅僅是成本的降低,更重要的是可以對創(chuàng)新型商業(yè)模式的開發(fā)提供有效的支持。商業(yè)模式是服務(wù)業(yè)企業(yè)的生命線,創(chuàng)新型商業(yè)模式的開發(fā)依賴于“數(shù)據(jù)科學(xué)家”,企業(yè)IT能力的建設(shè)依賴于“系統(tǒng)架構(gòu)師”。
在我國,雖然經(jīng)濟下行沒有影響IT的就業(yè)形勢,但是市場上對IT人才的需求與高校能夠提供的人才相比還是有很大的差距,這表現(xiàn)在企業(yè)需要的合格的“系統(tǒng)架構(gòu)師”和“數(shù)據(jù)科學(xué)家”很難直接從學(xué)校招到。這一點在高校表現(xiàn)尤為明顯,課堂和實驗室學(xué)的東西遠離市場需求,厭學(xué)頻發(fā)。
2.3 技術(shù)和產(chǎn)業(yè)發(fā)展的需求
現(xiàn)有的計算機或IT技術(shù)和系統(tǒng)是基于三四十年以前的硬件技術(shù)水平而研發(fā)的。最近十幾年以來,硬件技術(shù)產(chǎn)生了突飛猛進的發(fā)展。CPU從多核走向眾核、萬兆以太網(wǎng)等網(wǎng)絡(luò)連接技術(shù)的成熟、新型存儲設(shè)備和非易失存儲介質(zhì)的研發(fā)成功、計算機新型體系結(jié)構(gòu)的探索,這在很大程度上打破了大多數(shù)沿用至今的IT技術(shù)和系統(tǒng)的假設(shè)前提。表1展現(xiàn)了硬件技術(shù)近40年以來的迅猛發(fā)展,也說明了其發(fā)展的不均衡性。如何充分發(fā)揮硬件技術(shù)發(fā)展的潛力,是傳統(tǒng)的IT企業(yè)在考慮其優(yōu)勢產(chǎn)品升級換代時重點考慮的問題,但由于基本假設(shè)前提的不吻合以及本質(zhì)上的不適應(yīng),想做到和硬件發(fā)展與時俱進幾乎是不可能的。
為了充分利用硬件技術(shù)的發(fā)展,也為了降低成本和契合現(xiàn)實應(yīng)用的實際需求,人們開始了圍繞應(yīng)用進行定制式的系統(tǒng)研發(fā)和部署。也就是說,針對應(yīng)用進行垂直式的系統(tǒng)架構(gòu)設(shè)計和功能模塊開發(fā),從計算平臺搭建和系統(tǒng)軟件開發(fā),直到應(yīng)用的開發(fā)都是為解決目標應(yīng)用而做的。相對這種垂直式的技術(shù)研發(fā),傳統(tǒng)的IT系統(tǒng)發(fā)展是水平式的,從計算機系統(tǒng)到系統(tǒng)軟件再到中間件都是通用或相對通用的,應(yīng)用開發(fā)人員要做的工作就是選型、系統(tǒng)集成,然后再進行應(yīng)用層的開發(fā)和部署。GFS[3]和MapReduce[4]就是這種垂直開發(fā)的典型例子,為了解決Google公司的PageRank問題,內(nèi)部人員開發(fā)了存儲網(wǎng)頁數(shù)據(jù)和日志數(shù)據(jù)的文件系統(tǒng)GFS以及其上的便于分布并行處理數(shù)據(jù)的MapReduce編程界面。如果說“one size fits all”是傳統(tǒng)的理念,那么垂直式定制化的研發(fā)就是秉承“one size fits a case”理念[5]。這種探索,不僅可以充分利用硬件技術(shù)的最新成果,更能體現(xiàn)IT領(lǐng)域“應(yīng)用驅(qū)動創(chuàng)新”的基本精神。
Hadoop的成功開源以及對以后數(shù)據(jù)管理領(lǐng)域產(chǎn)生的巨大影響昭示了新的技術(shù)發(fā)展趨勢,那就是開源社區(qū)和技術(shù)生態(tài)的重要性[6]。這和我國時下倡導(dǎo)的“萬眾創(chuàng)新”也非常吻合。正是通過開源,吸引更多的人致力于技術(shù)的研發(fā)或是應(yīng)用,反過來又貢獻于開源社區(qū),產(chǎn)生創(chuàng)新的正循環(huán)。Hadoop開源的成功也給了開源技術(shù)鼻祖的美國加州大學(xué)伯克利分校以有益的啟示,AMP實驗室的開源系統(tǒng)Spark成為來源于大學(xué)實驗室的成功開源系統(tǒng)[7]。通過開源,可以把來源于應(yīng)用的垂直式定制化的技術(shù)和系統(tǒng)推廣到其他應(yīng)用領(lǐng)域,并吸引廣大技術(shù)人員參與研發(fā)和創(chuàng)新。把一種只適合于某一個具體應(yīng)用的技術(shù)和系統(tǒng)變成適合于一類應(yīng)用,這就是實現(xiàn)所謂的“one size fits a bunch”[5]。開源和技術(shù)生態(tài)建設(shè)是當前技術(shù)發(fā)展的重要趨勢之一。
表1 40多年來硬件技術(shù)發(fā)展對比
2.4 國內(nèi)外現(xiàn)狀分析
在開設(shè)數(shù)據(jù)科學(xué)和工程相關(guān)課程方面,美國的加州大學(xué)伯克利分校、伊利諾伊大學(xué)香檳分校、哥倫比亞大學(xué)、紐約大學(xué)等從2011年開始就進行了卓有成效的嘗試。紐約大學(xué)、華盛頓大學(xué)等著名高校已經(jīng)開始設(shè)置碩士學(xué)位培養(yǎng)計劃。在我國,從2012年開始,清華大學(xué)、中國人民大學(xué)、復(fù)旦大學(xué)、北京航空航天大學(xué)等高校也開始設(shè)置了學(xué)術(shù)型或?qū)I(yè)型碩士學(xué)位培養(yǎng)計劃。
在本科專業(yè)設(shè)置方面,上海紐約大學(xué)從2015年4月份開始就在內(nèi)部討論設(shè)置一個數(shù)據(jù)科學(xué)的學(xué)士學(xué)位,除了計算機系的教授外,商學(xué)院、設(shè)計學(xué)院等教授也參與其中,并計劃于2015年9月開始招收本科生。
2015年6月7日,中山大學(xué)宣布成立“數(shù)據(jù)科學(xué)與計算機學(xué)院”,整合了與計算機相關(guān)專業(yè)的優(yōu)勢資源。2015年5月27日,復(fù)旦大學(xué)在其110周年校慶日宣布籌建“大數(shù)據(jù)科學(xué)與技術(shù)學(xué)院”。相信未來會有更多的學(xué)校在學(xué)科設(shè)置和學(xué)院建制方面進行新的探索。
華東師范大學(xué)從2007年成立海量計算研究所以來,一直致力于培養(yǎng)海量數(shù)據(jù)處理領(lǐng)域的人才,探索數(shù)據(jù)科學(xué)與工程領(lǐng)域的協(xié)同創(chuàng)新和人才培養(yǎng)道路;2012年,華東師范大學(xué)在國內(nèi)外伙伴企業(yè)和兄弟高校的支持下,成立了云計算與大數(shù)據(jù)研究中心;2013年,華東師范大學(xué)宣布成立國內(nèi)第一個數(shù)據(jù)科學(xué)與工程研究院,重申協(xié)同創(chuàng)新的理念,聚焦中國式應(yīng)用,進行大數(shù)據(jù)技術(shù)和系統(tǒng)研發(fā)以及創(chuàng)新人才培養(yǎng)。
3.1 應(yīng)用驅(qū)動創(chuàng)新
雖然互聯(lián)網(wǎng)是推動大數(shù)據(jù)熱的始作俑者,但廣泛來說,大數(shù)據(jù)不僅僅局限于互聯(lián)網(wǎng)數(shù)據(jù)。要討論這林林總總的數(shù)據(jù),從認識論的觀點來看,首先就是要對大數(shù)據(jù)進行分類,這非常必要,它是確保大家在同一論域進行討論的前提。按照筆者的理解,大數(shù)據(jù)大致可以分為Web數(shù)據(jù)、決策數(shù)據(jù)、科學(xué)數(shù)據(jù)三大類。顧名思義,Web數(shù)據(jù)是與Web相關(guān)的數(shù)據(jù),包括網(wǎng)頁、鏈接、日志等具體類型,門戶網(wǎng)站、搜索引擎、社交網(wǎng)絡(luò)、電子商務(wù)等以Web形式呈現(xiàn)或以Web為載體的新型信息服務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)大多可以歸納為此類型。決策數(shù)據(jù)主要是指由傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫管理的、在生產(chǎn)過程中產(chǎn)生的數(shù)據(jù),是用于決策的數(shù)據(jù),也可稱為商務(wù)智能(business intelligence,BI)數(shù)據(jù)??茖W(xué)數(shù)據(jù)實際上是最早的一類大數(shù)據(jù),包括科學(xué)實驗數(shù)據(jù)、科學(xué)觀測數(shù)據(jù)、科學(xué)文獻數(shù)據(jù)、設(shè)計數(shù)據(jù)等,這類數(shù)據(jù)與科學(xué)領(lǐng)域密切相關(guān),品種最多,研究最難,若沒有領(lǐng)域?qū)<业膮⑴c,IT專家難以勝任科學(xué)數(shù)據(jù)的管理和分析任務(wù)。
關(guān)于大數(shù)據(jù)研究的認識,筆者也有一個3個層次的觀點。大數(shù)據(jù)的研究全景可以看作一個倒立的三角形,如圖1所示。這個倒立三角形分為3層:第一層代表形形色色的各種應(yīng)用,這些應(yīng)用是數(shù)據(jù)的來源,也是數(shù)據(jù)的應(yīng)用場所;第二層(中間一層)代表模型和算法,是指把對應(yīng)用進行理解、抽象、建模,然后在底層的計算平臺上予以實現(xiàn)[8];第三層(最下面的一層)就代表IT計算系統(tǒng)或平臺,這是傳統(tǒng)信息技術(shù)行業(yè)關(guān)心和擅長的領(lǐng)域[9~11]。這3個層次中,第一層中每一類應(yīng)用有各自對應(yīng)的學(xué)科去深入研究;第二層是有關(guān)模型和算法的;第三層對應(yīng)的學(xué)科就是計算機或IT學(xué)科。
第一個層次是大數(shù)據(jù)應(yīng)用層次,大數(shù)據(jù)應(yīng)用是一個從科學(xué)研究、企業(yè)管理到電子商務(wù)、搜索引擎的完整譜系。這個層次涉及的人員來自各個領(lǐng)域,包括領(lǐng)域?qū)<摇⒂脩艉涂蛻舻?。在理解現(xiàn)實應(yīng)用的基礎(chǔ)上進行建模,再選定合適的技術(shù)和系統(tǒng)予以實現(xiàn),這體現(xiàn)了應(yīng)用驅(qū)動創(chuàng)新的特點。
3.2 多學(xué)科交叉融合
隨著大數(shù)據(jù)成為當前的熱點,信息技術(shù)發(fā)展的重點從計算轉(zhuǎn)向數(shù)據(jù),數(shù)據(jù)的有效應(yīng)用變得至關(guān)重要。數(shù)據(jù)科學(xué)就是在這一背景下產(chǎn)生和發(fā)展起來的。數(shù)據(jù)科學(xué)通常指基于計算機科學(xué)、統(tǒng)計學(xué)、信息系統(tǒng)等學(xué)科的理論和技術(shù),研究數(shù)據(jù)的收集整理以及從海量數(shù)據(jù)中分析處理,獲得有效知識并加以應(yīng)用的新興學(xué)科;數(shù)據(jù)工程是指利用工程的觀點進行數(shù)據(jù)管理和分析以及開展系統(tǒng)的研發(fā)和應(yīng)用。
數(shù)據(jù)量的爆炸式增長不但改變了人們的生活方式、企業(yè)的運營模式,也改變了科學(xué)研究的基本范式。數(shù)據(jù)科學(xué)和工程可以作為支撐大數(shù)據(jù)研究與應(yīng)用的交叉學(xué)科,其理論基礎(chǔ)來自多個不同的學(xué)科領(lǐng)域,包括計算機科學(xué)、統(tǒng)計學(xué)、人工智能、信息系統(tǒng)、情報科學(xué)等。數(shù)據(jù)科學(xué)與工程學(xué)科的目的在于系統(tǒng)深入地探索大數(shù)據(jù)應(yīng)用中遇到的各類科學(xué)問題、技術(shù)問題和工程實現(xiàn)問題,包括數(shù)據(jù)全生命周期管理、數(shù)據(jù)管理和分析技術(shù)和算法、數(shù)據(jù)系統(tǒng)基礎(chǔ)設(shè)施建設(shè)以及大數(shù)據(jù)應(yīng)用實施和推廣。培養(yǎng)具有扎實理論功底和大數(shù)據(jù)思維的數(shù)據(jù)科學(xué)與工程方面的高層次專門人才,推動與大數(shù)據(jù)相關(guān)的理論體系的建設(shè)和技術(shù)的進步,為解決各行各業(yè)中遇到的大數(shù)據(jù)管理和應(yīng)用問題提供人才和技術(shù)儲備。因此,多學(xué)科交叉融合也是數(shù)據(jù)科學(xué)與工程學(xué)科的另一個特點。
圖1 大數(shù)據(jù)研究全景
3.3 學(xué)科的基礎(chǔ)內(nèi)涵
與傳統(tǒng)計算機和軟件工程等學(xué)科相比,數(shù)據(jù)科學(xué)與工程學(xué)科具備獨特的學(xué)科基礎(chǔ)和內(nèi)涵。數(shù)據(jù)科學(xué)與工程學(xué)科的理論基礎(chǔ)涉及統(tǒng)計分析、商務(wù)智能以及數(shù)據(jù)處理基礎(chǔ),具體包括以下幾個方面。
● 大數(shù)據(jù)表達理論方面:包括大數(shù)據(jù)的生命周期、演化與傳播規(guī)律,數(shù)據(jù)科學(xué)與社會學(xué)、經(jīng)濟學(xué)等之間的互動機制以及大數(shù)據(jù)的結(jié)構(gòu)與效能的規(guī)律性。
● 在大數(shù)據(jù)計算理論方面:研究大數(shù)據(jù)的表示以及大數(shù)據(jù)的計算模型及其復(fù)雜性。
● 在大數(shù)據(jù)應(yīng)用基礎(chǔ)理論方面:研究大數(shù)據(jù)與知識發(fā)現(xiàn),大數(shù)據(jù)環(huán)境下的實驗與驗證方法以及大數(shù)據(jù)的安全與隱私。
相比較而言,計算機科學(xué)學(xué)科是研究算法的科學(xué),而數(shù)據(jù)科學(xué)不局限于此,其研究對象是數(shù)據(jù),隨著計算機應(yīng)用從以計算為中心逐漸向以數(shù)據(jù)為中心的遷移,數(shù)據(jù)科學(xué)與工程學(xué)科的內(nèi)涵和外延更加寬泛。軟件工程學(xué)科中的相關(guān)技術(shù)提供了數(shù)據(jù)分析處理的工具以及具體開發(fā)時的范式。數(shù)據(jù)處理技術(shù)是數(shù)據(jù)研究領(lǐng)域的一種重要的研究方法,用于研究和發(fā)現(xiàn)數(shù)據(jù)本身的現(xiàn)象和規(guī)律。
數(shù)據(jù)科學(xué)與工程也不同于傳統(tǒng)的商業(yè)智能和統(tǒng)計學(xué),商業(yè)智能主要從商業(yè)模式、經(jīng)濟管理的角度對數(shù)據(jù)應(yīng)用進行研究,而統(tǒng)計學(xué)提供具體的數(shù)據(jù)分析處理的方法論,但是面對PB級以上的海量數(shù)據(jù),大數(shù)據(jù)的分析不能停留在獲得概率分布結(jié)果,也不能滿足于對細節(jié)問題的數(shù)據(jù)挖掘,而是需要更簡單、有效的問題求解方法,爭取從大數(shù)據(jù)中獲得新的知識,構(gòu)建新的應(yīng)用范式。
3.4 學(xué)科的知識體系
數(shù)據(jù)科學(xué)與工程作為一個大數(shù)據(jù)時代的新興交叉學(xué)科,主要的知識結(jié)構(gòu)來源于計算機科學(xué)、應(yīng)用數(shù)學(xué)以及信息系統(tǒng)和信息管理3個學(xué)科,但是也和這3個學(xué)科分別都有很大的不同。在當前大數(shù)據(jù)時代,從知識結(jié)構(gòu)和人才培養(yǎng)角度來看計算機、軟件工程學(xué)科,不難得出,其知識結(jié)構(gòu)過于老化,教材和課堂上傳授的知識基本屬于“博物館”和“百科全書式”的內(nèi)容,還是服務(wù)于壟斷企業(yè)的IT產(chǎn)品和系統(tǒng),對于知識的融會貫通和綜合應(yīng)用不夠重視。這也導(dǎo)致學(xué)校教育無法滿足人才市場的需求,出現(xiàn)學(xué)生厭學(xué)、老師厭教的現(xiàn)象。而綜合應(yīng)用和融會貫通是互聯(lián)網(wǎng)企業(yè)和開源社區(qū)最為重視的方面,也是一個“系統(tǒng)架構(gòu)師”必須具備的能力和素養(yǎng)。應(yīng)用數(shù)學(xué)學(xué)科也很強調(diào)與信息學(xué)科和產(chǎn)業(yè)的結(jié)合,這一點從“計算數(shù)學(xué)”專業(yè)的更名歷史就可略見一斑,計算數(shù)學(xué)1987年更名為“計算數(shù)學(xué)及其應(yīng)用軟件”,1998年教育部將其更名為“信息與計算科學(xué)”專業(yè)。但是,這一專業(yè)在招生和就業(yè)方面頻頻亮起紅燈。究其根本原因,想必就是沒有真正和現(xiàn)實應(yīng)用相結(jié)合,也許是因為我國單純的數(shù)學(xué)背景的院系缺少這方面的基因。信息系統(tǒng)和信息管理專業(yè)非常重視企、事業(yè)單位的應(yīng)用,關(guān)注需求和機構(gòu)組織,這是實現(xiàn)應(yīng)用系統(tǒng)至關(guān)重要的因素。但因為在管理學(xué)院或商學(xué)院,數(shù)學(xué)和計算機的訓(xùn)練相對薄弱,在針對應(yīng)用的數(shù)學(xué)建模和信息系統(tǒng)的工程實現(xiàn)方面就難以勝任。
根據(jù)前面所描述的大數(shù)據(jù)全景圖(如圖1所示),數(shù)據(jù)科學(xué)與工程學(xué)科的知識體系構(gòu)建的基本原則是:針對不同的應(yīng)用,本學(xué)科培養(yǎng)的人才可以充分理解應(yīng)用需求,利用合適的數(shù)學(xué)工具進行建模,同時能夠根據(jù)具體的應(yīng)用搭建計算環(huán)境和平臺,并進行有效的算法實現(xiàn)。
在計算機學(xué)科方面,主要包括新型的專用型計算平臺的搭建,這涉及互聯(lián)網(wǎng)計算架構(gòu)、新硬件的應(yīng)用以及開源系統(tǒng)的使用等。由此倒推,需要對計算機學(xué)科的現(xiàn)有知識體系進行裁剪,舍棄那些與系統(tǒng)和平臺搭建無關(guān)的知識。在應(yīng)用數(shù)學(xué)方面,著重于對數(shù)學(xué)建模工具的靈活掌握,具體而言,就是對概率論、數(shù)理統(tǒng)計以及矩陣計算(計算方法)等工程數(shù)學(xué)能活學(xué)活用,既能利用這些數(shù)學(xué)工具來抽象具體的現(xiàn)實應(yīng)用,又能進行有效的算法實現(xiàn)。在信息系統(tǒng)學(xué)科方面,需要培養(yǎng)數(shù)據(jù)全生命周期管理的基本理念,從數(shù)據(jù)的生成和收集,到數(shù)據(jù)的存儲和管理,再到數(shù)據(jù)的使用和共享,實現(xiàn)數(shù)據(jù)的價值。
信息技術(shù)和互聯(lián)網(wǎng)是創(chuàng)新創(chuàng)業(yè)的最前沿,在專業(yè)教學(xué)和人才培養(yǎng)中踐行創(chuàng)新創(chuàng)業(yè)教育。“萬眾創(chuàng)新”其實就是“草根創(chuàng)新”,“草根創(chuàng)新”的本質(zhì)就是立足應(yīng)用,解決應(yīng)用中遇到的現(xiàn)實問題。我國成功的互聯(lián)網(wǎng)公司就是典型的“草根創(chuàng)新”,其基本的途徑是通過商業(yè)模式設(shè)計,著重用戶體驗,利用開源技術(shù),搭建服務(wù)平臺,部署應(yīng)用,收集反饋信息,再進行完善和優(yōu)化,形成一個完整的創(chuàng)新鏈條。如果說“草根創(chuàng)新”是從應(yīng)用出發(fā),以追求商業(yè)價值為驅(qū)動力,那么還需要“精英創(chuàng)新”配合進行概念抽象和應(yīng)用推廣。大學(xué)的師生作為有學(xué)術(shù)情懷的“精英”階層,需要主動對接創(chuàng)業(yè)企業(yè)的“草根創(chuàng)新”,這樣才能把在實際應(yīng)用中獲得的創(chuàng)新固化下來,并廣為傳播,同時也能養(yǎng)成學(xué)生對創(chuàng)新創(chuàng)業(yè)的深入理解。
設(shè)計思維對于踐行“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”有著重要的參考意義。設(shè)計思維的本質(zhì)就是盡一切可能站在用戶的角度看問題,設(shè)身處地地體驗用戶需求,進行社會化思考,通過原型設(shè)計和試用,經(jīng)過反復(fù)迭代完善產(chǎn)品設(shè)計。這是互聯(lián)網(wǎng)上的服務(wù)產(chǎn)品的典型開發(fā)過程,應(yīng)用設(shè)計思維進行工業(yè)產(chǎn)品設(shè)計是當前的趨勢,在國際頂級的商學(xué)院和設(shè)計學(xué)院成為必修課程,會很快滲透到各個學(xué)科的人才培養(yǎng)計劃中。破除迷信,解放思想,需要克服傳統(tǒng)思維定勢,從思想觀念上主動對接當前提倡的創(chuàng)新創(chuàng)業(yè)理念。
4.1 科學(xué)研究和系統(tǒng)開發(fā)
數(shù)據(jù)科學(xué)與工程學(xué)科是一個面向應(yīng)用的綜合交叉型學(xué)科,學(xué)科交叉和協(xié)同創(chuàng)新是開展科研開發(fā)的基本途徑。立足中國式應(yīng)用,瞄準國際研究前沿,通過與企業(yè)或用戶的合作,提高研發(fā)能力和應(yīng)用能力,研發(fā)具有中國特色的大數(shù)據(jù)技術(shù)和系統(tǒng),為大數(shù)據(jù)應(yīng)用中的數(shù)據(jù)采集、整理、存儲、維護、分析等管理任務(wù)提供全方位的支持,提供公共技術(shù)平臺、大數(shù)據(jù)應(yīng)用部署咨詢服務(wù)等。
通過和企業(yè)合作伙伴的密切合作,落實應(yīng)用驅(qū)動研發(fā)的戰(zhàn)略。研發(fā)工作根據(jù)與企業(yè)合作的成熟程度,切實做到科學(xué)研究與生產(chǎn)實踐相結(jié)合,克服科研和生產(chǎn)“兩張皮”的現(xiàn)象,闖出一條我國數(shù)據(jù)管理技術(shù)和系統(tǒng)研發(fā)的可持續(xù)發(fā)展的新路。
立足“數(shù)據(jù)科學(xué)與工程”學(xué)科特色,發(fā)揮高校在技術(shù)綜述、核心技術(shù)研發(fā)、原型設(shè)計與開發(fā)上的優(yōu)勢,秉承“one size fits a bunch”的理念,面向行業(yè)應(yīng)用,充分了解需求,在應(yīng)用抽象的基礎(chǔ)上,從核心技術(shù)研發(fā)出發(fā),通過原型系統(tǒng)開源,逐步從理論與技術(shù)驗證走向系統(tǒng)試用和最終應(yīng)用。在這一過程中,營造或融入以開源社區(qū)為中心的技術(shù)生態(tài)圈,催生技術(shù)型初創(chuàng)公司或促成研發(fā)成果的技術(shù)轉(zhuǎn)化,在人才培養(yǎng)的同時,實現(xiàn)科研成果的推廣應(yīng)用。
4.2 數(shù)據(jù)科學(xué)與工程學(xué)科人才培養(yǎng)
圍繞計算機、應(yīng)用數(shù)學(xué)和信息系統(tǒng)設(shè)計從本科生到博士生的人才培養(yǎng)方案,結(jié)合開源技術(shù)與時俱進地更新計算機教學(xué),結(jié)合應(yīng)用實踐加強數(shù)理統(tǒng)計和矩陣計算等建模和算法訓(xùn)練,培養(yǎng)“系統(tǒng)架構(gòu)師”和“數(shù)據(jù)科學(xué)家”,這也是當前最需要的兩類人才。
基于以上培養(yǎng)目標,針對本科生、碩士研究生、博士研究生各自的學(xué)制和教學(xué)特點,專業(yè)的課程設(shè)計遵循以下指導(dǎo)思想。
● 突出數(shù)據(jù)科學(xué)基礎(chǔ)課程教學(xué):結(jié)合統(tǒng)計、應(yīng)用數(shù)學(xué)等學(xué)科的優(yōu)勢,在強調(diào)概率論教學(xué)的同時,將數(shù)理統(tǒng)計、數(shù)值計算與優(yōu)化、機器學(xué)習(xí)、數(shù)據(jù)挖掘、信息檢索、自然語言處理等課程作為重要的專業(yè)必修課或選修課在本科教學(xué)階段進行講授,為研究生階段講授統(tǒng)計學(xué)習(xí)理論、概率圖模型、語言模型、信息抽取與集成、海量數(shù)據(jù)分析與挖掘等高階課程打下扎實的基礎(chǔ)。
● 裁剪傳統(tǒng)計算機和信息系統(tǒng)類課程,適應(yīng)新技術(shù)發(fā)展和應(yīng)用場景:在操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、計算機體系結(jié)構(gòu)、編譯原理、分布式系統(tǒng)等傳統(tǒng)計算機課程中,弱化歷史性材料的講授(作為課外閱讀作業(yè)),補充相關(guān)系統(tǒng)與應(yīng)用的最新進展。例如,補充云計算系統(tǒng)中的資源調(diào)度、大數(shù)據(jù)系統(tǒng)(如Hadoop)、集群搭建與實踐、新型編程范型(如MapReduce)及其編譯執(zhí)行等內(nèi)容,彌補近年來技術(shù)與應(yīng)用快速發(fā)展造成的傳統(tǒng)課程教學(xué)內(nèi)容和教材與時代的脫節(jié)。
● 強調(diào)數(shù)據(jù)管理與處理的全生命周期:結(jié)合情報和信息管理等學(xué)科的優(yōu)勢,課程覆蓋數(shù)據(jù)從獲取、整理、存儲、索引,到查詢與檢索、分析與挖掘、加工與展現(xiàn)的整個生命周期的基礎(chǔ)理論、技術(shù)方法以及系統(tǒng)。在課程設(shè)置上,通過在本科低年級設(shè)置計算機系統(tǒng)、信息管理與信息系統(tǒng)等專業(yè)必修課,在高年級開設(shè)開源軟件、大數(shù)據(jù)系統(tǒng)等專業(yè)選修課,達到從宏觀角度介紹數(shù)據(jù)全生命周期、聯(lián)接相關(guān)課程的目的。
● 充分利用企業(yè)和行業(yè)力量,強調(diào)設(shè)計思維(design thinking),提升課程實用性:開設(shè)計算廣告、智慧城市、社會計算、推薦系統(tǒng)等具有較強實用性的選修課,由企業(yè)兼職教師單獨或與專職教師聯(lián)合講授,突出應(yīng)用場景抽象、問題建模、案例分析、原型系統(tǒng)搭建、結(jié)果評測等環(huán)節(jié)的教學(xué),將學(xué)生所學(xué)的基礎(chǔ)理論和方法與應(yīng)用聯(lián)系起來,同時培養(yǎng)學(xué)生針對實際應(yīng)用的發(fā)現(xiàn)問題、分析問題、解決問題的能力。
互聯(lián)網(wǎng)改變了一切,也改變了信息技術(shù)的發(fā)展范型。IT領(lǐng)域當前的熱點無疑是云計算和大數(shù)據(jù),是互聯(lián)網(wǎng)企業(yè)而非傳統(tǒng)的IT企業(yè)推動了云計算和大數(shù)據(jù)的發(fā)展。這一現(xiàn)象的意義在于,IT的發(fā)展范型發(fā)生了改變,“應(yīng)用驅(qū)動創(chuàng)新”成為IT領(lǐng)域創(chuàng)新鏈上的重要環(huán)節(jié)?;ヂ?lián)網(wǎng)企業(yè)IT能力建設(shè)的巨大成功,破除了“迷信”;硬件技術(shù)的飛速發(fā)展為新一代IT技術(shù)的發(fā)展奠定了基礎(chǔ);“安全可靠、自主可控”的國家安全戰(zhàn)略的提出和落實對我國IT界而言是挑戰(zhàn),更是機遇?;谝陨?點,再加上我國經(jīng)濟社會發(fā)展提出的豐富、迫切而又極具特色的信息化應(yīng)用需求,可以看出,當前我國IT界處在充滿機遇的窗口期。如何利用這個難得的時間窗口實現(xiàn)跨越式發(fā)展和彎道超車,不僅需要認真分析和清晰認識現(xiàn)實的創(chuàng)新機遇,更需要適時定義和發(fā)展新的學(xué)科方向,探索學(xué)科實質(zhì)內(nèi)涵,明確知識結(jié)構(gòu),開展人才培養(yǎng),從而進行持續(xù)、有效的“萬眾創(chuàng)新”行動,全面激發(fā)創(chuàng)新活力。
[1] Hey T, Tansley S, Tolle K M. The Fourth Paradigm: Data-Intensive Scientific Discovery. USA: Microsoft Rr, 2009
[2] Manyika J, Chui M, Brown B,et al. Big Data: the Next Frontier for Innovation, Competition, and Productivity. USA: McKinsey Global Institute, 2011
[3] Ghemawat S, Gobioff H, Leung S T. The Google file system. Proceedings of the ACM Symposium on Operating Systems Principles(SOSP), Lake George, NY, USA, 2003: 29~43
[4] Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters. Proceedings of the 6th Symposium on Operating System Design and Implementation, San Francisco, USA, 2004: 137~150
[5] Stonebraker M, Cetintemel U. One size fits all: 10 years later. Proceedings of International Conference on Data Engineering, Seoul, Korea, 2015
[6] White T. Hadoop - The Definitive Guide: Storage and Analysis at Internet Scale (4. ed., revised & updated). USA: O'Reilly Media, 2015
[7] Stoica I. A berkeley view of big data: algorithms, machines & people. Proceedings of Berkeley EECS Annual Research Symposium, California, USA, 2011
[8] 美國國家學(xué)術(shù)院國家研究委員會. 海量數(shù)據(jù)分析前沿. 華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院譯. 北京:清華大學(xué)出版社, 2015 National Research Council of the National Academies. Frontiers in Massive Data Analysis. Translated by Data science and Engineering Research Institute of East China Normal University. Beijing: Tsinghua University Press, 2015
[9] 李戰(zhàn)懷, 王國仁, 周傲英. 從數(shù)據(jù)庫視角解讀大數(shù)據(jù)的研究進展與趨勢. 計算機工程與科學(xué). 2013, 35(10): 1~11 Li Z H, Wang G R, Zhou A Y. Research progress and trends of big data from a database perspective. Computer Engineering & Science, 2013, 35(10): 1~11
[10] Abadi D J, Agrawal R, Ailamaki A,et al. Proceedings of The Beckman Report on Database Research, California, USA, 2014: 61~70
[11] Jagadish H V, Gehrke J, Labrinidis A,et al. Big data and its technical challenges. Communications of the ACM, 2014, 57(7): 86~94
周傲英,男,華東師范大學(xué)長江學(xué)者、特聘教授、數(shù)據(jù)科學(xué)與工程研究院院長,主要研究方向為Web數(shù)據(jù)管理、數(shù)據(jù)密集型計算、內(nèi)存集群計算、分布事務(wù)處理、大數(shù)據(jù)基準測試和性能優(yōu)化。
錢衛(wèi)寧,男,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院教授、博士生導(dǎo)師,主要研究方向為互聯(lián)網(wǎng)環(huán)境下的數(shù)據(jù)管理、大數(shù)據(jù)管理系統(tǒng)評測基準、社交媒體數(shù)據(jù)分析、知識圖譜構(gòu)建與應(yīng)用等。
王長波,男,華東師范大學(xué)教授、博士生導(dǎo)師、軟件學(xué)院常務(wù)副院長,主要研究方向為信息可視化、大數(shù)據(jù)可視分析、計算機圖形學(xué)。
Zhou A Y, Qian W N, Wang C B. Data sciences and engineering: an emerging interdisciplinary in the big data era. Big Data Research, 2015022
Data Sciences and Engineering: An Emerging Interdisciplinary in the Big Data Era
Zhou Aoying, Qian Weining, Wang Changbo
Institute for Data Science and Engineering, East China Normal University, Shanghai 200062, China
There are some characteristics for IT development in the big data era: the real-life applications are the driving force for innovation; open sourcing accelerates innovation, and the advancement in hardware lay the foundation for innovation. The data sciences and engineering was regarded as an emerging and developing interdisciplinary and discussed from the aspects such as social innovation and development, talents demand changes, and technology development. Then the features, connotations, and knowledge hierarchy of data sciences and engineering as a discipline were described. Finally, the associated research and development, talent training, and best practice were also presented.
big data, data sciences and engineering, interdisciplinary, mass innovation, talent training
10.11959/j.issn.2096-0271.2015022
2015-06-28
周傲英, 錢衛(wèi)寧, 王長波. 數(shù)據(jù)科學(xué)與工程:大數(shù)據(jù)時代的新興交叉學(xué)科. 大數(shù)據(jù), 2015022