☉華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院 王 偉
在上一期的《摭談數(shù)據(jù)科學(xué)在中學(xué)通識(shí)教育中的作用》一文中,我們給大家介紹了以“思考點(diǎn)”和“實(shí)踐點(diǎn)”為中心的中學(xué)通識(shí)課程的重要性,并提出了“數(shù)據(jù)科學(xué)作為一門通識(shí)課程”的觀點(diǎn).隨著2017年教育部新一輪的高中課程標(biāo)準(zhǔn)的更新,數(shù)學(xué)與信息技術(shù)兩門基礎(chǔ)課程備受矚目,其也是和數(shù)據(jù)科學(xué)最為密切相關(guān)的課程.本期我們就“如何開設(shè)中學(xué)數(shù)據(jù)科學(xué)通識(shí)課程”這一話題給大家做進(jìn)一步的闡釋,同時(shí)也看看高中課程標(biāo)準(zhǔn)的改革是如何對數(shù)據(jù)科學(xué)的普及起到支撐作用的.
要說清楚什么是數(shù)據(jù)科學(xué),首先要把這個(gè)詞放到數(shù)據(jù)學(xué)科(或數(shù)據(jù)專業(yè))這個(gè)更大的語境下去考量.雖然當(dāng)下的數(shù)據(jù)學(xué)科還沒有像其他傳統(tǒng)學(xué)科一樣標(biāo)準(zhǔn)化,但不妨礙我們從自身的認(rèn)識(shí)出發(fā)來進(jìn)行探討.在現(xiàn)階段,可以初步認(rèn)為數(shù)據(jù)專業(yè)至少包括下面四個(gè)方面的內(nèi)容:
數(shù)據(jù)學(xué)(Dataology):研究探索數(shù)字空間中數(shù)據(jù)界(Data nature)的理論、技術(shù)以及相關(guān)方法,對象是數(shù)字空間中數(shù)據(jù)界里的數(shù)據(jù),以此來獲悉數(shù)據(jù)的類型、狀態(tài)、屬性、變化形式以及變化規(guī)律,即數(shù)據(jù)專業(yè)的數(shù)據(jù)本體內(nèi)涵;
數(shù)據(jù)科學(xué)(Data science):是以數(shù)據(jù)為中心,通過計(jì)算思維與數(shù)據(jù)思維的方法,來理解我們所處的世界,并實(shí)現(xiàn)問題的求解,即數(shù)據(jù)專業(yè)的學(xué)科方法內(nèi)涵;
數(shù)據(jù)工程(Data engineering):支持?jǐn)?shù)據(jù)學(xué)和數(shù)據(jù)科學(xué)的工程實(shí)現(xiàn),即為數(shù)據(jù)相關(guān)基礎(chǔ)設(shè)施、數(shù)據(jù)全部生命周期管理過程、數(shù)據(jù)科學(xué)過程方法論和工具、數(shù)據(jù)處理與分析系統(tǒng)、數(shù)據(jù)分析編程語言、可視化工具等,即數(shù)據(jù)專業(yè)的工程實(shí)現(xiàn)內(nèi)涵;
數(shù)據(jù)道德與職業(yè)行為準(zhǔn)則(Data of Ethics&Professional Conduct):在數(shù)據(jù)的整個(gè)生命周期過程中所可能涉及的道德規(guī)范、社會(huì)問題、倫理問題、職業(yè)行為準(zhǔn)則等,即數(shù)據(jù)專業(yè)的道德與職業(yè)內(nèi)涵.
我們首先來區(qū)分一下數(shù)據(jù)、信息和知識(shí)這三個(gè)概念.數(shù)據(jù)是數(shù)字空間中的個(gè)體;信息是自然世界及人類社會(huì)中的各種現(xiàn)象;知識(shí)則是通過實(shí)踐得到的認(rèn)識(shí)和經(jīng)驗(yàn).數(shù)據(jù)是信息、知識(shí)的符號(hào)表示或者是載體,然而數(shù)據(jù)自身并非是信息或知識(shí).故數(shù)據(jù)學(xué)所研究的對象并不是信息或知識(shí),而是數(shù)據(jù);若是對數(shù)據(jù)進(jìn)一步研究,不僅能夠認(rèn)識(shí)自然、生命和行為,還能獲得信息和知識(shí).
復(fù)旦大學(xué)的朱楊勇教授認(rèn)為,人類在探索現(xiàn)實(shí)自然界和人類社會(huì)時(shí),用計(jì)算機(jī)在處理人-自然-社會(huì)的整個(gè)過程中,一個(gè)復(fù)雜且龐大的數(shù)據(jù)世界應(yīng)運(yùn)而生.自從數(shù)據(jù)爆炸以來,人們除了生活在一直以來存在的自然界外,還生活在新的數(shù)據(jù)世界中.人類能夠通過探索數(shù)據(jù)界來了解世界,同時(shí)更需要探索數(shù)據(jù)界中的各種現(xiàn)象以及規(guī)律,這即為數(shù)據(jù)學(xué)的任務(wù).能夠預(yù)見到,目前全部科學(xué)研究領(lǐng)域,都會(huì)形成其相應(yīng)的數(shù)據(jù)學(xué),并且伴隨著數(shù)據(jù)學(xué)的發(fā)展,更多的科學(xué)研究工作將會(huì)直接針對數(shù)據(jù)進(jìn)行,以此認(rèn)識(shí)數(shù)據(jù)、自然、社會(huì)以及人類的行為.
從這個(gè)角度看,數(shù)據(jù)學(xué)(Dataology)和美食學(xué)(Gastronomy)非常類似,前者是研究數(shù)據(jù)界中的數(shù)據(jù),研究并認(rèn)識(shí)數(shù)據(jù)的各種類型、狀態(tài)、屬性及其變化形式和變化規(guī)律,而后者則是研究自然界中的各種食材,研究并認(rèn)識(shí)這些不同食材的類型、色澤、味道、以及烹飪加工變化中的形式與規(guī)律;廚師以食材作為原材料,利用菜譜和各種廚具,做成美味佳肴,而數(shù)據(jù)科學(xué)家則以數(shù)據(jù)為原材料,借助模型、算法和軟件工具,形成數(shù)據(jù)產(chǎn)品和應(yīng)用洞見.
因此,數(shù)據(jù)學(xué)所包含的研究對象、目的以及方法等都與現(xiàn)有的計(jì)算機(jī)科學(xué)、信息科學(xué)乃至統(tǒng)計(jì)學(xué)有著根本上的不同.
鄂維南院士曾這樣論述數(shù)據(jù)科學(xué)所包含的兩方面內(nèi)容,即為:用數(shù)據(jù)的方法來研究科學(xué)、用科學(xué)的方法來研究數(shù)據(jù).前者的包含面很廣,囊括了地理信息學(xué)、神經(jīng)信息學(xué)、數(shù)字地球、生物信息學(xué)、網(wǎng)絡(luò)信息學(xué)、天體信息學(xué)、商務(wù)智能與社會(huì)計(jì)算等多個(gè)領(lǐng)域.后者囊括了數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫、信息管理、數(shù)據(jù)可視化等領(lǐng)域.故從技術(shù)的角度來看,前者關(guān)注的是數(shù)據(jù)技術(shù)如何在各行各業(yè)中發(fā)揮作用;后者關(guān)注的則是如何用信息技術(shù)收集、傳輸、處理、存儲(chǔ)和顯示數(shù)據(jù).
“數(shù)據(jù)科學(xué)”概念的出現(xiàn)要早于我們今天炒的熱火朝天的“大數(shù)據(jù)”,其研究的并非只是大數(shù)據(jù),隨著數(shù)據(jù)量的井噴式增長,數(shù)據(jù)科學(xué)在其中扮演的角色也越來越重要,同時(shí)這也使得數(shù)據(jù)科學(xué)獲得更廣泛的理論內(nèi)涵和實(shí)踐意義.
上世紀(jì)六十年代《數(shù)據(jù)分析的未來》一書中,J.W.Tukey就預(yù)見了數(shù)據(jù)分析的新方法將會(huì)成為一門新的科學(xué).而在七十年代,P.Naur在《計(jì)算機(jī)方法的簡明調(diào)查》中第一次定義并提出了數(shù)據(jù)科學(xué)是“一門研究數(shù)據(jù)處理的科學(xué),創(chuàng)立之初,數(shù)據(jù)與其所代表的事物之間的關(guān)系隸屬于其他學(xué)科領(lǐng)域的研究范疇”.
數(shù)據(jù)科學(xué)的發(fā)展與計(jì)算機(jī)、互聯(lián)網(wǎng)、大數(shù)據(jù)緊密相關(guān),是以問題為根本指導(dǎo)的交叉型學(xué)科創(chuàng)新和新的知識(shí)體系.因此,與數(shù)據(jù)學(xué)以數(shù)據(jù)為導(dǎo)向不同,我們認(rèn)為數(shù)據(jù)科學(xué)的核心是以問題為導(dǎo)向的.
基于上述內(nèi)容,按照計(jì)算機(jī)科學(xué)中流行的計(jì)算思維的提法,數(shù)據(jù)科學(xué)可以定義為:以數(shù)據(jù)為中心,通過計(jì)算思維與數(shù)據(jù)思維的方法,來理解我們所處的世界(科學(xué)),以及對現(xiàn)實(shí)問題的求解(工程).其最重要的思維方式是數(shù)據(jù)思維,簡單來說就是以數(shù)據(jù)為中心的問題求解.這也是貫徹后面中學(xué)數(shù)據(jù)科學(xué)通識(shí)課程中最重要的一條線.
數(shù)據(jù)思維是基于計(jì)算思維,因此數(shù)據(jù)思維的養(yǎng)成自然也就包括計(jì)算思維的養(yǎng)成,但數(shù)據(jù)思維可以解決部分用傳統(tǒng)計(jì)算思維所解決不了的問題.
“數(shù)據(jù)工程”和上面所說的“數(shù)據(jù)學(xué)”與“數(shù)據(jù)科學(xué)”有什么區(qū)別呢?
實(shí)際上,現(xiàn)代“科學(xué)技術(shù)”中包含了科學(xué)、技術(shù)與工程三個(gè)不同領(lǐng)域或不同層次.科學(xué),是對外在客觀世界的本質(zhì)規(guī)律的一種探索與認(rèn)識(shí).其主要形態(tài)即為發(fā)現(xiàn)(Discovery),主要手段是研究(Research),其獲得的成果則大都是學(xué)術(shù)論文或?qū)V?技術(shù)是溝通科學(xué)和工程的橋梁.其主要形態(tài)即為發(fā)明(Innovation),主要手段是研發(fā)(Research&Development),其主要成果是專利以及相關(guān)論文和專著.工程是科學(xué)與技術(shù)的應(yīng)用,是通過創(chuàng)新思想(New idea)來對現(xiàn)實(shí)中的新問題進(jìn)行求解(Solution).其形態(tài)是綜合集成(Integration),手段主要是設(shè)計(jì)(Design)、制造(Manufacture)、應(yīng)用(Application)與服務(wù)(Service),主要的成果是產(chǎn)品、作品、工程實(shí)現(xiàn)與產(chǎn)業(yè)化.科學(xué)家的工作是發(fā)現(xiàn),工程師的工作是創(chuàng)造.
有了這些概念后,回過頭再來看就比較明白了.數(shù)據(jù)科學(xué)是以問題為導(dǎo)向?qū)ψ匀皇澜绾蛿?shù)據(jù)世界的本質(zhì)規(guī)律進(jìn)行探索與認(rèn)識(shí),是用創(chuàng)新的思想對現(xiàn)實(shí)世界中的問題進(jìn)行求解;數(shù)據(jù)技術(shù)是數(shù)據(jù)科學(xué)與數(shù)據(jù)工程之間的橋梁.包括數(shù)據(jù)的采集與感知技術(shù)、數(shù)據(jù)的存儲(chǔ)技術(shù)、數(shù)據(jù)的計(jì)算與分析技術(shù)、數(shù)據(jù)的可視化技術(shù)等;數(shù)據(jù)工程則是數(shù)據(jù)科學(xué)與數(shù)據(jù)技術(shù)的應(yīng)用和歸宿,是利用工程的觀點(diǎn)進(jìn)行數(shù)據(jù)管理和分析以及開展系統(tǒng)的研發(fā)和應(yīng)用,是支持?jǐn)?shù)據(jù)學(xué)和數(shù)據(jù)科學(xué)兩類活動(dòng)的工程實(shí)現(xiàn),其包括數(shù)據(jù)基礎(chǔ)設(shè)施、數(shù)據(jù)全生命周期管理過程、數(shù)據(jù)科學(xué)過程方法論和工具、數(shù)據(jù)處理與分析系統(tǒng)、數(shù)據(jù)分析編程語言、可視化工具等.
有了上面的認(rèn)識(shí),我們可以看到,數(shù)據(jù)科學(xué)就是研究數(shù)據(jù)的產(chǎn)生、獲取、存儲(chǔ)、傳輸、處理、可視化、利用及其相互關(guān)系的一個(gè)當(dāng)代科學(xué)的前沿學(xué)科,對幾乎所有其他學(xué)科都有很強(qiáng)的協(xié)同性和滲透性,體現(xiàn)出整個(gè)基礎(chǔ)學(xué)科在大數(shù)據(jù)時(shí)代科技進(jìn)步中的先導(dǎo)作用.
今天,人類處于一個(gè)科學(xué)高度分化又高度綜合的時(shí)代,數(shù)據(jù)科學(xué)在整個(gè)科學(xué)體系之中將是發(fā)展最迅速的領(lǐng)域,充當(dāng)著人類發(fā)展最強(qiáng)大的引擎,其成為支撐學(xué)科交叉、技術(shù)創(chuàng)新、經(jīng)濟(jì)發(fā)展的主導(dǎo)力量,向全社會(huì)全方位滲透,并推動(dòng)人類社會(huì)不斷轉(zhuǎn)型.
數(shù)據(jù)科學(xué)是一門典型的跨專業(yè)學(xué)科,第一張關(guān)于“數(shù)據(jù)科學(xué)”概念的韋恩圖是由Drew Conway在2010年制作.圖中的中心部分是數(shù)據(jù)科學(xué),韋恩圖表明了數(shù)據(jù)科學(xué)是數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)、編程和領(lǐng)域?qū)I(yè)知識(shí)的組合.
圖1 數(shù)據(jù)科學(xué)的韋恩圖
圖2 數(shù)據(jù)科學(xué)的五大要素
可以將數(shù)據(jù)科學(xué)總結(jié)為三大支柱和五大要素.
三大支柱分別為數(shù)據(jù)學(xué)(Dataology)、分析學(xué)(Analytics)和算法學(xué)(Algorithmics);而五大要素則包括數(shù)據(jù)思維、數(shù)學(xué)基礎(chǔ)、算法分析、工程技術(shù)和領(lǐng)域應(yīng)用,如圖2所示.
(1)數(shù)據(jù)思維:即數(shù)據(jù)驅(qū)動(dòng)的問題求解,包括計(jì)算思維和統(tǒng)計(jì)思維.
(2)數(shù)學(xué)基礎(chǔ):以數(shù)學(xué)和統(tǒng)計(jì)學(xué)為基礎(chǔ)的數(shù)據(jù)分析方法.
(3)算法分析:問題求解與數(shù)學(xué)分析方法的具體落實(shí),通過作用在數(shù)據(jù)之上的算法來實(shí)現(xiàn).
(4)工程技術(shù):即數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)展示等數(shù)據(jù)管理全生命周期技術(shù).
(5)領(lǐng)域應(yīng)用:結(jié)合領(lǐng)域知識(shí),數(shù)據(jù)科學(xué)在各個(gè)行業(yè)的應(yīng)用.
在該模型下,利于我們獲悉數(shù)據(jù)科學(xué)的相關(guān)知識(shí)點(diǎn).我們不妨把這門課程稱作《中學(xué)數(shù)據(jù)科學(xué)與工程》,圖3是我們構(gòu)建的一個(gè)課程參考模型,供大家在做課程建設(shè)的時(shí)候參考.
圖3 《中學(xué)數(shù)據(jù)科學(xué)與工程》參考模型
從圖3中可以看出,該參考模型完全覆蓋了前面所提到的數(shù)據(jù)科學(xué)的三大支柱與五大要素.同時(shí)也可以看到,其中很多模塊和目前2017年新版的高中課程標(biāo)準(zhǔn)有著對應(yīng)關(guān)系,以高中數(shù)學(xué)為例,新課標(biāo)中數(shù)學(xué)核心素養(yǎng)中的數(shù)學(xué)抽象、數(shù)學(xué)建模、數(shù)學(xué)計(jì)算和數(shù)據(jù)分析在上面的參考模型中均有不同程度的涉及,而像“統(tǒng)計(jì)與概率”、“數(shù)學(xué)建模與數(shù)學(xué)探究”這樣的課程模塊更是有直接的對應(yīng).值得一提的是,在領(lǐng)域篇中的“科學(xué)研究”單元,還可以設(shè)計(jì)利用數(shù)據(jù)科學(xué)與工程來支持中學(xué)其他課程的內(nèi)容模塊,例如生物信息模塊、計(jì)算物理模塊等,這樣就進(jìn)一步打通了數(shù)據(jù)科學(xué)與其他學(xué)科之間的聯(lián)系,非常符合新版高中課程標(biāo)準(zhǔn)的改革方向.
隨著大數(shù)據(jù)與人工智能時(shí)代的到來,以及教育部新一輪的高中課程標(biāo)準(zhǔn)的改革,推動(dòng)中學(xué)通識(shí)課程的改革恰逢其時(shí).本文初步分析了目前在高等教育中扮演著重要角色的“數(shù)據(jù)科學(xué)”這個(gè)新的學(xué)科,在數(shù)據(jù)專業(yè)這個(gè)語境下分析了數(shù)據(jù)科學(xué)的內(nèi)涵與外延,并以《中學(xué)數(shù)據(jù)科學(xué)與工程》為例,給出了開設(shè)相關(guān)課程的參考模型,希望對大家在中學(xué)開展數(shù)據(jù)科學(xué)的教學(xué)實(shí)踐起到積極的推動(dòng)作用.