許嘉 呂品
【摘 要】在大數(shù)據(jù)時代,各行各業(yè)對數(shù)據(jù)科學人才的需求量大幅增長,而我國尚未建立起成熟有效的數(shù)據(jù)科學人才培養(yǎng)體系。本文從領(lǐng)域知識、基礎(chǔ)理論、計算機工具和社會實踐等四個方面對如何培養(yǎng)數(shù)據(jù)科學人才進行了探討,以期為我國高校制定數(shù)據(jù)科學人才培養(yǎng)方案提供參考。
【關(guān)鍵詞】數(shù)據(jù)科學人才 領(lǐng)域知識 基礎(chǔ)理論 計算機工具 社會實踐
一、引言
隨著大數(shù)據(jù)時代的到來,無處不在的“數(shù)據(jù)”引發(fā)了人們空前的關(guān)注,各行各業(yè)對數(shù)據(jù)科學人才的需求量都呈現(xiàn)出大幅增長的趨勢。然而,當前不論是國內(nèi)還是國外,數(shù)據(jù)科學人才的數(shù)量與實際需求相比都存在很大的缺口。培養(yǎng)大量合格的數(shù)據(jù)科學人才成為一項急迫的任務(wù)。本文根據(jù)數(shù)據(jù)科學人才應(yīng)當具有的知識結(jié)構(gòu),從領(lǐng)域知識、基礎(chǔ)理論、計算機工具和社會實踐四個方面對如何培養(yǎng)數(shù)據(jù)科學人才進行探討,為國內(nèi)高校建立數(shù)據(jù)科學人才培養(yǎng)機制提供參考。
二、領(lǐng)域知識
數(shù)據(jù)科學人才的職責是解決特定領(lǐng)域的問題。因此,數(shù)據(jù)科學人才必須具備一定的業(yè)務(wù)領(lǐng)域知識,包括行業(yè)信息和業(yè)務(wù)信息。一方面,這是正確開展數(shù)據(jù)分析工作的前提和保障;另一方面,積累足夠的領(lǐng)域知識有助于評價和區(qū)分有價值的數(shù)據(jù)分析結(jié)果。
三、基礎(chǔ)理論
數(shù)據(jù)科學人才因為是與數(shù)據(jù)打交道,所以需要具有扎實的數(shù)學理論基礎(chǔ)。高等數(shù)學、線性代數(shù)、概率論、離散數(shù)學等課程都是需要學習的理論基礎(chǔ)課。除此之外,統(tǒng)計學、數(shù)據(jù)挖掘等方面的基礎(chǔ)理論對于建立數(shù)據(jù)科學人才的知識體系非常必要,應(yīng)當重點加強。
統(tǒng)計學是應(yīng)用數(shù)學的分支,包括描述統(tǒng)計和推斷統(tǒng)計。描述統(tǒng)計主要研究如何收集、處理和描述數(shù)據(jù),推斷統(tǒng)計則是研究如何利用樣本數(shù)據(jù)來推斷總體特征。統(tǒng)計學是數(shù)據(jù)分析的靈魂,可以實現(xiàn)對數(shù)據(jù)的量化分析、總結(jié)、推斷和預(yù)測,為相關(guān)領(lǐng)域問題的決策提供依據(jù)和參考。
數(shù)據(jù)挖掘是數(shù)據(jù)科學的必備理論工具。數(shù)據(jù)科學把原始數(shù)據(jù)看作是形成知識的源泉,作為交叉學科的數(shù)據(jù)挖掘正是綜合運用數(shù)學、數(shù)據(jù)庫、人工智能、機器學習、可視化和并行計算等方面的知識從數(shù)據(jù)海洋中提煉出有價值的信息,為領(lǐng)域決策提供重要支持。
四、計算機工具
在這個數(shù)據(jù)爆炸的時代,僅依靠人力處理快速增長的數(shù)據(jù)并不現(xiàn)實,人們必須借助計算機來進行處理大量的數(shù)據(jù)。因此,數(shù)據(jù)科學人才需要熟練掌握相應(yīng)的計算機工具。
數(shù)據(jù)科學人才需要掌握的計算機工具之一就是用于存儲數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng),包括傳統(tǒng)的關(guān)系數(shù)據(jù)庫和新興的NoSQL數(shù)據(jù)庫。對于結(jié)構(gòu)化數(shù)據(jù),使用關(guān)系數(shù)據(jù)庫和結(jié)構(gòu)化查詢語言(SQL)對其進行存儲和查詢的技術(shù)已非常成熟。隨著數(shù)據(jù)多樣性的程度越來越高,半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)(如文檔、圖像、音頻、視頻數(shù)據(jù))所占的比重越來越大。這類數(shù)據(jù)更適合使用非關(guān)系的NoSQL數(shù)據(jù)庫進行存儲與查詢。目前常用的NoSQL數(shù)據(jù)庫有MongoDB、HBase等。
除了數(shù)據(jù)庫,用于數(shù)據(jù)處理的編程框架和編程語言也是數(shù)據(jù)科學人才需要掌握的。當前廣受關(guān)注的開源數(shù)據(jù)處理編程框架包括Hadoop、Spark、Storm等。Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,其核心是分布式文件系統(tǒng)HDFS和MapReduce編程模型,能夠充分利用集群的計算能力和存儲能力來處理大規(guī)模數(shù)據(jù)。Spark與Hadoop的工作原理類似,但由于Spark是把中間計算結(jié)果保存在內(nèi)存中而非分布式文件系統(tǒng)中,因此比Hadoop具有更快的運算速度。Storm是一個分布式的實時計算系統(tǒng),主要針對流式數(shù)據(jù)進行處理,適用于對實時性要求較高的系統(tǒng)。上述三個編程框架都主要使用Java作為編程語言。此外,Scala、Python、R等也都是在數(shù)據(jù)處理中常用的編程語言。
為了將數(shù)據(jù)分析結(jié)果用最易于理解的方式呈現(xiàn)出來,數(shù)據(jù)可視化工具必不可少。常用的數(shù)據(jù)可視化工具包括Excel、R和Google Chart API等。另外還有不少值得關(guān)注的國產(chǎn)數(shù)據(jù)可視化工具,例如大數(shù)據(jù)魔鏡。
五、社會實踐
數(shù)據(jù)通常是來源于人們的生產(chǎn)生活,研究數(shù)據(jù)科學的目的也是為了更好地服務(wù)于人們的生產(chǎn)生活。因此,培養(yǎng)數(shù)據(jù)科學人才必須注重理論聯(lián)系實際,通過社會實踐來提高數(shù)據(jù)科學人才分析和解決實際問題的能力。
社會實踐一方面是要讓學生接觸產(chǎn)業(yè)界,了解不同行業(yè)的背景和需求,特別是要利用在實際生產(chǎn)生活中產(chǎn)生的大數(shù)據(jù)進行學習,這樣能夠更好地理解理論知識。除了在不同的行業(yè)進行實習,參加各類大數(shù)據(jù)競賽也是一個接觸產(chǎn)業(yè)界的很好的方式?,F(xiàn)在不少政府部門、學術(shù)組織、企業(yè)、高校都通過組織大數(shù)據(jù)競賽的方式促進人才培養(yǎng),推動產(chǎn)業(yè)發(fā)展。影響力比較大的競賽包括中國計算機學會主辦的中國大數(shù)據(jù)技術(shù)創(chuàng)新大賽、全國青年大數(shù)據(jù)創(chuàng)新大賽,阿里巴巴集團舉辦的天池大數(shù)據(jù)競賽,百度和西安交通大學舉辦的大數(shù)據(jù)競賽等等。通過實習或競賽,學生能夠在實踐中鍛煉能力,從而能夠更快地成長為合格的數(shù)據(jù)科學人才。
社會實踐的另一方面是培養(yǎng)學生的溝通與表達能力。因為數(shù)據(jù)科學是為各行各業(yè)服務(wù)的,所以數(shù)據(jù)科學人才需要同非數(shù)據(jù)科學專業(yè)的人士交流,了解其需求,并向其解釋數(shù)據(jù)分析的結(jié)果。這就需要數(shù)據(jù)科學人才在掌握專業(yè)能力之外,同時需要具備良好的交流能力。因此,人際交往能力是數(shù)據(jù)科學人才培養(yǎng)的重要方面。
六、總結(jié)
數(shù)據(jù)科學是一門綜合性的學科,培養(yǎng)數(shù)據(jù)科學人才也是一項系統(tǒng)工程。只有從領(lǐng)域知識、基礎(chǔ)理論、計算機工具和社會實踐這幾個方面統(tǒng)籌規(guī)劃,制定合理的培養(yǎng)方案,才能培養(yǎng)出既有理論水平又有實踐經(jīng)驗的數(shù)據(jù)科學人才,這樣的人才將更受社會歡迎。
【參考文獻】
[1]許嘉,呂品.哈佛大學數(shù)據(jù)科學課程教學初探[J].教育界,2015(15).
[2]Rachel Schutt, Cathy O'Neil. Doing Data Science[M].O'Reilly,2013.
[3]楊旭,湯海京,丁剛毅.數(shù)據(jù)科學導(dǎo)論[M].北京:北京理工大學出版社,2014.