国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)科學(xué)范式下統(tǒng)計(jì)學(xué)專業(yè)應(yīng)用型人才培養(yǎng)模式思考

2017-03-28 14:10趙開斌侯勇超
巢湖學(xué)院學(xué)報(bào) 2017年6期
關(guān)鍵詞:范式應(yīng)用型科學(xué)

關(guān) 鵬 趙開斌 侯勇超

(巢湖學(xué)院,安徽 巢湖 238000)

1 引言

在大數(shù)據(jù)熱潮的推動(dòng)下,數(shù)據(jù)已經(jīng)成為資產(chǎn)[1],并成為優(yōu)化配置土地、人力、技術(shù)、資本等傳統(tǒng)生產(chǎn)要素的催化劑,甚至成為某些產(chǎn)業(yè)興衰的決定性因素。大數(shù)據(jù)的興起一方面對產(chǎn)業(yè)和商業(yè)模式進(jìn)行了重塑,一方面對科學(xué)研究的范式提出了新的要求。學(xué)術(shù)界和產(chǎn)業(yè)界對大數(shù)據(jù)的研究正方興未艾,大數(shù)據(jù)的理論、方法、技術(shù)及應(yīng)用方面的研究成果層出不窮。特別是2012年“大數(shù)據(jù)元年”以來,相關(guān)學(xué)術(shù)文獻(xiàn)量呈指數(shù)增長。而伴隨著大數(shù)據(jù)的浪潮,由統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、人工智能、數(shù)學(xué)等學(xué)科共同支撐的“數(shù)據(jù)科學(xué)”開始形成[2],同時(shí)關(guān)于大數(shù)據(jù)的學(xué)科建設(shè)及人才培養(yǎng)問題也逐漸引起重視。作為傳統(tǒng)的“數(shù)據(jù)的科學(xué)”的統(tǒng)計(jì)學(xué),與數(shù)據(jù)科學(xué)具有怎樣的關(guān)系?應(yīng)用型統(tǒng)計(jì)人才在數(shù)據(jù)科學(xué)范式下應(yīng)該具有怎樣的數(shù)據(jù)素養(yǎng)?為了適用數(shù)據(jù)科學(xué)范式,統(tǒng)計(jì)學(xué)專業(yè)應(yīng)用型人才培養(yǎng)模式應(yīng)該做出怎樣的調(diào)整與優(yōu)化?這些是本文將要探討的主要問題。

2 數(shù)據(jù)科學(xué)的背景及其統(tǒng)計(jì)學(xué)淵源

數(shù)據(jù)科學(xué)(Data science)的來源最早可追溯自1960年,最初的用語是datalogy[3],由圖林獎(jiǎng)獲得者 Naur提出。Naur提出datalogy這個(gè)術(shù)語,為了強(qiáng)調(diào)計(jì)算機(jī)科學(xué)是“數(shù)據(jù)處理的科學(xué)”的理論和原則[4]。數(shù)據(jù)科學(xué)作為術(shù)語第一次被提及是在1992年于法國Montpellier University II召開的日本-法國科學(xué)家第二次研討會(huì)上[5]。1993年日本學(xué)者Chikio Hayashi教授在第四屆國際分類學(xué)會(huì)聯(lián)合會(huì)(IFCS)大會(huì)上提出,并簡要地回答了什么是數(shù)據(jù)科學(xué)的問題。數(shù)據(jù)、數(shù)據(jù)的表示和數(shù)據(jù)的處理構(gòu)成了數(shù)據(jù)科學(xué)的基本概念。第一次明確以“數(shù)據(jù)科學(xué)”為大會(huì)主題的國際學(xué)術(shù)會(huì)議是1996年在日本神戶召開的第五屆IFCS大會(huì),大會(huì)以“數(shù)據(jù)科學(xué)、分類學(xué)及相關(guān)方法”為主題[6]。第一本以數(shù)據(jù)科學(xué)命名的期刊是在2002年由國際科學(xué)技術(shù)數(shù)據(jù)委員會(huì)(CODATA)創(chuàng)辦的[7]。2001 年,時(shí)在貝爾實(shí)驗(yàn)室的Cleveland發(fā)表了題為“Data science:An Action Plan for Expanding the Technical Areas of the Field of Statistics” 的 學(xué) 術(shù) 論 文[8]。Cleveland在論文中對數(shù)據(jù)科學(xué)的學(xué)科起源與內(nèi)涵進(jìn)行了界定,并提出數(shù)據(jù)科學(xué)應(yīng)作為統(tǒng)計(jì)學(xué)理論與方法的擴(kuò)展。在此之后,關(guān)于數(shù)據(jù)科學(xué)的研究逐步展開。

經(jīng)過1960年到2002年40多年的發(fā)展,數(shù)據(jù)科學(xué)的理念雖然逐漸清晰,但未能引起廣泛的關(guān)注。直到2012年大數(shù)據(jù)研究的熱潮開啟,數(shù)據(jù)科學(xué)才逐漸吸引了人們的眼球。可見,數(shù)據(jù)科學(xué)與大數(shù)據(jù)的處理和應(yīng)用息息相關(guān)。數(shù)據(jù)科學(xué)的研究對象就是來源于各種不同載體與形式的數(shù)據(jù),以及對這些數(shù)據(jù)的采集、分析、應(yīng)用等的相關(guān)理論與方法。關(guān)于數(shù)據(jù)科學(xué)的理論基礎(chǔ),學(xué)者更是百家爭鳴。早在1998年美國佐治亞理工學(xué)院的J.Wu教授發(fā)表了題為 “Statistics=Data Science(統(tǒng)計(jì)學(xué)=數(shù)據(jù)科學(xué))?”的演講,提出了統(tǒng)計(jì)學(xué)應(yīng)該致力于數(shù)據(jù)收集、建模、數(shù)據(jù)分析、問題解決、決策等一系列過程,應(yīng)向數(shù)據(jù)科學(xué)轉(zhuǎn)換,作為數(shù)據(jù)科學(xué)來發(fā)展[9]。2011年,貝爾統(tǒng)計(jì)研究實(shí)驗(yàn)室的統(tǒng)計(jì)學(xué)教授Cleveland指出,數(shù)據(jù)科學(xué)應(yīng)該由統(tǒng)計(jì)學(xué)和先端計(jì)算技術(shù)相融合后成為獨(dú)立的學(xué)科。Myers等認(rèn)為數(shù)據(jù)科學(xué)就是統(tǒng)計(jì)學(xué)擴(kuò)大出的一個(gè)新的領(lǐng)域,屬于統(tǒng)計(jì)學(xué)的范疇[10]。而有些學(xué)者提出了不同的觀點(diǎn),認(rèn)為數(shù)據(jù)科學(xué)作為“以數(shù)據(jù)為中心的科學(xué)”涉及的不僅僅是統(tǒng)計(jì)學(xué)的理論與方法,具有跨學(xué)科和多學(xué)科交叉融合的特點(diǎn)。2013年5月,第462次香山科學(xué)會(huì)議以“數(shù)據(jù)科學(xué)與大數(shù)據(jù)的科學(xué)原理與發(fā)展前景”為主題,展開了對數(shù)據(jù)科學(xué)前沿問題的思考與探索,涉及經(jīng)濟(jì)、管理、數(shù)學(xué)、信息、社會(huì)、生物、國防、航空航天等眾多領(lǐng)域。可見,數(shù)據(jù)科學(xué)已經(jīng)遠(yuǎn)遠(yuǎn)超出了統(tǒng)計(jì)學(xué)的研究范疇。邱東教授認(rèn)為無論是從屬關(guān)系還是交叉關(guān)系,統(tǒng)計(jì)學(xué)只是數(shù)據(jù)科學(xué)體系中的一個(gè)組成部分或構(gòu)件[11]。Vander Aalst等認(rèn)為數(shù)據(jù)科學(xué)已成為一個(gè)圍繞著廣泛的可用性數(shù)據(jù),交叉著統(tǒng)計(jì)數(shù)據(jù)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫、可視化、倫理學(xué)和高性能計(jì)算等方法的一個(gè)新興學(xué)科,并提出數(shù)據(jù)科學(xué)是一個(gè)關(guān)聯(lián)著過程挖掘、推測學(xué)、數(shù)據(jù)庫、算法、大規(guī)模分布式計(jì)算、可視化和可視化分析、行為(社會(huì))科學(xué)、工業(yè)工程、隱私和安全、倫理學(xué)等不同分支學(xué)科的融合[12]。

從以上論述可以看出,統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué)之間不是簡單的等價(jià)或者從屬關(guān)系,二者之間存在明顯的差異,但是也有顯著的交叉,都以數(shù)據(jù)的處理和分析為核心課題。目前來說,將數(shù)據(jù)科學(xué)作為一門學(xué)科還為時(shí)尚早,數(shù)據(jù)科學(xué)尚未形成完整統(tǒng)一的學(xué)科框架理論體系。但是,數(shù)據(jù)科學(xué)作為一種大數(shù)據(jù)分析與應(yīng)用的范式已經(jīng)得到了產(chǎn)業(yè)界和學(xué)術(shù)界的廣泛認(rèn)可。同時(shí),統(tǒng)計(jì)學(xué)的理論與方法在這個(gè)范式中具有不可替代的地位。

3 數(shù)據(jù)科學(xué)范式下應(yīng)用型統(tǒng)計(jì)人才應(yīng)具備的數(shù)據(jù)素養(yǎng)

數(shù)據(jù)科學(xué)范式的興起給統(tǒng)計(jì)學(xué)帶來了機(jī)遇與挑戰(zhàn)。Cleveland認(rèn)為促使統(tǒng)計(jì)學(xué)領(lǐng)域主要技術(shù)工作發(fā)生實(shí)質(zhì)性改變的領(lǐng)域就是數(shù)據(jù)科學(xué),作為新范式,數(shù)據(jù)科學(xué)的最大刺激就是分析數(shù)據(jù)以解決學(xué)科領(lǐng)域潛藏在調(diào)查背景下問題[8]。在數(shù)據(jù)分析的人才培養(yǎng)方面,統(tǒng)計(jì)學(xué)專業(yè)有著得天獨(dú)厚的優(yōu)勢,數(shù)據(jù)分析人才的核心專業(yè)就是統(tǒng)計(jì)學(xué)[13]。由此,統(tǒng)計(jì)學(xué)專業(yè)在人才培養(yǎng)中,需思考由傳統(tǒng)數(shù)據(jù)向大數(shù)據(jù)轉(zhuǎn)變中,數(shù)據(jù)分析人才在數(shù)據(jù)的采集、存儲(chǔ)、管理、分析及應(yīng)用方面的能力優(yōu)化和升級(jí),統(tǒng)計(jì)學(xué)專業(yè)所培養(yǎng)的應(yīng)用型統(tǒng)計(jì)人才應(yīng)該具有與數(shù)據(jù)科學(xué)范式相匹配的數(shù)據(jù)素養(yǎng)(data literacy)。

數(shù)據(jù)素養(yǎng)起源于計(jì)量素養(yǎng)(quantitative literacy)[14]和統(tǒng)計(jì)素養(yǎng)(statistical literacy)[15],三者之間存在密切關(guān)系。Carlson等從能力角度將數(shù)據(jù)素養(yǎng)具備的要素分為分為數(shù)據(jù)發(fā)現(xiàn)與采集、數(shù)據(jù)管理、數(shù)據(jù)處理、元數(shù)據(jù)、數(shù)據(jù)監(jiān)管、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)可視化以及數(shù)據(jù)倫理[16]。郝媛玲等將數(shù)據(jù)素養(yǎng)分為數(shù)據(jù)態(tài)度、數(shù)據(jù)意識(shí)、數(shù)據(jù)知識(shí)、數(shù)據(jù)技能和數(shù)據(jù)倫理五個(gè)方面的基本要素[17]?;谝陨蠑?shù)據(jù)素養(yǎng)的內(nèi)涵,結(jié)合應(yīng)用型人才培養(yǎng)的目標(biāo),從以下六個(gè)方面闡述數(shù)據(jù)科學(xué)范式下應(yīng)用型統(tǒng)計(jì)人才應(yīng)該具有的數(shù)據(jù)素養(yǎng)。

3.1 大數(shù)據(jù)思維的能力

大數(shù)據(jù)是指難以用常規(guī)的軟件工具在容許的時(shí)間內(nèi)對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合[18],一般使用“6V+C”來刻畫其特點(diǎn),即海量(Volume)、瞬刻(Velocity)、全息(Variety)、價(jià)值低密(Value)、虛實(shí)莫辨(Veracity)、動(dòng)態(tài)性(Variability)和復(fù)雜性(Complexity)。大數(shù)據(jù)思維的本質(zhì)在于大數(shù)據(jù)不僅僅是一種資源,更重要的是它引起了分析問題和解決問題的一種新范式[19],該范式提出由數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究和知識(shí)發(fā)現(xiàn),不同于統(tǒng)計(jì)學(xué)問題導(dǎo)向型研究范式,不僅適用于科學(xué)研究,而且在產(chǎn)業(yè)和商業(yè)領(lǐng)域大放異彩。

統(tǒng)計(jì)學(xué)專業(yè)的學(xué)生具備大數(shù)據(jù)思維很重要的一點(diǎn)是對“數(shù)據(jù)”的再認(rèn)識(shí)。傳統(tǒng)統(tǒng)計(jì)學(xué)研究的數(shù)據(jù)類型主要有分類數(shù)據(jù)、定比數(shù)據(jù)和定距數(shù)據(jù)等。雖然類型各異、來源廣泛(社會(huì)、政府及物理空間:人口統(tǒng)計(jì)、財(cái)務(wù)報(bào)表、天氣預(yù)報(bào)等),但是都屬于結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中。隨著大數(shù)據(jù)時(shí)代的到來,除了來自社會(huì)、政府及物理空間中的數(shù)據(jù)量暴增之外,來自網(wǎng)絡(luò)空間中的海量數(shù)據(jù)才是大數(shù)據(jù)真正的挑戰(zhàn)。網(wǎng)絡(luò)空間數(shù)據(jù)包括自媒體數(shù)據(jù)(社交媒體、微博、論壇、微信等)、日志數(shù)據(jù)(互聯(lián)網(wǎng)用戶行為數(shù)據(jù)、網(wǎng)絡(luò)交易數(shù)據(jù)等日志)、富媒體數(shù)據(jù)(文本、圖片、音視頻等)[18]。這些數(shù)據(jù)的典型特征是半結(jié)構(gòu)化或非結(jié)構(gòu)化,需要擴(kuò)展統(tǒng)計(jì)學(xué)的數(shù)據(jù)分析方法才能對其進(jìn)行分析和處理。作為統(tǒng)計(jì)學(xué)專業(yè)的學(xué)生應(yīng)該將數(shù)據(jù)的概念定格在大數(shù)據(jù)上,而不是常見的結(jié)構(gòu)化數(shù)據(jù)。網(wǎng)絡(luò)空間數(shù)據(jù)帶來了社會(huì)、經(jīng)濟(jì)、管理等領(lǐng)域的“全息數(shù)據(jù)”,由數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)科學(xué)范式將成為主流,這種思維的轉(zhuǎn)變是應(yīng)用型統(tǒng)計(jì)人才所必須具備的。

3.2 數(shù)據(jù)采集的能力

數(shù)據(jù)的變革來自方方面面,多源異構(gòu)、海量動(dòng)態(tài)是數(shù)據(jù)采集面臨的最大問題。統(tǒng)計(jì)學(xué)對于統(tǒng)計(jì)數(shù)據(jù)的收集大多采用問題導(dǎo)向的數(shù)據(jù)設(shè)計(jì)方案(基于統(tǒng)計(jì)推斷和抽樣調(diào)查)。這種數(shù)據(jù)采集方案在數(shù)據(jù)匱乏時(shí)代,對社會(huì)、經(jīng)濟(jì)、管理等領(lǐng)域的治理和決策發(fā)揮了重要的作用,使統(tǒng)計(jì)分析方法發(fā)揚(yáng)光大。而大數(shù)據(jù)時(shí)代的到來,使“數(shù)據(jù)之樹”,忽如一夜春風(fēng)來,千樹萬樹梨花開。各行各業(yè)的數(shù)據(jù)在人們意識(shí)懵懂之時(shí)迅猛襲來,關(guān)系型數(shù)據(jù)庫和與之相適應(yīng)的統(tǒng)計(jì)分析方法迷失在數(shù)據(jù)分析的源頭-數(shù)據(jù)采集階段。作為統(tǒng)計(jì)學(xué)專業(yè)的學(xué)生來說,應(yīng)該具備采集非結(jié)構(gòu)化數(shù)據(jù)的能力,如社交媒體的用戶生成內(nèi)容、電商平臺(tái)的用戶評(píng)論數(shù)據(jù)、收索引擎的圖片、音視頻等。一般來說,對于非結(jié)構(gòu)化數(shù)據(jù)的采集需要借助網(wǎng)絡(luò)爬蟲的技術(shù)。網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本,需要使用計(jì)算機(jī)程序語言編寫。目前,已經(jīng)有很多成熟的網(wǎng)絡(luò)爬蟲開源軟件提供大數(shù)據(jù)采集功能,如用C++編寫的Larbin、用Java編寫的分布式爬蟲Nutch、用Python編寫的scrapy爬蟲等。

3.3 數(shù)據(jù)處理的能力

大數(shù)據(jù)具有碎片化、多源異構(gòu)、噪聲大的特點(diǎn),這給數(shù)據(jù)的處理帶來一定的挑戰(zhàn)。統(tǒng)計(jì)學(xué)對于數(shù)據(jù)的處理主要指數(shù)據(jù)抽樣、去除異常值、降維等,這是結(jié)構(gòu)型數(shù)據(jù)的典型處理方法。大數(shù)據(jù)的海量數(shù)據(jù)接近于 “全樣本數(shù)據(jù)”,按照大數(shù)定理,樣本數(shù)據(jù)越是接近整體統(tǒng)計(jì)推斷越是精確。大數(shù)據(jù)的樣本量如此之大,是不是分析起來越精確呢?其實(shí)不然,大數(shù)據(jù)處理面臨三大問題:一是存儲(chǔ)問題,常用的關(guān)系型數(shù)據(jù)庫已經(jīng)不能適應(yīng)大數(shù)據(jù)的存儲(chǔ),文本、圖片、音視頻等非結(jié)構(gòu)化數(shù)據(jù)需要新型的數(shù)據(jù)庫,如NoSQL數(shù)據(jù)庫;二是不同數(shù)據(jù)來源之間的數(shù)據(jù)融合問題,同一事件由于數(shù)據(jù)來源不同,結(jié)構(gòu)也有可能不同,如何融合是值得研究的問題;三是大數(shù)據(jù)降維和去噪問題,海量數(shù)據(jù)中有價(jià)值的信息少,即大數(shù)據(jù)的高維度和稀疏性,只有對數(shù)據(jù)進(jìn)行清洗和降維、降噪后,才能從數(shù)據(jù)礦藏挖掘出金子來。所以,大數(shù)據(jù)時(shí)代的應(yīng)用型統(tǒng)計(jì)人才要想分析好大數(shù)據(jù),必須具備解決這三個(gè)問題的能力。

3.4 數(shù)據(jù)分析與挖掘的能力

對大數(shù)據(jù)價(jià)值的挖掘?qū)嶋H上是“數(shù)據(jù)(Data)→信息(Information)→知識(shí)(Knowledge)→智慧(Wisdom)”的轉(zhuǎn)化過程,即“DIKW 價(jià)值鏈”[20]。 數(shù)據(jù)分析的方法是大數(shù)據(jù)挖掘的核心,與傳統(tǒng)統(tǒng)計(jì)學(xué)的數(shù)據(jù)分析側(cè)重于“驗(yàn)證性數(shù)據(jù)分析”不同,大數(shù)據(jù)分析方法更加側(cè)重于“探索性數(shù)據(jù)分析”,如基于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的方法。驗(yàn)證性的數(shù)據(jù)分析方法重因果關(guān)系,通過理論假設(shè)和統(tǒng)計(jì)推斷分析變量之間的因果關(guān)系,進(jìn)而達(dá)到預(yù)測的目的。而大數(shù)據(jù)在分析之前,往往不知道變量之間的因果聯(lián)系,從而無法做出理論假設(shè),統(tǒng)計(jì)推斷的方法往往無從下手。這時(shí),探索性的數(shù)據(jù)分析方法就體現(xiàn)出優(yōu)勢來?;跀?shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的一系列算法致力于從混雜的數(shù)據(jù)中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的模式,這種模式不一定是具有因果關(guān)系的,更多是相關(guān)關(guān)系。但只要能從數(shù)據(jù)中提取有用的知識(shí)用以解決問題,這就足夠了,這就是大數(shù)據(jù)分析的思維。這就要求統(tǒng)計(jì)學(xué)專業(yè)的應(yīng)用型人才必須拓展自己的數(shù)據(jù)分析理論與方法,而不能局限于統(tǒng)計(jì)學(xué)的理論與方法。

3.5 基于數(shù)據(jù)決策的能力

大數(shù)據(jù)對決策的影響是深刻的。在數(shù)據(jù)匱乏時(shí)代,很多社會(huì)、經(jīng)濟(jì)、管理領(lǐng)域的問題都缺少有效的數(shù)據(jù)支撐,在決策時(shí)基于專家經(jīng)驗(yàn)知識(shí)的定性決策占主導(dǎo)定位。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、WEB2.0/3.0的興起,大眾成為數(shù)據(jù)的生產(chǎn)者、使用者和傳播者,大眾成為政治事件、民生治理、政府決策、經(jīng)濟(jì)熱點(diǎn)等的直接參與者,有時(shí)甚至主導(dǎo)事件的發(fā)展和結(jié)果。大數(shù)據(jù)的興起使用戶參與的過程數(shù)據(jù)、行為數(shù)據(jù)、內(nèi)容數(shù)據(jù)全部記錄下來,這對于管理問題來說是一筆寶貴的財(cái)富。過去,人文社會(huì)學(xué)科的很多問題是無法用數(shù)據(jù)去測度的,比如說政治領(lǐng)域。現(xiàn)在,使用大數(shù)據(jù)的方法甚至可以預(yù)測美國總統(tǒng)大選。2012年的美國總統(tǒng)大選,統(tǒng)計(jì)學(xué)家內(nèi)特·希爾沃(Nate Silver)通過貝葉斯方法建立統(tǒng)計(jì)模型,基于數(shù)據(jù)分析,斷言奧巴馬有超過九成概率獲勝,50個(gè)州的投票結(jié)果中全部預(yù)測正確。希爾沃從事新聞工作,但他推崇大數(shù)據(jù)和建模分析,不屑于傳統(tǒng)的民調(diào)或是各種基于偏見、人云亦云的預(yù)判。正如他在《The Signal and the Noise:Why Most Predictions Fail-but Some Don′t》中所講,大數(shù)據(jù)是非常重要的工具而不是游戲,大數(shù)據(jù)革命將改變了我們的生活、工作和思維模式,未來它將會(huì)成為影響我們決策的重要因素。所以說,作為一個(gè)統(tǒng)計(jì)學(xué)專業(yè)的學(xué)生來說,基于數(shù)據(jù)分析的決策能力是基本的數(shù)據(jù)素養(yǎng)。

3.6 團(tuán)隊(duì)協(xié)作的能力

大數(shù)據(jù)分析涉及到由數(shù)據(jù)到知識(shí)轉(zhuǎn)化流程中的眾多理論與方法。在數(shù)據(jù)采集與處理階段,需要具備網(wǎng)絡(luò)爬蟲、自然語言處理、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等知識(shí);在數(shù)據(jù)存儲(chǔ)階段,需要具備數(shù)據(jù)庫基礎(chǔ)與技術(shù)、非結(jié)構(gòu)化數(shù)據(jù)庫(NoSQL)等知識(shí);在數(shù)據(jù)分析階段,除了傳統(tǒng)的統(tǒng)計(jì)學(xué)方法(如統(tǒng)計(jì)推斷、回歸、結(jié)構(gòu)方程等),還需要具備數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析技術(shù)(MapReduce/Hadoop等)、數(shù)據(jù)可視化技術(shù)等。當(dāng)然,有些方法和技術(shù)需要計(jì)算機(jī)編程語言的支撐,如R、PYTHON、C++、JAVA等。另外,解讀數(shù)據(jù)分析的結(jié)果還需要結(jié)合行業(yè)/領(lǐng)域的專業(yè)知識(shí)。而具備所以這些能力是相當(dāng)困難的,一般來說,只要與自己弱項(xiàng)互補(bǔ)的數(shù)據(jù)科學(xué)家協(xié)作,組成一個(gè)團(tuán)隊(duì)發(fā)揮巨大的力量就可以了[9]。所以,對于應(yīng)用型統(tǒng)計(jì)人才來說,團(tuán)隊(duì)協(xié)作能力尤為重要,你可以專注于數(shù)據(jù)分析流程中的某一項(xiàng)任務(wù),但要融入到整個(gè)數(shù)據(jù)分析的流程中,明確分析目標(biāo)和任務(wù),做到及時(shí)有效的溝通交流。

4 統(tǒng)計(jì)學(xué)專業(yè)應(yīng)用型人才培養(yǎng)模式思考與對策

原教育部副部長周遠(yuǎn)清對“人才培養(yǎng)模式”作過闡述,他認(rèn)為人才培養(yǎng)模式實(shí)際上是人才的培養(yǎng)目標(biāo)和培養(yǎng)規(guī)格以及實(shí)現(xiàn)這些培養(yǎng)目標(biāo)的方法或手段[21]。具體來講,這些方法或手段涉及到培養(yǎng)目標(biāo)、培養(yǎng)方案、課程體系、教學(xué)內(nèi)容與教學(xué)方法、評(píng)價(jià)方法、人才隊(duì)伍等。而反映到應(yīng)用型人才培養(yǎng)模式上,則更多的強(qiáng)調(diào)教育的做人造士功能、注重實(shí)踐與應(yīng)用、適應(yīng)國民的全面發(fā)展和終生需要、為了學(xué)生的升學(xué)和更好的生活與工作等。也就是強(qiáng)調(diào)做人與做事的統(tǒng)一、理論與實(shí)踐的統(tǒng)一[22]。大數(shù)據(jù)時(shí)代,在數(shù)據(jù)科學(xué)范式下,對照人才應(yīng)該具備的數(shù)據(jù)素養(yǎng),統(tǒng)計(jì)學(xué)人才培養(yǎng)模式應(yīng)該做出怎樣的調(diào)整與適應(yīng)是值得重視的問題。下面就人才培養(yǎng)模式做以下幾點(diǎn)思考,并提出相應(yīng)的對策。

4.1 人才培養(yǎng)目標(biāo)與當(dāng)前形勢不相適應(yīng),應(yīng)突出大數(shù)據(jù)分析能力

數(shù)據(jù)科學(xué)范式下的統(tǒng)計(jì)學(xué)人才培養(yǎng),應(yīng)該強(qiáng)調(diào)應(yīng)用型的人才培養(yǎng)理念,以培養(yǎng)具備良好的數(shù)據(jù)素養(yǎng)、具備大數(shù)據(jù)分析和決策能力的統(tǒng)計(jì)學(xué)人才為目標(biāo)。傳統(tǒng)的統(tǒng)計(jì)學(xué)人才培養(yǎng)目標(biāo)還定位在掌握統(tǒng)計(jì)學(xué)基本理論與方法,應(yīng)用相關(guān)統(tǒng)計(jì)分析軟件進(jìn)行數(shù)據(jù)分析上,明顯缺乏對大數(shù)據(jù)分析理論與方法的培養(yǎng)。大數(shù)據(jù)時(shí)代,數(shù)據(jù)已發(fā)生質(zhì)的變化,作為“數(shù)據(jù)的科學(xué)”的統(tǒng)計(jì)學(xué),應(yīng)該適應(yīng)新的變化,適時(shí)調(diào)整培養(yǎng)目標(biāo)。著名統(tǒng)計(jì)學(xué)家袁衛(wèi)認(rèn)為面對的大數(shù)據(jù)的挑戰(zhàn),現(xiàn)代人才需求是交叉的、綜合的素質(zhì)。這就要求我們統(tǒng)計(jì)專業(yè)應(yīng)該拓寬視野和能力,培養(yǎng)能夠跨學(xué)科的、有多方面能力的人才[13]??鐚W(xué)科、方面能力實(shí)際上就是指的大數(shù)據(jù)分析能力所要求的統(tǒng)計(jì)學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)、信息科學(xué)等多學(xué)科知識(shí)。國內(nèi)統(tǒng)計(jì)學(xué)專業(yè)大多數(shù)設(shè)置在數(shù)學(xué)學(xué)院,統(tǒng)計(jì)學(xué)的學(xué)生具有良好的數(shù)學(xué)背景,在擴(kuò)展計(jì)算機(jī)、信息科學(xué)等多學(xué)科知識(shí)方面具有優(yōu)勢。

4.2 教材內(nèi)容老化,教學(xué)內(nèi)容設(shè)計(jì)應(yīng)多元化

教材是大學(xué)生學(xué)習(xí)的第一手資料,是陪伴他們終身的教師。然而,經(jīng)典統(tǒng)計(jì)學(xué)教材在改革開放的三十年里變化很少,相對于人才培養(yǎng)的定位來說,仍然不加區(qū)別的以重視理論以及闡述理論背后的數(shù)學(xué)方法為主。理論與方法固然重要,但是如何使用這些理論和使用這些理論以及解決哪些實(shí)際問題,以及在解決問題時(shí)需要注意哪些環(huán)節(jié),教材中鮮有討論,教師上課時(shí)也鮮有論及。其實(shí),這才是學(xué)生更加關(guān)心的問題。在教材編寫的問題上,實(shí)際上可以體現(xiàn)教學(xué)內(nèi)容的多元化設(shè)計(jì)。一部分教材以統(tǒng)計(jì)理論與方法為主,主要面向培養(yǎng)統(tǒng)計(jì)學(xué)理論研究的學(xué)生為主;一部分以方法和應(yīng)用為主,主要面向培養(yǎng)具備數(shù)據(jù)分析實(shí)踐能力的學(xué)生為主。另外,教材中加入大數(shù)據(jù)分析理論與方法也是勢在必行的。很多學(xué)科都引入了大數(shù)據(jù)分析理論與方法,計(jì)算機(jī)科學(xué)在這方面走在前面。統(tǒng)計(jì)學(xué)專業(yè)在數(shù)據(jù)分析方面具有天然的優(yōu)勢,在大數(shù)據(jù)教學(xué)方面也應(yīng)該迎頭趕上。

4.3 課程體系不完善,需打造跨學(xué)科聯(lián)動(dòng)授課機(jī)制

數(shù)據(jù)科學(xué)范式對統(tǒng)計(jì)分析過程的各個(gè)環(huán)節(jié)都提出了挑戰(zhàn),集中表現(xiàn)在數(shù)據(jù)收集和數(shù)據(jù)分析這兩個(gè)方面[23]。統(tǒng)計(jì)學(xué)專業(yè)在課程體系設(shè)計(jì)方面同樣存在這兩個(gè)方面的問題,在數(shù)據(jù)收集方面主要開設(shè) 《抽樣調(diào)查》《市場調(diào)查》《數(shù)據(jù)庫原理》等課程,在數(shù)據(jù)分析方面主要開設(shè) 《數(shù)據(jù)庫應(yīng)用》《回歸分析》《多元統(tǒng)計(jì)分析》《非參數(shù)統(tǒng)計(jì)》《時(shí)間序列分析》《金融統(tǒng)計(jì)分析》《經(jīng)濟(jì)預(yù)測與決策》《數(shù)據(jù)建模與數(shù)學(xué)軟件》等,在計(jì)算機(jī)語言方面主要開設(shè)《計(jì)算機(jī)程序設(shè)計(jì)基礎(chǔ)》《Matlab語言與數(shù)學(xué)實(shí)驗(yàn)》等,在統(tǒng)計(jì)軟件方面主要有SPSS、MATLAB、Eviews等。從目前的課程設(shè)置來看,數(shù)據(jù)收集仍然偏重于市場調(diào)查和抽樣技術(shù),對于文本、圖片、音視頻等非結(jié)構(gòu)化數(shù)據(jù)的采集方法沒有涉及;在數(shù)據(jù)分析方面,主要還是傳統(tǒng)統(tǒng)計(jì)學(xué)的統(tǒng)計(jì)推斷方法,探索性的數(shù)據(jù)分析方法并沒有太多的涉及;而在計(jì)算語言和計(jì)算能力方面,偏向于不用編程的統(tǒng)計(jì)軟件,而這些軟件所能處理的數(shù)據(jù)量和數(shù)據(jù)類型有限。這些課程設(shè)置的缺陷導(dǎo)致目前統(tǒng)計(jì)學(xué)專業(yè)的大學(xué)生對于大數(shù)據(jù)處理力不從心,從而限制了人才能力的發(fā)揮。

基于前面所述的課程設(shè)置缺陷以及應(yīng)用型統(tǒng)計(jì)人才所需的數(shù)據(jù)素養(yǎng),可以在原有課程體系的基礎(chǔ)上增設(shè)計(jì)算機(jī)、數(shù)據(jù)挖掘和大數(shù)據(jù)技術(shù)相關(guān)課程??紤]到本科教學(xué)的實(shí)際情況,相關(guān)課程可以設(shè)置為專業(yè)選修課或者系列講座的形式,如計(jì)算機(jī)相關(guān)課程《R語言》《Python語言》《數(shù)據(jù)庫開發(fā)與設(shè)計(jì)》可以開設(shè)為專業(yè)選修課,同時(shí)這些課程的網(wǎng)絡(luò)資源比較豐富,學(xué)生也可以在MOOC上學(xué)習(xí)?!稊?shù)據(jù)挖掘》和《機(jī)器學(xué)習(xí)》對于統(tǒng)計(jì)學(xué)專業(yè)的學(xué)生來說至關(guān)重要,這兩門課程在內(nèi)容上有所重疊,均是利用算法進(jìn)行大數(shù)據(jù)挖掘,在課程設(shè)置上進(jìn)行合并或者理論集合實(shí)戰(zhàn)。與大數(shù)據(jù)分析相關(guān)的一些課程開始開設(shè)成為系列講座,如MapReduce/Hadoop等。當(dāng)然,這些課程只靠統(tǒng)計(jì)學(xué)的教師是無法完成教學(xué)任務(wù)的,有些需要計(jì)算機(jī)、數(shù)學(xué)、或信息學(xué)科專業(yè)的教師,所以建立院系之間的聯(lián)動(dòng)授課機(jī)制也很重要。

4.4 實(shí)踐教學(xué)環(huán)節(jié)薄弱,應(yīng)強(qiáng)化實(shí)習(xí)實(shí)訓(xùn)

在現(xiàn)有人才培養(yǎng)方案中,實(shí)踐教學(xué)環(huán)節(jié)還比較薄弱,僅僅體現(xiàn)在課堂實(shí)驗(yàn)教學(xué)和專業(yè)實(shí)習(xí)上面,而課堂實(shí)驗(yàn)教學(xué)多是對統(tǒng)計(jì)語言和統(tǒng)計(jì)軟件的應(yīng)用。也就是說除了專業(yè)實(shí)習(xí)以外,在當(dāng)前的人才培養(yǎng)模式下學(xué)生很少接觸到真正的數(shù)據(jù)分析實(shí)務(wù),更不用說大數(shù)據(jù)分析方法和技術(shù)的實(shí)戰(zhàn)訓(xùn)練。建議充分利用寒暑假大學(xué)生社會(huì)調(diào)查和社會(huì)實(shí)踐活動(dòng),通過學(xué)校積極搭建實(shí)踐活動(dòng)平臺(tái),讓學(xué)生有機(jī)會(huì)到大數(shù)據(jù)商業(yè)、產(chǎn)業(yè)的企事業(yè)單位和政府部門進(jìn)行調(diào)查和實(shí)踐,鍛煉學(xué)生收集數(shù)據(jù)、分析數(shù)據(jù)的能力。實(shí)踐活動(dòng)可以采取調(diào)查、項(xiàng)目等多種形式,比如幫助互聯(lián)網(wǎng)銷售公司分析客戶行為數(shù)據(jù)、分析產(chǎn)品營銷數(shù)據(jù)、分析公司財(cái)務(wù)數(shù)據(jù)等,并提出相關(guān)建議和對策;幫助政府相關(guān)部門采集社會(huì)輿情大數(shù)據(jù),分析輿情熱點(diǎn)事件、跟蹤輿情事件發(fā)展脈絡(luò),通過輿情數(shù)據(jù)處理和分析支撐相關(guān)部分作出科學(xué)合理決策;分析交通部門大數(shù)據(jù),輔助優(yōu)化道路交通規(guī)劃設(shè)計(jì)等等。通過這些實(shí)踐教學(xué)與活動(dòng),讓大學(xué)生將所學(xué)專業(yè)知識(shí),切實(shí)應(yīng)用到大數(shù)據(jù)分析中,切實(shí)體會(huì)統(tǒng)計(jì)分析的作用,做到理論與實(shí)踐相結(jié)合。唯有如此,才能提高應(yīng)用型統(tǒng)計(jì)人才培養(yǎng)的效能,發(fā)揮應(yīng)用型統(tǒng)計(jì)人才在大數(shù)據(jù)分析中的優(yōu)勢。

[1]趙國棟,易歡歡,糜萬軍,等.大數(shù)據(jù)時(shí)代的歷史機(jī)遇[M].北京:清華大學(xué)出版社,2013.

[2]李金昌.統(tǒng)計(jì)測度:統(tǒng)計(jì)學(xué)邁向數(shù)據(jù)科學(xué)的基礎(chǔ)[J].統(tǒng)計(jì)研究,2015,(8):3-9.

[3]Data Science:history[EB/OL].[2016-07-10].https://en.wikipedia.org/wiki/Data_science

[4]SVEINSDOTTIR E,F(xiàn)r kj r E.Datalogy—the Copenhagen tradition of computer science[J].BIT Numerical Mathematics,1988,(3):450-472.

[5]OHSUMI N.From data analysis to data science[C].7th Conference of the International-Federation-of-Classification-Societies,University Namur,Namur, Belgium,2000.

[6]劉磊.從數(shù)據(jù)科學(xué)到第四范式:大數(shù)據(jù)研究的科學(xué)淵源[J].廣告大觀(理論版),2016,(4):44-52.

[7]GU J,ZHANG L.Data,DIKW,big data and data science[J].Procedia Computer Science,2014,(31):814-821.

[8]CLEVELAND W S.Data science:an action plan for expanding the technical areas of the field of statistics[J].International statistical review,2001,(1):21-26.

[9]劉大北,賈一葦.日本《大數(shù)據(jù)時(shí)代的人才培養(yǎng)》倡議:制定背景、研究方向、計(jì)劃及舉措[J].電子政務(wù),2015,(10):85-95.

[10]MYERS K,WIEL S V.Discussion of"data science:an action plan for expanding the technical areas of the field of statistics"[J].Statistical Analysis and Data Mining,2014,(6):420-422.

[11]邱東.大數(shù)據(jù)時(shí)代對統(tǒng)計(jì)學(xué)的挑戰(zhàn)[J].統(tǒng)計(jì)研究,2014,(1):16-22.

[12]VANDER AALST W, DAMIANI E.Processes meet big data:connecting data science with process science[J].IEEE Transactions on Services Computing,2015,(6): 810-819.

[13]韓際平.大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)人才培養(yǎng)——對話著名統(tǒng)計(jì)學(xué)家袁衛(wèi)[J].中國統(tǒng)計(jì),2014,(10):5-8.

[14]STEELE B,Kili-Bahi S.Quantitative literacy across the curriculum:a case study[J].Numeracy,2008,(2):3.

[15]WALLMAN K K.Enhancing statistical literacy:enriching our society[J].Journal of the American Statistical Association,1993,(421):1-8.

[16]CARLSON J,F(xiàn)OSMIRE M,MILLER C C,et al.Determining data information literacy needs:a study of students and research faculty[J].portal:Libraries and the Academy,2011,(2): 629-657.

[17]郝媛玲,沈婷婷.數(shù)據(jù)素養(yǎng)及其培養(yǎng)機(jī)制的構(gòu)建與策略思考[J].情報(bào)理論與實(shí)踐,2016,(1):58-63.

[18]鄔賀銓.大數(shù)據(jù)思維[J].科學(xué)與社會(huì),2014,(1):1-13.

[19]HEY T.The Fourth Paradigm—Data-Intensive Scientific Discovery[M].E-Science and Information Management,Springer Berlin Heidelberg,2012:1.

[20]Omegapowers,own work.This is from my own knowledge and understanding of DIKW model,May 2008[EB/OL].http://en.wikipedia.org/wiki/File:DIKW.png

[21]人才培養(yǎng)模式[EB/OL].http://baike.baidu.com/link?url=I07amqM8lcDCM3cjgffuTBoFHXOr58qAvXXO_zkEUM4ox4kZrtHdz AMg2Nd5tUbOS6IKK5bloYzhy6K.

[22]關(guān)仲和.關(guān)于應(yīng)用型人才培養(yǎng)模式的思考[J].中國大學(xué)教學(xué),2010,(6):7-11.

[23]魏瑾瑞,蔣萍.數(shù)據(jù)科學(xué)的統(tǒng)計(jì)學(xué)內(nèi)涵[J].統(tǒng)計(jì)研究,2014,(5):3-9.

猜你喜歡
范式應(yīng)用型科學(xué)
關(guān)于應(yīng)用型復(fù)合人才培養(yǎng)的教學(xué)模式探討
以寫促讀:構(gòu)建群文閱讀教學(xué)范式
范式空白:《莫失莫忘》的否定之維
“5-2-1”應(yīng)用型人才培養(yǎng)模式探索實(shí)踐
孫惠芬鄉(xiāng)土寫作批評(píng)的六個(gè)范式
點(diǎn)擊科學(xué)
科學(xué)大爆炸
管窺西方“詩辯”發(fā)展史的四次范式轉(zhuǎn)換
第8講 “應(yīng)用型問題”復(fù)習(xí)精講
科學(xué)拔牙