国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多學(xué)科視域下教育密集型研究的機(jī)遇與挑戰(zhàn)
——基于美國《數(shù)據(jù)密集型教育研究》的解讀

2017-04-15 06:32張婧婧
復(fù)旦教育論壇 2017年5期
關(guān)鍵詞:密集型科學(xué)研究

張婧婧,封 晨

·域 外·

多學(xué)科視域下教育密集型研究的機(jī)遇與挑戰(zhàn)
——基于美國《數(shù)據(jù)密集型教育研究》的解讀

張婧婧1,封 晨2

(1.北京師范大學(xué)教育學(xué)部,北京 100875;2.香港大學(xué) 教育學(xué)院,香港)

數(shù)據(jù)科學(xué)(data science)的興起給教育研究帶來了新的機(jī)遇與挑戰(zhàn)。在美國國家科學(xué)基金會的資助下,計(jì)算研究協(xié)會(CRA)牽頭組建了兩個工作小組,對如何在教育領(lǐng)域開展數(shù)據(jù)密集型研究進(jìn)行了調(diào)研,并于2015年10月發(fā)布了題為《數(shù)據(jù)密集型教育研究》的報告書。本文提煉報告中不同科學(xué)領(lǐng)域的密集型研究對教育密集型研究的啟示,進(jìn)行結(jié)構(gòu)性的呈現(xiàn)和解讀。在多學(xué)科視域下,討論教育密集型研究面臨的機(jī)遇與挑戰(zhàn),并提出一系列可供參考的發(fā)展策略。

數(shù)據(jù)密集型研究;數(shù)據(jù)科學(xué);大數(shù)據(jù);第四種范式

Abstract:The rise of data science has brought new opportunities and challenges to educational research.In the United States,the Computing Research Association (CRA)held a two-workshop sequence on data-intensive research for the National Science Foundation (NSF)and the field.The ideas and insights from these workshops were summarized in a report"Data-Intensive Research in Education:Current Work and Next Steps",which was released in October 2015.Focusing on the first workshop,this paper summarizes insights from relatively mature data-intensive research initiatives in the sciences and engineering,and discusses the opportunities and challenges that could aid in advancing nascent data-intensive research in education.

Key words:Data-Intensive Research;Data Science;Big Data;The Fourth Paradigm

一、引言

大數(shù)據(jù)時代的到來,引發(fā)了人類認(rèn)識世界和改造世界的重大變革。在工業(yè)革命時期,即使是在當(dāng)今全球信息化的浪潮中,大量的學(xué)術(shù)研究主要還是依賴抽樣數(shù)據(jù)或案例數(shù)據(jù)展開調(diào)研,甚至在無法獲得實(shí)證數(shù)據(jù)的情況下純粹依賴經(jīng)驗(yàn)、假設(shè)或價值觀去發(fā)現(xiàn)未知世界的規(guī)律[1]。然而,在互聯(lián)網(wǎng)和社交媒體飛速發(fā)展的今天,人類的行為與各行各業(yè)的工作在很大程度上已被“數(shù)據(jù)化”[2],使得數(shù)據(jù)成為當(dāng)今世界重要的生產(chǎn)力[3]。研究者能夠打破傳統(tǒng)學(xué)科的界限,多渠道獲取和使用全面的、完整的、系統(tǒng)的數(shù)據(jù),來發(fā)現(xiàn)過去不可能認(rèn)識的規(guī)律和不可能產(chǎn)生的知識,從而對社會、經(jīng)濟(jì)和文化的發(fā)展產(chǎn)生重要的變革[4]。

數(shù)據(jù)科學(xué)的興起,直接推動了科學(xué)探索范式的變革。數(shù)據(jù)密集型科學(xué)被認(rèn)為是科學(xué)探索發(fā)展到現(xiàn)今的第四種范式[5],在商業(yè)、娛樂、科學(xué)、技術(shù)、工程與數(shù)學(xué)領(lǐng)域已經(jīng)取得了相當(dāng)大的成績[6]。近年來,在教育研究領(lǐng)域開始重視數(shù)據(jù)密集型研究,比如《教育技術(shù)的藍(lán)圖》(A Roadmap for Education Technology)和美國計(jì)算研究協(xié)會與國際學(xué)習(xí)科學(xué)協(xié)會聯(lián)合發(fā)布的《未來教育與學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu):愿景和研究議程》(Cyberinfrastructure for Education and Learning for the Future:A Vision and Research Agenda)這兩份報告。2012年,美國教育部也發(fā)布了題為《通過教育數(shù)據(jù)挖掘和學(xué)習(xí)分析促進(jìn)教與學(xué)》(Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics:An Issue Brief)的報告。這些研究表明,數(shù)據(jù)密集型研究可以在很大程度上加快教育實(shí)踐的變革,形成教育改革的良性循環(huán)。比如,基于數(shù)據(jù)的教學(xué)方法可以大大提升教與學(xué)的水平,實(shí)時的診斷性數(shù)據(jù)可以潛在地提升學(xué)生的學(xué)習(xí)結(jié)果。

然而,由于教育學(xué)科自身面臨的挑戰(zhàn)與困難,數(shù)據(jù)密集型研究在教育實(shí)踐中尚未能發(fā)揮出其應(yīng)有的潛能。教育學(xué)科尚未能發(fā)展出相應(yīng)的理論去指導(dǎo)什么樣的數(shù)據(jù)可以揭示教與學(xué)的規(guī)律,從而推動教育大數(shù)據(jù)的收集工作。教育學(xué)科是一個包羅萬象的綜合性學(xué)科,很難通過對所有可獲得的數(shù)據(jù)進(jìn)行簡單的分析來發(fā)現(xiàn)具有普適性的教與學(xué)的規(guī)律。在數(shù)據(jù)收集和分析階段,教育研究中存在的隱私和安全問題在很多自然學(xué)科中也未曾涉及。同時,教育領(lǐng)域缺乏相對完備的計(jì)算基礎(chǔ)設(shè)施、工具和人才資源,并且相應(yīng)的人才需要具備高效的大數(shù)據(jù)收集、整理和分析的能力,使得教育領(lǐng)域的數(shù)據(jù)密集型研究舉步維艱。在與教育相關(guān)的數(shù)據(jù)科學(xué)的方方面面,全面提升對大規(guī)模、異形和含有噪音的數(shù)據(jù)集的分析與解釋工作來發(fā)現(xiàn)教與學(xué)的規(guī)律,成為大數(shù)據(jù)時代教育研究的一個重要命題。

為推進(jìn)教育領(lǐng)域密集型研究的發(fā)展,計(jì)算研究協(xié)會(CRA)在美國國家科學(xué)基金會的資助下組建了兩個針對數(shù)據(jù)密集型研究的工作小組。第一個工作小組主要關(guān)注科學(xué)領(lǐng)域的數(shù)據(jù)密集型研究,另一個工作小組則旨在推進(jìn)教育領(lǐng)域中新興的數(shù)據(jù)密集型研究。研究小組由哈佛大學(xué)Chris Dede教授負(fù)責(zé)主持和編輯,來自明尼蘇達(dá)大學(xué)、麻省理工學(xué)院和喬治梅森大學(xué)等高校的多位相關(guān)領(lǐng)域的專家學(xué)者參與其中。2015年10月,小組正式發(fā)布了題為《數(shù)據(jù)密集型教育研究:現(xiàn)狀與展 望》(Data-Intensive Research in Education:Current Work and Next Steps)的研究報告(以下簡稱報告)。本文提煉報告中不同科學(xué)領(lǐng)域的密集型研究對教育密集型研究的啟示,進(jìn)行結(jié)構(gòu)性的呈現(xiàn)和解讀。在多學(xué)科視域下,討論教育密集型研究面臨的機(jī)遇與挑戰(zhàn)。

二、科學(xué)領(lǐng)域中的數(shù)據(jù)密集型研究案例對教育研究的啟示

數(shù)據(jù)科學(xué)的興起,直接推動了科學(xué)探索范式的變革。數(shù)據(jù)密集型科學(xué)被認(rèn)為是科學(xué)探索發(fā)展到現(xiàn)今的第四類范式[7][8]。實(shí)驗(yàn)歸納被認(rèn)為是科學(xué)探索的第一類范式,可追溯至遠(yuǎn)古時期的希臘和中國,古人嘗試使用實(shí)驗(yàn)的方法來解釋所觀察到的現(xiàn)象。直至以伽利略為代表的文藝復(fù)興時期,開啟了近代科學(xué)之門。第二類范式為理論推演,以17世紀(jì)的牛頓為代表人物,拉開了現(xiàn)代科學(xué)的帷幕。20世紀(jì)的后半葉,馮·諾依曼所提出的現(xiàn)代電子計(jì)算機(jī)架構(gòu),使得對科學(xué)實(shí)驗(yàn)進(jìn)行仿真模擬成為可能,不能通過常規(guī)實(shí)驗(yàn)和理論推演來解釋的復(fù)雜現(xiàn)象可以通過仿真模擬來進(jìn)行研究,如模擬氣候變遷和宇宙的形成。諾貝爾獎獲得者Ken Wilson將計(jì)算與仿真模擬定義為科學(xué)探索的第三類范式。作為科學(xué)研究的第四類范式,數(shù)據(jù)密集型研究并不是在已知的規(guī)則或理論的基礎(chǔ)上進(jìn)行探究。這類研究以數(shù)據(jù)為驅(qū)動,通過對海量數(shù)據(jù)進(jìn)行挖掘來發(fā)現(xiàn)相關(guān)性的規(guī)律,從而發(fā)現(xiàn)和建立新的規(guī)則與理論。這類研究之所以能以數(shù)據(jù)為驅(qū)動,主要是因?yàn)楫?dāng)今信息時代的數(shù)據(jù)具有的4V特性——體量巨大(volume)、傳輸高速(velocity)、類型繁多(variety)、質(zhì)量混雜(veracity),可稱其為大數(shù)據(jù),其價值尚待挖掘。2001年《加特納報告》(Gartner Report)最早提出了大數(shù)據(jù)的3V特性,在此基礎(chǔ)上,本研究加入數(shù)據(jù)質(zhì)量這一個維度。盡管每一個數(shù)據(jù)集可能都存在數(shù)據(jù)質(zhì)量的問題,數(shù)據(jù)質(zhì)量的迥異其實(shí)也可以視為數(shù)據(jù)類型繁多的一種變異,但是大數(shù)據(jù)分析所面臨的特有挑戰(zhàn)可能恰恰在于其質(zhì)量混雜。大數(shù)據(jù)的4V特性,也可以被認(rèn)為是數(shù)據(jù)的一種“4V分 類 法 ”(Velocity-Variety-Veracity-Volume Typology)。在數(shù)據(jù)密集型科學(xué)范式下,大數(shù)據(jù)的“4V分類法”可定位為解決問題的一種方法,而非問題所在。本部分以“4V分類法”為比較框架梳理大數(shù)據(jù)研究在五門科學(xué)和工程學(xué)科中取得的進(jìn)展,進(jìn)而討論這些進(jìn)展在教育研究領(lǐng)域的潛在對應(yīng)價值。

(一)地球科學(xué)中的預(yù)測模型

在地球科學(xué)的案例中,儲量(storage)和計(jì)算能力(computing power)的提高使得數(shù)據(jù)不再受到可容性(volume)的限制,從而能更精準(zhǔn)地反映現(xiàn)有數(shù)據(jù)的真實(shí)性(veracity)。在過去,由于存儲和計(jì)算條件的限制,水平分辨率只能達(dá)到200km~500km,因此在區(qū)域維度的氣候模擬和氣候變化實(shí)驗(yàn)等方面容易產(chǎn)生較大的偏差[9]。2010年至2014年期間,美國喬治梅森大學(xué)、歐洲中期預(yù)報中心、英國牛津大學(xué)和日本海洋科學(xué)技術(shù)中心組成的國際合作研究團(tuán)隊(duì)使用了當(dāng)時在全球排名第30位的Athena超級計(jì)算機(jī)和排名第13位的黃石超級計(jì)算機(jī),花費(fèi)數(shù)以千萬計(jì)的小時數(shù),產(chǎn)生超過10億兆的數(shù)據(jù),來探究水平分辨率(horizontal resolution)對季節(jié)性氣候預(yù)測的重要性。研究表明,水平分辨率由125km調(diào)整為16km,能直接分辨更精細(xì)時空尺度的物理過程,對南歐因全球變暖而引起的降水量減少的兩次預(yù)測之間存在巨大的誤差。也就是說,依靠大數(shù)據(jù)計(jì)算來提高水平分辨率會顯著提升預(yù)測模型的準(zhǔn)確性。對于氣候模型而言,預(yù)測的準(zhǔn)確性至關(guān)重要。這不僅體現(xiàn)在氣候模型中需要來自不同地域的形態(tài)各異的數(shù)據(jù),很多時候是依靠大量的人工進(jìn)行測量,而且反映在氣候模型中需要匯總所有收集到的歷年的氣候數(shù)據(jù)。

地球科學(xué)中的氣候預(yù)測模型所取得的成績可以更好地幫助教育密集型研究去建立精準(zhǔn)的學(xué)習(xí)預(yù)測模型。在教育密集型研究中,需要考慮選取合適的時間跨度來收集或分析教育中的大數(shù)據(jù)。這里的時間跨度其實(shí)可以看成是時間維度上的分辨率,類似于地球科學(xué)中的水平分辨率。就如同氣候模型中,降水?dāng)?shù)據(jù)的區(qū)域分辨率將對全球大氣模型的測定產(chǎn)生重大的影響,針對微觀學(xué)習(xí)行為數(shù)據(jù)的分析在時間維度上所選取的分辨率,決定了宏觀學(xué)習(xí)行為測定的準(zhǔn)確性。提高時間維度上的分辨率,特別是對于非正式學(xué)習(xí)(如游戲、社交媒體)而言,數(shù)據(jù)的可容性問題不可避免地需要得到解決。在數(shù)據(jù)可容性問題的基礎(chǔ)上,何種分辨率能實(shí)現(xiàn)教育數(shù)據(jù)的匿名化是教育密集型研究面臨的特有挑戰(zhàn)。

正如氣候預(yù)測模型是為了更好地回答未來我們的氣候會發(fā)生怎樣的變化,教育中的學(xué)習(xí)預(yù)測模型是為了更好地監(jiān)測學(xué)生的學(xué)業(yè)情況。基于行為模式的高等教育預(yù)測模型(Predictive Models Based on Behavioral Patterns in Higher Education)綜合考慮了77個與學(xué)生相關(guān)的變量來預(yù)測學(xué)生的學(xué)業(yè)。其中一些用來預(yù)測學(xué)生學(xué)業(yè)的數(shù)據(jù)來自學(xué)生家庭中的生活數(shù)據(jù)、課外活動數(shù)據(jù),以及在社交媒體上能收集到的數(shù)據(jù)。有些學(xué)生數(shù)據(jù)可能需要與稅收、人口普查和其他一些現(xiàn)階段難以獲得的數(shù)據(jù)集進(jìn)行對比。不同數(shù)據(jù)集之間的互通性問題不僅是氣候預(yù)測模型普遍存在的問題,對于教育預(yù)測模型而言,數(shù)據(jù)比較分析也是一項(xiàng)具有挑戰(zhàn)性的工作。不同學(xué)科所用到的預(yù)測模型已經(jīng)提出了一些較為有效的方法來處理數(shù)據(jù)庫中變量不兼容的問題,值得教育密集型研究學(xué)習(xí)與借鑒。

(二)生物科學(xué)中的開放數(shù)據(jù)架構(gòu)

在生物科學(xué)的案例中,美國國家植物基因組計(jì)劃通 過 Gramene、Ensembl Plants、Plant Ontology 以 及iPlant等數(shù)據(jù)庫和工具來全方位地認(rèn)識植物系統(tǒng)。生物科學(xué)中的大數(shù)據(jù)研究已在4V特征維度上引領(lǐng)了大數(shù)據(jù)科學(xué)的全方面發(fā)展,其中數(shù)據(jù)種類繁多(variety)是生物科學(xué)大數(shù)據(jù)研究中亟待解決的難題之一。特別是美國國家植物基因組計(jì)劃提出一個五年的規(guī)劃來解釋植物數(shù)據(jù)的所有類型,通過構(gòu)建一定的標(biāo)準(zhǔn)使得不同的植物數(shù)據(jù)之間具有可比性。該計(jì)劃有16個合作方,提供開放的資源庫。美國自然科學(xué)基金委通過iPlant Collaborative項(xiàng)目建立生物信息學(xué)數(shù)據(jù)庫,提供高性能計(jì)算平臺,提升圖像存儲和分析能力,可存儲多達(dá)427萬億條數(shù)據(jù)。iPlant數(shù)據(jù)庫注冊數(shù)每月以500次遞增。通過國家植物基因組計(jì)劃產(chǎn)生的數(shù)據(jù)均來自不同的渠道,如工業(yè)界、學(xué)術(shù)界、政府以及非政府組織。這些數(shù)據(jù)不但類型多樣,而且以遞增的速度被生成。

考慮到教育大數(shù)據(jù)種類繁多,教育密集型研究可借鑒生物科學(xué)案例的范式,首先排除概念上或定義上的分歧,然后建立可分享的數(shù)據(jù)架構(gòu),匯集全方位的數(shù)據(jù)集,并開展大規(guī)模的合作研究。可以構(gòu)建類似于iPlant這樣的教育資源庫來進(jìn)行數(shù)據(jù)的對比分析。與生物科學(xué)案例類似,教育研究需要在問題驅(qū)動(questiondriven)和數(shù)據(jù)驅(qū)動(data-driven)兩類范式中進(jìn)行一定的平衡。通過大數(shù)據(jù)分析發(fā)現(xiàn)一些規(guī)律,從而構(gòu)建新的理論;在理論構(gòu)建的過程中,提出研究問題,收集數(shù)據(jù)并進(jìn)行分析;在研究發(fā)現(xiàn)中,又提出新的問題。這樣便形成從數(shù)據(jù)驅(qū)動到問題驅(qū)動、再由問題驅(qū)動到數(shù)據(jù)驅(qū)動的良性發(fā)展。比如,關(guān)于在線學(xué)習(xí)的研究可以首先收集一定數(shù)量的學(xué)生在線學(xué)習(xí)點(diǎn)擊流(click stream)數(shù)據(jù),通過初步分析去發(fā)現(xiàn)一些有價值的學(xué)習(xí)發(fā)展趨勢,從而提出研究問題,進(jìn)而收集所需的數(shù)據(jù)并進(jìn)行分析。這類研究問題是在大容量(volume)數(shù)據(jù)分析的基礎(chǔ)上提出的,往往需要收集多樣性(variety)的數(shù)據(jù)來回答這類研究問題。相比于數(shù)據(jù)的大容量需求,數(shù)據(jù)的多樣性成為這類數(shù)據(jù)密集型研究最大的挑戰(zhàn)。

(三)公共衛(wèi)生科學(xué)中的健康檔案

公共衛(wèi)生科學(xué)的案例中,大數(shù)據(jù)分析面臨的挑戰(zhàn)主要表現(xiàn)為如何解決數(shù)據(jù)變化速度快(velocity)和多樣性(variety)的問題。流行病監(jiān)控案例是一個典型的數(shù)據(jù)密集型研究案例,需要實(shí)時處理不斷生成與變化的大數(shù)據(jù)。比如,Arizona大數(shù)據(jù)所開發(fā)的BioPortal項(xiàng)目已經(jīng)被用于跟蹤SARS等疾病的傳播。該項(xiàng)目進(jìn)行熱點(diǎn)分析,實(shí)時監(jiān)控新產(chǎn)生的病例,并通過進(jìn)化樹來分析引發(fā)疾病的微生物是如何發(fā)生變化的。在大數(shù)據(jù)時代,公共衛(wèi)生科學(xué)面臨的一個重要任務(wù)是全面變革后二戰(zhàn)時期建立的“救死扶傷”的醫(yī)療系統(tǒng),使得大數(shù)據(jù)分析能夠幫助我們積極地預(yù)防疾病在人類社會大規(guī)模的爆發(fā)。為了能及時預(yù)防疾病的爆發(fā),我們需要多樣化的數(shù)據(jù),比如來自傳感器的個人的身體狀態(tài)、個人詳細(xì)的家族健康史,以及過去和現(xiàn)在從社交媒體上獲得的精神方面的數(shù)據(jù)。傳感器可以測量一個人的身高、血壓、肺功能、腦電圖、血氧飽和度、心電圖、姿勢、步態(tài)等。即便是傳感器能夠獲得這么多種類的健康數(shù)據(jù),也不足以說明數(shù)據(jù)的多樣性。在公共衛(wèi)生科學(xué)研究領(lǐng)域,數(shù)據(jù)的多樣性還表現(xiàn)在需要綜合考慮個人每天可能參加的健身訓(xùn)練、慢性病調(diào)理和心情等方面的數(shù)據(jù)。

可以看出,公共衛(wèi)生科學(xué)與教育密集型研究都面臨數(shù)據(jù)隱私以及全面認(rèn)識復(fù)雜的人體系統(tǒng)這兩大難題。就隱私問題而言,對病人的健康數(shù)據(jù)進(jìn)行挖掘與分析,同對學(xué)生的成績、在線行為數(shù)據(jù)以及檔案中的跟蹤數(shù)據(jù)進(jìn)行分析類似。就解決人體系統(tǒng)的復(fù)雜性問題而言,了解一個人全面的健康情況需要綜合考慮來自不同渠道的數(shù)據(jù),比如病史、飲食習(xí)慣、鍛煉情況和精神狀態(tài),以及上面提到的諸多因素。

(四)計(jì)算機(jī)科學(xué)中的可視化環(huán)境

在計(jì)算機(jī)科學(xué)的案例中,復(fù)雜的高分辨率可視化技術(shù),比如紐約州立大學(xué)石溪分校的現(xiàn)實(shí)甲板(reality deck),能有效地應(yīng)對獲取大數(shù)據(jù)的高速(velocity)的要求。當(dāng)然,由于造價昂貴,這種大型可視化技術(shù)與設(shè)備的使用很難在教育領(lǐng)域普及開來。同時,在大型可視化技術(shù)的研發(fā)過程中,是優(yōu)先提升可視化技術(shù)的物理性能,還是先針對需求提供可視化信息來回答研究或?qū)嵺`中亟待解決的教育問題,也是需要權(quán)衡的。

大型可視化技術(shù)和設(shè)備可用于依賴場景(如消防員培訓(xùn))基于行為主義的教育培訓(xùn)中來。在這一類培訓(xùn)中,物理環(huán)境對所選取的教學(xué)策略起到?jīng)Q定性的作用,學(xué)生的學(xué)習(xí)行為也直接或間接依賴于所鋪設(shè)的學(xué)習(xí)情境。同時,大型可視化技術(shù)和設(shè)備也可在智能學(xué)習(xí)環(huán)境中提供實(shí)時分析與監(jiān)測。比如,這樣的技術(shù)常用于智能教學(xué)系統(tǒng)(intelligent tutoring systems)、個人指導(dǎo)系統(tǒng)、基于社交媒體的非正式學(xué)習(xí)分析,以及教學(xué)改進(jìn)中的學(xué)習(xí)評價和評估。

(五)天文科學(xué)中的人本計(jì)算

在天文科學(xué)的案例中,建在智利的大型綜合巡天望遠(yuǎn)鏡是一個集大數(shù)據(jù)數(shù)量、變化速度和類別三方面考量于一身的重要案例。這臺望遠(yuǎn)鏡于2014年8月開始建造,預(yù)計(jì)在7年后能全面展開長達(dá)10年的觀測與采集工作。它每三天會捕捉一次夜空的照片,每20秒鐘會產(chǎn)生10平方的6GB的圖像,最終構(gòu)建出一個100~200PB的圖像資料庫,并且配套20~40PB的數(shù)據(jù)庫檢索目錄。整個圖像數(shù)據(jù)庫將公開使用。通過望遠(yuǎn)鏡來完成數(shù)據(jù)收集的工作是幾年以后的事情。在構(gòu)建望遠(yuǎn)鏡的同時,圍繞數(shù)據(jù)分析的科學(xué)研究已經(jīng)啟動。實(shí)現(xiàn)實(shí)時事件挖掘(real-time event mining)至關(guān)重要,可用來監(jiān)測近地天體的飛行速度和軌道,而且能夠完全捕捉到隨時間變化的動態(tài)天文現(xiàn)象(比如超新星爆發(fā)事件)。十年間,每天有上千萬的天文現(xiàn)象產(chǎn)生,如何快速地識別什么樣的天文現(xiàn)象值得觀測是事件挖掘技術(shù)需要解決的重要問題。高維的多媒體PB數(shù)據(jù)庫同時也面臨大數(shù)據(jù)類別多樣性的挑戰(zhàn),僅數(shù)據(jù)表自身就由不少于30兆行(觀測的數(shù)量級)、多達(dá)200列(表征數(shù)據(jù)屬性)的數(shù)據(jù)組成。

在天文學(xué)領(lǐng)域,在追求更高技術(shù)含量的天文觀測儀器的建造與分析工作之外,在數(shù)據(jù)分析的初級階段采取公眾參與的方式。借助人工分析的優(yōu)勢,加快了數(shù)據(jù)分析的進(jìn)程。星系動物園項(xiàng)目就是一個邀請公眾(約15萬人次)參與的在線天文學(xué)項(xiàng)目。參與該項(xiàng)目的公眾在一年半的時間里,對超過100萬個星系進(jìn)行了分類。人為分類的介入看似對數(shù)據(jù)的真實(shí)性提出了質(zhì)疑,因?yàn)閰⑴c者并非天文學(xué)家,他們的參與是否會導(dǎo)致數(shù)據(jù)質(zhì)量良莠不齊?在這個項(xiàng)目中,對每個星系的分類都有不少于35次的嘗試,同時采用多種數(shù)據(jù)分析技術(shù)來監(jiān)測分類的質(zhì)量,使得數(shù)據(jù)質(zhì)量良莠不齊的問題得以解決。大規(guī)模的公眾參與倒是引發(fā)了數(shù)據(jù)分析在數(shù)量級上的挑戰(zhàn)。數(shù)據(jù)數(shù)量級的問題并不是要解決數(shù)據(jù)的存儲問題,而是以何種方式使大規(guī)模的公眾能夠參與數(shù)據(jù)的前期分類工作。星系動物園項(xiàng)目開發(fā)了Zooniverse平臺用于完成多人協(xié)作數(shù)據(jù)分析,有超過1300萬名志愿者基于這個平臺開展了40余個項(xiàng)目。這是一個將人本計(jì)算(human computation)用于大數(shù)據(jù)分析的典型案例。人本計(jì)算指的是結(jié)合人類認(rèn)知的優(yōu)勢,完成計(jì)算機(jī)難以達(dá)成或不可能完成的工作。針對計(jì)算機(jī)(包括復(fù)雜圖像分類、模式識別等)需要在一定的數(shù)量級和多類別上進(jìn)行大數(shù)據(jù)運(yùn)算才能部分實(shí)現(xiàn)或者現(xiàn)階段根本不可能完成的工作,利用網(wǎng)絡(luò)的分眾性和協(xié)同性,達(dá)到人機(jī)互動的群體智能效果。

星系動物園的案例與生物科學(xué)依賴本科生收集數(shù)據(jù)類似,將人本計(jì)算用于數(shù)據(jù)密集型研究。同樣,在教育研究中,參與者自主進(jìn)行數(shù)據(jù)的初步人工處理將對這項(xiàng)研究大有裨益。天文科學(xué)的案例對于教育研究的啟示是,可以通過一定的方式來使用教育數(shù)據(jù)庫,使得一線教育工作者可以直接從數(shù)據(jù)中獲得論據(jù)來幫助制定教育決策。在天文科學(xué)中,人類的認(rèn)知系統(tǒng)能夠很自然地完成簡單的數(shù)據(jù)提取與分類工作(如星系動物園項(xiàng)目匯總的形狀、顏色、大小、材質(zhì)等)。同理,在教育研究中,前期的人工分類可以導(dǎo)入后期的數(shù)據(jù)分析和理論構(gòu)建中。假如一線教育工作者和學(xué)生能夠?qū)膛c學(xué)的數(shù)據(jù)進(jìn)行簡單的人工分類,這可以在很大程度上促進(jìn)教育大數(shù)據(jù)分析的發(fā)展。星系動物園項(xiàng)目的開展證實(shí)了人本計(jì)算可以加快大數(shù)據(jù)分析的進(jìn)程。除此之外,大規(guī)模的公眾參與也在一定程度上表明,在教育研究中,公眾是可以參與到嚴(yán)謹(jǐn)?shù)目茖W(xué)研究中來的,只要研究中合理設(shè)計(jì)公眾參與部分,吸引對教育研究有興趣的非專業(yè)人士加入數(shù)據(jù)密集型研究是可行的,公眾科學(xué)(citizen science)在教育大數(shù)據(jù)領(lǐng)域的應(yīng)用也未嘗不可。

三、教育密集型研究的發(fā)展策略

(一)加大跨學(xué)科合作力度,合力推進(jìn)教育密集型研究

從以上五個案例可以看出,在科學(xué)探索的第四種范式下,亟待加大跨學(xué)科合作力度。數(shù)據(jù)密集型研究,即便是為了實(shí)現(xiàn)一個很具體的小研究目標(biāo),也往往需要跨學(xué)科合作,某個領(lǐng)域的專家也需要更多地關(guān)注其他領(lǐng)域的前沿成果和研究方法。這樣的跨學(xué)科協(xié)作既能節(jié)約研究的時間和研究者的精力,又能對不同領(lǐng)域的發(fā)展起到促進(jìn)作用。在數(shù)據(jù)密集型研究中,通過本體論建立統(tǒng)一的話語體系來實(shí)現(xiàn)跨學(xué)科對話。除此之外,建立數(shù)據(jù)標(biāo)準(zhǔn)的互操作性和數(shù)據(jù)存儲與分析的架構(gòu)對于合作研究至關(guān)重要。同時,企業(yè)或公司與研究者合作并共享數(shù)據(jù)會在很大程度上推動數(shù)據(jù)密集型研究的發(fā)展。雖然這些工作需要長時間的持續(xù)投入才能見到成果,但長遠(yuǎn)的收益仍是巨大的,而教育研究可以從這些已有大量投入的數(shù)據(jù)和計(jì)算機(jī)革命中受益匪淺。

(二)構(gòu)建循證決策系統(tǒng),深化教育改革

教育數(shù)據(jù)種類繁多,匯集各種類型的數(shù)據(jù),形成了教育的復(fù)雜系統(tǒng)。從系統(tǒng)論的視角出發(fā),有效的循證決策是保障教育改革得以推進(jìn)的關(guān)鍵?;趯W(xué)習(xí)分析的教學(xué)改革,既可以基于一個課堂的教與學(xué)數(shù)據(jù)來構(gòu)建小規(guī)模的實(shí)時反饋系統(tǒng),以此改進(jìn)一位教師的教學(xué)方法,又可以基于大規(guī)模的、覆蓋不同學(xué)校和不同學(xué)科的教學(xué)數(shù)據(jù)來建立模型,以此提升一個區(qū)域的教學(xué)水平?;诖髷?shù)據(jù)的教學(xué)改革依賴于完整的循證決策系統(tǒng),全方面考慮數(shù)據(jù)體量巨大、類型繁多和質(zhì)量良莠不齊的問題。這種類型的教育密集型研究可定位為基于系統(tǒng)論的教育宏觀決策研究。有必要建立一套共同的考量標(biāo)準(zhǔn),以便在不同學(xué)校、學(xué)科和區(qū)域的教育密集型研究中開展可比較與可借鑒的實(shí)證研究,從而提出具有實(shí)踐指導(dǎo)意義的政策建議。

(三)重新認(rèn)識學(xué)習(xí),建立新型的教育評估模型

提供全新的學(xué)習(xí)證據(jù),創(chuàng)新測量學(xué)習(xí)的方法,可以在很大程度上改變我們對學(xué)習(xí)的理解以及教育系統(tǒng)中的評估方式。比如Shute[10]在提交的簡報中提到,不中斷地收集學(xué)生在校內(nèi)和校外的學(xué)習(xí)交互數(shù)據(jù)。當(dāng)不同類型的數(shù)據(jù)匯集在一起時,所能挖掘出的學(xué)習(xí)規(guī)律可以作為具有高信度和效度的證據(jù),幫助我們理解學(xué)生是如何在不同的情境中學(xué)習(xí)的。這類教育密集型研究需要在以技術(shù)為支撐的學(xué)習(xí)環(huán)境中嵌入高質(zhì)量、不中斷、無干擾的測量,以此來評估學(xué)生不斷變化的學(xué)習(xí)能力水平,并且通過聚合大量的學(xué)生評估數(shù)據(jù)來指導(dǎo)不同層面的教學(xué)改革(從課堂到學(xué)校、從地區(qū)到全省乃至全國的教育改革)。

(四)重審生成、收集、存儲和結(jié)構(gòu)化數(shù)據(jù)的過程

教育密集型研究中,生成、收集、存儲和結(jié)構(gòu)化數(shù)據(jù)的方式亟待改變。無論是微觀層面的數(shù)據(jù)(如每一位學(xué)生在學(xué)習(xí)過程中每一秒的學(xué)習(xí)行為),還是中觀層面的數(shù)據(jù)(如教學(xué)過程中老師的教學(xué)方式),還是宏觀層面上聚合學(xué)生學(xué)習(xí)行為形成循證決策,都應(yīng)通盤考慮構(gòu)建一個開放的數(shù)據(jù)共享與分析平臺。Ho[11]在提交的簡報中強(qiáng)調(diào),我們應(yīng)重視數(shù)據(jù)的“生成”,學(xué)習(xí)分析應(yīng)融合在數(shù)據(jù)生成的過程中。從數(shù)據(jù)生成的視角來看,大數(shù)據(jù)的興起其實(shí)是因?yàn)槌霈F(xiàn)了新的學(xué)習(xí)情境,其中產(chǎn)生了新的數(shù)據(jù),需要我們能夠?qū)@樣一類具有4V特性的數(shù)據(jù)進(jìn)行解讀,從而發(fā)現(xiàn)新的學(xué)習(xí)規(guī)律,而不是因?yàn)樾碌募夹g(shù)與方法使得我們從現(xiàn)有環(huán)境中獲取數(shù)據(jù)的可能性增強(qiáng)。

(五)探索分析方法,創(chuàng)新數(shù)據(jù)分析模型

教育數(shù)據(jù)擁有形式與種類多樣的特征,急需開發(fā)新的數(shù)據(jù)分析模型,來發(fā)現(xiàn)數(shù)據(jù)所蘊(yùn)含的教育價值與意義。這其實(shí)已成為國際各類教育會議討論的熱點(diǎn)問題。例如,對于數(shù)據(jù)結(jié)構(gòu)不明確的開放或虛擬的教學(xué)環(huán)境中產(chǎn)生的各類數(shù)據(jù),如何找到準(zhǔn)確的測量模型(包括貝葉斯網(wǎng)絡(luò)、人工神經(jīng)網(wǎng)絡(luò)、模型跟蹤系統(tǒng))來模擬或表征學(xué)習(xí)。正如Mitros[12]在他提交的簡報中所說,教育數(shù)據(jù)多樣化問題面臨的挑戰(zhàn)是如何整合不同類型的行為與心理數(shù)據(jù),包括同伴互評、能力測評、過程性評價以及論壇中的學(xué)習(xí)交互等。在過去的一個世紀(jì),教育的科學(xué)與基礎(chǔ)研究因?yàn)榻逃龜?shù)據(jù)的多樣化問題而停滯不前。在大數(shù)據(jù)時代的今天,教育數(shù)據(jù)的多樣化反而成為推動教育基礎(chǔ)研究走向科學(xué)研究的重要推手。這也預(yù)示著我們的研究方法將從傳統(tǒng)的統(tǒng)計(jì)分析轉(zhuǎn)型到有別于傳統(tǒng)心理測量學(xué)的一系列新方法,如機(jī)器學(xué)習(xí)。為推進(jìn)教育密集型研究的發(fā)展,我們需要研發(fā)與傳統(tǒng)計(jì)量心理學(xué)中使用的完全不同的分析方法。分析方法上的突破,已明確成為數(shù)據(jù)科學(xué)在教育領(lǐng)域得到發(fā)展的重要先決條件。

(六)培養(yǎng)數(shù)據(jù)人才,學(xué)習(xí)使用數(shù)據(jù)分析工具

我們需要讓更多數(shù)據(jù)領(lǐng)域的專家意識到數(shù)據(jù)科學(xué)在教育界擁有的巨大潛力。與此同時,在教育密集型研究中,很難繞開數(shù)據(jù)談?wù)摻逃龁栴}?,F(xiàn)階段國內(nèi)外鮮有成立與數(shù)據(jù)科學(xué)交叉的二級教育學(xué)科;現(xiàn)有二級學(xué)科的培養(yǎng)方案中,對學(xué)生的數(shù)據(jù)處理能力除了一門研究生統(tǒng)計(jì)課之外,幾乎沒有更高的要求。在教育學(xué)的人才培養(yǎng)方案中增加數(shù)據(jù)科學(xué)的相關(guān)訓(xùn)練,或者為數(shù)據(jù)科學(xué)家們提供在教育研究領(lǐng)域的發(fā)展空間,都將大大推進(jìn)教育密集型研究的發(fā)展。同時,鑒于教育學(xué)仍然是社會科學(xué)的分支,每一階段的數(shù)據(jù)分析課程都應(yīng)涉及相關(guān)的倫理道德規(guī)范,以減少教育密集型研究中可能出現(xiàn)的非故意傷害等。其實(shí),這是從另一個側(cè)面掃清教育密集型研究發(fā)展的阻礙,從而更好地推動教育的科學(xué)與基礎(chǔ)研究。

(七)關(guān)注數(shù)據(jù)的隱私、安全與倫理問題

在教育研究的每個環(huán)節(jié),我們都應(yīng)注意數(shù)據(jù)在隱私、安全和道德層面上的倫理問題。數(shù)據(jù)科學(xué)作為一個相對較新的領(lǐng)域,它的價值和倫理立場仍處于發(fā)展的嬰兒期。需要開始關(guān)注大數(shù)據(jù)和算法中潛在的、或隱或現(xiàn)的偏見,以及隨之可能帶來的對參與者的傷害。要將倫理問題作為首要問題來抓,而不僅僅定位為研究中不重要的事后顧慮。對數(shù)據(jù)隱私問題的恐懼常常導(dǎo)致教育的數(shù)據(jù)密集型研究被禁錮在“寧可錯殺一千也不放過一個”的教條中,導(dǎo)致對這類研究數(shù)據(jù)的收集滯后、猶豫不決和過度保守,這對推進(jìn)教育密集型研究是有害無利的。實(shí)際上,大多數(shù)隱私風(fēng)險問題可以通過恰當(dāng)?shù)募夹g(shù)和合適的信息政策進(jìn)行規(guī)避。具體說來,隱私可以通過加密的服務(wù)器、匿名數(shù)據(jù)、控制對數(shù)據(jù)的訪問和加強(qiáng)執(zhí)行隱私政策等方式得到充分保護(hù),以防止未經(jīng)授權(quán)的、過量的數(shù)據(jù)訪問。Hammer[13]在他提交的簡報中指出,研究者使用的任何一項(xiàng)新科技都可能在某些方面帶來一定的風(fēng)險,而大多數(shù)風(fēng)險其實(shí)是可以在現(xiàn)有的科技和政策下被控制和預(yù)防的。例如,美國國家標(biāo)準(zhǔn)與技術(shù)研究所曾為聯(lián)邦機(jī)構(gòu)擬定相關(guān)條例。該條例規(guī)定,在某人擁有機(jī)密數(shù)據(jù)獲取權(quán)的同時,若違反相應(yīng)保密條例,他亦將為此付出代價。這即是在面對風(fēng)險時,用政策保護(hù)數(shù)據(jù)的一種方法。在教育的密集型研究中也存在數(shù)據(jù)量最小化的問題。數(shù)據(jù)量最小化將有利于降低去匿名問題帶來的個人信息的曝光風(fēng)險。在數(shù)據(jù)量最小化的過程中,應(yīng)注意去除研究中不必要的個人信息,但同時保留一些必要的個人信息為個性化學(xué)習(xí)研究所用?;诖?,在社會科學(xué)研究中建立一種以風(fēng)險為基礎(chǔ)的隱私和信息安全標(biāo)準(zhǔn)方法尤為必要,這樣才能創(chuàng)造出充分解讀各類教育數(shù)據(jù)、抓住研究機(jī)遇、分享規(guī)律與知識的教育研究學(xué)術(shù)共同體。

四、總結(jié)

本文提煉《數(shù)據(jù)密集型教育研究:現(xiàn)狀與展望》研究報告中不同科學(xué)領(lǐng)域的密集型研究對教育密集型研究的啟示,進(jìn)行結(jié)構(gòu)性的呈現(xiàn)和解讀。在多學(xué)科視域下,討論教育密集型研究面臨的機(jī)遇與挑戰(zhàn),并提出一系列可供參考的發(fā)展策略。在認(rèn)識新的機(jī)遇與挑戰(zhàn)的今天,我們需要明確教育密集型研究的發(fā)展應(yīng)該建立在教育學(xué)與數(shù)據(jù)科學(xué)深度融合的基礎(chǔ)上,而不能簡單地認(rèn)為教育密集型研究是數(shù)據(jù)科學(xué)在教育學(xué)中的簡單應(yīng)用,即把數(shù)據(jù)科學(xué)作為解決教育問題的答案。這樣的認(rèn)識仍然沒有跳出傳統(tǒng)教育學(xué)范式的框架,是一種“拿來主義”思想在作怪。教育密集型研究可被視為達(dá)到目的的一種手段,而不是目的本身(ameans,not an end in itself),即在改進(jìn)循證決策、解決教與學(xué)中長久以來根深蒂固的問題的進(jìn)程中所開展的基于數(shù)據(jù)驅(qū)動的教育學(xué)的基礎(chǔ)與科學(xué)研究。對教育密集型研究感興趣的學(xué)者、政策制定者和實(shí)踐者可通過詳細(xì)閱讀英文版報告來更加充分地學(xué)習(xí)。這份報告囊括了國際上相關(guān)領(lǐng)域最前沿的研究成果,對數(shù)據(jù)密集型研究方法在教育研究領(lǐng)域的啟示具有高度的前瞻性,對全球技術(shù)促進(jìn)教育變革的研究取向發(fā)揮積極的促進(jìn)作用。更重要的是,希望通過這份報告以及此篇綜述來激勵大家就如何更好地推進(jìn)教育密集型研究展開討論。幾年后,如果文中提到的觀點(diǎn)被推陳出新的策略與方法所取代,這將是所有參加工作小組討論的研究者以及作者認(rèn)為對該領(lǐng)域最大的貢獻(xiàn)。

[1]謝文.大數(shù)據(jù)概念混亂未來或?qū)⒕砣牖鞈?zhàn)[EB/OL].(2012-10-24)[2017-03-09].http://tech.qq.com/a/20121024/000193.htm.

[2]O'NEIL C,SCHUTT R.Doing Data Science:Straight Talk from the Frontline[M].California:O'Reilly Media,Inc,2013.

[3]MCKINSEY.Bigdata:The next frontier for innovation,competition,and productivity [EB/OL].[2017-02-20].http://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-data-thenext-frontier-for-innovation.

[5]GRAY J.eScience:A Transformed Scientific Method[EB/OL].(2016-04-04).http//research.microsoft.com/en-us/collaboration/fourthparadigm/4th_paradigm_book_jim_gray_transcript.pdf.

[6]HEY T,TANSLEY S,TOLLE K.The Fourth Paradigm:Data-Intensive Scientific Discovery[M].Washington:Microsoft Research Lab Redmond,2009.

[7]GRAY J,SZALAY A.eScience-A Transformed Scientific Method[EB/OL].(2016-09-10).http://research.microsoft.com/en-us/um/people/gray/talks/NRC-CSTB_eScience.ppt.

[8]BELL G,HEY T,SZALAY A.Computer science.Beyond the data deluge[J].Science,2009,323,1297-1298.

[9]高學(xué)杰,徐影,趙宗慈,等.數(shù)值模式不同分辨率和地形對東亞降水模擬影響的試驗(yàn)[J].大氣科學(xué),2006,30(2):185-192.

[10]SHUTEV.A Vision of the Futureof Assessment[C]//DEDEC.Dataintensive Research in Education:Current Work and Next Steps.Arlington,VA:Computing Research Association,2015.

[11]HOA.Before"data collection"comes"data creation"[C]//DEDE C.Data-intensive Research in Education:Current Work and Next Steps.Arlington,VA:Computing Research Association,2015.

[12]MITROS P.The potential value of MOOCs for assessing complex skills,briefing paper[C]//DEDE C.Data-intensive Research in Education:Current Work and Next Steps.Arlington,VA:Computing Research Association,2015.

[13]HAMMER P.Implications of and approaches to privacy in educational research,briefing paper[C]//DEDE C.Data-intensive Research in Education:Current Work and Next Steps.Arlington,VA:Computing Research Association,2015.

The Opportunities and Challenges of Data-Intensive Research in Education:A Multidisciplinary Perspective

ZHANG Jing-jing1,F(xiàn)ENGChen2
(1.Faculty of Education,Beijing Normal University,Beijing 100875,China;2.Faculty of Education,University of Hong Kong,China)

2017-07-11

國家自然科學(xué)基金項(xiàng)目“教育科學(xué)基礎(chǔ)研究資助戰(zhàn)略研究”(L1624020)

張婧婧,1983年生,女,四川廣元人,北京師范大學(xué)教育學(xué)部副教授,教育學(xué)博士,主要研究領(lǐng)域?yàn)榻逃夹g(shù)、在線教育;封晨,女,北京人,香港大學(xué)教育學(xué)院碩士在讀。

猜你喜歡
密集型科學(xué)研究
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
壓痛點(diǎn)密集型銀質(zhì)針溫針灸治療肱骨外上髁炎的臨床觀察
視錯覺在平面設(shè)計(jì)中的應(yīng)用與研究
點(diǎn)擊科學(xué)
密集型快速冷卻技術(shù)在熱軋帶鋼生產(chǎn)線的應(yīng)用
科學(xué)大爆炸
EMA伺服控制系統(tǒng)研究
密集型自動化立體倉庫解析
知識密集型組織的商業(yè)模式創(chuàng)新策略——以網(wǎng)絡(luò)教育組織為例