国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop生態(tài)圈的區(qū)域基礎(chǔ)教育大數(shù)據(jù)應(yīng)用體系架構(gòu)研究及實(shí)現(xiàn)

2021-09-05 01:20汪翀
中國教育信息化·高教職教 2021年8期
關(guān)鍵詞:體系架構(gòu)實(shí)現(xiàn)途徑數(shù)據(jù)倉庫

汪翀

摘? ?要:教育數(shù)據(jù)的海量爆發(fā)和流通、大數(shù)據(jù)技術(shù)的逐步完善,促使教育數(shù)據(jù)的應(yīng)用從零星走向整體、從人工邁向智能。對(duì)教育數(shù)據(jù)進(jìn)行有效梳理、科學(xué)規(guī)劃,應(yīng)用當(dāng)今較流行的Hadoop生態(tài)圈組件和智慧城市數(shù)據(jù)共享平臺(tái)體系,建構(gòu)易實(shí)現(xiàn)、低成本的基礎(chǔ)教育數(shù)據(jù)應(yīng)用體系,分而治之,可以有效降低基礎(chǔ)教育大數(shù)據(jù)的應(yīng)用復(fù)雜度。采用單一系統(tǒng)數(shù)據(jù)來源和多系統(tǒng)數(shù)據(jù)來源相結(jié)合的、靈活的建模方式,面向主題、應(yīng)用驅(qū)動(dòng),研究基礎(chǔ)教育數(shù)據(jù)的挖掘、整理、建模、分析、應(yīng)用的全流程及規(guī)律,探索數(shù)據(jù)應(yīng)用的實(shí)現(xiàn)方法,可以用最低的成本最大可能地發(fā)揮基礎(chǔ)教育數(shù)據(jù)的綜合效益。

關(guān)鍵詞:基礎(chǔ)教育;數(shù)據(jù)應(yīng)用;系統(tǒng)分類;主題建模;數(shù)據(jù)倉庫;體系架構(gòu);實(shí)現(xiàn)途徑

中圖分類號(hào):G40-05 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2021)15-0054-07

一、引言

伴隨IT技術(shù)的迅猛發(fā)展,海量數(shù)據(jù)爆發(fā)并產(chǎn)生流通,引起世界各國對(duì)大數(shù)據(jù)的空前關(guān)注和重視,紛紛在各領(lǐng)域推進(jìn)大數(shù)據(jù)的挖掘、分析與應(yīng)用,大數(shù)據(jù)的效益日益呈現(xiàn)。全球知名咨詢公司麥肯錫認(rèn)為:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)、業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來?!?/p>

我國基礎(chǔ)教育信息化“十三五”期間得到了長足發(fā)展,教育部教育信息化2.0工程的實(shí)施,更大幅地提升了基礎(chǔ)教育行業(yè)信息化系統(tǒng)的建設(shè)與應(yīng)用。打破系統(tǒng)間的壁壘,充分挖掘、分析、應(yīng)用教育數(shù)據(jù),提升教育的精準(zhǔn)性、智能化,成為今后一段時(shí)期教育信息化的重要任務(wù)。

什么是大數(shù)據(jù)?百度搜索的定義:或稱巨量數(shù)據(jù),指的是需要新處理模式才能產(chǎn)生更強(qiáng)大決策力、洞察力和流程優(yōu)化能力的,海量、高增長率和多樣化的信息資產(chǎn)。[1]維基百科的定義:是指無法在一定的時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行采集、存儲(chǔ)、處理和應(yīng)用的數(shù)據(jù)集合。[1]教育大數(shù)據(jù)目前還沒有一個(gè)公認(rèn)的權(quán)威的定義。楊現(xiàn)民教授等[2]認(rèn)為:教育大數(shù)據(jù)是指整個(gè)教育活動(dòng)過程中產(chǎn)生的、根據(jù)教育需要采集到的,一切用于教育發(fā)展并可創(chuàng)造巨大潛在價(jià)值的數(shù)據(jù)集合。方海光認(rèn)為:教育大數(shù)據(jù)有兩種定義,第一種特指教育領(lǐng)域應(yīng)用大數(shù)據(jù)的技術(shù)和方法,它強(qiáng)調(diào)了大數(shù)據(jù)及大數(shù)據(jù)技術(shù)在教育行業(yè)的應(yīng)用,是一種技術(shù)引導(dǎo)教育變革的基本想法。第二種特指教育領(lǐng)域的大數(shù)據(jù),即教育和學(xué)習(xí)過程中所伴隨的各類數(shù)據(jù)的總稱,它強(qiáng)調(diào)了教育行業(yè)本身特有的大數(shù)據(jù)帶來的新方法,是一種通過教育應(yīng)用技術(shù)解決問題的基本想法。美國Knewton教育公司將教育大數(shù)據(jù)解釋為兩類:一類是有關(guān)學(xué)生基本信息的數(shù)據(jù),另一類是基于學(xué)生學(xué)習(xí)活動(dòng)用以提升學(xué)習(xí)效果的數(shù)據(jù)。[3]本文概念應(yīng)用更偏向于楊現(xiàn)民教授等人的觀點(diǎn)。

二、基礎(chǔ)教育大數(shù)據(jù)特點(diǎn)分析

基礎(chǔ)教育因行業(yè)的特點(diǎn),信息化的應(yīng)用起步較早,但進(jìn)展并不樂觀,還未能形成顛覆性的革命,信息技術(shù)遠(yuǎn)未達(dá)到和教育管理、教育教學(xué)的深度融合。當(dāng)前行業(yè)內(nèi)建設(shè)的系統(tǒng),信息孤島現(xiàn)象相當(dāng)嚴(yán)重,數(shù)據(jù)應(yīng)用層面較低。國家“三通兩平臺(tái)”建設(shè)及教育資源公共服務(wù)體系建設(shè)對(duì)上述現(xiàn)象有一定的改觀,但還無法根本解決地方信息化應(yīng)用中數(shù)據(jù)的深度應(yīng)用問題。區(qū)域使用的教育管理信息系統(tǒng)和業(yè)務(wù)系統(tǒng)多達(dá)數(shù)百種,給基礎(chǔ)教育部門的數(shù)據(jù)應(yīng)用帶來了很多的痛點(diǎn)和難點(diǎn)。全面梳理基礎(chǔ)教育應(yīng)用的信息管理系統(tǒng)和教育教學(xué)業(yè)務(wù)系統(tǒng),分析教育系統(tǒng)生產(chǎn)的各種數(shù)據(jù)集及其特點(diǎn),有利于教育信息化工作者,更好地開展數(shù)據(jù)挖掘、分析、應(yīng)用,有效發(fā)揮數(shù)據(jù)的作用。

1.基礎(chǔ)教育數(shù)據(jù)集

基礎(chǔ)教育信息應(yīng)用系統(tǒng)主要有四類:①教育部、省廳、市局行政機(jī)關(guān)或直屬事業(yè)單位部署的系統(tǒng)。②IT企業(yè)提供的云服務(wù)系統(tǒng)。③學(xué)校自建系統(tǒng)。④其它相關(guān)機(jī)構(gòu)部署的系統(tǒng)(本文圖表中分別稱A1、B1、C1、D1類系統(tǒng))。教育系統(tǒng)的信息應(yīng)用系統(tǒng)種類繁多,除少數(shù)系統(tǒng)進(jìn)行了數(shù)據(jù)標(biāo)準(zhǔn)的統(tǒng)一,完成系統(tǒng)間的對(duì)接,多數(shù)應(yīng)用仍是孤立的或簡(jiǎn)單進(jìn)行了統(tǒng)一的用戶論證。

從數(shù)據(jù)應(yīng)用的時(shí)效性看,基礎(chǔ)教育數(shù)據(jù)可以分為:①靜態(tài)數(shù)據(jù),數(shù)據(jù)變化或更新周期較長。如教職工基本信息、學(xué)生學(xué)籍信息、教師發(fā)展信息、學(xué)生成長信息、學(xué)生學(xué)業(yè)成績信息、學(xué)生健康體質(zhì)信息、入學(xué)招生信息、教育事業(yè)發(fā)展信息、中高考信息等。這類數(shù)據(jù)基本上是以學(xué)期或?qū)W年度為周期產(chǎn)生更新,變化相對(duì)較慢,但規(guī)律性很強(qiáng)。②動(dòng)態(tài)數(shù)據(jù),數(shù)據(jù)變化或更新周期較短。如智慧課堂系統(tǒng)信息、學(xué)生“一卡通”系統(tǒng)信息(一般整合了門禁、圖書閱讀、班牌、水電管理等應(yīng)用)、學(xué)生社會(huì)活動(dòng)信息、學(xué)生作業(yè)和閱讀信息、學(xué)校(單位)物聯(lián)網(wǎng)管理系統(tǒng)、學(xué)校視頻監(jiān)控系統(tǒng)信息等。這類數(shù)據(jù)基本上是實(shí)時(shí)性的、動(dòng)態(tài)變化的。當(dāng)前基礎(chǔ)教育主要信息管理和業(yè)務(wù)應(yīng)用系統(tǒng)如表1所示。

2.基礎(chǔ)教育大數(shù)據(jù)特點(diǎn)分析

理論界普遍采用4V表示大數(shù)據(jù)的特征,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)?;A(chǔ)教育大數(shù)據(jù)因行業(yè)性質(zhì)及歷史發(fā)展因素,筆者認(rèn)為其具備大量、多樣、價(jià)值三個(gè)特征,“高速”這一特征并不明顯?;A(chǔ)教育領(lǐng)域的數(shù)據(jù)卻還存在這樣一些特點(diǎn):①數(shù)據(jù)來源復(fù)雜,數(shù)據(jù)質(zhì)量偏低;②數(shù)據(jù)應(yīng)用側(cè)重于過程數(shù)據(jù),對(duì)實(shí)時(shí)數(shù)據(jù)要求不迫切;③應(yīng)用模型開發(fā)嚴(yán)重滯后,缺少專業(yè)性。這些特點(diǎn)決定了數(shù)據(jù)應(yīng)用體系建構(gòu)時(shí),需要分而治之,采用數(shù)據(jù)局部應(yīng)用和整體應(yīng)用相結(jié)合(單一系統(tǒng)數(shù)據(jù)來源建模和多系統(tǒng)數(shù)據(jù)來源建模)的原則,以數(shù)據(jù)應(yīng)用的實(shí)效性為主要目標(biāo),分別規(guī)劃實(shí)施。

三、基礎(chǔ)教育數(shù)據(jù)應(yīng)用的分類及主題建模

1.主題建模的概念

數(shù)據(jù)應(yīng)用無論是簡(jiǎn)單的,還是復(fù)雜的,一定是面向主題的。主題是在信息系統(tǒng)或信息平臺(tái)較高層次上為完成某個(gè)或某類應(yīng)用而對(duì)數(shù)據(jù)進(jìn)行整理、歸類、分析的一個(gè)抽象概念。主題建模是為了達(dá)成主題而實(shí)施的數(shù)據(jù)組織形式,是在較高層次上對(duì)數(shù)據(jù)的一個(gè)完整而且一致的描述。完成這一階段工作,應(yīng)當(dāng)由用戶、系統(tǒng)開發(fā)人員和教育信息化技術(shù)人員三方共同協(xié)作。傳統(tǒng)情況下,在系統(tǒng)或平臺(tái)開發(fā)過程中,熟悉教育業(yè)務(wù)的教育信息化專業(yè)技術(shù)人員對(duì)主題建模的關(guān)鍵作用容易被忽視。

2.基礎(chǔ)教育數(shù)據(jù)應(yīng)用的分類

基礎(chǔ)教育的數(shù)據(jù)應(yīng)用較為復(fù)雜,特別是涉及教育教學(xué)質(zhì)量、師生發(fā)展評(píng)價(jià)、學(xué)校發(fā)展效益評(píng)價(jià)等,國際國內(nèi)并無統(tǒng)一標(biāo)準(zhǔn),指標(biāo)體系也有多種,從而造成教育系統(tǒng)的大數(shù)據(jù)核心業(yè)務(wù)應(yīng)用不會(huì)象其它行業(yè)那樣易于建模。對(duì)當(dāng)前基礎(chǔ)教育四類應(yīng)用系統(tǒng)進(jìn)行梳理分析,系統(tǒng)服務(wù)面向的對(duì)象主要涉及教育工作者、管理者、學(xué)生、家長、學(xué)校(機(jī)構(gòu))等。為了便于基礎(chǔ)教育數(shù)據(jù)應(yīng)用的快速實(shí)施,減少數(shù)據(jù)挖掘、分析和應(yīng)用的復(fù)雜度,可以將基礎(chǔ)教育數(shù)據(jù)應(yīng)用分為單一系統(tǒng)數(shù)據(jù)來源建模應(yīng)用和多系統(tǒng)數(shù)據(jù)來源建模應(yīng)用兩大類。單一系統(tǒng)數(shù)據(jù)建模應(yīng)用指的是某一教育信息系統(tǒng)的數(shù)據(jù)采集、挖掘、建模、分析和應(yīng)用不涉及其它信息系統(tǒng)的數(shù)據(jù),其數(shù)據(jù)應(yīng)用過程及實(shí)現(xiàn)相對(duì)簡(jiǎn)單,現(xiàn)階段有為數(shù)不少的信息管理系統(tǒng)或教學(xué)業(yè)務(wù)系統(tǒng)都或多或少地在系統(tǒng)中建設(shè)了數(shù)據(jù)分析、應(yīng)用模塊,但無理論體系支撐,僅是零星應(yīng)用。多系統(tǒng)數(shù)據(jù)來源建模應(yīng)用指的是數(shù)據(jù)采集、挖掘、建模、分析和應(yīng)用涉及多個(gè)信息管理系統(tǒng)、業(yè)務(wù)系統(tǒng)的數(shù)據(jù),其數(shù)據(jù)應(yīng)用過程及實(shí)現(xiàn)相對(duì)復(fù)雜,需要通過數(shù)據(jù)倉庫等平臺(tái)來實(shí)現(xiàn)。其難點(diǎn)在于數(shù)據(jù)應(yīng)用開發(fā)技術(shù)人員與教育業(yè)務(wù)管理者在工作上脫節(jié),應(yīng)用需求分析不到位、不徹底。

3.兩類數(shù)據(jù)應(yīng)用的主題建模及實(shí)現(xiàn)

對(duì)地級(jí)市區(qū)域來說,需要面向數(shù)據(jù)應(yīng)用對(duì)象認(rèn)真梳理各類系統(tǒng),整理出基礎(chǔ)教育的信息系統(tǒng)數(shù)據(jù)應(yīng)用主題,按照單一數(shù)據(jù)來源建模應(yīng)用和多系統(tǒng)數(shù)據(jù)來源建模應(yīng)用對(duì)其進(jìn)行劃分,能夠在單系統(tǒng)中完成數(shù)據(jù)挖掘、建模、分析應(yīng)用的,盡量在本系統(tǒng)中解決,這樣既可以節(jié)約系統(tǒng)開發(fā)成本,也易于數(shù)據(jù)應(yīng)用的實(shí)現(xiàn)和落地。對(duì)于管理類信息系統(tǒng),往往國家、省級(jí)教育行政部門都有建設(shè)和部署,但因系統(tǒng)建設(shè)的重點(diǎn)不同,上級(jí)部門部署的這類系統(tǒng),數(shù)據(jù)采集和數(shù)據(jù)分析的維度較少,很多與地方數(shù)據(jù)應(yīng)用主題不吻合,或不適合本地需求。地級(jí)市可以考慮在市級(jí)建設(shè)一系列以發(fā)展性數(shù)據(jù)應(yīng)用為主體的系統(tǒng),這既可解決個(gè)性數(shù)據(jù)應(yīng)用問題,也可為多系統(tǒng)數(shù)據(jù)來源建模應(yīng)用完成個(gè)性數(shù)據(jù)采集工作。

以基礎(chǔ)教育“教師(教職工)管理信息系統(tǒng)”為例,國家或省級(jí)系統(tǒng)數(shù)據(jù)采集基本集中在教師基本信息、教科研、培訓(xùn)等,數(shù)據(jù)應(yīng)用也主要為基本信息的分類統(tǒng)計(jì)。上級(jí)部署的系統(tǒng)存在著這樣一些問題:對(duì)個(gè)體來說,不能對(duì)教師的發(fā)展?fàn)顩r進(jìn)行精準(zhǔn)分析和畫像,更不能提供多模型評(píng)價(jià)的精準(zhǔn)分析。對(duì)管理部門來說,由于各地各校教師用工情況復(fù)雜,系統(tǒng)數(shù)據(jù)采集不完整,從而不能精準(zhǔn)分析區(qū)域內(nèi)教師的真實(shí)情況,也不能進(jìn)行多口徑(多模型或多主題)數(shù)據(jù)分析,為行政決策提供依據(jù),更談不上與本地教師使用、管理、培養(yǎng)工作有機(jī)結(jié)合,更好地發(fā)揮信息化系統(tǒng)的智能輔助作用。以鎮(zhèn)江地區(qū)為例,教育行政部門部署的教職工管理系統(tǒng)的數(shù)據(jù)應(yīng)用情況如表2所示。

(1)單一數(shù)據(jù)來源建模應(yīng)用的實(shí)現(xiàn)(見圖1)

同樣以區(qū)域教師專業(yè)發(fā)展系統(tǒng)為例,鑒于教師發(fā)展過程中的評(píng)價(jià)及區(qū)域師資管理工作,使用的數(shù)據(jù)基本不涉及其它系統(tǒng),數(shù)據(jù)建模應(yīng)用可以在本系統(tǒng)內(nèi)完成,因此可以通過建立數(shù)據(jù)應(yīng)用主題模型庫,將各地區(qū)對(duì)教師發(fā)展?fàn)顩r評(píng)價(jià)的政策或標(biāo)準(zhǔn),抽象成應(yīng)用模型,設(shè)計(jì)成可調(diào)整、可插拔模型庫,供用戶使用。如教師畫像的應(yīng)用,可以將當(dāng)?shù)厝耸虏块T對(duì)教師的基本評(píng)價(jià)(考核)標(biāo)準(zhǔn),骨干教師、學(xué)科帶頭人、特級(jí)教師的評(píng)價(jià)標(biāo)準(zhǔn),抽象成評(píng)價(jià)模型,根據(jù)教師的基本數(shù)據(jù)、發(fā)展數(shù)據(jù)進(jìn)行分析、畫像,形成發(fā)展性報(bào)告等。由于教師成長過程中涉及數(shù)十種表格,為了讓系統(tǒng)更實(shí)用、便捷,還有一個(gè)關(guān)鍵點(diǎn)是將系統(tǒng)內(nèi)各種數(shù)據(jù),智能地與表格欄目形成關(guān)聯(lián),與教師歸檔資料形成關(guān)聯(lián),減輕教師系統(tǒng)應(yīng)用的負(fù)擔(dān),這樣即可大幅度降低數(shù)據(jù)應(yīng)用的復(fù)雜度和系統(tǒng)開發(fā)成本,快速又便捷地解決當(dāng)前的一些數(shù)據(jù)應(yīng)用問題。

(2)多系統(tǒng)數(shù)據(jù)來源建模應(yīng)用的實(shí)現(xiàn)

多系統(tǒng)數(shù)據(jù)來源的建模應(yīng)用,需要抓住應(yīng)用主題和數(shù)據(jù)來源兩個(gè)要點(diǎn)。這類數(shù)據(jù)應(yīng)用如果涉及的來源較多,數(shù)據(jù)類型復(fù)雜,則通常需通過數(shù)據(jù)倉庫來實(shí)現(xiàn)(本文基于Hadoop生態(tài)圈技術(shù))。為了降低數(shù)據(jù)應(yīng)用的復(fù)雜度,應(yīng)用主題可在本系統(tǒng)解決,同樣通過數(shù)據(jù)接口,可將外系統(tǒng)數(shù)據(jù)導(dǎo)入本系統(tǒng),進(jìn)行整理、挖掘、建模、分析應(yīng)用。在數(shù)據(jù)倉庫應(yīng)用層解決的,通常涉及多維度歷史數(shù)據(jù)、非關(guān)系型數(shù)據(jù)等。數(shù)據(jù)來源可能涉及本行業(yè)上級(jí)部門部署的、單位自建的系統(tǒng)(A1、C1類),也可能是IT企業(yè)開發(fā)的云服務(wù)系統(tǒng)(B1類),或是行業(yè)外行政機(jī)構(gòu)部署的系統(tǒng)(D1類)。

兩種不同數(shù)據(jù)建模應(yīng)用的實(shí)現(xiàn)方式,復(fù)雜程度區(qū)別很大,以下分別用實(shí)例闡述說明。

①在一個(gè)系統(tǒng)中完成多系統(tǒng)數(shù)據(jù)來源建模應(yīng)用(見圖2)。以地級(jí)市“義務(wù)教育階段招生系統(tǒng)”為例,我國義務(wù)教育階段實(shí)行免試就近入學(xué)、劃片招生政策,熱點(diǎn)學(xué)校招生時(shí)報(bào)名火爆,對(duì)報(bào)名學(xué)生的戶籍所在地和家庭房產(chǎn)證的審核就相當(dāng)繁雜,需要大量人力物力。為降低招生人員的壓力,可以將智慧城市共享數(shù)據(jù)平臺(tái)的公安戶籍?dāng)?shù)據(jù)和房產(chǎn)管理局的房產(chǎn)數(shù)據(jù)采集接入招生系統(tǒng),根據(jù)本市的招生政策、流程,抽象出數(shù)據(jù)應(yīng)用模型,完成報(bào)名學(xué)生信息與戶籍、住房信息的比對(duì),實(shí)現(xiàn)招生系統(tǒng)輔助決策功能,可大大減少招生人員的工作。因系統(tǒng)數(shù)據(jù)來源涉及面僅兩個(gè),數(shù)據(jù)量也不太大,這類應(yīng)用可以直接在主業(yè)務(wù)系統(tǒng)建模完成,易于數(shù)據(jù)應(yīng)用的實(shí)現(xiàn)。

②通過數(shù)據(jù)倉庫完成多系統(tǒng)數(shù)據(jù)來源建模應(yīng)用(見圖3)。以地級(jí)市“義務(wù)教育學(xué)校資源配置輔助決策系統(tǒng)”為例,蘇南地區(qū)外來務(wù)工人口較多,且分布極不平衡,子女的入學(xué)對(duì)當(dāng)?shù)亓x務(wù)教育學(xué)校資源配置帶來很大壓力,科學(xué)規(guī)劃、預(yù)警、配置資源,有很大的現(xiàn)實(shí)意義。完成這一主題應(yīng)用,涉及的數(shù)據(jù)比較多,來源類型、維度復(fù)雜,在單一系統(tǒng)中解決的效益比較低。可以將智慧城市數(shù)據(jù)共享平臺(tái)、上級(jí)教育行政部門系統(tǒng)平臺(tái)、IT企業(yè)第三方服務(wù)數(shù)據(jù)平臺(tái)的相關(guān)數(shù)據(jù)接入當(dāng)?shù)亟逃到y(tǒng)數(shù)據(jù)中心的數(shù)據(jù)交換前置端口,使用對(duì)應(yīng)的數(shù)據(jù)采集工具,導(dǎo)入數(shù)據(jù)倉庫的“貼源層”,按數(shù)據(jù)流程對(duì)相關(guān)數(shù)據(jù)進(jìn)行加工,和教育行政部門共同完成資源配置的抽象、建模,用可視化工具呈現(xiàn)或開發(fā)第三方系統(tǒng),加以展示應(yīng)用。

四、多系統(tǒng)來源的數(shù)據(jù)流轉(zhuǎn)設(shè)計(jì)

1.數(shù)據(jù)流轉(zhuǎn)

基礎(chǔ)教育大數(shù)據(jù)流轉(zhuǎn)過程(見圖4)包括數(shù)據(jù)采集、數(shù)據(jù)整理及存儲(chǔ)、數(shù)據(jù)資源管理、通用計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)可視化及應(yīng)用。數(shù)據(jù)源主要由提供基礎(chǔ)教育數(shù)據(jù)集的各種應(yīng)用系統(tǒng)或某些綜合平臺(tái)構(gòu)成。

2.流轉(zhuǎn)技術(shù)架構(gòu)

數(shù)據(jù)流轉(zhuǎn)過程中主要使用Hadoop生態(tài)圈的各種組件完成對(duì)數(shù)據(jù)的各種處理,組件也可部分選用在此開放代碼基礎(chǔ)上開發(fā)的商業(yè)化產(chǎn)品。Sqoop、Flume、TDT用來進(jìn)行靜態(tài)和動(dòng)態(tài)數(shù)據(jù)的采集;HDFS解決數(shù)據(jù)的分布式存儲(chǔ);Hbase進(jìn)行超大規(guī)模的表數(shù)據(jù)存儲(chǔ),其對(duì)大表數(shù)據(jù)的讀寫訪問基本能達(dá)到實(shí)時(shí)。YARN 作為另一種分布式資源管理系統(tǒng)使用,它適用各種計(jì)算框架,擴(kuò)展性、可用性均高。MapReduce、Spark Core、Flink Dataset選擇為平臺(tái)的通用計(jì)算框架,解決各種場(chǎng)景的分布計(jì)算。基于數(shù)據(jù)分析、主題建模、數(shù)據(jù)應(yīng)用、可視化等,平臺(tái)較高層面可以根據(jù)區(qū)域?qū)嶋H選擇不同組件,如國內(nèi)商業(yè)產(chǎn)品Inceptor、Slipstream、 HypeBASE、Search、Discover、Sophon等。應(yīng)用組件參考架構(gòu)如圖5所示。

3.數(shù)據(jù)采集

基礎(chǔ)教育大數(shù)據(jù)采集分為靜態(tài)數(shù)據(jù)采集和動(dòng)態(tài)數(shù)據(jù)采集。不同類型系統(tǒng)數(shù)據(jù)采集如圖6所示。生產(chǎn)靜態(tài)數(shù)據(jù)的管理信息系統(tǒng)主要是各級(jí)教育行政部門部署的教育管理類系統(tǒng),用戶涉及面一般比較廣,以區(qū)域?yàn)閱挝桓采w率理想情況下可接近100%。產(chǎn)生動(dòng)態(tài)數(shù)據(jù)的主要是IT企業(yè)開發(fā)的教育教學(xué)業(yè)務(wù)系統(tǒng)、區(qū)域或?qū)W校部署的學(xué)生行為管理類系統(tǒng)(如學(xué)生“一卡通”系統(tǒng)等),這類系統(tǒng)一般由學(xué)校、集團(tuán)校、縣區(qū)局部部署,很少有地級(jí)市全面部署的現(xiàn)象,數(shù)據(jù)采集相對(duì)繁雜,難以覆蓋區(qū)域內(nèi)全部用戶對(duì)象,易形成數(shù)據(jù)空白區(qū)。靜態(tài)數(shù)據(jù)可以使用Sqoop、TDT等工具完成數(shù)據(jù)的導(dǎo)入,全量導(dǎo)入建議使用TDT組件,過程中可進(jìn)行一些輕量級(jí)的整理。動(dòng)態(tài)數(shù)據(jù)采集的數(shù)據(jù)多使用Flume、Kafka來完成,地級(jí)區(qū)域可以在業(yè)務(wù)系統(tǒng)與數(shù)據(jù)倉庫之間建設(shè)數(shù)據(jù)中轉(zhuǎn)端點(diǎn),建設(shè)數(shù)據(jù)交換平臺(tái)進(jìn)行數(shù)據(jù)處理。常見數(shù)據(jù)采集工具特點(diǎn)比較如表3所示。

4.數(shù)據(jù)整理及管理

數(shù)據(jù)整理需要考慮的是數(shù)據(jù)質(zhì)量,可以從數(shù)據(jù)的4個(gè)C方面入手,即數(shù)據(jù)的完整性(complete)、一致性(coherent)、準(zhǔn)確性(correct)、可解釋性(accountable)。[4]基礎(chǔ)教育各個(gè)應(yīng)用系統(tǒng)提供的數(shù)據(jù)質(zhì)量比較令人擔(dān)憂,原因是多方面的(因非本文重點(diǎn),在此不作闡述),數(shù)據(jù)整理可以分三階段完成,即輕度整理、深度整理、形成數(shù)據(jù)資源庫(數(shù)據(jù)集市)。

整個(gè)數(shù)據(jù)整理過程應(yīng)圍繞數(shù)據(jù)應(yīng)用、主題建模進(jìn)行,輕度整理階段按4C原則解決數(shù)據(jù)質(zhì)量問題;深度整理階段重點(diǎn)依據(jù)數(shù)據(jù)應(yīng)用方向,對(duì)數(shù)據(jù)進(jìn)行切割或合并,根據(jù)主要應(yīng)用主題生成數(shù)據(jù)集市。

同時(shí)數(shù)據(jù)整理還需要考慮數(shù)據(jù)粒度,它直接關(guān)系到數(shù)據(jù)倉庫中數(shù)據(jù)量的大小以及應(yīng)用查詢的類型。粒度級(jí)別越高,查詢?cè)缴?。多?shù)情況下,數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫時(shí)的粒度級(jí)別太高,意味著在數(shù)據(jù)存入數(shù)據(jù)倉庫之前,開發(fā)人員必須花費(fèi)大量設(shè)計(jì)和開發(fā)資源對(duì)這些數(shù)據(jù)進(jìn)行拆分。[5]如基礎(chǔ)教育學(xué)生學(xué)業(yè)成績數(shù)據(jù),現(xiàn)階段主要來源于這樣幾類系統(tǒng),即考試閱卷系統(tǒng)、智慧課堂系統(tǒng)、教務(wù)管理系統(tǒng)、中高考成績系統(tǒng)。其數(shù)據(jù)粒度比較情況如表4所示。

這幾類系統(tǒng)的數(shù)據(jù)都反映了學(xué)生的學(xué)業(yè)成績和學(xué)習(xí)行為。就學(xué)業(yè)成績而言,市場(chǎng)上的主流產(chǎn)品對(duì)數(shù)據(jù)細(xì)化到了學(xué)科知識(shí)點(diǎn)的情況較多,無能力點(diǎn)的維度。教務(wù)管理系統(tǒng)、中高考成績系統(tǒng)多為學(xué)科綜合成績類,數(shù)據(jù)粒度高,數(shù)據(jù)應(yīng)用查詢的頻次會(huì)較低,深度挖掘、分析的難度會(huì)較大?;A(chǔ)教育需要實(shí)現(xiàn)較高水平的精準(zhǔn)教學(xué)、智能輔助決策,前端業(yè)務(wù)應(yīng)用系統(tǒng)應(yīng)結(jié)合行業(yè)的業(yè)務(wù)特點(diǎn),努力降低業(yè)務(wù)數(shù)據(jù)的粒度,才能在數(shù)據(jù)應(yīng)用的深度上實(shí)現(xiàn)重大突破。

建立基礎(chǔ)教育數(shù)據(jù)資源目錄是實(shí)現(xiàn)數(shù)據(jù)管理的最重要環(huán)節(jié)。它應(yīng)以教育部、省教育廳、地市教育行政部門發(fā)布的教育行業(yè)數(shù)據(jù)標(biāo)準(zhǔn)為依據(jù),結(jié)合各級(jí)教育行政部門對(duì)學(xué)校、單位、教師、學(xué)生的評(píng)價(jià)標(biāo)準(zhǔn),由數(shù)據(jù)倉庫建設(shè)專業(yè)技術(shù)人員會(huì)同教育行政部門管理人員共同討論制定。教育部曾發(fā)布與教育管理信息有關(guān)的《教育管理基礎(chǔ)代碼》、《教育管理基礎(chǔ)信息》、《教育行政管理信息》、《普通中小學(xué)校管理信息》、《中職學(xué)校管理信息》、《高等學(xué)校管理信息》和《教育統(tǒng)計(jì)信息》共7個(gè)教育信息化行業(yè)標(biāo)準(zhǔn),可以結(jié)合當(dāng)?shù)厍闆r在制定數(shù)據(jù)資源目錄時(shí)參照?qǐng)?zhí)行(部分標(biāo)準(zhǔn)已不適應(yīng)現(xiàn)實(shí)要求,可按IT通用標(biāo)準(zhǔn)處理)。

五、基礎(chǔ)教育大數(shù)據(jù)應(yīng)用體系架構(gòu)

1.數(shù)據(jù)倉庫的設(shè)計(jì)

區(qū)域基礎(chǔ)教育的數(shù)據(jù)倉庫可以采用硬件資源層、數(shù)據(jù)交換層、數(shù)據(jù)計(jì)算層、數(shù)據(jù)應(yīng)用層四層結(jié)構(gòu)??紤]到教育行業(yè)應(yīng)用系統(tǒng)的復(fù)雜性,可以建設(shè)一個(gè)數(shù)據(jù)交換平臺(tái),根據(jù)不同系統(tǒng)的類型使用靜態(tài)導(dǎo)入或?qū)崟r(shí)采集,并通過ETL工具進(jìn)行輕度的數(shù)據(jù)整理。貼源數(shù)據(jù)區(qū)基本保持原數(shù)據(jù)結(jié)構(gòu),僅進(jìn)行數(shù)據(jù)質(zhì)量、數(shù)據(jù)一致性的處理。數(shù)據(jù)計(jì)算層是數(shù)據(jù)倉庫應(yīng)用的核心,重中之重在于面向應(yīng)用主題,進(jìn)行數(shù)據(jù)的抽象建模,完成各類數(shù)據(jù)集市的建設(shè),這一過程需要IT專業(yè)技術(shù)人員和教育行業(yè)各業(yè)務(wù)部門、行政管理部門的人員共同研討,制定應(yīng)用主題,搭建數(shù)據(jù)模型,然后抽象成算法。面向基礎(chǔ)教育用戶對(duì)象可考慮建設(shè)教育事業(yè)類、教師發(fā)展類、學(xué)生成長類、家校共育類等數(shù)據(jù)集市;面向教育評(píng)估評(píng)價(jià)主題可建設(shè)各類教育評(píng)估評(píng)價(jià)專業(yè)數(shù)據(jù)集市;面向事業(yè)發(fā)展、師生發(fā)展可整理出發(fā)展預(yù)警預(yù)測(cè)類數(shù)據(jù)集市。數(shù)據(jù)倉庫應(yīng)用層可由易到難,先從數(shù)據(jù)的主題查詢、數(shù)據(jù)快速報(bào)表做起,再根據(jù)現(xiàn)今教育的主流評(píng)價(jià)模型設(shè)計(jì)各類對(duì)象的個(gè)性畫像、事業(yè)畫像,逐步建設(shè)基于數(shù)據(jù)挖掘的智能輔助決策應(yīng)用和預(yù)警預(yù)測(cè)應(yīng)用等。針對(duì)更多更深度的應(yīng)用可以建設(shè)多類型數(shù)據(jù)倉庫接口,提供給第三方開展應(yīng)用系統(tǒng)的設(shè)計(jì)建設(shè)?;A(chǔ)教育區(qū)域數(shù)據(jù)倉庫架構(gòu)如圖7所示。

2.數(shù)據(jù)應(yīng)用體系架構(gòu)

以應(yīng)用為導(dǎo)向、以應(yīng)用為驅(qū)動(dòng)是基礎(chǔ)教育信息化建設(shè)的核心,盡管教育行業(yè)信息化系統(tǒng)錯(cuò)綜復(fù)雜,但理清系統(tǒng)間的數(shù)據(jù)應(yīng)用關(guān)系、合理架構(gòu)應(yīng)用體系,能夠最大可能地挖掘、使用數(shù)據(jù),發(fā)揮數(shù)據(jù)的應(yīng)有效益。圍繞數(shù)據(jù)應(yīng)用這個(gè)核心,以區(qū)域基礎(chǔ)教育數(shù)據(jù)倉庫為中心,構(gòu)建數(shù)據(jù)應(yīng)用架構(gòu)體系(見圖8)。區(qū)域單一系統(tǒng)數(shù)據(jù)來源和多系統(tǒng)數(shù)據(jù)來源數(shù)據(jù)中較為簡(jiǎn)單的,采取這兩種數(shù)據(jù)應(yīng)用建模時(shí),可以直接將數(shù)據(jù)交互到單應(yīng)用系統(tǒng)中進(jìn)行應(yīng)用主題建模,完成數(shù)據(jù)應(yīng)用;跨多個(gè)系統(tǒng)、多個(gè)數(shù)據(jù)類型的應(yīng)用,可通過區(qū)域數(shù)據(jù)交換平臺(tái)將數(shù)據(jù)交互至數(shù)據(jù)倉庫貼源層進(jìn)行數(shù)據(jù)的整理、建模,建設(shè)數(shù)據(jù)應(yīng)用集市,設(shè)計(jì)多類型數(shù)據(jù)應(yīng)用接口,然后由第三方開發(fā)企業(yè),完成數(shù)據(jù)的對(duì)接,二次建模應(yīng)用。國家、省部署系統(tǒng)目前多數(shù)還未建設(shè)交換共享平臺(tái),可考慮采取設(shè)立數(shù)據(jù)交互前置終端的方式解決。智慧城市數(shù)據(jù)交換平臺(tái)通常是在政務(wù)內(nèi)網(wǎng)中設(shè)立一個(gè)數(shù)據(jù)交互前置終端,應(yīng)用系統(tǒng)可與此終端進(jìn)行數(shù)據(jù)讀取。該體系的特點(diǎn)是比較務(wù)實(shí),可以快速實(shí)現(xiàn)現(xiàn)有狀況下基礎(chǔ)教育的大數(shù)據(jù)應(yīng)用,同時(shí)也具有發(fā)展性和可擴(kuò)展性,當(dāng)大數(shù)據(jù)技術(shù)向前發(fā)展時(shí),適當(dāng)對(duì)體系進(jìn)行調(diào)整即可完成新技術(shù)下的深度應(yīng)用。

六、結(jié)語

基礎(chǔ)教育大數(shù)據(jù)的應(yīng)用,不是一個(gè)簡(jiǎn)單的項(xiàng)目建設(shè),而是一個(gè)長期的不斷發(fā)展的,并會(huì)給教育帶來深度變革的進(jìn)程。它需要國家層面頂層規(guī)劃教育數(shù)據(jù)交互、應(yīng)用體系;區(qū)域和學(xué)校層面統(tǒng)籌數(shù)據(jù)應(yīng)用系統(tǒng)建設(shè);教師和教育管理者逐步提高數(shù)據(jù)素養(yǎng);教育信息化人員提升專業(yè)保障能力,多方共同努力才能完成。區(qū)域大數(shù)據(jù)應(yīng)用體系的構(gòu)建,可以逐步納入國家教育數(shù)據(jù)整體建設(shè)體系中?,F(xiàn)階段可以將重點(diǎn)落實(shí)到區(qū)域數(shù)據(jù)倉庫、基礎(chǔ)教育數(shù)據(jù)資源建設(shè)中;使用本文建議的單一系統(tǒng)數(shù)據(jù)來源建模應(yīng)用和多系統(tǒng)數(shù)據(jù)來源建模應(yīng)用的兩種方式,在應(yīng)用中研究、在應(yīng)用中提升、在應(yīng)用中發(fā)展,推動(dòng)我國基礎(chǔ)教育大數(shù)據(jù)應(yīng)用的快速發(fā)展。

參考文獻(xiàn):

[1]黃東軍.Hadoop大數(shù)據(jù)實(shí)戰(zhàn)權(quán)威指南[M].北京:電子工業(yè)出版社,2017:7.

[2]楊現(xiàn)民,李新.中小學(xué)教師數(shù)據(jù)素養(yǎng)[M].北京:科學(xué)出版社,2020:3.

[3]肖君.教育大數(shù)據(jù)[M].上海:上??茖W(xué)技術(shù)出版社,2020:6-7.

[4][美]Q Etban McCallum.數(shù)據(jù)整理實(shí)踐指南[M].魏秀麗,李妹芳,譯.北京:人民郵電出版社,2016:198.

[5][美]William H Inmon.數(shù)據(jù)倉庫[M].王志海,等譯.北京:機(jī)械工業(yè)出版社,2019:28.

(編輯:王天鵬)

猜你喜歡
體系架構(gòu)實(shí)現(xiàn)途徑數(shù)據(jù)倉庫
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
基于國產(chǎn)軟硬件的行業(yè)大數(shù)據(jù)體系架構(gòu)研究
如何將創(chuàng)新閱讀植入小學(xué)語文教學(xué)中
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
淺析我國公立醫(yī)院在新醫(yī)改下的財(cái)務(wù)管理目標(biāo)和實(shí)現(xiàn)途徑
新時(shí)期馬克思主義大眾化與思想政治教育實(shí)現(xiàn)的途徑
基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實(shí)踐
什邡市| 镇康县| 阿尔山市| 邵东县| 新干县| 翁牛特旗| 巴林左旗| 四平市| 民乐县| 南丹县| 盖州市| 青川县| 漠河县| 象州县| 通州区| 叶城县| 介休市| 临清市| 吉隆县| 会东县| 白朗县| 沁阳市| 密山市| 临汾市| 清河县| 通渭县| 六盘水市| 玉林市| 平定县| 西林县| 红桥区| 泰顺县| 武胜县| 油尖旺区| 济阳县| 台中市| 呼和浩特市| 丰都县| 府谷县| 久治县| 旅游|