国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)架構(gòu)分析與設(shè)計(jì)

2018-08-15 10:01李強(qiáng)趙晨杰羅先錄
軟件工程 2018年5期
關(guān)鍵詞:平臺(tái)設(shè)計(jì)大數(shù)據(jù)技術(shù)數(shù)據(jù)挖掘

李強(qiáng) 趙晨杰 羅先錄

摘 要:目前基于信息化、體驗(yàn)式的教學(xué)線上和線下課堂,可通過(guò)移動(dòng)端、網(wǎng)頁(yè)端、嵌入式設(shè)備端等捕獲大量的學(xué)情行為數(shù)據(jù)。如何采集這些線上線下產(chǎn)生的各種學(xué)情數(shù)據(jù),利用采集數(shù)據(jù)的特點(diǎn)結(jié)合主流的大數(shù)據(jù)應(yīng)用技術(shù)進(jìn)行處理、分析和挖掘,并對(duì)受教育者或教育機(jī)構(gòu)提供有用的決策信息成為很多研究機(jī)構(gòu)的研究主題。本文基于目前學(xué)情分析系統(tǒng)的發(fā)展,引入大數(shù)據(jù)技術(shù),設(shè)計(jì)了以Hadoop為核心的學(xué)情分析系統(tǒng),提出了基于學(xué)情分析系統(tǒng)的數(shù)據(jù)挖掘并行算法分析平臺(tái)設(shè)計(jì),實(shí)現(xiàn)了一種基于數(shù)據(jù)的智慧校園平臺(tái)。

關(guān)鍵詞:學(xué)情數(shù)據(jù);大數(shù)據(jù)技術(shù);數(shù)據(jù)挖掘;平臺(tái)設(shè)計(jì)

中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A

1 引言(Introduction)

隨著信息技術(shù)的發(fā)展,數(shù)據(jù)無(wú)時(shí)無(wú)刻不在產(chǎn)生,特別是教育大數(shù)據(jù),已經(jīng)成為推動(dòng)教育行業(yè)的提升和變革的強(qiáng)大力量?;谛畔⒒?、體驗(yàn)式的教學(xué)線上和線下課堂,可通過(guò)移動(dòng)端、網(wǎng)頁(yè)端、嵌入式設(shè)備端等捕獲大量的學(xué)情行為數(shù)據(jù),這些數(shù)據(jù)符合大數(shù)據(jù)4V特性:海量(Volume)、多樣性(Variety)、時(shí)效性(Velocity)和有效性(Veracity),給傳統(tǒng)的教育數(shù)據(jù)存儲(chǔ)、分析和處理都帶來(lái)了極大的挑戰(zhàn)。在與其他行業(yè)相比,教育界對(duì)大數(shù)據(jù)的廣泛接納比其他成熟行業(yè)稍晚。但如今大數(shù)據(jù)已經(jīng)慢慢走進(jìn)教育的各個(gè)角落。產(chǎn)生了更多的教育機(jī)構(gòu)和企業(yè)開(kāi)始對(duì)教育大數(shù)據(jù)深入研究并構(gòu)建可交互的大數(shù)據(jù)平臺(tái)。教育的大數(shù)據(jù)不僅影響學(xué)校內(nèi)部治理的改革,而且會(huì)驅(qū)動(dòng)整個(gè)教育領(lǐng)域的變革,利用大數(shù)據(jù)平臺(tái)構(gòu)建每一位受教育者的用戶畫(huà)像,針對(duì)每一位受教育者給出合理的建議,從而使得教育和關(guān)愛(ài)每一個(gè)孩子成為可能。

“大數(shù)據(jù)”這一概念已經(jīng)在各行業(yè)的應(yīng)用獲得了極大的成功,也應(yīng)運(yùn)而生了“數(shù)據(jù)科學(xué)”這一嶄新科學(xué)領(lǐng)域,通過(guò)大數(shù)據(jù)理論基礎(chǔ)和框架技術(shù)可解決教育和大數(shù)據(jù)融合中所產(chǎn)生的問(wèn)題。本文提出了教育大數(shù)據(jù)背景下運(yùn)用大數(shù)據(jù)技術(shù)處理和分析教育行業(yè)數(shù)據(jù)的技術(shù)架構(gòu),并基于Hadoop技術(shù)生態(tài)圈設(shè)計(jì)了學(xué)情分析系統(tǒng)的技術(shù)架構(gòu)及數(shù)據(jù)挖掘平臺(tái),將其應(yīng)用于學(xué)院教學(xué)質(zhì)量監(jiān)控。

2 學(xué)情分析概述(Overview of academic behavior

analysis)

學(xué)情分析指的是學(xué)生在學(xué)習(xí)方面有何特點(diǎn)、學(xué)習(xí)方法怎樣、習(xí)慣怎樣、興趣如何,成績(jī)?nèi)绾蔚?。其設(shè)計(jì)理念包括教學(xué)方法、學(xué)法指導(dǎo)和教學(xué)設(shè)想,根據(jù)獲取的數(shù)據(jù)研究者可以從高校創(chuàng)新創(chuàng)業(yè)教育改革、創(chuàng)新創(chuàng)業(yè)人才培養(yǎng)、基于產(chǎn)業(yè)發(fā)展需求的專業(yè)結(jié)構(gòu)調(diào)整研究、學(xué)生學(xué)習(xí)行為分析、教師教授行為分析,以及個(gè)性化推薦等角度展開(kāi)研究[1]。對(duì)教育大數(shù)據(jù)進(jìn)行分析,需要從大量數(shù)據(jù)中進(jìn)行提取與挖掘,在這個(gè)過(guò)程中包括數(shù)據(jù)的清洗、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)表示等。這些分析環(huán)節(jié)的每個(gè)構(gòu)成都應(yīng)成為數(shù)據(jù)分析研究的重要內(nèi)容,從而最大限度地保持與還原客觀事實(shí)[2]。

在如今的學(xué)校教育中,數(shù)據(jù)已成為教學(xué)改進(jìn)最為顯著的指標(biāo),而更多科學(xué)決策也是基于數(shù)據(jù)而產(chǎn)生的。在學(xué)校的數(shù)據(jù)種類不僅僅指考試成績(jī),也包括入學(xué)率、出勤率、輟學(xué)率、升學(xué)率等。對(duì)于具體的課堂教學(xué)來(lái)說(shuō),數(shù)據(jù)應(yīng)該是能說(shuō)明教學(xué)效果的,比如學(xué)生考試成績(jī)、作業(yè)正確率、上課出勤率、積極參與課堂科學(xué)的舉手次數(shù),回答問(wèn)題次數(shù)、時(shí)長(zhǎng)與正確率,師生互動(dòng)的頻率與時(shí)長(zhǎng)等。

根據(jù)以上綜合分析,基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)平臺(tái)研究和建設(shè)是有著重大的意義,廣東東軟學(xué)院作為全國(guó)應(yīng)用型大學(xué)的典范,我們更加注重課程實(shí)踐性和學(xué)生動(dòng)手能力,根據(jù)大數(shù)據(jù)分析和挖掘技術(shù)可以更加合理調(diào)整學(xué)院的學(xué)科專業(yè)、教師教授方式和學(xué)生學(xué)習(xí)方式等。同時(shí),該平臺(tái)的建立會(huì)完善廣東東軟學(xué)院的大數(shù)據(jù)應(yīng)用實(shí)踐教學(xué)體系。因此,建立和完善學(xué)情分析平臺(tái)可促進(jìn)和深化學(xué)院學(xué)生的學(xué)習(xí)、教師教學(xué)實(shí)踐,以及幫助相關(guān)部門提供更加合理的計(jì)劃和建議。

3 研究現(xiàn)狀(Current research situation)

國(guó)外對(duì)學(xué)習(xí)和學(xué)情分析的研究起步較早,從2011年起已經(jīng)積累了很多的理論基礎(chǔ),近年來(lái)已經(jīng)由純粹的理論概念階段發(fā)展到具體的實(shí)際應(yīng)用階段,涌現(xiàn)出很多已經(jīng)處于實(shí)用階段的學(xué)習(xí)和學(xué)情分析系統(tǒng)。與國(guó)外相比,國(guó)內(nèi)到目前為止主要還是停留在理論探索和分析階段,或者是在理論和概念上的拓展,對(duì)于具體的學(xué)習(xí)分析工具和系統(tǒng)的實(shí)際應(yīng)用的研究和開(kāi)發(fā)較少[1-3]。基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)平臺(tái)是廣東東軟學(xué)院在學(xué)習(xí)和學(xué)情分析領(lǐng)域的實(shí)際應(yīng)用,利用通用大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)對(duì)教育數(shù)據(jù)進(jìn)行多維分析。

通過(guò)大數(shù)據(jù)技術(shù)和數(shù)據(jù)挖掘技術(shù)結(jié)合能夠更好為各階段學(xué)生提供更有價(jià)值的信息,如“希維塔斯學(xué)習(xí)”就是一家專門聚焦于運(yùn)用預(yù)測(cè)性分析、機(jī)器學(xué)習(xí)從而提高學(xué)生成績(jī)的公司[1]。加拿大的一家教育科技公司“渴望學(xué)習(xí)”(Desire 2 Learn)已經(jīng)面向高等教育領(lǐng)域的學(xué)生,推出了基于他們自己過(guò)去的學(xué)習(xí)成績(jī)數(shù)據(jù)預(yù)測(cè)并改善其未來(lái)學(xué)習(xí)成績(jī)的大數(shù)據(jù)服務(wù)項(xiàng)目[2]?!翱释麑W(xué)習(xí)”的產(chǎn)品通過(guò)監(jiān)控學(xué)生閱讀電子化的課程材料、提交電子版的作業(yè)、通過(guò)在線與同學(xué)交流、完成考試與測(cè)驗(yàn),就能讓其計(jì)算程序持續(xù)、系統(tǒng)地分析每個(gè)學(xué)生的教育數(shù)據(jù)。老師得到的不再是過(guò)去那種只展示學(xué)生 分?jǐn)?shù)與作業(yè)的結(jié)果,而是像閱讀材料的時(shí)間長(zhǎng)短等這樣更為詳細(xì)的重要信息,如此老師就能及時(shí)診斷問(wèn)題的所在,提出改進(jìn)的建議,并預(yù)測(cè)學(xué)生的期末考試成績(jī)。紐頓的創(chuàng)辦人、首席執(zhí)行官何塞·費(fèi)雷拉和培生高等教育分公司的總裁格雷格·托賓合作研發(fā)將大學(xué)數(shù)學(xué)、大學(xué)統(tǒng)計(jì)學(xué)、大學(xué)一年級(jí)作文、經(jīng)濟(jì)學(xué)和科學(xué)等領(lǐng)域納入教育產(chǎn)品中[3]。

在學(xué)習(xí)和學(xué)情分析系統(tǒng)建設(shè)方面,其研究成果主要涉及多個(gè)不同的教育系統(tǒng)。

基于Web的學(xué)習(xí)系統(tǒng):Pardos等學(xué)者在基于Web的數(shù)學(xué)教學(xué)平臺(tái)AssisTments上,花了兩年時(shí)間,跟蹤分析1393名8年級(jí)學(xué)生在該平臺(tái)上的數(shù)學(xué)學(xué)習(xí)行為數(shù)據(jù),研究學(xué)習(xí)中體現(xiàn)的情感如厭倦、專注、困惑、挫折等與最終的學(xué)習(xí)結(jié)果之間的關(guān)系[4]。Kizilcec等學(xué)者針對(duì)Mooc教學(xué)中低完成率的問(wèn)題,提出根據(jù)學(xué)生與Mooc學(xué)習(xí)課程的交互,對(duì)不同的學(xué)習(xí)者進(jìn)行分類,該研究對(duì)Mooc未來(lái)的教學(xué)指導(dǎo)設(shè)計(jì)有一定意義[5]。

基于學(xué)習(xí)管理系統(tǒng)(LMS),許多學(xué)習(xí)分析研究是基于LMS記錄的教育數(shù)據(jù)。Lonn等針對(duì)密歇根大學(xué)一二年級(jí)工程系學(xué)生,開(kāi)發(fā)了M-STEM Academy作為早期學(xué)業(yè)預(yù)警系統(tǒng),研究了如何挖掘LMS數(shù)據(jù),以及將這些數(shù)據(jù)轉(zhuǎn)化成警示數(shù)據(jù)每周提供給導(dǎo)師,以方便導(dǎo)師對(duì)學(xué)生進(jìn)行有針對(duì)性的支持[6]。Garcia-Solorzano等指出LMS環(huán)境和面對(duì)面教學(xué)環(huán)境不同,教師在線監(jiān)控學(xué)習(xí)較困難,許多LMS提供的學(xué)生跟蹤數(shù)據(jù)難以理解。針對(duì)這個(gè)問(wèn)題,他們?cè)O(shè)計(jì)了一個(gè)基于瀏覽的圖像化教學(xué)監(jiān)控工具,幫助教師洞察學(xué)生表現(xiàn),并及時(shí)發(fā)現(xiàn)潛在問(wèn)題[7]。

基于Web 2.0或社會(huì)學(xué)習(xí)系統(tǒng):Gunnarsson和Alterman分析了班上107名學(xué)生的博客,使用學(xué)生之間互動(dòng)的相關(guān)博客數(shù)據(jù),特別是某學(xué)生對(duì)其他學(xué)生博客內(nèi)容的推介,建立了一個(gè)模型來(lái)識(shí)別有價(jià)值的內(nèi)容和對(duì)教師的意義[7]。Southavilay等學(xué)者研究了大學(xué)生使用云計(jì)算工具Google Docs進(jìn)行合作寫(xiě)作的案例,提出三種可視化方法分析寫(xiě)作進(jìn)程,包括校訂版本演化、主題演化圖、主題合作網(wǎng)絡(luò)來(lái)探索學(xué)生的思維、能力表現(xiàn),目的是讓團(tuán)隊(duì)中的每一個(gè)學(xué)生的寫(xiě)作更有成效[7]。在社會(huì)學(xué)習(xí)分析方面,英國(guó)學(xué)者Ferguson和Buckingham做了全面的分析,提出了五種方法研究正式和非正式的教育環(huán)境數(shù)據(jù)源,注重從社會(huì)維度如情感、性格、學(xué)習(xí)網(wǎng)絡(luò)所反映出的學(xué)習(xí)者的學(xué)習(xí)狀態(tài)。

基于實(shí)時(shí)學(xué)習(xí)系統(tǒng):傳統(tǒng)教學(xué)環(huán)境中,教師通過(guò)分析學(xué)生表現(xiàn)如出勤率、考試、教室內(nèi)的行為等傳統(tǒng)數(shù)據(jù)來(lái)幫助學(xué)生?,F(xiàn)在利用信息和通信技術(shù)(Information Communication Technology),可以將教室中的交互情境數(shù)字化,從而使數(shù)據(jù)更加多源。Blikstenin提出多情態(tài)交互分析系統(tǒng),數(shù)據(jù)包括視頻、音頻、文本、姿勢(shì)、生物傳感信息(如眼球跟蹤)等[6,7],研究者可以探究過(guò)去不可能獲知的學(xué)生學(xué)習(xí)活動(dòng),進(jìn)行更全面的分析。

通過(guò)上述分析,目前基于教育大數(shù)據(jù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘仍處于發(fā)展的初期,特別是在國(guó)內(nèi)的研究與實(shí)施仍處于起步階段,在實(shí)際的應(yīng)用中仍然不能依靠數(shù)據(jù)提供的有價(jià)值信息促進(jìn)學(xué)生學(xué)習(xí)。因此,利用不同的數(shù)據(jù)源產(chǎn)生的分布式教育數(shù)據(jù),建立一個(gè)集成和開(kāi)放的學(xué)情分析系統(tǒng)是很有必要的。

4 基于大數(shù)據(jù)技術(shù)的學(xué)情分析系統(tǒng)框架(Framework

of academic behavior analysis system based on

big data technology)

基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)平臺(tái)研建是大數(shù)據(jù)技術(shù)與教育行業(yè)結(jié)合的一種實(shí)際應(yīng)用的體現(xiàn),通過(guò)平臺(tái)提供的功能來(lái)改善學(xué)生的學(xué)習(xí)行為,為教師提供更好的教學(xué)方案,為職能部門提供合理的管理方案等。基于主流的Hadoop技術(shù)搭建大數(shù)據(jù)平臺(tái),提供了數(shù)據(jù)的清洗、過(guò)濾及匯總操作,根據(jù)業(yè)務(wù)需求選取合適的大數(shù)據(jù)框架進(jìn)行大數(shù)據(jù)分析。在大數(shù)據(jù)平臺(tái)之上構(gòu)建了數(shù)據(jù)挖掘并行算法處理平臺(tái),挖掘更加有價(jià)值的數(shù)據(jù)信息,為學(xué)生推薦更加科學(xué)合理有用的學(xué)習(xí)資源或其他資源。

4.1 系統(tǒng)開(kāi)發(fā)的目標(biāo)

基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)研建是將大數(shù)據(jù)技術(shù)、數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)技術(shù)等計(jì)算機(jī)技術(shù)應(yīng)用于教育行業(yè)數(shù)字化和信息化的重要方面,可以通過(guò)平臺(tái)幫助學(xué)生更好的學(xué)習(xí)、幫助老師更好的教學(xué),為學(xué)校管理層和決策層提供更加科學(xué)的決策依據(jù)。區(qū)別于其他行業(yè),教育行業(yè)逐漸被認(rèn)為是大數(shù)據(jù)可以大有作為的一個(gè)重要領(lǐng)域,利用大數(shù)據(jù)技術(shù)促進(jìn)和完善教育教學(xué)改革。此項(xiàng)目的建立將會(huì)更加加快高校信息化建設(shè)的速度和質(zhì)量。

4.2 系統(tǒng)開(kāi)發(fā)的可行性分析

根據(jù)教育行業(yè)業(yè)務(wù)需求,設(shè)計(jì)了合理的大數(shù)據(jù)處理與分析平臺(tái)和數(shù)據(jù)挖掘并行算法處理平臺(tái),項(xiàng)目重點(diǎn)為利用Hadoop平臺(tái)對(duì)大數(shù)據(jù)日志進(jìn)行存儲(chǔ)、分析、處理,對(duì)采集的數(shù)據(jù)進(jìn)行分析,完成相應(yīng)日志的入庫(kù)、處理、分析、實(shí)時(shí)查詢等主要功能。對(duì)經(jīng)過(guò)處理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,挖掘出有價(jià)值的信息,給用戶推薦更好的資源。按照實(shí)施計(jì)劃部署相應(yīng)的大數(shù)據(jù)系統(tǒng)平臺(tái),根據(jù)平臺(tái)的數(shù)據(jù)處理量,初步規(guī)劃Hadoop集群的數(shù)量為5—10臺(tái)。

4.3 系統(tǒng)開(kāi)發(fā)數(shù)據(jù)來(lái)源

數(shù)據(jù)來(lái)源于學(xué)院學(xué)生信息管理系統(tǒng)、招生就業(yè)系統(tǒng)、校園考勤系統(tǒng)、圖書(shū)管理系統(tǒng)平臺(tái)、教務(wù)等真實(shí)數(shù)據(jù),同時(shí)從輔助教學(xué)平臺(tái)上抓取有價(jià)值的可信度高的數(shù)據(jù),如發(fā)帖數(shù)據(jù)(貼吧等)、學(xué)習(xí)者調(diào)查、用戶資料、網(wǎng)絡(luò)社交媒體等獲取相關(guān)數(shù)據(jù),從而形成學(xué)情分析系統(tǒng)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)集。

4.4 系統(tǒng)開(kāi)發(fā)過(guò)程及關(guān)鍵技術(shù)

首先根據(jù)數(shù)據(jù)集的數(shù)量級(jí)(PB或TB)確定集群數(shù)量,確定選擇在線大數(shù)據(jù)平臺(tái)還是本地建立服務(wù)器集群搭建大數(shù)據(jù)處理與分析的分布式平臺(tái)。

對(duì)數(shù)據(jù)源進(jìn)行初步整理和分析,學(xué)校相關(guān)信息系統(tǒng)需要與相關(guān)職能部分溝通數(shù)據(jù)中有價(jià)值或權(quán)重較高的字段或描述,從其他網(wǎng)站采集的數(shù)據(jù)需要經(jīng)過(guò)討論分析后確定技術(shù)可行性和評(píng)估數(shù)據(jù)源價(jià)值。

將采集到的各數(shù)據(jù)源通過(guò)大數(shù)據(jù)技術(shù)提供的Sqoop(主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(kù)(Mysql、Oracle等)間進(jìn)行數(shù)據(jù)的傳遞)和Flume(日志采集工具)技術(shù)將數(shù)據(jù)源導(dǎo)入或推送到HDFS分布式文件系統(tǒng)中,對(duì)未來(lái)可能開(kāi)發(fā)并投入使用的管理信息系統(tǒng)通過(guò)Log4G日志的形式記錄,每天或每周定點(diǎn)通過(guò)大數(shù)據(jù)日志收集工具Flume向大數(shù)據(jù)平臺(tái)的HDFS分布式文件系統(tǒng)推送記錄數(shù)據(jù)。

對(duì)存儲(chǔ)在HDFS中的數(shù)據(jù)進(jìn)行數(shù)據(jù)的ETL(清洗、過(guò)濾、匯總),大數(shù)據(jù)分析部分采用Hive與Impala結(jié)合方式,對(duì)查詢速度要求較高的采用基于內(nèi)存的迭代式框架Spark技術(shù)框架,此時(shí)經(jīng)過(guò)大數(shù)據(jù)分析后的數(shù)據(jù)可直接通過(guò)Web系統(tǒng)作統(tǒng)計(jì)數(shù)據(jù)的頁(yè)面展示。

處理之后的數(shù)據(jù)可以作為數(shù)據(jù)挖掘平臺(tái)進(jìn)行聚類、分類、關(guān)聯(lián)和回歸等數(shù)據(jù)挖掘算法的并行化處理媒介,從而得到學(xué)生行為分析的重要信息,最后通過(guò)推薦系統(tǒng)為學(xué)生推薦合理的資源信息。

4.5 集群環(huán)境搭建方案

根據(jù)業(yè)務(wù)需求搭建集群10臺(tái)左右的大數(shù)據(jù)處理和分析平臺(tái), 項(xiàng)目中需要Hadoop集群能夠商用,并且要求穩(wěn)定,性能沒(méi)有瓶頸。所以針對(duì)于Hadoop服務(wù)器,需要做一些操作系統(tǒng)級(jí)別優(yōu)化(CentOS6.4),以使得集群獲得最優(yōu)的性能和穩(wěn)定性能[8]。

當(dāng)Hbase提供服務(wù)速度難以保證情況下,使用Impala替換HBase、Impala StateStore和Impala Catalog Server安裝到HBase master所在機(jī)器,HBase Region所在機(jī)器安裝Impala Daemon。JobTracker機(jī)器變?yōu)镽esourceManager,TaskTracker變?yōu)镹odeManager。

以上集群安排是根據(jù)數(shù)據(jù)和業(yè)務(wù)進(jìn)行預(yù)估暫定集群數(shù)量在10臺(tái)以下,如果后期集群數(shù)量增加應(yīng)該重新調(diào)整各節(jié)點(diǎn)的配置。

管理服務(wù)器是平臺(tái)的主節(jié)點(diǎn),負(fù)責(zé)管理計(jì)算和任務(wù)分配等,節(jié)點(diǎn)1—4和剩余節(jié)點(diǎn)機(jī)都屬于從節(jié)點(diǎn),從節(jié)點(diǎn)負(fù)責(zé)執(zhí)行主節(jié)點(diǎn)分配的存儲(chǔ)和計(jì)算的任務(wù)。要求數(shù)據(jù)節(jié)點(diǎn)盡可能放在一起利于數(shù)據(jù)的本地化,加快數(shù)據(jù)查詢速率,這里的HRegion由HRegionServer存放和管理本地節(jié)點(diǎn),主要用于讀寫(xiě)HDFS,管理Table中的數(shù)據(jù),因?yàn)閼?yīng)該將HRegion與HDFS中的DataNode安裝在同一個(gè)從節(jié)點(diǎn)服務(wù)器中。HA采用管理服務(wù)器1和服務(wù)器2互備。

項(xiàng)目根據(jù)預(yù)期的數(shù)據(jù)和業(yè)務(wù)需求搭建集群在10臺(tái)以下的大數(shù)據(jù)處理和分析平臺(tái),項(xiàng)目中采用穩(wěn)定、性能瓶頸小的Hadoop集群。同時(shí)針對(duì)于Hadoop服務(wù)器,需要做一些操作系統(tǒng)級(jí)別優(yōu)化(CentOS6.4),以使得集群獲得最優(yōu)的性能和穩(wěn)定性能。

4.6 架構(gòu)設(shè)計(jì)

基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)平臺(tái)架構(gòu)分為大數(shù)據(jù)處理與分析平臺(tái)和數(shù)據(jù)挖掘并行算法分析平臺(tái)組成。其中大數(shù)據(jù)處理與分析平臺(tái)主要對(duì)數(shù)據(jù)源進(jìn)行ETL過(guò)程,滿足一部分的數(shù)據(jù)查詢需求,以及圖形化展示需求。數(shù)據(jù)挖掘并行算法分析平臺(tái)主要對(duì)經(jīng)過(guò)大數(shù)據(jù)處理后的數(shù)據(jù)挖掘出潛在有價(jià)值的信息,為學(xué)生的學(xué)習(xí)、生活等方面提供個(gè)性化的推薦和意見(jiàn)等[9,10]。

4.6.1 學(xué)情分析系統(tǒng)的大數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì)

學(xué)情分析系統(tǒng)的大數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì)如圖1所示。

學(xué)院信息網(wǎng)站數(shù)據(jù)和由外部網(wǎng)站采集的數(shù)據(jù)均以壓縮形式上傳HDFS對(duì)應(yīng)的目錄,相應(yīng)的Mapreduce直接從HDFS上獲取原始數(shù)據(jù)進(jìn)行數(shù)據(jù)處理和分析。Mapreduce主要包含三種類型:匯總部分(過(guò)濾、清洗、匯總)。使用分布式存儲(chǔ)系統(tǒng)HBase存儲(chǔ)一些數(shù)據(jù)量級(jí)較大的數(shù)據(jù)和進(jìn)行一些簡(jiǎn)單的統(tǒng)計(jì)分析,同時(shí),將Mapreduce處理后的數(shù)據(jù)存儲(chǔ)在Hbase中,之后使用Thrift服務(wù)與Web進(jìn)行交互顯示。Spark分析部分主要利用SparkSql、SparkMLlib、Graphx三大組件進(jìn)行復(fù)雜的批量處理、基于響應(yīng)速度要求高的交互查詢、基于實(shí)時(shí)數(shù)據(jù)流的查詢。Mapreduce匯總部分的結(jié)果加載到Hive中并且使用Impala提供Web端的查詢。需要做進(jìn)一步分析和關(guān)聯(lián)的部分使用Sqoop導(dǎo)出到Oracle或Mysql中,由Oracle或Mysql來(lái)完成Web端復(fù)雜圖形的展現(xiàn)[11,12]。

4.6.2 學(xué)情分析系統(tǒng)數(shù)據(jù)挖掘并行算法分析平臺(tái)設(shè)計(jì)

數(shù)據(jù)挖掘并行算法分析平臺(tái)如圖2所示。

數(shù)據(jù)經(jīng)過(guò)預(yù)處理后,需要考慮如何能讓數(shù)據(jù)發(fā)揮作用。這就需要采用數(shù)據(jù)挖掘平臺(tái)提供的數(shù)據(jù)挖掘和分析工具、算法進(jìn)行有價(jià)值信息的抽取,從而實(shí)現(xiàn)從數(shù)據(jù)到信息的高效轉(zhuǎn)化。對(duì)受教育者的學(xué)習(xí)數(shù)據(jù)、行為數(shù)據(jù)等進(jìn)行深入分析和挖掘,查找可能存在的問(wèn)題等重要信息,并利用這些數(shù)據(jù)為改善受教育者的成績(jī)或?qū)W習(xí)行為提供個(gè)性化的服務(wù)。同時(shí),借助數(shù)據(jù)中一位受教育者的各個(gè)維度數(shù)據(jù)來(lái)綜合評(píng)判學(xué)生表現(xiàn),利用大數(shù)據(jù)挖掘技術(shù),針對(duì)學(xué)生存在的問(wèn)題提供合理的建議與意見(jiàn)[13,14]。

通過(guò)大數(shù)據(jù)和數(shù)據(jù)挖掘進(jìn)行學(xué)習(xí)分析能夠?yàn)槊恳晃皇芙逃邉?chuàng)設(shè)一個(gè)量身定做的學(xué)習(xí)環(huán)境和個(gè)性化的課程,還能創(chuàng)建一個(gè)早期預(yù)警系統(tǒng)以便發(fā)現(xiàn)開(kāi)除和輟學(xué)等潛在的風(fēng)險(xiǎn),為受教育者的多年學(xué)習(xí)提供一個(gè)富有挑戰(zhàn)性而非逐漸厭倦的學(xué)習(xí)計(jì)劃。因此,學(xué)習(xí)可以依靠大數(shù)據(jù)驅(qū)動(dòng)。通過(guò)分析和挖掘,進(jìn)一步改善教學(xué)的方式與方法,進(jìn)一步促進(jìn)學(xué)生學(xué)習(xí)成績(jī)的提高。

根據(jù)平臺(tái)需求主要使用以下五種數(shù)據(jù)挖掘技術(shù)從大數(shù)據(jù)分析后的數(shù)據(jù)中提取有價(jià)值數(shù)據(jù)信息:

(1)預(yù)測(cè)(Prediction)——基于對(duì)歷史數(shù)據(jù)的分析,預(yù)測(cè)新數(shù)據(jù)的特征或數(shù)據(jù)的未來(lái)發(fā)展趨勢(shì)。例如,要具備知道一個(gè)學(xué)生在什么情況下盡管事實(shí)上有能力但卻有意回答錯(cuò)誤的能力。

(2)聚類(Clustering)——發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。這對(duì)于把有相同學(xué)習(xí)興趣的學(xué)生分在一組很有用。

(3)相關(guān)性挖掘(Relationship Mining)——發(fā)現(xiàn)各種變量或因素之間的關(guān)系,并對(duì)其進(jìn)行解碼以便今后使用它們。這對(duì)探知學(xué)生在尋求幫助后是否能夠正確回答問(wèn)題的可靠性很有幫助[14]。

(4)升華人的判斷(Distillation for Human Judgment)——建立可視的機(jī)器學(xué)習(xí)的模式。

(5)用模式進(jìn)行發(fā)現(xiàn)(Discovery with Models)——使用通過(guò)大數(shù)據(jù)分析開(kāi)發(fā)出的模式進(jìn)行“元學(xué)習(xí)”(Meta-Study)[14]。

5 結(jié)論(Conclusion)

本文從大數(shù)據(jù)視角提出,利用Hadoop生態(tài)圈構(gòu)建基于大數(shù)據(jù)應(yīng)用技術(shù)的智能化學(xué)情分析服務(wù)架構(gòu),該方案主要目標(biāo)是解決海量教育信息的匯聚、存儲(chǔ)和存取及分析和挖掘等,從而為智能化教育教學(xué)服務(wù)提供技術(shù)支撐。

同時(shí),隨著國(guó)家信息戰(zhàn)略的實(shí)施,網(wǎng)絡(luò)帶寬及其他相關(guān)硬件設(shè)施的發(fā)展,這為大數(shù)據(jù)技術(shù)應(yīng)用提供了較為廣闊的空間。針對(duì)教育大數(shù)據(jù)對(duì)教育、教學(xué)及學(xué)生學(xué)習(xí)的方方面面影響,基于大數(shù)據(jù)技術(shù)的教育改革勢(shì)在必行,高效創(chuàng)新創(chuàng)業(yè)教育改革、基于產(chǎn)業(yè)需求的高效專業(yè)調(diào)整及學(xué)生的學(xué)習(xí)行為分析和教師教授行為分析都將從基于知識(shí)或經(jīng)驗(yàn)的改革轉(zhuǎn)移到基于數(shù)據(jù)的教育教學(xué)改革。根據(jù)大數(shù)據(jù)平臺(tái)分析結(jié)果我們可以更加合理的調(diào)整學(xué)科專業(yè),教師教授方式和學(xué)生的學(xué)習(xí)方式等。該平臺(tái)的建立促進(jìn)和深化了學(xué)校學(xué)生學(xué)習(xí)、教師教學(xué)實(shí)踐及幫助相關(guān)部門提供合理的計(jì)劃和建議。

猜你喜歡
平臺(tái)設(shè)計(jì)大數(shù)據(jù)技術(shù)數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
論大數(shù)據(jù)技術(shù)在智能電網(wǎng)中的應(yīng)用
廣電網(wǎng)絡(luò)前端業(yè)務(wù)融合云服務(wù)平臺(tái)設(shè)計(jì)
基于工作流的水運(yùn)應(yīng)急信息管理平臺(tái)設(shè)計(jì) 
大數(shù)據(jù)技術(shù)在電氣工程中的應(yīng)用探討
大數(shù)據(jù)技術(shù)在商業(yè)銀行中的應(yīng)用分析
MOOC時(shí)代創(chuàng)新區(qū)域教師培訓(xùn)課程建設(shè)研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究