黃靜霞,楊國龍
(湛江幼兒師范??茖W(xué)校,廣東 湛江 524084)
隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)在高校的信息化應(yīng)用中越來越廣泛,大多數(shù)高校都啟動了數(shù)字校園的建設(shè),建設(shè)智慧校園是高職院校在信息化建設(shè)道路上更高層次的體現(xiàn),智慧校園的建設(shè)與應(yīng)用越來越廣,師生所產(chǎn)生的數(shù)據(jù)較大,學(xué)校不僅獲取了師生的基本數(shù)據(jù)、教學(xué)數(shù)據(jù)、管理與服務(wù)的數(shù)據(jù),還有很多非結(jié)構(gòu)化的數(shù)據(jù),在海量的數(shù)據(jù)中,如何進(jìn)行有效的管理與分析,通過對數(shù)據(jù)的深層次的分析與挖掘,探索數(shù)據(jù)中的價(jià)值,研究學(xué)生的行為特征及數(shù)據(jù)規(guī)律,從而得出學(xué)校的基本情況,師生的生活服務(wù)情況,教育教學(xué)情況及學(xué)生的學(xué)習(xí)情況,從而提高教學(xué)質(zhì)量、提高學(xué)生的學(xué)習(xí)效率及教學(xué)質(zhì)量。 特別是近年來,互聯(lián)網(wǎng)技術(shù)的發(fā)展和普及,各高校在教學(xué)手段上,都使用了多種教學(xué)手段參與教學(xué)活動,在線教學(xué)平臺、網(wǎng)絡(luò)教學(xué)、翻轉(zhuǎn)課堂、微課等,學(xué)生不僅可以很快捷、有效的進(jìn)行學(xué)習(xí),同時(shí)產(chǎn)生了很多數(shù)據(jù),特別教學(xué)的評價(jià)數(shù)據(jù),教學(xué)的過程數(shù)據(jù)以及教學(xué)的即時(shí)數(shù)據(jù),通過大數(shù)據(jù)技術(shù)的使用,對學(xué)生的行為挖掘,構(gòu)建相應(yīng)的模型,為教學(xué)管理者提供數(shù)據(jù)支撐,同時(shí)為輔導(dǎo)員和教師能夠全面了解每個(gè)學(xué)生的具體情況,為學(xué)校管理者提供決策參考[1-3]。
近年來,大數(shù)據(jù)技術(shù)的快速發(fā)展,為大數(shù)據(jù)相關(guān)研究提供了重要的基礎(chǔ),2013 年至今,從各類研究中發(fā)現(xiàn),直接使用大數(shù)據(jù)進(jìn)行研究的成果有很多的提升,主要體現(xiàn)的論文的數(shù)據(jù)和質(zhì)量上。 2014 年,教育部發(fā)布了教育信息化的工作中要求,加強(qiáng)動態(tài)監(jiān)測、對教育預(yù)測、教育決策的應(yīng)用等,同時(shí)要求教育大數(shù)據(jù)能為教育決策提供數(shù)據(jù)支持,促進(jìn)全國基礎(chǔ)教育數(shù)據(jù)共享[4]。
目前,各個(gè)國家都投入了大量人力和財(cái)力來發(fā)展大數(shù)據(jù)。 例如,大數(shù)據(jù)作為美國增強(qiáng)競爭力的關(guān)鍵因素之一,并且將研究大數(shù)據(jù)和生產(chǎn)計(jì)劃提升到國家戰(zhàn)略水平,與此同時(shí),大力發(fā)展相關(guān)的信息網(wǎng)絡(luò)安全項(xiàng)目。 在2012 年3 月29 日,《大數(shù)據(jù)研究和發(fā)展計(jì)劃》由白宮科技政策辦公室進(jìn)行發(fā)布,并成立了“大數(shù)據(jù)高級指導(dǎo)小組”。 而在2013 年11 月,信息技術(shù)和創(chuàng)新基金會發(fā)布了一份題為《支持?jǐn)?shù)據(jù)驅(qū)動型創(chuàng)新的技術(shù)與政策》的報(bào)告。 2014 年5 月,美國發(fā)表《大數(shù)據(jù):把握機(jī)遇,守護(hù)價(jià)值》白皮書,通過分析美國大數(shù)據(jù)的應(yīng)用和管理現(xiàn)狀、政策框架和改進(jìn)建議。 目前,美國有較多大數(shù)據(jù)項(xiàng)目均涉及信息網(wǎng)絡(luò)安全項(xiàng)目[5]。
隨著大數(shù)據(jù)的建設(shè)與不斷完善,許多學(xué)校積累了海量的數(shù)據(jù),利用大數(shù)據(jù)挖掘技術(shù)對校園大數(shù)據(jù)進(jìn)行分析,不僅可以為學(xué)校管理決策提供依據(jù),還可以促進(jìn)學(xué)校信息化建設(shè),豐富數(shù)字校園和智慧校園的概念體系。
(1)本文利用大數(shù)據(jù)技術(shù),通過數(shù)據(jù)挖掘、神經(jīng)網(wǎng)絡(luò)等方法,從學(xué)校的數(shù)據(jù)中心甩采集匯聚的數(shù)據(jù)中,深度挖掘教育教學(xué)中的教學(xué)數(shù)據(jù),學(xué)生的學(xué)習(xí)行為數(shù)據(jù)、教學(xué)活動、教學(xué)過程等數(shù)據(jù),從而發(fā)現(xiàn)教育教學(xué)中所存在的問題,學(xué)生學(xué)習(xí)生活的規(guī)律及行為習(xí)慣,充分利用學(xué)校大數(shù)據(jù)中心的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)共享與業(yè)務(wù)應(yīng)用優(yōu)勢,發(fā)揮海量的數(shù)據(jù)優(yōu)勢,為學(xué)校的各業(yè)務(wù)部門及學(xué)校的管理者進(jìn)行決策支持,更進(jìn)一步推動教育教學(xué)的改革,進(jìn)一步提高教學(xué)質(zhì)量及學(xué)生的學(xué)習(xí)效率,提高個(gè)性化教育教學(xué)評價(jià)與診斷應(yīng)用,為學(xué)校的發(fā)展提供數(shù)據(jù)支撐,也為學(xué)校的管理者的決策提供可靠的數(shù)據(jù)依據(jù),推動學(xué)校的高質(zhì)量發(fā)展。
(2)構(gòu)建基于Spark 的學(xué)生行為分析與預(yù)測平臺,利用校園的人、財(cái)、物數(shù)據(jù),重點(diǎn)關(guān)注學(xué)生行為數(shù)據(jù),建立學(xué)習(xí)狀況、學(xué)生的學(xué)習(xí)行為習(xí)慣、學(xué)習(xí)的生活規(guī)律等為重要的評價(jià)指標(biāo),形成有效的評價(jià)體系,構(gòu)建基于學(xué)生行為的學(xué)生畫像,利用神經(jīng)網(wǎng)絡(luò)技術(shù)、貝葉斯算法、決策樹等,生成學(xué)生可控可預(yù)測的學(xué)生行為模型,并通過模型對學(xué)生的行為進(jìn)行預(yù)測與管理,及時(shí)發(fā)現(xiàn)學(xué)生在日常學(xué)習(xí)生活中所存在的問題,及時(shí)進(jìn)行預(yù)警,有效地對學(xué)生進(jìn)行管理。
(3)本文采用KNN 算法對學(xué)生的學(xué)習(xí)行為及學(xué)習(xí)能力進(jìn)行分析,并通過多維度的向量,分析學(xué)生的學(xué)習(xí)能力與學(xué)生的學(xué)習(xí)成績的關(guān)系,得出學(xué)習(xí)能力對學(xué)生學(xué)習(xí)行為的影響程度,給出學(xué)生的干預(yù)閾值并建立預(yù)警機(jī)制,建立基于大數(shù)據(jù)的學(xué)生行為分析與預(yù)警系統(tǒng),挖掘?qū)W生的行為、心理等問題,為學(xué)生工作的管理者及學(xué)校領(lǐng)導(dǎo)有效地對學(xué)生的行為進(jìn)行有效的控制與引導(dǎo)。 基于此,還可以采用Hadoop 分布式處理平臺,運(yùn)用決策樹、關(guān)聯(lián)規(guī)則、logistic 回歸等,對所有學(xué)生的行為數(shù)據(jù)進(jìn)行深度挖掘,找出數(shù)據(jù)之間的關(guān)系,研究學(xué)生的行為與學(xué)習(xí)質(zhì)量的關(guān)系,學(xué)生的生活習(xí)慣與學(xué)習(xí)的效率的關(guān)系,結(jié)合大數(shù)據(jù)平臺中的業(yè)務(wù)系統(tǒng)數(shù)據(jù)、比如消費(fèi)數(shù)據(jù)、在線學(xué)習(xí)平臺的數(shù)據(jù)、考勤管理數(shù)據(jù)、圖書借閱數(shù)據(jù)、成績數(shù)據(jù)等,利用所建立的預(yù)測模型,分析學(xué)生的行為特征與生活規(guī)律,方便學(xué)校掌握學(xué)生的生活和學(xué)習(xí)動態(tài),及時(shí)有效地對學(xué)校的生活行為干預(yù)與有效管理[6-8]。
本文重點(diǎn)和難點(diǎn)運(yùn)用大數(shù)據(jù)分析方法,利用大數(shù)據(jù)平臺對各類業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行采集、清洗、轉(zhuǎn)換、挖掘、數(shù)據(jù)建模分析和聚類分析NLP 技術(shù),最后以學(xué)校的畢業(yè)生的崗位大數(shù)據(jù)可視化,并對就業(yè)的數(shù)據(jù)進(jìn)行描述,提煉就業(yè)質(zhì)量,構(gòu)建預(yù)測職業(yè)變化的模型,系統(tǒng)技術(shù)實(shí)現(xiàn)原理如圖1 所示。
圖1 系統(tǒng)技術(shù)實(shí)現(xiàn)原理
本文所構(gòu)建的系統(tǒng)采集學(xué)校數(shù)據(jù)、合作數(shù)據(jù)、第三方數(shù)據(jù)(如麥可思報(bào)告)、互聯(lián)網(wǎng)數(shù)據(jù)(爬蟲技術(shù))和其他來源的數(shù)據(jù),并將多源數(shù)據(jù)預(yù)處理到數(shù)據(jù)倉庫中。通過用戶圖像分析技術(shù)、數(shù)據(jù)倉庫特點(diǎn)、數(shù)據(jù)屬性選擇、工程和行為建模等,建立畢業(yè)生就業(yè)圖片分析、數(shù)據(jù)可視化數(shù)據(jù)庫,進(jìn)一步支持就業(yè)、專業(yè)能力數(shù)據(jù)分析、擇業(yè)滿意度分析,推薦學(xué)生就業(yè)、就業(yè)群體分析和專業(yè)群體匹配就業(yè)群體分析系統(tǒng)功能,最后為系統(tǒng)用戶提供Web 應(yīng)用和微信應(yīng)用界面[9-11]。
本文主要對現(xiàn)有信息進(jìn)行數(shù)據(jù)挖掘分類分析,構(gòu)建相關(guān)的預(yù)測模型。 隨著研究的深入,采用不同的模型,算法也不同,各種算法都在不斷改進(jìn)和優(yōu)化。 本課題主要對決策樹、神經(jīng)網(wǎng)絡(luò)和樸素貝葉斯算法進(jìn)行研究。 通過對算法的分析和比較,將決策樹、神經(jīng)網(wǎng)絡(luò)和樸素貝葉斯3 種分類算法相結(jié)合,建立了組合預(yù)測模型。 現(xiàn)構(gòu)造 Lagrange 函數(shù)如下,其中,公式(1)為:
劃分?jǐn)?shù)據(jù)集,其中60%為訓(xùn)練集樣本,40%為測試集樣本;選擇3 種分類算法對訓(xùn)練集進(jìn)行建模;對測試集中的樣本數(shù)據(jù)進(jìn)行單模型預(yù)測,得到預(yù)測結(jié)果;將步驟3 中的預(yù)測結(jié)果代入公式(1),計(jì)算權(quán)重系數(shù),建立組合預(yù)測模型;根據(jù)式(2)得出組合預(yù)測結(jié)果[12-13]。
構(gòu)建學(xué)生行為特征指數(shù)及制定行為管理規(guī)范。 在傳統(tǒng)的學(xué)生行為管理過程中,一般是根據(jù)學(xué)生的成績或同學(xué)生的交流過程中,對學(xué)生的管理,這些傳統(tǒng)的方法所獲取的數(shù)據(jù)不完整,有一些部門的主觀性比較多,為了能對學(xué)生的各類數(shù)據(jù)進(jìn)行精準(zhǔn)有效的分析,為學(xué)生的管理者提供精細(xì)化的管理,本文以統(tǒng)計(jì)分析、預(yù)測、關(guān)系挖掘、文本挖掘等教育數(shù)據(jù)挖掘方法為基礎(chǔ),從學(xué)生心理健康測試、行為軌跡、情感態(tài)度、上課考試情況、課外活動情況等進(jìn)行數(shù)據(jù)分析,進(jìn)一步分析每位學(xué)生的個(gè)性特征、行為規(guī)律、生活習(xí)慣等,為建立學(xué)生校園行為管理規(guī)范提供基礎(chǔ)。 以大數(shù)據(jù)中心的數(shù)據(jù)為基礎(chǔ),通過從各個(gè)業(yè)務(wù)系統(tǒng)所采集的數(shù)據(jù)進(jìn)行歸類、分析,利用大數(shù)據(jù)分析平臺進(jìn)行分析,獲得學(xué)生的行為特征指數(shù),制定學(xué)生管理規(guī)范,構(gòu)建了能夠準(zhǔn)確反映學(xué)生在校行為和習(xí)慣的相關(guān)指標(biāo)。
搭建基于大數(shù)據(jù)的學(xué)生行為特征分析預(yù)測平臺。該平臺以學(xué)生的各類數(shù)據(jù)為基礎(chǔ),是平臺的數(shù)據(jù)源,主要包括學(xué)生的消費(fèi)、學(xué)習(xí)成績、圖書借閱、上網(wǎng)行為等數(shù)據(jù)源。 首先,預(yù)處理的學(xué)生數(shù)據(jù)存儲在分布式系統(tǒng)HDFS中,以確保數(shù)據(jù)轉(zhuǎn)換的便利性和數(shù)據(jù)類型與關(guān)系數(shù)據(jù)庫的一致性。 然后通過數(shù)據(jù)聚類分析算法以及對數(shù)據(jù)的關(guān)聯(lián)規(guī)則進(jìn)行挖掘,從而對學(xué)生的行為進(jìn)行管理與分析,獲取學(xué)生的行為特征,預(yù)測學(xué)生的生活規(guī)則和習(xí)慣[14-15]。
學(xué)生行為挖掘與預(yù)測的具體應(yīng)用。 本研究能夠根據(jù)學(xué)生在校園中的日常行為等來進(jìn)行大數(shù)據(jù)處理與分析,預(yù)判學(xué)生的各種行為,為學(xué)校進(jìn)行管理決策提供數(shù)據(jù),為教學(xué)及生產(chǎn)安全管控提供有效輔助,比如推斷學(xué)生出現(xiàn)曠課行為、掛科、學(xué)分不足等現(xiàn)象,同時(shí)對學(xué)生心理問題預(yù)測分析,輔導(dǎo)員可以對出現(xiàn)問題的學(xué)生及時(shí)進(jìn)行引導(dǎo)及溝通。
本文基本大數(shù)據(jù)技術(shù)與的學(xué)生行為挖掘與預(yù)測的應(yīng)用研究,是利用學(xué)校在建設(shè)智慧校園的過程中,所構(gòu)建的大數(shù)據(jù)的管理與分析平臺,采集學(xué)生的學(xué)習(xí)與生活等方面的數(shù)據(jù),利用KNN 算法、決策樹、支持向量機(jī)等,構(gòu)建學(xué)生的學(xué)習(xí)能力對學(xué)習(xí)成績的影響的模型,采用決策樹、關(guān)聯(lián)規(guī)則和logistic 回歸3 種數(shù)據(jù)挖掘方法,對學(xué)生的各種生活行為、例如網(wǎng)行為、消費(fèi)行為、學(xué)習(xí)習(xí)慣等之間的關(guān)系,建立基本校園行為的分析與預(yù)警系統(tǒng),通過對學(xué)生的心理問題、學(xué)習(xí)生活問題以及各類的數(shù)據(jù),構(gòu)建學(xué)生的行為畫像,從而對學(xué)生的行為監(jiān)測與預(yù)警,引導(dǎo)學(xué)生的生為健康發(fā)展,提高學(xué)生的學(xué)習(xí)效率,從而實(shí)現(xiàn)學(xué)校的高效管理與數(shù)據(jù)共享,為學(xué)校的管理者決策提供數(shù)據(jù)支撐,取得了較好的預(yù)期效果。