国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)分析的學(xué)生行為畫像分析

2018-02-28 10:31朱梓熙劉文敏徐寶焱黃紅梅敖新宇
中國教育信息化·高教職教 2018年12期
關(guān)鍵詞:聚類分析

朱梓熙 劉文敏 徐寶焱 黃紅梅 敖新宇

摘 要:本文基于大數(shù)據(jù)分析技術(shù)對校園數(shù)據(jù)進(jìn)行分析和挖掘,建立學(xué)生相關(guān)模型和行為標(biāo)簽,通過分析校園數(shù)據(jù)對學(xué)生行為進(jìn)行畫像,為學(xué)生管理工作提供決策支撐,促進(jìn)學(xué)生管理與決策的科學(xué)化。

關(guān)鍵詞:聚類分析;學(xué)習(xí)行為分析;教育數(shù)據(jù)

中圖分類號:TP393 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-8454(2018)23-0021-03

一、引言

隨著信息技術(shù)的不斷發(fā)展,高校越來越重視數(shù)字校園、智慧校園的建設(shè)[1][2],各高校的校園建設(shè)不斷走向數(shù)字化。本文通過對高職院校信息進(jìn)行收集和整理,整合有關(guān)學(xué)生考勤、成績和圖書借閱情況等方面的數(shù)據(jù),尋找學(xué)生的行為規(guī)律、研究學(xué)生的行為特點(diǎn),對學(xué)生分類進(jìn)行指標(biāo)判定,最后進(jìn)行聚類分析,并將分析結(jié)果進(jìn)行可視化展現(xiàn),為促進(jìn)和提高學(xué)校在教育教學(xué)方面的決策提供了有力支撐。

本文用到的學(xué)生考勤數(shù)據(jù)來自于教師上課的考勤記錄。本文用到的學(xué)生借閱數(shù)據(jù)來自于學(xué)校圖書館的借閱軟件系統(tǒng)。

二、數(shù)據(jù)預(yù)處理

在數(shù)據(jù)挖掘中,由于數(shù)據(jù)來源的范圍廣且數(shù)量大,使得數(shù)據(jù)的質(zhì)量不是很高,為此,需要對數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理的目標(biāo)是通過篩除掉有缺失的數(shù)據(jù),從而保證數(shù)據(jù)的質(zhì)量,使數(shù)據(jù)處理能夠順利進(jìn)行,并通過一些操作來合并必要的數(shù)據(jù),變換數(shù)據(jù)的某些分量使得對同種性質(zhì)數(shù)據(jù)標(biāo)準(zhǔn)的統(tǒng)一等。

由于數(shù)據(jù)主要由學(xué)校應(yīng)用系統(tǒng)導(dǎo)出,這些數(shù)據(jù)主要以Excel表文件的方式存在。其余數(shù)據(jù)是來自于不同的系統(tǒng)與部門,所涉及的范圍較多,采集到的原始數(shù)據(jù)中數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)沒有統(tǒng)一的格式,同時(shí)有很多無用屬性和本次研究的主題無關(guān)。另外,種種原因造成部分?jǐn)?shù)據(jù)缺失,如學(xué)生休學(xué)和缺考等原因,所以需要將這些數(shù)據(jù)內(nèi)容進(jìn)行清除,剔除這部分?jǐn)?shù)據(jù)。在收集的數(shù)據(jù)中,有些數(shù)據(jù)項(xiàng)被發(fā)現(xiàn)出現(xiàn)了重復(fù),需要剔除這些重復(fù)的數(shù)據(jù)。本文采用合并表、學(xué)生信息過濾、篩選關(guān)鍵信息、統(tǒng)一數(shù)據(jù)類型等方法對數(shù)據(jù)進(jìn)行清洗,并把清洗后的數(shù)據(jù)制成數(shù)據(jù)表的形式保存到數(shù)據(jù)庫中,以保證數(shù)據(jù)的一致性。

三、數(shù)據(jù)整合與建表

確定數(shù)據(jù)表的數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)分析的首要任務(wù),將所收集到的數(shù)據(jù)經(jīng)過整合后可分成以下幾類:學(xué)生考勤數(shù)據(jù)、學(xué)生圖書館借閱數(shù)據(jù)、學(xué)生歷史成績數(shù)據(jù)以及學(xué)生部分信息數(shù)據(jù)。結(jié)合學(xué)生畫像的目標(biāo),構(gòu)建學(xué)生信息結(jié)構(gòu)表、學(xué)生成績信息結(jié)構(gòu)表、學(xué)生缺勤信息結(jié)構(gòu)表、圖書借閱信息結(jié)構(gòu)表。如表1-4所示。

四、確立學(xué)生“畫像”指標(biāo)

通過分析現(xiàn)有數(shù)據(jù)特征和學(xué)生的學(xué)習(xí)行為來構(gòu)建學(xué)生的學(xué)習(xí)行為“畫像”的數(shù)據(jù)特征,為此,確定哪些行為可以用來構(gòu)建學(xué)生畫像是必要的。在本次數(shù)據(jù)中,學(xué)期缺勤次數(shù)、學(xué)期圖書借閱次數(shù)在很大程度上體現(xiàn)了一個(gè)學(xué)生對課堂老師授課內(nèi)容的重視和學(xué)習(xí)努力程度,而學(xué)期成績平均分則能直接客觀地體現(xiàn)出學(xué)生在本學(xué)期對所學(xué)內(nèi)容的掌握情況。因此,將學(xué)生考勤情況、學(xué)生圖書借閱情況以及學(xué)生成績等數(shù)據(jù)用來對學(xué)生的學(xué)習(xí)行為進(jìn)行畫像,并確定相應(yīng)的指標(biāo),指標(biāo)細(xì)分如表5所示。

五、聚類分析

K-means算法[3]是一種應(yīng)用十分廣泛的聚類算法,它的目標(biāo)是將n個(gè)數(shù)據(jù)點(diǎn)劃分到m個(gè)類簇中,以距離作為數(shù)據(jù)對象間相似性度量的標(biāo)準(zhǔn)。在K-means算法中,需要預(yù)先設(shè)定k個(gè)初始質(zhì)心,由于K-means算法采取局部最優(yōu),所以初始質(zhì)心的選擇直接關(guān)系到數(shù)據(jù)集中的最終聚類效果。

不同屬性往往具有不同的量綱和量綱單位,之間的差別可能很大,如本次處理中的學(xué)生成績與學(xué)生缺勤次數(shù)。對這些差別較大的屬性值不進(jìn)行處理可能會(huì)影響數(shù)據(jù)分析的結(jié)果,在以距離為基礎(chǔ)的算法中,取值較大的屬性會(huì)起到主導(dǎo)作用。在進(jìn)行K-means聚類前,要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,消除屬性間量綱與大小差距過大的影響,提高聚類效果。

K-means算法計(jì)算高效,但是有一個(gè)缺點(diǎn),就是要事先設(shè)定初始質(zhì)心的數(shù)量k,而k的選取直接關(guān)系到最終的聚類效果,所以一般要經(jīng)過多重分析來確立k的值,但這在實(shí)際項(xiàng)目中是比較難以確定的,特別是在處理一個(gè)高緯度、難以進(jìn)行可視化數(shù)據(jù)的時(shí)候。本文根據(jù)聚類模型內(nèi)部誤差平方和來確定聚類模型的好壞。獲得簇內(nèi)部的誤差平方和?;谶@個(gè)屬性值,采用肘部方法[4],對給定的任務(wù)估計(jì)出最優(yōu)簇的數(shù)量。算法如圖1所示。在算法中,n_jobs是并行的進(jìn)程數(shù),n_clusters是初始的簇的個(gè)數(shù)。

六、實(shí)驗(yàn)結(jié)果與分析

本文實(shí)驗(yàn)數(shù)據(jù)的來源是某高校校園各部門所積累的歷史數(shù)據(jù),由于之前的數(shù)據(jù)過于雜亂,在此收集了該校某系學(xué)生的2017年9月到2018年2月這段時(shí)間內(nèi)的學(xué)習(xí)、考勤數(shù)據(jù)與圖書借閱數(shù)據(jù),總共35808條數(shù)據(jù),將這些數(shù)據(jù)進(jìn)行整合后存放到數(shù)據(jù)庫中用以分析實(shí)驗(yàn)。本次實(shí)驗(yàn)選取學(xué)生“畫像”特征庫中部分重要指標(biāo)來建立學(xué)生行為模型,在此使用python等語言來編寫相關(guān)的K-means代碼,進(jìn)行模型的構(gòu)建與分析,并將分析結(jié)果進(jìn)行可視化展示。

使用算法1處理結(jié)果如圖2所示。從圖3中可以知道聚類數(shù)為4時(shí)的拐點(diǎn)最為明顯,也就意味著針對本次數(shù)據(jù)來說,最優(yōu)簇的數(shù)量為4,一般而言,肘部方法所得出的結(jié)果并不是絕對的,還要結(jié)合對該數(shù)據(jù)的討論與設(shè)想才能得出較好的答案,在本次實(shí)驗(yàn)中,結(jié)合數(shù)據(jù)類型等各個(gè)方面情況,最終確立了簇的數(shù)量為4。

學(xué)生“畫像”特征搭建的時(shí)候選取三個(gè)指標(biāo)(借閱、考勤、成績),這三個(gè)指標(biāo)正好可以用三維的方式來進(jìn)行展示,并且效果是最好的,圖3是聚類完成后的可視化三維視圖,從圖3中可以看出,在本次的聚類中,各點(diǎn)分得較為均勻,聚類效果較好。

圖4的聚類雷達(dá)圖展現(xiàn)了本次聚類后每個(gè)類別的具體情況,在圖中可以看到,編號0的類別屬于借閱次數(shù)較低、考勤率高、成績較為普通的學(xué)生;編號1的類別屬于借閱次數(shù)較低、考勤率高、成績優(yōu)秀的學(xué)生;編號2的類別屬于借閱次數(shù)高、考勤率高、成績優(yōu)秀的學(xué)生;編號3的類別屬于借閱次數(shù)低、考勤率低、成績較差的學(xué)生。并由此得出表6,結(jié)合表6可以看到努力學(xué)習(xí)且學(xué)習(xí)成績較為優(yōu)異學(xué)生占到學(xué)生總數(shù)的65%,成績一般的學(xué)生也占到學(xué)生總數(shù)的33%,可以看出該校大部分學(xué)生學(xué)習(xí)還是比較刻苦的,只有極少數(shù)學(xué)生的努力程度不夠,努力程度不夠且成績較差的學(xué)生占學(xué)生總數(shù)的2%,對這方面的學(xué)生可以加以督促,以便提高他們的學(xué)習(xí)成績。

另外一個(gè)有意思的發(fā)現(xiàn)是平均借閱次數(shù)和平均成績的相關(guān)性不大,而且,第一類學(xué)生借閱次數(shù)比第二類學(xué)生借閱次數(shù)少很多,但成績還要高一些。似乎暗示圖書館的圖書借閱功能和學(xué)生學(xué)習(xí)成績沒有太大的相關(guān)性,而與考勤次數(shù)是息息相關(guān)的,可能需要更加細(xì)節(jié)的數(shù)據(jù)才能更好地分析圖書館學(xué)習(xí)資源是該如何被利用。

七、結(jié)束語

本文通過對校園學(xué)生數(shù)據(jù)的處理和聚類分析,對學(xué)生行為進(jìn)行畫像,一方面是可以對學(xué)生進(jìn)行一個(gè)行為描述;另一方面可以通過模型反饋,了解學(xué)生指標(biāo)間的影響因素,得到學(xué)生的行為特征以及學(xué)生的初步畫像。目前,由于數(shù)據(jù)類型較少,得到的學(xué)生行為特征還不夠詳細(xì),僅在學(xué)生學(xué)習(xí)行為畫像上做了初步嘗試,如果想要更加全面地對學(xué)生行為進(jìn)行畫像,可以對學(xué)生的學(xué)習(xí)和生活各方面行為數(shù)據(jù)進(jìn)行補(bǔ)充,增加分析維度和分析內(nèi)容,從而能得到更加詳細(xì)的分析結(jié)果,為智慧校園的管理決策提供準(zhǔn)確、詳細(xì)的數(shù)據(jù)支持。

參考文獻(xiàn):

[1]黃榮懷.智慧校園:數(shù)字校園發(fā)展的必然趨勢[J].開放教育研究,2012,18(4):12-17.

[2]張九娟.校園“一卡通”在學(xué)校管理中的應(yīng)用研究[J].高校后勤研究,2014(2):63-65.

[3]吳哲夫,張彤,肖鷹.基于Spark平臺的 K-means 聚類算法改進(jìn)及并行化實(shí)現(xiàn)[J].互聯(lián)網(wǎng)天地,2016(1):44-50.

[4]鄭英鑫.數(shù)據(jù)挖掘中基于肘部法則的聚類分析在中小學(xué)生出行路線優(yōu)化設(shè)計(jì)的應(yīng)用[J].電子世界,2017(9):146.

(編輯:王曉明)

猜你喜歡
聚類分析
淺析聚類分析在郫縣煙草卷煙營銷方面的應(yīng)用
米易县| 亚东县| 龙门县| 潍坊市| 达孜县| 天峻县| 贞丰县| 琼海市| 隆德县| 克什克腾旗| 西丰县| 正安县| 克拉玛依市| 奉化市| 宿州市| 远安县| 阳朔县| 荔波县| 晴隆县| 巴中市| 博白县| 衡阳市| 寿宁县| 密山市| 辛集市| 云南省| 博爱县| 大田县| 米林县| 安平县| 桓台县| 申扎县| 新和县| 太谷县| 衡阳市| 察雅县| 门头沟区| 淮南市| 太湖县| 迁西县| 梁河县|