国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于K-means聚類算法的學(xué)生表現(xiàn)數(shù)據(jù)分析及預(yù)測(cè)建模研究

2021-06-04 03:15呂丁
微型電腦應(yīng)用 2021年5期
關(guān)鍵詞:獎(jiǎng)學(xué)金聚類管理系統(tǒng)

呂丁

(陜西警官職業(yè)學(xué)院 治安系, 陜西 西安 710021)

0 引言

本文通過(guò)對(duì)不同校園管理系統(tǒng)數(shù)據(jù)進(jìn)行預(yù)處理,去除重復(fù)、缺失的臟數(shù)據(jù),并基于傳統(tǒng)K-means算法建立學(xué)生表現(xiàn)行為的預(yù)測(cè)模型,對(duì)學(xué)生表現(xiàn)行為分類,通過(guò)針對(duì)不同類型學(xué)生特征,實(shí)現(xiàn)對(duì)學(xué)生校園表現(xiàn)的針對(duì)性管理。

1 K-means的數(shù)據(jù)預(yù)處理

1.1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘在以海量數(shù)據(jù)分析的基礎(chǔ)上,提取滿足不同業(yè)務(wù)目標(biāo)數(shù)據(jù)信息的過(guò)程,并將信息反饋給用戶。為獲得滿足用戶需求的潛在有效信息,就要求對(duì)表層信息進(jìn)行充分挖掘,去除冗余數(shù)據(jù),并將關(guān)鍵數(shù)據(jù)能可視化的展示到用戶面前。預(yù)測(cè)和描述作為數(shù)據(jù)挖掘的兩個(gè)目標(biāo),預(yù)測(cè)指的是利用數(shù)據(jù)庫(kù)中某些信息字段和變量預(yù)測(cè)隱含的有用信息,描述指將數(shù)據(jù)描述成可理解模式[1-3]。

本文采用ETL工具來(lái)獲得校園一卡通系統(tǒng)、學(xué)生管理系統(tǒng)、圖書館系統(tǒng)和教務(wù)系統(tǒng)的數(shù)據(jù)信息,在對(duì)各數(shù)據(jù)管理系統(tǒng)的基礎(chǔ)上,選擇“學(xué)號(hào)、貧困生等級(jí)、獎(jiǎng)學(xué)金等級(jí)、德育成績(jī)、體育成績(jī)、智育成績(jī)、競(jìng)賽等級(jí)”7個(gè)屬性作為特征評(píng)價(jià)指標(biāo)[4-6]。

1.2 數(shù)據(jù)的清理

數(shù)據(jù)的清理主要包括格式的標(biāo)準(zhǔn)化、異常數(shù)據(jù)和重復(fù)數(shù)據(jù)的清除和錯(cuò)誤數(shù)據(jù)糾正。通過(guò)查詢某一高校成績(jī)管理系統(tǒng),就能獲得近40余萬(wàn)條信息,整個(gè)數(shù)據(jù)量極為龐大,因此有必要對(duì)一部分重復(fù)數(shù)據(jù)進(jìn)行清除,并從其他系統(tǒng)中獲取其他維度的數(shù)據(jù)來(lái)補(bǔ)充整個(gè)數(shù)據(jù)庫(kù)。如成績(jī)系統(tǒng)中包括了學(xué)生各科目成績(jī)信息,而學(xué)生的獎(jiǎng)學(xué)金、競(jìng)賽信息均處于空缺,同時(shí)部分學(xué)生的某些成績(jī)表存在很多空缺數(shù)據(jù),這主要是由于學(xué)生缺考、補(bǔ)考或一些未知原因造成。對(duì)于該類噪聲數(shù)據(jù),從學(xué)生狀態(tài)重查出信息,將學(xué)生成績(jī)信息予以刪除操作。

針對(duì)學(xué)生成績(jī)信息,按照學(xué)期準(zhǔn)則進(jìn)行聚類,即對(duì)各科成績(jī)進(jìn)行泛化處理,用高級(jí)層次值代替,獲得各科成績(jī)的泛化績(jī)點(diǎn),如式(1)。

(1)

式中,i為科目數(shù);Si和Xi分別為第i科得分和學(xué)分;J為績(jī)點(diǎn)數(shù)。Xi學(xué)分劃分為優(yōu)秀、良好、及格、不及格,相應(yīng)的得分轉(zhuǎn)化分別為90分、80分、60分和0分。

對(duì)困難級(jí)別的數(shù)據(jù)變化,將學(xué)生困難程度劃分為特別困難生、一般困難生、非困難生,對(duì)應(yīng)的級(jí)別表示分別為2、1、0。

在學(xué)生競(jìng)賽方面,學(xué)校教務(wù)管理系統(tǒng)采用文字形式描述,本文根據(jù)分析調(diào)查,采用以數(shù)字方式來(lái)表征競(jìng)賽級(jí)別,如表1所示。

表1 學(xué)科競(jìng)賽等級(jí)分值轉(zhuǎn)換

通過(guò)對(duì)競(jìng)賽等級(jí)進(jìn)行數(shù)值轉(zhuǎn)換,形成一個(gè)累積的加分制度。

獎(jiǎng)學(xué)金在學(xué)生數(shù)據(jù)庫(kù)中同樣采用文字表達(dá)方式,由于系統(tǒng)中對(duì)應(yīng)每個(gè)獎(jiǎng)學(xué)金等級(jí)建立了對(duì)應(yīng)的金額,基于此,本文對(duì)學(xué)生獎(jiǎng)學(xué)金力度屬性,將獎(jiǎng)學(xué)金金額轉(zhuǎn)化為相應(yīng)的力度屬性,如式(2)。

(2)

式中,i為獎(jiǎng)學(xué)金數(shù)量;Xi為獲得獎(jiǎng)學(xué)金金額;V為獎(jiǎng)學(xué)金力度。

在學(xué)生管理系統(tǒng)中,德育成績(jī)和體育成績(jī)均是以數(shù)據(jù)形式存儲(chǔ)的,滿分分別為20分和5分。

2 優(yōu)化的K-Means聚類算法

K-Means作為經(jīng)典的聚類算法,主要是通過(guò)迭代過(guò)程實(shí)現(xiàn)數(shù)據(jù)集類別的不同劃分,該算法具有簡(jiǎn)單異性可擴(kuò)展性強(qiáng)的優(yōu)點(diǎn)[7-8]。K-Means算法首先從樣本集S中任意選擇K個(gè)樣本作為初始聚類中心。然后根據(jù)規(guī)則算法進(jìn)行數(shù)據(jù)對(duì)象間距離,通過(guò)獲得的數(shù)據(jù)對(duì)象分組情況迭代計(jì)算直至中心無(wú)變化,得到K各聚類結(jié)果。算法的具體實(shí)現(xiàn)流程如下。

(1) 在K-Mean聚類算法中,設(shè)定算法輸入樣本集中包括n個(gè)數(shù)據(jù)對(duì)象和K個(gè)聚類個(gè)數(shù);

(2) 根據(jù)聚類樣本聚類,計(jì)算得到各樣本與中心間距離,然后根據(jù)獲得的最小計(jì)算距離重新劃分對(duì)象。設(shè)兩個(gè)p維數(shù)據(jù)點(diǎn)xi=(xi1,xi2,…,xip)和xj=(xj1,xj2,…,xjp)間的歐氏距離,如式(3)。

(3)

確定所有樣本的平均距離為式(4)。

(4)

(3) 重新計(jì)算獲得每個(gè)樣本的均值后,返回步驟(2),直到目標(biāo)函數(shù)值不變或小于指定閾值。確定目標(biāo)函數(shù)的平方誤差準(zhǔn)則函數(shù),為式(5)。

(5)

式中,ci為相同類別數(shù)據(jù)的質(zhì)心點(diǎn),定義ci計(jì)算公式為式(6)。

(6)

式中,|Ci|是類Ci數(shù)據(jù)對(duì)象數(shù)量;ci表示第i個(gè)簇中心。

(4) 結(jié)束,獲得K個(gè)聚類。

對(duì)于K-means算法,算法簡(jiǎn)單,效率高。但算法聚類數(shù)K時(shí)和中心點(diǎn)的選取都缺乏明確標(biāo)準(zhǔn)定義,大部分都是隨機(jī)給定的,這樣容易對(duì)算法結(jié)果造成較大影響。基于此本文提出一種解決初始值K的選擇方法。在K值選擇中,根據(jù)實(shí)際情況限定聚類的范圍,即假設(shè)聚類數(shù)K范圍為(m,n),則進(jìn)行n-m次K-means傳統(tǒng)算法,并從多次聚類中選擇最優(yōu)聚類數(shù)作為最佳聚類樹,設(shè)聚類各部各節(jié)點(diǎn)距離中心的歐氏距離為式(7)。

(7)

在初始點(diǎn)選取中,要求中心點(diǎn)互相距離最大化,初始中心周邊點(diǎn)必須密集。對(duì)于中心點(diǎn)互相距離為式(8)。

(8)

d作為所有中心點(diǎn)距離和的均值,能較好地表現(xiàn)聚類中心相互距離整體情況。對(duì)于聚類中各元素點(diǎn)的密度,計(jì)算方法,如式(9)。

(9)

式中,pi點(diǎn)xi周圍點(diǎn)密集程度,值越大,密度越大,則周圍點(diǎn)越多。其中zi為樣本點(diǎn)間距離,因此采用pi能較好地反應(yīng)出i點(diǎn)周圍密集程度,確定zi的計(jì)算,如式(10)。

(10)

通過(guò)優(yōu)化的K-means算法的具體流程如圖1所示。

圖1 改進(jìn)的K-means算法流

3 學(xué)生校園表現(xiàn)聚類分析

3.1 樣本數(shù)據(jù)處理

通過(guò)對(duì)K-means算法改進(jìn),根據(jù)上節(jié)對(duì)數(shù)據(jù)預(yù)處理的基礎(chǔ)上,選擇“貧困生等級(jí)、獎(jiǎng)學(xué)金等級(jí)、德育成績(jī)、體育成績(jī)、智育成績(jī)、競(jìng)賽等級(jí)”數(shù)據(jù)作為六維評(píng)價(jià)輸入變量,設(shè)定最大迭代次數(shù)為10,經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)格式如圖2所示。

圖2 整理的學(xué)生數(shù)據(jù)表

上述數(shù)據(jù)是基于不同量綱獲得的整合數(shù)據(jù),因此,需要對(duì)這些不同維度數(shù)據(jù)進(jìn)行量綱統(tǒng)一,具體的計(jì)算為式(11)。

(11)

其中,xij為個(gè)體元素值。通過(guò)量綱統(tǒng)一后的待測(cè)數(shù)據(jù)能更真實(shí)的反映學(xué)生活動(dòng)的數(shù)據(jù)聚類情況。

3.2 算法的核心代碼優(yōu)化

定義算法所用到的數(shù)據(jù)的類屬性,如圖3所示。

圖3 初始化函數(shù)運(yùn)行代碼

其中,K為聚類數(shù);logo為分類標(biāo)識(shí);center為數(shù)據(jù)舊中心;centernew為新中心;train為輸入數(shù)據(jù)樣本;dimension為數(shù)據(jù)維度。對(duì)算法數(shù)據(jù)進(jìn)行初始化操作,每進(jìn)行一次優(yōu)化算法則執(zhí)行一次初始化函數(shù)。圖3為函數(shù)的運(yùn)行代碼。其中表示擁有30組測(cè)試數(shù)據(jù),一組6個(gè)維度,并確定初始化數(shù)據(jù)中心和K值的大小[6]。

算法在Windows 8PRO操作系統(tǒng)運(yùn)行,數(shù)據(jù)庫(kù)采用SQLsever 2 000,navicat,給出改良后的K-means算法的部分核心代碼,如圖4所示。

圖4 改進(jìn)K-means算法的核心代碼

3.3 優(yōu)化分析結(jié)果

通過(guò)聚類分析,獲得選取學(xué)生的分類信息和各方面的平均值結(jié)果,如表2所示。

表2 學(xué)生類別平均分析值

優(yōu)化K-means算法將學(xué)生分為4個(gè)類別。其中第一類學(xué)生成績(jī)中等,家庭較困難,并沒(méi)有享受過(guò)獎(jiǎng)學(xué)金或競(jìng)賽獎(jiǎng)勵(lì);第二類學(xué)生成績(jī)下游,家庭一般,未享受獎(jiǎng)學(xué)金和競(jìng)賽獎(jiǎng)勵(lì);第三類學(xué)生成績(jī)良好,競(jìng)賽成績(jī)優(yōu)秀,享受獎(jiǎng)學(xué)金較高,家庭一般;第四類學(xué)生成績(jī)優(yōu)秀、獲得過(guò)獎(jiǎng)學(xué)金和競(jìng)賽獎(jiǎng)勵(lì),家庭困難。

學(xué)生管理系統(tǒng)中幾位學(xué)生的分類情況,如圖5所示。

圖5 學(xué)生表現(xiàn)情況分析表

由圖5可知,根據(jù)選擇的類別屬性,系統(tǒng)將每一位學(xué)生根據(jù)自己的學(xué)號(hào)得到了其在德育、體育、競(jìng)賽、智育、獎(jiǎng)學(xué)金、貧困情況方面的分類級(jí)別。根據(jù)聚類算法后的學(xué)生分類結(jié)果,可以讓高校輔導(dǎo)人員對(duì)學(xué)生的具體情況進(jìn)行有針對(duì)性的管理,符合當(dāng)前高校學(xué)生“德、智、體、美、勞”的綜合發(fā)展需求。

4 總結(jié)

本文選擇學(xué)生校園表現(xiàn)進(jìn)行研究,通過(guò)對(duì)學(xué)生生活、學(xué)習(xí)、活動(dòng)等行為特征數(shù)據(jù)分析挖掘,采聚類算法建立學(xué)生生活表現(xiàn)類別模型,實(shí)現(xiàn)對(duì)學(xué)生生活表現(xiàn)數(shù)據(jù),將學(xué)生進(jìn)行分類。文中以校園一卡通系統(tǒng)、教務(wù)管理系統(tǒng)、學(xué)生管理系統(tǒng)數(shù)據(jù)為基礎(chǔ),針對(duì)數(shù)據(jù)系統(tǒng)中“臟數(shù)據(jù)”進(jìn)行預(yù)處理,通過(guò)數(shù)據(jù)清洗、集成和變換數(shù)據(jù)存儲(chǔ)格式,得到滿足K-mrans算法的維度輸入數(shù)據(jù)。針對(duì)傳統(tǒng)K-mrans算法聚類數(shù)K、中心點(diǎn)的選取容易造成算法結(jié)果偏差,根據(jù)實(shí)際情況限定聚類的范圍,得到最佳聚類K值和中心點(diǎn),并添加量綱矩陣系數(shù)對(duì)學(xué)生表現(xiàn)進(jìn)行聚類,最后通過(guò)在學(xué)生管理系統(tǒng)中寫入算法核心代碼建立學(xué)生表現(xiàn)模型,分析出不同類型學(xué)生行為特征,并指導(dǎo)學(xué)生日常管理工作。

猜你喜歡
獎(jiǎng)學(xué)金聚類管理系統(tǒng)
基于James的院內(nèi)郵件管理系統(tǒng)的實(shí)現(xiàn)
學(xué)成必有為 不忘桑梓情——寫在“談智雋獎(jiǎng)學(xué)金”第二十七次頒獎(jiǎng)大會(huì)后
基于K-means聚類的車-地?zé)o線通信場(chǎng)強(qiáng)研究
打電子游戲是浪費(fèi)時(shí)間?對(duì)那些獲得電競(jìng)獎(jiǎng)學(xué)金的人來(lái)說(shuō)并不是
基于LED聯(lián)動(dòng)顯示的違停管理系統(tǒng)
海盾壓載水管理系統(tǒng)
基于高斯混合聚類的陣列干涉SAR三維成像
基于Spark平臺(tái)的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
中國(guó)人民大學(xué)吳玉章獎(jiǎng)學(xué)金圖解
基于改進(jìn)的遺傳算法的模糊聚類算法