国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于學(xué)生消費行為與成績的分析研究

2018-09-05 02:05:30
許昌學(xué)院學(xué)報 2018年8期
關(guān)鍵詞:線性消費預(yù)測

(許昌學(xué)院 信息化管理中心,河南 許昌 461000)

近年來,隨著高校信息化程度的不斷提升,校園一卡通系統(tǒng)發(fā)展迅速.一卡通系統(tǒng)可以為師生提供了很大的便利,可以方便他們進行購物,簽到等等,這些行為都會產(chǎn)生大量的相關(guān)數(shù)據(jù).用機器學(xué)習(xí)算法在數(shù)據(jù)中發(fā)現(xiàn)隱藏的關(guān)聯(lián)性,可以對學(xué)校的管理工作提供一定的參考和幫助.在國內(nèi)已經(jīng)有很多高校開始了對相關(guān)數(shù)據(jù)的研究分析.王德才[1]等人利用SVM和Apriori關(guān)聯(lián)規(guī)則算法分析學(xué)生校園一卡通消費行為數(shù)據(jù);羅擁軍[2]等人采用基于FP-Growth算法尋找學(xué)生的貧困程度與一卡通數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的依據(jù);徐劍[3]等人利用決策樹算法對一卡通的消費數(shù)據(jù)進行了聚類分析,并用關(guān)聯(lián)規(guī)則算法分析了學(xué)生的消費數(shù)據(jù)與學(xué)生成績之間的關(guān)聯(lián)關(guān)系;黎旭[4]等人使用決策樹為依據(jù)對消費行為的因素進行了建模和實現(xiàn).

本文研究的是學(xué)生消費數(shù)據(jù)與學(xué)生成績之間是否具有隱藏的關(guān)聯(lián)性.首先對學(xué)生的消費成績進行規(guī)范化的處理,之后采用機器學(xué)習(xí)的算法對數(shù)據(jù)進行處理建模,根據(jù)模型和歷史數(shù)據(jù)對學(xué)生的成績進行預(yù)測,并和真實數(shù)據(jù)進行對比.

1 實驗數(shù)據(jù)預(yù)處理

一般而言,在數(shù)據(jù)中心存的數(shù)據(jù)都是沒有處理過的原始數(shù)據(jù),可能會有各種各樣的問題,例如數(shù)據(jù)缺失,數(shù)據(jù)冗余等等造成對數(shù)據(jù)質(zhì)量的影響.而數(shù)據(jù)質(zhì)量又是會直接影響到模型訓(xùn)練結(jié)果的關(guān)鍵因素.所以需要對原始數(shù)據(jù)進行處理.另一方面,隨著支付寶等移動支付的興起,越來越多的學(xué)生開始使用手機進行支付,這也導(dǎo)致了數(shù)據(jù)的缺失,這一問題可以從其他的維度想辦法考慮解決.

機器學(xué)習(xí)需要一個訓(xùn)練集和一個測試集,訓(xùn)練集用來訓(xùn)練模型,測試集用來測試模型預(yù)測結(jié)果.把消費數(shù)據(jù)和成績化分為訓(xùn)練集和測試集,以此來構(gòu)建模型.首先來看原始數(shù)據(jù).消費數(shù)據(jù)如表1所示,這一條數(shù)據(jù)包含某個卡號(ECARDNO)在某一天(OPDATE)消費了什么(CONPTYPE),吃飯的話吃的是哪一餐(DINTYPE)和消費數(shù)額(TOTALACCOUNT).成績數(shù)據(jù)如表2所示,每條數(shù)據(jù)包含學(xué)號(XH),科目名稱(KCMC),課程類別(KCXZ)和考試成績(QMCJ).

由于原始數(shù)據(jù)提供的信息有限,所以這里的想法是先對消費數(shù)據(jù)進行處理.按照機器學(xué)習(xí)的一般思路是將數(shù)據(jù)整理成一個學(xué)生一條數(shù)據(jù),后面的字段則是某一時間段的消費信息,按照早中午飯分開計算平均消費和總消費,此外還要區(qū)分周末和平時的情況.這些年由于外賣的發(fā)展,所以肯定會造成有很多人出現(xiàn)沒有消費的情況,如果貿(mào)然使用這些數(shù)據(jù)可能會對預(yù)測的結(jié)果產(chǎn)生影響,所以這里會把沒有消費也當(dāng)做一種類型來計算,如此生成訓(xùn)練集數(shù)據(jù).如表3所示.這里篇幅有限只列出了早上時段的所有數(shù)據(jù).

表1 消費數(shù)據(jù)表單

表2 成績數(shù)據(jù)表單

表3 處理后樣本數(shù)據(jù)

處理完數(shù)據(jù)之后,如圖1所示.首先看norm平時的數(shù)據(jù),無論是總值count還是均值mean都有很多的數(shù)值為0.這有兩種可能,一是學(xué)生沒有去吃早飯,二是叫了外賣或者之前買的其他東西.這部分由于無法做交叉對比,所以不能確定是哪一種.但是可以將數(shù)值為0也當(dāng)做一種類型,可以認為這個學(xué)生比較懶/沒時間,使用支付寶等等.Miss表示的是沒有吃早飯的次數(shù),原因和上面一樣.Weekend周末的數(shù)據(jù)則有更多為0的數(shù)據(jù),這也是符合學(xué)生周末出去吃飯的習(xí)慣的.這部分處理后的數(shù)據(jù)當(dāng)做訓(xùn)練集數(shù)據(jù).

圖1 部分樣本數(shù)據(jù)分布圖

然后處理測試集數(shù)據(jù),如表2,不同的學(xué)生可能有不同的課程和課程數(shù)量,所以需要一個統(tǒng)一的度量指標來衡量不同學(xué)生的差異.選用平均成績和掛科率這兩項可以比較好的對不同的學(xué)生進行比較.圖2中標有(origin)表示的是原始平均分和掛科率,如圖2可以看出平均分是一個長尾分布,一般來說長尾分布的數(shù)據(jù)是沒有意義的異常數(shù)據(jù),結(jié)合掛科率的圖表來看,可以將這些數(shù)據(jù)去掉.圖2標有(processed)是處理過之后的數(shù)據(jù),如圖可以看出平均分基本符合正太分布,掛科率則呈現(xiàn)了一個下降的趨勢.需要注意的是這里掛科率的橫軸是科目的數(shù)量.

圖2 成績數(shù)據(jù)分布表

2 數(shù)據(jù)建模

本文是要研究學(xué)生消費數(shù)據(jù)與成績之間的潛在關(guān)聯(lián)性.所以以學(xué)生的掛科率和平均分這兩項作為研究對象.使用回歸和分類的算法,對數(shù)據(jù)處理建模來分析不同特征的重要性.回歸可以直接預(yù)測數(shù)值目標,而分類只能預(yù)測不同的類別,所以使用分類算法時候需要將數(shù)據(jù)處理一下,改成類別數(shù)據(jù)[5].將0~10%作為1類,10%~20%作為2類,以此類推最后90%~100%作為10類,這樣將預(yù)測問題轉(zhuǎn)換成一個多分類的問題.這里會出現(xiàn)精度的損失,如果需求更高的精度可以用 5個百分點作為一個類別來分類.

本文主要使用線性回歸(LinearRegression)來預(yù)測和隨機森林(RandomForest)來進行分類.下面簡單介紹一下這兩種算法.

實驗使用python的sklearn工具進行模型的訓(xùn)練和測試.使用前面說過使用平均成績和掛科率來對作為預(yù)測的結(jié)果.然后將數(shù)據(jù)分為訓(xùn)練集和測試集.

首先使用線性回歸來訓(xùn)練模型.將樣本數(shù)據(jù)和成績數(shù)據(jù)合在一起,按照75%來劃分訓(xùn)練集,剩下的是測試集.之后調(diào)用sklearn的線性回歸模型來進行訓(xùn)練,之后進行預(yù)測.線性回歸模型一般使用RMSE來評價預(yù)測結(jié)果的好壞.

它的值越小表示預(yù)策的精度越高,所以一般用它來衡量線性回歸預(yù)測結(jié)果.表4是線性回歸的RMSE得分.圖3是真實值和預(yù)測值的圖,實線是預(yù)測值,虛線是真實值.

表4 預(yù)測結(jié)果評估結(jié)果

圖3 線性回歸預(yù)測結(jié)果圖

然后使用隨機森林訓(xùn)練模型.由于隨機森林是一個分類的算法,所以需要把預(yù)測結(jié)果改成類別型數(shù)據(jù).上面說過這里不再闡述.同樣將樣本數(shù)據(jù)和改成類別型數(shù)據(jù)的成績數(shù)據(jù)合在一起,按照75%來劃分訓(xùn)練集和測試集.然后使用隨機森林模型訓(xùn)練,之后進行預(yù)測.分類模型一般會使用召回率(Recall)和精準率(Precision)來檢驗預(yù)測效果的好壞[5].

綜合來看對于掛科率的預(yù)測使用線性回歸的效果較好,RMSE有0.771 5左右,而平均分效果略差一些.如果改為類別型數(shù)據(jù),則只有平均分的效果較好,召回率和精準度均在70%左右,而掛科率的效果則不好.

3 結(jié)語

本文研究了學(xué)生消費行為和成績之間的關(guān)系,并嘗試使用了線性回歸和隨機森林算法對學(xué)生的成績進行預(yù)測.效果不錯,預(yù)測的評估結(jié)果均在可以接受的范圍之內(nèi).研究只限于消費行為,如果有其他合適的數(shù)據(jù)例如學(xué)生出入,或者是上課簽到數(shù)據(jù)等,那么相信效果會進一步提升.

猜你喜歡
線性消費預(yù)測
無可預(yù)測
黃河之聲(2022年10期)2022-09-27 13:59:46
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
線性回歸方程的求解與應(yīng)用
國內(nèi)消費
新的一年,準備消費!
小康(2021年1期)2021-01-13 04:56:24
40年消費流變
商周刊(2018年23期)2018-11-26 01:22:20
二階線性微分方程的解法
不必預(yù)測未來,只需把握現(xiàn)在
东丽区| 曲松县| 柳林县| 阿勒泰市| 二手房| 丰顺县| 化隆| 奉节县| 浦江县| 措美县| 张掖市| 芜湖市| 阳山县| 红桥区| 抚州市| 胶州市| 开封市| 五台县| 图木舒克市| 交城县| 乌鲁木齐市| 丹凤县| 阳春市| 枝江市| 东乡县| 鞍山市| 九台市| 那坡县| 唐山市| 固始县| 于田县| 札达县| 昆山市| 宝兴县| 文安县| 长葛市| 雷山县| 营口市| 交城县| 教育| 张家口市|