国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于線性回歸算法的在線學(xué)習(xí)行為分析

2022-08-02 01:44:56郭玲玲范思萌蘇冬娜
計算機技術(shù)與發(fā)展 2022年7期
關(guān)鍵詞:降維聚類特征

郭玲玲,范思萌,王 梅,蘇冬娜

(東北石油大學(xué) 計算機與信息技術(shù)學(xué)院,黑龍江 大慶 163318)

0 引 言

網(wǎng)絡(luò)教育是通過互聯(lián)網(wǎng)途徑傳播教學(xué)內(nèi)容的一種方法。在“網(wǎng)絡(luò)+教育”的推動下,網(wǎng)絡(luò)教育得到了迅速發(fā)展,各種教育資源在該平臺上不斷完善。這些平臺上匯聚了大量的資源,學(xué)習(xí)者和教育從業(yè)人士,形成了平臺的大數(shù)據(jù)[1]。這些大數(shù)據(jù)由學(xué)習(xí)者和教育人士在教學(xué)過程中的各種動態(tài)數(shù)據(jù)組成。這就促使在線分析成為教育領(lǐng)域的研究重點之一,它根據(jù)獲取到的學(xué)生在線平臺產(chǎn)生的動態(tài)數(shù)據(jù)[2],利用數(shù)據(jù)分析算法對學(xué)生實際的學(xué)習(xí)行為進行分析,根據(jù)分析結(jié)果達到提升教師教學(xué)水平與學(xué)生學(xué)習(xí)能力的目的[3]。

選取該校計算機科學(xué)與技術(shù)專業(yè)學(xué)生及相關(guān)課程為研究對象,從在線學(xué)習(xí)平臺的學(xué)生學(xué)習(xí)行為分析著手,跟蹤課程學(xué)習(xí)過程,利用機器語言中的算法對學(xué)生的學(xué)習(xí)行為進行分析,以便從中挖掘?qū)W習(xí)行為與學(xué)習(xí)結(jié)果之間的映射關(guān)系,從而使得教師能夠更客觀更科學(xué)地了解到影響學(xué)生成績的因素[4]。教師還可以根據(jù)每個學(xué)生的學(xué)習(xí)行為來分析學(xué)生學(xué)習(xí)特點,采取針對性教學(xué),根據(jù)不同的情況給予不同的建議,有效改善學(xué)生學(xué)習(xí)結(jié)果。

1 理論基礎(chǔ)

1.1 在線學(xué)習(xí)行為

學(xué)習(xí)分為外顯學(xué)習(xí)和內(nèi)隱學(xué)習(xí)。在傳統(tǒng)教學(xué)中,學(xué)習(xí)者在課堂環(huán)境中與學(xué)習(xí)者、教師和教學(xué)資源互動的行為稱為學(xué)習(xí)行為。這樣的學(xué)習(xí)行為只能通過教師的觀察、視頻存儲和問卷調(diào)查來記錄。但是這些方式不能每時每刻,十分全面地記錄學(xué)生在課堂上的學(xué)習(xí)行為,會導(dǎo)致對學(xué)習(xí)行為分析造成一定的困難。始終缺少一手的實際數(shù)據(jù),且沒構(gòu)成系統(tǒng)的理論分析體系是對于內(nèi)隱的學(xué)習(xí)行為潛能的研討的現(xiàn)狀。由于在線課程的發(fā)展,在線學(xué)習(xí)應(yīng)運而生。在線學(xué)習(xí)行為一般包括:在線學(xué)習(xí)時長、學(xué)生測試成績以及學(xué)習(xí)者對教學(xué)視頻、簽到、教學(xué)安排等活動的點擊行為。更多的是憑借學(xué)生自己的喜好自主進行選擇,自然地呈現(xiàn)學(xué)習(xí)者的一些隱性學(xué)習(xí)行為[5]。因此,對在線學(xué)習(xí)行為的研究變得越來越有意義,研究對象也逐漸從離線學(xué)習(xí)行為轉(zhuǎn)向了在線學(xué)習(xí)行為。

1.2 機器學(xué)習(xí)

機器學(xué)習(xí)的目的在于通過算法讓機器從海量歷史數(shù)據(jù)中學(xué)習(xí)的規(guī)律,主動發(fā)現(xiàn)模式并用于推斷未來的行為,是通過經(jīng)歷或數(shù)據(jù)來改良算法的研究[6]。在學(xué)習(xí)分析中,機器學(xué)習(xí)的作用在于數(shù)據(jù)挖掘和數(shù)據(jù)解釋,致力于完成傳統(tǒng)教育無法完成的任務(wù)。機器學(xué)習(xí)包括:無監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等[7]。

1.2.1 無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)旨在挖掘整體數(shù)據(jù)集內(nèi)部含有的隱含內(nèi)容和規(guī)律,從而建立相應(yīng)的模型實現(xiàn)對樣本的剖析,主要針對的對象是沒有標簽的未標記數(shù)據(jù)集。

常見的無監(jiān)督學(xué)習(xí)算法:聚類和降維。

(1)聚類:將數(shù)據(jù)分為多類的過程是根據(jù)數(shù)據(jù)的“相似性”。三種聚類算法比較如表1所示。

表1 三種聚類算法比較

經(jīng)過比較,該文使用K-means聚類算法,優(yōu)點在于算法較簡易;收斂速度快;便于理解;當(dāng)處理海量數(shù)據(jù)時有較高的可伸縮性;是很好的聚類算法即使數(shù)據(jù)集呈凸形和球形分布[8]。

(2)降維:能夠確保含有象征性的數(shù)據(jù)的特征或分布,同時將高維數(shù)據(jù)轉(zhuǎn)化為低維數(shù)據(jù)。它通??梢杂脕砜梢暬瘮?shù)據(jù)或中間過程,減少數(shù)據(jù)數(shù)量,提高其他機器學(xué)習(xí)算法的效率。常用的降維方法有:主成分分析(PCA)、局部線性嵌入(LLE)、拉普拉斯特征映射[8]。

由于PCA降維具有計算方法簡單,便于實現(xiàn);使用方差權(quán)衡信息量,不受數(shù)據(jù)集之外的要素影響等優(yōu)勢,因此,這里使用PCA降維方法。

1.2.2 監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)的訓(xùn)練集含有輸入和輸出,輸入的是模型中的特征,輸出的是目標。從已有的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出來特定的函數(shù)(模型參數(shù)),當(dāng)新數(shù)據(jù)到來時,能夠依據(jù)該函數(shù)推測結(jié)果。監(jiān)督學(xué)習(xí)常見的是分類問題,根據(jù)模型將一切輸入映射為相應(yīng)的輸出,依據(jù)已有的訓(xùn)練樣本得到一個最優(yōu)模型,完成分類的目的根據(jù)的是對輸出進行判斷,模型應(yīng)具備對隨機輸入進行分類的能力。

普遍的監(jiān)督學(xué)習(xí)算法有統(tǒng)計分類和回歸分析兩種。統(tǒng)計分類的目標變量是標稱型的,而回歸分析的目標變量是連續(xù)數(shù)值型的。因此對于在線學(xué)習(xí)行為分析采用回歸分析進行數(shù)據(jù)分析[9]?;貧w分析常用的算法有線性回歸和邏輯回歸。線性回歸具有建模速度快,可以根據(jù)系數(shù)給出每個變量的理解和解釋;對異常值很敏感的優(yōu)點,因此采用線性回歸進行分析數(shù)據(jù)。

2 基于K-means聚類和線性回歸建模

2.1 K-means聚類

K-means聚類算法先隨機設(shè)定k個聚類中心,根據(jù)距離把樣本點劃分到所屬類別,依次計算每個樣本點到每個聚類中心的距離,并且選取最小距離,對每個樣本點進行類別劃分。之后在k個劃分的類別中求出每個類別的質(zhì)心位置,以該位置作為新的聚類中心,不停地迭代,直到聚類中心不再發(fā)生變化為止[10]。K-means聚類的具體流程如圖1所示。

圖1 K-means聚類具體流程示意圖

2.2 PCA降維

在K-means聚類分析中,會遇到特征維度比樣本數(shù)量多得多的狀況,導(dǎo)致效果不一定好。一是由于冗余特征可能會導(dǎo)致一些噪音,影響計算的結(jié)果;二是因為無關(guān)的特征會造成計算量加大,消耗時間和資源。因而要對數(shù)據(jù)進行降維,縮小特征空間的維度,抽取子空間的數(shù)據(jù)來最優(yōu)地表明實驗所需的數(shù)據(jù),從而減少參數(shù)預(yù)估的誤差。

樣本經(jīng)過皮爾森系數(shù)篩選以及一些手動篩選剩余12個特征,特征維度較大,采取PCA降維對樣本中的特征進行降維。具體運用機器學(xué)習(xí)sk-learn模塊中的PCA函數(shù)來實現(xiàn)對特征進行降維。在聚類中刪除了相關(guān)性弱的特征,僅用到6個特征;但在畫圖時,為了便于觀察使用了全部特征來進行PCA降維,降至2維。

2.3 線性回歸

建立模型之后,可以將問題轉(zhuǎn)換為線性回歸問題。由于線性回歸算法簡單,易于實現(xiàn),這里選擇線性回歸算法分析學(xué)生不同的行為特征和成績的關(guān)系。實驗中在對聚類結(jié)果的每個簇內(nèi)特征的均值和方差進行分析后,發(fā)現(xiàn)簇內(nèi)方差較小,均值差距明顯;但由于數(shù)據(jù)規(guī)模較小,且較多數(shù)據(jù)方差較小,很難使用多變量非線性回歸的方法處理,因此,選用單變量回歸方法,分析單一特征對于成績的關(guān)系,具體分析作業(yè)得分,觀看視頻時長,課程測試得分,訪問數(shù)得分,任務(wù)點完成百分比,期末前綜合成績等對最終成績的影響關(guān)系。

在分析單一特征對于成績的關(guān)系時,對聚類后的6個點進行回歸作圖和折線作圖。在回歸作圖中通過觀察最小二乘回歸模型的斜率以及陰影部分的面積(表示斜率的可能范圍)可以知道該特征對成績的影響趨勢;在折線作圖中,可以根據(jù)波動情況知道該特征對成績影響的穩(wěn)定性。

3 實驗詳細設(shè)計與實現(xiàn)

針對該校計科16級同學(xué)的《操作系統(tǒng)》課程數(shù)據(jù),通過K-means聚類算法和線性回歸算法,使用Python語言進行編寫,實現(xiàn)學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)分析[11],主要功能與技術(shù)模塊包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)聚類分析、學(xué)習(xí)成績與特征的線性回歸分析[12],如圖2所示。

圖2 主要功能模塊示意圖

3.1 數(shù)據(jù)預(yù)處理

(1)對采集的數(shù)據(jù)進行清洗。

將現(xiàn)有的學(xué)習(xí)數(shù)據(jù)通過刪除、填充、重命名轉(zhuǎn)換成算法可以分析的數(shù)據(jù)格式。

例如:學(xué)習(xí)者觀看視頻情況中存在學(xué)習(xí)者觀看視頻時長為空值,將這些空值以該列均值補全;有些學(xué)生因特殊情況退出本次課程學(xué)習(xí),導(dǎo)致接下來學(xué)習(xí)得分全為空值,將這些數(shù)據(jù)進行刪除。

(2)進行特征篩選。

①具有共線性的特征只選擇其中一個,關(guān)鍵代碼如下:

def delete_correlation(df, threshold=0.99):

check_df = df.copy()

if "學(xué)號賬號" in df.columns:

check_df = df.drop(["學(xué)號賬號"], axis=1).copy()

corr=np.abs(check_df.corr().values) > threshold

to_delete=[]

for i in range(corr.shape[0]):

if np.sum(corr[i, i+1:]) > 1:

to_delete.append(check_df.columns[i])

cols=[col for col in df.columns if col not in to_delete]

return df[cols]

②標準差小于0.5的刪除,關(guān)鍵代碼如下:

def std_analysis(df, threshold=0.5):

std_filter = ['學(xué)號賬號']

process_col = [col for col in df.columns if col not in std_filter]

for col in process_col:

if df[col].std() > threshold:

std_filter.append(col)

return df[std_filter]

③計算皮爾森系數(shù),系數(shù)高于0.5的特征保留,關(guān)鍵代碼如下:

def corr_analyse(df, score_col, thres=0.5):

strong_feature = []

corr_dict = {}

for col in df.columns:

if col not in ['學(xué)號賬號', 'UID', '表6-綜合成績', '表5-綜合成績']:

corr = pearson(df, col, score_col)

if corr>thres:

strong_feature.append(col)

corr_dict[col] = corr

return strong_feature, corr_dict

經(jīng)過皮爾森算法的篩選,學(xué)習(xí)行為特征包括:期末前綜合測試成績、五級制等級(ABCDE)、考試得分、課程視頻得分、課程視頻進度、課程測驗得分、視頻觀看時間、任務(wù)完成百分比等[13]。

這里以課程考試統(tǒng)計情況表為例說明一下統(tǒng)計情況,如表2所示。

表2 課程考試統(tǒng)計情況

篩選過后的特征皮爾森系數(shù)如表3所示。

表3 特征皮爾森系數(shù)統(tǒng)計

3.2 實驗結(jié)果

(1)聚類分析。

聚類時,僅使用了每個子表的總計特征,其中相關(guān)性弱的特征被刪除,用到的特征包括:作業(yè)得分、觀看視頻時長、課程測試得分、任務(wù)點完成百分比、期末前綜合成績等。畫圖時,使用全部特征進行PCA降維,降到2維,進行描點。

①PCA降維結(jié)果如圖3所示。

圖3 降維結(jié)果展示圖

聚類時通過PCA降維方法將聚類使用的特征映射到x軸,y軸為最后的得分,并且將不同的簇表示成不同的顏色。

②聚類分析結(jié)果如圖4所示。

圖4 聚類結(jié)果可視化

通過畫圖可以看出使用篩選后的特征進行聚類之后,在成績層面有很好的區(qū)分度[14]。聚類結(jié)果的每個簇內(nèi),對統(tǒng)計特征的均值和方差進行分析可以得出,簇內(nèi)方差較小,均值差距明顯,聚類效果合理[15-16]。因此統(tǒng)計每個簇內(nèi)的特征均值,如表4所示。

表4 簇內(nèi)特征均值統(tǒng)計

結(jié)合統(tǒng)計表與可視化可以看出,對于視頻觀看時長、訪問數(shù)、任務(wù)點完成百分比和期末前綜合成績四個特征,獲得的經(jīng)驗越高,最終成績越高;而對于作業(yè)得分和課程測試兩個特征,結(jié)合6個聚類群體來看,對最終成績影響不大。

(2)回歸分析。

以“任務(wù)點完成百分比”特征為例進行說明。圖5統(tǒng)計六個簇的簇內(nèi)平均任務(wù)點完成百分比,上子圖為回歸分析圖,下子圖為折線圖。

從圖5中可以看出:

圖5 任務(wù)完成百分比-最終成績回歸分析

①上子圖斜率明顯,且陰影面積較窄,可得出任務(wù)完成百分比得分與最終成績正相關(guān)線性關(guān)系明顯;

②下子圖波動較小,且有明顯上升趨勢,與上子圖得出相同結(jié)論。

3.3 實驗結(jié)果分析

通過對實驗結(jié)果可視化進行的分析得出了各個特征對于最終成績的影響程度,基于影響程度響學(xué)生以及教師給出以下建議。

(1)從學(xué)生的角度來看:

①從影響比較大的因素(觀看視頻時長、平臺訪問數(shù)、任務(wù)完成百分比、期末前綜合測試)觀察:其中影響最大的是任務(wù)完成百分比,其次是視頻觀看時長,然后是訪問數(shù),最后是期末前綜合測試。應(yīng)多花些時間去完成老師布置的任務(wù);對于老師在平臺上發(fā)布的視頻應(yīng)該及時觀看,并且掌握其中的知識點;應(yīng)多次進入在線教學(xué)平臺去鞏固自己的知識,預(yù)習(xí)或復(fù)習(xí)課程知識點;對于期末前綜合測試應(yīng)給予一定的重視積極復(fù)習(xí)。

②從影響比較小的因素(作業(yè)得分和課程測驗得分)觀察:只要認真對待課后作業(yè)和課程測驗即可,不必在上邊浪費太多時間。

(2)從教師的角度來看:

①從影響比較大的因素(觀看視頻時長、平臺訪問數(shù)、任務(wù)完成百分比、期末前綜合測試)觀察:首先發(fā)布任務(wù)之后應(yīng)該督促學(xué)生及時完成,并且給予一定的指導(dǎo);多發(fā)布一些與課程相關(guān)的視頻,以便于學(xué)生觀看學(xué)習(xí)。

②從影響比較小的因素(作業(yè)得分和課程測驗得分)觀察:應(yīng)該盡量減少布置作業(yè)的數(shù)量,進行適當(dāng)?shù)恼n程測驗即可。

4 結(jié)束語

通過使用機器學(xué)習(xí)算法中的K-means聚類算法來對在線課程教學(xué)數(shù)據(jù)進行分析。實驗數(shù)據(jù)來源于東北石油大學(xué)16級計算機科學(xué)與技術(shù)學(xué)生使用在線平臺學(xué)習(xí)《操作系統(tǒng)》產(chǎn)生的數(shù)據(jù),對在線教學(xué)數(shù)據(jù)的分析取得了階段性的成果。具體完成的研究工作如下:

(1)對學(xué)習(xí)者進行聚類建模。

使用該模型能根據(jù)學(xué)生的學(xué)習(xí)行為對學(xué)習(xí)者進行聚類。教師可根據(jù)聚類結(jié)果給予學(xué)生更為優(yōu)質(zhì)更為科學(xué)的學(xué)習(xí)資源,對不同類型的學(xué)生給予不同的指導(dǎo)建議。

(2)對學(xué)生學(xué)習(xí)行為進行分析。

在線平臺給予學(xué)生的在線活動很多,導(dǎo)致衡量學(xué)生學(xué)習(xí)成效的考慮因素很多,對學(xué)生最終學(xué)習(xí)成績影響因素進行篩選。從在線平臺上學(xué)生學(xué)習(xí)行為中選取對學(xué)生最終成績產(chǎn)生較大的行為,并確定篩選出來的影響因素的重要程度。給予教師指導(dǎo)意見,以便于教學(xué)幫助學(xué)生提高學(xué)習(xí)能力。

猜你喜歡
降維聚類特征
混動成為降維打擊的實力 東風(fēng)風(fēng)神皓極
車主之友(2022年4期)2022-08-27 00:57:12
降維打擊
海峽姐妹(2019年12期)2020-01-14 03:24:40
如何表達“特征”
不忠誠的四個特征
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
抓住特征巧觀察
基于改進的遺傳算法的模糊聚類算法
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
拋物化Navier-Stokes方程的降維仿真模型
計算物理(2014年1期)2014-03-11 17:00:18
基于特征聯(lián)合和偏最小二乘降維的手勢識別
建瓯市| 白朗县| 隆林| 白水县| 莱阳市| 讷河市| 宜宾市| 金坛市| 碌曲县| 泊头市| 微山县| 贡觉县| 盐山县| 鹤壁市| 临夏市| 南城县| 白玉县| 冀州市| 邯郸县| 天津市| 晋州市| 南昌市| 新郑市| 罗源县| 托克托县| 邯郸市| 石棉县| 清丰县| 新平| 英德市| 松阳县| 麻阳| 青阳县| 石嘴山市| 河池市| 吴桥县| 明光市| 东明县| 邓州市| 湘乡市| 崇明县|