戴 斌 楊賽男
(湖南環(huán)境生物職業(yè)技術學院,湖南 衡陽 421005)
在信息化時代,隨著各行業(yè)對大數(shù)據(jù)技術的依賴逐漸加深,技術也迎來了新一輪的轉型,整體朝著多元化的趨勢發(fā)展,傳統(tǒng)的教學模式也受到了影響。各大高校目前不能很好地適應這種環(huán)境,其課堂效率也是根據(jù)高校自身的信息化水平?jīng)Q定的。因此該文明確了目前現(xiàn)有算法的缺陷,并進行優(yōu)化,對高校學生第二課堂學習行為數(shù)據(jù)提取進行研究。詳細介紹了前期數(shù)據(jù)整理中的數(shù)據(jù)來源以及整理過程中所用到的格式變換,并在此基礎上調整數(shù)據(jù),使其更符合算法的要求[1-2]。從而得出一種基于多維正態(tài)分布的前饋分類特征提取方法,該方法能夠更詳細、精確地提取數(shù)據(jù),及時補充缺失數(shù)據(jù)并進行高維映射,為了提取高校學生第二課堂學習行為的數(shù)據(jù),高維特征采用前饋自適應調參這種形式來完成驗證,并證實了該方法的有效性。
1.1.1 學生信息采集
由于當前的高校數(shù)據(jù)化程度與時俱進,因此,學生各科成績均已列入高校云數(shù)據(jù)系統(tǒng)中。需要對該數(shù)據(jù)庫進行分析,收集學生的第二課堂成績信息,主要的收集方式是通過云端采集以及離線部署,數(shù)據(jù)收集完成后會形成專屬于每個學生第二課堂學科成績的Excel 表,然后通過自定義C++程序自動讀取.xlsx 文件進行處理,同時將學生分為不同類別,包括有關第二課堂成績的信息:x(各科目成績)、z(各科目成績學分)、加權平均分、平均分以及成績方差等多個變量,見表1。
表1 學生成績信息采集表
表1 為學生原始成績數(shù)據(jù),根據(jù)該數(shù)據(jù)可以計算學生平均分,如公式(1)所示。
式中:A為平均分;x1~xn為成績;n為學生總人數(shù)。
計算學生的加權平均分,如公式(2)所示。
式中:x1~xn為成績;z1~zn為學分;E為加權平均分。
最終計算出學生的成績方差,如公式(3)所示。
式中:xi為成績;S為通過情況;A為平均分。
1.1.2 學生行為信息采集
當前高校的信息化建設中,最早開始應用也最普及的技術是一卡通。其不僅能夠作為學生的ID 身份,還能集校園中的各種功能于一體,且可以地用于該研究的系統(tǒng)中,可以從學校的現(xiàn)有數(shù)據(jù)庫中提取學生的真實信息,以每學年作為階段性考量單位,以每月作為時間考量單位,將這兩項指標作為評估學生的月圖書館借閱數(shù)和學生資料查詢次數(shù)。再劃分一種以時間線為衡量方式的程序,記錄學生在第二課堂的出勤次數(shù),為獲取學生去校內圖書館的信息以及校園網(wǎng)瀏覽的信息,采用C++程序讀取學校的數(shù)據(jù)庫,從而提取真實的數(shù)據(jù)。在學生類中細分出三項指標,分別為擴展圖書館月平均借閱量c、學生月資料查詢次數(shù)d以及學生出勤次數(shù)e。見表2。
表2 學生行為信息采集表
1.1.3 學生其他信息采集
如果要精準化采集學生的其他信息,那么系統(tǒng)以bool值來定義學生第二課堂的通過情況,狀態(tài)劃分形式為二位二進制,通過情況共分為2 種:未通過為00;通過為01。為計算學生第二課堂通過情況的成員變量,將繼續(xù)提取數(shù)據(jù)庫中的真實信息,并通過C++程序進一步擴展學生類。見表3。
表3 學生其他信息采集表
1.1.4 源數(shù)據(jù)模型
從以上3 種采集形式可以看出,將學生進行抽象處理,劃分為學生類,并將其進行擴展,在其中加入成員變量后,得到最終數(shù)據(jù),見表4。在數(shù)據(jù)集里,該數(shù)據(jù)矩陣是形成最早的一項,如果需要完成網(wǎng)絡訓練數(shù)據(jù)集或預處理數(shù)據(jù)集,那么該源數(shù)據(jù)矩陣是其中的基礎。
表4 源數(shù)據(jù)匯總表
該數(shù)據(jù)矩陣的大小為9×N,矩陣是最終模型的源輸入數(shù)據(jù),每個矩陣=每個學生源數(shù)據(jù)。表4 中,x為成績;z為學分;c為擴展圖書館月平均借閱量;d為學生月資料查詢次數(shù);e為學生出勤次數(shù);S為通過情況;A為平均分;E為加權平均分;D為方差。
綜上所述,盡管每個源數(shù)據(jù)矩陣均為9×N,但屬性大小都不固定,以加權平均分為例,其數(shù)據(jù)大小為1×1,此時需要結合學生的平時成績與學分這兩項維度,通過RBF 核函數(shù)進行映射,最終在高維空間確認是否與學生的兩項維度相符。如果學生的成績數(shù)據(jù)不夠完整,RBF 核也可以采用映射的方式,將N維補齊,以保證最終數(shù)據(jù)矩陣的完整,大小仍為9×N。
根據(jù)針對x'=Xi,(i=1,2,...,n)每行學生信息向量,每行y'=Li,(i=1,2,...,n)學生信息數(shù)據(jù)向量對應的標簽如公式(4)所示。
式中:x和y為原始數(shù)據(jù)的樣本點;k(x',y')為RBF 核函數(shù)的輸出,它是學生信息向量x'和y'之間的相似度或距離度量;φ(x')和φ(y')為通過RBF 核函數(shù)映射后的學生信息向量(x'和y')在高維特征空間中的表示;e為自然對數(shù)的底數(shù),即歐拉數(shù)(Euler's Number);α為RBF 核函數(shù)的一個參數(shù),用于調節(jié)映射后數(shù)據(jù)在高維空間中的分布。較大的α值會使映射后的數(shù)據(jù)分布更集中,而較小的α值會使數(shù)據(jù)分布更分散。
公式(4)代表的方法就像上文提到的映射法,能夠具體映射到N維空間,其中α所代表的含義為Gamma 值(RBF核參數(shù)),能夠計算高維空間中的個體元素,如公式(5)所示。
在該反饋方式的基礎上,為了能得到全局最優(yōu)解(各個參數(shù)),需要最優(yōu)調整多維正態(tài)分布參數(shù),調整方法為迭代算法?;诜答伒膮?shù)調整流程,如圖1 所示。
圖1 基于反饋的參數(shù)調整流程
閾值參數(shù)調整(正態(tài)分布):平均閾值(正態(tài)分布)μ,該值非常重要,不僅能影響網(wǎng)格訓練細化程度,還能決定最終結果的精準度,要使閾值參數(shù)能夠更接近最優(yōu)值,可以嘗試梯度下降迭代法,該方法通過對比計算機的2 種值(一個值與原先值)的結果,來觀察最終呈現(xiàn)的效果是否為顯性,結果是顯性,就嘗試預估方向(增量),結果不是顯性,就嘗試反方向(增量)。為得到最優(yōu)值,需要進行不斷迭代選擇[3]。根據(jù)導數(shù)性質可知:正數(shù)函數(shù)為單調遞增;負數(shù)函數(shù)為單調遞減。如果要判斷函數(shù)是否平穩(wěn),須明確導數(shù)值是否為0,為0 函數(shù)處于平穩(wěn)狀態(tài)。對fx關于x求導得到fx',可以看出,最開始的迭代次數(shù)為1 000,得到了μ值,而極值是在3.725 4 處達到的,當后續(xù)迭代次數(shù)持續(xù)增加到16 000 時,μ值發(fā)生了變化,在7.931 7 處時陷入了僵值。為了改變狀態(tài),采取二分嘗試方法,取8 500 的中值(1 000~16 000),經(jīng)過迭代后可以發(fā)現(xiàn)μ值所能達到理論最優(yōu)階段是在4.372 1 處,于是進一步改變迭代次數(shù),分別取10 500 次與6 500 次,當增加迭代次數(shù)時,發(fā)現(xiàn)μ值出現(xiàn)了融合狀態(tài),而在減少迭代次數(shù)后處于欠融合的狀態(tài),此時繼續(xù)采用二分嘗試方法,取9 500 次的中值(8 500~10 500),μ通過迭代后最終值為4.762 9,繼續(xù)改變迭代次數(shù),分別取9 500~10 500 和8 500~9 500 的中值。根據(jù)上述方法反復嘗試,最終得出全局理論最優(yōu)值μ為4.6738,確定了μ為閾值參數(shù)(正態(tài)分布),見表5。
表5 閾值參數(shù)變動表
學生信息矩陣(歸一化后)計算如公式(6)所示。
公式(6)為歸一化處理法,將其運用到矩陣K中,y為學生信息矩陣K(待歸一化);x為學生信息矩陣(歸一化后);μ為平均值;Mmax為所有元素中最大值向量;Mmin為所有元素中最小值向量。
主要采用PCA 主成分法以及卡方檢驗等方法對文本大數(shù)據(jù)進行特征提取,但這兩種方法只能運用于單一類的數(shù)據(jù),無法精準有效地提取學生數(shù)據(jù)這類多元化的信息類別,所以最終結果不夠具有科學性[4]。
為驗證該方法的準確性,該文將某高校2018—2020 屆學生作為試驗分析對象,提取成績、考勤次數(shù)、通過率、和月圖書館借閱數(shù)以及學生資料查詢次等數(shù)據(jù),獲取了20 512 個名學生信息。最終選取2018—2020 屆畢業(yè)生作為訓練建模對象,測試對象為2021 屆畢業(yè)生。其中順利通過考試的學生為1,沒有順利通過考試的學生為0。為驗證其模型精準度,提取2021 屆的5301 名的畢業(yè)生數(shù)據(jù),將順利通過考試的學生劃為正類,沒有順利通過考試的學生劃為負類。
定義TP:正類—正類數(shù),F(xiàn)N:正類—負類數(shù),F(xiàn)P:負類—正類數(shù),TN:負類—負類數(shù)。
為了使最終結果更具科學性,試驗采取多次測試并得出結果:當四種人數(shù)(895、1785、3864、5301)作為測試集時,最高能達到98.17%的準確度和94.21%的穩(wěn)定度,并且平均誤檢率與正、負召回率也都較穩(wěn)定,分別是1.83%、99.12%和76.33%。具體數(shù)據(jù)見表6 ~表8。
表6 系統(tǒng)各項指標對照表
表7 各類算法預測準確率對照表
表8 各類算法預測負召回率對照表
由此可見,LSTM 網(wǎng)絡與支持向量機和隨機森林這類傳統(tǒng)的學生學習行為數(shù)據(jù)提取算法相比,準確度更高,誤檢率更穩(wěn)定,主要體現(xiàn)在4 個人數(shù)測試中。與其他相對冷門的算法相比,LSTM 網(wǎng)絡的可塑性更強,擴展范圍也更廣,因此證明該算法在高校學生第二課堂學習行為數(shù)據(jù)提取方面具有很好的效果。
該文在多維正態(tài)分布的基礎上,對某高校學生第二課堂學習行為數(shù)據(jù)提取進行研究,采取學生的常規(guī)數(shù)據(jù)信息:成績、考勤次數(shù)和通過率,將這3 項數(shù)據(jù)作為數(shù)據(jù)源,進一步驗證數(shù)據(jù)的準確性,并運用深度學習優(yōu)化算法,構建了基于LSTM 優(yōu)化算法的高校學生第二課堂學習行為數(shù)據(jù)提取系統(tǒng),補充了月圖書館借閱數(shù)和學生資料查詢次數(shù)等指標作為數(shù)據(jù),通過學生行為數(shù)據(jù)分布進行區(qū)分,將應屆畢業(yè)生的考試通過數(shù)據(jù)作為測試案例,試驗結果證明該算法在高校學生學習行為數(shù)據(jù)提取方面具有很好的效果,對各高校具有非常重要的參考價值。