国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

部分線性Logistic模型在大學(xué)生掛科率預(yù)測中的應(yīng)用

2022-06-14 08:32:04卞紀(jì)蘭王純杰王淑影趙桂燕
關(guān)鍵詞:掛科第二課堂線性

趙 波, 卞紀(jì)蘭, 王純杰, 王淑影, 趙桂燕

(1.長春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院, 長春 130012;2.黑龍江八一農(nóng)墾大學(xué) 經(jīng)濟(jì)管理學(xué)院, 大慶 163319)

0 引 言

近年來,隨著我國高等教育由精英化教育轉(zhuǎn)向大眾化教育的轉(zhuǎn)變,高校的高速度擴(kuò)招,使得我國高等教育快速普及。但是,也不可避免地為高校的教育質(zhì)量帶來一些新的問題[1]。特別是當(dāng)代大學(xué)生掛科(考試不及格)問題越發(fā)凸顯。因此,如何預(yù)防學(xué)生掛科已經(jīng)成為當(dāng)前學(xué)生管理研究的主要任務(wù)之一。

截至目前,已有不少學(xué)者對當(dāng)代大學(xué)生的掛科現(xiàn)象進(jìn)行了分析。羅晨輝指出當(dāng)代大學(xué)生受到物質(zhì)和精神世界的雙重誘惑,思想上對學(xué)習(xí)的過度輕視、學(xué)習(xí)的盲從等因素是造成大學(xué)生掛科的主要原因[2];李丹花指出學(xué)習(xí)目標(biāo)不明確,沉迷于網(wǎng)絡(luò)、學(xué)習(xí)期間兼職打工以及為情所困,迷失自我是導(dǎo)致大學(xué)生掛科的主要原因[3];高朋敏等從環(huán)境變化、目標(biāo)缺失等方面揭示大學(xué)生的掛科原因[4]等等。這些文章均是通過定性分析方法得到的,因此缺少一些數(shù)據(jù)的支撐。當(dāng)然,也有一些學(xué)者已經(jīng)對其展開了定量分析,例如,馬丹妮從機(jī)器學(xué)習(xí)角度建立了學(xué)生學(xué)業(yè)預(yù)警模型,通過分析統(tǒng)計某大學(xué)學(xué)生成績等數(shù)據(jù),分別實現(xiàn)學(xué)生課程掛科預(yù)測和學(xué)生畢業(yè)情況預(yù)測,從而實現(xiàn)異常學(xué)生學(xué)業(yè)預(yù)警[5];張麗華等利用Logistic回歸模型分析了大學(xué)數(shù)學(xué)考試成績,發(fā)現(xiàn)學(xué)生入學(xué)高考成績與性別對該校學(xué)生大學(xué)數(shù)學(xué)掛科有著顯著性影響[6];韋新星基于Logistic回歸分析與判別分析相結(jié)合,對大學(xué)生掛科的預(yù)測問題進(jìn)行研究,但是該文獻(xiàn)中忽略了分類閾值選擇以及忽略了連續(xù)變量對掛科概率的非現(xiàn)線性影響,因而造成信息的損失,以至于分類問題沒有達(dá)到最優(yōu)解[7]。

因此,本文將從定量分析的角度出發(fā),結(jié)合東北地區(qū)高校管理背景,考慮非線性因素的影響,提出部分線性Logistic回歸模型,并利用Sieve方法逼近非線性函數(shù),基于極大似然推斷模型參數(shù)。根據(jù)參數(shù)結(jié)果分析非線性函數(shù)以及其余分類變量對掛科概率的影響。最后畫出ROC曲線說明該模型可以有效地分出掛科與不掛科的學(xué)生,約登指數(shù)為學(xué)生分類提供了一個最優(yōu)的分類閾值。

1 數(shù)據(jù)來源及指標(biāo)體系

從定量分析的角度,隨機(jī)收取黑龍江某高校在校二年級學(xué)生對其掛科問題進(jìn)行研究。原始數(shù)據(jù)來源于該校在校二年級學(xué)生的生活狀況,以及該校的相關(guān)政策。將學(xué)生是否掛科作為因變量y,如果存在掛科,則y=1,如果沒有掛科,則y=0。從學(xué)校的相關(guān)政策以及管理角度出發(fā),為了分析學(xué)生掛科的情況,收集到138個樣本,包括第二課堂成績(課外成績以及一些定性變量量化后的綜合得分-由某高校的文件支撐)、性別、專業(yè)(收集到的數(shù)據(jù)中僅有兩個專業(yè),分為A類和B類)、戀愛情況、文科生還是理科生(抽樣的班級高考錄取時文理兼招)、高考生源所在地、兼職情況以及是否有逃課經(jīng)歷(不論請假與否,均視為曠課)等8個影響因素作為協(xié)變量,其中第二課堂成績是根據(jù)在校學(xué)生在大二學(xué)年獲得的獎項、榮譽(yù)以及參加學(xué)校、學(xué)院和班級活動情況的分值量化,有各項活動分的一個累積值,因此是一個取值大于0的連續(xù)變量(如果參加活動足夠多,該變量的取值會足夠大),其他變量均是離散的分類變量。具體的變量取值及其對應(yīng)含義如表1所示。

表1 變量取值及其對應(yīng)含義

2 部分線性Logistic模型

Logistic回歸分析是一種廣義的線性預(yù)測回歸模型[7],在社會學(xué)、人口學(xué)、計量經(jīng)濟(jì)學(xué)、環(huán)境科學(xué)、醫(yī)學(xué)、氣象學(xué)以及生物學(xué)等領(lǐng)域有著廣泛的應(yīng)用[8-11]。假設(shè)y是感興趣的0-1型變量,y=1表示設(shè)定的感興趣的類別,發(fā)生的概率P(y=1)=π;y=0表示設(shè)定的不感興趣的類別,發(fā)生的概率P(y=0)=1-π。傳統(tǒng)的Logistic回歸模型假設(shè)興趣事件的概率與各個協(xié)變量之間呈現(xiàn)線性關(guān)系,因此Logistic模型的一般形式表示為:

(1)

然而,在實際應(yīng)用中興趣事件的概率受到一些非線性因素的影響,從而考慮下面部分線性Logistic回歸模型:

(2)

式中:β0,β1,β2,…,βp-1,βp表示回歸系數(shù);x1,x2,…,xp-1,xp表示協(xié)變量;z表示連續(xù)型協(xié)變量;f(·)表示非線性函數(shù)。

在模型(2)下考慮樣本量為n的樣本,對個體i,i=1,2,…,n,則對數(shù)似然函數(shù)為:

(3)

為了估計非線性函數(shù),選擇Sieve方法[12-16]對未知函數(shù)f(z)逼近,具體過程如下:

Step2: 在區(qū)間[a,b]生成B樣條基函數(shù)Bj(z),j=1,2,…,J;

Step3: 定義Sieve空間Φ={f(z):z∈[a,b],|f(z)|≤M,γ∈RJ},其中

式中:γj(j=1,2,…,J)表示Sieve空間未知樣條參數(shù);M為預(yù)先設(shè)置的常數(shù);J為滿足增加速率為O(nυ)整數(shù),且0<υ<0.5。

設(shè)θ=(β0,β1,β2,…,βp-1,βp,γ1,γ2,…,γJ-1,γJ)T,對數(shù)似然函數(shù)式(3)可以寫作:

(4)

為了獲得模型中的參數(shù),考慮兩階段優(yōu)化算法,推斷模型參數(shù),先優(yōu)化回歸參數(shù),再優(yōu)化出樣條參數(shù),具體過程如下:

Step1: 選擇初始參數(shù)β(0)和γ(0);

Step2: 在第s+1次迭代步驟中,給定第s次迭代步驟γ的值γ(s),更新β(s)為β(s+1);

Step3: 在第s+1次迭代步驟中,給定第s+1次迭代步驟β的值β(s+1),更新γ(s)為γ(s+1);

Step4: 直至在給定的條件閾值下收斂,即‖θ(s+1)-θ(s)‖≤0.001。

式中k,l=1,2,…,p+J+1。

3 實證分析

3.1 結(jié)果及分析

基于部分線性Logistic回歸來分析預(yù)測黑龍江某高校在校二年級學(xué)生掛科情況的影響因素,其中變量z表示第二課堂成績,是連續(xù)型協(xié)變量。假設(shè)第二課堂成績與掛科概率呈現(xiàn)的影響呈非線性關(guān)系,其余變量x1,x2,…,x7均是離散變量,與掛科概率呈線性關(guān)系。為了估計模型中的非線性函數(shù),選擇三次B樣條,兩個隨機(jī)節(jié)點組成樣條基函數(shù)[17-18],即J=5,從而逼近未知函數(shù)。最后在部分線性模型下,基于R軟件計算該模型參數(shù)估計,獲得結(jié)果如表2與圖1所示。為了研究數(shù)據(jù)與模型的適用程度,選擇 Hosmer-Lemeshow(H-L)統(tǒng)計量檢驗?zāi)P偷臄M合優(yōu)度[19],且計算得H-L統(tǒng)計量的值為4.012 7,P值=0.856,所以部分線性Logistic回歸模型對實際數(shù)據(jù)擬合度較高,可以有效地應(yīng)用該結(jié)果來預(yù)測該校二年級學(xué)生是否屬于掛科類,從而給予警示。

表2 部分線性Logistic模型分析結(jié)果

由表2可知,在部分線性Logistic回歸模型下,所收集到的138個數(shù)據(jù)中,x1(性別)所對應(yīng)的回歸系數(shù)β1=4.476 8,標(biāo)準(zhǔn)差為1.355,P值=0.000 95,因此在給定顯著性水平α=0.05時,性別對掛科概率有著顯著的影響,表明在控制其他因素的情況下,男性的掛科率遠(yuǎn)高于女性;x6(逃課經(jīng)歷)對應(yīng)的回歸系數(shù)β6=6.306 3,標(biāo)準(zhǔn)差為1.572 5,P值=0.000 06,因此在給定顯著性水平α=0.05時,逃課經(jīng)歷對掛科概率有著顯著的影響,且在控制其他因素的情況下,存在逃課經(jīng)歷的學(xué)生的掛科率遠(yuǎn)高于從沒逃課的學(xué)生;x7(專業(yè)) 對應(yīng)的回歸系數(shù)β7=-2.094 8,標(biāo)準(zhǔn)差為0.882 7,P值=0.017 63,因此在給定顯著性水平α=0.05時,不同專業(yè)的班級對掛科概率有著顯著的影響,且在控制其他因素的情況下,專業(yè)A類的學(xué)生的掛科率遠(yuǎn)低于專業(yè)B類的學(xué)生;大學(xué)生時代是否戀愛、考生屬于文科考生還是理科考生、是本省考生還是外省考生以及是否在校內(nèi)外兼職等變量對應(yīng)的P值均大于給定顯著性水平(α=0.05),因此在誤差允許的范圍內(nèi),這些變量對于掛科概率并沒有顯著影響。

第二課堂成績的函數(shù)曲線如圖1所示,在有限的樣本下,函數(shù)曲線的單調(diào)性先增加,再降低,后平穩(wěn),最后又增加。第二課堂成績對于掛科概率的影響具有波動性,先增加,再降低,平穩(wěn),最后上升。第二課堂成績主要是基于各種活動與榮譽(yù)獲獎加分獲得的,因此,若要取得高分需花費大量的時間去參與各項活動,第二課堂成績較低時,學(xué)生花費的時間很少,可能會增加學(xué)生的惰性。因此,為了更好地促使學(xué)生發(fā)揮主觀能動性,主動學(xué)習(xí),避免學(xué)生有過高的掛科率,應(yīng)該設(shè)置合理的取值范圍(如圖1中展示的15至35分),從而實現(xiàn)學(xué)生積極參與活動時間與投入學(xué)習(xí)時間的平衡。即在保證鍛煉自身能力的同時,還要保證充分有效的學(xué)習(xí)時間,從而降低學(xué)生掛科概率。

圖1 第二課堂成績函數(shù)曲線

3.2 分類判別

在二分類問題的預(yù)測問題中,結(jié)果僅可能出現(xiàn)四種:(1)真正類(TP)-樣本點屬于正類并且被預(yù)測為正類;(2)假正類(FP)-樣本點屬于負(fù)類且被預(yù)測為正類;(3)真負(fù)類(TN)-樣本點屬于負(fù)類且被預(yù)測為負(fù)類;(4)假負(fù)類(FN)-樣本點屬于正類且被預(yù)測為負(fù)類。根據(jù)這四種情況可得表3。

表3 混淆矩陣以及評價標(biāo)準(zhǔn)

因此,在表3中可得分類模型整體正確率為:

(5)

基于部分線性Logistic回歸模型結(jié)合判別分析分類方法[6,20],根據(jù)學(xué)生平時的情況,計算學(xué)生掛科的概率,選擇閾值p0將學(xué)生分為掛科與不掛科兩類,預(yù)測學(xué)生是否具有掛科的危險,從而給予警示。因此選取合理閾值p0,當(dāng)計算的學(xué)生的掛科概率大于p0時,視為學(xué)生具有掛科的危險;當(dāng)計算的學(xué)生的掛科概率小于p0時,認(rèn)為學(xué)生不存在掛科危險?;谑占降臉颖緮?shù)據(jù),為了找到合理的p0,給出ROC曲線(圖2)、靈敏度指數(shù)曲線(圖3)、特異度指數(shù)曲線(圖4)以及約登指數(shù)曲線(圖5)。

圖2 ROC曲線 圖3 靈敏度指數(shù)

圖4 特異度指數(shù) 圖5 約登指數(shù)

表4 分類預(yù)測結(jié)果

為了獲得合理的閾值,使得閾值p0從0到1移動獲得FPR(第一類錯誤的概率=1-specificity(特異度))以及TPR(Sensitivity(靈敏度)=1-第二類錯誤的概率)。以FPR為橫軸、TPR為縱軸可得ROC曲線圖如圖2所示。ROC曲線下方的區(qū)域面積(Area under the ROC Curve,AUC)包含了分類時取不同閾值時的可能變現(xiàn),其面積越大模型用來預(yù)測的效果越好,且圖中AUC>0.5,接近于1,說明該模型有很好的優(yōu)勢;根據(jù)靈敏度指數(shù)圖3與特異度指數(shù)圖4定義約登指數(shù)=靈敏度+特異度-1,獲得約登指數(shù)圖5,優(yōu)化出約登指數(shù)跳躍最大的點對應(yīng)的概率值作為閾值p0=0.172。根據(jù)閾值p0=0.172區(qū)分出學(xué)生是否掛科的類別,預(yù)測結(jié)果如表4所示。根據(jù)預(yù)測結(jié)果表4以及式(5)計算的該模型分類的準(zhǔn)確率為:

4 結(jié) 論

利用部分線性Logistic回歸模型來定量分析大學(xué)生掛科的影響。運(yùn)用三次樣條逼近非線性函數(shù),并基于極大似然推斷模型參數(shù)。從推斷結(jié)果可知,學(xué)生的性別、專業(yè)、逃課情況對掛科有著顯著影響;第二課堂成績在一定范圍內(nèi)可降低掛科概率;大學(xué)生時代是否戀愛、考生屬于文科考生還是理科考生、是本省考生還是外省考生以及是否在校內(nèi)外兼職因素對于掛科概率沒有顯著影響。

同時,依賴于部分線性Logistic回歸模型分類預(yù)警學(xué)生是否有掛科危險,進(jìn)而有利于學(xué)校及學(xué)生自身采取相應(yīng)的措施來防止學(xué)生發(fā)生掛科。為了驗證該方法分類的優(yōu)越性以及后分類的最優(yōu)閾值,給出了ROC曲線圖以及約登指數(shù)圖,繼而獲得最優(yōu)分類器。

最后,基于部分線性Logistic回歸模型分類的結(jié)果,為控制學(xué)生掛科率,給出以下建議:(1)應(yīng)對男生給予更多關(guān)注,給予適當(dāng)?shù)膸头觯?2)考慮不同專業(yè)學(xué)生相同課程的大綱要求不同,應(yīng)給予不同的考核方式或者考核內(nèi)容;(3)加強(qiáng)學(xué)生的缺課管理,降低缺課次數(shù);(4)適當(dāng)控制第二課堂任務(wù)量,給出有效的第二課堂成績區(qū)間。

猜你喜歡
掛科第二課堂線性
大學(xué)生“掛科”影響因素與教學(xué)評價方式改革
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
線性回歸方程的求解與應(yīng)用
高?!叭斯ぶ悄堋钡诙n堂建設(shè)探討
第二課堂
超級秀場 掛科
高職院校學(xué)生體育課程掛科原因分析與對策研究
二階線性微分方程的解法
晉江“四點鐘學(xué)?!?孩子們的第二課堂
海峽姐妹(2017年8期)2017-09-08 12:16:45
跑步治掛
安国市| 丰都县| 平顺县| 正镶白旗| 和龙市| 荃湾区| 谷城县| 阿拉善盟| 阳东县| 安多县| 探索| 三明市| 灵山县| 精河县| 东海县| 龙岩市| 石渠县| 林芝县| 清水县| 万荣县| 武清区| 新乡市| 禹州市| 东乡县| 呼和浩特市| 磐安县| 建湖县| 酒泉市| 新兴县| 石台县| 兴海县| 吉安市| 三都| 大英县| 娄烦县| 简阳市| 泗水县| 龙海市| 庆元县| 如东县| 苏尼特左旗|