張嘉 王嬌 王志星
摘要:貧困大學(xué)生作為一個(gè)特殊群體在高校大學(xué)生中占有較高比例,國(guó)家對(duì)于高校資助工作的開(kāi)展一直高度重視。如何精準(zhǔn)識(shí)別大學(xué)生的貧困程度并為其提供資助是眾多高校一直著力解決的長(zhǎng)期性問(wèn)題。該研究提出了一種基于概率軟邏輯推理模型來(lái)預(yù)測(cè)大學(xué)生貧困等級(jí)的方法,該方法通過(guò)軟約束構(gòu)建規(guī)則和邏輯謂詞方式將人為可理解的貧困生判別標(biāo)準(zhǔn)和常識(shí)引入概率軟邏輯推理模型進(jìn)行推理預(yù)測(cè)。在高校學(xué)生真實(shí)數(shù)據(jù)上的大量實(shí)驗(yàn)表明,該方法的識(shí)別正確率可達(dá)到90%以上。此外,與支持向量機(jī)、邏輯回歸、決策樹(shù)等機(jī)器學(xué)習(xí)算法相比,該方法具有更高的推理識(shí)別精度,因此,對(duì)于大學(xué)生的貧困程度識(shí)別該方法具有巨大的潛力。
關(guān)鍵詞:概率軟邏輯;貧困生識(shí)別;推理;預(yù)測(cè);精準(zhǔn)資助
中圖分類(lèi)號(hào):TP181? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)07-0001-03
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0 引言
2013年11月3日,習(xí)近平總書(shū)記首次提出“精準(zhǔn)扶貧”理念[1],為從根本上解決貧困學(xué)生問(wèn)題,國(guó)家、社會(huì)和各學(xué)校積極探索并建立了全面且完善的貧困學(xué)生資助體系。2022年,全國(guó)累計(jì)資助大學(xué)生4588.24萬(wàn)人,資助金額達(dá)1675.59億元。高校精準(zhǔn)資助模式是精準(zhǔn)扶貧理念的具體實(shí)踐[2],精準(zhǔn)資助非常重要,但目前在國(guó)內(nèi)高校內(nèi),貧困生認(rèn)定和識(shí)別依然是勞動(dòng)密集型且耗時(shí)的工作,當(dāng)前國(guó)內(nèi)各高校原則上每學(xué)年開(kāi)展一次家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定工作,認(rèn)定程序主要包括公布政策、學(xué)生個(gè)人申請(qǐng)、輔導(dǎo)員及學(xué)院學(xué)校評(píng)審、結(jié)果公示等步驟。然而,在實(shí)踐中還有很多因素可能影響識(shí)別結(jié)果,例如:
1) 在申請(qǐng)環(huán)節(jié),申請(qǐng)者為了隱藏個(gè)人敏感信息或者為了獲得更大額度的資助金額,可能填寫(xiě)虛假家庭和個(gè)人狀況;
2) 在評(píng)議環(huán)節(jié),評(píng)審者(同學(xué)或老師)可能會(huì)受到主觀因素的影響;
3) 同一高校,不同學(xué)院在實(shí)施過(guò)程中的執(zhí)行標(biāo)準(zhǔn)可能因?yàn)楦鞣N因素而出現(xiàn)差別。
如何將新技術(shù)思維科學(xué)地運(yùn)用到高校貧困生資助中,不僅需要我們轉(zhuǎn)變資助思維,更需要利用先進(jìn)技術(shù)對(duì)傳統(tǒng)方法進(jìn)行改進(jìn)和創(chuàng)新。近年來(lái),數(shù)據(jù)的可用性大幅提高,研究人員開(kāi)始利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)來(lái)識(shí)別學(xué)生貧困水平,它們已經(jīng)成為預(yù)測(cè)貧困水平最流行的技術(shù)之一。其中,支持向量機(jī)[3]、邏輯回歸[4]、決策樹(shù)[5]、貝葉斯網(wǎng)絡(luò)[6]、KNN[7]等機(jī)器學(xué)習(xí)算法都被證明在貧困生識(shí)別領(lǐng)域擁有較好效果,但是相比概率軟邏輯推理模型(PSL,Probabilistic soft logic) [8],它們?cè)陬A(yù)測(cè)過(guò)程中面向人類(lèi)的可理解性上還稍顯不足[9]。
1 概率軟邏輯理論基礎(chǔ)
概率軟邏輯(PSL)是一種概率編程模型,它能夠有效地對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行推理。PSL模型是通過(guò)一組加權(quán)的一階邏輯規(guī)則進(jìn)行定義,這些邏輯規(guī)則的輸入原子和推理結(jié)果可以被定義或解釋為[0,1]之間的連續(xù)軟真值,而不是僅僅使用布爾值0或1來(lái)代表概率。加權(quán)邏輯規(guī)則通常采用以下形式:
[w: P1(A,B) ∧ P2(B,C) >> P2(A,C)] (1)
其中w是規(guī)則的權(quán)重(也可解釋為對(duì)應(yīng)規(guī)則的重要性),P1(A,B)∧P2(B,C)部分被稱(chēng)為規(guī)則體,右邊的P2(A,C)被稱(chēng)為規(guī)則頭,P1、P2被稱(chēng)為謂詞,A、B、C是隨機(jī)變量,謂詞一般用于定義隨機(jī)變量之間的關(guān)系,每個(gè)謂詞的計(jì)算值都可被表示為[0, 1]區(qū)間內(nèi)的連續(xù)隨機(jī)變量。例如,若有規(guī)則Friend(A,B)∧know (A,C)>>know(B,C),其中Friend(A,B)表示A和B是朋友,know(A,C)表示A認(rèn)識(shí)C,經(jīng)過(guò)PSL在這條規(guī)則上推理后得出的know(B,C)的值即是B認(rèn)識(shí)C的概率。每條規(guī)則表示了特殊類(lèi)型馬爾可夫隨機(jī)場(chǎng)(PSL模型內(nèi)稱(chēng)為鉸鏈損失馬爾可夫隨機(jī)場(chǎng) ,簡(jiǎn)稱(chēng)HL-MRF)中的一個(gè)函數(shù)集合[8]。HL-MRF的概率密度由式(2) 給出:
[PY|X=1Z(Y)exp-i=1mwi?i(Y, X))] (2)
[ZY=Yexp-i=1mwi?i(Y, X))] (3)
其中,[?i=max0,?iY,Xdi;di∈{1, 2}], [?i] 是規(guī)則對(duì)應(yīng)的鉸鏈損失勢(shì)函數(shù),X和Y在[0, 1]范圍內(nèi),m是勢(shì)函數(shù)的數(shù)量,?i是線性函數(shù),[di]規(guī)定了規(guī)則不被滿足時(shí)的鉸鏈損失方式,它使得我們可以靈活地在線性和平方鉸鏈損失之間進(jìn)行選擇,在大部分情況,平方鉸鏈損失被證明表現(xiàn)出更好的效果,[wi]是與規(guī)則相關(guān)的權(quán)重[8]。推理計(jì)算可以由式(4) 表示:
[Y*=argminYi=1mwifi(Y, X))=argminYLmap(w,Y, X)]? (4)
上述表達(dá)式是使用交替方向乘子法(ADMM)[10]求解的。
2 模型構(gòu)建
2.1 模型結(jié)構(gòu)
基于概率軟邏輯推理模型來(lái)預(yù)測(cè)大學(xué)生貧困等級(jí)的方法整體實(shí)現(xiàn)流程如圖 1所示,包括數(shù)據(jù)輸入、編碼、規(guī)則定義、推理和結(jié)果評(píng)估等多個(gè)過(guò)程。
各模塊具體解釋如下:
1) 數(shù)據(jù)輸入:用于實(shí)驗(yàn)的貧困生數(shù)據(jù)集,包含學(xué)生基本屬性字段和貧困等級(jí)認(rèn)定結(jié)果字段。
2) 數(shù)據(jù)編碼模塊:原生PSL無(wú)法定義中文謂詞數(shù)據(jù),本文研究為其開(kāi)發(fā)數(shù)據(jù)編碼模塊,推理運(yùn)行前編碼,輸出結(jié)果時(shí)解碼。
3) 訓(xùn)練集/驗(yàn)證集劃分:劃分輸入數(shù)據(jù)為訓(xùn)練集和驗(yàn)證集,用于訓(xùn)練模型和驗(yàn)證實(shí)驗(yàn)結(jié)果。
4) 規(guī)則學(xué)習(xí)模塊:本文方法一部分規(guī)則通過(guò)使用C5.0算法訓(xùn)練得來(lái)。
5) 人工規(guī)則定義模塊:雖然人工定義規(guī)則具有較強(qiáng)的不確定性和主觀性,但是人類(lèi)認(rèn)知的知識(shí)往往是機(jī)器學(xué)習(xí)算法所欠缺的,比如在貧困生識(shí)別過(guò)程中,一條很淺顯的規(guī)則是“若某同學(xué)在2022年和2023年被認(rèn)定為貧困生,那么他很可能在2024年也被認(rèn)定為貧困生”。
6) 規(guī)則優(yōu)化模塊:使用最大似然估計(jì)法[8]對(duì)每條規(guī)則的權(quán)重進(jìn)行調(diào)整。
7)? PSL推理模塊:執(zhí)行推理運(yùn)算,其中R1 -Rn 表示為運(yùn)算過(guò)程中謂詞所對(duì)應(yīng)關(guān)系的計(jì)算原子。
8)? 結(jié)果評(píng)估:對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行驗(yàn)證,主要使用推理的正確率值來(lái)度量。
2.2 模型規(guī)則定義
1) 自動(dòng)規(guī)則。對(duì)于本文方法所構(gòu)建的模型,一個(gè)很重要的子模塊即是規(guī)則自動(dòng)學(xué)習(xí)模塊,它能集合傳統(tǒng)機(jī)器學(xué)習(xí)算法決策樹(shù)C5.0的優(yōu)點(diǎn)從數(shù)據(jù)中提取規(guī)則,挖掘得到的規(guī)則示例如圖2所示。
2) 人工規(guī)則定義。PSL和支持向量機(jī)、邏輯回歸等傳統(tǒng)機(jī)器學(xué)習(xí)算法最大的區(qū)別在于,PSL易于構(gòu)建數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,簡(jiǎn)單地講,也就是PSL能夠?qū)⑷祟?lèi)世界的常識(shí)和知識(shí)轉(zhuǎn)化為機(jī)器能夠使用的規(guī)則。因此,除了C5.0已經(jīng)挖掘得到的規(guī)則,我們額外通過(guò)手工定義的方式將一些較為重要的貧困生識(shí)別的知識(shí)轉(zhuǎn)化為規(guī)則輸入模型。
(1) 【延續(xù)性舉例】通過(guò)過(guò)往數(shù)據(jù),已知某同學(xué)在2022年和2023年因家庭經(jīng)濟(jì)情況困難被認(rèn)定為特殊困難等級(jí)的貧困生,那么有很大可能他在2024年也將被認(rèn)定為特殊困難等級(jí)的貧困生。該描述被轉(zhuǎn)化為以下規(guī)則:
RecognitionLevel (Stu,Y1,Lev) ∧RecognitionLevel (Stu,Y3,Lev) ∧ToBeRecognized (Stu,Y3) ? RecognitionLevel (Stu,Y3, Lev)
以上規(guī)則一定程度上闡述了學(xué)生經(jīng)濟(jì)狀態(tài)的延續(xù)性,RecognitionLevel 表示認(rèn)定等級(jí),ToBeRecognized 表示待認(rèn)定數(shù)據(jù),Stu代表待評(píng)定學(xué)生,Y1、Y2、Y3表示學(xué)年年份,lev表示認(rèn)定等級(jí)。
(2) 【關(guān)聯(lián)性舉例】通過(guò)學(xué)生日常數(shù)據(jù),得知某同學(xué)在2023年存在助學(xué)貸款,并且該同學(xué)在校內(nèi)勤工助學(xué)系統(tǒng)申請(qǐng)過(guò)多次勤工助學(xué)崗位,那么有很大可能他在2024年將被認(rèn)定為困難或特殊困難等級(jí)的貧困生。它們將被轉(zhuǎn)化為以下規(guī)則:
StudentLoan (Stu,Y1,money) ∧WorkStudyProgram (Stu,Y1,type)
∧ToBeRecognized (Stu,Y2,Lev) ? RecognitionLevel (Stu,Y2, Lev)
以上規(guī)則闡述了學(xué)生經(jīng)濟(jì)和日常狀態(tài)的關(guān)聯(lián)性,StudentLoan表示助學(xué)貸款,WorkStudyProgram表示勤工助學(xué)項(xiàng)目參加情況,Y1、Y2表示學(xué)年年份,lev表示認(rèn)定等級(jí),money表示助學(xué)貸款數(shù)額,type表示勤工助學(xué)崗位。
(3) 【模糊性舉例】模糊規(guī)則代表了人類(lèi)認(rèn)知的部分感受,它們不能作為貧困生認(rèn)定的直接標(biāo)準(zhǔn),但是在最終的推理結(jié)果數(shù)據(jù)上,它們將對(duì)概率值產(chǎn)生積極影響,比如缺乏這些規(guī)則的時(shí)候,學(xué)生Stu經(jīng)過(guò)推理模型后,被評(píng)定為經(jīng)濟(jì)困難的概率可能為0,但擁有了這些規(guī)則,該生被評(píng)定為經(jīng)濟(jì)困難的概率為0.3,這種結(jié)果更符合我們的直觀感受。例如:
a.食堂有消費(fèi),但每日消費(fèi)數(shù)額越少越可能評(píng)定為更高貧困等級(jí)。
CanteenConsumption (Stu,Y1, money) ∧ToBeRecognized (Stu,Y2) ? RecognitionLevel (Stu,Y2, Lev)
b.購(gòu)買(mǎi)生活必需品頻率越低,越可能評(píng)定為更高貧困等級(jí)。
PurchaseEssentialItems (Stu,Y1, num) ∧ToBeRecognized (Stu,Y2) ? RecognitionLevel (Stu,Y2, Lev)
c.網(wǎng)購(gòu)數(shù)量越少,越可能評(píng)定為更高貧困等級(jí)。
OnlineShopping (Stu,Y1, money) ∧ToBeRecognized (Stu,Y2) ? RecognitionLevel (Stu,Y2, Lev)
3 實(shí)驗(yàn)驗(yàn)證
3.1 對(duì)比模型構(gòu)建
對(duì)比模型使用Spss Model建模軟件進(jìn)行構(gòu)建,本文主要構(gòu)建了CHAID樹(shù)、支持向量機(jī)、邏輯回歸、貝葉斯網(wǎng)絡(luò)、KNN等五種機(jī)器學(xué)習(xí)算法的對(duì)比模型,結(jié)構(gòu)如圖 3所示。
3.2 實(shí)驗(yàn)數(shù)據(jù)描述
本文數(shù)據(jù)通過(guò)西南某高校學(xué)生信息管理系統(tǒng)收集,它包含12 015條貧困生認(rèn)定數(shù)據(jù),其中有特殊困難、困難、一般困難、不困難等4種不同的貧困類(lèi)型,每條數(shù)據(jù)具有多個(gè)屬性,具體如表 1所示。
3.3 實(shí)驗(yàn)結(jié)果
本文研究將數(shù)據(jù)按8:2的比例隨機(jī)劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),進(jìn)行的8次實(shí)驗(yàn)運(yùn)行結(jié)果如圖 4和圖 5所示,圖 4是模型在未添加人工定義規(guī)則時(shí),僅使用C5.0算法訓(xùn)練得到的規(guī)則輸入PSL模型進(jìn)行推理產(chǎn)生的實(shí)驗(yàn)結(jié)果,可以看到,此時(shí)本文方法已經(jīng)得到了較好的實(shí)驗(yàn)效果,但是和支持向量機(jī)算法相比,在推理正確率上依然有一定差距。當(dāng)加入人工定義規(guī)則時(shí),傳統(tǒng)機(jī)器學(xué)習(xí)算法無(wú)法添加的常識(shí)規(guī)則和知識(shí)被加入模型, 圖 5所見(jiàn)即為實(shí)驗(yàn)結(jié)果,可以看到本文方法實(shí)驗(yàn)效果已經(jīng)基本和SVM算法持平,并且其中有5次實(shí)驗(yàn)的推理正確率已超過(guò)SVM算法。
4 總結(jié)
本文研究提出了一種基于概率軟邏輯推理模型來(lái)預(yù)測(cè)大學(xué)生的貧困等級(jí)的方法,該方法通過(guò)結(jié)合C5.0算法的規(guī)則提取能力,為概率軟邏輯推理模型提供科學(xué)的輸入規(guī)則,同時(shí),使用軟約束構(gòu)建規(guī)則和邏輯謂詞的方式將人類(lèi)可理解的貧困生判別標(biāo)準(zhǔn)和常識(shí)引入概率軟邏輯推理模型進(jìn)行推理預(yù)測(cè),在與額外的5種不同的分類(lèi)算法進(jìn)行對(duì)比實(shí)驗(yàn)后,本文方法取得了較好的對(duì)比效果。最終結(jié)果表明:1) 本文所提方法是可行的,并且在本文所用數(shù)據(jù)集上的實(shí)驗(yàn)效果已多次超過(guò)SVM算法;2) 基于概率軟邏輯推理模型的方法在貧困等級(jí)預(yù)測(cè)工作中取得了可喜的成果,多次實(shí)驗(yàn)的平均識(shí)別正確率達(dá)到90%以上。下一步,筆者將收集和整理額外的數(shù)據(jù)來(lái)完善當(dāng)前方法,爭(zhēng)取取得更有益的實(shí)驗(yàn)成果。
參考文獻(xiàn):
[1] 讓青春沿著總書(shū)記指引的方向閃閃發(fā)光——寫(xiě)在習(xí)近平總書(shū)記親臨湘西州視察并提出精準(zhǔn)扶貧重要理念十周年之際[J].中國(guó)共青團(tuán),2023(19):2,1.
[2] 教育部全國(guó)學(xué)生資助管理中心.2022年中國(guó)學(xué)生資助發(fā)展報(bào)告[N].人民日?qǐng)?bào),2023-11-03(014).
[3] 陳瑞虹.不平衡數(shù)據(jù)的SVM分類(lèi)研究及在高校貧困生識(shí)別的應(yīng)用[D].泉州:華僑大學(xué),2019.
[4] 李步青.基于組合logistic回歸模型的高校貧困生認(rèn)定研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2021(1):59-61.
[5] 李明江,盧玉,劉彥.一種基于C4.5決策樹(shù)的貴州省高校貧困生評(píng)定方法[J].科技通報(bào),2013,29(8):223-224,233.
[6] 張麗娟,夏艷,程雪平,等.基于伯努利貝葉斯模型的高校貧困生預(yù)測(cè)研究[J].信息技術(shù)與信息化,2021(11):159-161.
[7] 劉曉娜,王愷,王成德,等.基于KNN算法的高校困難生認(rèn)定研究[J].電子元器件與信息技術(shù),2023,7(8):88-92.
[8] BACH S H,BROECHELER M,HUANG B,et al.Hinge-loss Markov random fields and probabilistic soft logic[J].ArXiv e-Prints,2015:arXiv:1505.04406.
[9] 張嘉,張暉,趙旭劍,等.規(guī)則半自動(dòng)學(xué)習(xí)的概率軟邏輯推理模型[J].計(jì)算機(jī)應(yīng)用,2018,38(11):3144-3149,3155.
[10] BOYD S,PARIKH N,CHU E,et al.Distributed optimization and statistical learning via the alternating direction method of multipliers[J].Foundations and Trends in Machine Learning,2011,3(1):1-122.
【通聯(lián)編輯:李雅琪】