謝穎 朱遠(yuǎn)勝 馬維聰 張英
摘 要:為了將HMM的Baum-welch算法應(yīng)用到高校家庭貧困生認(rèn)定過(guò)程中,首先將學(xué)生的經(jīng)濟(jì)狀態(tài)依據(jù)客觀情況設(shè)置為5個(gè)狀態(tài),然后將得到的觀測(cè)數(shù)據(jù)依據(jù)外部低成本變量進(jìn)行加權(quán)處理,再將加權(quán)處理后的數(shù)據(jù)按照一定的比例劃分為7個(gè)等級(jí),對(duì)不同等級(jí)進(jìn)行分段統(tǒng)計(jì),并在此基礎(chǔ)上提出了使用HMM的Baum-Welch算法解決這個(gè)問(wèn)題時(shí)構(gòu)建初始化參數(shù)的方法,最后將迭代的結(jié)果依據(jù)學(xué)生貧困狀態(tài)期望百分比由高到低順序進(jìn)行排序,并將結(jié)果與直接計(jì)算方法及通過(guò)實(shí)際調(diào)研得到的結(jié)論進(jìn)行對(duì)比,通過(guò)對(duì)比得到了HMM算法在解決此類(lèi)問(wèn)題中存在的局限性,同時(shí)給出了提高預(yù)測(cè)準(zhǔn)確性的新模型建立的建議。然后將這種方法在其它班級(jí)進(jìn)行了驗(yàn)證,以檢驗(yàn)結(jié)論的可靠性。
關(guān)鍵詞:貧困生認(rèn)定;隱馬爾可夫模型;Baum-Welch算法;期望百分比
中圖分類(lèi)號(hào):G641? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:B? ? ? ? ? ? ?文章編號(hào): 1674-2346(2019)03-0075-09
0? ? 引言
國(guó)內(nèi)在定量研究高校貧困家庭學(xué)生認(rèn)定方面的成果不多,田志磊[1]通過(guò)將非收入變量,如居住地與公共服務(wù)的可得性、住房條件等作為一級(jí)指標(biāo),然后構(gòu)建二級(jí)指標(biāo),再構(gòu)建財(cái)富指數(shù),然后使用主成分分析法,在構(gòu)建絕對(duì)家庭財(cái)富指數(shù)時(shí)采用回歸模型。胡苗苗[2]將決策理論引入經(jīng)濟(jì)困難學(xué)生認(rèn)定過(guò)程,將家庭經(jīng)濟(jì)收入、家庭人員組成、家庭健康狀況,以及學(xué)生在校學(xué)習(xí)生活平均消費(fèi)情況作為4個(gè)屬性引入到?jīng)Q策分析中作為評(píng)價(jià)指標(biāo),通過(guò)決策信息矩陣進(jìn)行貧困生的識(shí)別。文獻(xiàn)[1]、文獻(xiàn)[2]的研究都沒(méi)有考慮特征信息的時(shí)序性。何源[3]使用了SQL Server數(shù)據(jù)挖掘技術(shù)挖掘貧困生消費(fèi)行為和消費(fèi)習(xí)慣,用學(xué)習(xí)的知識(shí)對(duì)新數(shù)據(jù)進(jìn)行識(shí)別;周皞[4]將在校園卡上產(chǎn)生的各種消費(fèi)數(shù)據(jù)按性質(zhì)分類(lèi),通過(guò)建立消費(fèi)總量和消費(fèi)強(qiáng)度等特征向量,挖掘?qū)W生經(jīng)濟(jì)狀況與消費(fèi)數(shù)據(jù)的關(guān)聯(lián)規(guī)則,可以為判別高校貧困生提供輔助決策依據(jù)。文獻(xiàn)[3]、文獻(xiàn)[4]的研究都是采用微軟數(shù)據(jù)倉(cāng)庫(kù)的AnalysisServices工具進(jìn)行聯(lián)機(jī)數(shù)據(jù)挖掘,學(xué)習(xí)效果依賴(lài)于關(guān)聯(lián)規(guī)則的制訂。楊知玲[5]提出了從“助學(xué)貸款、家庭月收入、低保/特困戶(hù)、家庭負(fù)債、勤工助學(xué)、單親/低?!?個(gè)外部指標(biāo)出發(fā),使用決策樹(shù)模型進(jìn)行高校貧困生認(rèn)定,忽略了學(xué)生主體作用。
國(guó)際上,美國(guó)聯(lián)邦教育部建立了全國(guó)統(tǒng)一的家庭經(jīng)濟(jì)困難大學(xué)生資助申請(qǐng)和審核系統(tǒng)(簡(jiǎn)稱(chēng)CPS),CPS的核心是聯(lián)邦學(xué)生資助需求計(jì)算公式:資助需求=入學(xué)成本-預(yù)期家庭貢獻(xiàn),家庭預(yù)期貢獻(xiàn)計(jì)算復(fù)雜,要考慮家庭的年收入[1]。由于我國(guó)目前尚未建立全國(guó)范圍內(nèi)的收入和誠(chéng)信管理系統(tǒng),因此無(wú)法實(shí)施這一方法。
本文將隱馬爾可夫模型(hidden Markov models 記為HMM)引入到高校家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定工作中,通過(guò)研究學(xué)生在學(xué)校的日常消費(fèi)行為及HMM的Baum-Welch算法估算學(xué)生經(jīng)濟(jì)處于不同狀況的概率期望,通過(guò)學(xué)生校內(nèi)消費(fèi)的外在表現(xiàn),挖掘?qū)W生經(jīng)濟(jì)的內(nèi)在狀況,為判斷學(xué)生的經(jīng)濟(jì)狀況提供理論上的堅(jiān)實(shí)依據(jù)和實(shí)際中可以操作的工具,這種算法能自動(dòng)消除外圍因素,如性別差異、地區(qū)差異,以及我國(guó)在不同經(jīng)濟(jì)發(fā)展時(shí)期的學(xué)生消費(fèi)水平的差異等因素造成的影響,將以往通過(guò)外圍因素進(jìn)行的定性或簡(jiǎn)單定量分析轉(zhuǎn)化為通過(guò)學(xué)生主體因素為主進(jìn)行的定量分析,具有普適性、易操作性,并能夠構(gòu)成程序化的操作模型,從而易于在各個(gè)高校進(jìn)行推廣。全文數(shù)據(jù)處理流程如圖1所示。
1? ? 數(shù)據(jù)獲取與數(shù)據(jù)劃分
1.1? ? 數(shù)據(jù)獲取
本文以€讇讇贅咝讇讇追衷簚讇讇鬃ㄒ祤讇讇裝嗉段袢≌飧靄嗉兜?7位同學(xué)從2018年3月12日至4月27日連續(xù)33次午餐記錄(周末和節(jié)假日除外),同時(shí)獲取了其它分院的另外3個(gè)班的午餐消費(fèi)記錄,作為后面的算法驗(yàn)證數(shù)據(jù)。個(gè)別同學(xué)的午餐數(shù)據(jù)存在缺失情況,由于采取了人工統(tǒng)計(jì)數(shù)據(jù),所以缺失數(shù)據(jù)量比較少,直接以這個(gè)學(xué)生的午餐消費(fèi)平均值作為缺失數(shù)據(jù)的值進(jìn)行填充。所獲取的數(shù)據(jù)如表 1所示(每行代表1位同學(xué),列是時(shí)間順序):
1.2? ? 依據(jù)低成本變量進(jìn)行數(shù)據(jù)調(diào)整
考慮學(xué)生主體消費(fèi)的同時(shí),考慮家庭因素的影響,依據(jù)文獻(xiàn)[1]中所述低成本變量,我們分別采集父母身體狀況、父母學(xué)歷、父母工作性質(zhì)、是否單親家庭和是否孤兒作為外部因素,并分別對(duì)消費(fèi)數(shù)據(jù)進(jìn)行加權(quán)處理。所謂低成本變量是指容易獲得,并且很大程度上不失真的特征信息,之所以要調(diào)整數(shù)據(jù),因?yàn)橛械耐瑢W(xué)長(zhǎng)期低消費(fèi)并不是由于經(jīng)濟(jì)困難造成的,而真正困難的同學(xué)日常消費(fèi)也是很低的,所以,必須依據(jù)低成本變量對(duì)數(shù)據(jù)做出調(diào)整。按表 2方法將低成本變量從定性分析轉(zhuǎn)換為定量計(jì)算。
以上分值的最大組合為33分,假定通過(guò)調(diào)查表獲取的某位學(xué)生當(dāng)天家庭情況分值為x(由于調(diào)查表中父母各有相關(guān)選項(xiàng),取均值),除以33作為變化因子,相應(yīng)的每列的均值記為columnMean,記這位同學(xué)當(dāng)天的午餐消費(fèi)為c,實(shí)踐中,為提高家庭情況得分的統(tǒng)計(jì)計(jì)算效果,這里取2倍均值進(jìn)行數(shù)據(jù)離散,即:值調(diào)整為 c+columnMean€?€祝員?按照此調(diào)整規(guī)則得到統(tǒng)計(jì)結(jié)果如表 3所示。
1.3? ? 數(shù)據(jù)等級(jí)劃分
將獲得的加權(quán)數(shù)據(jù)每列按照7個(gè)等級(jí)進(jìn)行劃分,劃分標(biāo)準(zhǔn):首先算出本列數(shù)據(jù)的最大值max和最小值min,記數(shù)據(jù)差為dataDiff=max-min,
數(shù)據(jù)值≤min+dataDiff*0.1,標(biāo)記為1,
min+dataDiff*0.1<數(shù)據(jù)值≤min+dataDiff*0.2,標(biāo)記為2,
min+dataDiff*0.2<數(shù)據(jù)值≤min+dataDiff*0.4,標(biāo)記為3,
min+dataDiff*0.4<數(shù)據(jù)值≤min+dataDiff*0.6,標(biāo)記為4,
min+dataDiff*0.6<數(shù)據(jù)值≤min+dataDiff*0.75,標(biāo)記為5,
min+dataDiff*0.75<數(shù)據(jù)值≤min+dataDiff*0.9,標(biāo)記為6,
min+dataDiff*0.9<數(shù)據(jù)值,標(biāo)記為7,
為了使得數(shù)據(jù)較為均勻的排列,max值的獲取并不都是按照最大值進(jìn)行的,有時(shí)候會(huì)取第二大或第三大值作為max值,以本列中從1到7所有數(shù)字都出現(xiàn)為準(zhǔn)則,比如:上述午餐消費(fèi)表中的第4列最大值是37,如果以這個(gè)值為最大值,那么標(biāo)識(shí)后的數(shù)據(jù)絕大多數(shù)都在1到3之間,5、6不出現(xiàn),4也出現(xiàn)的很少,所以在這種情況下,以第二大數(shù)值26.8作為本列的最大值,當(dāng)然按照這個(gè)處理規(guī)則,有的列中會(huì)多次出現(xiàn)7。按照上述規(guī)則,得到如表 4所示的學(xué)生午餐消費(fèi)分段數(shù)據(jù)(每行代表1位同學(xué),列是時(shí)間順序)。
2? ? 算法模型
2.1? ? 模型參數(shù)
2.3? ? 初始參數(shù)的確立
無(wú)論是EM算法還是HMM算法都是局部收斂,通常的做法是為每位同學(xué)隨機(jī)設(shè)定初始參數(shù),然后進(jìn)行循環(huán)迭代,通過(guò)python的HmmLearn包,或者matlab自帶的HMM統(tǒng)計(jì)工具箱進(jìn)行測(cè)試,結(jié)果都不如人意,也就是說(shuō),僅僅依賴(lài)算法本身是沒(méi)有辦法獲取全局最優(yōu)值的,在通過(guò)學(xué)生的午餐消費(fèi)記錄估算學(xué)生經(jīng)濟(jì)狀況時(shí),采取了以下辦法,盡量保證算法結(jié)果與實(shí)際情況相符合,試驗(yàn)證明,這種構(gòu)造初始矩陣的方法是符合實(shí)際情況的。
1)狀態(tài)轉(zhuǎn)換矩陣A的確立
先統(tǒng)計(jì)每行中1到7出現(xiàn)的次數(shù),然后以1出現(xiàn)次數(shù)+2出現(xiàn)次數(shù)+3出現(xiàn)次數(shù)的最大值作為極貧確認(rèn)的依據(jù),以2出現(xiàn)次數(shù)+3出現(xiàn)次數(shù)+4出現(xiàn)次數(shù)的最大值作為“比較貧困”的參考依據(jù),依次類(lèi)推,以5出現(xiàn)次數(shù)+6出現(xiàn)次數(shù)+7出現(xiàn)次數(shù)的最大值作為“富?!钡某醪絽⒖家罁?jù),統(tǒng)計(jì)結(jié)果如表 5所示。
依據(jù)上面定義規(guī)則,采用百分比形式,直接計(jì)算極貧百分比,即按照如下公式進(jìn)行極貧百分比計(jì)算:
并根據(jù)數(shù)據(jù)表4的數(shù)據(jù)分段結(jié)果,依據(jù)k-means算法進(jìn)行五類(lèi)聚類(lèi),結(jié)果進(jìn)行排序,得到如表 6所示排序結(jié)果。
根據(jù)上述排序結(jié)果,以8號(hào)同學(xué)作為極貧行,以作為A初始矩陣第1行的“極貧”概率,以作為A初始矩陣第1行的“較貧”初始概率,依此類(lèi)推,以作為A初始矩陣第1行的“富裕”狀態(tài)的起始概率,依此類(lèi)推,15號(hào)、17號(hào)、23號(hào)3位同學(xué)的分段統(tǒng)計(jì)結(jié)果的均值百分比,作為A初始矩陣第2行的各個(gè)概率,以10號(hào)、11號(hào)、28號(hào)、30號(hào)4位同學(xué)的分段統(tǒng)計(jì)結(jié)果的均值百分比,作為A初始矩陣的第3行的各個(gè)概率,以12號(hào)、32號(hào)、7號(hào)及3號(hào)4位同學(xué)的分段統(tǒng)計(jì)結(jié)果的均值百分比,作為A初始矩陣的第4行的各個(gè)概率,以4號(hào),5號(hào),26號(hào)3位同學(xué)的分段統(tǒng)計(jì)結(jié)果的均值百分比,作為A初始矩陣的第5行的各個(gè)概率,以得到完整的A初始矩陣。這里直接按照python程序中的格式給出結(jié)果(np為引入的numpy的別名)。
2)發(fā)射矩陣B的確定
仍然按照上述A初始矩陣選定的各行,按照表4分別計(jì)算分段結(jié)果1到7所占的比例作為B的各行,得到B初始值如公式 2所示。
3)初始狀態(tài)矩陣 確定
的確定按照傾向于貧困生的原則給出。
每位同學(xué)都以上述3個(gè)參數(shù)作為初始參數(shù),在迭代過(guò)程中因?yàn)槭褂昧饲跋蚝秃笙蚋怕蔭t(i)和 t(i)采用遞歸算法以后,前向變量和后向變量均小于1,此時(shí)會(huì)出現(xiàn)2個(gè)變量越來(lái)越小并迅速趨向于0的情況,預(yù)算中就有可能出現(xiàn)0/0情況,采取添加比例系數(shù)的辦法,避免出現(xiàn)0/0情況發(fā)生[10]。
3? ? 算法實(shí)現(xiàn)與結(jié)果的對(duì)比分析
3.1? ? 迭代結(jié)果分析
本項(xiàng)目的運(yùn)行環(huán)境為:win7,64位OS,inter Core i5-6500處理器,主頻3.20GHz,Python3.5.3,自編軟件。根據(jù)上述初始參數(shù) 、A、B,對(duì)每位同學(xué)按照最大循環(huán)次數(shù)5000及閾值1e-9進(jìn)行循環(huán)迭代,并最終按照期望值百分比即:
因?yàn)橐凑諛O貧狀態(tài)由高到低進(jìn)行排序,這里取i=1,得到結(jié)果如表 7所示。
按照20%資助對(duì)象進(jìn)行分析,那么8號(hào)、7號(hào)、17號(hào)、19號(hào)、15號(hào)、24號(hào)、35號(hào)、5號(hào)這8位同學(xué)可以列為資助對(duì)象,但是將此數(shù)據(jù)與實(shí)際資助對(duì)象進(jìn)行對(duì)比發(fā)現(xiàn),8位同學(xué)中有2位同學(xué)是與實(shí)際調(diào)查結(jié)果不符合的,即:第7號(hào)同學(xué)和第5號(hào)同學(xué)。迭代算法對(duì)“極貧”8號(hào)同學(xué)的判斷是準(zhǔn)確的,也就是說(shuō),實(shí)際的準(zhǔn)確率只有75%。
3.2? ? HMM迭代結(jié)果與直接計(jì)算結(jié)果對(duì)比
HMM的Baum-walch迭代結(jié)果、直接計(jì)算結(jié)果以及K-MEANS聚類(lèi)結(jié)果如表8所示,其中K-MEANS聚類(lèi)選擇了5個(gè)類(lèi)別進(jìn)行了聚類(lèi)。表 8是按照“貧困期望值百分比”由低到高的順序排列的。
將直接計(jì)算得到的排名結(jié)果和實(shí)際情況進(jìn)行對(duì)比,發(fā)現(xiàn),除了“極貧”同學(xué)被準(zhǔn)確命中以外,其它7位同學(xué)也被準(zhǔn)確命中,上面所說(shuō)的誤判的7號(hào)和5號(hào)同學(xué)都不在前11位。
如果僅僅對(duì)比HMM算法結(jié)果和直接計(jì)算的排名結(jié)果,可以發(fā)現(xiàn),按照可以對(duì)20%的學(xué)生進(jìn)行資助,那么取前8名,2種結(jié)果相差2位同學(xué),通過(guò)和班主任實(shí)際情況核實(shí),發(fā)現(xiàn):HMM的計(jì)算結(jié)果的準(zhǔn)確性不如直接計(jì)算。也就是說(shuō),我們采取了很多辦法希望保證HMM的準(zhǔn)確性,但是與實(shí)際調(diào)查結(jié)果分析進(jìn)行對(duì)比只能保證75%的準(zhǔn)確率。而最簡(jiǎn)單的直接計(jì)算反而可以保證幾乎100%的成功率。但是當(dāng)資助比例降為10%~15%時(shí),兩者的交集則比較準(zhǔn)確。這個(gè)結(jié)果到底是一種必然現(xiàn)象還是一種偶然現(xiàn)象,3.3節(jié)對(duì)另外兩個(gè)班級(jí)應(yīng)用上述方法進(jìn)行驗(yàn)證。
3.3? ? 另外班級(jí)的驗(yàn)證
抽取另外1個(gè)班的連續(xù)11次午餐消費(fèi)及家庭情況調(diào)查表,按照上面的數(shù)據(jù)加權(quán)處理、數(shù)據(jù)分段、統(tǒng)計(jì)、k-means聚類(lèi)、構(gòu)造初始矩陣、迭代,依據(jù)直接計(jì)算的排序結(jié)果如表 9所示。
對(duì)比依據(jù)Baum-welch迭代算法得到的概率期望計(jì)算的期望百分比,如表10所示。
依據(jù)Baum-welch迭代算法得到的結(jié)果,再求其“極貧”期望百分比,得到的結(jié)果由大到小排序后,原先依直接計(jì)算得到的結(jié)果中,2條記錄為新加,將2種結(jié)果提交班主任辨別,結(jié)論仍然是依據(jù)直接計(jì)算的結(jié)果更為可靠,二者都能正確地識(shí)別出“極貧”的第1位同學(xué),在“貧困”名單中,前10名中仍然有2名差異,也就是說(shuō)HMM的Baum-welch迭代算法的準(zhǔn)確率,在這里達(dá)到了75%,而直接計(jì)算的結(jié)果反而得到班主任的認(rèn)同。但是,如果資助比例降低為10%~15%,則也是兩者的交集更為可信。
由于篇幅的原因,另外一個(gè)班級(jí)數(shù)據(jù)不再列出,但結(jié)論是相似的,也就是說(shuō)通過(guò)上述步驟進(jìn)行的HMM的Baum-welch迭代算法的準(zhǔn)確率大概在75%左右,如果資助比例降低,則二者的交集更為可靠。
4? ? 結(jié)論
復(fù)雜的HMM的Baum-welch算法得到的結(jié)論其準(zhǔn)確性不如前期數(shù)據(jù)處理過(guò)程中直接使用數(shù)據(jù)分段統(tǒng)計(jì)結(jié)果得到的結(jié)論可靠。但二者對(duì)于“極貧”同學(xué)的判斷是一致的,不過(guò),在實(shí)際工作中,因?yàn)橘Y助比例沒(méi)有一個(gè)嚴(yán)格的限制,由此,我們給出高校貧困生認(rèn)定的判別模型(按照10%最終資助比例):
1)獲取原始的午餐消費(fèi)記錄;
2)依據(jù)低成本變量并用2倍的當(dāng)天消費(fèi)均值對(duì)數(shù)據(jù)進(jìn)行加權(quán)處理;
3)對(duì)加權(quán)處理后的數(shù)據(jù)進(jìn)行分段,并進(jìn)行分段統(tǒng)計(jì)(求和);
4)直接依據(jù)分段求和結(jié)果進(jìn)行貧困百分比計(jì)算,并進(jìn)行五類(lèi)的k-means聚類(lèi);
5)依據(jù)聚類(lèi)結(jié)果設(shè)置HMM的Baum-welch算法的初始迭代參數(shù);
6)根據(jù)迭代結(jié)果求直接計(jì)算和迭代結(jié)果的交集。
模型中依據(jù)外部低成本變量的2倍加權(quán)數(shù)據(jù)處理,也是在實(shí)踐中通過(guò)1倍到3倍、4倍等多種加權(quán)比較后得出的結(jié)論。從實(shí)踐效果來(lái)看,2倍數(shù)據(jù)加權(quán)效果最好。數(shù)據(jù)的多倍加權(quán)本質(zhì)上是對(duì)外部低成本變量在算法中的權(quán)值進(jìn)行調(diào)整。過(guò)高的權(quán)值會(huì)導(dǎo)致數(shù)據(jù)向高和低兩側(cè)集中,不利于數(shù)據(jù)等級(jí)的劃分,也將導(dǎo)致結(jié)果出現(xiàn)較大偏離。
參考文獻(xiàn)
[1]田志磊.采用非收入變量認(rèn)定高校家庭經(jīng)濟(jì)困難學(xué)生的實(shí)證研究[J].北京大學(xué)教育評(píng)論,2010,8(2):146-147.
[2]胡苗苗.基于多屬性決策的高校家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定方法及應(yīng)用[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,33(2):54-57.
[3]何源.基于數(shù)據(jù)挖掘的高校貧困生輔助辨識(shí)系統(tǒng)設(shè)計(jì)[J].鄂州大學(xué)學(xué)報(bào),2015,22(10):106-109.
[4]周皞.基于校園卡數(shù)據(jù)挖掘的高校貧困生輔助判別研究[J].職教通訊,2012(35):59-61.
[5]楊知玲.數(shù)據(jù)挖掘在高校貧困生評(píng)價(jià)中的應(yīng)用[J].軟件導(dǎo)報(bào),2016,15(6):170-172.
[6]伊鵬.基于HMM的動(dòng)態(tài)社會(huì)網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)算法[J].計(jì)算機(jī)研究與發(fā)展,2017,54(11):2611-2612.
[7]李昕.基于改進(jìn)的隱馬爾科夫模型的情感壓力分級(jí)方法[J].生物醫(yī)學(xué)工程學(xué)雜志,2016,33(3):555-556.
[8]劉樹(shù)偉.基于時(shí)變隱馬爾可夫模型的機(jī)器人故障預(yù)測(cè)[J].機(jī)電一體化, 2016(6):4-5.
[9]楊安駒,楊云.基于隱馬爾科夫模型的融合推薦算法[J].計(jì)算機(jī)與現(xiàn)代化,2015(9):61-62.
[10]張?zhí)煨?基于HMM的通信流量異常檢測(cè)[J].智能計(jì)算機(jī)與應(yīng)用,2018,8(4):122-123.