蔡興雨,徐 怡,2,程智煒
(1.安徽大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601;2.安徽大學(xué) 計算智能與信號處理教育部重點實驗室,安徽 合肥 230039)
基于粗糙集理論的影響高校學(xué)生成績因素研究
蔡興雨1,徐 怡1,2,程智煒1
(1.安徽大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601;2.安徽大學(xué) 計算智能與信號處理教育部重點實驗室,安徽 合肥 230039)
成績是衡量教師教學(xué)質(zhì)量以及學(xué)生學(xué)習(xí)效果的重要指標(biāo)。由于影響學(xué)生學(xué)習(xí)成績的因素眾多,教師和學(xué)生不能清楚地認(rèn)識影響成績的關(guān)鍵因素。一方面,教師無法對教學(xué)方法做出有針對性的改進(jìn),以提高教學(xué)質(zhì)量;另一方面,學(xué)生無法對學(xué)習(xí)方法做出有針對性的改進(jìn),以提高學(xué)習(xí)成績。為了幫助高校教師及學(xué)生準(zhǔn)確分析影響學(xué)習(xí)成績的關(guān)鍵因素,設(shè)計了用于調(diào)查影響高校學(xué)生學(xué)習(xí)成績因素的調(diào)查問卷,向該校大一至大四的學(xué)生分發(fā)調(diào)查問卷并收集數(shù)據(jù),然后利用粗糙集理論的基于信息熵的啟發(fā)式屬性約簡算法,找出影響高校學(xué)生學(xué)習(xí)成績的關(guān)鍵因素,之后利用基于粗糙集理論的改進(jìn)的基于分辨矩陣的屬性值約簡算法,挖掘出影響高校學(xué)生學(xué)習(xí)成績的關(guān)鍵因素和成績之間的依賴關(guān)系,導(dǎo)出規(guī)則集。通過實驗驗證了該規(guī)則集的有效性。研究成果可以幫助高校教師和學(xué)生了解影響成績的關(guān)鍵因素,從而改進(jìn)教師的教學(xué)方法和學(xué)生的學(xué)習(xí)方法。
高校學(xué)生;成績影響因素;粗糙集;規(guī)則提??;屬性約簡
學(xué)生成績在衡量高校教師教學(xué)質(zhì)量以及學(xué)生學(xué)習(xí)效果中意義重大,從成績中可以看出教師是否完成教學(xué)目標(biāo),學(xué)生對知識的了解和掌握程度是否達(dá)到較滿意的水平。所以無論是高校教師希望改善教學(xué)質(zhì)量還是學(xué)生希望進(jìn)一步掌握知識,提高成績都是非常重要的,而影響高校學(xué)生學(xué)習(xí)成績的因素眾多,在面對這么多的因素時,學(xué)生和老師可能無法找出哪些是關(guān)鍵性的影響因素,進(jìn)而無法有針對性地做出努力以有效提高學(xué)生成績。目前對影響學(xué)生學(xué)習(xí)成績關(guān)鍵因素的研究多是通過調(diào)研的方法獲取數(shù)據(jù),然后利用統(tǒng)計的方法進(jìn)行分析,很少利用數(shù)據(jù)挖掘的方法對調(diào)研數(shù)據(jù)做深刻的分析,找出隱藏在數(shù)據(jù)中的規(guī)律性知識。因此,文中設(shè)計了影響高校學(xué)生學(xué)習(xí)成績因素的調(diào)查問卷,向該校大一至大四的學(xué)生分發(fā)調(diào)查問卷并收集數(shù)據(jù),然后利用粗糙集理論的屬性約簡算法和規(guī)則提取算法,挖掘出影響高校學(xué)生學(xué)習(xí)成績的關(guān)鍵因素以及這些關(guān)鍵因素和成績之間的依賴關(guān)系,導(dǎo)出規(guī)則集,并通過實驗驗證了規(guī)則集的有效性。文中的研究成果可以幫助高校教師和學(xué)生了解影響成績的關(guān)鍵因素,從而改進(jìn)教師的教學(xué)方法和學(xué)生的學(xué)習(xí)方法。
文中所采用的粗糙集(Rough Set,也稱Rough集、粗集)理論[1-2]是Pawlak教授在1982年提出的一種能夠定量分析處理不精確、不一致、不完整知識與信息的數(shù)學(xué)工具。該理論最初的原型來源于比較簡單的信息模型,它的基本思想是通過關(guān)系數(shù)據(jù)庫分類歸納形成概念和規(guī)則,通過等價關(guān)系的分類以及分類對于目標(biāo)的近似實現(xiàn)知識發(fā)現(xiàn)。粗糙集理論能處理模糊和不確定的知識,在保持分類能力不變的前提下,通過知識約簡,導(dǎo)出決策和分類規(guī)則。所以文中利用粗糙集對收集的300份中有效的279份成績樣本先進(jìn)行屬性約簡,然后進(jìn)行規(guī)則提取,得出了影響高校學(xué)生成績的關(guān)鍵因素。
文中用到的相關(guān)概念介紹如下[3]:
定義2:信息系統(tǒng)S=(U,A,V,f),若A=C∪D,C∩D=?,C為條件屬性集,D為決策屬性集,這樣的信息系統(tǒng)稱為決策表,決策表是一類特殊而重要的信息系統(tǒng)。
定義4:R為一族等價關(guān)系P∈R,若ind(R)=ind(R-{P}),則稱P為R中不必要的,否則稱P為R中必要的。如果每一個P∈R都是必要的,則稱P為獨立的,否則稱P為依賴的。
定義5:對于一個決策表S=(U,C∪D,V,f),B?C,若B是獨立的,且ind(B)=ind(C),則稱B是C的一個約簡,記為red(C)。
定義6:核屬性定義為core(P)=∩red(P),其中red(P)表示P的所有約簡。
核的概念的用處:(1)可以作為所有約簡的基礎(chǔ);(2)在知識約簡中是不能消去的知識特征集合。
定義8:在信息系統(tǒng)S=(U,A,V,f)中,C∈A,?a∈A-C關(guān)于屬性集C的重要性定義為:
sgfc(a)=H(C∪{a})-H(C)
由定義可知,屬性a∈A-C關(guān)于屬性集C的重要性由C中添加a后所引起的信息熵的變化大小決定,此值越大,a關(guān)于C越重要。
因此,分辨矩陣中元素cij是能夠區(qū)別對象xi和xj的所有屬性的集合;但若xi和xj屬于同一決策類時,則分辨矩陣中元素cij的取值為空集?。顯然,分辨矩陣是一個依主對角線對稱的n階方陣,在進(jìn)行分辨矩陣運算時,只需考慮其上三角(或下三角)部分[5]。
對于規(guī)則的質(zhì)量,有三個衡量標(biāo)準(zhǔn),分別是置信度、覆蓋度和支持度[6]:
確定性程度Cer(Rx)反映了決策規(guī)則的可信性,或者說置信度,是衡量規(guī)則r中條件類分配到?jīng)Q策類的精度。
覆蓋度Cov(Rx)用來評估決策規(guī)則的質(zhì)量,反映了決策規(guī)則條件類對決策類的覆蓋程度。
支持度Sup(Rx)用來衡量決策規(guī)則的強(qiáng)度,反映了論域中支持此決策規(guī)則的對象占全體對象的比例。支持度越大,說明支持該決策規(guī)則的對象越多,規(guī)則的強(qiáng)度就越大,規(guī)則的泛化能力和魯棒性就越好。
現(xiàn)有的主流屬性約簡方法有基于正域的屬性約簡方法、基于屬性依賴度的屬性約簡方法、基于信息熵的屬性約簡方法和基于差別矩陣的屬性約簡方法等[7-10]?;谛畔㈧氐膶傩约s簡方法利用信息熵來度量屬性重要度,算法運行效率和準(zhǔn)確性都相對較高。因此,文中采用基于信息熵的屬性約簡方法,算法描述如下[11]:
輸入:信息系統(tǒng)S=(U,A,V,f);
輸出:信息系統(tǒng)的核與最小約簡。
步驟1:計算H(A)。
步驟2:求Core(A)。
(1)Core(A)=?;
(2)對每個a∈A,計算sgf(a);
(3)對每個a∈A,IFsgf(a)>0THENCore(A):=Core(A)∪{a};
(4)輸出Core(A)。
步驟3:求最小約簡。
(1)令C=Core(A),執(zhí)行以下過程;
(2)若H(C)=H(A),則C為A的一個約簡,轉(zhuǎn)(3),否則轉(zhuǎn)(2);
(4)輸出約簡C。
規(guī)則提取即為屬性值約簡,是在保持決策能力不變的前提下,在屬性約簡的基礎(chǔ)上,進(jìn)一步刪除冗余的屬性值以提高生成規(guī)則的泛化能力。屬性值約簡有很多種算法,常見的有一般值約簡算法、基于分辨矩陣的值約簡算法、基于LEM2的規(guī)則提取算法等[12-13]。由于基于分辨矩陣的規(guī)則提取方法簡單易操作,但效率較低,所以為了提高效率,文中采用一種改進(jìn)的基于分辨矩陣的屬性值約簡算法,描述如下[14]:
輸出:該決策表的一個決策規(guī)則集R。
步驟1:構(gòu)造M(S)。
步驟2:計算第i行核屬性C0。
(1)C0=0;
(2)num(j)為M(S)第i行第j個元素所含的屬性個數(shù),對M(S)每一行IFnum(j):=1THENC0:=C0∪cij。
步驟3:修改M(S)。
(1)B←C0;
(2)IFCij∩B≠?
THENM(S)=M(S)-{Cij}
其中i為定值,即將分辨矩陣的第i行中所有與B相交不空的屬性集賦空;
(3)IFM(S)第i行為空,THEN執(zhí)行步驟4,ELSE轉(zhuǎn)(4);
(4)計算每個c屬于C-B的重要性,擴(kuò)充B,計算c∈C-B在M(S)的第i行中出現(xiàn)的次數(shù),將出現(xiàn)次數(shù)最多的屬性加入B轉(zhuǎn)(2)。
步驟4:得出規(guī)則。
(1)對于第i行IFc∩B:=?THENDes([x]B)→Des([x]D);
(2)用上述算法對每一行對象進(jìn)行處理,最終得到?jīng)Q策規(guī)則集R。
4.1 數(shù)據(jù)收集
為了得到大量相關(guān)數(shù)據(jù)來研究影響高校學(xué)生學(xué)習(xí)成績的關(guān)鍵因素,設(shè)計了一份影響高校學(xué)生學(xué)習(xí)成績的調(diào)查問卷。問卷內(nèi)容涵蓋了學(xué)生基本信息、學(xué)習(xí)態(tài)度、學(xué)習(xí)方法三大方面。其中,基本信息包括學(xué)生的個人信息和家庭信息,學(xué)習(xí)態(tài)度包括學(xué)習(xí)目的與學(xué)習(xí)動力,學(xué)習(xí)方法包括學(xué)習(xí)的時間地點與方式手段。問卷共包括21個問項,前20個構(gòu)成條件屬性,后一個為決策屬性。為了便于數(shù)據(jù)處理與提取,所有問項皆為單選,每個答案獨立不重疊。具體的調(diào)查問卷見表1。
表1 調(diào)查問卷
為了使調(diào)研對象的分布較均勻,調(diào)研結(jié)果更加可靠,調(diào)研對象為在校的大一到大四的學(xué)生,調(diào)研地點有宿舍、圖書館、自習(xí)室、考研教室、食堂、校園街道。總共收了300份問卷,剔除其中不符合要求以及明顯隨意填寫無參考價值的21份問卷,剩余279份為真實有用數(shù)據(jù)。
4.2 數(shù)據(jù)處理
使用第2節(jié)中基于信息熵的屬性約簡算法對收集的279份數(shù)據(jù)進(jìn)行屬性約簡,約簡結(jié)果為14個屬性:性別*,父母的平均文化程度*,每周上網(wǎng)的時間,上課時一般坐在第幾排,母親職業(yè),圖書館借書頻率,愛好,鍛煉身體的時間,購買學(xué)習(xí)輔導(dǎo)書,學(xué)習(xí)上遇到問題時的解決方式,作業(yè)是否獨立完成,翹課的頻率,努力學(xué)習(xí)的原因。其中,打*的2個為核屬性。
在上述屬性約簡的基礎(chǔ)上利用第3節(jié)中改進(jìn)的基于分辨矩陣的屬性值約簡算法對約簡后的決策表進(jìn)行處理,得出了33條有效規(guī)則,鑒于篇幅有限,在此就不列出了。其中,覆蓋度0.5以上,支持度0.3,置信度0.9以上的規(guī)則共16條,如表2所示。
表2 規(guī)則集
其中,Ci=j中的Ci代表表1中的第i個問題也是第i個條件屬性,Ci的值j代表表1中第i個問題的第j個選項也是條件屬性的值,D為決策屬性,D的值為表1中第二十一個問題的選項也是決策屬性值。
為了驗證得出規(guī)則的質(zhì)量,從279份數(shù)據(jù)中分別隨機(jī)抽出30%、60%、90%的數(shù)據(jù)作為測試用數(shù)據(jù),以驗證上述16條規(guī)則的分類精度,也就是規(guī)則的可靠程度。為了保證結(jié)果的準(zhǔn)確性,對每種比例的測試數(shù)據(jù)都抽取了100次,如30%的測試數(shù)據(jù),抽取100次,計算每次抽取組的分類精度,取100次分類精度的平均值作為最終結(jié)果。不同比例測試數(shù)據(jù)的分類精度如表3所示。
從表3中可以看出,通過運用基于信息熵的屬性約簡算法以及改進(jìn)的基于分辨矩陣的屬性值約簡算法后,得出的16條規(guī)則的分類精度均在0.7以上,由此可見從數(shù)據(jù)集中得出的16條規(guī)則是較為可靠的。
表3 16條規(guī)則的分類精度
為了進(jìn)一步驗證文中方法的正確性,從279份數(shù)據(jù)里隨機(jī)抽取50%、60%、70%、80%、90%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩余數(shù)據(jù)作為測試數(shù)據(jù),進(jìn)行交叉測試,每組交叉測試進(jìn)行100次。計算結(jié)果如表4所示。
表4 交叉測試結(jié)果
從表4的測試結(jié)果中不難得出,當(dāng)訓(xùn)練數(shù)據(jù)量和測試數(shù)據(jù)量各占總數(shù)據(jù)量的50%時,分類精度依然可以達(dá)到0.6以上,說明文中采用的算法較為恰當(dāng),得到的規(guī)則的準(zhǔn)確度和泛化能力也比較好,從而驗證了文中方法的有效性,證明了文中結(jié)論的精確性。而且當(dāng)訓(xùn)練數(shù)據(jù)增多時,分類精度也逐漸提高。這是因為訓(xùn)練數(shù)據(jù)越多,所提取規(guī)則的質(zhì)量也越好,這個結(jié)果也符合人的直觀認(rèn)識。
從上述實驗分析結(jié)果可以看出,影響高校學(xué)生成績的因素可以分為兩個方面:一是主觀態(tài)度,包括:上自習(xí)時間、上網(wǎng)時間、鍛煉身體的時間、上課時坐在第幾排、圖書館借書頻率、作業(yè)是否獨立完成以及翹課頻率等;二是客觀環(huán)境,包括:性別、父母文化程度、母親職業(yè)等。再由得出的規(guī)則綜合來看,一是態(tài)度積極向上的學(xué)生成績多優(yōu)于態(tài)度一般的學(xué)生,像自習(xí)時間、圖書館借書頻率、作業(yè)獨立完成情況、鍛煉身體的時間等與學(xué)校成績呈正相關(guān),而上網(wǎng)時間、翹課頻率與學(xué)生成績呈負(fù)相關(guān);二是女生成績普遍好于男生,因為女生比較細(xì)心,在學(xué)習(xí)考試當(dāng)中更容易取得優(yōu)良的成績;三是父母文化程度越高孩子成績越好,因為文化程度高的父母可以為子女提供更好的學(xué)習(xí)指引,更擅長培養(yǎng)子女良好的學(xué)習(xí)習(xí)慣。從提取的規(guī)則中發(fā)現(xiàn)有趣的是母親的職業(yè)對孩子成績的影響要大于父親職業(yè)的影響,也許是受中國相夫教子的傳統(tǒng)影響,母親在子女成長的過程中陪伴的更多,母親的很多行為習(xí)慣比父親對子女造成的影響更大,所以母親在孩子的學(xué)習(xí)生活中扮演著非常重要的角色。
以上研究成果可以幫助高校教師和學(xué)生了解在眾多的影響因素中有哪些是影響學(xué)生學(xué)習(xí)成績的最關(guān)鍵因素,以及這些關(guān)鍵因素和成績之間的依賴關(guān)系,從而幫助教師改進(jìn)教學(xué)方法,并幫助學(xué)生改進(jìn)學(xué)習(xí)方法,以更好地提高成績。
為了幫助高校教師及學(xué)生準(zhǔn)確分析影響學(xué)習(xí)成績的關(guān)鍵因素,以有效提高學(xué)生成績,文中設(shè)計了影響高校學(xué)生學(xué)習(xí)成績因素的調(diào)查問卷,構(gòu)成決策表,然后利用粗糙集理論的屬性約簡和規(guī)則提取算法,從決策表中提取影響高校學(xué)生學(xué)習(xí)成績的關(guān)鍵因素以及這些關(guān)鍵因素和成績之間的依賴關(guān)系,導(dǎo)出規(guī)則集,通過實驗驗證了規(guī)則集的有效性。研究成果可以幫助高校教師改進(jìn)教學(xué)方法,幫助高校學(xué)生改進(jìn)學(xué)習(xí)方法。
[1]PawlakZ,Grzymala-BusseJW,SlowinskiR,etal.Roughsets[J].CommunicationsoftheACM,1995,38(11):88-95.
[2]PawlakZ,SkowronA.Roughsets:someextensions[J].InformationSciences,2007,177(1):28-40.
[3] 張文修,吳偉志,梁吉業(yè),等.粗糙集理論與方法[M].北京:科學(xué)出版社,2001.
[4] 呂林霞,趙錫英,唐占紅.一種基于信息熵的信息系統(tǒng)屬性約簡算法[J].自動化與儀器儀表,2013(5):197-199.
[5]PawlakZ.Roughsetapproachtoknowledge-baseddecisionsupport[J].EuropeanJournalofOperationalResearch,1997,99(1):48-57.
[6]PawlakZ.Roughsets,decisionalgorithmsandBayes'theorem[J].EuropeanJournalofOperationalResearch,2002,136(1):181-189.
[7] 陳 娟,王國胤,胡 軍.優(yōu)勢關(guān)系下不協(xié)調(diào)信息系統(tǒng)的正域約簡[J].計算機(jī)科學(xué),2008,35(3):216-218.
[8] 路松峰,劉 芳,胡 波.一種基于屬性依賴的屬性約簡算法[J].華中科技大學(xué)學(xué)報:自然科學(xué)版,2008,36(2):39-41.
[9]FaustinoAgreiraCI,MachadoFerreiraCM,MacielBarbosaFP.Roughsettheory:dataminingtechniqueappliedtotheelectricalpowersystem[M].Netherlands:Springer,2013.
[10] 楊 萍,李濟(jì)生,黃永宣.一種基于二進(jìn)制區(qū)分矩陣的屬性約簡算法[J].信息與控制,2009,38(1):70-74.
[11] 吳尚智,茍平章.粗糙集和信息熵的屬性約簡算法及其應(yīng)用[J].計算機(jī)工程,2011,37(7):56-58.
[12] 徐 怡,李龍澍,李學(xué)俊.改進(jìn)的LEM2規(guī)則提取算法[J].系統(tǒng)工程理論與實踐,2010,30(10):1841-1849.
[13]Grzymala-BusseJW.AnewversionoftheruleinductionsystemLERS[J].FundamentalInformation,1997,31(1):27-39.
[14] 饒 泓,夏葉娟,李姆竹.基于分辨矩陣和屬性重要度的規(guī)則提取算法[J].計算機(jī)工程與應(yīng)用,2009,44(23):163-165.
Research on Factors Affecting College Achievement Based on Rough Set
CAI Xing-yu1,XU Yi1,2,CHENG Zhi-wei1
(1.Department of Computer Science and Technology,Anhui University,Hefei 230601,China; 2.Key Lab of Intelligent Computing and Signal Processing of Ministry of Education,Anhui University, Hefei 230039,China)
Achievement is an important indicator of teaching quality and student learning.Because of many factors that affect student’s achievement,teachers and students cannot clearly recognize the key factors affecting the results.Therefore,on the one hand,teachers cannot make an improvement to teaching methods to improve the quality of teaching.On the other hand,students are unable to make targeted improvements to the learning methods to improve study performance.To help college students and teachers for analysis of key factors influencing academic performance accurately,a questionnaire about factors affecting college student achievement is designed.Those data are collected from the school’s freshman to senior,then using heuristic attribute reduction algorithm based on information entropy in rough set theory to identify the key factors affecting the performance of college students,and next applying improved property values reduction algorithm based on resolution matrix in rough set theory to mine key factors affecting student achievement and college students dependencies between the results derived the rule set.Finally through the experiment,the validity of the rule set is verified.Research can help university teachers and students to understand the key factors that affect performance,thereby improving the way teachers teaching and students learning.
college student;factors affecting achievement;rough set;rule extraction;attribute reduction
2016-01-21
2016-04-26
時間:2016-10-24
國家自然科學(xué)基金資助項目(61402005);安徽省自然科學(xué)基金項目(1308085QF114);安徽省高等學(xué)校省級自然科學(xué)基金項目(KJ2013A015,KJ2011Z020);安徽大學(xué)大學(xué)生科研訓(xùn)練計劃項目(KYXL2014064);安徽大學(xué)計算智能與信號處理教育部重點實驗室開放課題項目
蔡興雨(1994-),男,研究方向為機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘;徐 怡,副教授,博士,研究方向為智能信息處理和粗糙集理論。
http://www.cnki.net/kcms/detail/61.1450.TP.20161024.1114.048.html
TP39
A
1673-629X(2016)11-0200-05
10.3969/j.issn.1673-629X.2016.11.043