徐 怡,湯天賀,張 屹,劉埠遠(yuǎn),張?zhí)硪?/p>
(安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601)
目前對(duì)于學(xué)生實(shí)踐能力的評(píng)估還是通過(guò)某些課程的分?jǐn)?shù)或者人為觀察,得到的結(jié)果很可能與實(shí)際情況不符。這對(duì)于高?;蚪處熀饬繉W(xué)生綜合能力具有很大影響。標(biāo)準(zhǔn)的可以客觀準(zhǔn)確評(píng)估學(xué)生實(shí)踐能力的規(guī)則體系對(duì)現(xiàn)階段教學(xué)是非常有必要的。文中通過(guò)對(duì)高校學(xué)生的真實(shí)數(shù)據(jù)進(jìn)行處理,得到其中隱含的規(guī)則。具體做法是向高校大一至大四的學(xué)生發(fā)放調(diào)查問(wèn)卷收集數(shù)據(jù),然后利用基于粗糙集的屬性約簡(jiǎn)算法和規(guī)則提取算法對(duì)數(shù)據(jù)進(jìn)行處理,最后通過(guò)實(shí)驗(yàn)驗(yàn)證導(dǎo)出規(guī)則的科學(xué)性。
文中運(yùn)用的數(shù)據(jù)分析方法是基于粗糙集的屬性約簡(jiǎn)和規(guī)則提取[1]。粗糙集是波蘭科學(xué)家Pawlak在1982年提出的一種處理模糊和不確定知識(shí)的數(shù)學(xué)工具[2-3]。它能有效地分析不精確、不一致性、不完整等各種不完備信息,還可以通過(guò)對(duì)數(shù)據(jù)的分析和推理,從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)則。目前,粗糙集已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域,例如人工智能領(lǐng)域中的機(jī)器學(xué)習(xí)、知識(shí)獲取、分析決策等;也可以與其他軟計(jì)算方法結(jié)合,設(shè)計(jì)出更智能更有效的混合系統(tǒng)[4]。
利用粗糙集理論進(jìn)行數(shù)據(jù)處理,提取數(shù)據(jù)中隱含的規(guī)則,最重要的一點(diǎn)就是對(duì)于屬性約簡(jiǎn)和規(guī)則提取算法的研究。屬性約簡(jiǎn)可以有效降低知識(shí)系統(tǒng)的維數(shù),而規(guī)則提取則在此基礎(chǔ)上從中得出有效的規(guī)則[5]。對(duì)于數(shù)量龐大的數(shù)據(jù)集來(lái)說(shuō),數(shù)據(jù)之間的聯(lián)系性通常代表特殊的現(xiàn)實(shí)意義。但由于數(shù)據(jù)庫(kù)的龐大,人工處理幾乎不可能,而引入粗糙集方法可以將大量數(shù)據(jù)精煉成規(guī)則形式描述的知識(shí),便于分析[6-7]。
文中的粗糙集在規(guī)則提取方法中運(yùn)用信息熵的概念,用來(lái)描述數(shù)據(jù)之間的相關(guān)性[8]。先運(yùn)用粗糙集對(duì)收集的176份有效問(wèn)卷進(jìn)行屬性約簡(jiǎn),然后對(duì)約簡(jiǎn)后的信息系統(tǒng)提取規(guī)則,最終得到影響學(xué)生實(shí)踐能力的具體因素。
文中涉及的相關(guān)概念如下[9-10]:
定義1:一個(gè)知識(shí)表達(dá)系統(tǒng)(或信息表)S可以表示成有序四元組S={U,A,V,F};U是論域,是全體樣本的集合;A代表屬性集合,A=C∪D,C是條件屬性集,反映的是對(duì)象的特征,D是決策屬性集,反映的是對(duì)象的類別;V是屬性值的集合,Vr表示屬性r的取值范圍;F為信息函數(shù),用于確定U中每一個(gè)對(duì)象x的屬性值;F∶U×A→V,即任一xi∈U,r∈A,則F(xi,r)=Vr。
設(shè)U為一個(gè)論域,對(duì)于屬于條件屬性集合C中的任一屬性集,都可以導(dǎo)出相應(yīng)的等價(jià)劃分。
定義2:U/R表示U上由R導(dǎo)出的所有等價(jià)類。[x]R表示包含元素x∈U的R等價(jià)類,由同一屬性集導(dǎo)出的等價(jià)類中的對(duì)象在屬性集上是不可分辨的。例如,P是U上的一個(gè)等價(jià)類簇,如果Q∈P且Q≠?,則Q的所有等價(jià)類的交也是一個(gè)等價(jià)關(guān)系,記作IND(Q)。
定義3:P為等價(jià)關(guān)系簇,R∈P,如果有IND(P)=IND(P-{R}),則稱R是P中不必要的;否則R為P中必要的。如果每一個(gè)關(guān)系R∈P都是必要的,則P是獨(dú)立的,否則P為依賴的。
定義4:U為論域,Q和P是U上的兩個(gè)等價(jià)關(guān)系簇,且P包含Q,若Q是獨(dú)立的,且兩者劃分的等價(jià)關(guān)系相同,則Q是P的一個(gè)約簡(jiǎn),記作:RED(P)。P中所有絕對(duì)必要關(guān)系的集合稱為等價(jià)關(guān)系簇P的核,記作:CORE(P)。
文中采用的屬性約簡(jiǎn)算法以核作為基礎(chǔ),逐漸擴(kuò)充必要的屬性。為了對(duì)決策表中屬性重要度做有效度量,引入信息熵的概念。
定義5[11]:信息P的熵H(P)定義為:
文中用到的是條件屬性對(duì)于決策屬性的影響,進(jìn)一步運(yùn)用信息熵,得出關(guān)于決策屬性的條件信息熵。
定義6[12]:決策信息系統(tǒng)S={U,A=C∪D,V,F},C、D為U上的一個(gè)等價(jià)關(guān)系集合,C、D在U上導(dǎo)出的劃分分別為:
U/IND(C)={X1,X2,…,Xn}
U/IND(D)={Y1,Y2,…,Yn}
則D相對(duì)于C的條件信息熵H(D|C)為:
定義7:在決策信息系統(tǒng)S={U,A=C∪D,V,F}中,若?B?C,H(D|B)=H(D|C)且B相對(duì)于D是獨(dú)立的,則稱B是C關(guān)于D的屬性約簡(jiǎn)。
定義8:設(shè)U是一個(gè)論域,P是U的一個(gè)條件屬性集合,D為決策屬性,則r∈P是核屬性的充分必要條件為H(D|P) 定義9:設(shè)S={U,A=C∪D,V,F}是一個(gè)決策信息系統(tǒng),其中C是條件屬性集合,D是決策屬性集合,且R?C,則對(duì)于任意屬性a∈C-R的重要度SGF(a,R,D)的定義為:SGF(a,R,D)=H(D|R)-H(D|R∪{a})。 當(dāng)a添加進(jìn)入C中,信息熵變化越大,a關(guān)于D越重要。 定義10[13]:U={x1,x2,…,xn},c∈C0,c(x)是對(duì)象x在屬性C上的值,D(x)是對(duì)象x在決策D上的值,則分辨矩陣記為M(S)=[cij]m*n,其i行j列處元素為: if c(xi)≠c(xj),D(xi)≠D(xj)thenc∈Celse0 屬性約簡(jiǎn)對(duì)于一個(gè)信息系統(tǒng)來(lái)說(shuō)非常重要,它可以減少信息系統(tǒng)的規(guī)模。即使用一部分屬性和數(shù)據(jù)就可以達(dá)到與之前相同的決策效果。通常信息系統(tǒng)中并不是所有屬性都一樣重要,而去掉冗余屬性的步驟被為稱屬性約簡(jiǎn),文中選用了基于信息熵的屬性約簡(jiǎn)算法[14],即利用信息熵來(lái)區(qū)分屬性的重要程度。算法描述如下: 輸入:信息系統(tǒng)S={U,A=C∪D,V,F}即屬性集合,C是條件集合,D是決策集合; 輸出:信息系統(tǒng)的核與最小約簡(jiǎn)P。 Step1:決策屬性集D相對(duì)條件屬性集合C的條件熵H(D|C)。 Step2:計(jì)算C中的核屬性集Core。 Step2.1:Core=?; Step2.2:對(duì)于每個(gè)a∈C,IFH(D|C) Step2.3:輸出Core。 Step3:約簡(jiǎn)。 Step3.1:P=Core,B=C-Core; Step3.2:計(jì)算條件信息熵H(D|P),IFH(D|P)=H(D|C)轉(zhuǎn)Step4,否則繼續(xù)執(zhí)行; Step3.3:對(duì)于每個(gè)r∈B,計(jì)算條件信息熵H(D|P∪{r}),求SGF({r})=H(D|P)-H(D|P∪{r}); Step3.4:選擇SGF({r})最大的屬性r,B=B-{r},P=P+{r},同時(shí)把SGF為零的屬性值去掉; Step3.5:轉(zhuǎn)Step3.2。 Step4:輸出約簡(jiǎn)P。 算法的核心思想就是從核屬性集開(kāi)始,對(duì)剩下的屬性計(jì)算條件信息熵。條件信息熵的值為0,表示此屬性對(duì)于信息系統(tǒng)是不必要的。以此作為判斷條件,進(jìn)行多輪計(jì)算,直到現(xiàn)有屬性集可以替代原來(lái)的屬性集。 屬性約簡(jiǎn)縮小了數(shù)據(jù)的規(guī)模。但是約簡(jiǎn)后的數(shù)據(jù)仍然有冗余。規(guī)則提取就是進(jìn)一步地去掉不必要的信息,刪除每個(gè)樣本中的多余屬性值。用少量的數(shù)據(jù)值就可以區(qū)分一條樣本。由于處理的數(shù)據(jù)量較少,所以文中選用的是基于分辨矩陣的規(guī)則提取算法,該算法較為簡(jiǎn)單,也容易實(shí)現(xiàn)。中間加入了一些啟發(fā)式信息,來(lái)提高效率。 算法描述如下[15-16]: 輸入:信息系統(tǒng)S={U,A=C∪D,V,F}即屬性集合,C是條件集合,D是決策集合; 輸出:規(guī)則集R。 Step1:根據(jù)S構(gòu)造分辨矩陣M。 Step2:計(jì)算每行的核屬性集C。 Step2.1:C=?; Step2.2:對(duì)于M的一行來(lái)說(shuō),它的核屬性集C是一行中所有屬性個(gè)數(shù)為一的元素的集合。 Step3:更改M。 Step3.1:i為M的行數(shù),j為M的列數(shù); Step3.2:IFM[i][j]∩C≠? THENM[i][j]=?; Step3.3:對(duì)于M的一行來(lái)說(shuō),IF所有元素的并集為空,轉(zhuǎn)Step4,否則繼續(xù)執(zhí)行; Step3.4:挑選M的一行中出現(xiàn)次數(shù)最多的一個(gè)屬性r,C=C+{r},轉(zhuǎn)Step3.2。 Step4:輸出規(guī)則。 Step4.1:對(duì)于M的第i行,此時(shí)得到規(guī)則:核屬性集C中的屬性對(duì)于第i行決策表中的描述→決策表第i行的決策值; Step4.2:對(duì)M的每一行進(jìn)行處理。 算法首先構(gòu)建差別矩陣,其中的一行代表此條知識(shí)與其他知識(shí)的區(qū)分情況。對(duì)每一行求出所對(duì)應(yīng)的核屬性,然后用非核屬性填充到核屬性集合,直到核屬性集合可以唯一區(qū)分此條知識(shí)。得到的核屬性集合及其值構(gòu)成了規(guī)則,下面通過(guò)實(shí)驗(yàn)將對(duì)規(guī)則進(jìn)行分析處理,包括置信度、覆蓋度、支持度的計(jì)算,以及驗(yàn)證。 為了得到大量數(shù)據(jù)研究影響大學(xué)生實(shí)踐能力的關(guān)鍵因素,設(shè)計(jì)出一份有關(guān)大學(xué)生實(shí)踐能力調(diào)查的調(diào)查問(wèn)卷,問(wèn)卷內(nèi)容分別從個(gè)人信息、個(gè)人生活與學(xué)習(xí)習(xí)慣以及對(duì)實(shí)踐的態(tài)度三個(gè)主要方面入手。本問(wèn)卷共設(shè)置20個(gè)問(wèn)項(xiàng),其中總成績(jī)排名、小學(xué)期實(shí)習(xí)成績(jī)、暑期實(shí)踐活動(dòng)完成的情況、評(píng)價(jià)自己實(shí)踐能力四條,根據(jù)不同的選項(xiàng)分別設(shè)置分?jǐn)?shù)為0、1、2、3分,分?jǐn)?shù)相加所得的結(jié)果作為實(shí)踐能力的決策屬性??偡衷趨^(qū)間0-7分者實(shí)踐能力弱,在區(qū)間9-12分者實(shí)踐能力強(qiáng)。為方便數(shù)據(jù)處理,所有問(wèn)項(xiàng)設(shè)置為單項(xiàng)選擇,每個(gè)答案相互獨(dú)立。具體的調(diào)查問(wèn)卷見(jiàn)表1。 表1 問(wèn)卷表 問(wèn)卷的發(fā)放對(duì)象主要為在校大二到大四學(xué)生??偣彩盏?00份問(wèn)卷,去除隨意填寫(xiě)以及填寫(xiě)不完整的問(wèn)卷,真實(shí)有效的問(wèn)卷數(shù)量為176份。因大一新生參與實(shí)踐的機(jī)會(huì)和相關(guān)評(píng)價(jià)指標(biāo)較少,為使得到的結(jié)果更為準(zhǔn)確,更加具有普遍性,在所得176份有效問(wèn)卷中,大一新生所占比例較少,僅占比約11%。 根據(jù)第2節(jié)中所提到的基于信息熵的屬性約簡(jiǎn)算法對(duì)收集到的176份數(shù)據(jù)進(jìn)行屬性約簡(jiǎn),約簡(jiǎn)結(jié)果為以下10條屬性:性格,做事風(fēng)格,重視學(xué)科遷移,積極主動(dòng)和他人交流,課余時(shí)間,遇到問(wèn)題,幾個(gè)社團(tuán),公益或志愿者,學(xué)習(xí)成績(jī)還是實(shí)踐能力,自己動(dòng)手做事。 基于第3節(jié)中所提到的分辨矩陣方法將屬性約簡(jiǎn)的結(jié)果進(jìn)行進(jìn)一步處理,得到10條覆蓋度0.5以上,支持度0.4以上,置信度0.8以上有效規(guī)則,如表2所示。 表2 規(guī)則表 為驗(yàn)證所得到規(guī)則的準(zhǔn)確性,從所有的176份數(shù)據(jù)中分別隨機(jī)抽取60%,70%,80%,90%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其他數(shù)據(jù)作為測(cè)試數(shù)據(jù)進(jìn)行交叉測(cè)試。每組測(cè)試100次,將測(cè)試結(jié)果取平均值,所得結(jié)果統(tǒng)計(jì)如表3所示。從表3可以看出當(dāng)抽取的數(shù)據(jù)比例在50%~90%之間時(shí),分類精度可達(dá)到0.6以上,并且隨著訓(xùn)練集的不斷增加,所得到的分類精度也趨于穩(wěn)定,說(shuō)明實(shí)驗(yàn)所采用的基于信息熵的屬性約簡(jiǎn)算法與規(guī)則提取算法得出了可靠性較高的結(jié)果。 表3 測(cè)試抽取比例表 由以上研究數(shù)據(jù)可得出影響大學(xué)生實(shí)踐能力的關(guān)鍵因素以及推測(cè)大致導(dǎo)致其有相關(guān)性的原因:自己動(dòng)手做事情的積極性、自主學(xué)習(xí)的積極性與實(shí)踐能力呈正相關(guān),而遇到問(wèn)題時(shí)傾向請(qǐng)求他人幫忙與實(shí)踐能力呈負(fù)相關(guān)。具體表現(xiàn)為學(xué)生對(duì)實(shí)踐本身的內(nèi)心接納程度越高,學(xué)習(xí)與接受能力越強(qiáng),實(shí)踐能力也越強(qiáng);另外從結(jié)果中得出的一條規(guī)則得出,在課余時(shí)間進(jìn)行網(wǎng)上娛樂(lè)的學(xué)生的實(shí)踐能力相比在課余時(shí)間進(jìn)行自主學(xué)習(xí)的學(xué)生實(shí)踐能力更弱,從而印證了上述觀點(diǎn)。實(shí)驗(yàn)中得出的其中一條結(jié)論引人注目:認(rèn)為實(shí)踐能力相對(duì)于學(xué)習(xí)成績(jī)更為重要的學(xué)生實(shí)踐能力更弱,而認(rèn)為學(xué)習(xí)成績(jī)更重要的學(xué)生往往實(shí)踐能力也很好。這說(shuō)明實(shí)踐能力的提高需要以理論知識(shí)為基礎(chǔ),實(shí)踐也即為所學(xué)理論知識(shí)的驗(yàn)證。二者相輔相成,不可分而論之。而大學(xué)社團(tuán)對(duì)于學(xué)生的實(shí)踐能力也存在一定的影響,社團(tuán)所提供的工作與交流環(huán)境將更有助于培養(yǎng)學(xué)生的實(shí)踐能力。 根據(jù)以上研究成果所得出的結(jié)論以及原因的推測(cè)可以幫助高校制定出臺(tái)相關(guān)的規(guī)則制度,也可幫助教師抓住如何提升學(xué)生實(shí)踐能力的關(guān)鍵所在,并改進(jìn)實(shí)踐授課方法,從而使學(xué)生更愿意動(dòng)手實(shí)踐,采取正確的實(shí)踐方法,進(jìn)而提升學(xué)生的實(shí)踐能力。 為了準(zhǔn)確了解影響高校學(xué)生實(shí)踐能力的關(guān)鍵因素,以提高學(xué)生的實(shí)踐能力,通過(guò)對(duì)文中設(shè)計(jì)的調(diào)查問(wèn)卷進(jìn)行分析,利用粗糙集理論的屬性約簡(jiǎn)和規(guī)則提取算法,從決策表中提取影響高校學(xué)生實(shí)踐能力的關(guān)鍵因素,導(dǎo)出規(guī)則集。通過(guò)實(shí)驗(yàn)驗(yàn)證了該規(guī)則集的有效性。研究成果可以對(duì)高校教學(xué)工作的開(kāi)展提供參考,繼而提高學(xué)生的實(shí)踐能力。2 屬性約簡(jiǎn)算法
3 規(guī)則提取算法
4 實(shí)驗(yàn)分析
4.1 數(shù)據(jù)收集
4.2 數(shù)據(jù)處理
5 結(jié)束語(yǔ)