基于粗糙集的高校學(xué)生實(shí)踐能力因素研究

2020-04-30 04:36湯天賀劉埠遠(yuǎn)張?zhí)硪?/span>

計(jì)算機(jī)技術(shù)與發(fā)展 2020年4期

徐怡，湯天賀，張屹，劉埠遠(yuǎn)，張?zhí)硪?/p>

(安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，安徽合肥 230601)

0 引言

目前對(duì)于學(xué)生實(shí)踐能力的評(píng)估還是通過(guò)某些課程的分?jǐn)?shù)或者人為觀察，得到的結(jié)果很可能與實(shí)際情況不符。這對(duì)于高?；蚪處熀饬繉W(xué)生綜合能力具有很大影響。標(biāo)準(zhǔn)的可以客觀準(zhǔn)確評(píng)估學(xué)生實(shí)踐能力的規(guī)則體系對(duì)現(xiàn)階段教學(xué)是非常有必要的。文中通過(guò)對(duì)高校學(xué)生的真實(shí)數(shù)據(jù)進(jìn)行處理，得到其中隱含的規(guī)則。具體做法是向高校大一至大四的學(xué)生發(fā)放調(diào)查問(wèn)卷收集數(shù)據(jù)，然后利用基于粗糙集的屬性約簡(jiǎn)算法和規(guī)則提取算法對(duì)數(shù)據(jù)進(jìn)行處理，最后通過(guò)實(shí)驗(yàn)驗(yàn)證導(dǎo)出規(guī)則的科學(xué)性。

文中運(yùn)用的數(shù)據(jù)分析方法是基于粗糙集的屬性約簡(jiǎn)和規(guī)則提取[1]。粗糙集是波蘭科學(xué)家Pawlak在1982年提出的一種處理模糊和不確定知識(shí)的數(shù)學(xué)工具[2-3]。它能有效地分析不精確、不一致性、不完整等各種不完備信息，還可以通過(guò)對(duì)數(shù)據(jù)的分析和推理，從中發(fā)現(xiàn)隱含的知識(shí)，揭示潛在的規(guī)則。目前，粗糙集已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域，例如人工智能領(lǐng)域中的機(jī)器學(xué)習(xí)、知識(shí)獲取、分析決策等;也可以與其他軟計(jì)算方法結(jié)合，設(shè)計(jì)出更智能更有效的混合系統(tǒng)[4]。

利用粗糙集理論進(jìn)行數(shù)據(jù)處理，提取數(shù)據(jù)中隱含的規(guī)則，最重要的一點(diǎn)就是對(duì)于屬性約簡(jiǎn)和規(guī)則提取算法的研究。屬性約簡(jiǎn)可以有效降低知識(shí)系統(tǒng)的維數(shù)，而規(guī)則提取則在此基礎(chǔ)上從中得出有效的規(guī)則[5]。對(duì)于數(shù)量龐大的數(shù)據(jù)集來(lái)說(shuō)，數(shù)據(jù)之間的聯(lián)系性通常代表特殊的現(xiàn)實(shí)意義。但由于數(shù)據(jù)庫(kù)的龐大，人工處理幾乎不可能，而引入粗糙集方法可以將大量數(shù)據(jù)精煉成規(guī)則形式描述的知識(shí)，便于分析[6-7]。

文中的粗糙集在規(guī)則提取方法中運(yùn)用信息熵的概念，用來(lái)描述數(shù)據(jù)之間的相關(guān)性[8]。先運(yùn)用粗糙集對(duì)收集的176份有效問(wèn)卷進(jìn)行屬性約簡(jiǎn)，然后對(duì)約簡(jiǎn)后的信息系統(tǒng)提取規(guī)則，最終得到影響學(xué)生實(shí)踐能力的具體因素。

1 粗糙集基本知識(shí)

文中涉及的相關(guān)概念如下[9-10]:

定義1:一個(gè)知識(shí)表達(dá)系統(tǒng)(或信息表)S可以表示成有序四元組S={U,A,V,F}；U是論域，是全體樣本的集合；A代表屬性集合，A=C∪D，C是條件屬性集，反映的是對(duì)象的特征，D是決策屬性集，反映的是對(duì)象的類別；V是屬性值的集合，Vr表示屬性r的取值范圍；F為信息函數(shù)，用于確定U中每一個(gè)對(duì)象x的屬性值；F∶U×A→V，即任一xi∈U，r∈A，則F(xi,r)=Vr。

設(shè)U為一個(gè)論域，對(duì)于屬于條件屬性集合C中的任一屬性集，都可以導(dǎo)出相應(yīng)的等價(jià)劃分。

定義2:U/R表示U上由R導(dǎo)出的所有等價(jià)類。[x]R表示包含元素x∈U的R等價(jià)類，由同一屬性集導(dǎo)出的等價(jià)類中的對(duì)象在屬性集上是不可分辨的。例如，P是U上的一個(gè)等價(jià)類簇，如果Q∈P且Q≠?，則Q的所有等價(jià)類的交也是一個(gè)等價(jià)關(guān)系，記作IND(Q)。

定義3:P為等價(jià)關(guān)系簇，R∈P，如果有IND(P)=IND(P-{R})，則稱R是P中不必要的；否則R為P中必要的。如果每一個(gè)關(guān)系R∈P都是必要的，則P是獨(dú)立的，否則P為依賴的。

定義4:U為論域，Q和P是U上的兩個(gè)等價(jià)關(guān)系簇，且P包含Q，若Q是獨(dú)立的，且兩者劃分的等價(jià)關(guān)系相同，則Q是P的一個(gè)約簡(jiǎn)，記作:RED(P)。P中所有絕對(duì)必要關(guān)系的集合稱為等價(jià)關(guān)系簇P的核，記作:CORE(P)。

文中采用的屬性約簡(jiǎn)算法以核作為基礎(chǔ)，逐漸擴(kuò)充必要的屬性。為了對(duì)決策表中屬性重要度做有效度量，引入信息熵的概念。

定義5[11]:信息P的熵H(P)定義為:

文中用到的是條件屬性對(duì)于決策屬性的影響，進(jìn)一步運(yùn)用信息熵，得出關(guān)于決策屬性的條件信息熵。

定義6[12]:決策信息系統(tǒng)S={U,A=C∪D,V,F}，C、D為U上的一個(gè)等價(jià)關(guān)系集合，C、D在U上導(dǎo)出的劃分分別為:

U/IND(C)={X1,X2,…,Xn}

U/IND(D)={Y1,Y2,…,Yn}

則D相對(duì)于C的條件信息熵H(D|C)為:

定義7:在決策信息系統(tǒng)S={U,A=C∪D,V,F}中,若?B?C，H(D|B)=H(D|C)且B相對(duì)于D是獨(dú)立的，則稱B是C關(guān)于D的屬性約簡(jiǎn)。

定義8:設(shè)U是一個(gè)論域，P是U的一個(gè)條件屬性集合，D為決策屬性，則r∈P是核屬性的充分必要條件為H(D|P)

定義9:設(shè)S={U,A=C∪D,V,F}是一個(gè)決策信息系統(tǒng)，其中C是條件屬性集合，D是決策屬性集合，且R?C，則對(duì)于任意屬性a∈C-R的重要度SGF(a,R,D)的定義為:SGF(a,R,D)=H(D|R)-H(D|R∪{a})。

當(dāng)a添加進(jìn)入C中，信息熵變化越大，a關(guān)于D越重要。

定義10[13]:U={x1,x2,…,xn},c∈C0，c(x)是對(duì)象x在屬性C上的值,D(x)是對(duì)象x在決策D上的值,則分辨矩陣記為M(S)=[cij]m*n,其i行j列處元素為:

if c(xi)≠c(xj),D(xi)≠D(xj)thenc∈Celse0

2 屬性約簡(jiǎn)算法

屬性約簡(jiǎn)對(duì)于一個(gè)信息系統(tǒng)來(lái)說(shuō)非常重要，它可以減少信息系統(tǒng)的規(guī)模。即使用一部分屬性和數(shù)據(jù)就可以達(dá)到與之前相同的決策效果。通常信息系統(tǒng)中并不是所有屬性都一樣重要，而去掉冗余屬性的步驟被為稱屬性約簡(jiǎn)，文中選用了基于信息熵的屬性約簡(jiǎn)算法[14]，即利用信息熵來(lái)區(qū)分屬性的重要程度。算法描述如下:

輸入:信息系統(tǒng)S={U,A=C∪D,V,F}即屬性集合，C是條件集合，D是決策集合；

輸出:信息系統(tǒng)的核與最小約簡(jiǎn)P。

Step1:決策屬性集D相對(duì)條件屬性集合C的條件熵H(D|C)。

Step2:計(jì)算C中的核屬性集Core。

Step2.1:Core=?；

Step2.2:對(duì)于每個(gè)a∈C，IFH(D|C)

Step2.3:輸出Core。

Step3:約簡(jiǎn)。

Step3.1:P=Core,B=C-Core；

Step3.2:計(jì)算條件信息熵H(D|P)，IFH(D|P)=H(D|C)轉(zhuǎn)Step4，否則繼續(xù)執(zhí)行；

Step3.3:對(duì)于每個(gè)r∈B，計(jì)算條件信息熵H(D|P∪{r})，求SGF({r})=H(D|P)-H(D|P∪{r})；

Step3.4:選擇SGF({r})最大的屬性r，B=B-{r}，P=P+{r}，同時(shí)把SGF為零的屬性值去掉；

Step3.5:轉(zhuǎn)Step3.2。

Step4:輸出約簡(jiǎn)P。

算法的核心思想就是從核屬性集開(kāi)始，對(duì)剩下的屬性計(jì)算條件信息熵。條件信息熵的值為0，表示此屬性對(duì)于信息系統(tǒng)是不必要的。以此作為判斷條件，進(jìn)行多輪計(jì)算，直到現(xiàn)有屬性集可以替代原來(lái)的屬性集。

3 規(guī)則提取算法

屬性約簡(jiǎn)縮小了數(shù)據(jù)的規(guī)模。但是約簡(jiǎn)后的數(shù)據(jù)仍然有冗余。規(guī)則提取就是進(jìn)一步地去掉不必要的信息，刪除每個(gè)樣本中的多余屬性值。用少量的數(shù)據(jù)值就可以區(qū)分一條樣本。由于處理的數(shù)據(jù)量較少，所以文中選用的是基于分辨矩陣的規(guī)則提取算法，該算法較為簡(jiǎn)單，也容易實(shí)現(xiàn)。中間加入了一些啟發(fā)式信息，來(lái)提高效率。

算法描述如下[15-16]:

輸入:信息系統(tǒng)S={U,A=C∪D,V,F}即屬性集合，C是條件集合，D是決策集合；

輸出:規(guī)則集R。

Step1:根據(jù)S構(gòu)造分辨矩陣M。

Step2:計(jì)算每行的核屬性集C。

Step2.1:C=?；

Step2.2:對(duì)于M的一行來(lái)說(shuō)，它的核屬性集C是一行中所有屬性個(gè)數(shù)為一的元素的集合。

Step3:更改M。

Step3.1:i為M的行數(shù)，j為M的列數(shù)；

Step3.2:IFM[i][j]∩C≠? THENM[i][j]=?；

Step3.3:對(duì)于M的一行來(lái)說(shuō)，IF所有元素的并集為空，轉(zhuǎn)Step4，否則繼續(xù)執(zhí)行；

Step3.4:挑選M的一行中出現(xiàn)次數(shù)最多的一個(gè)屬性r，C=C+{r}，轉(zhuǎn)Step3.2。

Step4:輸出規(guī)則。

Step4.1:對(duì)于M的第i行，此時(shí)得到規(guī)則:核屬性集C中的屬性對(duì)于第i行決策表中的描述→決策表第i行的決策值；

Step4.2:對(duì)M的每一行進(jìn)行處理。

算法首先構(gòu)建差別矩陣，其中的一行代表此條知識(shí)與其他知識(shí)的區(qū)分情況。對(duì)每一行求出所對(duì)應(yīng)的核屬性，然后用非核屬性填充到核屬性集合，直到核屬性集合可以唯一區(qū)分此條知識(shí)。得到的核屬性集合及其值構(gòu)成了規(guī)則，下面通過(guò)實(shí)驗(yàn)將對(duì)規(guī)則進(jìn)行分析處理，包括置信度、覆蓋度、支持度的計(jì)算，以及驗(yàn)證。

4 實(shí)驗(yàn)分析

4.1 數(shù)據(jù)收集

為了得到大量數(shù)據(jù)研究影響大學(xué)生實(shí)踐能力的關(guān)鍵因素，設(shè)計(jì)出一份有關(guān)大學(xué)生實(shí)踐能力調(diào)查的調(diào)查問(wèn)卷，問(wèn)卷內(nèi)容分別從個(gè)人信息、個(gè)人生活與學(xué)習(xí)習(xí)慣以及對(duì)實(shí)踐的態(tài)度三個(gè)主要方面入手。本問(wèn)卷共設(shè)置20個(gè)問(wèn)項(xiàng)，其中總成績(jī)排名、小學(xué)期實(shí)習(xí)成績(jī)、暑期實(shí)踐活動(dòng)完成的情況、評(píng)價(jià)自己實(shí)踐能力四條，根據(jù)不同的選項(xiàng)分別設(shè)置分?jǐn)?shù)為0、1、2、3分，分?jǐn)?shù)相加所得的結(jié)果作為實(shí)踐能力的決策屬性?？偡衷趨^(qū)間0-7分者實(shí)踐能力弱，在區(qū)間9-12分者實(shí)踐能力強(qiáng)。為方便數(shù)據(jù)處理，所有問(wèn)項(xiàng)設(shè)置為單項(xiàng)選擇，每個(gè)答案相互獨(dú)立。具體的調(diào)查問(wèn)卷見(jiàn)表1。

表1 問(wèn)卷表

問(wèn)卷的發(fā)放對(duì)象主要為在校大二到大四學(xué)生?？偣彩盏?00份問(wèn)卷，去除隨意填寫(xiě)以及填寫(xiě)不完整的問(wèn)卷，真實(shí)有效的問(wèn)卷數(shù)量為176份。因大一新生參與實(shí)踐的機(jī)會(huì)和相關(guān)評(píng)價(jià)指標(biāo)較少，為使得到的結(jié)果更為準(zhǔn)確，更加具有普遍性，在所得176份有效問(wèn)卷中，大一新生所占比例較少，僅占比約11%。

4.2 數(shù)據(jù)處理

根據(jù)第2節(jié)中所提到的基于信息熵的屬性約簡(jiǎn)算法對(duì)收集到的176份數(shù)據(jù)進(jìn)行屬性約簡(jiǎn)，約簡(jiǎn)結(jié)果為以下10條屬性:性格,做事風(fēng)格,重視學(xué)科遷移,積極主動(dòng)和他人交流,課余時(shí)間,遇到問(wèn)題,幾個(gè)社團(tuán),公益或志愿者,學(xué)習(xí)成績(jī)還是實(shí)踐能力,自己動(dòng)手做事。

基于第3節(jié)中所提到的分辨矩陣方法將屬性約簡(jiǎn)的結(jié)果進(jìn)行進(jìn)一步處理，得到10條覆蓋度0.5以上，支持度0.4以上，置信度0.8以上有效規(guī)則，如表2所示。

表2 規(guī)則表

為驗(yàn)證所得到規(guī)則的準(zhǔn)確性，從所有的176份數(shù)據(jù)中分別隨機(jī)抽取60%，70%，80%，90%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，其他數(shù)據(jù)作為測(cè)試數(shù)據(jù)進(jìn)行交叉測(cè)試。每組測(cè)試100次，將測(cè)試結(jié)果取平均值，所得結(jié)果統(tǒng)計(jì)如表3所示。從表3可以看出當(dāng)抽取的數(shù)據(jù)比例在50%～90%之間時(shí)，分類精度可達(dá)到0.6以上，并且隨著訓(xùn)練集的不斷增加，所得到的分類精度也趨于穩(wěn)定，說(shuō)明實(shí)驗(yàn)所采用的基于信息熵的屬性約簡(jiǎn)算法與規(guī)則提取算法得出了可靠性較高的結(jié)果。

表3 測(cè)試抽取比例表

由以上研究數(shù)據(jù)可得出影響大學(xué)生實(shí)踐能力的關(guān)鍵因素以及推測(cè)大致導(dǎo)致其有相關(guān)性的原因:自己動(dòng)手做事情的積極性、自主學(xué)習(xí)的積極性與實(shí)踐能力呈正相關(guān)，而遇到問(wèn)題時(shí)傾向請(qǐng)求他人幫忙與實(shí)踐能力呈負(fù)相關(guān)。具體表現(xiàn)為學(xué)生對(duì)實(shí)踐本身的內(nèi)心接納程度越高，學(xué)習(xí)與接受能力越強(qiáng)，實(shí)踐能力也越強(qiáng)；另外從結(jié)果中得出的一條規(guī)則得出，在課余時(shí)間進(jìn)行網(wǎng)上娛樂(lè)的學(xué)生的實(shí)踐能力相比在課余時(shí)間進(jìn)行自主學(xué)習(xí)的學(xué)生實(shí)踐能力更弱，從而印證了上述觀點(diǎn)。實(shí)驗(yàn)中得出的其中一條結(jié)論引人注目:認(rèn)為實(shí)踐能力相對(duì)于學(xué)習(xí)成績(jī)更為重要的學(xué)生實(shí)踐能力更弱，而認(rèn)為學(xué)習(xí)成績(jī)更重要的學(xué)生往往實(shí)踐能力也很好。這說(shuō)明實(shí)踐能力的提高需要以理論知識(shí)為基礎(chǔ)，實(shí)踐也即為所學(xué)理論知識(shí)的驗(yàn)證。二者相輔相成，不可分而論之。而大學(xué)社團(tuán)對(duì)于學(xué)生的實(shí)踐能力也存在一定的影響，社團(tuán)所提供的工作與交流環(huán)境將更有助于培養(yǎng)學(xué)生的實(shí)踐能力。

根據(jù)以上研究成果所得出的結(jié)論以及原因的推測(cè)可以幫助高校制定出臺(tái)相關(guān)的規(guī)則制度，也可幫助教師抓住如何提升學(xué)生實(shí)踐能力的關(guān)鍵所在，并改進(jìn)實(shí)踐授課方法，從而使學(xué)生更愿意動(dòng)手實(shí)踐，采取正確的實(shí)踐方法，進(jìn)而提升學(xué)生的實(shí)踐能力。

5 結(jié)束語(yǔ)

為了準(zhǔn)確了解影響高校學(xué)生實(shí)踐能力的關(guān)鍵因素，以提高學(xué)生的實(shí)踐能力，通過(guò)對(duì)文中設(shè)計(jì)的調(diào)查問(wèn)卷進(jìn)行分析，利用粗糙集理論的屬性約簡(jiǎn)和規(guī)則提取算法，從決策表中提取影響高校學(xué)生實(shí)踐能力的關(guān)鍵因素,導(dǎo)出規(guī)則集。通過(guò)實(shí)驗(yàn)驗(yàn)證了該規(guī)則集的有效性。研究成果可以對(duì)高校教學(xué)工作的開(kāi)展提供參考，繼而提高學(xué)生的實(shí)踐能力。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡