錢(qián)文彬 彭莉莎 王映龍
摘? 要: 現(xiàn)有學(xué)生綜合素質(zhì)評(píng)價(jià)方法大多是基于二元決策模型的,該模型容錯(cuò)率低且較難處理存在噪音的連續(xù)型學(xué)生數(shù)據(jù)。為此,依據(jù)鄰域概念計(jì)算連續(xù)型數(shù)據(jù)的鄰域類(lèi),再通過(guò)三支決策規(guī)則對(duì)學(xué)生進(jìn)行綜合素質(zhì)評(píng)價(jià)。通過(guò)分析鄰域參數(shù)和閾值對(duì)真實(shí)學(xué)生數(shù)據(jù)的評(píng)價(jià)結(jié)果的影響,為三支決策對(duì)學(xué)生進(jìn)行綜合素質(zhì)評(píng)價(jià)時(shí)的參數(shù)設(shè)置提供了參考依據(jù)。三支決策中的延遲決策將易評(píng)價(jià)錯(cuò)的學(xué)生劃分到可進(jìn)一步評(píng)價(jià)的邊界域中,一定程度提高了評(píng)價(jià)合理性,降低了誤評(píng)價(jià)損失,實(shí)現(xiàn)了學(xué)生綜合素質(zhì)評(píng)價(jià)從粗粒度到細(xì)粒度的定量分析。
關(guān)鍵詞: 三支決策; 鄰域概念; 學(xué)生綜合素質(zhì)評(píng)價(jià); 粒計(jì)算; 粗糙集
中圖分類(lèi)號(hào):TP18? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1006-8228(2019)02-61-06
Method of evaluating students' comprehensive quality with
neighborhood three-way decision
Qian Wenbin1,2, Peng Lisha2, Wang Yinglong2
(1. School of software, Jiangxi Agricultural University, Nanchang, Jiangxi 330045, China;
2. School of Computer and Information Engineering, Jiangxi Agricultural University)
Abstract: Most existing students' comprehensive quality assessment methods are based on the binary decision model, the low fault tolerance of this model is inconvenient to deal with numerical student data with noise. So, the neighborhood class of continuous data was calculated through the neighborhood concept, and the comprehensive quality evaluation of students was evaluated through three-way decision rules. The reference for the parameter setting were provided by analyzing the influence of neighborhood parameters and thresholds on the evaluation results of real student data in the evaluation of student's comprehensive quality by three-way decision. Some easily misclassified students were divided into boundary areas that could be further evaluated by the delayed decision in the three-way decision, which improved the rationality of the evaluation and reduces the loss of miss-evaluation to a certain extent, and achieve the quantitative analysis of students' comprehensive quality evaluation from coarse-grained to fine-grained.
Key words: three-way decision; neighborhood concept; evaluation of students' comprehensive quality; granular computing; rough set
0 引言
隨著互聯(lián)網(wǎng)和大數(shù)據(jù)時(shí)代的發(fā)展,大量復(fù)雜的數(shù)據(jù)存在于社會(huì)生活和科學(xué)研究領(lǐng)域中,如何從這些復(fù)雜數(shù)據(jù)中挖掘出潛在有價(jià)值的知識(shí)和規(guī)律已成為當(dāng)今信息科學(xué)領(lǐng)域的研究熱點(diǎn)。在教育領(lǐng)域也存在大規(guī)模的學(xué)生信息數(shù)據(jù),有效地分析和處理這些數(shù)據(jù)對(duì)構(gòu)建合理的學(xué)生綜合素質(zhì)評(píng)價(jià)方法具有重要的意義。
三支決策(TWD)是一種分析和處理不確定數(shù)據(jù)的重要方法[1-4],其理論來(lái)源于Plawlak經(jīng)典粗糙集理論[5]和概率粗糙集理論[6],是決策粗糙集理論[7]的重要延伸,現(xiàn)已廣泛運(yùn)用于軟件缺陷預(yù)測(cè),醫(yī)療診斷,垃圾郵件處理,人臉識(shí)別等應(yīng)用領(lǐng)域[8-11]。三支決策的計(jì)算模型是通過(guò)一對(duì)閾值將論域劃分為互不相交的正域、負(fù)域和邊界域,這三個(gè)域分別對(duì)應(yīng)接受、拒絕和延遲三種決策。當(dāng)信息不足以立即給對(duì)象分類(lèi)時(shí),為避免因錯(cuò)誤接受或錯(cuò)誤拒絕造成的損失,三支決策選擇將該對(duì)象劃分到邊界域中,等信息增加后再對(duì)其進(jìn)行分類(lèi)。
學(xué)生綜合素質(zhì)評(píng)價(jià)是教學(xué)科學(xué)管理中重要的工作之一,綜合素質(zhì)評(píng)價(jià)體系[13]主要包括學(xué)生的思想品質(zhì),專(zhuān)業(yè)文化水平和身體素質(zhì)及實(shí)踐操作等指標(biāo)。評(píng)價(jià)指標(biāo)信息有時(shí)包含噪音數(shù)據(jù),例如,向來(lái)優(yōu)秀的學(xué)生某次因特殊情況導(dǎo)致幾門(mén)考試不及格,根據(jù)平均分等級(jí)評(píng)價(jià)標(biāo)準(zhǔn)可能將該學(xué)生評(píng)價(jià)為良好學(xué)生甚至為不及格學(xué)生,顯然這種二元評(píng)價(jià)方式不夠合理。
本文引入鄰域概念[14-16]計(jì)算連續(xù)型學(xué)生數(shù)據(jù)的鄰域類(lèi),構(gòu)建了基于鄰域三支決策的學(xué)生綜合素質(zhì)評(píng)價(jià)方法。
主要工作:①擴(kuò)充了學(xué)生綜合素質(zhì)評(píng)價(jià)工作領(lǐng)域的方法;②給出了基于鄰域概念的三支決策多類(lèi)分類(lèi)模型;③可以處理同時(shí)存在噪音數(shù)據(jù)和連續(xù)型數(shù)據(jù)的學(xué)生數(shù)據(jù)。與二元評(píng)價(jià)決策模型相比,評(píng)價(jià)結(jié)果更加合理,評(píng)價(jià)準(zhǔn)確率更高,誤評(píng)價(jià)損失更低。
1 基礎(chǔ)知識(shí)
1.1 三支決策
在三元組決策表S=(U,C∪D,{Va|a∈C})中;U={x1,x2,…,xm}表示有限非空對(duì)象全集,C={a1,a2,…,an}表示為有限非空條件屬性全集,D表示決策屬性,Va表示屬性值。令R表示U上的一個(gè)等價(jià)關(guān)系,則對(duì)象x和y的R等價(jià)關(guān)系為,x的R等價(jià)類(lèi)為{x}R={y∈U|xRy}。
在三支決策粗糙集中,{λPP,λBP,λNP}和{λPN,λBN,λNN}分別表示當(dāng)對(duì)象屬于任意對(duì)象集和不屬于時(shí),將劃分到的正域、邊界域和負(fù)域的風(fēng)險(xiǎn)損失值,根據(jù)期望風(fēng)險(xiǎn)最小化貝葉斯(Bayes)決策準(zhǔn)則計(jì)算得出三支決策規(guī)則:
定義1[1] 在決策表S中,令X∈U,α和β為三支決策閾值,P(X|[x]B)表示對(duì)象x基于屬性子集屬于X的條件概率,則對(duì)于,其三支決策規(guī)則定義為:
其中:;
1.2 鄰域
在鄰域系統(tǒng)NS=(U,C∪D,V,δ)中,U表示非空有限對(duì)象全集,C表示非空有限條件屬性全集,D表示決策屬性,V表示屬性值集,δ表示鄰域參數(shù)。
定義2[15] 在鄰域系統(tǒng)NS中,,v(x,ak)和v(y,ak)表示對(duì)象x和y在屬性ak上的屬性值,則x和y在屬性子集B上的Euclidean距離為:
定義3 在鄰域系統(tǒng)NS中,,則x和y基于屬性子集B的鄰域關(guān)系NRδ(B)和鄰域定義為:
2 基于鄰域三支決策的多類(lèi)分類(lèi)模型
定義4 在鄰域系統(tǒng)NS中,決策類(lèi)=
。則Xk基于屬性子集的鄰域三支決策規(guī)則定義為:
其中,,且
。
定義5 在鄰域系統(tǒng)中,屬性子集B=C,決策類(lèi)Xk∈IND(D),。則關(guān)于決策屬性D,其在屬性全集C下的鄰域三支決策規(guī)則定義為:
;
;
;
2.1 學(xué)生綜合素質(zhì)評(píng)價(jià)算法
首先,根據(jù)平均分等級(jí)評(píng)價(jià)標(biāo)準(zhǔn),將所有學(xué)生初步評(píng)價(jià)為優(yōu)秀類(lèi)、良好類(lèi)和及格類(lèi),然后,歸一化學(xué)生數(shù)據(jù),根據(jù)鄰域概念計(jì)算各學(xué)生的鄰域類(lèi)和各學(xué)生屬于三個(gè)評(píng)價(jià)等級(jí)的條件概率,接著根據(jù)三支決策規(guī)則將每個(gè)學(xué)生劃分到各等級(jí)的三個(gè)域中,最后,對(duì)處在正域中的學(xué)生保留初步劃分結(jié)果,對(duì)處在邊界域和負(fù)域中的學(xué)生待新增評(píng)定指標(biāo)后重新評(píng)價(jià)。算法具體描述如下。
算法:基于鄰域三支決策的多類(lèi)學(xué)生綜合素質(zhì)評(píng)價(jià)方法。
輸入:學(xué)生數(shù)據(jù)決策表和損失函數(shù)表;
輸出:優(yōu)秀學(xué)生、良好學(xué)生和及格學(xué)生;
Step1. 標(biāo)準(zhǔn)化和歸一化NS;
Step2. 初始化δ,計(jì)算閾值α,β;
Step3. 獲取初始學(xué)生等級(jí);
Step4. for x∈U do
for y∈U do
計(jì)算學(xué)生之間的Euclidean距離
;
計(jì)算學(xué)生的鄰域類(lèi)={y|x,y∈
U,fc(x,y)?δ};
end
end
Step5. for x∈U do
計(jì)算學(xué)生屬于各評(píng)價(jià)等級(jí)的的條件概率;
end
Step6. for x∈U do
若,則將學(xué)生x劃分
到Xk的正域中;
否則,若,則將對(duì)象
x劃分到Xk的邊界域中;
否則,將對(duì)象x劃分到Xk的負(fù)域
中;
end
Step7. 輸出學(xué)生評(píng)價(jià)結(jié)果,算法結(jié)束。
3 實(shí)例分析
為進(jìn)一步驗(yàn)證算法的可行性,以表1為例進(jìn)行分析說(shuō)明。其中,x1~x10代表10個(gè)學(xué)生對(duì)象,a1~a6代表6項(xiàng)評(píng)價(jià)指標(biāo),AVG代表平均成績(jī)。根據(jù)平均分等級(jí)評(píng)價(jià)標(biāo)準(zhǔn)([85,100]-優(yōu)秀;[75,85]-良好;[60,75)-及格)初步評(píng)價(jià)學(xué)生為優(yōu)秀類(lèi)、良好類(lèi)和及格類(lèi)。
第1步 參考?xì)w一化函數(shù):y=(x-Minvalue)/(Maxvalue-MinValue)對(duì)表1進(jìn)行標(biāo)準(zhǔn)化和歸一化得到表2,其中,條件屬性集{a1,a2,…,a6}以及決策屬性D分別對(duì)應(yīng)表1中6項(xiàng)評(píng)價(jià)指標(biāo)和初步評(píng)價(jià)結(jié)果。
第2步 制定損失函數(shù)表,設(shè)置參數(shù)δ,計(jì)算閾值α、β。
由定義4可知,若鄰域參數(shù)δ過(guò)小,則對(duì)近似要求更苛刻,鄰域類(lèi)中元素極少甚至只有本身。反之δ過(guò)大,會(huì)使能觀(guān)察到的不相似對(duì)象都被歸為同一鄰域類(lèi),不能反映數(shù)據(jù)的區(qū)分信息;但考慮到本實(shí)例中學(xué)生數(shù)目較少,因此初始化δ=0.7。文獻(xiàn)[12]中提到三種最常用的(β,α)取值組合,分別為(0,0.5)、(0.3,0.8)和(0.5,1);(0,0.5)和(0.5,1)對(duì)于風(fēng)險(xiǎn)的預(yù)測(cè)過(guò)于積極或消極,而(0.3,0.8)是風(fēng)險(xiǎn)中性的預(yù)測(cè)方式,符合人們?cè)谌粘I钪械臎Q策習(xí)慣。因此,本例的閾值選取向第二種組合靠攏。
本算例中假設(shè)對(duì)該三類(lèi)學(xué)生采取優(yōu)先推薦工作,可以推薦工作和暫緩?fù)扑]工作三種決策。并且預(yù)先設(shè)定:給優(yōu)秀學(xué)生優(yōu)先推薦工作和暫緩給及格學(xué)生推薦工作不造成損失,即λPP=λNN=0。因此,制定風(fēng)險(xiǎn)損失表如表3,然后根據(jù)定義1計(jì)算得到α=0.8,β=0.27,與上述第二種常用閾值相近,因此較為客觀(guān)合理。
第3步 由表2可知,U/D={X1,X2,X3},其中X1={x3,x6,x10}表示優(yōu)秀類(lèi);X2={x1,x2,x5,x7,x9}表示良好類(lèi);X3={x4,x8}表示及格類(lèi)。
第4步 依據(jù)算法Step4,計(jì)算得到學(xué)生之間的Euclidean距離,如表4所示。表中加粗字為滿(mǎn)足鄰域類(lèi)的鄰域距離值,由此可知,除x5和x9之外,其他學(xué)生與學(xué)生x1的鄰域距離值都大于鄰域參數(shù)δ,因此x1的鄰域類(lèi)為={x1,x5,x9},同理,可獲得其他學(xué)生基于屬性集的鄰域類(lèi)的結(jié)果。
第5步 依據(jù)算法Step5和Step6,計(jì)算所有評(píng)價(jià)指標(biāo)下的每個(gè)評(píng)價(jià)等級(jí)的正域、邊界域和負(fù)域。以x1為例,因?yàn)閤1∈x2,所以只需計(jì)算=,,故,同理,對(duì)學(xué)生x2~x10進(jìn)行劃分和評(píng)價(jià),結(jié)果如表5所示。
從本例的計(jì)算結(jié)果看,負(fù)域中沒(méi)有對(duì)象是因?yàn)檎撚騏中對(duì)象數(shù)較少;處在各評(píng)價(jià)等級(jí)正域中的學(xué)生{x3,x6,x10}和{x1,x7,x9}以及{x8}仍然保留初步劃分結(jié)果,因?yàn)橐罁?jù)三支決策語(yǔ)義解釋?zhuān)硎窘邮躿x3,x6,x10}于優(yōu)秀類(lèi)X1中,可以?xún)?yōu)先為他們推薦工作;同理,{x1,x7,x9}仍處于良好類(lèi)X2中,可以給他們推薦工作;學(xué)生{x8}處于及格類(lèi)X3中,建議暫緩為他們推薦工作。而{{x2,x5},{x4}}分別被劃分到X2和X3的邊界域中,應(yīng)待新增考核指標(biāo)后再評(píng)價(jià)。
通過(guò)計(jì)算可知,在待分類(lèi)對(duì)象基數(shù)較小的情況下,以往按照平均分所處的分?jǐn)?shù)范圍對(duì)學(xué)生進(jìn)行分類(lèi)的方法基本可行,但略有粗糙,例如X4的平均分為74.67,十分接近良好類(lèi)的分?jǐn)?shù)線(xiàn)75,但卻被劃分到了及格類(lèi)中,顯然劃分不太合理,當(dāng)待分類(lèi)對(duì)象基數(shù)較為龐大時(shí),此類(lèi)現(xiàn)象將會(huì)更多,即邊界域中的對(duì)象則會(huì)更多,負(fù)域中的對(duì)象也會(huì)增加,若僅通過(guò)分?jǐn)?shù)范圍進(jìn)行二元評(píng)價(jià)會(huì)導(dǎo)致更高的錯(cuò)誤率。而三支決策可對(duì)邊界域的學(xué)生進(jìn)行延遲評(píng)價(jià),使評(píng)價(jià)錯(cuò)誤率降低,評(píng)價(jià)結(jié)果更合理,從而減少了誤評(píng)價(jià)損失。
4 實(shí)驗(yàn)分析
實(shí)驗(yàn)采集江西農(nóng)業(yè)大學(xué)軟件學(xué)院的1805位學(xué)生的各項(xiàng)指標(biāo)數(shù)據(jù)進(jìn)行仿真學(xué)生綜合素質(zhì)評(píng)價(jià),這些指標(biāo)主要包括思想道德修養(yǎng)課程、體育課程和專(zhuān)業(yè)文化課程成績(jī)等,其中專(zhuān)業(yè)文化成績(jī)主要以專(zhuān)業(yè)主干課程考試成績(jī)?yōu)橹?。?shí)驗(yàn)運(yùn)行環(huán)境:Win7,Intel (R) Core(TM),CPU i5-3230M 2.6GHz和8.0GB內(nèi)存,用Java編程語(yǔ)言在開(kāi)發(fā)平臺(tái)Eclipse Mars.2 Release(4.5.2) 上實(shí)現(xiàn)。
實(shí)驗(yàn)在Euclidean距離下測(cè)試了四種情況對(duì)學(xué)生綜合素質(zhì)評(píng)價(jià)的影響。情況1:δ=0.5,β=0.3,α=0.5~1,單調(diào)遞增。情況2:δ=0.5,α=0.7,β=0~0.5,單調(diào)遞增。情況3:δ=0.5,α=1~0.5單調(diào)遞減和β=0~0.5單調(diào)遞增的六種組合,即(α,β)={G1=(1,0),G2=(0.9,0.1),G3=(0.8,0.2),G4=(0.7,0.3),G5=(0.6,0.4),G6=(0.5,.5)}。情況4:α=0.7,β=0.3,δ=0.1~1單調(diào)遞增。四種情況實(shí)驗(yàn)結(jié)果分別展現(xiàn)在圖2中4個(gè)子圖(a)~(d)中。
實(shí)驗(yàn)表明,鄰域參數(shù)δ和閾值α,β對(duì)學(xué)生綜合素質(zhì)評(píng)價(jià)結(jié)果有較大影響。從子圖(a)可知,當(dāng)δ和β不變時(shí),隨著α增大,正域POS(D)中的學(xué)生總數(shù)單調(diào)遞減,邊界域BND(D)中的學(xué)生總數(shù)單調(diào)遞增;例如,當(dāng)α從0.7曾至0.8時(shí),正域中學(xué)生總數(shù)從751減至514,邊界域中學(xué)生總數(shù)從577增至814;從子圖(b)可知,當(dāng)δ和α不變時(shí),隨著β增大,負(fù)域中的學(xué)生總數(shù)單調(diào)遞增,邊界域中的學(xué)生總數(shù)單調(diào)遞減;從子圖(c)可知,當(dāng)δ不變時(shí),隨著α減小和β增大,邊界域中的學(xué)生總數(shù)單調(diào)遞減;正域和負(fù)域中學(xué)生總數(shù)單調(diào)遞增;從子圖(d)可知,當(dāng)α,β不變時(shí),隨著δ增大,正域中的學(xué)生總數(shù)單調(diào)遞減,邊界域中和負(fù)域中的學(xué)生總數(shù)除了在δ等于0.4和0.3時(shí)突然下降,其余都呈遞增趨勢(shì),例如,當(dāng)δ=0.6增至0.7時(shí),正域中學(xué)生總數(shù)從512減至250,邊界域中學(xué)生總數(shù)從688增至932,負(fù)域中學(xué)生總數(shù)增從6.5曾至623。
根據(jù)理論分析和實(shí)驗(yàn)結(jié)果可知,閾值α和β對(duì)評(píng)價(jià)結(jié)果存在單調(diào)性影響,而δ對(duì)評(píng)價(jià)結(jié)果既存在單調(diào)性影響又存在非單調(diào)性影響。因此,在進(jìn)行學(xué)生綜合素質(zhì)評(píng)價(jià)前以及對(duì)延遲評(píng)價(jià)的學(xué)生進(jìn)行再次評(píng)價(jià)時(shí),可結(jié)合實(shí)際需求和上述分析規(guī)律,合理設(shè)置閾值和鄰域參數(shù),以制定合理的評(píng)價(jià)方案,這樣不僅可得到較滿(mǎn)意的評(píng)價(jià)結(jié)果,還可使評(píng)價(jià)過(guò)程代價(jià)更少。
5 結(jié)束語(yǔ)
本文結(jié)合鄰域概念和三支決策定義了多類(lèi)劃分規(guī)則,并將其應(yīng)用于連續(xù)型學(xué)生數(shù)據(jù)處理和分析中,提出了一種基于鄰域三支決策的多類(lèi)學(xué)生綜合素質(zhì)評(píng)價(jià)方法。待評(píng)價(jià)學(xué)生通過(guò)三支決策被劃分到各評(píng)價(jià)等級(jí)的三個(gè)域中,邊界域的引入使得評(píng)價(jià)更合理,評(píng)價(jià)準(zhǔn)確率更高。通過(guò)對(duì)真實(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),分析了各參數(shù)對(duì)評(píng)價(jià)結(jié)果的影響,為三支決策對(duì)學(xué)生綜合素質(zhì)評(píng)價(jià)時(shí)的參數(shù)設(shè)置提供參考依據(jù);對(duì)比傳統(tǒng)的二元學(xué)生綜合素質(zhì)評(píng)價(jià)方法,本文方法評(píng)價(jià)準(zhǔn)確率較高,誤分類(lèi)損失較低。
參考文獻(xiàn)(References):
[1] Yao Y Y. Three-way decisions with probabilistic rough sets[J].Information Sciences, 2010.180(3):341-353
[2] Yao Y Y. The superiority of three-way decisions inprobabilistic rough set models[J]. Information Sciences,2011.181(6):1080-1096
[3] 于洪,王國(guó)胤,姚一豫.決策粗糙集理論研究現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2015.38(8):1628-1639
[4] 劉盾,李天瑞,李華雄.粗糙集理論:基于三支決策視角[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2013.49(5):574-581
[5] Pawlak Z. Rough Sets[J].International Journal of Computer?and Information Sciences,1982.11(5): 341-356
[6] Pawlak Z, Wong SKM, Ziarko W. Rough sets: Probabilistic?versus deterministic approach[J]. International Journal of Man-Machine Studies,1988.29(1):81-95
[7] Yao Y Y. Decision-theoretic rough set models[J]. LectureNotes in Artificial Intelligence,2007.4481:1-12
[8] Nauman M, Azam N, Yao J T. A three-way decisionmaking approach to malware analysis using probabilistic rough sets[J]. Information Sciences,2016.374:193-209
[9] Chen Y F, Yue X D, Fujta H. Three-way decision support?for diagnosis on focal liver lesions[J].Knowledge-Based Systems,2017.127:85-99
[10] Fernandes V, Yevseyeva I. Méndez J, et al. Emmerich.A spam filtering multi-objective optimization study covering parsimony maximization and three-way classification[J]. Applied Soft Computing,2016.48:111-123
[11] Li H X, Zhang L B, Huang B, et. al. Sequentialthree-way decision and granulation for cost-sensitive face recognition[J].Knowledge-Based Systems,2016.91(C):241-251
[12] Yager R. Generalized OWA aggregation operators[J].Fuzzy Optimization and Decision Making,2004.3:93-107
[13] 潘玉駒,何毅,陳文遠(yuǎn).高校學(xué)生綜合素質(zhì)評(píng)價(jià)結(jié)果的處理機(jī)制研究[J].教育發(fā)展研究,2011.31(7):77-80
[14] Hu Q H, Yu D R, Xie Z X. Neighborhood classifiers[J].Expert Systems With Applications,2008.34(2):866-876
[15] 胡清華,于達(dá)仁,謝宗霞.基于鄰域?;痛植诒平臄?shù)值屬性約簡(jiǎn)[J].軟件學(xué)報(bào),2008.19(3):640-649
[16] Hu Q H, Pedrycz W, Yu Daren, et al. Selecting discreteand continuous features based on neighborhood decision error minimization, IEEE Transactions on Systems, Man, and Cybernetics: Systems,2010.40(1):137-150