張 如
(福州職業(yè)技術(shù)學(xué)院計算機(jī)系,福建 福州 350108)
粗糙集與改進(jìn)Apriori算法在教師教學(xué)效果評價中的應(yīng)用
張 如
(福州職業(yè)技術(shù)學(xué)院計算機(jī)系,福建 福州 350108)
先用改進(jìn)Apriori算法剔除教師教學(xué)信息表中與教學(xué)效果好壞無關(guān)的素質(zhì)屬性,再用粗糙集屬性重要性方法挖掘教師的各素質(zhì)對教學(xué)效果影響的重要度排序。研究發(fā)現(xiàn),“性別”不影響教學(xué)效果,“學(xué)歷”、“職稱”對教學(xué)效果的影響超過了“教齡”的影響。
粗糙集;Apriori算法;屬性;教學(xué)信息
隨著各院校規(guī)模的不斷擴(kuò)大,各院校的初級管理系統(tǒng)收集了大量數(shù)據(jù)。決策層針對教師教學(xué)效果的評價往往只基于學(xué)生每學(xué)期對教師的評價,再將最終統(tǒng)計結(jié)果作為評優(yōu)評先的依據(jù),而沒有對評價結(jié)果做更深層的研究。下面,筆者利用粗糙集與關(guān)聯(lián)規(guī)則合并挖掘教學(xué)管理系統(tǒng)中的數(shù)據(jù),得出有用的決策信息。
粗糙集無需任何先驗信息,就可從給定問題的描述出發(fā),找出問題內(nèi)在規(guī)律[1]。它能從數(shù)據(jù)中揭示出精確而又易于檢查和證實的規(guī)則。粗糙集可進(jìn)行定量分析。
1.1決策表
決策表是粗糙集最基本的信息系統(tǒng)。決策表表示如下:S=〈U,C∪D,V,f〉,其中,S表示為決策表;U是論域(即研究對象的集合);C是條件屬性集;D是決策屬性集,C∪D組成全部屬性集;V是屬性值集合;f是一個映射函數(shù),即U中對象的屬性值。在決策表中,不同的條件屬性有不同重要性。
1.2屬性依賴度與求解
粗糙集用依賴度來度量屬性集的依賴性,依賴度定義為:
k=γP(Q) = |POSP(Q)|/|U|
(1)
式中,P、Q分別是決策表中的屬性集;|POSP(Q)|為{屬性集P同類}中的子集完全包含在{屬性集Q同類}子集中的子集個數(shù);|U|為整個決策表研究對象的總個數(shù)。
設(shè)論域有U個對象,其中條件屬性C由{n1,n2,…}n個條件屬性組成,決策屬性D由單一屬性組成,求解D對單一屬性ni的依賴度。根據(jù)式(1),求解過程如下:
1)按決策屬性進(jìn)行數(shù)據(jù)對象同類劃分,對比對象中決策屬性取值,將同值的對象劃為同一類。
2)再按單一條件屬性進(jìn)行同類劃分,對比對象中單一屬性ni取值,將同值的對象劃為同一類。
3)求解{單一屬性ni同類}中的子集完全包含在{決策屬性D同類}子集中的子集個數(shù)|POSni(D)|。
4)求依賴度k=γni(D)= |POSni(D)|/|U|。
1.3屬性重要性與求解
為確定某個屬性的重要性,可從表中去掉該屬性,再看無該屬性后系統(tǒng)分類發(fā)生何變化。若無該屬性后分類結(jié)果變化較大,說明該屬性是比較重要的,反之不重要。屬性子集C′?C關(guān)于D的重要性定義為:
σCD(c′) =γc(D) -γc -c′(D) =|POSc(D)|/|U|- |POSc -c'(D)|/|U|
(2)
設(shè)論域有U個對象,其中條件屬性C由{n1,n2,…}n個條件屬性組成,決策屬性D由單一屬性組成,求解單一屬性ni的重要性過程如下(類推求出其他所有屬性的重要性):
1)先求條件屬性集的依賴度γc(D)。
2)求條件屬性集減去單一屬性ni后剩下的屬性集的依賴度γc -ni(D)。
3)計算屬性ni的重要性σCD(ni)=γc(D)-γc -ni(D)。
2.1關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則挖掘是從大量數(shù)據(jù)集中發(fā)現(xiàn)有意義的關(guān)聯(lián),它是用于尋找數(shù)據(jù)間關(guān)聯(lián)的較好方法[2]。對決策有用的是支持度和可信度均較高的關(guān)聯(lián)規(guī)則。但關(guān)聯(lián)規(guī)則會挖掘出數(shù)以千計的規(guī)則。這緣于關(guān)聯(lián)規(guī)則不去考慮規(guī)則之間的聯(lián)系度和用戶對規(guī)則的認(rèn)同。因此在挖掘時要體現(xiàn)用戶對挖掘的限制,即體現(xiàn)用戶和領(lǐng)域知識的融合。關(guān)聯(lián)規(guī)則一般僅適用于定性數(shù)據(jù)的挖掘,挖出的規(guī)則只能定性分析。
2.2改進(jìn)的Apriori算法
海氏腸球菌WEHI01和屎腸球菌WEFA23是源自健康嬰兒糞便的、安全性較好的菌株[10],其中屎腸球菌WEFA23能顯著降低膽固醇作用[15],其降膽固醇機(jī)制與膽固醇合成、轉(zhuǎn)運(yùn)和分解密切相關(guān)。荷葉屬于藥食兩用的食材,具有清暑化濕,升發(fā)清陽,涼血止血。對暑熱煩渴,暑濕泄瀉,脾虛泄瀉,血熱吐衄,便血崩漏、化瘀止血等均有治療作用[16]。荷葉具有抗氧化、降脂減肥、抑制致病菌等的功效,主要是與其富含的生物堿(如單芐基異喹啉類、雙芐基異喹啉類生物堿)和黃酮類有關(guān)[17]。
Apriori算法是關(guān)聯(lián)規(guī)則最經(jīng)典算法,用它來挖掘,會多次掃描數(shù)據(jù)庫,這影響了算法的效率[3]。為提高效率,可減少Apriori算法訪問數(shù)據(jù)庫的次數(shù)。為此,筆者引入一種改進(jìn)Apriori算法[4]用于后續(xù)研究工作。
改進(jìn)Apriori算法可以通過一次數(shù)據(jù)庫掃描得到所有的每一個項目的支持事務(wù),而項目集的支持事務(wù)可以通過已獲得的項目集中的每一個項目的支持事務(wù)相交得到。掃描數(shù)據(jù)庫的次數(shù)只有那么一次,降低了算法的時間復(fù)雜度。
筆者的研究目標(biāo)是要求研究結(jié)果能夠表達(dá)出教師的各素質(zhì)對于教學(xué)效果有無影響以及影響程度的輕與重的關(guān)系。關(guān)聯(lián)規(guī)則一般只能定性分析,得出有無關(guān)聯(lián)的規(guī)則,但其會產(chǎn)生很多冗余規(guī)則不利于決策。因此為克服該缺點(diǎn),可與其他挖掘技術(shù)合并使用,發(fā)揮其他技術(shù)的定量分析及產(chǎn)生精確規(guī)則的優(yōu)點(diǎn)。分析目標(biāo)發(fā)現(xiàn)目標(biāo)前半部是定性分析(有無關(guān)聯(lián)),后半部是定量分析(關(guān)聯(lián)程度)。因此筆者將關(guān)聯(lián)規(guī)則與粗糙集結(jié)合起來,以關(guān)聯(lián)規(guī)則作為數(shù)據(jù)的前期處理,以粗糙集為最終研究算法。利用關(guān)聯(lián)規(guī)則先去除教師教學(xué)信息系統(tǒng)中無關(guān)屬性。挖掘前,先強(qiáng)制要求只挖掘教學(xué)效果良好(評定分?jǐn)?shù)≥85)的教師數(shù)據(jù),從中剔除無關(guān)屬性。做限制性挖掘的目的就是為了加入用戶的決策參與并減少冗余規(guī)則的產(chǎn)生。得到去除冗余屬性的數(shù)據(jù)集后,應(yīng)用粗糙集的屬性重要性挖掘出教師的各素質(zhì)對教學(xué)效果影響的重要度排序。
4.1運(yùn)用改進(jìn)Apriori算法剔除教師教學(xué)信息表中的無用屬性
表1 評定分?jǐn)?shù)介于 [85,100]的教師教學(xué)信息表
從教務(wù)處抽取教師教學(xué)信息表,屬性分別為編號、性別、教齡、職稱、學(xué)歷和課堂教學(xué)效果。本模塊要找出高質(zhì)量教學(xué)(評定分?jǐn)?shù)介于[85,100])與教師哪些素質(zhì)有直接關(guān)聯(lián)。利用改進(jìn)Apriori算法挖掘出與高質(zhì)量教學(xué)無關(guān)的屬性并剔除。搜索數(shù)據(jù)集,搜出評定分?jǐn)?shù)介于[85,100]的記錄集如表1。
判定“性別”是無關(guān)屬性,保留“職稱,教齡,學(xué)歷”3個屬性作為下一步的研究屬性。
4.2數(shù)據(jù)預(yù)處理
下面利用粗糙集中的屬性重要性分析方法對優(yōu)化的教師教學(xué)信息表進(jìn)行挖掘分析。提取教師數(shù)據(jù)共計1438個樣本,剔除“性別”后得到教師教學(xué)信息表(略),其中條件屬性C={教齡,職稱,學(xué)歷},決策屬性D={課堂教學(xué)效果}。通過屬性離散化對數(shù)據(jù)進(jìn)行預(yù)處理,離散結(jié)果如下:教齡={1,2,3,4},1為7年以下,2為7至13年,3為14至20年,4為21年以上;職稱={1,2,3,4},1代表助講,2代表講師,3代表副教授,4代表教授;學(xué)歷={1,2,3},1代表本科,2代表碩士,3代表博士;課堂教學(xué)效果={1,2,3}, 1代表[60-70],2代表[71-84],3代表[85-100]。最終得到教學(xué)信息決策表如表2所示。
表2 教學(xué)信息決策表
4.3生成規(guī)則
令u、v、a分別對應(yīng)教齡、職稱、學(xué)歷。課堂教學(xué)效果(決策屬性)的3種值把教師分成3類,第1類為效果良好,第2類為效果一般,第3類為效果較差,分別對應(yīng)1、2、3。設(shè)條件屬性C={u,v,a},決策屬性D={1,2,3}。分別求取各條件屬性的重要性(下面括號中的數(shù)字代表教師編號)。
1)總分類。U/D={(4,7,…),(2,6,8,10,…),(1,3,5,9,…)}共3類分別對應(yīng)良好,一般,較差。按C={u,v,a}分類如下,{u,v,a}相同屬性時歸為一類:
U/C={(4,6,7,…),(10,…),(3,8,…),…}
POSc(D)的子集為U/C集中的子集中的數(shù)完全包含在U/D中的某個子集中,決策屬性D對條件屬性C的依賴度為γc(D)= |POSc(D)|/ |U|=0.167。
2)C-{u}即去除教齡后,{v,a}相同屬性時,分類如下:
U/C-{u}={(4,6,7,…),(10,…),(2,3,8,…),(5,…),…}
POSc -{u}(D)子集為U/C-{u}集中的子集中的數(shù)完全包含在U/D中的某個子集中,決策屬性D對于去除教齡屬性后的條件屬性C的依賴度為γc -{u}(D)= |POSc - {u}(D)|/|U|=0.134;教齡屬性關(guān)于決策屬性D的重要性為σCD(u) =γc(D)-γc -{u}(D)= 0.167-0.134=0.033。
3)C-{v}即去除職稱后,{u,a}相同屬性時,分類如下:
U/C-{v}={(4,6,7,…),(10,…),(3,8,…),(9…),(2,…),(1,5,…),…}
POSc -{v}(D)子集為U/C-{v}集中的子集中的數(shù)完全包含在U/D中的某個子集中,決策屬性D對于去除職稱屬性后的條件屬性C的依賴度為γc -{v}(D)= |POSc - {v}(D)|/|U|=0.1;職稱屬性關(guān)于決策屬性D的重要性為σCD(v) =γc(D)-γc - {v}(D)= 0.167-0.1=0.067。
4)C-{a}即去除學(xué)歷后,{u,v}相同屬性時,分類如下:
U/C-{a}={(4,6,7,10,…),(3,8,9,…),(2,5,…),(1,…),…}
POSc -{a}(D)子集為U/C-{a}集中的子集中的數(shù)完全包含在U/D中的某個子集中,決策屬性D對于去除學(xué)歷屬性后的條件屬性C的依賴度為γc -{a}(D)= |POSc - {a}(D)|/|U|=0.1;學(xué)歷屬性關(guān)于決策屬性D的重要性為σCD(a) =γc(D)-γc - {a}(D)= 0.167-0.1=0.067。
5)σCD(a)=σCD(v)>σCD(u), 結(jié)果表明職稱與學(xué)歷對教學(xué)效果的影響超過了教齡對教學(xué)效果的影響。
根據(jù)挖掘結(jié)果可知,“職稱”、“學(xué)歷”對教學(xué)效果的影響是最大的,都最大程度地改變決策屬性的分類;“教齡”相對于“學(xué)歷”與“職稱”,影響會小些。
[1]張文修,吳偉志.粗糙集理論與方法[M].北京:科學(xué)出版社,2001.
[2]武森,高學(xué)東,巴斯蒂安 M.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:冶金工業(yè)出版社,2003.
[3]康艷霞.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中的應(yīng)用研究[D].上海:華東師范大學(xué),2009.
[4]譚明杰.應(yīng)用數(shù)據(jù)挖掘技術(shù)的高校教務(wù)管理系統(tǒng)的設(shè)計與開發(fā)[D].成都:電子科技大學(xué),2007.
[編輯] 洪云飛
10.3969/j.issn.1673-1409.2011.08.003
TP311.13
A
1673-1409(2011)08-0007-03