高曉紅 柴銀平
楚雄師范學(xué)院 云南 675000
隨著現(xiàn)在信息技術(shù)與科技的發(fā)展,現(xiàn)代高校在引進(jìn)許多新技術(shù)和設(shè)備的同時(shí)也積累了許多教師的數(shù)據(jù)。并形成了具有一定規(guī)模的教師信息數(shù)據(jù)庫(kù)。然而面對(duì)眾多的數(shù)據(jù),高校管理層如何利用,如何從中發(fā)現(xiàn)對(duì)高校教師隊(duì)伍建設(shè)有實(shí)際指導(dǎo)意義的規(guī)律,特別是如何才能將人才的引進(jìn)及培養(yǎng)與社會(huì)的需求正確結(jié)合?關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一個(gè)重要的研究分支,其主要的研究目的是從大型數(shù)據(jù)集中發(fā)現(xiàn)隱藏的、有價(jià)值的屬性間存在的規(guī)律。本文用關(guān)聯(lián)規(guī)則挖掘技術(shù)在這方面做了一定的探索和研究,期望能得到一些有益的啟示。
定義:設(shè)I= {i1,i2, . ..,in}是項(xiàng)的集合。包含K個(gè)項(xiàng)的項(xiàng)集稱(chēng)作K項(xiàng)集。設(shè)D是數(shù)據(jù)庫(kù)記錄的集合,其中每個(gè)事務(wù)T是項(xiàng)的集合,且T?I。設(shè)X是一個(gè)項(xiàng)集,事務(wù)T包含X當(dāng)且僅當(dāng)X?T。
關(guān)聯(lián)規(guī)則是形如X?Y 的蘊(yùn)涵式,這里X?I,Y?I,且X∩Y=Φ。X稱(chēng)為規(guī)則的左部或規(guī)則的前提(LHS),Y稱(chēng)為規(guī)則的右部或結(jié)論(RHS)。
度量規(guī)則的參數(shù)是支持度與置信度。支持度是指數(shù)據(jù)集中的實(shí)例同時(shí)包含條件屬性與決策屬性的共同概率,支持度揭示了規(guī)則的重要性。置信度表示實(shí)例在包含條件屬性的前提下,也包含決策屬性的條件概率,它揭示了規(guī)則的可信度。在粗糙集理論中支持度與置信度可以表示為:support(x?y) =p(x∪y)
其中P(X)表示X在數(shù)據(jù)D中出現(xiàn)的概率,其余相似。support(x?y)指X、Y在D中同時(shí)出現(xiàn)的概率;confidence(x?y)表示在X出現(xiàn)的前提下Y出現(xiàn)的條件概率。若得到的規(guī)則同時(shí)滿(mǎn)足支持度不小于支持度閾值和置信度不小于置信度閾值,則該規(guī)則有意義。
在決策表中,不同的屬性可能具有不同的重要性。要找出某些屬性的重要性,就要從表中去掉一些屬性,再來(lái)考察沒(méi)有該屬性后分類(lèi)會(huì)有怎樣的變化,若去掉該屬性后分類(lèi)變化較大,則說(shuō)明該屬性強(qiáng)度較大,重要性高,反之,則說(shuō)明該屬性重要性低。決策表的一般屬性約簡(jiǎn)的具體步驟:
(1) 求多個(gè)條件屬性C1,C2,C3,…,Cn的等價(jià)類(lèi);
(2) 計(jì)算從C中分別去掉C1,C2,C3和Cn后所有屬性集下的等價(jià)類(lèi);
(3) 求決策屬性D與條件屬性C的依賴(lài)度;
(4) 檢查從C中去掉C1,C2,C3或Cn時(shí)分類(lèi)的變化情況,若分類(lèi)發(fā)生較大變化,說(shuō)明該屬性不可去,否則可去。
在大量實(shí)踐的基礎(chǔ)上,總結(jié)出了一個(gè)相對(duì)成熟的基于粗糙集的關(guān)聯(lián)規(guī)則挖掘模型,其基本思想和步驟如下。本文應(yīng)用基于粗糙集的關(guān)聯(lián)規(guī)則的挖掘過(guò)程分為三步:數(shù)據(jù)預(yù)處理,屬性約簡(jiǎn)與關(guān)聯(lián)規(guī)則的挖掘,見(jiàn)圖1。
(1) 數(shù)據(jù)預(yù)處理:通過(guò)對(duì)高校人事數(shù)據(jù)的初始信息進(jìn)行數(shù)據(jù)清洗,缺失值處理,轉(zhuǎn)換及數(shù)據(jù)選擇,獲取初始信息表,且初始表轉(zhuǎn)換為決策表形式,并明確條件屬性集和決策屬性;
(2) 屬性約簡(jiǎn):對(duì)條件屬性進(jìn)行約簡(jiǎn),刪除多余屬性,在此基礎(chǔ)上利用文獻(xiàn)[1]中的算法進(jìn)行屬性約簡(jiǎn)并生成約簡(jiǎn)屬性集;
(3) 關(guān)聯(lián)規(guī)則挖掘:輸入支持度閾值和置信度閾值,根據(jù)數(shù)據(jù)約簡(jiǎn)結(jié)果,利用粗糙集理論文獻(xiàn)中的算法,進(jìn)行關(guān)聯(lián)規(guī)則的挖掘。
圖1 基于粗糙集的關(guān)聯(lián)規(guī)則模型
下面以高校教師成長(zhǎng)信息為例(本文以職稱(chēng)為教授和講師作為高校人才成長(zhǎng)的標(biāo)志,根據(jù)參加工作時(shí)間的長(zhǎng)短和目前職稱(chēng)來(lái)判斷教師成長(zhǎng)的快慢),說(shuō)明基于粗糙集的關(guān)聯(lián)規(guī)則挖掘算法的實(shí)施過(guò)程。
根據(jù)上述構(gòu)建的數(shù)據(jù)挖掘模型,利用屬性約簡(jiǎn)算法對(duì)高校教師數(shù)據(jù)進(jìn)行約簡(jiǎn)。首先進(jìn)行數(shù)據(jù)預(yù)處理,其次求出約簡(jiǎn),并在此基礎(chǔ)上根據(jù)值約簡(jiǎn)等減少屬性和個(gè)體數(shù)目,最后提取規(guī)則應(yīng)用于新對(duì)象的分析和預(yù)測(cè)。
本文以本人所在高校教師數(shù)據(jù)為例,采用關(guān)系數(shù)據(jù)庫(kù)模型,經(jīng)關(guān)系數(shù)據(jù)庫(kù)的導(dǎo)入及連接并進(jìn)行抽象、離散化等預(yù)處理。將影響教師成長(zhǎng)的因素:性別、政治面貌、學(xué)歷、畢業(yè)學(xué)校、年齡、學(xué)歷變動(dòng)、現(xiàn)聘職稱(chēng)、教齡、教學(xué)能力和科研能力作為系統(tǒng)的條件屬性C,而將教師的成長(zhǎng)速度作為決策屬性D。
對(duì)于具體的數(shù)據(jù)處理時(shí)可先將其抽象、離散化、使后續(xù)的表格簡(jiǎn)潔明了。性別(1:男2:女),年齡(1:25—30 2:30—35 3:36—40 4:40—45 5:45以上),教齡(1:1—5 2:10—15 3:16—20 4:21—25 5:25 以上),政治面貌(1:黨員 2:其他),畢業(yè)院校(1:重點(diǎn)高校 2:普通高校),學(xué)歷(1:學(xué)士 2:碩士),現(xiàn)聘職稱(chēng)(1:教授 2:副教授3:講師 4:助教),評(píng)定年齡(1: 25—30歲, 2: 31—35歲, 3:35—40歲, 4: 40歲以上),學(xué)歷是否變動(dòng)(1:是 2:否),教學(xué)能力,科研能力(1:高 2:中 3:一般)和成長(zhǎng)(1:快 2:中 3:慢)。
以上劃分等級(jí)的標(biāo)準(zhǔn)是根據(jù)以往實(shí)際經(jīng)驗(yàn)和具體的數(shù)據(jù)而確定,按以上的規(guī)則概化和離散化原始數(shù)據(jù),根據(jù)以往的經(jīng)驗(yàn)和實(shí)際的情況可判斷性別,年齡,政治面貌,學(xué)歷變動(dòng)為冗余屬性。刪除其中的冗余屬性得到預(yù)處理后的數(shù)據(jù)表如表1所示。
表1 預(yù)處理后的教師數(shù)據(jù)
表1中的數(shù)據(jù)只是對(duì)初級(jí)數(shù)據(jù)的簡(jiǎn)單分類(lèi)和離散化,首先刪除表1中的冗余對(duì)象,然后對(duì)其進(jìn)行屬性約簡(jiǎn),通過(guò)計(jì)算可得 U 的屬性約簡(jiǎn)集為{C4,C5,C6,C7} 。此時(shí)對(duì)屬性約簡(jiǎn)后對(duì)應(yīng)的表再次刪除冗余對(duì)象,得到最終屬性約簡(jiǎn)后的數(shù)據(jù)如表2所示。為了計(jì)算方便將條件屬性在表中以C1,C2,…,C7來(lái)表示,其中C1 = 教齡,C2=畢業(yè)院校,C3=學(xué)歷,C4=現(xiàn)聘職稱(chēng),C5=評(píng)定年齡,C6=教學(xué)能力,C7=科研能力,D=成長(zhǎng)。
表2 約簡(jiǎn)后的數(shù)據(jù)表
續(xù)表
根據(jù)上面得到的約簡(jiǎn),通過(guò)屬性之間的隱含關(guān)系來(lái)挖掘關(guān)聯(lián)規(guī)則,給定支持度閾值 5%,置信度閾值 80%,可得到同時(shí)滿(mǎn)足支持度閾值和置信度閾值的項(xiàng)目集生成的關(guān)聯(lián)規(guī)則有:
Rule 1(現(xiàn)聘職稱(chēng)=4)&(評(píng)定年齡=1)&(教學(xué)能力=2)&(科研能力=2)=>(成長(zhǎng)速度=2);
Rule 2(現(xiàn)聘職稱(chēng)=3)&(評(píng)定年齡=1)=>(成長(zhǎng)速度=2);
Rule 3(現(xiàn)聘職稱(chēng)=3)&(評(píng)定年齡=3)=>(成長(zhǎng)速度=3);
Rule 4(現(xiàn)聘職稱(chēng)=2)&(評(píng)定年齡=1)=>(成長(zhǎng)速度=1);
Rule 5(現(xiàn)聘職稱(chēng)=2)&(教學(xué)能力=1)&(科研能力=1)=>(成長(zhǎng)速度=1);
Rule 6(現(xiàn)聘職稱(chēng)=1)&(評(píng)定年齡=4)=>(成長(zhǎng)速度=1)。
以上規(guī)則的含義如下:由第一條規(guī)則可知現(xiàn)聘職稱(chēng)為助教,評(píng)定年齡在25到30,教學(xué)和科研能力中等,則可以斷定教師的成長(zhǎng)速度中等;由第二條規(guī)則可知:現(xiàn)聘職稱(chēng)為講師,評(píng)定年齡在25到30,可以斷定該教師的成長(zhǎng)速度中等;第三條規(guī)則說(shuō)明如果現(xiàn)聘職稱(chēng)是講師,評(píng)定年齡在35到40,斷定教師的成長(zhǎng)速度慢;第四條規(guī)則說(shuō)明職稱(chēng)是副教授,評(píng)定年齡在25到30,可以斷定該教師的成長(zhǎng)速度快;第五條規(guī)則說(shuō)明職稱(chēng)是副教授,教學(xué)和科研能力高的教師成長(zhǎng)速度快;第六條規(guī)則說(shuō)明職稱(chēng)是教授,評(píng)定年齡是 40以上的教師成長(zhǎng)速度快。
由以上規(guī)則可以得出:現(xiàn)聘職稱(chēng),評(píng)定年齡,教學(xué)能力和科研能力對(duì)教師成長(zhǎng)的快慢有顯著影響?,F(xiàn)聘職稱(chēng)是助教,教學(xué)和科研能力都中等的教師,屬于成長(zhǎng)速度中等的類(lèi)型;而在 30歲前評(píng)為副教授的教師,成長(zhǎng)速度快;職稱(chēng)是副教授,教學(xué)和科研能力較強(qiáng)的教師的成長(zhǎng)速度也是快速型的。因此,如果高校希望教師能夠快速成長(zhǎng),則在人才引進(jìn)時(shí)就要多考慮教師的教學(xué)和科研能力,在人才的考核方面提出新的機(jī)制來(lái)改變傳統(tǒng)的只看學(xué)歷和畢業(yè)院校等情況。
本文在對(duì)數(shù)據(jù)挖掘相關(guān)技術(shù)、關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行深入研究的基礎(chǔ)上,歸納總結(jié)了基于粗糙集理論的關(guān)聯(lián)規(guī)則挖掘模型和屬性約簡(jiǎn)算法,利用某高校教師的成長(zhǎng)數(shù)據(jù),進(jìn)行了關(guān)聯(lián)規(guī)則的挖掘?qū)嶒?yàn),將其應(yīng)用于高校教師的成長(zhǎng)中,并對(duì)關(guān)聯(lián)規(guī)則產(chǎn)生的結(jié)果進(jìn)行了解釋。
[1]孟慶文,徐文龍.粗糙集合在中醫(yī)診斷中的應(yīng)用研究.安徽大學(xué)學(xué)報(bào)[J].2006.
[2]白秀玲,崔林,王向陽(yáng).一種基于關(guān)聯(lián)規(guī)則挖掘的粗糙集約簡(jiǎn)算法[J].計(jì)算機(jī)工程與應(yīng)用.2003.
[3]曾黃麟.基于粗集方法的智能專(zhuān)家系統(tǒng)[J].中國(guó)工程科學(xué).2001.
[4]馮少榮,肖文俊.數(shù)據(jù)挖掘技術(shù)在試題質(zhì)量評(píng)價(jià)中的應(yīng)用[J].東北師大學(xué)報(bào)(自然科學(xué)版).2008.
[5]張瑤,陳高云,王鵬.數(shù)據(jù)挖掘技術(shù)在試卷分析中的應(yīng)用.西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版).2008.
[6]王艷春,郭小利,陳鴻等.基于數(shù)據(jù)挖掘算法的教學(xué)測(cè)評(píng)系統(tǒng)研究[J].長(zhǎng)春理工大學(xué)學(xué)報(bào).2006.
[7]蔡偉杰,張曉輝,朱建秋.關(guān)聯(lián)規(guī)則挖掘綜述[J].計(jì)算機(jī)科學(xué).2005.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2011年6期