許 悅
(遼寧工程職業(yè)學(xué)院,遼寧 鐵嶺 112008)
按照《遼寧工程職業(yè)學(xué)院科研工作量化考核制度》的要求,將教師以職稱水平分類,然后以其科研、論文等考核類目的級別及數(shù)量為基礎(chǔ),通過學(xué)院科研考核系統(tǒng),把采集的預(yù)處理過的數(shù)據(jù)利用Apriori算法進行關(guān)聯(lián)性分析,以判斷不同職稱教師的科研能力以及政策制度的合理性和可行性[1]。
提取關(guān)聯(lián)規(guī)則的有效算法之一是Apriori算法。它的規(guī)則是首先通過掃描數(shù)據(jù)集產(chǎn)生候選項集,然后根據(jù)已知的最小支持度閾值及最小置信度閾值導(dǎo)出頻繁項集[2]。以下是對它的描述:
輸入:事物數(shù)據(jù)庫D,最小支持度閾值min_sup;輸出:D中頻繁項集L。
(1) L1=find_frequent_1_itemsets(D);
(2) for(k=2;Lk-1≠Φ;k++){
(3) Ck=apripri_gen(Lk-1,min_suppor);//頻繁項K-1集生成候選K項集
(4) for each transaction t∈D
(5) Ct=subset(Ck,t);//構(gòu)造t的候選子集
(6) for each candidate c∈Ct
(7) c.count++;}
(8) Lk={c∈Ct│c.count>0}
(9) }//Ck為候選相集
(10) return L=∩kLk;
連接步:
(1) procedure apriori_gen(Lk-1:frequent(k-1)item)
(2) for each itemset l1∈Lk-1
(3) for each itemset l2∈Lk-1
(4) if(l1[1]=l2[1]∩l1[2]=l2[2]∩L∩l1[k-1]=l2[k-1]then){
(5) c=l1∞l2
(6) if has_inf requent_subset(c,Lk-1)then
(7) delete c;//剪枝;刪除非頻繁的候選相集
(8) else add c to Ck;}
(9) return Ck;
剪枝步:
(1) procedure has_infrequent_subset(c:candidate k item;Lk-1:frequent(k-1)item)
(2) for each(k-1)subset s of c
(3) if s∈Lk-1then
(4) return TRUE;
(5) return FALSE;
科研考核信息的關(guān)聯(lián)分析算法是改進Apriori算法并借助Weka平臺實現(xiàn)的。算法主要包括步驟讀取數(shù)據(jù)集data,并提取樣本集instances,離散化屬性Discretize,創(chuàng)設(shè)Apriori關(guān)聯(lián)規(guī)則模型,輸出大頻率項集及關(guān)聯(lián)規(guī)則集[3]。在 Apriori算法中,設(shè)置minSupprot=50%,最小置信度minimum confidence也設(shè)置為50%[4]。Weka配置路徑為Explore->Openfile(TestStudenti.arff)->Associate點擊配置參數(shù)信息,classIndex=-1,delta=0.05,lowerBoundMinSupport=0.5,minMetric=0.5, numRules=20,significanceLevel=-1.0,upperBoundMinSupport=1.0。
科研考核信息的分析數(shù)據(jù)集來自遼寧工程職業(yè)學(xué)院科研考核系統(tǒng)的教師科研信息導(dǎo)出數(shù)據(jù)。部分教師科研考核信息如表1所示。
表1 部分教師的科研考核信息表
由于在得到的科研考核數(shù)據(jù)中有一些噪聲數(shù)據(jù),所以有必要對這些數(shù)據(jù)進行整理和歸集[5]。預(yù)處理操作如表2至表6所示。
學(xué)歷屬性信息包括研究生學(xué)歷、本科學(xué)歷和??茖W(xué)歷。學(xué)歷屬性信息的預(yù)處理如表2所示。
表2 學(xué)歷屬性預(yù)處理表
學(xué)位屬性信息包括博士學(xué)位、碩士學(xué)位、學(xué)士學(xué)位以及無學(xué)位等。學(xué)位屬性信息的預(yù)處理如表3所示。
表3 學(xué)位屬性預(yù)處理表
職稱屬性信息包括教授、副教授、講師和助教。職稱屬性信息的預(yù)處理如表4所示。
年齡屬性的信息預(yù)處理如表5所示。
科研成果包括省級以上論文數(shù)量、省級科研項目數(shù)量、專著數(shù)量和專利數(shù)量[6]。將科研成果總數(shù)量進行預(yù)處理操作,如表6所示。
表4 職稱屬性預(yù)處理表
表5 年齡屬性預(yù)處理表
表6 科研成果數(shù)量預(yù)處理表
影響關(guān)聯(lián)規(guī)則提取有兩個因素,一個是最小支持度,另一個是最小置信度。最小支持度和最小置信度閾值的取值大小可影響提取關(guān)聯(lián)規(guī)則的數(shù)量[7]。滿足最小支持度和最小置信度閾值的頻繁項集即為關(guān)聯(lián)規(guī)則。本文選取的最小支持度閾值是0.5,最小置信度閾值是0.5。利用Weka中的Apriori算法提取的關(guān)聯(lián)規(guī)則的結(jié)果包括一至四維關(guān)聯(lián)規(guī)則[8]。四維關(guān)聯(lián)規(guī)則如表7所示。
表7 科研考核信息四維關(guān)聯(lián)規(guī)則表
下面對科研考核信息的關(guān)聯(lián)分析如下:
分析發(fā)現(xiàn),職稱雖然相同,但是近幾年新入職教師的科研得分與科研得分“高”的關(guān)聯(lián)度比較高,而學(xué)院原始教師的科研得分與科研得分“低”的關(guān)聯(lián)度比較高。出現(xiàn)這種狀況主要是因為近幾年新入職的教師一般都具有研究生學(xué)歷或碩士以上學(xué)位,理論水平和動手能力都較強[9];而對于學(xué)院的原始教師(我院由六所中職院校合并而成)來說,科研能力比較薄弱。
針對分析結(jié)果,可以建議學(xué)校重點栽培近年來新招入的高學(xué)歷教師。因為這部分教師雖然職稱較低,但卻體現(xiàn)出了很強的科研潛力。但同時也不能放棄科研得分較低的教師群體,要通過正確的引導(dǎo),為他們開辟新的科研空間[10]。
本文將遼寧工程職業(yè)學(xué)院科研考核系統(tǒng)導(dǎo)出的數(shù)據(jù)利用Apriori算法進行關(guān)聯(lián)性分析,得出了科研信息數(shù)據(jù)中的關(guān)聯(lián)結(jié)果,并根據(jù)關(guān)聯(lián)分析結(jié)果對學(xué)院今后的科研發(fā)展提出了指導(dǎo)性的意見。