基于Apriori的科研考核信息的關(guān)聯(lián)性分析

2020-10-22 09:10:44許悅

遼寧高職學(xué)報 2020年10期

許悅

（遼寧工程職業(yè)學(xué)院，遼寧鐵嶺 112008）

按照《遼寧工程職業(yè)學(xué)院科研工作量化考核制度》的要求，將教師以職稱水平分類，然后以其科研、論文等考核類目的級別及數(shù)量為基礎(chǔ)，通過學(xué)院科研考核系統(tǒng)，把采集的預(yù)處理過的數(shù)據(jù)利用Apriori算法進行關(guān)聯(lián)性分析，以判斷不同職稱教師的科研能力以及政策制度的合理性和可行性[1]。

一、Apriori算法

提取關(guān)聯(lián)規(guī)則的有效算法之一是Apriori算法。它的規(guī)則是首先通過掃描數(shù)據(jù)集產(chǎn)生候選項集，然后根據(jù)已知的最小支持度閾值及最小置信度閾值導(dǎo)出頻繁項集[2]。以下是對它的描述：

輸入：事物數(shù)據(jù)庫D，最小支持度閾值min_sup；輸出：D中頻繁項集L。

（1） L1=find_frequent_1_itemsets(D);

（2） for(k=2;Lk-1≠Φ;k++){

（3） Ck=apripri_gen(Lk-1,min_suppor);//頻繁項K-1集生成候選K項集

（4） for each transaction t∈D

（5） Ct=subset(Ck,t);//構(gòu)造t的候選子集

（6） for each candidate c∈Ct

（7） c.count++;}

（8） Lk={c∈Ct│c.count＞0}

（9） }//Ck為候選相集

（10） return L=∩kLk;

連接步：

（1） procedure apriori_gen(Lk-1:frequent(k-1)item)

（2） for each itemset l1∈Lk-1

（3） for each itemset l2∈Lk-1

（4） if(l1[1]=l2[1]∩l1[2]=l2[2]∩L∩l1[k-1]=l2[k-1]then){

（5） c=l1∞l2

（6） if has_inf requent_subset(c,Lk-1)then

（7） delete c;//剪枝；刪除非頻繁的候選相集

（8） else add c to Ck;}

（9） return Ck;

剪枝步：

（1） procedure has_infrequent_subset(c:candidate k item;Lk-1:frequent(k-1)item)

（2） for each(k-1)subset s of c

（3） if s∈Lk-1then

（4） return TRUE;

（5） return FALSE;

二、科研考核信息關(guān)聯(lián)分析算法

科研考核信息的關(guān)聯(lián)分析算法是改進Apriori算法并借助Weka平臺實現(xiàn)的。算法主要包括步驟讀取數(shù)據(jù)集data，并提取樣本集instances，離散化屬性Discretize，創(chuàng)設(shè)Apriori關(guān)聯(lián)規(guī)則模型，輸出大頻率項集及關(guān)聯(lián)規(guī)則集[3]。在 Apriori算法中，設(shè)置minSupprot=50%，最小置信度minimum confidence也設(shè)置為50%[4]。Weka配置路徑為Explore-＞Openfile（TestStudenti.arff）-＞Associate點擊配置參數(shù)信息，classIndex=-1,delta=0.05,lowerBoundMinSupport=0.5,minMetric=0.5, numRules=20,significanceLevel=-1.0,upperBoundMinSupport=1.0。

三、科研考核信息數(shù)據(jù)的預(yù)處理

科研考核信息的分析數(shù)據(jù)集來自遼寧工程職業(yè)學(xué)院科研考核系統(tǒng)的教師科研信息導(dǎo)出數(shù)據(jù)。部分教師科研考核信息如表1所示。

表1 部分教師的科研考核信息表

由于在得到的科研考核數(shù)據(jù)中有一些噪聲數(shù)據(jù)，所以有必要對這些數(shù)據(jù)進行整理和歸集[5]。預(yù)處理操作如表2至表6所示。

學(xué)歷屬性信息包括研究生學(xué)歷、本科學(xué)歷和?？茖W(xué)歷。學(xué)歷屬性信息的預(yù)處理如表2所示。

表2 學(xué)歷屬性預(yù)處理表

學(xué)位屬性信息包括博士學(xué)位、碩士學(xué)位、學(xué)士學(xué)位以及無學(xué)位等。學(xué)位屬性信息的預(yù)處理如表3所示。

表3 學(xué)位屬性預(yù)處理表

職稱屬性信息包括教授、副教授、講師和助教。職稱屬性信息的預(yù)處理如表4所示。

年齡屬性的信息預(yù)處理如表5所示。

科研成果包括省級以上論文數(shù)量、省級科研項目數(shù)量、專著數(shù)量和專利數(shù)量[6]。將科研成果總數(shù)量進行預(yù)處理操作，如表6所示。

表4 職稱屬性預(yù)處理表

表5 年齡屬性預(yù)處理表

表6 科研成果數(shù)量預(yù)處理表

四、科研考核信息的關(guān)聯(lián)規(guī)則分析

影響關(guān)聯(lián)規(guī)則提取有兩個因素，一個是最小支持度，另一個是最小置信度。最小支持度和最小置信度閾值的取值大小可影響提取關(guān)聯(lián)規(guī)則的數(shù)量[7]。滿足最小支持度和最小置信度閾值的頻繁項集即為關(guān)聯(lián)規(guī)則。本文選取的最小支持度閾值是0.5，最小置信度閾值是0.5。利用Weka中的Apriori算法提取的關(guān)聯(lián)規(guī)則的結(jié)果包括一至四維關(guān)聯(lián)規(guī)則[8]。四維關(guān)聯(lián)規(guī)則如表7所示。

表7 科研考核信息四維關(guān)聯(lián)規(guī)則表

下面對科研考核信息的關(guān)聯(lián)分析如下：

分析發(fā)現(xiàn)，職稱雖然相同，但是近幾年新入職教師的科研得分與科研得分“高”的關(guān)聯(lián)度比較高，而學(xué)院原始教師的科研得分與科研得分“低”的關(guān)聯(lián)度比較高。出現(xiàn)這種狀況主要是因為近幾年新入職的教師一般都具有研究生學(xué)歷或碩士以上學(xué)位，理論水平和動手能力都較強[9]；而對于學(xué)院的原始教師（我院由六所中職院校合并而成）來說，科研能力比較薄弱。

針對分析結(jié)果，可以建議學(xué)校重點栽培近年來新招入的高學(xué)歷教師。因為這部分教師雖然職稱較低，但卻體現(xiàn)出了很強的科研潛力。但同時也不能放棄科研得分較低的教師群體，要通過正確的引導(dǎo)，為他們開辟新的科研空間[10]。

五、小結(jié)

本文將遼寧工程職業(yè)學(xué)院科研考核系統(tǒng)導(dǎo)出的數(shù)據(jù)利用Apriori算法進行關(guān)聯(lián)性分析，得出了科研信息數(shù)據(jù)中的關(guān)聯(lián)結(jié)果，并根據(jù)關(guān)聯(lián)分析結(jié)果對學(xué)院今后的科研發(fā)展提出了指導(dǎo)性的意見。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Apriori的科研考核信息的關(guān)聯(lián)性分析

一、Apriori算法

二、科研考核信息關(guān)聯(lián)分析算法

三、科研考核信息數(shù)據(jù)的預(yù)處理

四、科研考核信息的關(guān)聯(lián)規(guī)則分析

五、小結(jié)

一、Apriori算法

二、科研考核信息關(guān)聯(lián)分析算法

三、科研考核信息數(shù)據(jù)的預(yù)處理

四、科研考核信息的關(guān)聯(lián)規(guī)則分析

五、小結(jié)