夏燕,徐娜,舒健,馮暉
?
加權(quán)樸素貝葉斯模型在高校學(xué)科評價中的應(yīng)用
夏燕,徐娜,舒健,馮暉
摘 要:學(xué)科評價是高等教育評估的重要內(nèi)容,是加強高校學(xué)科建設(shè)的重要手段。如何采用科學(xué)的方法開展學(xué)科評價,客觀地對學(xué)科進行分類,遴選優(yōu)勢學(xué)科和潛力學(xué)科在學(xué)科建設(shè)中至關(guān)重要。提出了一種基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類方法,依據(jù)不同權(quán)重的學(xué)科評價屬性和互信息量計算綜合權(quán)重,構(gòu)造高校學(xué)科分類器,實現(xiàn)了一個自動化的高校學(xué)科分類預(yù)測系統(tǒng),并對上海高校學(xué)科樣本進行應(yīng)用分析。實驗結(jié)果表明,應(yīng)用基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類預(yù)測系統(tǒng)對學(xué)科進行預(yù)測分類,準確率達到86.67%,為高校學(xué)科綜合評價提供了基本依據(jù),為新一輪學(xué)科發(fā)展戰(zhàn)略的制定奠定了基礎(chǔ)。關(guān)鍵詞:數(shù)據(jù)挖掘;樸素貝葉斯;評價指標;學(xué)科分類;學(xué)科評價
學(xué)科是高校的基本組成單位,學(xué)科建設(shè)是高校各項建設(shè)的核心,是提高學(xué)校人才培養(yǎng)、科學(xué)研究和服務(wù)社會能力的基礎(chǔ)。目前中國大部分高校已基本完成學(xué)科布局調(diào)整,確定學(xué)科結(jié)構(gòu)規(guī)模,將進入提高學(xué)科建設(shè)質(zhì)量、培育學(xué)科特色、形成學(xué)科優(yōu)勢、促進學(xué)科發(fā)展的階段[1]。在這一階段,積極發(fā)展高校的優(yōu)勢學(xué)科和潛力學(xué)科極其關(guān)鍵。因此,如何采用科學(xué)的方法開展學(xué)科評價,客觀地遴選優(yōu)勢學(xué)科和潛力學(xué)科至關(guān)重要。目前,高校學(xué)科評價的指標體系,由師資隊伍與資源、科學(xué)研究水平、人才培養(yǎng)質(zhì)量、學(xué)科聲譽等4大方向組成。借助權(quán)威數(shù)據(jù)庫對各方向的客觀數(shù)據(jù)進行分析,通過數(shù)據(jù)挖掘的方式確定優(yōu)勢學(xué)科和潛力學(xué)科是學(xué)科建設(shè)過程中常用的方法。目前,常采用的數(shù)據(jù)挖掘方法為文獻計量法,通過與論文相關(guān)的各指標對學(xué)科進行評價,確定優(yōu)勢和潛力學(xué)科。但是,僅從科學(xué)研究水平中論文的視角進行評價,難以真正實現(xiàn)科學(xué)全面的學(xué)科評價[2]。因此,建立一套基于客觀數(shù)據(jù)的學(xué)科評價體系,科學(xué)地對高校學(xué)科進行分類,使教育主管部門和學(xué)校便捷地了解學(xué)科發(fā)展的現(xiàn)狀,促進我國高等教育的健康快速發(fā)展,已成為高等教育研究的一個熱點課題。
本文提出了一種基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類方法,依據(jù)不同權(quán)重的學(xué)科評價屬性和互信息量計算綜合權(quán)重,構(gòu)造高校學(xué)科分類器,實現(xiàn)了一個自動化的學(xué)科分類預(yù)測系統(tǒng)。探索了數(shù)據(jù)挖掘技術(shù)在高校學(xué)科評價中的應(yīng)用,為高校學(xué)科建設(shè)提供了基本依據(jù)。
優(yōu)勢學(xué)科和潛力學(xué)科是世界一流學(xué)科發(fā)展的基礎(chǔ),它們在學(xué)科集群化發(fā)展過程中擔當主體學(xué)科,利用學(xué)科間的優(yōu)勢互補,帶動相關(guān)學(xué)科共同發(fā)展。目前可通過學(xué)科評價的方式確立優(yōu)勢和潛力學(xué)科。高校學(xué)科評價的研究工作,可分為以下幾類?;诖髮W(xué)專業(yè)排名的學(xué)科評價,如英國泰晤士高等教育排名(THE)[3],美國新聞與世界報道排名(USNWR)[4],中國教育部學(xué)位與研究生教育發(fā)展中心學(xué)科排名(CDR)[5]。基于科學(xué)映射的學(xué)科評價,如荷蘭萊頓大學(xué)科學(xué)研究中心(CWTS)啟動的“基于映射的文獻計量”項目[6]?;诎l(fā)展態(tài)勢研究的學(xué)科評價,如法國科學(xué)研究中心(CNRS)長期以來對高校學(xué)科進行的價值評價[7]?;诳茖W(xué)基金管理的學(xué)科評價,如英國生物技術(shù)與生物科學(xué)研究理事會(BBSRC)對其資助的生物類學(xué)科開展的評價工作[8]。以上各類學(xué)科評價主要采用傳統(tǒng)的專家評價法和文獻計量法相結(jié)合的方式,對高校學(xué)科進行評價,存在評價流程復(fù)雜,評審結(jié)果容易受到主觀性影響等缺陷。
為了解決目前學(xué)科評價工作中存在的問題,本文提出了一種基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類方法,構(gòu)建了一個自動化的高校學(xué)科分類預(yù)測系統(tǒng),并對上海高校學(xué)科樣本進行應(yīng)用分析,為教育主管部門和高校進行學(xué)科綜合評價和制定學(xué)科發(fā)展戰(zhàn)略提供基本依據(jù)。
基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類方法,依據(jù)學(xué)科評價屬性的權(quán)重和互信息量計算綜合權(quán)重,構(gòu)造高校學(xué)科分類器。
2.1 基本定義
其中sik 是評價屬性Ak中具有值xk 的類別屬性Ci 的樣本數(shù),si是樣本數(shù)據(jù)集S中類別屬性為Ci的樣本數(shù)為公式(7):
定義6 考慮到不同評價屬性對分類的影響不一致,對評價屬性按其重要性賦予不同的權(quán)值,未知數(shù)據(jù)樣本X的目標類別定義擴展為公式(8):
其中,wi表示評價屬性的權(quán)重。權(quán)重越大,該評價屬性對分類決策的影響越大。
定義7 評價屬性Ai的權(quán)重wi定義為公式(9):
其中,λi可依據(jù)高校學(xué)科評價指標體系中不同評價指標的權(quán)重進行度量。δi可根據(jù)評價屬性Ai與類別屬性Cj的互信息量計算,
2.2 方法流程
根據(jù)上述相關(guān)定義給出基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類方法,流程描述如方法1所示:
方法1: 基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類方法DCM-WNBM (Discipline Classification Method based on Weighted Naive Bayes Model)輸入:訓(xùn)練樣本集Samples,評價屬性集E_Attributes,類別屬性集C_Attributes輸出:加權(quán)樸素貝葉斯分類器方法:DCM-WNBM(Samples, E_Attributes, C_Attributes) Begin掃描訓(xùn)練樣本集Samples,統(tǒng)計類別屬性集C_Attributes中各屬性的概率概率學(xué)習(xí):根據(jù)式(5-1)和(5-2),對評價屬性集E_Attributes中各屬性計算所有劃分的先驗概率權(quán)重值學(xué)習(xí):根據(jù)式(7),對評價屬性集E_Attributes中各屬性計算權(quán)值生成加權(quán)樸素貝葉斯模型的概率統(tǒng)計表和權(quán)重值統(tǒng)計表。調(diào)用概率統(tǒng)計表及權(quán)重值統(tǒng)計表中數(shù)據(jù),根據(jù)式(6),生成基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類器。End
3.1 高校學(xué)科評價指標體系
本文以教育部學(xué)位與研究生發(fā)展中心頒布的2012年學(xué)科評估指標體系[10]為依據(jù),選取相應(yīng)指標作為評價屬性。學(xué)科評價指標體系如表1所示:
表1 教育部學(xué)位與研究生發(fā)展中心頒布的2012年學(xué)科評估指標體系
3.2 高校學(xué)科評價指標數(shù)據(jù)選取
為確保數(shù)據(jù)的真實性、可靠性和權(quán)威性,與指標體系相關(guān)的原數(shù)據(jù),可直接或間接從教育主管部門信息數(shù)據(jù)庫、高校行政部門信息數(shù)據(jù)庫、第三方電子文獻數(shù)據(jù)庫中獲取,主要包含可度量的三級指標。將數(shù)據(jù)集成到數(shù)據(jù)庫的高校學(xué)科基本信息表中,表結(jié)構(gòu)如表2所示:
表2 高校學(xué)科基本信息表結(jié)構(gòu)
共定義了76個評價屬性。另需設(shè)置概率統(tǒng)計表和權(quán)重值統(tǒng)計表,存儲評價屬性的概率大小和權(quán)重值。
從源數(shù)據(jù)庫中獲取的數(shù)據(jù),易受到空缺、不一致、冗余等現(xiàn)象的影響,需要對數(shù)據(jù)進行清理、集成、變換、規(guī)約,做好預(yù)處理工作[11][12]。
3.3 高校學(xué)科分類預(yù)測系統(tǒng)
3.31 高校學(xué)科分類預(yù)測系統(tǒng)架構(gòu)
基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類預(yù)測系統(tǒng)的架構(gòu)如圖1所示:
圖1 高校學(xué)科分類預(yù)測系統(tǒng)架構(gòu)圖
基本過程如下。
建立模型:應(yīng)用DCM-WNBM方法,在已知樣本集上進行訓(xùn)練,構(gòu)造高校學(xué)科分類器;
優(yōu)化模型:對于已構(gòu)建的分類器,采用測試樣本進行評估分析和優(yōu)化。
應(yīng)用模型:利用優(yōu)化的分類器,對新數(shù)據(jù)樣本進行分類。
3.3.2 設(shè)定高校學(xué)科分類訓(xùn)練樣本集
本文將研究重點放于上海高校學(xué)科評價上,對上海高校各學(xué)科進行分類。依據(jù)教育部學(xué)位與研究生教育發(fā)展中心2012年學(xué)科評估結(jié)果,將上海高校學(xué)科分為4類,頂尖學(xué)科、優(yōu)勢學(xué)科、潛力學(xué)科、一般學(xué)科,在數(shù)據(jù)庫中設(shè)立類別屬性。對于極少量未參加2012年學(xué)科評估的學(xué)科,由上海教育行政部門專家,根據(jù)該高校歷年學(xué)科建設(shè)的基本數(shù)據(jù)和2012年學(xué)科評估指標體系,進行綜合評價,判定其類別屬性。
上海高校學(xué)科分類訓(xùn)練樣本集示例,如表3所示:
表3 上海高校學(xué)科分類訓(xùn)練樣本集示例
表3中選取了上海26所高校的98門學(xué)科作為樣本,其中,屬性,為“高校學(xué)科基本信息表結(jié)構(gòu)”中定義的評價屬性。將應(yīng)用DCM-WNBM方法對上海高校學(xué)科分類樣本集進行訓(xùn)練,生成基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類器。
3.3.3 建立高校學(xué)科分類器
運行高校學(xué)科分類預(yù)測系統(tǒng),分類預(yù)測模型從數(shù)據(jù)庫表文件“上海高校學(xué)科分類訓(xùn)練樣本集示例”中選擇并抽取樣本,應(yīng)用DCM-WNBM方法,構(gòu)建基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類器。高校學(xué)科分類器預(yù)測的部分評價屬性的重要性以及評價屬性A1的先驗概率,如圖2所示:
圖2 高校學(xué)科分類器預(yù)測的部分評價屬性重要性及先驗概率
其中,左側(cè)紅色為類別屬性結(jié)點,右側(cè)藍色為評價屬性結(jié)點。運行分類器后,使用不同深淺藍色標記評價屬性的重要性高低。點擊評價屬性結(jié)點后,顯示其先驗概率。分類器預(yù)測的部分評價屬性重要性的三維分布圖及投影圖如圖3所示:
圖3 高校學(xué)科分類器預(yù)測的部分評價屬性重要性的三維分布及投影
3.3.4 評估并優(yōu)化高校學(xué)科分類器
評估分類器的準確性非常重要。需使用測試樣本集,對基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類器進行評估。將分類器的預(yù)測結(jié)果與實際結(jié)果進行比較,當準確率達到80%以上,表明使用該分類器進行高校學(xué)科分類,是可行和有效的。
選取2012年上海高校一流學(xué)科數(shù)據(jù)作為測試樣本集,包含22所高校的161門學(xué)科[13],從數(shù)據(jù)庫中抽取典型的60條記錄作為測試樣本。應(yīng)用基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類預(yù)測系統(tǒng),導(dǎo)入測試樣本,運行分類器,對預(yù)測結(jié)果的準確率進行分析,如圖4所示:
60條測試樣本中50條樣本預(yù)測正確,預(yù)測準確率達83.33%。重合矩陣比較了各類別屬性預(yù)測值和實際值的差異,置信度報告說明了預(yù)測值的精準度。
對基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類器進行評估分析后,為進一步提高分類器的準確性,可對權(quán)重計算公式的權(quán)重系數(shù)進行微調(diào),得到優(yōu)化的貝葉斯分類器。經(jīng)高校學(xué)科分類預(yù)測系統(tǒng)評估分析后,其準確率提高到86.67%,如圖5所示:
圖5 優(yōu)化后的高校學(xué)科分類器評估結(jié)果
3.4 應(yīng)用高校學(xué)科分類預(yù)測系統(tǒng)對高校學(xué)科進行動態(tài)評價
基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類預(yù)測系統(tǒng)通過對客觀數(shù)據(jù)的讀取,預(yù)測高校學(xué)科的類別屬性,為構(gòu)建基于客觀數(shù)據(jù)的學(xué)科質(zhì)量評價體系奠定了基礎(chǔ)。對于首次進入數(shù)據(jù)庫的上海高校學(xué)科樣本進行初始化和分類,對于已進入數(shù)據(jù)庫的高校學(xué)科樣本進行動態(tài)監(jiān)測和評價。通過對學(xué)科的動態(tài)評價,教育主管部門能更便捷地了解上海高校學(xué)科的布局結(jié)構(gòu)和發(fā)展現(xiàn)狀,為今后拓展發(fā)展性評估奠定基礎(chǔ)。
在對現(xiàn)有的高校學(xué)科評價方法進行廣泛調(diào)研、認真分析的基礎(chǔ)上,我們提出了一種基于加權(quán)樸素貝葉斯模型的高校學(xué)科分類方法,構(gòu)建了高校學(xué)科分類預(yù)測系統(tǒng),并對上海高校學(xué)科樣本進行應(yīng)用分析。此方法的研究和應(yīng)用,有助于揭示高校學(xué)科的發(fā)展趨勢及所處的發(fā)展階段,預(yù)測未來可能取得的進展和突破,為教育主管部門和高校制定新一輪的學(xué)科發(fā)展戰(zhàn)略提供基本依據(jù)。
在未來工作中,希望根據(jù)高校學(xué)科的特點,進一步開展貝葉斯網(wǎng)絡(luò)在高校學(xué)科分類中的研究,對高校學(xué)科進行更科學(xué)合理的評價。
參考文獻
[1] 韓文瑜,梅士偉.把握學(xué)科規(guī)律培育學(xué)科文化促進學(xué)科發(fā)展[J].中國高等教育,2011(7):22-24.
[2] Hood W.W, Wilson C.S. The literature of bibliometrics, scientometrics,and informetrics [J]. Scientometrics, 2001, 52(2): 291-314.
[3] Marijk van der Wender. Ranking and Classification in Higher Education: A European Perspective [J]. Higher Education, 2008(23): 49-71.
[4] Jamil Salmi, Alenoush Saroyan. League Tables as Policy Instrument: Uses and Misuses[J]. Higher Education Management and Policy(OECD), 2007, 19(2): 24-62.
[5] 教育部學(xué)位與研究生教育發(fā)展中心.學(xué)科評估工作簡介[EB/OL].
http://www.chinadegrees.cn/xwyyjsjyxx/xxsbdxz/ 276985.shtml, 2013-12.
[6] Moed H F. Bibliometric Rankings of World Universities [R]. The Netherlands: Centre for Science and Technology Studies (CWTS), Leiden University, 2006.
[7] Center national de la recherche scientifique. Missions [EB/OL]. http://www.cnrs.fr/en/aboutCNRS/overview.htm, 2014-10.
[8] Aghion P, Dewatripont M, Hoxby C, et al. The governance and performance of universities: evidence from Europe and the US [J]. Economic Policy, 2010, 25(6): 7-59.
[9] Jiawei Han, Micheling Kamber, Jian Pei. Data Mining: Concepts and Techniques [M]. 3rd ed. Morgan Kaufmann, 2011: 390-395.
[10] 教育部學(xué)位與研究生教育發(fā)展中心.2012年學(xué)科評估指標體系 [EB/OL].
http://www.chinadegrees.cn/xwyyjsjyxx/xxsbdxz/ 277134.shtml, 2013-3.
[11] Carlo Batini. Data Quality: Concepts, Methodologies and Techniques [M]. Springer-Verlag Berlin and Heidelberg GmbH & Co. K, 2010: 133-143.
[12] CAI Z, Identifying product failure rate based on a conditional Bayesian network classifier [J], Expert Systems with Applications, 2011, 38(5): 5036-5043.
[13] 上海市政務(wù)門戶網(wǎng).上海高校一流學(xué)科名單公布[EB/OL].http://www.shanghai.gov.cn/shanghai/no de2314/node2319/node12344/u26ai33230.html, 2012-9
Application of Weighted Naive Bayes Model in Discipline Evaluation
Xia Yan1, Xu Na2, Shu Jian3, Feng Hui1
(1.Shanghai Education Evaluation Institute, Shanghai 200031, China; 2.Shanghai Municipal Education Examinations Authority, Shanghai 200235, China; 3.Shanghai General Motor, Shanghai 201206, China)
Abstract:Discipline evaluation is an important part in higher education evaluation. It plays a significant role in discipline construction in colleges and universities. It is significant challenge how to adopt scientific discipline evaluation to choose advantageous disciplines and newly-emerging ones. This paper proposes a discipline classification method based on Weighted Naive Bayes model. It establishes Discipline Classifier according to weighted discipline evaluation attributes and mutual information. An automatic discipline classification system is implemented, verifying the method and analyzing data from universities in Shanghai. Experimental results show that the used scheme can achieve about 86.67% accuracy in forecasts. It provides advice and guidance for discipline evaluation, and establishes foundation for discipline development strategy.
Key words:Data Mining; Naive Bayes; Evaluation Indicator; Discipline Classification; Discipline Evaluation
收稿日期:(2015.11.02)
作者簡介:夏 燕(1981-),女,上海市教育評估院,工程師,碩士,研究方向:數(shù)據(jù)挖掘、高校學(xué)科評價等,上海,200031 徐 娜(1982-),女,上海市教育考試院,工程師,碩士,研究方向:軟件工程、教育信息系統(tǒng)等,上海 200235 舒 ?。?982-),男,上海通用汽車有限公司,工程師,碩士,研究方向:數(shù)據(jù)挖掘、自動化控制等,上海,201206 馮 暉(1970-),男,上海市教育評估院,副研究員,博士,研究方向:系統(tǒng)評價、高等教育管理等,上海,200031
基金項目:上海市教育委員會上海高校青年教師培養(yǎng)資助計劃(編號:ZZPGY14002)
文章編號:1007-757X(2016)01-0015-04
中圖分類號:TP181
文獻標志碼:A