劉能現(xiàn),姜云飛
(福州大學(xué) 研究生院,福建 福州 350116)
聚類算法在研究生論文質(zhì)量分析中的應(yīng)用*
劉能現(xiàn),姜云飛
(福州大學(xué) 研究生院,福建 福州 350116)
研究生學(xué)位論文是衡量研究生培養(yǎng)質(zhì)量的重要指標(biāo)。本文通過對(duì)影響研究生學(xué)位論文質(zhì)量的相關(guān)屬性進(jìn)行分析處理,基于微軟SSAS平臺(tái)構(gòu)建了研究生學(xué)位論文質(zhì)量聚類分析挖掘模型,以福州大學(xué)研究生學(xué)位論文相關(guān)數(shù)據(jù)為實(shí)例進(jìn)行聚類分析,找出影響學(xué)位論文質(zhì)量的主要因素,為提高研究生學(xué)位論文質(zhì)量提供參考依據(jù)。
聚類算法;研究生;學(xué)位論文質(zhì)量
隨著我國經(jīng)濟(jì)社會(huì)發(fā)展進(jìn)入新常態(tài),研究生教育改革發(fā)展也進(jìn)入了一個(gè)新的歷史時(shí)期,不斷提升研究生教育質(zhì)量是新時(shí)期研究生教育的核心任務(wù)。[1]2017年1月劉延?xùn)|副總理在國務(wù)院學(xué)位委員會(huì)第三十三次會(huì)議上指出,質(zhì)量是研究生教育的生命線,要加強(qiáng)質(zhì)量保障體系建設(shè),強(qiáng)化培養(yǎng)單位質(zhì)量意識(shí),抓好質(zhì)量監(jiān)控,確保研究生教育質(zhì)量。研究生學(xué)位論文是研究生教育的總結(jié)性成果,是培養(yǎng)研究生科研能力、創(chuàng)新能力和實(shí)現(xiàn)培養(yǎng)目標(biāo)的重要環(huán)節(jié),也是衡量研究生教育水平和質(zhì)量的重要指標(biāo)。
數(shù)據(jù)挖掘技術(shù)可以從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式與知識(shí),目前已成功應(yīng)用在金融、醫(yī)療和電子商務(wù)等廣泛的領(lǐng)域,近年來,在教育信息化、遠(yuǎn)程教育及在線學(xué)習(xí)系統(tǒng)等應(yīng)用的帶動(dòng)下,教育數(shù)據(jù)挖掘開始受到越來越多的研究者的關(guān)注。[2]在大數(shù)據(jù)時(shí)代,對(duì)教育數(shù)據(jù)進(jìn)行挖掘分析可以得到教育數(shù)據(jù)中的隱含信息,可以幫助發(fā)現(xiàn)和解決教育中的各類問題,如為管理人員提供輔助決策依據(jù),幫助教師改進(jìn)課程、提升教學(xué)效果以及提高學(xué)生的學(xué)習(xí)效率等。
本文基于數(shù)據(jù)挖掘中的聚類算法,對(duì)福州大學(xué)2016學(xué)年畢業(yè)的1091位研究生的學(xué)位論文相關(guān)數(shù)據(jù)進(jìn)行聚類分析與挖掘,找出影響學(xué)位論文質(zhì)量的主要因素,為提高研究生學(xué)位論文質(zhì)量提供參考依據(jù)。
聚類分析[3]是一種重要的數(shù)據(jù)分析方法,就是將數(shù)據(jù)對(duì)象分成類或簇的過程,使同一個(gè)簇中的對(duì)象之間具有較高的相似性,而不同簇中的對(duì)象具有較大的差異性。聚類分析數(shù)據(jù)挖掘過程可概括為數(shù)據(jù)準(zhǔn)備、聚類分析及結(jié)果的解釋和評(píng)估三部分。
目前,聚類算法[4-5]大致分為層次聚類算法、劃分式聚類算法、基于密度和網(wǎng)格的聚類算法以及其他聚類算法。在眾多的聚類算法中,K均值聚類(K-means)是最經(jīng)典、最方便快速的算法之一。
K均值聚類算法的過程概述如下:
(1)從數(shù)據(jù)集D中任意選擇K個(gè)對(duì)象作為初始簇中心;
(2)Repeat;
(3)根據(jù)簇中對(duì)象的均值,將每個(gè)對(duì)象(再)指派到最相似的簇;
(4)更新簇均值,即計(jì)算每個(gè)簇中對(duì)象的均值;
(5)Until不再發(fā)生變化。
福州大學(xué)的研究生教育管理信息系統(tǒng)記錄了研究生從入學(xué)到畢業(yè)全過程的培養(yǎng)信息,為有效進(jìn)行研究生論文數(shù)據(jù)聚類分析提供了基礎(chǔ)。該系統(tǒng)數(shù)據(jù)庫主要包括學(xué)生基本信息、導(dǎo)師信息、課程信息、成績信息、獎(jiǎng)學(xué)金信息、開題情況、發(fā)表論文信息、論文送審成績以及論文答辯成績等數(shù)據(jù)表,但是這些數(shù)據(jù)表涉及很多屬性,哪些字段屬性被用于聚類算法,直接影響到最終的聚類效果。本文目標(biāo)是對(duì)研究生論文質(zhì)量進(jìn)行聚類分析,經(jīng)查閱相關(guān)論文,論文質(zhì)量的主要影響因素包括研究生選拔、研究生自身素質(zhì)、導(dǎo)師因素、科研條件、培養(yǎng)管理機(jī)制、學(xué)位論文的評(píng)審與答辯制度等。[6-7]因此,我們選取了學(xué)號(hào)、入學(xué)方式、本科畢業(yè)學(xué)校、導(dǎo)師類別、課程綜合成績、獲獎(jiǎng)情況、論文選題來源、發(fā)表論文情況、論文送審成績、答辯成績等字段作為挖掘的屬性。
為了讓數(shù)據(jù)符合挖掘要求和提高挖掘算法的效率,對(duì)數(shù)據(jù)使用下列規(guī)則進(jìn)行預(yù)處理。
(1)學(xué)生基本信息處理,將屬性入學(xué)方式分為推免生和統(tǒng)考生,將屬性本科畢業(yè)學(xué)校分為重點(diǎn)院校和普通院校,將屬性研究生導(dǎo)師類別分為博碩士生導(dǎo)師和碩士生導(dǎo)師。
(2)課程學(xué)習(xí)成績處理,每個(gè)研究生根據(jù)研究方向的不同可能選修不一樣的課程,為了公平衡量研究生學(xué)習(xí)成績,我校定義了研究生綜合成績計(jì)算公式,將根據(jù)公式計(jì)算的綜合成績進(jìn)行分段:85以上為“優(yōu)”,75~85為“良”,65~75為“中”,65以下為“差”。
(3)獎(jiǎng)學(xué)金信息處理,分為獲得獎(jiǎng)學(xué)金和未獲獎(jiǎng)學(xué)金并分別標(biāo)記為是和否;論文選題來源信息處理,研究生學(xué)位論文選題可能來自導(dǎo)師不同級(jí)別的科研項(xiàng)目或自選課題,為便于聚類把論文選題來源分為國家級(jí)項(xiàng)目、省部級(jí)項(xiàng)目、其他項(xiàng)目和其他。
(4)發(fā)表論文情況,根據(jù)研究生發(fā)表論文的刊物級(jí)別及數(shù)量分為4個(gè)等級(jí),發(fā)表一類期刊論文或者2篇二類期刊以上論文的標(biāo)記為3,發(fā)表1篇二類期刊論文的標(biāo)記為2,發(fā)表三類期刊論文的標(biāo)記為1,未發(fā)表論文的標(biāo)記為0。
(5)學(xué)位論文信息處理,先根據(jù)論文答辯成績把學(xué)位論文等級(jí)分為優(yōu)、良、中、差4個(gè)等級(jí),考慮到論文送審采用匿名盲審方式,送審成績能比較客觀地體現(xiàn)論文質(zhì)量,因此,把兩份送審成績?yōu)閮?yōu)而答辯成績?yōu)榱技耙韵碌恼撐牡燃?jí)定為優(yōu),把送審成績出現(xiàn)不及格而答辯成績?yōu)橹屑耙陨系恼撐牡燃?jí)定為差。
本文利用微軟 SQL Server 2008數(shù)據(jù)庫及 Visual Studio2008商務(wù)智能應(yīng)用程序開發(fā)工具集(Business Intelligence Development Studio,BIDev Studio)作為數(shù)據(jù)挖掘?qū)嶒?yàn)平臺(tái)。
在平臺(tái)上建立研究生論文質(zhì)量聚類分析挖掘模型,主要步驟包括:①創(chuàng)建Analysis Services項(xiàng)目;②創(chuàng)建數(shù)據(jù)源;③創(chuàng)建數(shù)據(jù)源視圖;④創(chuàng)建挖掘結(jié)構(gòu)模型和設(shè)置算法參數(shù),本文選擇聚類分析中K-means算法,經(jīng)過多次實(shí)驗(yàn),當(dāng)參數(shù)聚類數(shù)CLUSTER_COUNT設(shè)置為3時(shí),能得到具有明顯特征的數(shù)據(jù)結(jié)果;⑤部署和處理挖掘模型。在Visual Studio 2008中創(chuàng)建挖掘模型如圖1所示。
圖1 研究生論文質(zhì)量聚類分析挖掘模型
對(duì)福州大學(xué)2016學(xué)年畢業(yè)的1091位研究生的學(xué)位論文相關(guān)數(shù)據(jù),執(zhí)行研究生論文質(zhì)量聚類分析挖掘模型,得到聚類分析結(jié)果,如表1所示。從聚類結(jié)果可以看出,數(shù)據(jù)被劃分為3類:
第一類包括475名研究生,占總數(shù)43.5%,該類主要特征包括本科畢業(yè)學(xué)校以普通院校為主,入學(xué)方式以統(tǒng)考生為主,導(dǎo)師類別中博導(dǎo)占19.3%,碩導(dǎo)占80.7%,課程成績優(yōu)良率為81.8%,課程成績中及以下的研究生占比18.2%,在學(xué)期間只有12%的研究生獲得了獎(jiǎng)學(xué)金,在學(xué)期期間38.5%的研究生發(fā)表了二類以上期刊論文,發(fā)表論文情況較一般,論文選題只有37.9%獲得基金項(xiàng)目支持,論文質(zhì)量優(yōu)良率為94.4%,但論文質(zhì)量以良為主,良占87.8%??偟膩碚f,該類研究生在學(xué)期間表現(xiàn)相對(duì)一般。
第二類包括358名研究生,占總數(shù)32.8%,該類主要特征包括本科畢業(yè)學(xué)校以普通院校為主,入學(xué)方式以統(tǒng)考生為主,導(dǎo)師類別中博導(dǎo)占53.6%,碩導(dǎo)占46.4%,課程成績優(yōu)良率為86.8%,課程成績中及以下的研究生占比13.1%,在學(xué)期間有40.1%的研究生獲得了獎(jiǎng)學(xué)金,在學(xué)期期間87.1%的研究生發(fā)表了二類以上期刊論文,發(fā)表論文情況較優(yōu)秀,其中發(fā)表了2篇以上二類期刊或1篇以上一類期刊論文占70.3%,論文選題有87.9%獲得基金項(xiàng)目支持,論文質(zhì)量優(yōu)良率為95%,其中優(yōu)占68.4%??偟膩碚f,該類研究生在學(xué)期間表現(xiàn)較為優(yōu)秀,雖然很多研究生畢業(yè)于普通本科院校,但在讀研期間通過自身努力、導(dǎo)師指導(dǎo)和參與各類科研項(xiàng)目取得了較好的成績。
表1 數(shù)據(jù)聚類分析結(jié)果統(tǒng)計(jì)表
第三類包括258名研究生,占總數(shù)23.6%,該類主要特征包括本科畢業(yè)學(xué)校以重點(diǎn)院校為主,入學(xué)方式以推免生為主,導(dǎo)師類別中博導(dǎo)占46.7%,碩導(dǎo)占53.3%,課程成績優(yōu)良率為93.3%,課程成績中及以下的研究生占比6.6%,在學(xué)期間有76.1%的研究生獲得了獎(jiǎng)學(xué)金,在學(xué)期期間67.9%的研究生發(fā)表了二類以上期刊論文,發(fā)表論文情況較好,發(fā)表了2篇以上二類期刊或1篇一類期刊論文占30.6%,論文選題有59.2%獲得基金項(xiàng)目支持,論文質(zhì)量優(yōu)良率為97.6%,其中優(yōu)占39.6%。總的來說,該類研究生在學(xué)期間在各方面的表現(xiàn)都較為優(yōu)秀,具有較好的綜合素質(zhì)。
根據(jù)聚類分析結(jié)果,可以得出以下結(jié)論及建議:①在學(xué)期間參與科研項(xiàng)目是影響學(xué)位論文質(zhì)量的重要因素,因此,要鼓勵(lì)研究生在學(xué)期間多參與科研項(xiàng)目,同時(shí)學(xué)校在研究生招生指標(biāo)分配時(shí)應(yīng)向有重大科研項(xiàng)目的導(dǎo)師傾斜。②生源質(zhì)量是影響學(xué)位論文質(zhì)量的源頭,學(xué)校應(yīng)加強(qiáng)學(xué)科建設(shè)提高學(xué)校吸引力,加強(qiáng)招生宣傳工作,千方百計(jì)提高生源質(zhì)量。③發(fā)表論文情況和學(xué)位論文質(zhì)量是正相關(guān)的,因此,要鼓勵(lì)研究生在學(xué)期間積極撰寫發(fā)表高質(zhì)量的學(xué)術(shù)論文,為撰寫學(xué)位論文打下堅(jiān)實(shí)的基礎(chǔ),從而提高學(xué)位論文質(zhì)量。④獎(jiǎng)學(xué)金和學(xué)位論文質(zhì)量也是正相關(guān)的,學(xué)校應(yīng)加大對(duì)研究生的獎(jiǎng)助力度,這樣才能不斷調(diào)動(dòng)和激發(fā)研究生的學(xué)習(xí)主動(dòng)性和科研創(chuàng)新能力,從而有效地促進(jìn)學(xué)位論文質(zhì)量的提高。
研究生學(xué)位論文是衡量研究生培養(yǎng)質(zhì)量的重要指標(biāo),學(xué)位論文質(zhì)量受研究生自身因素、導(dǎo)師因素等諸多因素影響,通過對(duì)歷史的研究生學(xué)位論文相關(guān)數(shù)據(jù)進(jìn)行聚類分析,劃分出不同類別的研究生,根據(jù)不同類別的研究生的群體特征,找出影響學(xué)位論文質(zhì)量的主要因素,為學(xué)校提高研究生學(xué)位論文質(zhì)量及研究生培養(yǎng)質(zhì)量提供參考依據(jù)。
[1]高耀,陳洪捷,沈文欽.學(xué)術(shù)型碩士學(xué)位論文質(zhì)量的學(xué)科差異——基于X省學(xué)位論文抽檢結(jié)果的量化分析[J].學(xué)位與研究生教育,2017(2):54-61.
[2]周慶,牟超,楊丹.教育數(shù)據(jù)挖掘研究進(jìn)展綜述[J].軟件學(xué)報(bào),2015(11):3026-3042.
[3]韓家煒.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.3.
[4]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報(bào), 2008(1):48-61.
[5]姜云飛.基于聚類的博士生源選拔方法探析[J].長春大學(xué)學(xué)報(bào),2014(2):238-240.
[6]姚秀穎,李秀兵,陸根書,吳宏春.研究生學(xué)位論文質(zhì)量影響因素研究[J].學(xué)位與研究生教育,2008(1):2-6.
[7]肖華茵,肖新成.碩士學(xué)位論文質(zhì)量的影響因素及其提升路徑研究——基于結(jié)構(gòu)方程模型的實(shí)證分析[J].宜春學(xué)院學(xué)報(bào),2015(10).
G40-057
A
1673-8454(2017)19-0055-03
福州大學(xué)教育管理基金資助項(xiàng)目“數(shù)據(jù)挖掘技術(shù)在研究生培養(yǎng)質(zhì)量評(píng)估中的應(yīng)用”(16SKZ23)。
(編輯:王天鵬)