,
(1.杭州科技職業(yè)技術(shù)學(xué)院信息工程學(xué)院,杭州 311402;2.浙江理工大學(xué)圖書(shū)館,杭州 310018)
基于k-means聚類(lèi)分析的高校論文統(tǒng)計(jì)研究
查香云1,呂國(guó)良2
(1.杭州科技職業(yè)技術(shù)學(xué)院信息工程學(xué)院,杭州 311402;2.浙江理工大學(xué)圖書(shū)館,杭州 310018)
科研論文的質(zhì)量能反映學(xué)者、學(xué)術(shù)機(jī)構(gòu)和學(xué)術(shù)團(tuán)隊(duì)的科研水平。文章選取浙江理工大學(xué)、浙江工業(yè)大學(xué)、浙江師范大學(xué)等十所高校,提取各高校在2012—2016年所有被WOS核心合集中SCI數(shù)據(jù)庫(kù)收錄的論文,采用非監(jiān)督的機(jī)器學(xué)習(xí)k-means算法對(duì)發(fā)文量、去自引被引頻次、去自引施引文獻(xiàn)及發(fā)文量權(quán)值等四個(gè)特征變量進(jìn)行統(tǒng)計(jì)分析。結(jié)果表明:在這十所高校中,浙江工業(yè)大學(xué)和寧波大學(xué)屬于第一等級(jí),浙江理工大學(xué)、浙江師范大學(xué)和杭州師范大學(xué)屬于第二等級(jí),中國(guó)計(jì)量大學(xué)、杭州電子科技大學(xué)、溫州大學(xué)、浙江農(nóng)林大學(xué)和浙江工商大學(xué)屬于第三等級(jí)。文章研究表明,利用k-means方法橫向比較高校科研論文質(zhì)量具有可行性。
k-means;中科院期刊分區(qū);MATLAB;歸一化;去自引被引頻次
科研論文是科研成果的重要表現(xiàn)形式,論文的質(zhì)量很大程度上反映了個(gè)人或機(jī)構(gòu)的科研水平。科研論文的質(zhì)量評(píng)價(jià)指標(biāo),無(wú)疑會(huì)對(duì)科學(xué)研究起到導(dǎo)向性的作用。相比于早期的易受主觀因素影響的同行評(píng)議,目前人們更認(rèn)可能體現(xiàn)客觀性的論文質(zhì)量評(píng)價(jià)指標(biāo)——論文的被引頻次和期刊影響因子。
雖然這兩個(gè)指標(biāo)在學(xué)術(shù)的研究和評(píng)價(jià)中帶來(lái)了相當(dāng)積極的影響,然而,在持續(xù)的文獻(xiàn)計(jì)量的研究中,筆者也發(fā)現(xiàn)了其諸多弊端。第一,不同學(xué)科領(lǐng)域,受人們的關(guān)注的程度不同,會(huì)造成論文的被引頻次的巨大差異,只用論文被引頻次和基于論文被引頻次計(jì)算的期刊影響因子來(lái)表征論文質(zhì)量的優(yōu)劣,不夠全面。在不同的學(xué)科領(lǐng)域,這兩個(gè)指標(biāo)完全沒(méi)有可比性[1]。第二,雖然SCI對(duì)期刊做了學(xué)科的分門(mén)別類(lèi),增加這兩個(gè)指標(biāo)的可比性,但是由于學(xué)科間的滲透融合,期刊的分類(lèi)標(biāo)準(zhǔn)本身也是研究的一個(gè)主題,因此僅從這個(gè)層面來(lái)考量或研究科研論文的質(zhì)量和水平,也顯得困難重重。第三,基本科學(xué)指標(biāo)(essential science indicators,ESI)作為一種衡量科研水平相對(duì)高低的指標(biāo),剛一出現(xiàn),即受到廣泛的關(guān)注和重視,具有很強(qiáng)的導(dǎo)向性作用??墒牵珽SI是在學(xué)科分類(lèi)基礎(chǔ)上,把論文的被引頻次作為唯一指標(biāo)來(lái)衡量論文的質(zhì)量,這缺少合理性。此外,ESI只顯示了達(dá)到基線指標(biāo)的相關(guān)的學(xué)科、機(jī)構(gòu)和論文等的信息,難以從中了解學(xué)術(shù)機(jī)構(gòu)的更詳實(shí)的水平,因此ESI指標(biāo)在科研管理中也缺乏可操作性。在學(xué)術(shù)機(jī)構(gòu)作為基本單位進(jìn)行排序(如ESI的排名)的方法中,鑒于論文的被引頻次作為計(jì)算指標(biāo)的不足,本文采用論文的被引頻次與其在“中科院期刊分區(qū)”(2016年版,以下所稱(chēng)“中科院期刊分區(qū)”即指該版本)中的論文權(quán)重并舉的計(jì)算方法;同時(shí),本文也認(rèn)為,以學(xué)術(shù)機(jī)構(gòu)作為排序的基本單位,其粒度過(guò)細(xì),因此提出了以較粗粒度——學(xué)術(shù)機(jī)構(gòu)的聚類(lèi),作為學(xué)術(shù)機(jī)構(gòu)(本文以高校作為實(shí)證研究對(duì)象)排序的基本單位的方法。粗粒度較之于細(xì)粒度,其排序結(jié)果能夠顯現(xiàn)出較好的魯棒性。
k-means是一種非監(jiān)督機(jī)器學(xué)習(xí)算法,具有易收斂、操作性強(qiáng)的特點(diǎn)。k-means在生產(chǎn)實(shí)踐[2-5]、商務(wù)旅游[6-8]、圖像處理[9-10]和文本分類(lèi)等領(lǐng)域都得到了有效應(yīng)用。朱亮亮[11]把k-means應(yīng)用在數(shù)據(jù)清洗中的人名的消歧,文獻(xiàn)[12-14]研究了利用k-means在圖書(shū)館服務(wù)中實(shí)現(xiàn)文獻(xiàn)自動(dòng)推送。但這些研究,均著眼于單一的具體的研究對(duì)象內(nèi)的數(shù)據(jù)聚類(lèi)分析,未涉及多個(gè)對(duì)象的聚類(lèi)的比較分析。
本文從文獻(xiàn)的四個(gè)特征出發(fā),擯棄單純的使用引文數(shù)量的分析方法,結(jié)合使用“中科院期刊分區(qū)”中論文質(zhì)量的劃分標(biāo)準(zhǔn),實(shí)證研究了k-means算法在多個(gè)研究對(duì)象——十所高校中的聚類(lèi)分析中的應(yīng)用。
本文分析的文獻(xiàn)數(shù)據(jù),來(lái)自WOS(web of science)的核心合集中的SCI數(shù)據(jù)庫(kù)。時(shí)間區(qū)間:2012—2016年;檢索數(shù)據(jù)庫(kù):web of science “core collection”(SCI);檢索字段:organization-enhanced;文獻(xiàn)類(lèi)型:article,review。具體情況如表1所示。
表1 浙江省十所高校論文SCI論文特征值(2012—2016)
注:獲取數(shù)據(jù)的時(shí)間為2017年5月25日。
文獻(xiàn)計(jì)量分析中,論文屬性的選擇和處理是十分關(guān)鍵的一環(huán),本文選擇能反映論文價(jià)值的特征作為文獻(xiàn)計(jì)量的屬性,通過(guò)歸一化等處理方式統(tǒng)一屬性間的量度標(biāo)準(zhǔn)。本文所述論文抽取的特征屬性如表2所示,具體表述如下:
a)屬性a:“發(fā)文量”,即論文數(shù)量,是高校的科研規(guī)模和科研產(chǎn)出能力的表征;
b)屬性b:“去自引被引頻次”,顯示了論文所承載的學(xué)術(shù)成果被他人所認(rèn)可的程度;
c)屬性c:“去自引施引文獻(xiàn)”,一定程度上反映了學(xué)術(shù)成果的影響面;
d)屬性d:“發(fā)文量權(quán)值”,依據(jù)中科院期刊分區(qū)原則賦予論文權(quán)重計(jì)算所得的論文的權(quán)值。
表2 文獻(xiàn)屬性一覽
依據(jù)“中科院期刊分區(qū)”,本文把SCI期刊分為一區(qū)、二區(qū)、三區(qū)、四區(qū)及未收錄五個(gè)類(lèi)別。
“中科院期刊分區(qū)”的分區(qū)原則:將SCI期刊分為13個(gè)大類(lèi)學(xué)科,在每個(gè)大類(lèi)學(xué)科內(nèi),所有期刊按照學(xué)術(shù)影響力(3年平均IF)由高到低降序排列;依據(jù)該期刊排序,將期刊劃分為一區(qū)、二區(qū)、三區(qū)和四區(qū)四個(gè)等級(jí)?!爸锌圃浩诳謪^(qū)”的一區(qū)到四區(qū)的期刊數(shù)量不等,呈金字塔狀分布。在大類(lèi)學(xué)科中,取前5%(含5%)為一區(qū)、5%~20%(含20%)為二區(qū)、20%~50%(含50%)為三區(qū),50%~100%(含100%)為四區(qū)[15-16]。不論領(lǐng)域,只要論文發(fā)表的刊物在同一個(gè)分區(qū),就可以認(rèn)為這些論文的質(zhì)量是相當(dāng)?shù)腫17]。依據(jù)這一原則,賦予每個(gè)分區(qū)的期刊論文的權(quán)重?!爸锌圃浩诳謪^(qū)”論文的權(quán)重分配見(jiàn)表3。特別說(shuō)明,表3中的“未收錄”,是指未被“中科院期刊分區(qū)”收錄的SCI期刊。由于這些期刊畢竟也屬于WOS中的SCI期刊,所以本文賦予了較小的權(quán)重“0.5”。
表3 期刊分區(qū)論文的權(quán)重分配表
發(fā)文量權(quán)值計(jì)算公式:
Δ=∑μk*λk
(1)
其中:Δ表示發(fā)文量權(quán)值;k表示“中科院期刊分區(qū)”的五個(gè)類(lèi)別,即一區(qū)、二區(qū)、三區(qū)、四區(qū)和未收錄;μk表示分區(qū)類(lèi)別k的文獻(xiàn)量;λk表示分區(qū)類(lèi)別k的權(quán)重。
根據(jù)“中科院期刊分區(qū)”統(tǒng)計(jì)各高校論文在期刊分區(qū)上的分布,并依據(jù)式(1)計(jì)算發(fā)文量權(quán)值,結(jié)果見(jiàn)表4。
表4續(xù)
序號(hào)高校名稱(chēng)一區(qū)/篇二區(qū)/篇三區(qū)/篇四區(qū)/篇未收錄/篇總計(jì)/篇發(fā)文量權(quán)值5溫州大學(xué)1254465575816317726456.506浙江農(nóng)林大學(xué)903314576413815575029.007浙江工商大學(xué)1243843475673614585679.008浙江師范大學(xué)236756871974116295311274.009浙江理工大學(xué)1795737818754524538904.5010浙江工業(yè)大學(xué)342116713631913118490317373.00
對(duì)表1和表4作了匯總,結(jié)果見(jiàn)表5。
表5 四個(gè)特征屬性值匯總
為避免特征屬性的不同量綱對(duì)k-means的結(jié)果的影響,對(duì)四個(gè)特征屬性的值進(jìn)行線性歸一化處理。歸一化映射公式如下:
(2)
其中:ai為一組數(shù)據(jù)集中的第i個(gè)值;min(ai)為該數(shù)據(jù)集的最小值,max(ai)為該數(shù)據(jù)集的最大值;ai′為第i個(gè)數(shù)據(jù)的歸一化處理后的值。
本文采用歐氏距離來(lái)計(jì)算元素之間的相似度。兩個(gè)元素的歐氏距離值越小,兩者相似度越高。距離值越大,則相異度越高。
設(shè)有兩元素X和Y,其都具有n個(gè)屬性,則X、Y之間的歐氏距離D(X,Y)表示為:
(3)
k-means算法,是指含有n個(gè)元素的集合D,D={X1,X2,X3,…,Xn},每個(gè)有可觀察屬性有m個(gè),即X1有屬性{X11,X12,X13,…,X1m},X2有屬性{X21,X22,X23,…,X2m},…,Xn有屬性{Xn1,Xn2,Xn3,…,Xnm}。假定要把這n個(gè)對(duì)象分成k個(gè)子集,即k個(gè)簇(k 依據(jù)表5中的四個(gè)特征屬性作為可觀察屬性的項(xiàng),計(jì)算歐氏距離。設(shè)定把10所高校分為三個(gè)層次,則在k-means聚類(lèi)中,取k=3。 k-means算法的終止條件可以是以下中的任何一個(gè): a)沒(méi)有數(shù)據(jù)對(duì)象被重新分配到不同的聚類(lèi); b)聚類(lèi)中心收斂; c)誤差平方和局部最小。 根據(jù)式(2),在MATLAB軟件下運(yùn)行程序,結(jié)合表5,輸出的歸一化值如表6所示。 表6 四個(gè)特征屬性歸一化值 根據(jù)式(3)和表6,在MATLAB運(yùn)行k-means程序,輸出的結(jié)果為表征各個(gè)簇(即聚類(lèi))的代碼。同一個(gè)簇,其代碼數(shù)字是相同的。對(duì)應(yīng)表6高校名稱(chēng)的排列順序,程序運(yùn)算結(jié)果見(jiàn)表7。表7中的簇代碼,不表示大小或順序,數(shù)字相同的數(shù)據(jù)對(duì)象位于同一個(gè)簇。 表7 簇代碼與高校對(duì)應(yīng)表 顯見(jiàn),三個(gè)簇的對(duì)象分別是:簇1:浙江工業(yè)大學(xué)和寧波大學(xué);簇2:浙江理工大學(xué)、浙江師范大學(xué)和杭州師范大學(xué);簇3:中國(guó)計(jì)量大學(xué)、杭州電子科技大學(xué)、溫州大學(xué)、浙江農(nóng)林大學(xué)和浙江工商大學(xué)。 綜合分析表明,所統(tǒng)計(jì)的這四個(gè)指標(biāo)屬性中,浙江工業(yè)大學(xué)在10所高校中都處于榜首位置,無(wú)疑是這10所高校的領(lǐng)軍者。寧波大學(xué)以四項(xiàng)相對(duì)比較均衡的指標(biāo)值顯示出其較強(qiáng)的科研能力,k-means算法聚類(lèi)結(jié)果顯示,它與浙江工業(yè)大學(xué)位居同一層次。 a)文獻(xiàn)發(fā)文量顯示了該統(tǒng)計(jì)區(qū)間(2012—2016年)高校的科研成果的產(chǎn)出。科學(xué)研究是需要投入的,科研投入與產(chǎn)出一般是正相關(guān)關(guān)系,因此文獻(xiàn)的發(fā)文量與該高校獲得科研經(jīng)費(fèi)的能力相關(guān),這也是一種科研能力的體現(xiàn)。本文中,浙江工業(yè)大學(xué)以總量4903、占比18.31%占居首位;其次為寧波大學(xué),總量4335,占比16.19%。杭州師范大學(xué)、浙江師范大學(xué)和浙江理工大學(xué)緊隨其后。 b)文獻(xiàn)數(shù)量只是評(píng)價(jià)科研能力的一個(gè)指標(biāo),科研能力還體現(xiàn)在文獻(xiàn)的質(zhì)量、學(xué)術(shù)影響的深度和廣度上面。WOS平臺(tái)為我們提供了現(xiàn)成的影響力指標(biāo)——文獻(xiàn)被引頻次和文獻(xiàn)的施引文獻(xiàn)。本文選擇更具有客觀性的“去自引被引頻次”和“去自引施引文獻(xiàn)”兩種指標(biāo)。去自引被引頻次,是文獻(xiàn)被他人關(guān)注和認(rèn)可的客觀反映。去自引被引頻次越高,表明文獻(xiàn)所承載的研究成果越被他人所推崇和認(rèn)可,影響也就越是深遠(yuǎn);施引文獻(xiàn)是被引文獻(xiàn)的知識(shí)的發(fā)展面,揭示了知識(shí)流動(dòng)的方向,也即原始文獻(xiàn)所承載的研究成果的影響廣度。表1顯示,浙江工業(yè)大學(xué)以去自引被引頻次25217次,去自引施引文獻(xiàn)21141篇,獨(dú)占鰲頭,杭州師范大學(xué)則分別以22905次和18796篇位居其二。 c)根據(jù)“中科院期刊分區(qū)”加權(quán)獲得的發(fā)文量權(quán)值反映了論文的整體質(zhì)量,發(fā)文量權(quán)值越大,論文的總體質(zhì)量越高。從表4可以看出,浙江工業(yè)大學(xué)、寧波大學(xué)和杭州師范大學(xué)位列三甲。 在高校內(nèi)部的科研管理中,使用該方法統(tǒng)計(jì)分析各學(xué)科、各學(xué)術(shù)團(tuán)隊(duì)或各學(xué)術(shù)機(jī)構(gòu)如研究所和學(xué)院的科研論文,利用k-means對(duì)他們的學(xué)術(shù)發(fā)展水平做一個(gè)統(tǒng)一的聚類(lèi)分析和評(píng)估,簡(jiǎn)單方便,操作性強(qiáng)。本文中的不足之處在于:a)本文只統(tǒng)計(jì)了SCI的論文,其聚類(lèi)排名只限于在理工科方面的學(xué)術(shù)水平的展現(xiàn);b)未考慮作者在具體的論文中的排名,而致在合作發(fā)表的論文中對(duì)各高校的學(xué)術(shù)貢獻(xiàn)程度的揭示不夠充分。 [1] 丁佐奇,鄭曉南.期刊影響因子、論文被引證次數(shù)與學(xué)術(shù)質(zhì)量評(píng)價(jià)的矛盾分析[J].中國(guó)科技期刊研究,2009(2):286-288. [2] 邊振興,楊子?jì)?,錢(qián)鳳魁,等.基于LESA體系的高標(biāo)準(zhǔn)基本農(nóng)田建設(shè)時(shí)序研究[J].自然資源學(xué)報(bào),2016(3):436-446. [3] 劉艷秋,武佩,張麗娜,等.母羊產(chǎn)前行為特征分析與識(shí)別:基于可穿戴檢測(cè)裝置構(gòu)架[J].農(nóng)機(jī)化研究,2017(9):163-168. [4] 常亮,郭垚嘉,賈炯,等.利用聚類(lèi)算法分析河北省地震分布狀況[J].高原地震,2017(2):12-16. [5] 劉仕兵,葛俊祥.基于K-means聚類(lèi)法的牽引供電隔離開(kāi)關(guān)故障狀態(tài)監(jiān)測(cè)[J].華東交通大學(xué)學(xué)報(bào),2017(3):109-117. [6] 陳鋼華,黃遠(yuǎn)水.旅游者重游決策的影響因素實(shí)證研究:基于網(wǎng)絡(luò)調(diào)查[J].旅游學(xué)刊,2008(11):69-74. [7] 陳曉艷,黃震方,胡小海,等.事件旅游城市居民分類(lèi)及影響因素研究:以常州花博會(huì)為例[J].南京師大學(xué)報(bào)(自然科學(xué)版),2016(1):108-116. [8] 叢麗,吳必虎,張玉鈞,等.野生動(dòng)物旅游場(chǎng)所涉入實(shí)證分析:以澳大利亞班布里海豚探索中心為例[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(4):1-6. [9] 蔡志華.基于K均值聚類(lèi)的彩色圖像快速分割方法[J].計(jì)算機(jī)與數(shù)字工程,2013(8):1328-1330. [10] 李文博,強(qiáng)少衛(wèi).基于BMP位圖的簇絨機(jī)花型圖像處理技術(shù)初探[J].紡織科技進(jìn)展,2017(6):9-11. [11] 朱亮亮.利用改進(jìn)的K-means算法實(shí)現(xiàn)文獻(xiàn)著者人名消歧[J].軟件導(dǎo)刊,2013(5):63-66. [12] 常盛.k-means聚類(lèi)算法在提高圖書(shū)館數(shù)字文獻(xiàn)服務(wù)效能中的應(yīng)用[J].電子技術(shù)與軟件工程,2016(23):163-164. [13] 吉雍慧.數(shù)字圖書(shū)館中的檢索結(jié)果聚類(lèi)和關(guān)聯(lián)推薦研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2008(2):69-75. [14] 張宏,王新玲,張麗.基于讀者文獻(xiàn)推送需求分析的醫(yī)院圖書(shū)館精準(zhǔn)服務(wù)實(shí)踐[J].中華醫(yī)學(xué)圖書(shū)情報(bào)雜志,2016(4):74-77. [15] 中科院網(wǎng)站.JCR期刊分區(qū)數(shù)據(jù)在線平臺(tái)[EB/OL].(2016-10-15)[2017-06-15]. http://www.fenqubiao.com. [16] 劉芳,朱沙.學(xué)術(shù)期刊主要評(píng)價(jià)體系差異性研究[J].高等教育研究學(xué)報(bào),2015(1):33-38. [17] 李秋實(shí),劉紅玉.基于文獻(xiàn)計(jì)量的期刊分區(qū)與論文學(xué)術(shù)評(píng)價(jià)量化實(shí)證研究[J].圖書(shū)館工作與研究,2015(4):60-66. StatisticalResearchofUniversityPapersBasedonK-meansClusterAnalysis ZHAXiangyun1,LüGuoliang2 (1.School of Info Engineering, Hangzhou Polytechnic, Hangzhou 311402, China; 2.Library, Zhejiang Sci-Tech University, Hangzhou 310018, China) The quality of research papers can reflect scientific research level of scholars, academic institutions and academic team. Ten universities such as Zhejiang Sci-Tech University, Zhejiang University of Technology and Zhejiang Normal University were chosen, and their articles’ data downloaded from SCI database of “core collection” in WOS(Web of Science, WOS) during five years(2012—2016) were extracted in this paper.K-means, an unsupervised algorithm, was employed for statistical analysis of four characteristic variables including quantity of publications, citation frequency without self-citation, citing articles without self-citation and weight of publications. The results showed that among these ten universities, Zhejiang University of Technology and Ningbo University are clustered to the first level; Zhejiang Sci-Tech University, Zhejiang Normal University and Hangzhou Normal University fall into the 2ndlevel and the other five universities (China Jiliang University, Hangzhou Dianzi University, Wenzhou University, Zhejiang A & F University and Zhejiang Gongshang University) belong to the 3rdlevel. The study showed that it is feasible to applyk-means for horizontal comparison of the quality of universality papers. k-means; CAS Journal Section; MATLAB; normalization; citation frequency without self-citation TP311 A 1673- 3851 (2017) 05- 0478- 05 (責(zé)任編輯任中峰) 10.3969/j.issn.1673-3851.2017.10.015 2017-06-21 網(wǎng)絡(luò)出版日期: 2017-09-27 查香云(1972-),女,安徽安慶人,講師,本科,主要從事信息安全、多媒體等方面的研究。 呂國(guó)良,E-mail:lvgl@zstu.edu.cn三、結(jié) 語(yǔ)