劉占波,王立偉,王曉麗
(牡丹江醫(yī)學(xué)院,黑龍江牡丹江,157011)
大數(shù)據(jù)環(huán)境下基于數(shù)據(jù)挖掘技術(shù)的高校科研管理系統(tǒng)的設(shè)計
劉占波,王立偉,王曉麗
(牡丹江醫(yī)學(xué)院,黑龍江牡丹江,157011)
本文簡要分析了目前高??蒲泄芾憩F(xiàn)狀;介紹了大數(shù)據(jù)與數(shù)據(jù)挖掘技術(shù);給出了大數(shù)據(jù)環(huán)境下高??蒲泄芾硐到y(tǒng)的設(shè)計方案。
科研管理;大數(shù)據(jù);數(shù)據(jù)挖掘
近年來,大數(shù)據(jù)技術(shù)引起了科技界、產(chǎn)業(yè)界和政府部門的高度關(guān)注。Nature和Science 等國際頂級學(xué)術(shù)刊物相繼出版??瘉硖接憣Υ髷?shù)據(jù)的研究,大數(shù)據(jù)的開發(fā)與利用已經(jīng)在教育、科研和醫(yī)療等行業(yè)中展開。
隨著數(shù)據(jù)量的與日俱增, 科研管理數(shù)據(jù)庫中蘊(yùn)藏著大量的信息資源,需要有更先進(jìn)的技術(shù)對海量數(shù)據(jù)進(jìn)行挖掘以發(fā)揮科研數(shù)據(jù)潛能,從中迅速提取出有價值的信息以指導(dǎo)和輔助科研管理。因此,有必要在科研管理中引入數(shù)據(jù)挖掘技術(shù),以提高科研管理的水平和能力。
隨著高校信息化建設(shè)的不斷推進(jìn), 高校內(nèi)部運(yùn)行著的各種系統(tǒng)和各類數(shù)據(jù)庫,如教務(wù)系統(tǒng)、學(xué)工系統(tǒng)、人事系統(tǒng)及科研管理系統(tǒng)等。而各個系統(tǒng)間各自為政,數(shù)據(jù)共享性差,存在嚴(yán)重的信息孤島。而科研管理系統(tǒng)通常又包括項目管理系統(tǒng)、經(jīng)費(fèi)管理系統(tǒng)和成果管理系統(tǒng)等多個子系統(tǒng),各子系統(tǒng)數(shù)據(jù)獨(dú)立存儲,無關(guān)聯(lián)性,嚴(yán)重影響了科研數(shù)據(jù)的挖掘利用。在功能上,科研管理系統(tǒng)主要集中在數(shù)據(jù)的收集、查詢、管理、導(dǎo)出、打印等單一功能。隨著數(shù)據(jù)容量的與日俱增,系統(tǒng)對海量數(shù)據(jù)的分析統(tǒng)計功能簡單、缺少對數(shù)據(jù)的關(guān)聯(lián)分析、挖掘利用與決策支持等功能。目前的高??蒲泄芾碓谝欢ǔ潭壬蠝笥诳蒲斜旧淼陌l(fā)展或阻礙著高??蒲械陌l(fā)展。
所謂大數(shù)據(jù),就是用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合。大數(shù)據(jù)的特征,通常用四個V開頭的關(guān)鍵詞來描述,一是Volume(容量),也就是數(shù)據(jù)體量大;二是Variety(多樣性),即數(shù)據(jù)類型繁多;三是Velocity(速度),數(shù)據(jù)產(chǎn)生和更新的頻率快;四是Value(價值),數(shù)據(jù)價值密度低,即海量的數(shù)據(jù)可能包含極少量的有價值的信息。所以,如何高效提取這些有價值的信息是關(guān)鍵。大數(shù)據(jù)技術(shù)是網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的有效結(jié)合,是解決數(shù)據(jù)豐富而知識貧乏的有效途徑,其實質(zhì)是從數(shù)據(jù)中提取隱含的、未知的和潛在有用信息的過程,被公認(rèn)為是數(shù)據(jù)庫研究中的一個極富應(yīng)用前景的新領(lǐng)域。
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)掘有趣模式和知識的過程,數(shù)據(jù)源包括數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其它信息存儲庫或動態(tài)地流入系統(tǒng)的數(shù)據(jù)。目前,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘已成為學(xué)術(shù)研究、商業(yè)應(yīng)用以及行政管理的熱點(diǎn)。數(shù)據(jù)挖掘技術(shù)在國內(nèi)外大型商業(yè)、金融、工業(yè)、郵電和科研等部門得到廣泛應(yīng)用。在科研管理中引入數(shù)據(jù)挖掘技術(shù),是解決科研數(shù)據(jù)豐富而知識貧乏的有效途徑,可為高??蒲泄芾硖峁Q策支持。
4.1數(shù)據(jù)標(biāo)準(zhǔn)化
近年來,高??蒲惺聵I(yè)快速健康發(fā)展,科研及相關(guān)數(shù)據(jù)容量越來越大,蘊(yùn)含的信息越來越多,數(shù)據(jù)挖掘技術(shù)的有效利用將成為高??蒲邪l(fā)展的關(guān)鍵因素。為了更好的實施數(shù)據(jù)挖掘技術(shù),必需對科研數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理和相關(guān)關(guān)聯(lián)參數(shù)的設(shè)置。比如:科研項目的項目名稱、立項時間、項目起止時間、經(jīng)費(fèi)和關(guān)鍵詞等。標(biāo)準(zhǔn)化數(shù)據(jù)將有利于科研數(shù)據(jù)的收集、比對、整理、分析及數(shù)據(jù)挖掘技術(shù)的有效應(yīng)用。
4.2系統(tǒng)的主要功能高??蒲泄芾硐到y(tǒng)主要劃分成如下模塊:項目申報模塊、項目管理模塊、成果管理模塊、成果獲獎模塊、學(xué)術(shù)交流模塊、數(shù)據(jù)挖掘模塊和系統(tǒng)管理模塊等。項目申報模塊:實現(xiàn)校內(nèi)科研項目的申報、審核、評審、立項等功能。項目管理模塊:實現(xiàn)科研項目信息的錄入、查詢、管理(項目的暫停、中止與結(jié)題等)、數(shù)據(jù)分析與統(tǒng)計和科研經(jīng)費(fèi)管理等功能。其中科研經(jīng)費(fèi)管理包括科研經(jīng)費(fèi)的進(jìn)帳、提取、支出與結(jié)轉(zhuǎn)四個方面。成果管理模塊:科研成果是高校從事科研活動的主要結(jié)果,能夠反映高校的整體科研水平。該模塊主要功能是實現(xiàn)著作、論文、專利與鑒定成果等信息的錄入、查詢、管理與數(shù)據(jù)分析等。成果獲獎模塊:主要功能是記錄成果報獎信息與成果的獲獎信息,并對相關(guān)信息進(jìn)查詢、管理、統(tǒng)計與分析等。學(xué)術(shù)交流模塊:該模塊涉及到學(xué)術(shù)會議(舉辦/參加)、受聘講學(xué)(派遣/接受)、訪問考察(派遣/接受)、進(jìn)修學(xué)習(xí)(派遣/接受)四個方面。數(shù)據(jù)挖掘模塊:對科研數(shù)據(jù)進(jìn)行不同維度的數(shù)據(jù)挖掘,為科研管理提供決策支持。系統(tǒng)管理模塊:為系統(tǒng)管理員及部門、科室管理員提供實時監(jiān)控系統(tǒng)運(yùn)行的狀態(tài),包括系統(tǒng)相關(guān)參數(shù)、開關(guān)、用戶權(quán)限的設(shè)置及系統(tǒng)基本信息、用戶數(shù)據(jù)、系統(tǒng)日志及數(shù)據(jù)庫的管理與維護(hù)等功能。
4.3關(guān)鍵技術(shù)
系統(tǒng)采用基于Microsoft .NET技術(shù)的B/S(瀏覽器/服務(wù)器)模式運(yùn)行,用戶通過瀏覽器就可以實現(xiàn)科研數(shù)據(jù)的管理與維護(hù);系統(tǒng)前臺web頁面采用Microsoft Visual Studio 2010開發(fā)環(huán)境進(jìn)行設(shè)計與制作;系統(tǒng)后臺科研與成果數(shù)據(jù)庫采用Microsoft SQL Server 2008進(jìn)行數(shù)據(jù)庫設(shè)計與數(shù)據(jù)的存儲。系統(tǒng)通過數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進(jìn)行分析、整理,最終形成數(shù)據(jù)分析報告。
4.4數(shù)據(jù)挖掘算法
系統(tǒng)擬采用的數(shù)據(jù)挖掘算法包括:(1)Apriori算法,是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則的算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。(2)C4.5算法,是機(jī)器學(xué)習(xí)算法中的一種分類決策樹算法,機(jī)器學(xué)習(xí)中,決策樹是一個預(yù)測模型;它代表的是對象屬性與對象值之間的一種映射關(guān)系。(3)貝葉斯分類的基礎(chǔ)是概率推理,就是在各種條件的存在不確定,僅知其出現(xiàn)概率的情況下,如何完成推理和決策任務(wù)。通過上述數(shù)據(jù)挖掘算法實現(xiàn)對科研數(shù)據(jù)關(guān)聯(lián)性的分析及數(shù)據(jù)的深度挖掘,并對高??蒲泄芾砉ぷ魈峁Q策支持。
本系統(tǒng)除實現(xiàn)科研管理的基本功能之外,主要實現(xiàn)從不同角度,依據(jù)不同參數(shù)對科研數(shù)據(jù)的關(guān)聯(lián)性等方面的研究。并使用不同的數(shù)據(jù)挖掘算法對科研數(shù)據(jù)進(jìn)行分析與數(shù)據(jù)挖掘,為高校的科研管理提供決策支持,解決信息孤島等問題。
[1]許哲軍,大數(shù)據(jù)環(huán)境下的高校科研管理信息化探索[J]. 技術(shù)與創(chuàng)新管理,2014,2(35):112-114.
[2]郭卜銘,高??蒲泄芾碇械臄?shù)據(jù)挖掘技術(shù)及應(yīng)用[J].科技與產(chǎn)業(yè),2007,6(7):38-40.
[3]王鳴,科研管理信息系統(tǒng)的數(shù)據(jù)挖掘應(yīng)用探討[J].瓊州學(xué)院學(xué)報,2014,2(20):152-153.
[4]郭卜銘,高??蒲泄芾碇械臄?shù)據(jù)挖掘技術(shù)及應(yīng)用[J].科技與產(chǎn)業(yè),2007,6(7):38-41.
[5]查東輝,數(shù)據(jù)挖掘在高校教務(wù)及科研管理中的應(yīng)用[J].科技管理研究,2009,4:109-110.
[6]徐守軍,數(shù)據(jù)挖掘技術(shù)在科研管理中應(yīng)用前景初探[J].中學(xué)醫(yī)學(xué)科研管理雜志,2005,4(18),214-216.
Design of Scientific Research Management System Based on Data Mining Under Big Data Environment
Liu Zhanbo, Wang Liwei, Wang Xiaoli
(Mudanjiang Medical University, Mudanjiang, 157011)
This paper briefly analyzes the present situation of scientific research management in universities, introduces the big data and data mining technology, and presents the design scheme of university scientific research management system under the environment of big data.
Scientific research management; Big data; Data mining
牡丹江市科學(xué)技術(shù)計劃項目(Z2015g0001);黑龍江省學(xué)位與研究生教育教學(xué)改革研究項目(JGXM_HLJ_2015136);牡丹江醫(yī)學(xué)院科學(xué)技術(shù)研究項目(ZS201503)。