,
國家層面從高等教育發(fā)展的戰(zhàn)略高度認(rèn)為,現(xiàn)代大學(xué)的功能已拓展到人才培養(yǎng)、科學(xué)研究、社會服務(wù)和文化傳承創(chuàng)新4個方面。落實(shí)好提高質(zhì)量的戰(zhàn)略任務(wù),必須以人才培養(yǎng)為核心,四大功能有機(jī)互動、相互支撐,為內(nèi)涵式發(fā)展打開更大空間。要加強(qiáng)科學(xué)研究,推進(jìn)協(xié)同創(chuàng)新[1]。
美國伯頓·克拉克在《高等教育新論》中認(rèn)為,學(xué)科包括兩種涵義:一是作為一門知識的“學(xué)科”,二是圍繞這些“學(xué)科”而建立起來的組織。雖然學(xué)者對學(xué)科的論述有所不同,但在本質(zhì)上是一致的?!敖虒W(xué)的科目”“學(xué)問的分支”“學(xué)界或?qū)W術(shù)的組織”是學(xué)科的3個基本內(nèi)涵,只是在不同的場合和時間體現(xiàn)不同的內(nèi)涵而已[2]。從學(xué)科的定義與內(nèi)涵可以看出,學(xué)科是大學(xué)的基本組成單位,包括大學(xué)的知識與知識組織,因此高校學(xué)科的質(zhì)量決定了高校的質(zhì)量,學(xué)科的好壞直接影響了高校四大功能的發(fā)揮,學(xué)科的工作也是學(xué)校所有部門的工作。為了提高學(xué)科的質(zhì)量,高校必須大力進(jìn)行學(xué)科建設(shè)。
目前,高校的信息化工作進(jìn)展迅速,學(xué)校范圍內(nèi)有辦公系統(tǒng)、一卡通系統(tǒng)等,各個部門有自己的數(shù)據(jù)庫平臺,信息化覆蓋了很多部門的主要業(yè)務(wù)流程。例如,首都醫(yī)科大學(xué)的研究生院有導(dǎo)師數(shù)據(jù)庫和碩士博士數(shù)據(jù)庫,人事處有職稱數(shù)據(jù)庫,教務(wù)處有教學(xué)管理系統(tǒng)、教務(wù)管理系統(tǒng),科研處有科研項目數(shù)據(jù)庫,圖書館有學(xué)位論文數(shù)據(jù)庫、數(shù)據(jù)庫出版商的數(shù)據(jù)庫等,但是各個數(shù)據(jù)庫之間沒有關(guān)聯(lián),數(shù)據(jù)格式不一致,未能實(shí)現(xiàn)充分的數(shù)據(jù)共享。當(dāng)學(xué)校的管理者為了決策的需要,利用學(xué)科建設(shè)的相關(guān)數(shù)據(jù)時,臨時從各個部門收集數(shù)據(jù),需要大量的人力來收集和整理數(shù)據(jù),過程繁瑣,數(shù)據(jù)的準(zhǔn)確性不夠高。在此基礎(chǔ)上,把各個部門的學(xué)科建設(shè)數(shù)據(jù)信息收集整理到一個信息平臺的工作是很重要且關(guān)鍵的。國內(nèi)許多高校都認(rèn)識到該項任務(wù)的重要性,進(jìn)行了相關(guān)的研究,如上海財經(jīng)大學(xué)的學(xué)科信息平臺[3]、北京市學(xué)位辦委托北京工業(yè)大學(xué)搭建的“北京市重點(diǎn)學(xué)科信息平臺”等[4]。雖然教育部的學(xué)科評估有建設(shè)學(xué)科系統(tǒng)和平臺的要求,但是各個學(xué)校如何從各個學(xué)院、學(xué)系、附屬醫(yī)院收集學(xué)科信息,并進(jìn)行全面地分析和數(shù)據(jù)挖掘等,尚沒有長期有效的推動機(jī)制,也缺乏長期的數(shù)據(jù)采集與維護(hù)機(jī)制。有些學(xué)科信息平臺建設(shè)的目的只是為了迎合教育部學(xué)科評估,當(dāng)學(xué)科評估結(jié)束后,沒有人繼續(xù)維護(hù)這些平臺。
學(xué)科建設(shè)數(shù)據(jù)信息平臺是為制定學(xué)校的學(xué)科建設(shè)政策服務(wù),為高校的學(xué)科建設(shè)發(fā)展指明方向,為學(xué)科建設(shè)的活動提供指南,為學(xué)科資源的配置提供指導(dǎo)。因此,高校學(xué)科建設(shè)數(shù)據(jù)信息平臺的研究目標(biāo)是通過綜合利用多學(xué)科的知識和方法,確定高校學(xué)科建設(shè)數(shù)據(jù)信息平臺的框架,制定收集、保存、集成、評價、分析學(xué)科建設(shè)數(shù)據(jù)的政策與方案,進(jìn)行可行性論證后嚴(yán)密執(zhí)行學(xué)科建設(shè)數(shù)據(jù)政策的各項程序,對這些政策系統(tǒng)進(jìn)行評價后總結(jié)反饋,最終對這些政策進(jìn)行改進(jìn)。
為了學(xué)科評價的全面性和準(zhǔn)確性,在收集之前必須確立學(xué)科建設(shè)數(shù)據(jù)收集的范圍。專家認(rèn)為,學(xué)科由學(xué)者、知識、資料和場所4個要素構(gòu)成。學(xué)者是學(xué)科組織的主體,知識是學(xué)者活動的對象,資料是學(xué)者進(jìn)行學(xué)術(shù)活動的物質(zhì)基礎(chǔ),場所是學(xué)者開展學(xué)術(shù)活動的空間[5]。在此基礎(chǔ)上,得到學(xué)科建設(shè)的基本要素是學(xué)科方向、學(xué)科梯隊、研究基地、科學(xué)研究、學(xué)術(shù)環(huán)境、人才培養(yǎng)等[6],因此數(shù)據(jù)收集主要圍繞這幾方面進(jìn)行全面收集,具體數(shù)據(jù)的范圍見圖1。
圖1 高校學(xué)科建設(shè)與數(shù)據(jù)范圍
從圖1可以看出,學(xué)科建設(shè)的數(shù)據(jù)范圍非常廣,有各學(xué)院的學(xué)科簡介與社會服務(wù)的文字介紹,有人事處的專任教師與骨干教師、科研團(tuán)隊的數(shù)據(jù),有科技處的支撐平臺、轉(zhuǎn)化或應(yīng)用的發(fā)明專利、科研獲獎數(shù)據(jù),研究生院的學(xué)生國際交流、優(yōu)秀畢業(yè)生、在校生等數(shù)據(jù),教務(wù)處的教學(xué)成果、精品課程數(shù)據(jù),圖書館的ESI高被引論文數(shù)據(jù)等。這些部門已經(jīng)有相關(guān)數(shù)據(jù)庫,因此,數(shù)據(jù)可以直接從這些部門的數(shù)據(jù)庫采集,沒有的數(shù)據(jù)要通過相關(guān)的負(fù)責(zé)人來收集。其中,學(xué)術(shù)環(huán)境-科研人員的研究數(shù)據(jù)是一類特殊的數(shù)據(jù)??蒲袛?shù)據(jù)(Research Data)是指數(shù)字形式的研究數(shù)據(jù),包括在研究過程中產(chǎn)生的能存貯在計算機(jī)的任何數(shù)據(jù),也包括能轉(zhuǎn)換成數(shù)字形式的非數(shù)字形式數(shù)據(jù)[7]。目前,國內(nèi)外科研管理者越來越關(guān)注科研數(shù)據(jù),相繼成立了科研數(shù)據(jù)管理聯(lián)盟,出臺了一些科研數(shù)據(jù)管理的政策。要收集全學(xué)科建設(shè)的數(shù)據(jù),也必須把科研人員的研究數(shù)據(jù)包括進(jìn)來??蒲袛?shù)據(jù)只能來自從事研究的科研人員,因此這一類的數(shù)據(jù)要單獨(dú)收集與管理。醫(yī)學(xué)高校的學(xué)科數(shù)據(jù)里包括很多醫(yī)學(xué)和生物醫(yī)學(xué)實(shí)驗(yàn)性的數(shù)據(jù),必須通過專門的設(shè)計來收集齊這些研究數(shù)據(jù)。
一般高校學(xué)科建設(shè)的主要責(zé)任部門是研究生院,他們進(jìn)行學(xué)科建設(shè)的方式是落實(shí)到研究生教育體系中,通過加強(qiáng)研究生教育的各個方面來提高學(xué)科水平。鑒于學(xué)科建設(shè)要落實(shí)到研究生教育體系工作范圍,高校填報教育部學(xué)科評估系統(tǒng)時都是按照教育部的學(xué)科分類,所以高校學(xué)科建設(shè)數(shù)據(jù)的分類按照國務(wù)院學(xué)位委員會、教育部頒布的《學(xué)位授予和人才培養(yǎng)學(xué)科目錄(2011年)》分類體系中的一級學(xué)科、二級學(xué)科來收集、存儲和整理。學(xué)??梢愿鶕?jù)自己學(xué)科的情況,選取其中的學(xué)科類別。
“商業(yè)智能”這一術(shù)語是1989年由Gartner Group的Howard Dresner首次提出,它描述了一系列的概念和方法,通過應(yīng)用基于事實(shí)的支持系統(tǒng)來輔助商業(yè)決策的制定。商業(yè)智能系統(tǒng)可以說是一個智能決策支持系統(tǒng),它以數(shù)據(jù)倉庫為基礎(chǔ),通過聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘技術(shù)幫助領(lǐng)導(dǎo)者針對多變的環(huán)境,做出快速、準(zhǔn)確的決策。它的核心技術(shù)有數(shù)據(jù)倉庫技術(shù)、數(shù)據(jù)挖掘技術(shù)和聯(lián)機(jī)分析處理(簡稱OLAP)[8]。
由于醫(yī)學(xué)教育有自己的特點(diǎn),與其他高校相比,醫(yī)學(xué)高校有自己獨(dú)特的結(jié)構(gòu)與特征。例如有附屬醫(yī)院和教學(xué)醫(yī)院,學(xué)科建設(shè)也與醫(yī)院密切相關(guān),收集學(xué)科數(shù)據(jù)時必須把附屬醫(yī)院和教學(xué)醫(yī)院的數(shù)據(jù)收集齊全。創(chuàng)建醫(yī)學(xué)高校學(xué)科建設(shè)數(shù)據(jù)信息平臺,就是搭建一個智能管理系統(tǒng),輔助支持學(xué)科建設(shè)決策,需要運(yùn)用數(shù)據(jù)倉庫技術(shù)、數(shù)據(jù)挖掘技術(shù)和OLAP 3種關(guān)鍵技術(shù)[9]。包含了附屬醫(yī)院學(xué)科建設(shè)數(shù)據(jù)的醫(yī)學(xué)高校學(xué)科建設(shè)數(shù)據(jù)平臺的體系架構(gòu)如圖2所示。
圖2 醫(yī)學(xué)高校學(xué)科建設(shè)數(shù)據(jù)信息平臺的體系結(jié)構(gòu)
從圖2可以看出,這個體系結(jié)構(gòu)是基于業(yè)務(wù)流程創(chuàng)建的,包括源數(shù)據(jù)到數(shù)據(jù)倉庫管理、業(yè)務(wù)層管理、應(yīng)用層,每一步都包含了大量的工作。其中第一步是源數(shù)據(jù)的管理,因?yàn)閿?shù)據(jù)來源有很多,有來源于各個職能部處業(yè)務(wù)系統(tǒng)的數(shù)據(jù),有來源于各個學(xué)院學(xué)系、附屬醫(yī)院、科研人員的數(shù)據(jù);同時數(shù)據(jù)庫的類型很多,有關(guān)系數(shù)據(jù)庫、文件系統(tǒng)、多媒體系統(tǒng)等;數(shù)據(jù)庫管理系統(tǒng)很多,如Oracle、SQL Server、MS SQL、ACCESS等。這些數(shù)據(jù)分布在多種數(shù)據(jù)庫硬件平臺上,紛繁復(fù)雜,能否全面、準(zhǔn)確地收集數(shù)據(jù)直接關(guān)系到學(xué)科建設(shè)數(shù)據(jù)信息平臺的質(zhì)量。因此,一定要有強(qiáng)有力的領(lǐng)導(dǎo)政策支持學(xué)科檢索數(shù)據(jù)的收集,有專業(yè)的學(xué)科建設(shè)團(tuán)隊來研究學(xué)科建設(shè)數(shù)據(jù)的來源、特征和分布,從而保證學(xué)科建設(shè)數(shù)據(jù)的質(zhì)量。
數(shù)據(jù)倉庫就是一個用以更好地支持企業(yè)或組織的決策分析處理的、面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合[10],其最主要的特征是面向主題。我們要研究學(xué)科建設(shè)數(shù)據(jù)的多個主題,進(jìn)行數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換與裝載,把數(shù)據(jù)存儲在數(shù)據(jù)倉庫里。整個數(shù)據(jù)倉庫的結(jié)構(gòu)由元數(shù)據(jù)來組織,因此元數(shù)據(jù)的研究也很重要。
業(yè)務(wù)管理由業(yè)務(wù)層與核心業(yè)務(wù)層組成。學(xué)科建設(shè)數(shù)據(jù)平臺的功能是數(shù)據(jù)管理、學(xué)科介紹、統(tǒng)計匯總和學(xué)科比較。它的核心業(yè)務(wù)層如身份認(rèn)證、數(shù)據(jù)處理、第三方應(yīng)用程序接口、日志生成、數(shù)據(jù)挖掘等由數(shù)據(jù)庫管理人員管理,保障學(xué)科建設(shè)數(shù)據(jù)的安全。
應(yīng)用層是通過可視化工具、多維分析工具、挖掘工具等一系列的分析工具集,把數(shù)據(jù)展現(xiàn)給管理者。展示的方式有多種,如OLAP前端、門戶網(wǎng)站、統(tǒng)計圖表和數(shù)據(jù)模型等。學(xué)科建設(shè)的數(shù)據(jù)可以定期或者不定期地統(tǒng)計輸出,還可以根據(jù)需要來定制輸出。
高校學(xué)科建設(shè)數(shù)據(jù)信息平臺的設(shè)計路線圖,即研究如何把不同來源、格式、特點(diǎn)性質(zhì)的學(xué)科數(shù)據(jù)在邏輯上或物理上(數(shù)據(jù)倉庫中)有機(jī)地收集、集中存儲,從挖掘?qū)W科建設(shè)數(shù)據(jù)應(yīng)用的角度劃分任務(wù),注重數(shù)據(jù)挖掘模型的質(zhì)量和學(xué)科建設(shè)的業(yè)務(wù)工作相結(jié)合,從而確立高校學(xué)科建設(shè)數(shù)據(jù)信息平臺的建立模式。學(xué)科建設(shè)數(shù)據(jù)平臺設(shè)計路線圖分為7步(圖3)。把這7步歸到3個步驟中,從業(yè)務(wù)理解開始到擴(kuò)展業(yè)務(wù)等過程是循環(huán)的。因此,要建立好一個數(shù)據(jù)平臺,必須要經(jīng)過多次設(shè)計與考慮,才能達(dá)到最佳效果。
圖3 學(xué)科建設(shè)數(shù)據(jù)平臺設(shè)計路線圖
數(shù)據(jù)源管理包含業(yè)務(wù)理解和數(shù)據(jù)理解2個步驟。業(yè)務(wù)理解是從業(yè)務(wù)的角度理解學(xué)科建設(shè)數(shù)據(jù)平臺項目的目標(biāo)和要求,首先確定學(xué)科建設(shè)的業(yè)務(wù)背景、平臺建設(shè)的目標(biāo),進(jìn)行高校業(yè)務(wù)環(huán)境評估,列出學(xué)科的資源清單,學(xué)科平臺的需求、假設(shè)和限制、風(fēng)險與對策和其他考慮的因素,為下一步數(shù)據(jù)理解和項目計劃提供支持。
數(shù)據(jù)理解是對學(xué)科建設(shè)數(shù)據(jù)的全面調(diào)查,具體方法為全面梳理學(xué)校所有部門、學(xué)院的學(xué)科數(shù)據(jù)信息與數(shù)據(jù)庫的內(nèi)容(包括教師、學(xué)生、科研項目、論文、專利、獎勵、會議、課程、活動等),檢查數(shù)據(jù)是否存在噪聲、缺失值、冗余、數(shù)據(jù)錯誤等情況,根據(jù)全校業(yè)務(wù)特征分析部門之間和系統(tǒng)之間的學(xué)科數(shù)據(jù)信息共享范圍。目前教育部已經(jīng)頒布了《教育管理信息化標(biāo)準(zhǔn)》,可參照國家標(biāo)準(zhǔn)格式,建立全校學(xué)科數(shù)據(jù)信息統(tǒng)一編碼與標(biāo)準(zhǔn)(包含數(shù)據(jù)命名的原則等);建立各部門數(shù)據(jù)獲取與收集的機(jī)制,建立關(guān)系數(shù)據(jù)庫與非關(guān)系數(shù)據(jù)庫的數(shù)據(jù)收集解決方案(如ODBC讀取、文本文件導(dǎo)入、年度申報制度等),保證數(shù)據(jù)的全面與準(zhǔn)確;根據(jù)數(shù)據(jù)收集的機(jī)制,制定數(shù)據(jù)維護(hù)、更新的機(jī)制;構(gòu)建學(xué)科數(shù)據(jù)信息平臺的系統(tǒng)框架;明確各個部門和人員的任務(wù)分工等。
數(shù)據(jù)倉庫管理階段實(shí)質(zhì)為數(shù)據(jù)處理,包括數(shù)據(jù)選擇、數(shù)據(jù)清洗、數(shù)據(jù)構(gòu)建、數(shù)據(jù)集成和數(shù)據(jù)格式化等操作。首先需要按照原則選擇學(xué)科建設(shè)分析的數(shù)據(jù),選擇標(biāo)準(zhǔn)包括與最終的建設(shè)目標(biāo)相關(guān)程度,范圍包括表中的字段,也包括數(shù)據(jù)的記錄。經(jīng)過研究相關(guān)的智能系統(tǒng),可以選定Pentaho BI這個集成工具來收集、存儲、分析來自各部門的系統(tǒng)數(shù)據(jù),選定Dataverse Network平臺來收集與管理科研人員的研究數(shù)據(jù)[11]。設(shè)計數(shù)據(jù)倉庫的主題有專任教師與骨干教師、科研團(tuán)隊、支撐平臺、課程教學(xué)質(zhì)量、學(xué)生國際交流、優(yōu)秀在校生、論文、發(fā)明專利、國家級規(guī)劃教材、科研獲獎等,設(shè)計好這些之后,再確定元數(shù)據(jù)的管理模式。
學(xué)科建設(shè)的數(shù)據(jù)應(yīng)用管理包括建模、評價和擴(kuò)展3個步驟。從平臺可以選取較多的數(shù)據(jù)構(gòu)建數(shù)學(xué)模型,預(yù)測學(xué)科的發(fā)展等。除了數(shù)學(xué)模型之外,還可以構(gòu)建統(tǒng)計報表,用可視化的工具對學(xué)科建設(shè)的數(shù)據(jù)進(jìn)行可視化,更清晰直觀地顯示學(xué)科建設(shè)的成果。
例如,分析近10年學(xué)校各個學(xué)科發(fā)表高影響力論文數(shù)量的數(shù)據(jù),構(gòu)建一元線性回歸模型,可以對比分析多個學(xué)校的學(xué)科數(shù)據(jù),進(jìn)行聚類分析與主成分分析等。學(xué)科建設(shè)的數(shù)據(jù)挖掘可以構(gòu)建綜合決策支持系統(tǒng),從數(shù)據(jù)管理走向知識管理。
國務(wù)院2015年11月5日對外發(fā)布《統(tǒng)籌推進(jìn)世界一流大學(xué)和一流學(xué)科建設(shè)總體方案》,自2016年起針對大學(xué)以及學(xué)科建設(shè)明確提出了“雙一流”的任務(wù)要求,并分3個階段制定了時間表,為我國建成高等教育強(qiáng)國明確了任務(wù)路徑。搭建學(xué)科建設(shè)數(shù)據(jù)平臺將為學(xué)校創(chuàng)建一流學(xué)科的工作提供大力的支持,但是建設(shè)好學(xué)科建設(shè)的數(shù)據(jù)平臺是一個非常艱苦的工作,需要舉全校之力,需要校領(lǐng)導(dǎo)從學(xué)校的戰(zhàn)略高度來整合設(shè)計,需要研究生管理部門的牽頭設(shè)計與管理,需要多個部門的全力配合。