李 卉
(上海電力大學(xué)圖書館,上海 201306)
近年來,科學(xué)技術(shù)呈現(xiàn)信息化、網(wǎng)絡(luò)化的發(fā)展趨勢(shì)。國(guó)家對(duì)科技創(chuàng)新的發(fā)展越來越重視,并投入大量的經(jīng)費(fèi),我國(guó)科研成果的數(shù)量增長(zhǎng)迅速,科研成果數(shù)據(jù)已經(jīng)成為重要的戰(zhàn)略資源。高校是重要的科研基地,每年都會(huì)產(chǎn)生大量的科研成果。據(jù)統(tǒng)計(jì),全國(guó)發(fā)表的科技論文主要集中在高校,占全國(guó)的66.0%[1]。在高校教學(xué)和科研管理工作中,無論是職稱評(píng)審、科研獎(jiǎng)勵(lì)、項(xiàng)目申報(bào)等,都需要填報(bào)科研成果數(shù)據(jù)。科研成果的產(chǎn)出是衡量高??蒲袆?chuàng)新能力的重要指標(biāo)之一,也是學(xué)校綜合實(shí)力的重要體現(xiàn)。及時(shí)、準(zhǔn)確地對(duì)科研成果數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,對(duì)于掌握學(xué)??蒲邪l(fā)展態(tài)勢(shì)、制定發(fā)展規(guī)劃、推動(dòng)科研工作發(fā)展有著重要意義[2]。隨著信息技術(shù)的快速發(fā)展,科研成果的管理逐步脫離手工管理,轉(zhuǎn)而依托各類系統(tǒng)平臺(tái)來實(shí)現(xiàn),這為高校的科研成果管理工作帶來了極大的便利性,規(guī)范了高??蒲谐晒慕y(tǒng)一管理,也提高了科研成果管理各環(huán)節(jié)的效率??蒲谐晒麛?shù)據(jù)的價(jià)值愈發(fā)受到人們重視的同時(shí),多元、全面、精細(xì)的科研評(píng)價(jià)和統(tǒng)計(jì)工作也對(duì)科研成果數(shù)據(jù)提出了更高的要求,為科研成果的管理工作帶來了更大的難度。
科研活動(dòng)中會(huì)產(chǎn)生很多信息,包括項(xiàng)目信息(如申報(bào)書、審批書、中期報(bào)告、結(jié)項(xiàng)報(bào)告等)、論文、著作、演示文稿、研究報(bào)告、實(shí)驗(yàn)數(shù)據(jù)、軟件代碼、多媒體資料,以及用數(shù)字形式表達(dá)的想法、觀點(diǎn)、經(jīng)驗(yàn)及訣竅的總結(jié)等各種科研成果和其他類型信息資源。另外,一些和科研有關(guān)的活動(dòng),如學(xué)術(shù)會(huì)議、學(xué)術(shù)報(bào)告、知識(shí)比賽、成果評(píng)選、學(xué)術(shù)獲獎(jiǎng)等,也是高??蒲泄芾硇枰闹匾畔?。通常,高校機(jī)構(gòu)知識(shí)庫(kù)采集的成果類型除了正式出版和非正式出版/未出版的文獻(xiàn)以外,一些科研活動(dòng)信息也經(jīng)常被收錄其中,作為一類成果類型。
在機(jī)構(gòu)知識(shí)庫(kù)中,正式出版的成果主要來自外部數(shù)據(jù)庫(kù),一般通過特定的接口等技術(shù)手段自動(dòng)獲取入庫(kù),少量由作者提交;非正式出版物和科研活動(dòng)類成果則必須由作者提交。
科研成果管理和服務(wù)過程中除了科研成果本身外,還涉及科研人員、院系部門與研究機(jī)構(gòu)信息,這些信息主要來自以下幾個(gè)業(yè)務(wù)系統(tǒng):①人事信息系統(tǒng),提供人員在崗及歷史信息;②科研項(xiàng)目系統(tǒng),提供科研項(xiàng)目申請(qǐng)、立項(xiàng)信息;③財(cái)務(wù)信息,提供項(xiàng)目相關(guān)的經(jīng)費(fèi)入賬與支出信息;④研究生信息管理系統(tǒng),提供研究生、導(dǎo)師等培養(yǎng)相關(guān)信息,其他信息系統(tǒng)視需列入。
職能部門的業(yè)務(wù)系統(tǒng)信息與機(jī)構(gòu)知識(shí)庫(kù)的科研成果信息關(guān)聯(lián)后,可適用于各類場(chǎng)景,滿足不同部門、各種層次的信息需求。這些數(shù)據(jù)的互通共享也十分重要。因此,科研成果數(shù)據(jù)的來源主要包括:①科研人員和研究團(tuán)隊(duì)。主要是指教師和學(xué)生,他們既是科研成果的生產(chǎn)者,也是科研成果數(shù)據(jù)的用戶。②職能部門。職能部門負(fù)責(zé)管理與維護(hù)科研成果相關(guān)的信息,是科研成果數(shù)據(jù)的主要用戶,主要部門有圖書館、科研管理部門、組織人事部門、研究生院等。
高校師生和科研人員對(duì)科研成果數(shù)據(jù)需求包括以下幾個(gè)方面:
(1)科研成果數(shù)據(jù)的存取。對(duì)于學(xué)生,科研成果關(guān)乎學(xué)生的學(xué)業(yè)評(píng)價(jià)和獎(jiǎng)勵(lì);科研成果也關(guān)乎研究生院等管理部門對(duì)學(xué)生培養(yǎng)質(zhì)量的評(píng)價(jià)。對(duì)于教師,在聘期考核、年度考核、職稱評(píng)審等各類評(píng)價(jià)和考核時(shí)需要科研成果信息。他們對(duì)成果數(shù)據(jù)的復(fù)用性和質(zhì)量有較高的要求,希望一次存取,多次使用,避免成果數(shù)據(jù)的重復(fù)錄入。
(2)科研成果評(píng)價(jià)數(shù)據(jù)的獲取。在眾多應(yīng)用場(chǎng)景中,用戶所需的數(shù)據(jù)往往不僅是科研成果本身,還包括成果評(píng)價(jià)數(shù)據(jù)。如科研人員年度績(jī)效考核中,經(jīng)常需要統(tǒng)計(jì)個(gè)人發(fā)表成果的期刊分區(qū)信息、核心期刊表收錄信息、國(guó)內(nèi)外數(shù)據(jù)庫(kù)的收錄信息等。這些評(píng)價(jià)數(shù)據(jù)是進(jìn)行水平與質(zhì)量評(píng)估的常用指標(biāo),且要求準(zhǔn)確性高,更新及時(shí)。
(3)了解科研動(dòng)態(tài)。科研人員既有了解自己科研成果動(dòng)態(tài)的需求,如論文的被下載引用次數(shù)、被收錄情況等,也有了解校內(nèi)科研進(jìn)展的需求。如自己關(guān)注的領(lǐng)域內(nèi)是否有新的科研成果,或是跟蹤相關(guān)人員科研進(jìn)展等,這一過程可以促進(jìn)學(xué)者之間的學(xué)術(shù)交流,從而提高個(gè)人學(xué)術(shù)影響力。
院系和職能部門對(duì)科研成果數(shù)據(jù)保持著一種經(jīng)常的、持續(xù)性的強(qiáng)烈需求。一般情況下,學(xué)院需定期統(tǒng)計(jì)員工的科研成果、考核其科研表現(xiàn)。在接受學(xué)校的考核與評(píng)價(jià)、科研項(xiàng)目申報(bào)、獎(jiǎng)項(xiàng)申請(qǐng)、學(xué)科發(fā)展與規(guī)劃等活動(dòng)時(shí),學(xué)院也需要科研成果數(shù)據(jù)的支持。如院系管理員需要對(duì)所有教師和學(xué)生的科研成果進(jìn)行統(tǒng)計(jì)匯總和分析工作,并據(jù)此進(jìn)行績(jī)效獎(jiǎng)勵(lì),制定學(xué)科發(fā)展規(guī)劃等。職能部門對(duì)科研成果數(shù)據(jù)的需求也是多樣化的,他們的信息需求面更廣,許多運(yùn)用場(chǎng)景既獨(dú)立于學(xué)院等二級(jí)部門,又需要二級(jí)部門和師生的參與。如學(xué)校發(fā)展規(guī)劃部門需要進(jìn)行全校高水平人才評(píng)價(jià)、全校KPI考核等,人事部門在人才引進(jìn)、職工考核、職稱評(píng)定時(shí)需要對(duì)科研人員的科研成果進(jìn)行統(tǒng)計(jì)分析和評(píng)價(jià)等。
綜上所述,高校科研成果數(shù)據(jù)來自于不同的論文數(shù)據(jù)庫(kù)、高校內(nèi)部不同的信息管理系統(tǒng)、不同院系或部門、師生或研究人員等多源的渠道,在存儲(chǔ)方式、載體、格式、形式方面也各不相同。如何處理這些復(fù)雜的多源異構(gòu)數(shù)據(jù),滿足用戶提出的便捷、安全、相互關(guān)聯(lián)、更新及時(shí)、準(zhǔn)確性高等要求,解決各部門之間的信息孤島,對(duì)科研成果進(jìn)行有效組織和深度挖掘,是高??蒲谐晒麛?shù)據(jù)組織和管理中需要重點(diǎn)關(guān)注的問題。
機(jī)構(gòu)知識(shí)庫(kù)是高??蒲谐晒麛?shù)據(jù)組織的重要載體,在全球范圍內(nèi)受到廣泛關(guān)注,各大高校和研究機(jī)構(gòu)紛紛建立起自己的機(jī)構(gòu)知識(shí)庫(kù)。機(jī)構(gòu)知識(shí)庫(kù)不僅能夠?qū)蒲谐晒麛?shù)據(jù)進(jìn)行存儲(chǔ)和管理,而且能夠?qū)蒲谐晒麛?shù)據(jù)進(jìn)行深入挖掘和分析。依托于機(jī)構(gòu)知識(shí)庫(kù)實(shí)現(xiàn)高??蒲袛?shù)據(jù)的組織和利用,是目前較為高效的方式。面對(duì)當(dāng)前高校機(jī)構(gòu)知識(shí)庫(kù)存在的短板和高校科研成果數(shù)據(jù)用戶的需求,保證高校科研成果數(shù)據(jù)的質(zhì)量尤為重要。在實(shí)踐中,高??蒲袛?shù)據(jù)知識(shí)組織過程中必須確??蒲谐晒獢?shù)據(jù)的全面性和準(zhǔn)確性、科研成果數(shù)據(jù)的揭示深度和關(guān)聯(lián)廣度、科研成果評(píng)價(jià)指標(biāo)的匹配,才能提高機(jī)構(gòu)知識(shí)庫(kù)的服務(wù)能力。
科研成果元數(shù)據(jù)的全面性是指成果的類型全、成果數(shù)量全、元數(shù)據(jù)信息全。
(1)科研成果類型全。機(jī)構(gòu)知識(shí)庫(kù)應(yīng)該根據(jù)機(jī)構(gòu)的需求設(shè)定收集的成果類型。目前,國(guó)內(nèi)機(jī)構(gòu)知識(shí)庫(kù)收集的成果類型以正式出版的成果為主,非正式出版的成果為輔。如大連理工大學(xué)機(jī)構(gòu)知識(shí)庫(kù)的成果類型主要包括期刊論文、學(xué)位論文、會(huì)議論文、專利、科研項(xiàng)目、著作、獲獎(jiǎng)成果、標(biāo)準(zhǔn)、報(bào)紙、軟件著作權(quán)等[3]。另外,中國(guó)科學(xué)院還收錄了研究報(bào)告和演示報(bào)告[4]。從科研管理的角度來看,一個(gè)成熟的高校機(jī)構(gòu)知識(shí)庫(kù),應(yīng)該包含教師和學(xué)生的智力成果以及機(jī)構(gòu)自身活動(dòng)和持續(xù)進(jìn)行的知識(shí)生產(chǎn)活動(dòng)的記錄[5],不僅要包括正式或非正式出版的成果,還要收集科研成果相關(guān)活動(dòng),如參賽、獲獎(jiǎng)等。這就要求機(jī)構(gòu)知識(shí)庫(kù)不僅要支持常見資源類型的定義、抓取和提交,如公開發(fā)表和出版的期刊論文、會(huì)議論文、學(xué)位論文、圖書、專利等,還能夠根據(jù)機(jī)構(gòu)的需要,自定義元數(shù)據(jù)類型,并支持提交或自動(dòng)獲取功能。
(2)科研成果數(shù)量全。屬于本機(jī)構(gòu)的成果要做到應(yīng)收盡收。如中文期刊論文的采集,可從中國(guó)知網(wǎng)、萬方數(shù)據(jù)和維普中文科技期刊等主要學(xué)術(shù)數(shù)據(jù)庫(kù)中獲??;對(duì)于同一個(gè)數(shù)據(jù)庫(kù)中的成果,應(yīng)編制合理的檢索式保證查全率;而一個(gè)友好的成果提交頁面,可供作者自行補(bǔ)充遺漏的論文。
(3)元數(shù)據(jù)信息全。成果元數(shù)據(jù)要盡量完整。自動(dòng)采集的成果元數(shù)據(jù)的完整性依賴于來源數(shù)據(jù)庫(kù)的元數(shù)據(jù)開放程度以及標(biāo)注信息的詳細(xì)程度。當(dāng)一項(xiàng)成果有多個(gè)來源數(shù)據(jù)庫(kù)時(shí),應(yīng)能夠優(yōu)先選擇信息更全面的數(shù)據(jù)來源,再根據(jù)不同來源的數(shù)據(jù)補(bǔ)足缺失信息,形成一個(gè)完整的成果元數(shù)據(jù)記錄;手工提交的成果要求對(duì)必備字段應(yīng)填盡填,利用技術(shù)手段對(duì)提交者進(jìn)行引導(dǎo)與制約,保證所提交的信息準(zhǔn)確完整。
科研成果元數(shù)據(jù)的準(zhǔn)確性主要包括成果唯一性、成果產(chǎn)權(quán)歸屬標(biāo)注的準(zhǔn)確性和本機(jī)構(gòu)成果的去“偽”三方面。成果唯一性是開展科研管理與評(píng)估的基本保證。機(jī)構(gòu)知識(shí)庫(kù)常常需要從不同的來源庫(kù)中抓取成果,而來源庫(kù)收錄范圍的交叉重合會(huì)導(dǎo)致部分成果被不同數(shù)據(jù)庫(kù)同時(shí)收錄。機(jī)構(gòu)知識(shí)庫(kù)的過濾與去重機(jī)制是保證唯一性的主要環(huán)節(jié),需要在這一環(huán)節(jié)不斷完善,盡量減少重復(fù)。但程序性的去重設(shè)置并不能完全保證成果重復(fù)率為零,這時(shí)就需要通過人工干預(yù)加以保證??蒲谐晒a(chǎn)權(quán)歸屬標(biāo)注必須準(zhǔn)確。機(jī)構(gòu)知識(shí)庫(kù)中,成果的原始署名作者與原始署名單位應(yīng)形成一一對(duì)應(yīng)關(guān)系,以方便作者單位的區(qū)分;機(jī)構(gòu)成果應(yīng)該可以根據(jù)原始署名作者被認(rèn)領(lǐng)或指認(rèn)給研究人員;機(jī)構(gòu)成果的原始署名單位應(yīng)被正確識(shí)別并與現(xiàn)有機(jī)構(gòu)的二級(jí)單位關(guān)聯(lián)。本機(jī)構(gòu)成果的去“偽”指由于檢索策略的限制,來源數(shù)據(jù)庫(kù)成果信息著錄的不完整甚至錯(cuò)誤,以及機(jī)構(gòu)名稱拼寫等原因,機(jī)構(gòu)知識(shí)庫(kù)中難免會(huì)混入一些其他機(jī)構(gòu)的成果。這些成果成為“偽”成果,需要加以剔除。機(jī)構(gòu)知識(shí)庫(kù)應(yīng)該提供相應(yīng)的功能幫助消除這種“偽”成果。
傳統(tǒng)的機(jī)構(gòu)知識(shí)庫(kù)旨在實(shí)現(xiàn)學(xué)術(shù)成果的存儲(chǔ)和傳播,因此對(duì)成果屬性的揭示要求并不高,使用DC等元數(shù)據(jù)標(biāo)準(zhǔn)基本上已經(jīng)足夠描述學(xué)術(shù)成果的特征。但是科研管理要實(shí)現(xiàn)人員的考核和對(duì)科研成果的評(píng)價(jià)統(tǒng)計(jì)等多項(xiàng)功能,這就對(duì)成果屬性的揭示程度提出了更高的要求,機(jī)構(gòu)知識(shí)庫(kù)中的成果屬性應(yīng)得到全面、更深層次的揭示。例如:①在對(duì)院系、實(shí)驗(yàn)室等二級(jí)部門學(xué)術(shù)產(chǎn)出進(jìn)行統(tǒng)計(jì)分析時(shí),需要根據(jù)作者的二級(jí)部門數(shù)據(jù),來判斷成果的二級(jí)部門歸屬。這就要求機(jī)構(gòu)知識(shí)庫(kù)在標(biāo)注成果的二級(jí)部門歸屬時(shí),以原始署名單位為主要依據(jù),避免因作者部門與署名單位中的部門不同而造成混亂與錯(cuò)誤。②國(guó)際合作已經(jīng)成為高校學(xué)科發(fā)展的一種重要方式,也是上級(jí)部門考察學(xué)??蒲心芰Φ囊粋€(gè)指標(biāo)。不少機(jī)構(gòu)知識(shí)庫(kù)并未對(duì)署名單位中的國(guó)別信息作標(biāo)注,因此無法方便統(tǒng)計(jì)國(guó)際合作論文。③產(chǎn)業(yè)合作、省內(nèi)外合作則需要對(duì)署名機(jī)構(gòu)的屬地、行業(yè)屬性進(jìn)行區(qū)分。④在考察科研績(jī)效時(shí),投入產(chǎn)出比是一個(gè)重要角度,而作為投入的基金論文,其基金信息也需要進(jìn)一步分析與著錄,以便統(tǒng)計(jì)。以上例子說明,科研管理的需求越來越精細(xì),需要對(duì)成果的重要屬性進(jìn)行深入揭示才能滿足服務(wù)要求,具備服務(wù)能力。
在進(jìn)行高??蒲谐晒麛?shù)據(jù)組織時(shí),一定要注意機(jī)構(gòu)知識(shí)庫(kù)是一個(gè)獨(dú)立運(yùn)行的系統(tǒng),要發(fā)揮其在科研管理中的作用,充分挖掘科研成果數(shù)據(jù)的價(jià)值,機(jī)構(gòu)知識(shí)庫(kù)就不能完全獨(dú)立,應(yīng)與校內(nèi)的其他業(yè)務(wù)系統(tǒng)進(jìn)行有序關(guān)聯(lián)與互動(dòng),消除信息孤島。例如,人事部門要進(jìn)行人才考核,確定考核名單后,可通過接口機(jī)構(gòu)知識(shí)庫(kù)獲取相關(guān)人員認(rèn)領(lǐng)的科研成果數(shù)據(jù)后使用;機(jī)構(gòu)知識(shí)庫(kù)的用戶信息數(shù)據(jù)庫(kù)應(yīng)與學(xué)校的人事信息數(shù)據(jù)數(shù)據(jù)庫(kù)同步,機(jī)構(gòu)設(shè)置信息也應(yīng)能定期更新,才能正確匹配人員狀態(tài)、職稱、所屬部門等,為每項(xiàng)科研成果的部門歸屬提供準(zhǔn)確的信息。機(jī)構(gòu)知識(shí)庫(kù)與業(yè)務(wù)系統(tǒng)的關(guān)聯(lián)應(yīng)是雙向的,這種雙向的聯(lián)動(dòng),能創(chuàng)造豐富的數(shù)據(jù)關(guān)聯(lián)視圖,滿足復(fù)雜的應(yīng)用場(chǎng)景。
評(píng)價(jià)指標(biāo)的配置是機(jī)構(gòu)知識(shí)庫(kù)服務(wù)科研管理的基礎(chǔ),是科研成果、人才評(píng)估等應(yīng)用中進(jìn)行統(tǒng)計(jì)的重要維度。應(yīng)在機(jī)構(gòu)知識(shí)庫(kù)中配置針對(duì)成果的評(píng)價(jià)指標(biāo)和針對(duì)出版物、出版社的評(píng)價(jià)指標(biāo)。針對(duì)論文的評(píng)價(jià)指標(biāo)包括評(píng)價(jià)數(shù)據(jù)庫(kù)的收錄信息、論文轉(zhuǎn)載信息、引用文獻(xiàn)等;針對(duì)期刊的評(píng)價(jià)指標(biāo)包括影響因子、分區(qū)、核心期刊等信息;針對(duì)出版社的評(píng)價(jià)指標(biāo)包括著名出版社、核心出版社等信息。對(duì)成果進(jìn)行指標(biāo)標(biāo)注時(shí),應(yīng)準(zhǔn)確、完整;評(píng)價(jià)指標(biāo)字典、引文信息應(yīng)定期更新。
通過規(guī)劃基于機(jī)構(gòu)知識(shí)庫(kù)的科研成果數(shù)據(jù)組織與管理的流程,從科研成果數(shù)據(jù)的智能采集、科研成果數(shù)據(jù)的清洗、科研成果數(shù)據(jù)屬性深度揭示和科研成果數(shù)據(jù)的關(guān)聯(lián)與共享4個(gè)方面,詳細(xì)闡述高??蒲谐晒麛?shù)據(jù)組織與管理的方案。
科研成果原始采集數(shù)據(jù)的完整準(zhǔn)確是保證整個(gè)機(jī)構(gòu)知識(shí)庫(kù)成果數(shù)據(jù)建設(shè)質(zhì)量的基礎(chǔ),也是高校科研成果知識(shí)組織的第一環(huán)節(jié)。根據(jù)科研成果數(shù)據(jù)的來源,將科研成果數(shù)據(jù)的收集方式分為3類:自動(dòng)獲取、作者提交和后臺(tái)導(dǎo)入。
(1)自動(dòng)獲取科研成果數(shù)據(jù)。自動(dòng)獲取是指機(jī)構(gòu)知識(shí)庫(kù)系統(tǒng)根據(jù)設(shè)定的搜索策略,定期到特定數(shù)據(jù)源抓取機(jī)構(gòu)成果,這是科研成果采集的最主要方式。自動(dòng)獲取的科研成果類型主要是期刊論文、會(huì)議論文、學(xué)位論文、專利文獻(xiàn)等正式出版物。在獲取文獻(xiàn)前,需事先配置抓取策略,通過網(wǎng)絡(luò)爬蟲或數(shù)據(jù)庫(kù)的接口等方式從來源數(shù)據(jù)庫(kù)獲取成果。在自動(dòng)獲取的過程中,要注意以下幾個(gè)方面:①科研成果的全面性。檢查本機(jī)構(gòu)的成果是否收集全面。從單庫(kù)中獲取科研成果時(shí),是否有遺漏。同一類科研成果是否將主要數(shù)據(jù)庫(kù)都納入采集范圍,如中文期刊論文主要分布在中國(guó)知網(wǎng)、萬方數(shù)據(jù)和維普中文期刊數(shù)據(jù)庫(kù),這3個(gè)數(shù)據(jù)庫(kù)都有其獨(dú)家期刊,只有將三庫(kù)都納入采集范圍才能保證數(shù)據(jù)的全面性。②科研成果元數(shù)據(jù)信息獲取是否完整。當(dāng)一項(xiàng)成果有多個(gè)來源數(shù)據(jù)庫(kù)時(shí),應(yīng)能優(yōu)先選擇信息更全面的數(shù)據(jù)來源,從不同來源補(bǔ)足缺失信息,形成一個(gè)完整的、不重復(fù)的成果元數(shù)據(jù)記錄。③成果獲取周期。系統(tǒng)應(yīng)可設(shè)定自動(dòng)抓取成果的周期,盡量少進(jìn)行人工干預(yù)。由于各數(shù)據(jù)庫(kù)、期刊的更新周期有所不同,機(jī)構(gòu)知識(shí)庫(kù)需要根據(jù)來源數(shù)據(jù)庫(kù)的更新周期和機(jī)構(gòu)的工作需要設(shè)定周期,這一周期既要保證及時(shí)獲取到最新的科研成果數(shù)據(jù),又不能給圖書館帶來沉重的工作負(fù)擔(dān)。④成果是否抓取準(zhǔn)確。誤爬率也是測(cè)試機(jī)構(gòu)知識(shí)庫(kù)系統(tǒng)的一個(gè)重要指標(biāo)。需要定期導(dǎo)出成果,統(tǒng)計(jì)誤爬率,分析產(chǎn)生的原因并尋求解決辦法。檢查誤爬率的另一辦法是人工手段來操作。一些有入藏號(hào)的數(shù)據(jù)庫(kù),通過人工檢索獲取特定年限的本機(jī)構(gòu)成果,與機(jī)構(gòu)知識(shí)庫(kù)中的成果入藏號(hào)進(jìn)行比對(duì),補(bǔ)充漏抓記錄。
(2)作者提交科研成果數(shù)據(jù)是機(jī)構(gòu)知識(shí)庫(kù)收集成果的重要手段。對(duì)于系統(tǒng)可以自動(dòng)獲取的科研成果類型,作者提交的科研成果數(shù)據(jù)是一個(gè)重要補(bǔ)充,可以解決來源數(shù)據(jù)庫(kù)未收錄的和抓取遺漏的成果。對(duì)于系統(tǒng)無法自動(dòng)獲取的成果,只能通過作者提交的方式收集,如圖書、研究報(bào)告、藝術(shù)作品、音視頻作品等。
從技術(shù)層面看,要保證元數(shù)據(jù)的完整與準(zhǔn)確性,必須有人性化的提交界面,對(duì)必備字段作出技術(shù)上的要求和限制,簡(jiǎn)明易理解的提交說明、清晰的提交流程等。從政策層面來看,機(jī)構(gòu)成員對(duì)提交個(gè)人科研成果數(shù)據(jù)的積極性不高,需要相應(yīng)的成果存繳政策和激勵(lì)政策加以約束與保證。最重要的是學(xué)校層面對(duì)提交科研成果數(shù)據(jù)的政策性要求,或考核要求,如果能從政策上規(guī)定將機(jī)構(gòu)知識(shí)庫(kù)作為考核成果數(shù)據(jù)源,作者提交的積極性才能得到保證。
(3)從后臺(tái)批量或單篇導(dǎo)入科研成果數(shù)據(jù)是補(bǔ)充科研成果數(shù)據(jù)的一個(gè)重要手段,一般由系統(tǒng)管理員操作。這些數(shù)據(jù)的導(dǎo)入視需要進(jìn)行,如補(bǔ)充遺漏數(shù)據(jù),批量上傳無法抓取的歷史數(shù)據(jù)等。
科研成果數(shù)據(jù)清洗主要是開展去重和去“偽”科研成果數(shù)據(jù)記錄的過程。去重是為了保持科研成果數(shù)據(jù)的唯一性。去“偽”目的是清除誤爬數(shù)據(jù)和用戶提交的非本機(jī)構(gòu)數(shù)據(jù)。
(1)科研成果數(shù)據(jù)去重。多個(gè)來源必然會(huì)帶來重復(fù),雖然各數(shù)據(jù)庫(kù)收錄的期刊種類、數(shù)量均有所不同,但是會(huì)存在一定程度上的交叉。另外,即使是同一個(gè)數(shù)據(jù)庫(kù)中也有可能出現(xiàn)重復(fù)數(shù)據(jù)記錄的情況,同時(shí)也有可能出現(xiàn)成果被多次收錄,或是一稿多投等現(xiàn)象。再加上各數(shù)據(jù)庫(kù)的元數(shù)據(jù)標(biāo)準(zhǔn)和格式、數(shù)據(jù)質(zhì)量均有所差別,因此,需要對(duì)不同來源的數(shù)據(jù)進(jìn)行去重和整合。數(shù)據(jù)去重包括單庫(kù)去重和跨庫(kù)去重兩種情況。
單庫(kù)來源的記錄產(chǎn)生重復(fù)的原因比較復(fù)雜,主要有人工提交科研成果數(shù)據(jù)和系統(tǒng)抓取科研成果數(shù)據(jù)造成的重復(fù),有些數(shù)據(jù)庫(kù)對(duì)同一個(gè)成果在不同階段發(fā)布的內(nèi)容不同、系統(tǒng)將更正記錄、撤回論文當(dāng)作科研成果抓取等原因。單庫(kù)去重的辦法主要有:完善機(jī)構(gòu)知識(shí)庫(kù)的重復(fù)論文識(shí)別機(jī)制,增加重復(fù)論文檢索功能、重復(fù)提示功能和重復(fù)合并功能;增加識(shí)別優(yōu)先發(fā)表、網(wǎng)絡(luò)出版和Inpress、Ear9 lyAccess等論文在正式發(fā)表的記錄是否為同一篇論文,及時(shí)更新記錄信息;論文更正記錄、撤稿成果等需要區(qū)別對(duì)待;將DOI、入藏號(hào)等代表文獻(xiàn)唯一標(biāo)識(shí)碼作為去重的重要依據(jù)等。
從多個(gè)數(shù)據(jù)庫(kù)抓取的同一成果,也會(huì)造成重復(fù),原因諸如:因同一成果的一些關(guān)鍵字段信息在不同來源中不一致產(chǎn)生重復(fù),如標(biāo)題、作者、發(fā)表期刊、年份等;因收錄數(shù)據(jù)庫(kù)的語種導(dǎo)致系統(tǒng)無法識(shí)別而產(chǎn)生重復(fù)。多庫(kù)去重的辦法中DOI代表文獻(xiàn)唯一標(biāo)識(shí)碼可以作為去重的重要依據(jù),但要注意WebofScience數(shù)據(jù)庫(kù)中,有時(shí)會(huì)議論文會(huì)用同一個(gè)DOI;通過一些字段的組合作為去重的依據(jù),如,ISSN+年+卷+期+頁碼,或標(biāo)題+刊名+作者+年[+卷][+期]+頁碼等??梢栽O(shè)置幾組相同文獻(xiàn)的判斷標(biāo)準(zhǔn)。
(2)科研成果數(shù)據(jù)去“偽”。去“偽”是刪除那些誤爬的或作者提交的非本機(jī)構(gòu)的科研成果。判斷依據(jù)是作者署名機(jī)構(gòu)。對(duì)于系統(tǒng)自動(dòng)抓取的成果,本應(yīng)在成果過濾階段就設(shè)立規(guī)則予以排除,但因各種原因還是混入庫(kù)中,如來源數(shù)據(jù)庫(kù)機(jī)構(gòu)署名拼寫錯(cuò)誤;作者提交成果未填署名單位或填寫的現(xiàn)單位而非署名單位;署名機(jī)構(gòu)名稱與本機(jī)構(gòu)名稱相似,通過檢索式無法區(qū)分,系統(tǒng)過濾失敗等。
檢查“偽”成果的一個(gè)辦法是通過人工操作。一些有入藏號(hào)的數(shù)據(jù)庫(kù),通過人工檢索獲取特定年限的本機(jī)構(gòu)成果,與機(jī)構(gòu)知識(shí)庫(kù)中的成果入藏號(hào)進(jìn)行比對(duì),對(duì)機(jī)構(gòu)知識(shí)庫(kù)中有而人工檢索結(jié)果中無的成果進(jìn)行分析,確認(rèn)是否為本機(jī)構(gòu)成果。另外,應(yīng)該將成果提交規(guī)定以恰當(dāng)?shù)男问阶屘峤徽咧獣?,改善成果提交功能,?duì)未填寫署名單位的成果不入庫(kù)。
機(jī)構(gòu)知識(shí)庫(kù)不僅要做到全面、準(zhǔn)確地收集機(jī)構(gòu)產(chǎn)出的科研成果,還需要深入揭示科研成果的屬性,才能為高校科研成果相關(guān)的各項(xiàng)統(tǒng)計(jì)和評(píng)價(jià)提供數(shù)據(jù)基礎(chǔ)。成果屬性的深度揭示主要是對(duì)比機(jī)構(gòu)知識(shí)庫(kù)的元數(shù)據(jù)要求進(jìn)行規(guī)則處理,使得數(shù)據(jù)更為規(guī)范,通過對(duì)收集到的原始數(shù)據(jù)的拆分來實(shí)現(xiàn)??蒲谐晒麛?shù)據(jù)的元數(shù)據(jù)處理需要區(qū)分的重要屬性是署名地址、署名作者、資助基金等。
(1)署名地址相關(guān)屬性的揭示。署名地址中有不少信息對(duì)于科研管理與成果評(píng)價(jià)有特定的意義,可以根據(jù)需要進(jìn)行揭示。署名地址中的信息包括:機(jī)構(gòu)名稱、二級(jí)部門名稱、所在地(省/州/城市等)、國(guó)家,以及地址排序和是否通信單位等,見表1。
表1 署名地址相關(guān)的屬性
(2)署名作者相關(guān)屬性的揭示。作者署名相關(guān)的信息可用于幫助確認(rèn)作者的貢獻(xiàn),是成果作者歸屬的重要判斷依據(jù),相關(guān)屬性見表2。
表2 署名作者相關(guān)的屬性
(3)資助基金相關(guān)屬性的揭示。資助基金信息是考察研究團(tuán)隊(duì)、機(jī)構(gòu)和作者的研究投入的一項(xiàng)指標(biāo),可視需要進(jìn)行揭示,相關(guān)屬性見表3。
表3 資助基金相關(guān)的屬性
(4)評(píng)價(jià)指標(biāo)屬性的揭示??蒲谐晒u(píng)價(jià)指標(biāo)與成果息息相關(guān),機(jī)構(gòu)知識(shí)庫(kù)應(yīng)建立考核指標(biāo)字典,通過評(píng)價(jià)指標(biāo)與成果的結(jié)合,實(shí)現(xiàn)對(duì)科研決策的支撐。關(guān)于論文、專著、報(bào)紙等成果的考核指標(biāo),如表4所示。
表4 評(píng)價(jià)指標(biāo)相關(guān)的屬性
機(jī)構(gòu)知識(shí)庫(kù)需要打破信息孤島狀態(tài),與其他業(yè)務(wù)部門的數(shù)據(jù)進(jìn)行多維度關(guān)聯(lián),才能發(fā)揮其在科研管理、績(jī)效評(píng)估、學(xué)科建設(shè)等方面的作用。如,學(xué)校、院系的投入產(chǎn)出評(píng)估中,通過項(xiàng)目數(shù)據(jù)與成果數(shù)據(jù)關(guān)聯(lián)了解產(chǎn)出績(jī)效;人才引進(jìn)、國(guó)際合作、行業(yè)合作、研究生培養(yǎng)、學(xué)科建設(shè)、科研團(tuán)隊(duì)等評(píng)估工作,也可通過人與成果的關(guān)聯(lián)產(chǎn)生翔實(shí)的數(shù)據(jù),支持管理決策和上級(jí)主管部門對(duì)學(xué)校的評(píng)估。
科研成果數(shù)據(jù)的關(guān)聯(lián)與共享一般是通過科研成果共享平臺(tái)來實(shí)現(xiàn)的。科研成果共享平臺(tái)由兩部分構(gòu)成:
(1)科研成果關(guān)聯(lián)機(jī)制或關(guān)聯(lián)功能構(gòu)件。科研成果關(guān)聯(lián)功能構(gòu)件是一種底層開發(fā)的接口集成,連接機(jī)構(gòu)知識(shí)庫(kù)和眾多職能部門的業(yè)務(wù)子系統(tǒng),其作用是在底層數(shù)據(jù)間建立關(guān)聯(lián),每一個(gè)系統(tǒng)中哪些數(shù)據(jù)可以共享,向誰共享,如何調(diào)用,權(quán)限控制等技術(shù)細(xì)節(jié),使業(yè)務(wù)系統(tǒng)之間的科研成果數(shù)據(jù)共享成為可能。
(2)應(yīng)用子系統(tǒng)。這是根據(jù)學(xué)校、師生、職能部門的應(yīng)用需求,以滿足特定的成果使用目標(biāo)專門設(shè)計(jì)的應(yīng)用模塊。其中有常規(guī)的應(yīng)用需求,也有個(gè)性化的、突發(fā)的需求,這些需求往往有一個(gè)共同特點(diǎn),即涉及的數(shù)據(jù)信息可能來自不同的部門,呈現(xiàn)方式也不一樣,需要建設(shè)專門系統(tǒng)/功能模塊才能滿足。常規(guī)的應(yīng)用子系統(tǒng)有:師生的聘期考核、全校KPI考核、初中級(jí)職稱評(píng)定、人才考核、年度單項(xiàng)獎(jiǎng)、團(tuán)隊(duì)成果跟蹤,院系成果跟蹤、ESI學(xué)科貢獻(xiàn)度、ESI高被引論文、學(xué)科發(fā)展態(tài)勢(shì)分析、學(xué)位論文管理、研究生獎(jiǎng)學(xué)金評(píng)定、高水平論文監(jiān)測(cè)、三大檢索論文跟蹤統(tǒng)計(jì)、教育部統(tǒng)計(jì)、市教委成果統(tǒng)計(jì)、國(guó)際合作成效監(jiān)測(cè)、教師學(xué)術(shù)主頁等。
應(yīng)用子系統(tǒng)在成果關(guān)聯(lián)功能構(gòu)件的支持下,調(diào)用跨業(yè)務(wù)系統(tǒng)的數(shù)據(jù)提供服務(wù)。如學(xué)者個(gè)人主頁子系統(tǒng)展示的科研成果情況主要包括其所屬部門、科研成果總數(shù)、科研成果類型、科研成果收錄情況、合作者、論文發(fā)表期刊、項(xiàng)目等,這些信息可能來自機(jī)構(gòu)知識(shí)庫(kù)、人事部門業(yè)務(wù)系統(tǒng)的人事信息庫(kù)、科技管理部門的項(xiàng)目信息庫(kù)等。
在實(shí)踐中,機(jī)構(gòu)知識(shí)庫(kù)建設(shè)者與服務(wù)提供者首先要了解各部門對(duì)成果數(shù)據(jù)的需求,分析各部門的評(píng)估統(tǒng)計(jì)中涉及到的成果數(shù)據(jù),制定出針對(duì)不同要求的個(gè)性化數(shù)據(jù)方案,將各成果數(shù)據(jù)屬性進(jìn)行關(guān)聯(lián),形成數(shù)據(jù)視圖,這些視圖可以直接導(dǎo)出數(shù)據(jù),供圖書館完成職能部門或其他用戶委托;或?qū)⒁晥D設(shè)計(jì)成數(shù)據(jù)接口,供校內(nèi)業(yè)務(wù)系統(tǒng)調(diào)用;或篩選出常用、可共享數(shù)據(jù)視圖,開發(fā)Web查詢功能,為全?;蛱囟ǖ挠脩糸_放查詢服務(wù)。
除了機(jī)構(gòu)知識(shí)庫(kù)內(nèi)部數(shù)據(jù)關(guān)聯(lián)外,還會(huì)經(jīng)常用到各職能部門的數(shù)據(jù),將其與機(jī)構(gòu)知識(shí)庫(kù)的成果數(shù)據(jù)關(guān)聯(lián),共同解決一些特定的需求。例如,分析特殊人才的科研產(chǎn)出時(shí),就需要用到人事部門的人事數(shù)據(jù)。如果要在底層進(jìn)行關(guān)聯(lián),一種做法是在人事系統(tǒng)中,調(diào)用機(jī)構(gòu)知識(shí)庫(kù)的視圖,然后在人事系統(tǒng)進(jìn)行分析與考核;另一種方式是依托科研成果共享平臺(tái)的支持,開發(fā)特定的應(yīng)用子系統(tǒng)(如特殊人才科研成果監(jiān)測(cè)系統(tǒng)),開放給有關(guān)部門與人員使用。機(jī)構(gòu)知識(shí)庫(kù)與職能部門的業(yè)務(wù)系統(tǒng)之間的關(guān)聯(lián)是雙向的,共享是相互的,只有這樣,才能創(chuàng)造一個(gè)校內(nèi)科研成果信息資源建設(shè)與利用的良性循環(huán)。
高??蒲谐晒麛?shù)據(jù)日趨重要,對(duì)科研成果數(shù)據(jù)的組織與管理也在不斷完善和發(fā)展。機(jī)構(gòu)知識(shí)庫(kù)是實(shí)現(xiàn)科學(xué)成果數(shù)據(jù)必不可少的工具?;跈C(jī)構(gòu)知識(shí)庫(kù)的科研成果數(shù)據(jù)的智能采集、科研成果數(shù)據(jù)的清洗、科研成果數(shù)據(jù)屬性深度揭示和科研成果數(shù)據(jù)的關(guān)聯(lián)與共享是高??蒲谐晒麛?shù)據(jù)組織和管理的具體實(shí)施方案。在筆者的實(shí)習(xí)和實(shí)踐過程中,還發(fā)現(xiàn)機(jī)構(gòu)知識(shí)庫(kù)重儲(chǔ)存與開放獲取,科研管理服務(wù)意識(shí)與功能不足;成果數(shù)據(jù)的質(zhì)量無法滿足當(dāng)前學(xué)校對(duì)科研成果的精細(xì)化要求;學(xué)校主管部門、師生缺乏對(duì)機(jī)構(gòu)知識(shí)庫(kù)的了解,對(duì)機(jī)構(gòu)知識(shí)庫(kù)認(rèn)可度低;師生參與機(jī)構(gòu)知識(shí)庫(kù)建設(shè)的積極性不高,成果認(rèn)領(lǐng)率低等問題有待解決。期望相關(guān)研究能夠推動(dòng)實(shí)踐的發(fā)展,促進(jìn)高校科研成果數(shù)據(jù)服務(wù)與機(jī)構(gòu)知識(shí)庫(kù)的更好融合。