, ,,,,
《中醫(yī)藥發(fā)展戰(zhàn)略規(guī)劃綱要(2016-2030年)》提出“建立和完善符合中醫(yī)藥特點的科研評價標(biāo)準(zhǔn)和體系”[1]。隨著中醫(yī)藥事業(yè)的不斷發(fā)展,中醫(yī)藥科技活動產(chǎn)生了大量的信息資源,急需建立完善的機制進(jìn)行過濾和評價,以促進(jìn)中醫(yī)藥科技的創(chuàng)新和發(fā)展[2-3]。學(xué)術(shù)論文是中醫(yī)藥科研活動的主要產(chǎn)出形式和交流手段,也是服務(wù)中醫(yī)藥創(chuàng)新發(fā)展的重要資源。中醫(yī)藥論文的評價和推優(yōu)既可表征中醫(yī)藥科學(xué)知識和科技發(fā)展的前沿與方向,也可為度量國家、機構(gòu)、人員等的科研實力提供客觀依據(jù)[4-5]。
由于學(xué)科的特殊性,盡管中醫(yī)藥論文數(shù)據(jù)增長迅速,但F1000[6]和F5000[7]等目前國內(nèi)外較為成熟的論文評價體系推介的中醫(yī)藥論文十分有限。而當(dāng)前中醫(yī)藥論文的評價指標(biāo)單一,缺乏客觀量化的綜合評價標(biāo)準(zhǔn)與體系和可直接用于中醫(yī)藥論文評價的基礎(chǔ)指標(biāo)數(shù)據(jù)庫,因此建立科學(xué)的中醫(yī)藥論文影響力評價系統(tǒng)十分必要。本文在遵循科技評價基本原則、參照國內(nèi)外現(xiàn)有評價指標(biāo)體系的基礎(chǔ)上[8-10],研發(fā)了中醫(yī)藥論文影響力評價系統(tǒng)(TCM-PIES)。該系統(tǒng)結(jié)合中醫(yī)藥學(xué)科及文獻(xiàn)特點,選取被引頻次、下載頻次、論文發(fā)表當(dāng)年影響因子為核心指標(biāo),并考慮發(fā)表時間等因素,對指標(biāo)進(jìn)行了修正。同時,為了減少單一評價方法造成的結(jié)果偏差,采用了TOPSIS和主成分分析兩種方法的組合評價。此外,針對基礎(chǔ)指標(biāo)數(shù)據(jù),調(diào)研、篩選了適用于中醫(yī)藥論文評價的文獻(xiàn)數(shù)據(jù)庫及指標(biāo)數(shù)據(jù),并進(jìn)行數(shù)據(jù)采集和匯總[11]。
明確以TCM-PIES作為主要操作平臺,為中醫(yī)藥論文影響力評價項目提供支持。參考現(xiàn)有的學(xué)術(shù)論文影響力評價項目管理和執(zhí)行流程[12],設(shè)計中醫(yī)藥評價系統(tǒng)業(yè)務(wù)流程(圖1)。
1.1.1 基礎(chǔ)數(shù)據(jù)維護(hù)
建立期刊數(shù)據(jù)庫,對中、英文期刊信息進(jìn)行管理和維護(hù)。其中中文期刊包括期刊名稱及其變更規(guī)范表、歷年影響因子、核心期刊收錄情況、下載率、被引率等,英文期刊包括期刊名稱及其變更規(guī)范表、歷年影響因子、分區(qū)、下載率、被引率等。
TCM-PIES支持?jǐn)?shù)據(jù)批量導(dǎo)入和自動匹配,針對中醫(yī)藥特定領(lǐng)域,支持將被引頻次、下載頻次、論文發(fā)表當(dāng)年影響因子作為評價的核心指標(biāo);并考慮發(fā)表時間等因素,支持人工審核和校驗,以便對指標(biāo)進(jìn)行修正。
1.1.2 評價過程管理
TCM-PIES對整個論文評價項目生命周期都能發(fā)揮作用,主要包括以下過程和功能。
數(shù)據(jù)清洗:實現(xiàn)了對各種粗?jǐn)?shù)據(jù)的清洗,其中包括查重、日期格式的轉(zhuǎn)換、頁碼格式的自動生成以及對錯誤的提示等。
論文題錄數(shù)據(jù)導(dǎo)入:針對中醫(yī)藥領(lǐng)域論文數(shù)據(jù)來源特點,支持多種來源(如CNKI、萬方、SinoMed等)、不同格式(Excel、cvs、txt格式等)的題錄數(shù)據(jù)導(dǎo)入和標(biāo)準(zhǔn)化,并進(jìn)行統(tǒng)一存儲。
論文指標(biāo)數(shù)據(jù)的導(dǎo)入:下載頻次、被引頻次等論文相關(guān)指標(biāo)數(shù)據(jù)的導(dǎo)入和匹配。
標(biāo)準(zhǔn)期刊匹配:基于論文題錄的期刊和出版年份信息,與標(biāo)準(zhǔn)期刊庫中的期刊進(jìn)行匹配。
評價數(shù)據(jù)集生成:以論文為單位,生成論文影響力評價所需的各項指標(biāo)數(shù)據(jù)。
論文影響力評價:對評價數(shù)據(jù)集進(jìn)行多種方法計算,并得到綜合分值和排名。
評價結(jié)果和報表生成:輸出評價結(jié)果及報表。
TCM-PIES系統(tǒng)從下到上分為數(shù)據(jù)層、數(shù)據(jù)管理層、業(yè)務(wù)邏輯層和應(yīng)用層(圖2)。
1.2.1 數(shù)據(jù)層
主要包括外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)。內(nèi)部數(shù)據(jù)由論文數(shù)據(jù)庫和期刊數(shù)據(jù)庫兩部分組成,外部數(shù)據(jù)指系統(tǒng)所能接受輸入的各類型數(shù)據(jù)(包括半結(jié)構(gòu)化和結(jié)構(gòu)化的數(shù)據(jù)),基本涵蓋了中醫(yī)藥文獻(xiàn)評價過程中所需的各類數(shù)據(jù)。
1.2.2 數(shù)據(jù)管理層
其中數(shù)據(jù)清洗與導(dǎo)入功能主要是將外部數(shù)據(jù)進(jìn)行清洗后導(dǎo)入到系統(tǒng)內(nèi)部,具體包括3部分:半結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入,即系統(tǒng)能對所需字段進(jìn)行匹配、去除不規(guī)則字符、去除重復(fù)記錄等,產(chǎn)生結(jié)構(gòu)化數(shù)據(jù);結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入,即對外部的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行字段匹配,進(jìn)行字段類型的轉(zhuǎn)換等處理;數(shù)據(jù)讀寫模塊主要負(fù)責(zé)系統(tǒng)內(nèi)部數(shù)據(jù)庫的讀取和更新。
1.2.3 業(yè)務(wù)邏輯層
包括業(yè)務(wù)模型、可視化引擎和算法庫3部分,業(yè)務(wù)模型主要指抽象出來的概念并能被計算機進(jìn)行處理的模型,包括期刊、論文題錄、影響力評價等;可視化渲染引擎支持統(tǒng)計圖表的渲染和報表的生成;算法庫在數(shù)據(jù)導(dǎo)入方面有題錄模糊匹配算法、期刊快速查找算法等。論文影響力評價算法是結(jié)合中醫(yī)藥學(xué)科及文獻(xiàn)特點,減少單一評價方法造成的結(jié)果偏差,實現(xiàn)了TOPSIS和主成分分析法的組合評價。
1.2.4 應(yīng)用層
主要表現(xiàn)為系統(tǒng)的具體功能。
數(shù)據(jù)錄入與導(dǎo)出:支持用戶對數(shù)據(jù)清洗、錄入和導(dǎo)出,實現(xiàn)與其他系統(tǒng)對接。
查詢統(tǒng)計和統(tǒng)計報表:基于各種統(tǒng)計方法,對業(yè)務(wù)模型進(jìn)行查詢和統(tǒng)計,統(tǒng)計報表的生成與輸出。
論文影響力評價:基于TOPSIS分析法、主成分分析法等多種算法,實現(xiàn)論文影響力評價分析。
圖2 TCM-PIES系統(tǒng)框架
對比已有的文獻(xiàn)影響力評價過程和方法, TCM-PIES具有以下優(yōu)勢。一是在總結(jié)大量實際項目的基礎(chǔ)上,合理設(shè)計業(yè)務(wù)流程,并將TCM-PIES作為主要操作平臺納入整個流程中;二是TCM-PIES提供了大量的數(shù)據(jù)清洗與導(dǎo)入功能,支持多來源、多格式的外部數(shù)據(jù),實用高效;三是結(jié)合中醫(yī)藥學(xué)科及文獻(xiàn)特點,減少單一評價方法造成的結(jié)果偏差,同時實現(xiàn)了TOPSIS和主成分分析兩種方法的組合評價,用戶不需要再借助其他統(tǒng)計分析軟件輔助計算,實現(xiàn)了從數(shù)據(jù)錄入到評價結(jié)果輸出的一站式分析功能;四是系統(tǒng)框架通用性、擴(kuò)展性好,可以為其他系統(tǒng)的實現(xiàn)提供參考。
TCM-PIES系統(tǒng)集項目管理及數(shù)據(jù)管理于一體的模式,為中醫(yī)藥科技評價提供了有效的技術(shù)借鑒。目前已在科研院所推優(yōu)以及中醫(yī)優(yōu)勢病種學(xué)術(shù)引導(dǎo)等項目評價中得到了有效應(yīng)用。
以2017年1月發(fā)布的“糖尿病中醫(yī)藥臨床研究最具影響力論文”為例。遴選2006-2015年期間在國內(nèi)公開出版學(xué)術(shù)期刊發(fā)表的糖尿病(無伴發(fā)、繼發(fā)疾病)中醫(yī)藥臨床及相關(guān)理論研究論文。評選的核心指標(biāo)包括被引頻次、下載頻次以及期刊影響因子,并結(jié)合發(fā)表時間等因素,納入修正指標(biāo)。根據(jù)檢索策略,檢索中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫、萬方數(shù)據(jù)知識服務(wù)平臺、中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所期刊文獻(xiàn)數(shù)據(jù)庫等數(shù)據(jù)庫,下載不同來源的文獻(xiàn)題錄,導(dǎo)入TCM-PIES系統(tǒng),經(jīng)系統(tǒng)合并去重后,建立參評論文表,并導(dǎo)入和匹配論文下載頻次、被引頻次、發(fā)表當(dāng)年期刊影響因子等相關(guān)指標(biāo)數(shù)據(jù),形成評價數(shù)據(jù)集。在此基礎(chǔ)上,采用TOPSIS和PCA分析法相結(jié)合的分析方法,計算論文的綜合影響力得分,輸出評價排序結(jié)果及報表。根據(jù)系統(tǒng)計算的綜合值排序,研究人員擇優(yōu)推選出最具影響力論文68篇,供廣大中醫(yī)藥工作者在臨床、科研實踐中參考[13]。
以上工作完善和規(guī)范了中醫(yī)藥論文評價工作,但在實際應(yīng)用過程中,還存在諸多的問題,對建立中醫(yī)藥論文影響力技術(shù)支持提出了迫切需求。
學(xué)術(shù)論文影響力評價所使用的數(shù)據(jù)可以分為論文數(shù)據(jù)和期刊數(shù)據(jù)。論文數(shù)據(jù)包括被引情況、下載情況以及題錄信息等,期刊數(shù)據(jù)則包括發(fā)表期刊是否為核心刊以及影響因子數(shù)據(jù)等。此外,數(shù)據(jù)按語種還可分為中文數(shù)據(jù)、外文數(shù)據(jù)。各種數(shù)據(jù)來源廣泛,包含的屬性信息也有差異,因此需要構(gòu)建完善的業(yè)務(wù)流程及統(tǒng)一的數(shù)據(jù)模型,才能兼容各種數(shù)據(jù)格式的導(dǎo)入和實現(xiàn)學(xué)術(shù)論文影響力評價分析。
一是不同來源的數(shù)據(jù)格式不同,數(shù)據(jù)質(zhì)量也參差不齊,如出版日期、頁碼等屬性容易出現(xiàn)格式不正確和信息不完整等問題;二是不少信息需要人工進(jìn)行核實和校正,如期刊存在改名、停刊、合并等現(xiàn)象。
計算過程較復(fù)雜,人工處理容易出錯。目前大多數(shù)科技影響力的評價計算都利用SPSS或SAS等統(tǒng)計軟件[14-15]。其優(yōu)點是能直接使用其已有的算法模塊;缺點是在實際操作過程中,特別是需要對納入指標(biāo)和參數(shù)進(jìn)行反復(fù)調(diào)優(yōu)時,半自動化的操作難免產(chǎn)生人為遺漏或錯誤。此外,業(yè)務(wù)流程有待優(yōu)化,不同項目難以進(jìn)行共享和重用。
本文建立了中醫(yī)藥論文影響力評價系統(tǒng)TCM-PIES,并在學(xué)術(shù)論文評價遴選中成功應(yīng)用。TCM-PIES不僅可以提高評價效率,而且能為其他類似系統(tǒng)的設(shè)計和功能實現(xiàn)提供參考。
針對目前系統(tǒng)存在的具體問題,下一步將進(jìn)一步完善該系統(tǒng)已有的功能,包括完善組織機構(gòu)、作者等實體信息,增加更多的數(shù)據(jù)處理和分析算法,豐富儲備數(shù)據(jù),力爭將該系統(tǒng)建成論文影響力評價領(lǐng)域的代表性工具。