贠 濤,張金倩楠,李?yuàn)檴櫍w新力,2
(1.中國(guó)科學(xué)技術(shù)交流中心,北京 100045;2.清華大學(xué)中國(guó)科技政策研究中心,北京 100084)
科技評(píng)價(jià)可以判斷科學(xué)技術(shù)活動(dòng)及其產(chǎn)出影響價(jià)值,是保證科技事業(yè)健康、可持續(xù)發(fā)展的重要手段[1]。具體到科研項(xiàng)目這一類科技活動(dòng),國(guó)際上通常應(yīng)用同行評(píng)審作為確定項(xiàng)目立項(xiàng)的重要參考[2]。同行評(píng)審已經(jīng)在科學(xué)活動(dòng)中使用了三百多年[3]。1752年英格蘭皇家學(xué)會(huì)為《哲學(xué)匯刊》成立專門的論文評(píng)審委員會(huì)標(biāo)志著同行評(píng)審制度的誕生[4],1937年在美國(guó)成立的國(guó)家癌癥咨詢委員會(huì)標(biāo)志著同行評(píng)審制度在美國(guó)開始應(yīng)用。如今,同行評(píng)審制度已在世界各國(guó)的各個(gè)領(lǐng)域普遍使用,也是當(dāng)今科學(xué)界不可或缺的重要工具。
但是同行評(píng)審制度本身也存在不少問題,專家遴選制度和評(píng)議過程都有可能受經(jīng)濟(jì)利益、社會(huì)關(guān)系、競(jìng)爭(zhēng)關(guān)系、個(gè)人偏好等因素影響而引發(fā)不公正的同行評(píng)審。孫平[5]、郭碧堅(jiān)等[6]從同行評(píng)議制度的根源出發(fā)分析該制度的缺陷,并對(duì)影響該制度公正性的各種原因進(jìn)行了探討除此之外,評(píng)審專家的評(píng)審行為容易也受到項(xiàng)目申請(qǐng)者在科研領(lǐng)域業(yè)績(jī)方面聲望的影響[7]。為了維護(hù)同行評(píng)議和專家評(píng)審的科學(xué)、公正、公平、客觀,許多研究者提出了各種解決方案。孟陶然等[8]分析了專家抽取不均衡性,并提出了提高抽取次數(shù)較少專家的抽中概率的方法。龔旭[9]論建模提出評(píng)分偏差模型用以計(jì)算異常評(píng)分偏差、科研項(xiàng)目爭(zhēng)議性和專家評(píng)分慣性對(duì)異常評(píng)分進(jìn)行預(yù)測(cè)。徐洪峰[10]提出了基于距離和相關(guān)系數(shù)的專家反評(píng)估模型用來(lái)衡量評(píng)審效果和水平,并基于云模型檢測(cè)異常評(píng)分?jǐn)?shù)據(jù)。靳健等人[11]構(gòu)造了整數(shù)優(yōu)化模型以高效地為多篇待審文稿推薦評(píng)審專家的方法,提高了評(píng)審契合度。
在國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目評(píng)審的具體實(shí)踐中,為了更好地維護(hù)評(píng)審結(jié)果的公正客觀,項(xiàng)目管理機(jī)構(gòu)一般會(huì)在國(guó)家科技專家?guī)煜到y(tǒng)中隨機(jī)抽取17 位專家,對(duì)特定組別的項(xiàng)目進(jìn)行評(píng)審。在“一帶一路”國(guó)際科技合作項(xiàng)目評(píng)審中同樣也遵循這一規(guī)則。但是由于國(guó)際合作項(xiàng)目不下設(shè)課題,每個(gè)項(xiàng)目的經(jīng)費(fèi)體量較小,且領(lǐng)域分布較為分散(包括農(nóng)業(yè)、醫(yī)藥健康、先進(jìn)制造、資源、環(huán)境、材料等14個(gè)領(lǐng)域),導(dǎo)致評(píng)審分組較多但組內(nèi)項(xiàng)目較少。因此,評(píng)審環(huán)節(jié)費(fèi)用偏高、評(píng)審環(huán)節(jié)的投入產(chǎn)出比較低,給項(xiàng)目管理機(jī)構(gòu)帶來(lái)了較大負(fù)擔(dān),成為了項(xiàng)目評(píng)審立項(xiàng)管理環(huán)節(jié)中的一個(gè)難點(diǎn)。當(dāng)前,尚未有針對(duì)科技項(xiàng)目評(píng)審專家人數(shù)設(shè)定的相關(guān)研究報(bào)道。
本文從“一帶一路”國(guó)際科技合作項(xiàng)目評(píng)審實(shí)踐出發(fā),探究了在盡量不影響評(píng)審質(zhì)量的前提下進(jìn)一步精簡(jiǎn)評(píng)審專家人數(shù)的可能性。這一問題可通過分析減少若干評(píng)審專家后,項(xiàng)目得票排序的改變程度來(lái)回答。利用實(shí)際評(píng)審過程中評(píng)審專家對(duì)各項(xiàng)目的打分表,可以獲得若干位評(píng)審專家所打分?jǐn)?shù)在不計(jì)入最終評(píng)分的情況下,產(chǎn)生的新的項(xiàng)目排序序列。通過對(duì)比新的排序結(jié)果與實(shí)際的評(píng)審結(jié)果,對(duì)項(xiàng)目立項(xiàng)的影響將會(huì)分為兩種情況:1.在兩組立項(xiàng)序列項(xiàng)目相同,但順序改變;2.相比于一組立項(xiàng)序列,另一組序列中出現(xiàn)若干立項(xiàng)項(xiàng)目的替換。
斯皮爾曼[12]等級(jí)相關(guān)系數(shù)常用來(lái)刻畫變量間的單調(diào)相關(guān)的顯著程度,可以利用兩個(gè)變量以升序或者降序的元素排名大小作線性相關(guān)分析來(lái)反映兩個(gè)變量之間聯(lián)系的密切程度,應(yīng)用于優(yōu)先考慮數(shù)據(jù)次序的場(chǎng)景。在圖像相關(guān)性分析方面,朱亞輝[13]使用斯皮爾曼等級(jí)相關(guān)系數(shù)對(duì)相似程度較高的評(píng)價(jià)指標(biāo)進(jìn)行了合理聚類;賈曉芬等[14]借助斯皮爾曼等級(jí)相關(guān)系數(shù)提高了彩色圖像中噪點(diǎn)和邊緣點(diǎn)的檢測(cè)率與檢測(cè)精度;張文耀[15]引入斯皮爾曼等級(jí)相關(guān)系數(shù)來(lái)度量網(wǎng)絡(luò)的度相關(guān),它與參數(shù)無(wú)關(guān)且適合大規(guī)模網(wǎng)絡(luò)。
上述兩種專家對(duì)項(xiàng)目立項(xiàng)結(jié)果的影響程度衡量場(chǎng)景與斯皮爾曼等級(jí)相關(guān)系數(shù)的適用場(chǎng)景十分一致。因此,本文選擇斯皮爾曼等級(jí)相關(guān)系數(shù)來(lái)定量衡量評(píng)審專家數(shù)量對(duì)項(xiàng)目立項(xiàng)的影響程度,這在專家評(píng)審影響評(píng)價(jià)方面具有一定創(chuàng)新性。
本文提出的方法力圖衡量不同數(shù)量的專家組合對(duì)同行評(píng)審的影響,即i 位專家在特定項(xiàng)目評(píng)審規(guī)則下(國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目評(píng)審規(guī)則)對(duì)立項(xiàng)結(jié)果產(chǎn)生的影響。在此研究背景下,最終根據(jù)評(píng)審專家對(duì)評(píng)審項(xiàng)目的評(píng)分和項(xiàng)目評(píng)審立項(xiàng)規(guī)則,可以獲得某評(píng)審組的立項(xiàng)序列。項(xiàng)目序列指的是通過評(píng)審后,按照優(yōu)先次序排序的有序項(xiàng)目對(duì)象。表1 中顯示了本文中使用的符號(hào)及其定義。
表1 本文涉及的符號(hào)及定義
這里借助圖1、圖2 來(lái)闡述兩種專家組合產(chǎn)生的影響。圖1 與圖2 左端的序列都是由原始專家評(píng)分?jǐn)?shù)據(jù)集,根據(jù)立項(xiàng)評(píng)審規(guī)則r 產(chǎn)生的長(zhǎng)度為6 的項(xiàng)目結(jié)果序列p(6),而結(jié)果序列p(6)中的1 6 序號(hào)代表在整個(gè)項(xiàng)目排序中前6 位的項(xiàng)目。原始專家評(píng)分?jǐn)?shù)據(jù)集中除去某j 位專家組合之后的專家評(píng)分?jǐn)?shù)據(jù)集,根據(jù)立項(xiàng)評(píng)審規(guī)則r 產(chǎn)生的長(zhǎng)度為i 的項(xiàng)目結(jié)果序列q(i,j)。如果q(i,j)中項(xiàng)目序列仍由p(i)中的項(xiàng)目集組成,只是項(xiàng)目之間的順序發(fā)生了變化,即為這里定義的第一種序列影響。如圖1 所示,右端的序列q(6,j)仍為p(6)中項(xiàng)目集組成,并且項(xiàng)目序號(hào)仍使用p(6)中的項(xiàng)目序號(hào),只是項(xiàng)目之間的順序發(fā)生了改變。如果q(i,j)中項(xiàng)目序列的項(xiàng)目集對(duì)比p(i)中的項(xiàng)目集發(fā)生了項(xiàng)目替換,即為這里定義的第二種序列影響。如圖2 所示,右端的序列q(6,j)對(duì)比p(6)中項(xiàng)目集,出現(xiàn)了7 號(hào)項(xiàng)目替換p(6)中的6 號(hào)項(xiàng)目進(jìn)入項(xiàng)目立項(xiàng)結(jié)果集。
圖1 第一種專家組合對(duì)項(xiàng)目立項(xiàng)的影響
圖2 第二種專家組合對(duì)項(xiàng)目立項(xiàng)的影響
這兩種序列影響都可以在項(xiàng)目序列排名的基礎(chǔ)上使用斯皮爾曼等級(jí)相關(guān)系數(shù)來(lái)定量衡量。斯皮爾曼等級(jí)相關(guān)系數(shù)的基本定義為:2個(gè)定序n維隨機(jī)變量X和Y的排名之間的皮爾遜0 相關(guān)系數(shù)。隨機(jī)變量的之間的斯皮爾曼等級(jí)相關(guān)系數(shù)可以表示為:
當(dāng)獲得一對(duì)項(xiàng)目立項(xiàng)序列,兩組序列中對(duì)應(yīng)項(xiàng)目元素的排名差值是可獲取的,那么我們研究的在同行評(píng)審過程中的共謀行為就可以通過斯皮爾曼等級(jí)相關(guān)系數(shù)的定量數(shù)值進(jìn)行衡量。對(duì)于第一種重復(fù)立項(xiàng)的項(xiàng)目的順序產(chǎn)生序列影響,兩組立項(xiàng)序列對(duì)應(yīng)的項(xiàng)目集合是一樣的,使用對(duì)應(yīng)項(xiàng)目元素的差值根據(jù)公式2 進(jìn)行衡量。對(duì)于第二種序列影響,相比于一組立項(xiàng)序列,另一組序列中存在新增的立項(xiàng)項(xiàng)目,所以兩組立項(xiàng)序列對(duì)應(yīng)的項(xiàng)目集合是不同的,這里采用一個(gè)新增項(xiàng)目或落選項(xiàng)目的最大索引的方法來(lái)切分獲得最小有效序列長(zhǎng)度。
例如圖3,相比于p(6),在q(6,j)中新增的項(xiàng)目序號(hào)7,代表在原始的項(xiàng)目序列p 中排名第7 位的項(xiàng)目,也就是在p 中索引號(hào)為7,而相較于q(6,j),p(6)中序號(hào)為6 的項(xiàng)目,在q 中將會(huì)被替換到第9 位,也就是索引號(hào)為9。就像圖3 中選擇7 和9 之間的較大值9 作為新增項(xiàng)目影響的序列長(zhǎng)度值,如果選擇所有q(i,j)中新增項(xiàng)目在序列p 中索引號(hào)最大值和p(i)中被替換項(xiàng)目在序列q 中索引號(hào)最大值之間的較大值,這個(gè)值就是對(duì)于第二種影響這一對(duì)項(xiàng)目序列中完整包含項(xiàng)目新增加和被替換情況的最小序列長(zhǎng)度。然后利用等式2 進(jìn)行計(jì)算。
圖3 第二種專家組合影響的斯皮爾曼等級(jí)系數(shù)計(jì)算思路
本方法使用等系數(shù)加權(quán)來(lái)獲得兩種影響的平均值。按照以上分析方法思路,編寫了“評(píng)議人組合影響評(píng)估算法”和“評(píng)議人影響相關(guān)系數(shù)”算法程序,應(yīng)用于后續(xù)實(shí)證研究的大量數(shù)據(jù)計(jì)算。
本文基于“十三五”期間5 批次國(guó)家重點(diǎn)研發(fā)計(jì)劃“一帶一路”國(guó)際合作項(xiàng)目評(píng)審工作,采用項(xiàng)目評(píng)審原始真實(shí)的專家打分?jǐn)?shù)據(jù)對(duì)本文方法進(jìn)行驗(yàn)證分析和探討。表2 是一次項(xiàng)目評(píng)審產(chǎn)生的17 位評(píng)審專家對(duì)18 項(xiàng)評(píng)審項(xiàng)目的評(píng)分?jǐn)?shù)據(jù)表,在表格中使用Ri代表17 位項(xiàng)目評(píng)審專家,Pj代表18 項(xiàng)評(píng)審項(xiàng)目。
表2 國(guó)家重點(diǎn)研發(fā)計(jì)劃某評(píng)審組專家對(duì)組內(nèi)項(xiàng)目的原始打分表
各個(gè)學(xué)科領(lǐng)域的同行評(píng)審活動(dòng)都有各自的評(píng)審規(guī)則,而本文的實(shí)驗(yàn)依據(jù)同行評(píng)審中項(xiàng)目立項(xiàng)評(píng)審的規(guī)則r 如下:
(1)評(píng)審專家對(duì)參與評(píng)審的項(xiàng)目進(jìn)行百分制打分,原則上單次評(píng)審專家數(shù)目為17 位;
(2)在評(píng)分?jǐn)?shù)據(jù)中,評(píng)分75 及以上表示支持此項(xiàng)目,低于75 分表示不支持該項(xiàng)目。按照評(píng)審專家對(duì)項(xiàng)目的評(píng)分,對(duì)項(xiàng)目進(jìn)行計(jì)票;
(3)對(duì)項(xiàng)目進(jìn)行票數(shù)排序,同樣票數(shù)以評(píng)分高低作為第二排序標(biāo)準(zhǔn);
(4)立項(xiàng)項(xiàng)目所得贊成票須不少于評(píng)審專家數(shù)的一半。
首先,在如表2 所示的單個(gè)評(píng)分?jǐn)?shù)據(jù)表基礎(chǔ)上,對(duì)本文提出方法進(jìn)行實(shí)驗(yàn)。在不同數(shù)量評(píng)審專家的全部組合情況下,評(píng)審專家組合的評(píng)分是否計(jì)入立項(xiàng)計(jì)算依據(jù),得到相應(yīng)情況下立項(xiàng)項(xiàng)目序列對(duì),進(jìn)而應(yīng)用斯皮爾曼等級(jí)相關(guān)系數(shù)得到各個(gè)組合對(duì)應(yīng)的影響值。圖4 展示了在評(píng)審專家組合中專家人數(shù)分別為1,2,7,8 時(shí),評(píng)審專家組合產(chǎn)生影響最大的前10%影響值(按照遞減排名)。由于原始斯皮爾曼等級(jí)相關(guān)系數(shù)的取值范圍為[-1,1],當(dāng)?shù)玫皆u(píng)審專家組合對(duì)應(yīng)的越小,越接近于-1,代表該評(píng)審專家組合在項(xiàng)目評(píng)審中產(chǎn)生影響越大。左子圖是1-4 位評(píng)審專家組合圖像,右子圖是5-8 位評(píng)審專家組合圖像。結(jié)合兩子圖可以看到,各條曲線的圖像趨勢(shì)都是增長(zhǎng)減緩的上升趨勢(shì),代表本i 位評(píng)審專家組合的影響遞減排名中,評(píng)審專家組合影響越大,他們的值越小。通過兩圖對(duì)比可以看到,隨著評(píng)審專家位數(shù)的增加,其圖像總是在圖的右下方延伸。在各人數(shù)組合同一位次,隨著評(píng)審專家組合中人數(shù)增加,他們產(chǎn)生的影響值在變小,代表在項(xiàng)目評(píng)審中產(chǎn)生的影響在增大。
圖4 排除不同數(shù)目評(píng)審專家打分后影響最大的前10%分布
我們將歷年的評(píng)審數(shù)據(jù)進(jìn)行了綜合分析,圖5展示的是在不同數(shù)目評(píng)審專家(1-8)組合下,隨組合中評(píng)審專家人數(shù)增加,產(chǎn)生影響的平均值為減小趨勢(shì)。影響的平均值從一位評(píng)審專家的0.43 下降到8 位評(píng)審專家的0.34。當(dāng)排除掉的評(píng)審專家人數(shù)越多,與原項(xiàng)目評(píng)審結(jié)果的差異程度就越大。
圖5 排除不同數(shù)目評(píng)審專家的影響平均值
另外,我們還考慮了如果某些專家在某些因素的影響下,對(duì)特定的項(xiàng)目看法趨于一致時(shí)對(duì)評(píng)審結(jié)果的影響。因此,這里將原方法中“某個(gè)評(píng)審專家組合的原始評(píng)分是否計(jì)入立項(xiàng)計(jì)算依據(jù)”,改動(dòng)為使用統(tǒng)一分?jǐn)?shù)值進(jìn)行填充。在本實(shí)驗(yàn)的評(píng)分規(guī)則中75 分作為項(xiàng)目評(píng)價(jià)的分界點(diǎn),評(píng)分小于75 分代表否認(rèn)該項(xiàng)目,評(píng)分大于75 分代表支持該項(xiàng)目,故下面的實(shí)驗(yàn)中使用0 分,70 分,75 分,100 分來(lái)替換、填充評(píng)審專家組合的評(píng)分來(lái)探索組合影響區(qū)間特征。
如圖6 所示,它展示了2 到7 位評(píng)審專家組合的變化曲線,左子圖為表4 評(píng)分?jǐn)?shù)據(jù)表進(jìn)行評(píng)審專家組合分?jǐn)?shù)填充替換之后得到的評(píng)分影響區(qū)間圖像,右子圖為另一份數(shù)據(jù)維度相同的評(píng)分?jǐn)?shù)據(jù)表的相應(yīng)圖像。在左子圖中,直到評(píng)審專家組合人數(shù)達(dá)到3位之后評(píng)分填充產(chǎn)生的影響開始出現(xiàn)明顯變化,主要表現(xiàn)為0 分和70 分填充的影響值變大,代表評(píng)審專家組合影響變小,而75 分和100 分填充則出現(xiàn)影響值變小,即評(píng)審專家組合的影響變大的情況。
圖6 不同評(píng)審專家組合分?jǐn)?shù)填充情況下斯皮爾曼方法計(jì)算的影響值
而在右子圖,在評(píng)審專家組合人數(shù)達(dá)到2 位之后,75 分和100 分填充曲線繼續(xù)重合,呈現(xiàn)下降趨勢(shì),而對(duì)于0 分和70 分填充重合曲線,呈現(xiàn)上升趨勢(shì)。右子圖中,兩對(duì)重合曲線的變化范圍稍大于左子圖中曲線,主要體現(xiàn)在0 分與70 分重合曲線影響值的持續(xù)升高。綜合上圖,隨著組合中評(píng)審專家位數(shù)的增大,當(dāng)使用大于等于75 分分?jǐn)?shù)填充進(jìn)行項(xiàng)目評(píng)審,評(píng)審專家組合的影響會(huì)逐步變大,而小于75 分的分?jǐn)?shù)填充帶來(lái)的評(píng)審專家組合影響會(huì)逐步變小。
當(dāng)前,在國(guó)家重點(diǎn)研發(fā)計(jì)劃“一帶一路”國(guó)際科技合作項(xiàng)目的評(píng)審階段,每一組項(xiàng)目須由17 位專家審閱申報(bào)書并結(jié)合申報(bào)人答辯情況,各自獨(dú)立作出立項(xiàng)與否的判斷。國(guó)際合作項(xiàng)目為全領(lǐng)域覆蓋征集,在評(píng)審答辯階段往往分組較多,邀請(qǐng)的專家人數(shù)也較多。本文針對(duì)“一帶一路”國(guó)際科技合作項(xiàng)目評(píng)審環(huán)節(jié)評(píng)審支出費(fèi)用偏高,評(píng)審環(huán)節(jié)的投入產(chǎn)出比較低的問題,基于國(guó)際科技合作項(xiàng)目“十三五”項(xiàng)目評(píng)審歷史打分?jǐn)?shù)據(jù),利用斯皮爾曼等級(jí)相關(guān)系數(shù)設(shè)計(jì)了影響系數(shù)的計(jì)算方法,衡量排除不同數(shù)量評(píng)審專家打分對(duì)“一帶一路”國(guó)際科技合作項(xiàng)目評(píng)審結(jié)果影響,發(fā)現(xiàn)在專家評(píng)審人數(shù)依然有進(jìn)一步優(yōu)化的空間。圖5 給出了排除掉不同數(shù)量專家評(píng)分后對(duì)評(píng)審結(jié)果的平均影響值,近似一條平滑的直線。從1 人影響值的0.43,下降至8 人影響值的0.34。結(jié)合圖4 所展現(xiàn)的不同數(shù)目專家打分排除后對(duì)結(jié)果影響最大的前10%分布,本文認(rèn)為在立項(xiàng)結(jié)果影響值不大的前提下,建議可進(jìn)一步減少6 位答辯評(píng)審專家,以明顯降低項(xiàng)目評(píng)審環(huán)節(jié)成本。
同時(shí),本文也考慮到在特殊情形下,若干位專家可能對(duì)特定項(xiàng)目做出非基于專業(yè)判斷的評(píng)價(jià),因此探討了在不同數(shù)目專家同時(shí)對(duì)某項(xiàng)目給出通過或者不通過分?jǐn)?shù)時(shí)對(duì)評(píng)審結(jié)果的影響。發(fā)現(xiàn)專家均持肯定態(tài)度時(shí)對(duì)于評(píng)審結(jié)果的影響較大。因此,我們建議在評(píng)審過程中,應(yīng)當(dāng)盡量減少干擾專家評(píng)判項(xiàng)目的因素(比如將專家評(píng)審前公示優(yōu)化為專家評(píng)審后公示),繼續(xù)強(qiáng)化對(duì)評(píng)審專家行為的監(jiān)督,暢通對(duì)“打招呼”行為的舉報(bào)渠道,對(duì)于違規(guī)的評(píng)審專家進(jìn)行嚴(yán)格的誠(chéng)信記錄和懲戒。我們希望通過此研究能夠在項(xiàng)目管理的實(shí)踐中進(jìn)一步提高效率,并保證項(xiàng)目評(píng)審的公平公正。本研究可以為其它類別同行專家評(píng)審人數(shù)的優(yōu)化提供參考。