胡安寧,李東雨,陳 滔
(1.復(fù)旦大學(xué)研究生院,上海 200433;2.復(fù)旦大學(xué)社會(huì)發(fā)展與公共政策學(xué)院,上海 200433)
論文匿名評(píng)審制度是現(xiàn)代科研評(píng)價(jià)體系的基本制度[1]。以最常見(jiàn)的雙盲評(píng)審為例,論文作者與評(píng)審人互不知曉對(duì)方信息,僅以論文作為彼此溝通的憑借。這一制度的優(yōu)勢(shì)在于可以克服論文評(píng)價(jià)過(guò)程中的“人情”因素,以期客觀公正地評(píng)價(jià)一項(xiàng)研究的優(yōu)劣。因此,雖然圍繞匿名評(píng)審制度一直存在種種爭(zhēng)議,但論文需通過(guò)匿名評(píng)審方可發(fā)表已經(jīng)成為世界上絕大多數(shù)學(xué)術(shù)期刊的通例。
考慮到論文匿名評(píng)審制度的這一優(yōu)勢(shì),過(guò)去一段時(shí)間以來(lái),國(guó)內(nèi)很多高校也開始采用匿名評(píng)審制度來(lái)處理畢業(yè)論文的質(zhì)量評(píng)判問(wèn)題[2-3]。雖然各校的政策各有差異,但是基本上都要求學(xué)生在最終答辯之前,其論文要通過(guò)外審專家的審閱,否則有可能喪失答辯資格乃至學(xué)位申請(qǐng)資格[4-5]。由于這一制度將學(xué)生論文的評(píng)價(jià)權(quán)交予校外評(píng)審人,可在一定程度上遏制本校教師評(píng)價(jià)過(guò)程中可能存在的人情關(guān)系因素,故而被很多高校爭(zhēng)相效仿。然而,到目前為止,對(duì)于這一制度可能存在的弊端卻鮮有思考[6-9]。
在此背景下,本文希望借助一個(gè)非常簡(jiǎn)單的數(shù)學(xué)模型來(lái)說(shuō)明:即使評(píng)審人如校方所預(yù)想的那樣具有比較高的論文鑒別力,一旦后續(xù)校方僅僅依據(jù)匿名評(píng)審結(jié)果判定論文質(zhì)量,并以此決定學(xué)生是否有資格答辯和取得學(xué)位,將會(huì)產(chǎn)生相當(dāng)高概率的“錯(cuò)判”,在判為不合格的論文中有很高比例的合格論文?;谶@一基本模型,研究進(jìn)一步考慮了多種更為復(fù)雜的情況,包括多人評(píng)判(一票否決以及少數(shù)服從多數(shù)兩種情況)、多輪評(píng)判(論文經(jīng)過(guò)多輪評(píng)議)以及多類別評(píng)判(評(píng)判結(jié)論并非過(guò)與不過(guò)的二元判斷,而是涉及多個(gè)評(píng)判結(jié)論)。基于這些討論,我們展示了潛在“誤判”問(wèn)題的普遍性。
研究對(duì)于畢業(yè)論文匿名評(píng)審制度的討論具有很強(qiáng)的現(xiàn)實(shí)意義。對(duì)論文質(zhì)量的判定關(guān)系到學(xué)生能否畢業(yè)和取得學(xué)位,進(jìn)而與后續(xù)的就業(yè)、出國(guó)等事項(xiàng)高度相關(guān),此種問(wèn)題對(duì)于那些被錯(cuò)判的學(xué)生而言關(guān)系重大,因此應(yīng)當(dāng)?shù)玫礁鞣矫娴母叨戎匾?,并盡可能予以避免。同時(shí),對(duì)于高等教育機(jī)構(gòu)而言,此類誤判問(wèn)題的發(fā)生直接關(guān)系到對(duì)優(yōu)秀人才的吸引力、管理制度設(shè)置的公正合理性以及學(xué)校的學(xué)術(shù)聲譽(yù)與學(xué)術(shù)影響力。因此,無(wú)論是從學(xué)生還是從學(xué)校的角度出發(fā),畢業(yè)論文的匿名評(píng)審制度都需要扎實(shí)細(xì)致的制度設(shè)計(jì),倉(cāng)促使用并不可取。
研究生學(xué)位論文是新生代科研從業(yè)者能力的重要體現(xiàn),往往能為學(xué)術(shù)共同體帶來(lái)創(chuàng)新性貢獻(xiàn)[10]。1981 年的《中華人民共和國(guó)學(xué)位條例暫行實(shí)施辦法》規(guī)定,博士學(xué)位論文應(yīng)經(jīng)同行評(píng)議。當(dāng)時(shí)的同行評(píng)議制度中的評(píng)議人和作者是相互知曉的。2014 年中華人民共和國(guó)國(guó)務(wù)院學(xué)位委員會(huì)、教育部印發(fā)《關(guān)于加強(qiáng)學(xué)位與研究生教育質(zhì)量保證和監(jiān)督體系建設(shè)的意見(jiàn)》,要求各單位加強(qiáng)匿名評(píng)閱制度建設(shè)。自此,匿名評(píng)審制度逐漸成為高校學(xué)位論文審核的普遍標(biāo)準(zhǔn)。
正如前文所述,匿名評(píng)審制度有利于通過(guò)規(guī)避“人情”因素來(lái)提升學(xué)位論文質(zhì)量。中國(guó)社會(huì)是一個(gè)講人情和面子的社會(huì)[11],因此在學(xué)位論文評(píng)價(jià)方面,人情和面子因素有可能影響評(píng)審人的最終評(píng)閱結(jié)果。相比而言,匿名評(píng)審則讓論文評(píng)閱過(guò)程擺脫了可能存在的拉關(guān)系、走后門現(xiàn)象[12-13]。這也間接調(diào)動(dòng)了研究生導(dǎo)師指導(dǎo)學(xué)生的積極性,從而提高了研究生學(xué)位論文的質(zhì)量[14-15]。從更為微觀的社會(huì)互動(dòng)過(guò)程角度來(lái)講,匿名評(píng)審制度通過(guò)將作者信息隱去,在一定程度上避免了由刻板印象導(dǎo)致的評(píng)審人的主觀偏差。這種偏差會(huì)和作者的諸多社會(huì)信息有關(guān),如性別[16]、前期學(xué)術(shù)積累[17]、作者所屬機(jī)構(gòu)[18]等,匿名評(píng)審制度中隱藏了作者的此類信息,從而有效地避免了因?yàn)樯鐣?huì)信息和刻板印象帶來(lái)的偏差。
盡管論文匿名評(píng)審制度具有一定的優(yōu)勢(shì),但其可能存在的弊端也是不容忽視的。例如,論文匿名評(píng)審制度更多關(guān)注的是如何排除人情關(guān)系等非學(xué)術(shù)因素,但對(duì)于如何有效提升論文的質(zhì)量關(guān)心較少[19]。一些研究認(rèn)為,匿名評(píng)審制度對(duì)于提升論文質(zhì)量的效果是較為有限的[20]。一項(xiàng)實(shí)驗(yàn)研究發(fā)現(xiàn),雙盲評(píng)審并不能提升審稿人發(fā)現(xiàn)論文中錯(cuò)誤的概率[21]。針對(duì)學(xué)位論文雙盲評(píng)審的研究也指出,不應(yīng)對(duì)雙盲評(píng)審保障論文質(zhì)量的作用有過(guò)高的期待,學(xué)生在論文寫作過(guò)程中的態(tài)度、導(dǎo)師在過(guò)程中的指導(dǎo)和學(xué)校在全流程中的監(jiān)督才是提升學(xué)位論文質(zhì)量的關(guān)鍵[2]。
就匿名評(píng)審過(guò)程中的誤判問(wèn)題而言,現(xiàn)有研究有一定的討論。例如,對(duì)論文質(zhì)量的準(zhǔn)確判斷依賴于兩份或多份評(píng)審意見(jiàn)的一致性,但評(píng)審人意見(jiàn)不一致甚至完全相左的情況十分常見(jiàn)[22-23]。此外,學(xué)位論文綜合評(píng)議結(jié)果與分項(xiàng)評(píng)議結(jié)果不一致的狀況時(shí)有發(fā)生,也影響了對(duì)論文質(zhì)量的判斷[2]。
除了評(píng)價(jià)一致性之外,學(xué)位論文匿名評(píng)審結(jié)果出現(xiàn)偏差的原因可以進(jìn)一步從評(píng)閱者和論文送審兩個(gè)方面進(jìn)行討論。就評(píng)審者而言,全國(guó)高校學(xué)位論文答辯和送審的時(shí)間較為集中,評(píng)審專家往往需要在短時(shí)間內(nèi)評(píng)閱大量的學(xué)位論文,同時(shí)還要兼顧自身的教學(xué)、科研和行政工作,很難在論文評(píng)審上投入充足的時(shí)間[3]。此外,論文的匿名評(píng)審選擇一般由非專業(yè)的教學(xué)行政管理部門負(fù)責(zé),存在一定的匹配偏差[24],直接影響對(duì)論文質(zhì)量評(píng)判的準(zhǔn)確性[25]。一些評(píng)審專家在主觀上也較為懈怠,評(píng)閱態(tài)度不端正,這也會(huì)造成評(píng)閱過(guò)程的“失準(zhǔn)”。
論文匿名評(píng)審過(guò)程中的誤判也和論文本身的特點(diǎn)相關(guān)。整體而言,更具開創(chuàng)性、前沿性的高質(zhì)量論文和涉及學(xué)科交叉領(lǐng)域的論文在匿名評(píng)審中容易被錯(cuò)判[26-27]。一項(xiàng)對(duì)東南大學(xué)學(xué)位論文雙盲評(píng)審的研究指出,學(xué)位論文屬于交叉學(xué)科的研究是導(dǎo)致學(xué)位論文評(píng)議結(jié)果不合格的一大原因[28]。還有學(xué)者使用基于行動(dòng)者的模型(agent based model)模擬了學(xué)術(shù)期刊匿名評(píng)審制度的運(yùn)作,因?yàn)楦哔|(zhì)量論文的審稿難度較大,經(jīng)濟(jì)理性的審稿人往往不愿意認(rèn)真審閱這類論文,而只要有極小比例的這類理性審稿人存在,久而久之,論文評(píng)判標(biāo)準(zhǔn)就會(huì)向平庸化發(fā)展,從而“拒斥”具有創(chuàng)新性的文章[29]。實(shí)際上,在學(xué)位論文評(píng)審實(shí)踐中,因?qū)W術(shù)觀點(diǎn)分歧而導(dǎo)致的匿名評(píng)審不公現(xiàn)象也時(shí)有發(fā)生[28]。
需要提及的是,論文的匿名評(píng)審工作并非沒(méi)有成本。相反,組織大規(guī)模的論文匿名評(píng)審會(huì)消耗大量的人力、物力、財(cái)力和時(shí)間。在學(xué)位論文評(píng)審中,由于送審需要占用一定的時(shí)間,學(xué)生寫作、修改論文和導(dǎo)師指導(dǎo)的時(shí)間也相應(yīng)受到壓縮,這對(duì)提升學(xué)位論文的質(zhì)量也造成了影響[20]。紙本送審論文的打印和寄送也是一筆不小的開支,隨著招生規(guī)模的擴(kuò)大,這一費(fèi)用也會(huì)逐步增加[15]。
綜上,現(xiàn)有研究對(duì)期刊論文的匿名評(píng)審制度有一定的反思,但是對(duì)于畢業(yè)論文匿名評(píng)審制度的討論相對(duì)不足。在有限的研究中,很多學(xué)者將畢業(yè)論文匿名評(píng)審制度中的誤判問(wèn)題歸咎于評(píng)審者的失職。而本研究希望說(shuō)明的是,即使匿名評(píng)審者不失職,完全依據(jù)外審意見(jiàn)進(jìn)行論文質(zhì)量的評(píng)判,依舊會(huì)造成相當(dāng)高的誤判率。為了說(shuō)明這一點(diǎn),有必要區(qū)分畢業(yè)論文匿名評(píng)審制度中的雙重決策過(guò)程。
畢業(yè)論文匿名評(píng)審的決策過(guò)程分為兩步:第一步,學(xué)?;谝呀?jīng)完成的畢業(yè)論文,尋找外部評(píng)審專家以判斷其質(zhì)量;第二步,學(xué)?;谠u(píng)審的意見(jiàn),對(duì)于論文的質(zhì)量進(jìn)行判定,并進(jìn)一步?jīng)Q定學(xué)生是否有資格答辯或者獲得學(xué)位。這兩步看似一體兩面,但其決策邏輯卻是不同的。
在第一步中,學(xué)校方面希望盡可能尋找到合適的評(píng)審人員來(lái)進(jìn)行評(píng)判。即,如果給評(píng)審者一篇高質(zhì)量的論文,評(píng)審者能夠給予一個(gè)準(zhǔn)確的“論文合格”評(píng)價(jià);而如果交給評(píng)審者的是一篇質(zhì)量很差的論文,評(píng)審者能夠做出“論文不合格”的評(píng)價(jià)。與之相比,第二步的決策依據(jù)在于,給定一個(gè)“論文合格”的評(píng)價(jià),學(xué)校可以將論文定性為“合格”并準(zhǔn)許學(xué)生答辯和取得學(xué)位。同時(shí),如果論文的一個(gè)評(píng)價(jià)是“不合格”,那么學(xué)??梢韵鄳?yīng)地判斷論文不合格,從而對(duì)學(xué)生進(jìn)行某種資格限制。
直觀地說(shuō),第一步解決的問(wèn)題是外部評(píng)審者能夠準(zhǔn)確評(píng)議本校學(xué)生的論文嗎?后一步解決的問(wèn)題是,基于特定的論文評(píng)價(jià)結(jié)論,學(xué)校能夠依此判斷論文質(zhì)量嗎?在這兩步中,無(wú)疑第二步是更為重要的。學(xué)校對(duì)畢業(yè)論文進(jìn)行匿名評(píng)審,最終目的不是為了獲取校外評(píng)審意見(jiàn)本身,而是希望能夠根據(jù)校外評(píng)審意見(jiàn)進(jìn)行論文質(zhì)量的認(rèn)定,并實(shí)施相應(yīng)的措施。這樣說(shuō),可能讀者會(huì)認(rèn)為二者是一回事,如果對(duì)于特定的論文,評(píng)審者都能夠給出準(zhǔn)確的判斷,那么基于他們的判斷不就能夠區(qū)分論文質(zhì)量了嗎?然而,一個(gè)基本的數(shù)學(xué)模型告訴我們,實(shí)際情況并非如此。
假設(shè)變量B 表示一篇論文是不是“質(zhì)量差”(1=質(zhì)量差;0=質(zhì)量好),A表示給出的評(píng)審意見(jiàn)是否是“不合格”(1=評(píng)審意見(jiàn)為不合格;0=評(píng)審意見(jiàn)為合格)。那么,上述的第一步涉及的是條件概率P(A|B)和P()。其中這兩個(gè)表達(dá)式的意思是,在給定論文質(zhì)量的前提下,給出準(zhǔn)確評(píng)審意見(jiàn)的概率。其中,P(A|B)表示給出一篇質(zhì)量差的論文的前提下,評(píng)審的判斷為不合格的概率;P()表示給出一篇質(zhì)量好的論文的前提下,評(píng)審的判斷為合格的概率。在第一步,學(xué)校關(guān)心的是如何提升P(A|B)和P()的取值。而與第一步相比,第二步涉及的是P(B|A)和P()。前者是指評(píng)審判斷為不合格的前提下,論文真實(shí)質(zhì)量為差的概率;后者表示評(píng)審判斷論文合格的前提下,論文真實(shí)質(zhì)量為好的概率。
基于上述的討論,研究有4 個(gè)指標(biāo)來(lái)衡量畢業(yè)論文評(píng)審過(guò)程,如表1所示。
表1 論文評(píng)定過(guò)程的4種指標(biāo)
顯然,從學(xué)生的角度來(lái)看,他們會(huì)更為關(guān)心誤關(guān)率,因?yàn)檎`關(guān)率高的話,一個(gè)認(rèn)真撰寫畢業(yè)論文且論文質(zhì)量好的學(xué)生有可能被匿名評(píng)審過(guò)程“冤枉”,從而喪失后續(xù)的很多機(jī)會(huì)。但是從學(xué)校的角度來(lái)看,更為關(guān)心錯(cuò)放率。尤其是在教育部出臺(tái)學(xué)生畢業(yè)后對(duì)其畢業(yè)論文進(jìn)行不定期檢查的制度之后,如果錯(cuò)放率高,則很有可能在未來(lái)抽檢過(guò)程中出現(xiàn)不合格論文,對(duì)于學(xué)校而言會(huì)產(chǎn)生巨大的壓力。下面,用一個(gè)簡(jiǎn)單的數(shù)學(xué)模型,看一下誤關(guān)率與錯(cuò)放率的基本特征。
這里采用的基本數(shù)學(xué)模型是貝葉斯定理。基于貝葉斯定理,可以從給定的P(B)、P(A|B)和P()的值推導(dǎo)出P(B|A)和P()。其中,P(B)表示一所學(xué)校不合格論文的比重(如每100篇畢業(yè)論文中,質(zhì)量差的論文的比例)。
研究假設(shè)一所學(xué)校質(zhì)量差的論文的比重(“次品率”)在1‰~10%之間,這個(gè)變化區(qū)間比較符合實(shí)際狀況。假設(shè)一所學(xué)校一年有800 名學(xué)生畢業(yè),那么論文質(zhì)量差的數(shù)量在1~80個(gè)之間變動(dòng)。除此之外,研究設(shè)定P(A|B)=P()=99%,即預(yù)設(shè)給定論文的質(zhì)量前提下,外部評(píng)審的判斷接近完美。當(dāng)然,這是一種比較理想的情況。這里,不妨看一下,即使是在這種理想情況下,各種誤判率是如何變化的。下面會(huì)放寬這種完美評(píng)審的設(shè)定,以盡可能接近實(shí)際情況。利用上面的貝葉斯公式,進(jìn)行數(shù)據(jù)模擬,結(jié)果如圖1所示。
基于數(shù)據(jù)模擬的結(jié)果,如果一所學(xué)校質(zhì)量差的論文占整體論文的比例很低,則誤關(guān)率會(huì)高,錯(cuò)放率很低。例如,如果一所學(xué)校的教學(xué)質(zhì)量很好,將整體論文中的“次品率”控制在2%及以下,那么就算邀請(qǐng)的評(píng)審者對(duì)論文質(zhì)量有著非常準(zhǔn)確的判斷(達(dá)到99%),誤關(guān)的發(fā)生率也會(huì)在30%及以上。這意味著,平均而言,有30%的可能性會(huì)出現(xiàn)誤關(guān)學(xué)生的情況。這是一個(gè)非常驚人的比例。當(dāng)然,此時(shí)錯(cuò)放率接近于0。
基于簡(jiǎn)單的貝葉斯公式和數(shù)據(jù)模擬,研究發(fā)現(xiàn),即使能夠?qū)ふ业揭恍巴昝馈钡脑u(píng)審者,如果單純以評(píng)審結(jié)論為依據(jù)決定學(xué)生是否能夠答辯和獲得學(xué)位,那么從理論上講,也會(huì)有相當(dāng)數(shù)量的學(xué)生會(huì)被“誤關(guān)”。這對(duì)于期待獲得學(xué)位并開始工作或者出國(guó)的學(xué)生而言,無(wú)疑是極為不公平的。
如上文所述,這里只是展示了在“完美評(píng)審者”前提下的結(jié)果,如果評(píng)審者的評(píng)判能力變低,會(huì)發(fā)生什么呢?這等價(jià)于設(shè)定P(A|B)和P()為更小的取值。假設(shè)P(A|B)和P()變動(dòng)區(qū)間為0.8~0.95,會(huì)得到如圖2所示的模擬結(jié)果。
在給定學(xué)生培養(yǎng)質(zhì)量的前提下,隨著評(píng)審者的評(píng)價(jià)能力下降,可能犯的“誤關(guān)”錯(cuò)誤也在提高。例如,如果評(píng)審的論文評(píng)價(jià)能力為80%(即給定一篇高質(zhì)量的論文,80%的可能性評(píng)審判斷為合格,而給定一篇低質(zhì)量的論文,80%的可能性評(píng)審判斷為不合格),那么在論文“次品率”僅為2%的學(xué)校中,誤關(guān)率會(huì)超過(guò)90%。當(dāng)然,錯(cuò)放率依然很低。
需要說(shuō)明的是,上面對(duì)于模擬結(jié)果的詮釋是從學(xué)校的角度出發(fā)的。實(shí)際上,也可以基于學(xué)生個(gè)人的角度,將P(B)理解為某個(gè)畢業(yè)生的論文自身的差品率,即多大程度上這個(gè)學(xué)生的論文質(zhì)量差。基于這種理解,那么上面計(jì)算的誤關(guān)率就是這個(gè)學(xué)生有可能被誤關(guān)的概率了。這種個(gè)體層次的解釋與上面基于學(xué)校層次的解釋是一致的。
圖1 誤關(guān)率和錯(cuò)放率的變化
圖2 誤關(guān)率和錯(cuò)放率與評(píng)審質(zhì)量之間的關(guān)系
上面的討論基于基本的統(tǒng)計(jì)模擬,但是現(xiàn)實(shí)的畢業(yè)論文匿名評(píng)審過(guò)程更為復(fù)雜。例如,通常而言,會(huì)有多名評(píng)審人員,學(xué)校在獲取他們的評(píng)審意見(jiàn)后,可以采用“一票否決”或者“少數(shù)服從多數(shù)”的原則對(duì)論文進(jìn)行最后的評(píng)判。所謂“一票否決”,是指在多個(gè)評(píng)審者中,只要有一名評(píng)審者給予不合格的評(píng)定意見(jiàn),則該論文被視為不合格。所謂“少數(shù)服從多數(shù)”,則是指在評(píng)審者數(shù)量為奇數(shù)的情況下,以多數(shù)人的意見(jiàn)為準(zhǔn),如果大多數(shù)評(píng)審者認(rèn)為論文不合格,則學(xué)校判定論文為不合格。除了這種多位評(píng)審者的情況,有時(shí)畢業(yè)論文的評(píng)閱還會(huì)有多輪的情況,也就是說(shuō),論文評(píng)閱不是“一錘子買賣”,而是經(jīng)過(guò)多輪次的評(píng)閱后進(jìn)行最后判定。最后,論文的評(píng)閱意見(jiàn)很多時(shí)候也不是合格與不合格的二分判斷,有時(shí)會(huì)有3 個(gè)甚至5 個(gè)選項(xiàng)供評(píng)審者選擇。
本節(jié)中將分析以下4種更為復(fù)雜的情況的誤關(guān)率(相比于錯(cuò)放率,誤關(guān)率更為重要,因此,研究特別關(guān)注誤關(guān)率):多人評(píng)閱,一票否決;多人評(píng)閱,少數(shù)服從多數(shù);多輪評(píng)閱;多個(gè)評(píng)閱結(jié)論選項(xiàng)。
1.在“多人評(píng)閱,一票否決”的情況下,誤關(guān)的概率會(huì)被放大。例如,如果有兩名評(píng)審者,每個(gè)評(píng)審者的誤判率是p,那么一票否決的情況下,學(xué)生被誤關(guān)的概率是2p(1-p)+p·p;如果只有一個(gè)評(píng)審者,則學(xué)生被誤關(guān)的可能性就是p。顯然,2p(1-p)+p·p>p。在此種情況下,最后的誤判率等于1 減去所有人都沒(méi)有誤判的概率。如果有n 個(gè)評(píng)審者,這個(gè)值等于1-(1-p)n。在現(xiàn)實(shí)情況中,n 的取值不可能很大。通常而言,對(duì)于每份論文n不會(huì)大于3,因此,取n=3。
2.如果是“多人評(píng)閱,少數(shù)服從多數(shù)”,情況要更為復(fù)雜。此時(shí)需要確定評(píng)閱意見(jiàn)的分布情況。以n=3、二分(合格與不合格)評(píng)閱意見(jiàn)為例,評(píng)閱意見(jiàn)的分布有8 種狀態(tài)。此時(shí),一篇論文的誤關(guān)率等于兩個(gè)及兩個(gè)以上評(píng)審者誤關(guān)的概率,這一數(shù)值也等于1 減去沒(méi)有誤關(guān)的概率再減去只有一個(gè)評(píng)閱人誤關(guān)的概率。
3.在多輪評(píng)閱的情況下,后面一輪被誤判的前提是前一輪也被誤判,所以在此種情況下,最重要的是最后一輪是否被誤判。顯然,如果有k 輪評(píng)閱,且最后一輪是被誤關(guān),則在相互獨(dú)立的數(shù)輪評(píng)閱過(guò)后,整體的誤關(guān)率就是pk。當(dāng)然,現(xiàn)實(shí)情況下有可能多輪評(píng)閱彼此不獨(dú)立。例如,有可能后面一輪的誤關(guān)率比前面一輪的誤關(guān)率低。假設(shè)有3 輪評(píng)審,每次降低20%的誤關(guān)率,則整體的誤關(guān)率就是p(p·0.8)(p·0.8×0.8)。
4.評(píng)閱意見(jiàn)有多個(gè)選項(xiàng)的情況也不足以改變上述的各種模擬分析結(jié)果。原因有三:其一,無(wú)論選項(xiàng)有多少,最重要的判斷還是論文是否合格;其二,評(píng)閱者對(duì)于論文的判斷能力是一種自屬的能力,無(wú)論選項(xiàng)如何設(shè)置,都不足以改變?cè)u(píng)閱者對(duì)于給定論文的判斷(例如,在二分評(píng)價(jià)體系下給出不合格的結(jié)論,等同于在一個(gè)百分制體系下給出60分以下的結(jié)論);其三,論文質(zhì)量同樣是論文的自屬性質(zhì),評(píng)價(jià)選項(xiàng)的設(shè)置與論文本身的質(zhì)量并無(wú)關(guān)聯(lián)??紤]到這三點(diǎn),下面的分析僅針對(duì)前3種復(fù)雜情況進(jìn)行統(tǒng)計(jì)模擬。
在下面的統(tǒng)計(jì)模擬中,仍然將評(píng)審者的論文判斷能力設(shè)置為99%,質(zhì)量差的論文比例區(qū)間為1‰~10‰,評(píng)審者數(shù)量設(shè)為3,相關(guān)結(jié)果見(jiàn)圖3。
圖3 更為復(fù)雜情況下的誤關(guān)率
圖3 說(shuō)明,即使評(píng)審者對(duì)于論文具有幾乎“完美”的判斷力,但如果一所學(xué)校質(zhì)量為差的論文比例僅為2%,那么3 位評(píng)審者在“一票否決”的情況下的誤判率仍會(huì)超過(guò)60%。相比之下,如果采用“少數(shù)服從多數(shù)”原則的話,誤判率會(huì)下降,但是仍然會(huì)在20%以上。多輪獨(dú)立評(píng)審的情況下,誤判問(wèn)題會(huì)得到緩解,誤判率降至5%以下。如果多輪評(píng)審彼此是負(fù)向相關(guān)的話,可以進(jìn)一步降低誤判率。由此可見(jiàn),多輪評(píng)審的制度能夠最大限度地削減外審過(guò)程的誤判率。
那么,隨著評(píng)審者判斷能力的下降,會(huì)出現(xiàn)什么情況呢?這方面的分析如圖4所示。由圖4(a)可以發(fā)現(xiàn),如果評(píng)審者的判斷能力極強(qiáng),那么無(wú)論是多位評(píng)審者時(shí)“少數(shù)服從多數(shù)”,還是多輪評(píng)審,都比單人評(píng)審有更低的誤關(guān)率(但是如果一所學(xué)校質(zhì)量為差的論文比例極低,則3 位評(píng)審者“少數(shù)服從多數(shù)”的情況相較于單人評(píng)審更差)。但是,由圖4(b)~圖4(d)可知,隨著評(píng)審者評(píng)閱能力的下降,多輪評(píng)閱比單人評(píng)審有更低的誤關(guān)率。多人評(píng)閱無(wú)論采用哪一種原則都會(huì)表現(xiàn)出更高比例的誤關(guān)率。例如,如果評(píng)閱者的評(píng)閱能力設(shè)置為80%,只要一所學(xué)校的質(zhì)次論文在6%以下,誤關(guān)率幾乎達(dá)到100%。
圖4 變更評(píng)審判斷能力時(shí)的誤關(guān)率
匿名評(píng)審制度設(shè)置的初衷在于通過(guò)匿名學(xué)術(shù)成果評(píng)價(jià)來(lái)保障客觀與公正,但是就畢業(yè)論文質(zhì)量評(píng)判而言,卻存在進(jìn)一步思考甚至商榷的空間。通過(guò)貝葉斯定理,用基本的數(shù)學(xué)模擬方法可以證明,即使在評(píng)審者具有很高的論文鑒別力的前提下,單純基于評(píng)審結(jié)果來(lái)判斷論文質(zhì)量有可能會(huì)出現(xiàn)誤判:在那些被評(píng)審為不合格的論文中,有可能有相當(dāng)比例的高質(zhì)量論文。
研究展示的統(tǒng)計(jì)模擬結(jié)果引發(fā)一系列關(guān)于畢業(yè)論文匿名評(píng)審制度的討論,如:為何高質(zhì)量論文容易被誤判;如何避免送給論文評(píng)價(jià)能力相對(duì)較低的專家;如何從制度設(shè)計(jì)上避免高質(zhì)量論文被誤判。
無(wú)論是日常經(jīng)驗(yàn)還是本文的模擬結(jié)果都表明,高質(zhì)量論文的誤判率更高。之所以如此,原因之一在于創(chuàng)新與范式之間的張力。學(xué)術(shù)研究的本質(zhì)在于創(chuàng)新,而高質(zhì)量的論文更具創(chuàng)新性。但與此同時(shí),論文匿名評(píng)審的過(guò)程是一個(gè)訴諸學(xué)術(shù)共同體“規(guī)范”的過(guò)程。借用庫(kù)恩的術(shù)語(yǔ),任何學(xué)科均有自身獨(dú)特的學(xué)科范式,這一范式不僅僅涉及宏大的學(xué)科建制,還涉及更為具體的本學(xué)科領(lǐng)域內(nèi)的“行規(guī)”,如研究問(wèn)題的提出方式、研究方案的設(shè)計(jì)、研究成果的展示方式等。盡管庫(kù)恩認(rèn)為范式具有變革的可能性,但是大多數(shù)時(shí)間內(nèi),我們處于“常規(guī)科學(xué)”階段,會(huì)受制于范式的規(guī)制。因此,更具創(chuàng)新性的畢業(yè)論文更有可能突破現(xiàn)有范式,因此也更有可能被大多數(shù)身處并接納現(xiàn)有范式的學(xué)者所排斥。
本文的模擬結(jié)果亦顯示,隨著評(píng)審專家判斷力的下降,誤判問(wèn)題會(huì)變得越發(fā)嚴(yán)重。那么,應(yīng)當(dāng)如何保證評(píng)審專家的判斷力,或者說(shuō),如何確保找到高水平的匿名評(píng)審專家,就變得尤為重要。就這一問(wèn)題,目前有兩種主流的做法:一種是利用教育部已有的專家數(shù)據(jù)庫(kù)進(jìn)行庫(kù)內(nèi)同領(lǐng)域?qū)<业碾S機(jī)選擇,即“庫(kù)內(nèi)找專家”;另一種是由本校同領(lǐng)域?qū)<姨峁<颐麊危础皩<艺覍<摇?。兩相?duì)比,筆者認(rèn)為后者更具優(yōu)勢(shì)。比如,專家邀請(qǐng)的專家更能保證專業(yè)的“精細(xì)”對(duì)口。教育部的專家?guī)炜梢云ヅ浯蟮膶W(xué)科門類,但是無(wú)法照顧更為精細(xì)的學(xué)科分類,對(duì)于某一小的學(xué)科或者研究方向,使用此種專家?guī)旌苋菀壮霈F(xiàn)“錯(cuò)配”。相比而言,只有同一學(xué)科或者研究方向的專家對(duì)于本領(lǐng)域內(nèi)的適格專家最為了解,由他們提供專家?guī)炜梢宰畲笙薅鹊乇WC找到的匿名評(píng)審專家是真正的“同領(lǐng)域”的內(nèi)行。這種精細(xì)的匹配也涉及時(shí)效性,無(wú)論哪一門學(xué)科,當(dāng)下的科研實(shí)踐和成果的涌現(xiàn)可謂一日千里,短時(shí)間內(nèi)會(huì)有很多新知識(shí)和新方法出現(xiàn),很多時(shí)候,學(xué)位畢業(yè)論文相比于期刊論文更能夠體現(xiàn)這些新知識(shí)與新方法,因此,匿名評(píng)審者的知識(shí)構(gòu)成也需要“與時(shí)俱進(jìn)”。至于一個(gè)領(lǐng)域內(nèi)哪些專家的研究更有前沿性,自然這個(gè)領(lǐng)域內(nèi)的專家最清楚。相比較而言,教育部的專家?guī)鞂?duì)專家信息的更新相對(duì)滯后,對(duì)于特定學(xué)科的新發(fā)展無(wú)從顧及。
那么,如何盡可能地從制度設(shè)計(jì)方面避免對(duì)畢業(yè)論文的誤判呢?按照本文的研究發(fā)現(xiàn),一個(gè)比較可靠的方式是允許學(xué)生進(jìn)行多輪評(píng)審。在這一制度下,最后被誤判的可能性會(huì)大大降低。具體到制度設(shè)計(jì)層面,建議允許學(xué)生隨時(shí)通過(guò)抗辯來(lái)啟動(dòng)新一輪的評(píng)議,而不是在多輪評(píng)議中人為設(shè)定諸多障礙。當(dāng)然,多輪評(píng)審也并不一定要求是多輪匿名評(píng)審,比如,學(xué)??梢栽O(shè)立一個(gè)獨(dú)立于外審的論文審核機(jī)構(gòu),如果論文外審結(jié)論為不合格,學(xué)生可以有地方“上訴”。當(dāng)然,此種委員會(huì)需要定點(diǎn)邀請(qǐng)相應(yīng)領(lǐng)域的專家,而不是簡(jiǎn)單訴諸所謂的“專家名單”。
需要說(shuō)明的是,多輪評(píng)議制度的好處不僅僅在于可以削減誤判,還能夠起到剔除不合格評(píng)審者的功能。雖然一般的畢業(yè)論文外審過(guò)程中也可通過(guò)抗辯程序來(lái)更換不適格的評(píng)審者,但是一來(lái)學(xué)生往往出于“不生事”的動(dòng)機(jī)而選擇按照不適格評(píng)審者提出的偏頗評(píng)審意見(jiàn)修改,然后發(fā)給同樣的不適格評(píng)審人重評(píng);二來(lái)學(xué)校通常對(duì)更換不適格評(píng)審者的抗辯程序設(shè)置各種限制,因此并不是學(xué)生想抗辯就可以抗辯。其結(jié)果便是,畢業(yè)論文有可能在同樣的不適格評(píng)審者處逗留多次。此時(shí),如果不適格的評(píng)審者堅(jiān)持己見(jiàn),即使評(píng)審意見(jiàn)偏頗,論文撰寫者也別無(wú)他法,從而造成評(píng)審者與論文撰寫者之間存在巨大的不對(duì)等。
總之,高校管理人員應(yīng)嚴(yán)肅對(duì)待畢業(yè)論文匿名評(píng)審過(guò)程中的誤判問(wèn)題。被誤關(guān)的學(xué)生很有可能因?yàn)檫@種誤判而喪失了后續(xù)工作或者出國(guó)深造的機(jī)會(huì),因此對(duì)于學(xué)生個(gè)人而言是關(guān)乎其未來(lái)發(fā)展的大事。對(duì)于學(xué)校而言,當(dāng)此種誤判成為一種“慣例”,勢(shì)必會(huì)對(duì)學(xué)校的學(xué)術(shù)聲譽(yù)產(chǎn)生巨大的負(fù)面影響。