●徐 仲(青島科技大學(xué) 圖書館,山東 青島 266061)
國際上有關(guān)學(xué)術(shù)不端的行為屢禁不止,如近年來,德國國防部部長古滕貝格、教育和科研部部長沙范、歐州議會(huì)副議長梅林、北萊茵—威斯特法倫州議會(huì)議員迪特·亞斯珀、自民黨政客查奇馬卡吉斯、柏林的基督教民主聯(lián)盟議會(huì)主席格拉夫等因博士論文抄襲問題相繼辭職或顏面掃地。[1]我國學(xué)者學(xué)術(shù)不端現(xiàn)象近期來也逐年增多。一場(chǎng)針對(duì)學(xué)術(shù)不端而引發(fā)的討論和事件處理已經(jīng)引起教育、科研等管理部門的高度重視。為了防止學(xué)術(shù)不端現(xiàn)象的發(fā)生,目前在論文發(fā)表、學(xué)位論文提交、職稱評(píng)定、職務(wù)晉升、人物評(píng)選、人才引進(jìn)等過程中已相繼開展論文相似性檢測(cè)。
國內(nèi)不同的文獻(xiàn)情報(bào)服務(wù)機(jī)構(gòu)開發(fā)了多個(gè)論文相似性檢測(cè)服務(wù)平臺(tái),其中最常用的是萬方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)的論文相似性檢測(cè)系統(tǒng)和CNKI科研誠信管理系統(tǒng)研究中心的學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)。本文就CNKI與萬方這兩種論文相似性檢測(cè)服務(wù)的差異性進(jìn)行比較討論。
CNKI科研誠信管理系統(tǒng)研究中心開發(fā)的學(xué)術(shù)不端檢測(cè)系統(tǒng)分為“學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)4.0版”和“科研誠信管理系統(tǒng)(人事版)”兩部分。其中“學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)4.0版”包括科技期刊學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)、社科期刊學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)、學(xué)位論文學(xué)術(shù)不端行為檢測(cè)系統(tǒng)、學(xué)術(shù)不端文獻(xiàn)(期刊)檢測(cè)系統(tǒng)、大學(xué)生論文抄襲檢測(cè)系統(tǒng);“科研誠信管理系統(tǒng)(人事版)”包括英文檢測(cè)系統(tǒng)和中英文對(duì)照檢測(cè)系統(tǒng)。每個(gè)檢測(cè)系統(tǒng)功能范圍不同,如學(xué)位論文學(xué)術(shù)不端行為檢測(cè)系統(tǒng)專門為研究生院提供檢測(cè)服務(wù),僅限檢測(cè)研究生畢業(yè)論文;學(xué)術(shù)不端文獻(xiàn)(期刊)檢測(cè)系統(tǒng)主要為人事部門在職稱評(píng)選、人物評(píng)優(yōu)、先進(jìn)評(píng)選、人才引進(jìn)等活動(dòng)中提供輔助審核手段,提供科學(xué)、準(zhǔn)確、客觀的線索與依據(jù)。CNKI學(xué)術(shù)不端檢測(cè)系統(tǒng)的檢測(cè)范圍包括中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫、中國博士學(xué)位論文全文數(shù)據(jù)庫、中國優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫、中國重要會(huì)議論文全文數(shù)據(jù)庫、中國重要報(bào)紙全文數(shù)據(jù)庫、中國專利全文數(shù)據(jù)庫、互聯(lián)網(wǎng)資源、英文數(shù)據(jù)庫(涵蓋期刊、博碩、會(huì)議的英文數(shù)據(jù)以及德國Springer、英國Taylor&Francis期刊數(shù)據(jù)庫等)、港澳臺(tái)學(xué)術(shù)文獻(xiàn)庫、優(yōu)先出版文獻(xiàn)庫、互聯(lián)網(wǎng)文檔資源、個(gè)人比對(duì)庫。
萬方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)的論文相似性檢測(cè)服務(wù)沒有對(duì)不同要求的文獻(xiàn)檢索進(jìn)行分類,檢測(cè)語種僅限中文。該系統(tǒng)包括2個(gè)入口,一個(gè)是“檢測(cè)已發(fā)表論文”,主要針對(duì)送檢論文之前發(fā)表的全部文獻(xiàn),適用于對(duì)職稱論文等進(jìn)行檢測(cè);另一入口是“檢測(cè)新論文”,適用于對(duì)畢業(yè)論文、新投稿論文等進(jìn)行檢測(cè)。萬方相似性檢測(cè)系統(tǒng)檢測(cè)范圍包括中國學(xué)術(shù)期刊數(shù)據(jù)庫(CSPD)、中國學(xué)位論文全文數(shù)據(jù)庫(CDDB)、中國學(xué)術(shù)會(huì)議論文數(shù)據(jù)庫(CCPD)和中國學(xué)術(shù)網(wǎng)頁數(shù)據(jù)庫(CSWD)。
從CNKI和萬方論文相似性檢測(cè)系統(tǒng)的檢索范圍可以看出,均包括了主要中文學(xué)術(shù)資源,但是CNKI學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)包含的中文學(xué)術(shù)資源更加豐富,更重要的是CNKI還特別涵蓋了港澳臺(tái)學(xué)術(shù)文獻(xiàn)庫和大量的英文數(shù)據(jù)庫(涵蓋期刊、博碩、會(huì)議的英文數(shù)據(jù)以及德國Springer、英國Taylor&Francis期刊數(shù)據(jù)庫等),因此其檢測(cè)范圍要比萬方數(shù)據(jù)庫更全、更廣。
正是由于檢索范圍的差別,導(dǎo)致這兩個(gè)檢索系統(tǒng)的檢索結(jié)果差別很大。如2012年山東省對(duì)參評(píng)職稱晉升人員提交的3件成果開展學(xué)術(shù)不端檢測(cè),其中一件成果利用萬方論文相似性檢測(cè)系統(tǒng)檢測(cè),其查重率為12.81%;利用CNKI學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng),其查重結(jié)果達(dá)到36.12%。
然而,CNKI學(xué)術(shù)不端檢測(cè)系統(tǒng)和萬方論文相似性檢測(cè)系統(tǒng)都有其檢索局限性,即涉及英文論文的檢索。萬方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)本身沒有外文檢索庫;CNKI學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng),雖然擁有英文數(shù)據(jù)庫,但仍有大量的英文數(shù)據(jù)庫沒有被涵蓋,其檢索范圍是不全的。而且從長遠(yuǎn)來看,外文的查重檢索會(huì)日益重要,因此,國內(nèi)的論文相似性檢測(cè)服務(wù)平臺(tái)應(yīng)積極應(yīng)對(duì),擴(kuò)大檢索范圍,克服其檢索局限。
萬方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)的文獻(xiàn)引證檢測(cè)與重復(fù)率表征相對(duì)簡(jiǎn)潔,一般在總體結(jié)論中,只給出“總相似比”、“參考文獻(xiàn)相似比”和“排除參考文獻(xiàn)相似比”。在相似片段分布中用綠色區(qū)域表征參考文獻(xiàn)相似部分的位置,紅色區(qū)域?yàn)榕c其他未被引用的論文相似部分,并列出相似論文作者和典型相似論文及其典型片段總相似比。總體表征比較客觀,不對(duì)論文做出結(jié)論性評(píng)價(jià)。
CNKI學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)的文獻(xiàn)引證檢測(cè)與重復(fù)率表征相對(duì)復(fù)雜,在總體結(jié)論中,給出總文字復(fù)制比、去除引用文獻(xiàn)復(fù)制比、去除本人已發(fā)表文獻(xiàn)復(fù)制比和單篇最大文字復(fù)制比,用紅色文字表示文字復(fù)制部分,黃色文字表示引用部分,并將剽竊文字進(jìn)行詳細(xì)表述。根據(jù)與自己已發(fā)表文獻(xiàn)復(fù)制比,明確指出是自我剽竊、一稿多投還是重復(fù)發(fā)表;根據(jù)引用文獻(xiàn)復(fù)制比、單篇最大文字復(fù)制比確定論文是否過度引用、剽竊觀點(diǎn)或整體剽竊等結(jié)論。從重復(fù)率檢測(cè)結(jié)論中觀之,要求作者在論文撰寫過程中嚴(yán)格文獻(xiàn)引證,即使是引用自己已發(fā)表的論文,也要用參考文獻(xiàn)進(jìn)行引證,否則會(huì)出現(xiàn)自我剽竊的后果;而且,對(duì)于文獻(xiàn)的引證,不宜過度引用,否則有一稿多投(過度引用自己論文)和剽竊(過度引用他人論文)之嫌。
顯然,不論是萬方論文相似性檢測(cè)系統(tǒng)還是CNKI學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng),只要尊重知識(shí)產(chǎn)權(quán)、尊重他人成果,嚴(yán)格文獻(xiàn)引用,且做到不過度引用,其論文即使總文字復(fù)制比較高,也不會(huì)導(dǎo)致論文出現(xiàn)學(xué)術(shù)不端問題,因?yàn)槎鄶?shù)情況下,檢測(cè)結(jié)論都要考慮“去除引用文獻(xiàn)復(fù)制比”。然而實(shí)際上,在一些綜述性或述評(píng)性論文中,可能需要對(duì)文獻(xiàn)的觀點(diǎn)、數(shù)據(jù)、圖表、方法、結(jié)果等進(jìn)行反復(fù)討論,即使每篇文獻(xiàn)的引用重復(fù)率很低,但因引用文獻(xiàn)數(shù)量巨大(少則三四十篇、多則百余篇),也可能導(dǎo)致總文字復(fù)制比較高,甚至超過30%,但是這種論文撰寫方式卻是合理的。
盡管萬方論文相似性檢測(cè)系統(tǒng)和CNKI學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)在文獻(xiàn)引證檢測(cè)和重復(fù)率表征方面存在差異,但是它們?cè)谖墨I(xiàn)重復(fù)率檢測(cè)過程中都存在一個(gè)共同的問題,就是很難將章節(jié)中的文獻(xiàn)與正文文字進(jìn)行區(qū)別。檢測(cè)中發(fā)現(xiàn),當(dāng)參考文獻(xiàn)列于論文最后,此時(shí)的參考文獻(xiàn)表可以被檢測(cè)系統(tǒng)當(dāng)作“文獻(xiàn)引證”識(shí)別;然而當(dāng)學(xué)位論文以獨(dú)立的章節(jié)為結(jié)構(gòu)單元,每章結(jié)尾列出該章參考文獻(xiàn),此時(shí)將整篇學(xué)位論文拷貝至檢測(cè)系統(tǒng),檢測(cè)系統(tǒng)只將最后一章的參考文獻(xiàn)當(dāng)作“文獻(xiàn)引證”進(jìn)行識(shí)別,而將文章其他章節(jié)中列出的文獻(xiàn)當(dāng)成正文進(jìn)行處理。這樣帶來的后果就是,當(dāng)該學(xué)位論文與第三方論文同時(shí)引用某篇或某些文獻(xiàn)時(shí),檢測(cè)系統(tǒng)將該學(xué)位論文中的文獻(xiàn)作為重復(fù)字段計(jì)算相似比(如表1所示),這樣一方面導(dǎo)致總文字復(fù)制比偏高,另一方面也可能導(dǎo)致結(jié)論性錯(cuò)誤,認(rèn)為該論文存在剽竊現(xiàn)象。顯然,這樣檢測(cè)既不準(zhǔn)確也不合理。為了避免該現(xiàn)象的發(fā)生,只能將學(xué)位論文逐章檢測(cè),并根據(jù)各章的檢測(cè)報(bào)告,重新計(jì)算整篇學(xué)位論文的總相似比(如表2所示)。
由表2可以看出,在整體檢測(cè)中,由于檢測(cè)系統(tǒng)僅僅對(duì)最后一章的參考文獻(xiàn)進(jìn)行了識(shí)別,而對(duì)第1~5章所列參考文獻(xiàn)視為正文進(jìn)行處理,導(dǎo)致所屬各章文字復(fù)制比明顯偏高,總文字復(fù)制比高達(dá)34.42%。而采用分章檢測(cè)后,每章所列參考文獻(xiàn)均被檢測(cè)系統(tǒng)識(shí)別,其文字復(fù)制比大幅降低,總文字復(fù)制比下降至8.92%。顯然分章檢測(cè)結(jié)果更加合理。
圖表作為科技論文的組成部分,在原始創(chuàng)新、表征特性、揭示規(guī)律等方面具有特別重要的指示意義,很多原始科技數(shù)據(jù)也都隱含在圖表中。然而,在對(duì)論文進(jìn)行相似性檢測(cè)時(shí),不論是萬方論文相似性檢測(cè)系統(tǒng)還是CNKI學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng),對(duì)圖表的檢測(cè)均顯得力不從心。其中,萬方論文相似性檢測(cè)系統(tǒng)沒有圖表的檢測(cè);CNKI學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)對(duì)數(shù)據(jù)表的識(shí)別率很低,而且目前沒有圖件識(shí)別功能。
表1 對(duì)某學(xué)位論文檢測(cè)報(bào)告的表述片斷
表2 某學(xué)位論文整體檢測(cè)與分章檢測(cè)結(jié)果對(duì)比
由于檢測(cè)系統(tǒng)的局限性,特別是相似圖件識(shí)別功能的缺乏,導(dǎo)致某些論文作者在檢測(cè)過程中投機(jī)取巧,特別是學(xué)位論文?,F(xiàn)在學(xué)位論文撰寫模式已比較固定,多按照中英文摘要、目錄、前言、文獻(xiàn)綜述、實(shí)驗(yàn)部分、結(jié)果與討論、結(jié)論(或結(jié)語)、參考文獻(xiàn)等順序編排;其中,最易出現(xiàn)高重復(fù)率的部分是文獻(xiàn)綜述和實(shí)驗(yàn)部分。為了降低重復(fù)比,目前有的網(wǎng)站上已經(jīng)出現(xiàn)了如何使論文在檢測(cè)過程中“過關(guān)”的技巧,如建議將文獻(xiàn)綜述和實(shí)驗(yàn)部分的文字編輯成圖片,以蒙混過關(guān)。
然而,國外期刊對(duì)圖表的相似性檢測(cè)則非常嚴(yán)格,一旦發(fā)現(xiàn)其圖表具有相似性,一般需采取更正、道歉的方式予以解決,嚴(yán)重的可直接撤消已發(fā)表的論文。自2000年以來,我國每年都有類似論文被國際期刊撤消,近幾年有增無減。為了更好地對(duì)研究者的態(tài)度進(jìn)行正確引導(dǎo),因此盡快在論文相似性檢測(cè)系統(tǒng)中增設(shè)完善的圖表識(shí)別功能顯得尤為重要和迫切。
論文相似性檢測(cè)服務(wù)是防止學(xué)術(shù)不端的重要手段,盡管萬方論文相似性檢測(cè)系統(tǒng)和CNKI學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)都還存在一定問題,但已經(jīng)為我國教育和科技領(lǐng)域原始知識(shí)創(chuàng)新做出了重要貢獻(xiàn)。為了彌補(bǔ)其不足,應(yīng)盡快升級(jí)文獻(xiàn)引證識(shí)別功能、開發(fā)圖表識(shí)別技術(shù),并不斷完善檢索范圍中的文獻(xiàn)數(shù)據(jù),相信論文相似性檢測(cè)服務(wù)能為檢索目標(biāo)提供更迅速、準(zhǔn)確和有價(jià)值的評(píng)判。
[1]葉鐵橋,高四維.德國多名高官因?qū)W術(shù)不端落馬[N].中國青年報(bào),2013-04-10(7).