趙冬梅
(山西大學(xué)圖書館 山西太原 030006)
基于已發(fā)表論文的學(xué)術(shù)不端檢測系統(tǒng)的分析研究★
趙冬梅
(山西大學(xué)圖書館 山西太原 030006)
學(xué)術(shù)不端檢測系統(tǒng)的廣泛應(yīng)用源于現(xiàn)代社會學(xué)術(shù)誠信失衡的現(xiàn)狀,文章基于大量已發(fā)表論文的檢測數(shù)據(jù),根據(jù)檢測報告判定出作者、系統(tǒng)等諸多因素造成的檢測結(jié)果的失真,針對性提出排除影響結(jié)果真實性若干干擾因素的應(yīng)對策略,為圖書館等信息檢索機構(gòu)、編輯部、檢測系統(tǒng)開發(fā)商、職稱部門提供改進意見和建議,客觀、公正、理性評價已發(fā)表論文作者的學(xué)術(shù)水平。
已發(fā)表文獻;學(xué)術(shù)不端檢測;系統(tǒng)
學(xué)術(shù)不端檢測系統(tǒng)的廣泛應(yīng)用源于現(xiàn)代社會學(xué)術(shù)誠信失衡的現(xiàn)狀,CNKI論文學(xué)術(shù)不端檢測系統(tǒng)覆蓋到本科生、研究生、職稱評審、項目申報等各個領(lǐng)域,多個層面。大部分人理解的學(xué)術(shù)不端檢測都是面向未公開發(fā)表的論文。針對已經(jīng)發(fā)表論文的檢測是近年來職稱評審要求的必備條件之一,一旦檢測結(jié)果不符合規(guī)定標準,不但耽誤晉升職稱,還要喪失學(xué)術(shù)清譽,因此已發(fā)表論文的再次審定對于作者的重要程度更甚于未發(fā)表論文的檢測。
本文基于大量已發(fā)表論文的檢測數(shù)據(jù),根據(jù)檢測報告判定出作者、系統(tǒng)等諸多因素造成的檢測結(jié)果的失真,針對性提出排除影響結(jié)果真實性若干干擾因素的應(yīng)對策略,為圖書館等信息檢索機構(gòu)、編輯部、檢測系統(tǒng)開發(fā)商、職稱部門提供改進意見和建議,客觀、公正、理性評價已發(fā)表論文作者的學(xué)術(shù)水平。
本文選取的數(shù)據(jù)來源于CNKI科研誠信管理系統(tǒng)研究中心開發(fā)的學(xué)術(shù)不端文獻檢測系統(tǒng)有關(guān)高校職稱論文的檢測結(jié)果。統(tǒng)計結(jié)果見表1。
表1 檢測結(jié)果復(fù)制比統(tǒng)計表
表1顯示,一年來,通過CNKI學(xué)術(shù)不端文獻檢測系統(tǒng)5.0版本檢測論文共計6224篇,檢測結(jié)果低于10%復(fù)制比的論文占比56.04%,檢測結(jié)果低于20%復(fù)制比的論文占比73.36%,檢測結(jié)果低于30%復(fù)制比的論文占比83.92%。所有檢測結(jié)果均非系統(tǒng)直接產(chǎn)生的結(jié)論,每篇論文的檢測結(jié)果都經(jīng)過專業(yè)人員的人工判斷,排除了正當引用、本人已發(fā)表文獻正當引用部分、未公開發(fā)表的本人博碩士論文等因素,在此前提下統(tǒng)計結(jié)果低于10%復(fù)制比的論文僅有56.04%的論文通過,低于30%復(fù)制比的論文也只達到83.92%的通過率。這一數(shù)據(jù)現(xiàn)象發(fā)人深省,證明已發(fā)表論文的再次檢測是完全有必要的。
基于“中國知網(wǎng)”海量的信息資源,以及其學(xué)術(shù)不端檢測系統(tǒng)在學(xué)術(shù)研究、研究生培養(yǎng)、本科教學(xué)、項目申報、成果鑒定、職稱評審等諸多領(lǐng)域的廣泛應(yīng)用,奠定了“中國知網(wǎng)學(xué)術(shù)不端文獻檢測系統(tǒng)”做為檢測工具的最佳選擇。系統(tǒng)為我們提供科學(xué)、準確、全面的數(shù)據(jù)檢測起到了積極的作用,但其不盡完善之處還需給以高度關(guān)注。
3.1 比對源不全面
學(xué)術(shù)不端檢測系統(tǒng)檢測覆蓋資源范圍包括中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫、中國博士學(xué)位論文全文數(shù)據(jù)庫、中國優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫、中國重要會議論文全文數(shù)據(jù)庫、中國重要報紙全文數(shù)據(jù)庫、中國專利全文數(shù)據(jù)庫、互聯(lián)網(wǎng)資源、英文數(shù)據(jù)庫、港澳臺學(xué)術(shù)文獻庫、優(yōu)先出版文獻庫、互聯(lián)網(wǎng)文檔資源等。從文獻類型考慮,資源庫明顯不能達到窮盡所有的資源類型,比如科研最常用到的圖書就沒有包含在比對源里。從單一類型的文獻來看,單一類型資源也無法達到全面收錄。以期刊資源為例,自“維普期刊資源整合服務(wù)平臺——期刊地區(qū)分布導(dǎo)航”統(tǒng)計顯示全國各省份發(fā)行期刊種數(shù)共計達14 763種,而中國知網(wǎng)期刊介紹收錄國內(nèi)學(xué)術(shù)期刊8 002種,維普期刊資源整合服務(wù)平臺與中國知網(wǎng)沒有一家數(shù)據(jù)商全部收錄中文出版發(fā)行期刊種類,二者存在6 761種的差異,因此,從期刊單種文獻類型看,知網(wǎng)檢測系統(tǒng)后臺資源總量顯示明顯不足。
3.2 論文提取失真
針對這些論文的報告單仔細核查,發(fā)現(xiàn)問題源于論文提取失真的情形。為了保證發(fā)表論文的原始狀態(tài),已發(fā)表論文的檢測選擇直接從知網(wǎng)數(shù)據(jù)庫里提取論文,在檢測實踐過程中發(fā)現(xiàn)了有許多結(jié)果出人意外,主要體現(xiàn)形式有如下幾個方面:
(1)部分提取。檢測論文的時候系統(tǒng)調(diào)用數(shù)據(jù)庫原文有誤,僅提取論文第一頁或者最后一頁,勢必造成檢測結(jié)果的片面性,表現(xiàn)為報告單總字數(shù)與實際字數(shù)差別很大,對應(yīng)的總文字復(fù)制比也是局部的,不能真實反映該篇文章的實際情況。
(2)亂碼顯示。系統(tǒng)調(diào)用數(shù)據(jù)庫原文檢測論文,全文報告單出現(xiàn)亂碼顯示,雖然給出了檢測結(jié)果總字數(shù),總文字復(fù)制比,但是結(jié)果明顯是針對亂碼比對的無效結(jié)果。
(3)轉(zhuǎn)頁誤讀。為了充分利用每一個版面,編輯部編排文章時如果一篇論文沒有占滿完整的版面,該篇文章所占版面的余下部分會由另一篇文章的轉(zhuǎn)頁部分補充完整。這樣一篇文章的pdf原文版有部分其他文章的內(nèi)容在里面。調(diào)用這樣的原文進行比對,結(jié)果會出現(xiàn)總文字數(shù)的增量顯示,相應(yīng)的總文字復(fù)制比也會失真。
3.3 引用標志未識別
(1)“引號”引用標志不識別。有些人撰寫論文的時候經(jīng)常用到別人的觀點作為自己論文的論據(jù)或者支持自己論文的觀點,這部分內(nèi)容用引號引起來,檢測系統(tǒng)未定義引號為引用識別標志,檢測結(jié)果相似文獻列表顯示的是非引用標志,一般做抄襲復(fù)制處理。
(2)“文字表述”引用方式不識別。有些論文作者在撰寫論文時以行文方式體現(xiàn)了論文的某個部分使用了別人的觀點,檢測系統(tǒng)從語義的角度無法做出判斷,常常定位該部分為抄襲復(fù)制。
(3)“引用”標志未識別。檢測系統(tǒng)程序設(shè)計對做了規(guī)范引用標志的論文的引用部分不作為抄襲處理,但是檢測過程中不乏引用標志明顯但系統(tǒng)未識別的案例,屬于不正確的判斷。
3.4 檢測結(jié)果涵蓋參考文獻部分
檢測系統(tǒng)設(shè)計檢測結(jié)果不包含參考文獻總字數(shù),相應(yīng)的總文字復(fù)制比也不體現(xiàn)參考文獻部分,在論文檢測過程中卻出現(xiàn)了參考文獻計算在內(nèi)的現(xiàn)象。把參考文獻計算在內(nèi)加大了文獻復(fù)制的比率,影響本篇文章正常復(fù)制情況的顯示。
3.5 網(wǎng)絡(luò)文獻報告列表顯示有誤
檢測系統(tǒng)檢測范圍包括互聯(lián)網(wǎng)資源,檢測結(jié)果中網(wǎng)絡(luò)文獻列表的時間僅顯示年份,不顯示具體時間,且時常出現(xiàn)檢測時間范圍之后的文檔列表,針對此類現(xiàn)象,經(jīng)多篇文章測試,發(fā)現(xiàn)這些網(wǎng)絡(luò)文獻的顯示基本不會改變總體復(fù)制比,但是系統(tǒng)針對網(wǎng)絡(luò)文獻在時間上的誤讀雖對結(jié)果產(chǎn)生不了太大的影響,但是容易引起作者對報告單的質(zhì)疑,從而忽略檢測系統(tǒng)的正面作用,無限放大系統(tǒng)的漏洞。
3.6 檢測結(jié)果涵蓋了文章自身
有些文章的檢測結(jié)果報告單重復(fù)文章列表中顯示文章自身,即查重文獻與文章本身重復(fù)。排除了原文,文字復(fù)制比就下降了。
3.7 同一論文不同時間檢測結(jié)果不同
同一篇論文在不同的時間段檢測,檢測結(jié)果存在差異。雖然同一篇文章在不同的時間進行檢測,但是鎖定的檢測時間范圍是一致的,出現(xiàn)不一致的結(jié)果屬于系統(tǒng)判斷失誤。
要理性使用學(xué)術(shù)不端檢測系統(tǒng),充分享有它帶來的便利,同時要正確看待它存在的缺陷,使檢測結(jié)果更加公正合理[1]。這是檢測系統(tǒng)經(jīng)過廣泛推廣使用后大家達成的共識。完善檢測系統(tǒng)功能,提升專業(yè)人員的判斷能力,排除系統(tǒng)障礙,最大限度發(fā)揮系統(tǒng)價值。從以下三方面考慮,確保檢測結(jié)果能夠如實反映論文的真實學(xué)術(shù)水平。
4.1 制定檢測標準消除干擾結(jié)果正確性的客觀因素,以明確論文的原創(chuàng)性與有效價值
論文檢測系統(tǒng)問世的初衷是從技術(shù)層面采取遏制學(xué)術(shù)不端行為。最初應(yīng)用于論文發(fā)表的源頭期刊雜志社,并從編輯部推廣普及。編輯部在使用過程中積累了豐富的經(jīng)驗,使這一檢測工具在編審環(huán)節(jié)起到了積極有效的作用。綜合前期多家編輯部和學(xué)位論文檢測積累的經(jīng)驗,加入人們對原創(chuàng)作品的專業(yè)理解,制定已發(fā)表論文學(xué)術(shù)不端檢測的標準,排除干擾因素才能保證對每一篇已發(fā)表論文給出客觀公正的評價。
(1)本人未公開發(fā)表的博碩士學(xué)位論文、會議交流論文,屬于個人成果但是沒有正式公開發(fā)表,本人拿出其中一塊或者做了進一步的完善發(fā)表在期刊上不計算在重復(fù)范圍之列。
(2)引用文獻,論文中用別人的論點支撐本人論文的部分做了規(guī)范的引用標志,并在參考文獻中有所體現(xiàn)不計算在重復(fù)范圍之列。
(3)本人已發(fā)表文獻,論文中用到了本人前期成果,在合理范圍內(nèi)不計算在重復(fù)范圍之列。
(4)網(wǎng)絡(luò)文獻,由于系統(tǒng)原因出現(xiàn)的檢測時間范圍之外的網(wǎng)絡(luò)文獻,含博客、文庫、互聯(lián)網(wǎng)資源等均不計算在重復(fù)范圍之列。
4.2 加入專業(yè)人員人工判斷消除檢測系統(tǒng)的漏洞,以糾正系統(tǒng)檢測裸數(shù)據(jù)的錯誤因素
筆者在大量實踐的基礎(chǔ)上認真分析了論文檢測系統(tǒng)的不盡完善之處,如何糾正、補充、完善系統(tǒng)存在的問題應(yīng)做如下幾方面的思考。
(1)國內(nèi)開發(fā)的論文檢測系統(tǒng)主要有清華同方、萬方、維普和超星公司的大雅相似度檢測系統(tǒng),不同廠商開發(fā)的檢測系統(tǒng)姑且不論其檢測原理,每個產(chǎn)品依托的后臺數(shù)據(jù)庫都是自建數(shù)據(jù)庫,每個數(shù)據(jù)庫都不可能窮盡所有的資源。同一篇文章使用不同的系統(tǒng)檢測結(jié)果不盡相同。作為評價工具,使用一個系統(tǒng)標準對所有人做出評價有失公允。
(2)論文提取失真的根源在于建庫過程的失誤所致,數(shù)據(jù)庫在建庫過程中難免出現(xiàn)疏漏,疏漏幾率應(yīng)該有可控制的允許范圍。首先作為系統(tǒng)的開發(fā)商針對這一問題應(yīng)該在以后的數(shù)據(jù)加工過程中避免這種事故的發(fā)生,同時建立倒查機制,無論公司工作人員還是用戶遇到這種情況都鼓勵及時反饋,從源頭上修正以前的錯誤。檢測人員盡可能使用論文發(fā)表時的原始版本進行復(fù)查,以保證結(jié)果的真實可靠。
(3)有些論文檢測結(jié)果偏差表現(xiàn)在系統(tǒng)對引用標志的未識別,“引號”引用標志不識別,“文字表述”引用方式不識別這三種情況,第一種情況屬于系統(tǒng)具有對規(guī)范引用格式的識別功能,個別情況未識別應(yīng)該不屬于程序漏洞,與數(shù)據(jù)錄入中的誤差有很大關(guān)系,找出此種失誤的例子研究其問題所在,避免類似事件發(fā)生。第二、三種情況是普遍現(xiàn)象,屬于系統(tǒng)語義功能的不完善所致,系統(tǒng)應(yīng)該完善語料庫,增強語義功能,增加這兩種情況的識別度,增進系統(tǒng)檢測的有效度。
(4)數(shù)字化網(wǎng)絡(luò)化環(huán)境下互聯(lián)網(wǎng)資源是學(xué)術(shù)造假的主要來源,網(wǎng)絡(luò)資源未公開發(fā)表,許多人撰寫論文用到BLOG、微博、論壇、文庫等資源,不加注釋,據(jù)為己有,作為自己的最新成果發(fā)表,因此檢測系統(tǒng)比對源涵蓋互聯(lián)網(wǎng)資源遏制住了人們對網(wǎng)絡(luò)資源的惡意抄襲。但檢測實踐中,發(fā)現(xiàn)報告單有大量的網(wǎng)絡(luò)資源時間上滯后于檢測論文,經(jīng)過多篇測試此類列表的存在雖對結(jié)果的影響不大,但是容易造成作者對檢測系統(tǒng)失去信任。數(shù)據(jù)庫開發(fā)商應(yīng)該針對網(wǎng)絡(luò)文獻類型從時間上加以限制彌補此類漏洞,在系統(tǒng)未完善的情況下檢測人員手工認真核查排除錯誤列表后再出具可信的報告單。
此外,檢測結(jié)果涵蓋參考文獻部分,檢測結(jié)果涵蓋文章本身,邏輯計算錯誤,同一論文不同時間檢測結(jié)果不同等不容忽視的個案造成的檢測結(jié)果偏差雖屬于偶然現(xiàn)象,也給人以警示。系統(tǒng)開發(fā)商應(yīng)直面問題,給使用者以合理解釋,關(guān)鍵在于不斷完善系統(tǒng),杜絕類似情況再次發(fā)生。專業(yè)檢測人員也要以嚴謹?shù)膽B(tài)度對待每一篇論文的檢測,力求做到不冤枉、不誤判每一位作者的辛勤勞動成果。
4.3 消除作者學(xué)術(shù)創(chuàng)作僥幸蒙混的念頭,以嚴謹?shù)闹螌W(xué)態(tài)度對待科學(xué)研究
除系統(tǒng)本身原因之外,大部分論文復(fù)制比偏高的原因來自于作者自身因素,主要體現(xiàn)形式為:(1)同一導(dǎo)師系列論文重復(fù)度高,作者認為在一個導(dǎo)師門下搞研究,方法、材料等都應(yīng)該是相同的,論文出現(xiàn)相互雷同屬于正?,F(xiàn)象。(2)同一主題系列論文重復(fù)度高,論文作者認為后期發(fā)表論文大量沿用自己以前發(fā)表的論文屬于正常現(xiàn)象。(3)同一作者同期發(fā)表的幾篇論文重復(fù)度高,一個時間段一個作者同時發(fā)表幾篇文章,出版時間較晚的論文檢測結(jié)果與較早出版的論文重復(fù)度很高。論文作者認為同一研究思路得出不同的結(jié)論合情合理。(4)同一主題系列論文重復(fù)度高,不同時間發(fā)表的同一主題論文重復(fù)率達到70%以上。顯而易見是一稿多投現(xiàn)象。只是論文題目做了適當改動。(5)作者不重視規(guī)范引用格式,不嚴格按照引用規(guī)范標準撰寫論文,要么不標注引用,要么引用格式不規(guī)范,要么參考文獻不列出來都是造成結(jié)果偏高的直接原因。比如:編輯部對同意錄用的稿件會做編輯校對工作,一方面潤色文字,一方面會根據(jù)版面要求做一些文字的刪減,刪減的文字一般是一些無關(guān)論文主要觀點的語句,作者引用的部分是論文的重要支撐絕對不會刪掉,還是要強調(diào)“引注”,規(guī)范寫作格式,可以規(guī)避造成的文字復(fù)制。
以上作者檢測論文出現(xiàn)檢測偏高結(jié)果,均為自身原因造成,第一種現(xiàn)象不成立的理由,應(yīng)該是雖然同屬一個導(dǎo)師,教導(dǎo)方法一致,但是每個個體的行文方式、語言表達應(yīng)該有所不同,出現(xiàn)相同情況,圖省事拿來別人的東西據(jù)為己有實屬抄襲、剽竊行為;第二到四種現(xiàn)象毋庸置疑,純屬僥幸投機心理,同一時間段在投的多篇稿件編輯部無法檢測出復(fù)制比,如果沒有職稱評審、科研立項等的再次審定,多篇論文都將在評審中起到作用。第五種現(xiàn)象在論文中使用自己(或自己作為作者之一)已發(fā)表文獻的內(nèi)容,卻不加引注,是一種不規(guī)范的學(xué)術(shù)行為,作為晉升高級職務(wù)的老師應(yīng)該具備這樣的學(xué)術(shù)素養(yǎng),否則從這一點上就不符合晉升要求。
學(xué)術(shù)不端檢測系統(tǒng)智能化程度有限,存在不少檢測盲區(qū),只能作為一種輔助工具[2]。實踐證明,影響結(jié)果真實性,造成通過率不理想的主要原因集中在檢測系統(tǒng)存在的問題和作者行文主客觀因素這兩大方面。借助學(xué)術(shù)不端檢測系統(tǒng)檢測學(xué)術(shù)論文客觀評價科研人員的學(xué)術(shù)水平杜絕使用裸數(shù)據(jù),一定要融入圖書館信息檢測專業(yè)人員的判斷,采取審慎、科學(xué)、客觀的態(tài)度,對檢測系統(tǒng)多層面、深層次地理解與把握[3],力求檢測結(jié)果的科學(xué)性、客觀性、公正性。
[1]李丹.學(xué)術(shù)不端檢測系統(tǒng)的理性使用[J].學(xué)術(shù)界,2012,(12):129-133.
[2]李永蓮.學(xué)術(shù)不端文獻檢測系統(tǒng)的檢測盲區(qū)研究[J].青島職業(yè)技術(shù)學(xué)院學(xué)報,2014,(5):78-80,86.
[3]王宇.學(xué)術(shù)不端文獻檢測系統(tǒng)研究綜述[J].西南民族大學(xué)學(xué)報:人文社會科學(xué)版,2013,(4):236-240.
(收稿日期:2015-10-06 責(zé)任編輯:馬秀娟)
G237.5
A
或者
與發(fā)表日期期間檢測結(jié)果顯示有復(fù)制的論文,由于任何一篇論文都存在投稿與刊發(fā)的時滯現(xiàn)象,檢測結(jié)果中出現(xiàn)在這期間的論文不計算在重復(fù)范圍之列。
本文系山西省科技基礎(chǔ)條件平臺建設(shè)項目“構(gòu)建山西高??萍嘉墨I資源服務(wù)體系”(2014091001-0101)研究成果之一。