竇學俊++高巧林++欒世杰++劉珊珊
摘要:目的 探討山東省內(nèi)部分高校職稱評審論文學術不端現(xiàn)狀及學術不端檢測系統(tǒng)的應用價值。方法 使用中國知識資源總庫科技期刊學術不端文獻檢測系統(tǒng)和萬方數(shù)據(jù)論文相似性檢測系統(tǒng),對2012-2015年山東省部分高校職稱論文進行檢測,并使用Excel 2007對檢測結果進行統(tǒng)計分析。 結果 共計檢測9565篇論文,其中中文論文7437篇,外文論文2128篇。每年均有90%以上的論文總復制比低于30%,2013-2015年均有94%以上的論文單篇最大文字復制比低于20%。結論 山東省高校論文文字復制比仍有下調(diào)的必要,小部分文獻單篇復制比過高;學術不端文獻檢測系統(tǒng)存在檢測盲區(qū)。
關鍵詞:論文;學術不端;檢測系統(tǒng);高校
中圖分類號:G644 文獻標識碼:A 文章編號:2095-5707(2017)06-0018-05
Analysis on the Academic Misconduct in the Papers Submitted by Some Colleges and Universities in Shandong Province and Understanding of Academic Misconduct Detection System
DOU Xue-jun, GAO Qiao-lin*, LUAN Shi-jie, LIU Shan-shan
(Library of Shandong University of Traditional Chinese Medicine, Ji'nan Shandong 250355, China)
Abstract: Objective To explore the current status of academic misconduct in the title evaluation papers submitted by some colleges and universities in Shandong Province and the application value of academic misconduct detection system. Methods Academic misconduct detection system of science and technology journals in Chinese Knowledge Resources and similarity detection system of Wanfang database were used to test the title evaluation papers submitted by some colleges and universities in Shandong Province from 2012 to 2015, and Excel 2007 was used to analyze the results. Results 9565 papers were tested, including 7437 Chinese papers and 2128 papers of foreign languages. More than 90% papers had a total copy ratio of less than 30% per year, and more than 94% papers had a single copy ratio of less than 20% in 2013-2015. Conclusion There is still a need to reduce the copy ratio of papers in colleges and universities in Shandong Province, and the single copy ratio of a small part of papers is too high. There are still blind spots in academic misconduct literature detection system.
Key words: papers; academic misconduct; detection system; college and university
近年來,學術界屢屢爆出學術造假、論文抄襲等學術不端事件,本科畢業(yè)論文和研究生論文造假新聞也時常見諸媒體報道。2015年,英國大型醫(yī)療
第一作者:竇學俊,館員,研究方向為中醫(yī)藥信息學。 E-mail: xjdou@sina.com
*通訊作者:高巧林,研究館員,研究方向為中醫(yī)藥信息學。E-mail: gaoql0916@163.com
科學學術文獻出版商BioMed Central因同行評審涉嫌造假撤銷43篇論文,其中41篇的作者來自中國大陸[1]。2017年4月,世界最大學術出版商之一的施普林格(Springer)宣布撤回發(fā)表在2012-2016年《腫瘤生物學》(Tumor Biology)上的107篇論文。這107篇論文全部與中國研究機構有關,涉及524位作者,撤回原因是“同行評議造假”[2]。為了反學術不端,國內(nèi)各大數(shù)據(jù)庫都推出了學術不端檢測系統(tǒng)。山東中醫(yī)藥大學引進中國知識資源總庫(CNKI)科技期刊學術不端文獻檢測系統(tǒng)(AMLC)和萬方論文相似性檢測系統(tǒng),依照山東省教育廳有關職稱論文學術檢測相關要求,對省內(nèi)部分高校提交的職稱評審論文進行檢測?,F(xiàn)就檢測結果進行統(tǒng)計分析,從一個側面了解本省當前學術論文學術不端情況,為制定相關措施提供參考。
1 資料與方法
1.1 數(shù)據(jù)來源endprint
從2011年開始,山東中醫(yī)藥大學圖書館承擔了山東省教育廳高校職稱論文的學術檢索工作,檢測論文來自省內(nèi)醫(yī)學院校和非醫(yī)學院校的生物醫(yī)學類論文。因2011年山東省教育廳對學術檢索設置的指標(密切相關文獻數(shù)量、相關文獻數(shù)量和內(nèi)容重合率)與2012年之后有顯著不同,故2011年的職稱論文未納入此次統(tǒng)計范圍。
根據(jù)山東省教育廳有關職稱論文學術檢測要求,對提交論文進行如下檢測:⑴中文論文原文依次通過CNKI、萬方數(shù)據(jù)知識服務平臺和維普期刊資源整合服務平臺檢索下載。⑵中文論文檢測首選AMLC,CNKI收錄不全的期刊使用萬方論文相似性檢測系統(tǒng)(CNKI未收錄2007年之后中華醫(yī)學會系列雜志)。⑶外文論文使用AMLC檢測(外文論文由作者單位審核后提交電子版原文,在AMLC中檢測;檢測機構不能下載外文原文)。⑷進行學術不端檢測的截止日期統(tǒng)一為論文的收稿時間,沒有注明收稿時間的論文則使用發(fā)刊時間。
1.2 納入標準
省內(nèi)醫(yī)學院校和非醫(yī)學院校共15所高校提交的生物醫(yī)學類論文。
1.3 排除標準
⑴刊載論文的刊物未收錄于數(shù)據(jù)庫中,無法核實原文,刊物存疑。⑵所提交的論文不是期刊論文或會議論文,是以圖書形式發(fā)行的論文集論文,山東省教育廳組織專家討論認為此類論文水平不能等同于公開發(fā)表的期刊論文,不予以檢測。⑶數(shù)據(jù)庫已收錄了刊載論文的刊物,但因數(shù)據(jù)庫時差未收錄刊載的當期;或因數(shù)據(jù)庫回溯不全未收錄刊載當期或收載當期的目錄不全;或查到的期目錄未包含作者提交的論文,論文存疑。
1.4 統(tǒng)計方法
2012年,采用“去除本人學位論文會議論文文獻復制比”指標,對作者學位論文、會議論文的重合部分予以排除后,計算總復制比,未設“單篇最大文字復制比”指標。2013年開始,增加“單篇最大文字復制比”指標。復制比以20%、30%、50%、90%為分界點劃分不同區(qū)間,統(tǒng)計每個區(qū)間內(nèi)文獻篇數(shù)及所占百分比。將各年份數(shù)據(jù)輸入Excel 2007進行統(tǒng)計分析。
2 結果
2012-2015年共計有9565篇論文納入統(tǒng)計范圍,其中中文論文7437篇,外文論文2128篇(均為英文)。
2.1 復制比
2.1.1 去除本人學位論文會議論文文獻復制比 統(tǒng)計表明,歷年“去除本人學位論文會議論文文獻復制比”(簡稱“總復制比”)合格率(<30%)在90%以上(見表1)。每年均有>5.00%的論文總復制比高于30%,有≥1.52%的論文總復制比高于50%,共有16篇論文總復制比≥90%。
2.1.2 單篇最大文字復制比 2013-2015年“單篇最大文字復制比”(簡稱“單篇復制比”)合格率(<20%)均在94%以上(見表2)。
2.2 復制比超標情況
2013-2015年總復制比≥30%的論文分別有128篇(占5.41%)、134篇(占5.40%)、136篇(占9.16%)。2013-2015年單篇復制比≥20%的論文分別有101篇(占4.27%)、136篇(占5.48%)、88篇(占5.93%)(見表3)。2013-2015年均有一定量論文總復制比<30%但單篇復制比≥20%,提示抄襲可能性大。而總復制比≥30%、單篇復制比<20%,說明與多篇文獻相似,只是累積復制比超過30%,還應具體問題具體分析。
2.3 外文論文情況
提交論文語種分析顯示,各年份提交的外文論文比例在20%左右,2013-2015年呈增高趨勢(見表4)。
3 討論
3.1 山東省部分高??蒲形墨I學術不端現(xiàn)狀
《科技工作者科學道德規(guī)范(試行)》對“學術不端行為”的定義是:在科學研究和學術活動中的各種造假、抄襲、剽竊和其他違背科學共同體慣例的行為[3]。2016年9月1日開始施行的《高等學校預防與處理學術不端行為辦法》,將剽竊、抄襲、侵占他人學術成果,及篡改他人研究成果列在學術不端行為的首要位置[4]。新修訂的《普通高等學校學生管理規(guī)定》自2017年9月1日起施行,其中規(guī)定,對于學位論文、公開發(fā)表的研究成果存在抄襲、篡改、偽造等學術不端行為,情節(jié)嚴重的,或者代寫論文、買賣論文的,學??梢越o予開除學籍處分[5]。國內(nèi)外普遍成立了第三方獨立審查機構,研制了學術不端檢測系統(tǒng)。學術不端檢測也稱為論文相似度檢測、論文查重,是通過學術不端文獻檢測系統(tǒng)對論文的主體進行識別檢測的方法,通過系統(tǒng)的運作與計算,以“復制比”或“相似比”的直觀形式呈現(xiàn)檢測結果。
本次統(tǒng)計結果表明,2012-2015年山東省部分高校職稱論文總復制比合格率均在90%以上,該數(shù)值與CNKI對92萬多篇文獻的檢測結果相當[6]。其中2012-2014年均在94%以上,而2015年略低,可能與試點院校放寬提交標準有關。
單篇最大文字復制比用于反映是否有單獨抄襲某篇論文的可能性,統(tǒng)計顯示,2013-2015年每年均有20篇以上的論文與其他某篇論文有50%以上的相似性,有的甚至達90%以上。論文總復制比低于30%但單篇復制比高于20%,提示抄襲可能性大,說明設立單篇復制比指標對防止學術不端有積極的作用。上述結果說明,山東省高校職稱論文小部分文獻單篇復制比過高,應加強原創(chuàng)性引導。
外文論文統(tǒng)計顯示,2012年外文論文比例高于2013、2014年,原因可能為2012年只準許提交3篇代表性成果,而2013年之后可提交多篇論文,檢測后選擇其中3篇進行評審。外文論文比例2013-2015年有呈增高趨勢,一方面說明各院校發(fā)表的外文論文數(shù)量在增加,學術成果對外交流增多;另一方面可能是因為目前外文論文檢測結果復制比較低,促使作者多發(fā)或多提交外文論文。
3.2 學術不端文獻檢測系統(tǒng)存在的問題
目前學術不端文獻檢測系統(tǒng)不能完全取代人工對比,仍存在較多檢測盲區(qū),現(xiàn)就筆者使用過程中發(fā)現(xiàn)的問題列舉如下。endprint
3.2.1 合理引用與抄襲的區(qū)分 引用政府文件、領導人講話、權威著作、歷史材料、法律法規(guī)、診斷療效標準、操作規(guī)程等,被誤判為段落抄襲或句子抄襲,導致文字復制比偏高。生物醫(yī)學領域的論文,很多研究方法和臨床診療方案是相似的,而且論文的格式基本都是固定的,語句較為簡單和通用,如:采用SPSS統(tǒng)計軟件分析數(shù)據(jù),計量資料以X±S表示,組間比較采用t檢驗;計數(shù)資料組間比較采用X2檢驗;P<0.05為差異有統(tǒng)計學意義。同一方向的研究往往查詢的文獻相同、采用的技術和方法一致,就連在術語的應用和語言的表達上也容易造成重復。同一作者在前期研究的基礎上繼續(xù)深入,后期文章中前言文字、研究方法、研究儀器、所用材料、統(tǒng)計學分析等很多文字說明與前期文章一致,甚至會引用前期文章中的數(shù)據(jù)。中醫(yī)藥類論文經(jīng)常引用經(jīng)典語句,檢測系統(tǒng)尚不能識別這些語句出自經(jīng)典著作。因此,醫(yī)學類文章容易出現(xiàn)文字重復,導致文字復制比偏高[7]。也有的論文整體文字復制比偏高,但核心內(nèi)容基本不重復,利用這些系統(tǒng)檢測醫(yī)學論文的時候可能會出現(xiàn)檢測結果“假陽性”。檢測系統(tǒng)遏制了明目張膽的抄襲、剽竊,但對文化發(fā)展產(chǎn)生了負面影響。依據(jù)《著作權法》作者有引用的權利,系統(tǒng)卻不能保障[8]。此類情況應由同行評議的方式進行補充評議。
3.2.2 檢測系統(tǒng)收錄文獻完整性問題 CNKI、萬方、維普數(shù)據(jù)庫與國內(nèi)眾多期刊均有合作,但三家數(shù)據(jù)庫所收錄的期刊并不完全重合。造成各家收錄論文存在差異性,導致學術不端檢測的結果出現(xiàn)差異。如果抄襲了回溯建庫之前的文獻,則數(shù)據(jù)庫無法查實。并且CNKI、萬方數(shù)據(jù)都分別與部分科技期刊編輯部簽訂了獨家合作協(xié)議,意味著該刊的所有文獻只能在各自的數(shù)據(jù)庫中檢索到,造成其他數(shù)據(jù)庫的統(tǒng)計源文獻的缺失。此外,目前檢測系統(tǒng)對圖書的收錄還有很大空缺,如果論文抄襲的是圖書內(nèi)容,現(xiàn)有系統(tǒng)無法檢測出來。
3.2.3 檢測技術問題 各檢測系統(tǒng)在工作方式、后臺數(shù)據(jù)庫、算法特點(對論文關鍵語義片斷識別檢測、字段識別、近義同義識別)等方面都存在差異,這些在技術上的不同,會造成不同的檢測系統(tǒng)對同一篇論文檢測時,得出不同的結論結果,而且有時差異較大[9]。有抄襲者針對檢測系統(tǒng)的檢測原理研究出“反反抄襲”方法,把論文寫作變成了文字游戲,通過對語句順序的調(diào)整、同義詞替換、語句表達方式的變動而躲避系統(tǒng)的檢測。更有甚者將外文文獻翻譯成中文后發(fā)表,或?qū)⒆约旱闹形母寮g成英文再投稿。學術不端檢測系統(tǒng)在技術上只能檢測“文字”而不能檢測“思想”,從而只能避免“文字”抄襲而不能防止“思想”抄襲的缺陷[10]。此時需要通過同行評議的方式進行補充評議。
3.2.4 文字識別誤差 對于同一篇論文,使用Word版與PDF版本進行檢測會得到明顯的論文重復率的不同,這主要由兩者文字識別率不同引起。同時在檢測報告中有時也會出現(xiàn)亂碼,也是由于提交的PDF版本論文或數(shù)據(jù)庫中論文的文字轉換差錯所導致。
3.2.5 轉頁文字處理錯誤 兩篇論文共用一頁或同一篇論文排版標識為下轉某一頁時,檢測結果可能出現(xiàn)被檢測論文與其自身重復或同一文字誤作兩篇的錯誤,直接導致復制比增高,必須人工予以鑒別。
3.2.6 外文論文檢測水平需提高和突破 在檢測中發(fā)現(xiàn)目前外文論文檢測結果復制比較低,這與檢測系統(tǒng)收錄外文文獻底層數(shù)據(jù)不足、范圍受限有關,較低的復制比并不能反映出論文的真實質(zhì)量水平。
3.2.7 檢測報告閱讀、解釋 因檢測系統(tǒng)尚未完善,檢測報告中可能存在其他問題,⑴部分外文會議論文未標引作者,同作者提交的期刊論文重合部分無法排除;⑵參考文獻與其他論文的參考文獻重合,也計入了總重合率(雖然系統(tǒng)中有“去除參考文獻后復制比”指標,但是有的參考文獻未被識別);⑶外文姓名不能自動識別,如Xiao Yong SUN VS Xiao-Yong Sun;⑷文字識別錯誤,筆者曾檢測過一篇論文,檢測報告顯示“去除本人學位論文會議論文文獻復制比”為43.4%,“單篇最大文字復制比”為18.4%。后與原文對比發(fā)現(xiàn)檢測字數(shù)為376字,與原文轉換為文本后的4001字差別較大,故考慮為檢測系統(tǒng)文字轉換有誤。咨詢相關技術人員解釋為:收錄數(shù)據(jù)加工問題所致系統(tǒng)無法讀取原文。后經(jīng)該論文以PDF格式原文上傳檢測,其結果“去除本人學位論文會議論文文獻復制比”為0.9%,“單篇最大文字復制比”為0.9%。
4 小結
論文抄襲是學術不端的常見形式,學術不端文獻檢測系統(tǒng)確實對檢測中文論文的內(nèi)容重復情況具有重要的實用價值,也對部分學術不端者起到了震懾作用。本研究對山東省部分高校4年間9000多篇職稱評審論文檢測結果的統(tǒng)計分析,部分地反映了當前山東省高校學術論文的學術不端真實狀況。學術不端文獻檢測系統(tǒng)本身還存在一些問題,這就需要檢測人員以高度的責任心對檢測報告仔細解讀,審慎出具檢測結論。同時也提醒檢測報告的使用機構必須合理使用報告結果,必要時應進行人工的學術鑒定,而不能只關注檢測報告的數(shù)據(jù)。
參考文獻
[1] BARBASH F. Major publisher retracts 43 scientific papers amid wider fake peer-review scandal[EB/OL].(2015-03-27)[2017-02-24].https://www.washingtonpost.com/news/morning-mix/wp/2015/03/27/fabricated-peer-reviews-prompt-scientific-journal-to-retract-43-papers-systematic-scheme-may-affect-other-journals/?deferJs=true&outputType=default-article&utm_ term=.697eb8d86959.
[2] STIGBRAND T. Retraction Note to multiple articles in Tumor Biology[J]. Tumor Biology, 2017(4):5487-5492.[2017-02-14].https://link.springer.com/article/10.1007/s13277-017-5487-6.
[3] 中國科學技術協(xié)會.中國科協(xié)發(fā)布《科技工作者科學道德規(guī)范》[EB/OL].(2007-03-23)[2017-03-01].http://www.cast.org.cn/ n35081/n35608/10395341.html.
[4] 中華人民共和國教育部.高等學校預防與處理學術不端行為辦法[EB/OL].(2016-06-16)[2017-03-01].http://www.moe.edu.cn/ srcsite/A02/s5911/moe_621/201607/t20160718_272156.html.
[5] 中華人民共和國教育部.普通高等學校學生管理規(guī)定[EB/OL].(2017-02-04)[2017-03-01].http://www.moe.edu.cn/srcsite/ A02/s5911/moe_621/201702/t20170216_296385.html.
[6] 宋如華.從初審環(huán)節(jié)防范學術不端論文[N].科學時報,2009-12-11(A3).
[7] 楊晨晨.運用學術不端文獻檢測系統(tǒng)檢測醫(yī)學論文存在的問題及對策[J].編輯學報,2014,26(1):42-44.
[8] 王文福.期刊防范學術不端的深度反思——兼談對AMLC系統(tǒng)的理性認知[J].編輯之友,2017(3):32-36,41.
[9] 李永蓮.學術不端文獻檢測系統(tǒng)的檢測盲區(qū)研究[J].青島職業(yè)技術學院學報,2014,27(5):78-80,86.
[10] 朱燕.試論反抄襲軟件的學術規(guī)范功能及其局限性[J].蘭州教育學院學報,2016,32(10):91-93.
(收稿日期:2017-03-24)
(修回日期:2017-06-30;編輯:魏民)endprint