已發(fā)論文檢測分析報告的權(quán)重系數(shù)設(shè)定

2012-08-15 00:43:20趙蔚

浙江海洋大學(xué)學(xué)報(人文科學(xué)版) 2012年2期

趙蔚

（寧波大學(xué)學(xué)報編輯部，浙江寧波 315211）

近年來，cnki等文獻(xiàn)學(xué)術(shù)不端檢測系統(tǒng)增加了對已發(fā)論文的檢測，主要用于評獎、引進人才科研誠信驗證和職稱評審前的資格審查等環(huán)節(jié)，這種檢測模式對已發(fā)論文的科研誠信起到了追溯作用，該項措施的實施使我國向全面實現(xiàn)誠信科研邁進了一大步。擁有文獻(xiàn)學(xué)術(shù)不端檢測權(quán)的機構(gòu)不多，但是在厘選論文和評審資格等環(huán)節(jié)的涉及面非常廣，可以說和每位研究者都息息相關(guān)。機器檢測報告是否完全公正是每位被檢測者十分關(guān)注的，筆者基于已發(fā)論文的學(xué)術(shù)不端檢測系統(tǒng)特點，對機器檢測報告進行了研究，希望為檢測者提供參考。

一、文獻(xiàn)學(xué)術(shù)不端檢測系統(tǒng)原理

（一）計算機對文獻(xiàn)學(xué)術(shù)不端現(xiàn)象的識別

對學(xué)術(shù)不端現(xiàn)象進行了大量研究的蔣寅先生認(rèn)為目前學(xué)界的文獻(xiàn)學(xué)術(shù)不端現(xiàn)象主要包括：無視學(xué)術(shù)規(guī)范的剽竊、抄襲現(xiàn)象；毫無新創(chuàng)的低水平重復(fù)；一稿多投，著作內(nèi)容重復(fù)出版等變相學(xué)術(shù)欺詐行為。[1]以上各種學(xué)術(shù)不端現(xiàn)象可以溯源到作者的寫作行為：簡單抄襲和復(fù)雜抄襲；將2種抄襲行為轉(zhuǎn)換為電腦的識別技術(shù)為：文本復(fù)制識別和意義改寫識別?；趯ξ墨I(xiàn)學(xué)術(shù)不端檢測系統(tǒng)識別技術(shù)原理探析，可以對文獻(xiàn)學(xué)術(shù)不端檢測報告結(jié)果進行科學(xué)解讀。

（二）文獻(xiàn)學(xué)術(shù)不端檢測系統(tǒng)識別技術(shù)

隨著世界范圍內(nèi)的版權(quán)保護呼聲的高漲，計算機的抄襲識別研究始于20世紀(jì)80年代后期。國外的文獻(xiàn)識別技術(shù)研究者針對某些科研人員運用電腦的“復(fù)制粘貼”類抄襲，開發(fā)出的識別技術(shù)有：數(shù)字指紋(fingerprinting)和詞頻統(tǒng)計(word-frequency)兩類。特定的指紋序列就代表了論文的內(nèi)容特征，通過比較這些指紋來計算論文間的相似程度。詞頻統(tǒng)計技術(shù)特點是準(zhǔn)確率高，但用詞頻統(tǒng)計方法在速度上沒有優(yōu)勢，目前的識別效果也不盡如人意，存在的主要問題有區(qū)分度不高，錯查、漏查現(xiàn)象嚴(yán)重。[2]

我國研究者根據(jù)漢語言文字的特點，專門開發(fā)出自適應(yīng)多階指紋(AMLFP)特征檢測算法、ROSTSEAT算法數(shù)字指紋等檢測方法。[3]目前計算機能夠識別的是文本復(fù)制類型的簡單抄襲，因為這些方法本質(zhì)上都是基于對詞或標(biāo)記“統(tǒng)計”和“對比”的方法，而非真正理解了篇章的意義。評價學(xué)術(shù)不端檢測系統(tǒng)的另一個重要因素是后臺核心數(shù)據(jù)庫平臺的收錄情況，最好的收錄源要能夠最全面收錄中外文書籍、中外學(xué)術(shù)期刊、中外文網(wǎng)絡(luò)文獻(xiàn)等品類，以便于實現(xiàn)比對的權(quán)威性。

（三）已發(fā)論文學(xué)術(shù)不端檢測系統(tǒng)原理

研究者對以“統(tǒng)計”和“文字比對”為基本原理的未發(fā)論文檢測原理探討的比較多，為了測試已發(fā)論文與未發(fā)論文檢測系統(tǒng)的差別，筆者曾拿一篇已發(fā)論文在未發(fā)論文檢測系統(tǒng)進行了測試，結(jié)果顯示論文全篇皆紅，系統(tǒng)顯示這篇文章和已經(jīng)發(fā)表的文章疑似度為100%，以此推斷未發(fā)論文檢測系統(tǒng)是不能檢測已發(fā)論文的，主要原因是系統(tǒng)缺少了一個關(guān)于時間判定的功能。

在已發(fā)論文檢測庫里進行論文的檢測，必須滿足3個條件：第一，系統(tǒng)要能識別出已經(jīng)存在的被測文章，并自動過濾；第二，系統(tǒng)要能夠正確識別被測文章發(fā)表后，與該文章一致的疑似抄襲部分，并自動過濾。這2種情況分別代表作者自己發(fā)的文章和別人抄襲該作者的文章，都不應(yīng)計入該作者的疑似抄襲率中。第三，位于該文章發(fā)表前的被系統(tǒng)顯示疑似抄襲部分，才應(yīng)視作有抄襲的可能。因此系統(tǒng)需要增加時間判定功能和自動過濾功能，自動刪除該文章發(fā)表時（含發(fā)表時間在同一天）及以后的疑似部分及疑似論文。

這種功能既保證了檢測出該文章發(fā)表之前是否存在抄襲，又保證了不會把文章發(fā)表后，別人抄襲該篇文章的內(nèi)容計入該篇文章的疑似率中，確保了系統(tǒng)檢測的公正性。已發(fā)論文檢測有自己的特殊性，一些檢測環(huán)節(jié)中的主客觀因素對檢測結(jié)果均有影響。

二、影響檢測結(jié)果的主客觀因素

本文所指的主客觀因素包括檢測者和待測文件，下面分別探討。

（一）主觀因素

未發(fā)論文的檢測一般由負(fù)責(zé)編輯該篇文章的編輯進行，編輯具有一定的學(xué)科背景，并全程跟蹤該篇文章，可以及時發(fā)現(xiàn)與學(xué)術(shù)不端檢測系統(tǒng)檢測結(jié)果相悖的問題并調(diào)整。已發(fā)論文一般都是第三方檢測，因為論文學(xué)科范圍涉及很廣，檢測者和檢測報告使用者都不可能有全面的學(xué)術(shù)背景。檢測者根據(jù)電腦檢測結(jié)果出具檢測報告，而使用者對檢測報告的數(shù)據(jù)進行閱讀，并據(jù)此判定被測者是否具有入門資格。由于單純以檢測報告上的數(shù)據(jù)為依據(jù)，再加上有些作者寫作不規(guī)范，文章沒有正確引用等，以上原因使部分檢測結(jié)果和真正的抄襲率存在一定的差距，難以體現(xiàn)完全的公正性。

基于對學(xué)術(shù)不端檢測系統(tǒng)的研究，筆者曾提出要正確辨別“文字復(fù)制比”與“文章抄襲率”，我們通常在檢測報告上看到的“文字復(fù)制比”是系統(tǒng)提供的有抄襲嫌疑的文字，“文章抄襲率”是已經(jīng)定性的抄襲文章的比例。[4]在實際操作中要能夠正確辨析“文字復(fù)制比”的真?zhèn)危词共欢恼碌膶W(xué)術(shù)內(nèi)容，還是可以通過一些通用規(guī)則來辨別抄襲程度。

（二）客觀因素

Cnki期刊文獻(xiàn)檢測系統(tǒng)以“中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫”為全文比對數(shù)據(jù)庫，目前支持的稿件類型包括：DOC、TXT、CAJ、KDH、NH、PDF共五種格式，可以從詞、句子、段落等多層面檢測學(xué)術(shù)不端行為。[5]

檢測系統(tǒng)的功能說明顯示該系統(tǒng)可以對多種文獻(xiàn)進行檢測，但事實上，不同類型的電子文檔，在多次檢測中會出現(xiàn)檢測值不完全相同的現(xiàn)象。如一位研究者在中國期刊網(wǎng)中檢索出2篇題名相同作者不同的文章，他將這2篇文章的.caj版本下載并利用AMLC檢測，發(fā)現(xiàn)2篇稿件與其自身的對比結(jié)果也并非100%(一篇是64%，另一篇是77%)。另外一個案例指出同篇文章以不同的格式檢測，竟然造成檢測結(jié)果有20個百分點的差別。[6]

不同的文檔形式會對檢測結(jié)果產(chǎn)生較大的影響，這可能是系統(tǒng)是以word文檔作為基準(zhǔn)，其他類型文檔在“外形比對”辨認(rèn)的過程中可能還存在一些技術(shù)等方面的問題。

三、設(shè)定檢測報告分項的權(quán)重系數(shù)

基于筆者對已發(fā)論文檢測原理和影響檢測結(jié)果的主客觀因素的分析，根據(jù)“學(xué)術(shù)不端行為檢測系統(tǒng)”的標(biāo)準(zhǔn)，“一篇論文與數(shù)據(jù)庫的文字重合率≥10%，屬于句子抄襲；30%-50%間屬于段落抄襲；≥50%則被判斷為整體抄襲?！盵3]若以該標(biāo)準(zhǔn)作為最終檢測結(jié)果判定的數(shù)字標(biāo)準(zhǔn)，則需要對系統(tǒng)認(rèn)定的“文字復(fù)制比”進行仔細(xì)辨別，必要時需要對檢測報告提供的“文字復(fù)制比”進行權(quán)重系數(shù)調(diào)配。

（一）增加疑似抄襲部分的權(quán)重系數(shù)

有些文章初步檢測結(jié)果不錯，系統(tǒng)顯示沒有抄襲嫌疑，但是該篇文章的研究主題比較陳舊，就存在隱性抄襲的可能。

1.“文字復(fù)制比”+“關(guān)鍵部位抄襲率”*權(quán)數(shù)1.5

有的文章對其他研究者的觀點、主題進行拼盤式抄襲，并無個人見解，或者關(guān)鍵部分抄襲率較高，但全文的抄襲率不高，這種抄襲隱蔽，性質(zhì)惡劣，一旦被發(fā)現(xiàn)，要增加1.5倍的權(quán)重系數(shù)，或者視情節(jié)輕重實行一票否決制。這種抄襲一般的機器檢測法很難發(fā)現(xiàn)，只能通過增加公示環(huán)節(jié)，以同行間的監(jiān)督和專家的評議來實現(xiàn)檢測。

2.“文字復(fù)制比”+“疑似抄襲比n”

這里n是指數(shù)學(xué)公式、研究方法等很難通過機器檢測出的項目占全文的比例。有研究者指出檢測系統(tǒng)對于含數(shù)學(xué)公式和表格的PDF、WORD格式的文件具有一定的局限性，檢測效果不理想。[7]因為研究方法、研究數(shù)據(jù)等方面的抄襲比較難以檢測，可以在檢測報告中明確指出占全文比重多少的部分有抄襲嫌疑并建議通過人工辨別的方法確認(rèn)是否存在抄襲現(xiàn)象。

（二）降低疑似抄襲部分的權(quán)重值

1.“文字復(fù)制比”-“前半部分的抄襲率”*權(quán)數(shù)0.5

前半部分抄襲度較高，但是核心位置沒有抄襲的文章應(yīng)該如何計算其最終的抄襲率是很值得探討的。相對應(yīng)后半部分及核心部位的抄襲，文章前半部分出現(xiàn)的抄襲現(xiàn)象是比較輕度的抄襲。因為前半大部分屬于文獻(xiàn)綜述、歷史、現(xiàn)實情況介紹等，無論哪位作者寫客觀情況基本是一樣的，疑似度也會比較高，關(guān)鍵看其觀點和核心部分是否有創(chuàng)新。基于此，筆者認(rèn)為非核心部位的抄襲應(yīng)該有一個能夠適度降低抄襲率的系數(shù)，這樣既保護了作者文章的原創(chuàng)性，又在一定程度上對作者不謹(jǐn)慎的科研行為進行了懲罰，筆者以為這個系數(shù)0.5為宜。

2.“文字復(fù)制比”-“疑似抄襲比n”

（1）n為公有領(lǐng)域中思想等內(nèi)容占全文的比例

我國著作權(quán)法有“思想與表達(dá)二分法”原則，認(rèn)為作品中思想不受著作權(quán)法保護，是因為思想是創(chuàng)造表達(dá)性作品的基本建筑材料，體現(xiàn)的是人類文明的承襲，但是，著作權(quán)法明確提出要保護作品表達(dá)的形式，包括書寫風(fēng)格、電影作品的版次等方面。將這個原則翻譯為研究者需要遵守的行為規(guī)范為：其他研究者可以借鑒該研究者的思想，如果是原文引用，須以參考文獻(xiàn)的形式進行標(biāo)注，如果是經(jīng)過了研究者的再次加工，則無需標(biāo)注。

有研究者特別指出，要注意“需要將作品中屬于公有領(lǐng)域中思想的表達(dá)加以排除，因為這部分內(nèi)容不屬于著作權(quán)之保護范圍”。[8]例如對法律條款、數(shù)據(jù)、事實、公理、定律等的引用出現(xiàn)了標(biāo)紅的現(xiàn)象要將這部分文字在全文中所占的比重n減掉。

（2）n為下面3種情況所占全文的比例

以下三種情況指論文中明確注明為引自其他論文中內(nèi)容；系統(tǒng)收錄不全導(dǎo)致的抄襲率；本人碩士、博士畢業(yè)論文中內(nèi)容[9]。對于論文中明確注明為引自其他論文中的內(nèi)容，要區(qū)別對待，有一種情況是作者不小心引用了已經(jīng)被認(rèn)定為抄襲或者系統(tǒng)收錄不全導(dǎo)致的文字復(fù)制比，應(yīng)該被扣除，必要時可以請作者通過申訴等途徑完成。但是也有一種是作者隨意標(biāo)注參考文獻(xiàn)的現(xiàn)象，看起來標(biāo)注了，但是按照作者提供的參考文獻(xiàn)去找，根本找不到，這種情況一旦發(fā)現(xiàn)還是要計入文字復(fù)制比的。建議可以通過下面的途徑判斷：系統(tǒng)標(biāo)紅的地方右鍵會顯示來源，將該來源與作者提供的參考文獻(xiàn)進行比對，情況一目了然。另外一種情況，博、碩士論文雖然印刷及被cnki收錄，但是沒有正式的刊號及書號，不屬于真正意義上的公開發(fā)表，這個原因?qū)е碌奈淖謴?fù)制比也應(yīng)被扣除。

對cnki檢測出來的結(jié)果要區(qū)別對待，這在未發(fā)論文檢測者中已經(jīng)有了比較明晰的認(rèn)識，但是對于已發(fā)論文檢測者來說，由于檢測者的專業(yè)、第三方檢測模式，文件類型等一系列主客因素的限制，僅僅按照系統(tǒng)檢測報告提交給使用者可能對被檢測者不公，希望檢測方能合理利用以上論及的增減權(quán)重值的方法，在提交檢測報告的同時對“文字復(fù)制比”進行科學(xué)分析，以求得更高程度的公平公正。

[1]蔣寅.治理學(xué)術(shù)腐敗和學(xué)術(shù)不端行為的思路與對策[J].社會科學(xué)論壇，2009（9）：30-63.

[2]史彥軍,滕弘飛,金博.抄襲論文識別研究與進展[J].大連理工大學(xué)學(xué)報，2005，45（1）：50-57.

[3]CNKI科研誠信管理系統(tǒng)研究中心.學(xué)位論文學(xué)術(shù)不端行為檢測系統(tǒng)的研制說明[EB/OL].（2010-08-31）.http://check.cnki.net/smlc2/Sim Result.aspx?Group=2010031613355304122745.

[4]趙蔚.對學(xué)術(shù)不端檢測結(jié)果的修正判標(biāo)準(zhǔn)初探——基于“文字復(fù)制比”與“文章抄襲率”的辨析[J].中國出版，2011（22）：20-23.

[5]佚名.社科期刊學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)使用說明書[EB/OL].（20081-12-25）.http://check.cnki.net/smlc2/help/.pdf.

[6]孔琪穎，蔡斐，張利平，徐曉.正確看待“科技期刊學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)”檢測結(jié)果[J].編輯學(xué)報，2009，21（6）：361-362.

[7]趙紅玉，盧有泉.學(xué)術(shù)不端行為以及對AMLC系統(tǒng)運用的思考[J].西南石油大學(xué)學(xué)報:社會科學(xué)版,2011（4）：109-112.

[8]馮曉青.著作權(quán)法中思想與表達(dá)二分法原則探析[J].湖南文理學(xué)院學(xué)報：社會科學(xué)版，2008,33（1）：71-78.

[9]佚名.2011年職稱評審熱點問題解答[EB/OL].（2011-04-25）.http://rsc.zjnu.net.cn/admin/newsview.asp?id=1643.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

已發(fā)論文檢測分析報告的權(quán)重系數(shù)設(shè)定

一、文獻(xiàn)學(xué)術(shù)不端檢測系統(tǒng)原理

二、影響檢測結(jié)果的主客觀因素

三、設(shè)定檢測報告分項的權(quán)重系數(shù)

一、文獻(xiàn)學(xué)術(shù)不端檢測系統(tǒng)原理

二、影響檢測結(jié)果的主客觀因素

三、設(shè)定檢測報告分項的權(quán)重系數(shù)