文/聞麗 羅列
近年來,學(xué)術(shù)不端行為呈現(xiàn)了新變化,由于獲取信息途徑更多,抄襲成本降低,形式越來越多樣化,隱蔽性越來越強(qiáng),逐漸顯現(xiàn)常態(tài)化。學(xué)術(shù)不端行為對(duì)學(xué)術(shù)環(huán)境的不良影響也越來越受到關(guān)注。科技期刊作為科技成果的重要交流平臺(tái),是干預(yù)和阻止學(xué)術(shù)不端行為的最后防線,在凈化學(xué)術(shù)環(huán)境中占有重要地位。目前,科技期刊出版流程中對(duì)于學(xué)術(shù)不端行為的防范主要是在審稿階段通過同行評(píng)議、檢測(cè)系統(tǒng)查重、要求作者簽署“誠(chéng)信承諾書”等措施來進(jìn)行,同行評(píng)議和新興起的查重軟件均存在一定的不足,簽署科研誠(chéng)信承諾書基本流于形式,收效甚微,使得學(xué)術(shù)不端行為向隱蔽性更強(qiáng)、發(fā)現(xiàn)難度更大等方向發(fā)展[1]。
目前,關(guān)于論文出版階段科技期刊防范學(xué)術(shù)不端行為的研究主要是集中在學(xué)術(shù)不端行為規(guī)律及其防范措施方面。徐石勇等以《絲綢》為例,對(duì)近年來該期刊遇到的作者學(xué)術(shù)不端的現(xiàn)象進(jìn)行匯總、分析,并總結(jié)了針對(duì)這些學(xué)術(shù)不端現(xiàn)象的防范措施[2];吳寧對(duì)科技期刊中學(xué)術(shù)不端行為的變化特點(diǎn)進(jìn)行了分析,并提出了一些應(yīng)對(duì)措施[3];王子君等提出在修改稿件過程中如何判斷學(xué)術(shù)不端行為[4]。研究表明,由于各途徑均存在疏漏,在科技期刊出版中防范學(xué)術(shù)不端行為最重要的途徑還是加強(qiáng)期刊人才建設(shè)和提高其素質(zhì),不端行為的發(fā)現(xiàn)往往需要依賴編輯的責(zé)任心和專業(yè)素養(yǎng),需要充分發(fā)揮編輯的主觀能動(dòng)性[5-7],這就難免造成學(xué)術(shù)不端行為的漏查。
作為一種科技期刊出版的發(fā)展業(yè)態(tài),關(guān)于語義出版的研究多集中于出版流程中語義出版技術(shù)的實(shí)現(xiàn),鮮見有關(guān)語義出版在防范學(xué)術(shù)不端方面的研究。本研究基于語義技術(shù)在科技期刊的應(yīng)用,詳細(xì)、多角度闡述語義出版在技術(shù)實(shí)施方面如何實(shí)現(xiàn)對(duì)不端學(xué)術(shù)行為的防控,旨在為科技期刊語義出版發(fā)展中對(duì)于學(xué)術(shù)不端行為的規(guī)避提供參考,使得科技期刊成為維護(hù)學(xué)術(shù)生態(tài)環(huán)境的重要屏障和學(xué)術(shù)評(píng)價(jià)的公器。
由于從第一次重復(fù)率檢測(cè)到上網(wǎng)的滯后期,在刊發(fā)前編輯可能需對(duì)稿件進(jìn)行多次重復(fù)率檢測(cè)。真正的語義出版工作始于作者進(jìn)行論文創(chuàng)作,由于文章與檢測(cè)系統(tǒng)的無縫銜接,確保稿件每次修改都自動(dòng)生成實(shí)時(shí)相似性檢測(cè),超過預(yù)設(shè)值則自動(dòng)發(fā)出預(yù)警,為編輯工作帶來極大的便利。語義出版在稿件的審查階段,不僅可以防范同行評(píng)議、判斷創(chuàng)新性中出現(xiàn)學(xué)術(shù)不端,還可以幫助編輯對(duì)于稿件的研究背景、學(xué)科進(jìn)展、應(yīng)用前景進(jìn)行預(yù)估,不再是單一的進(jìn)行相似性檢測(cè)。
應(yīng)用語義技術(shù)有利于基于最少的工作建立一個(gè)真正意義上的全網(wǎng)協(xié)同平臺(tái),實(shí)現(xiàn)最大限度的知識(shí)產(chǎn)權(quán)保護(hù)和學(xué)術(shù)不端行為的發(fā)現(xiàn)。從單一的重復(fù)性檢測(cè)到全網(wǎng)協(xié)同、實(shí)時(shí)重復(fù)性檢測(cè)再到創(chuàng)新性判斷,語義技術(shù)的應(yīng)用對(duì)于盡早發(fā)現(xiàn)學(xué)術(shù)不端行為、對(duì)研究?jī)?nèi)容低水平重復(fù)篩選將發(fā)揮重要作用。
由于傳統(tǒng)出版中的期刊版面限制,作者無法提供數(shù)據(jù)的分析過程,為數(shù)據(jù)篡改和偽造提供了便利。為了提高研究的可重復(fù)性,科研人員要求期刊提供研究論文原始數(shù)據(jù)的期望越來越強(qiáng)烈。論文投稿時(shí)提交和發(fā)表時(shí)公布支撐數(shù)據(jù),已成為越來越多科技期刊的基本要求,例如Science、Nature、Cell等,然而傳統(tǒng)出版的有限版面難以滿足這一要求[8]。
2014年,由Nature出版集團(tuán)創(chuàng)立的Scientific Data電子期刊和中國(guó)科學(xué)院地理科學(xué)與資源研究所、中國(guó)地理學(xué)會(huì)創(chuàng)立的“全球變化科學(xué)研究數(shù)據(jù)出版系統(tǒng)”均已實(shí)施了實(shí)體數(shù)據(jù)與數(shù)據(jù)論文關(guān)聯(lián)出版的模式。目前,國(guó)內(nèi)已有《地理學(xué)報(bào)》等30多家期刊就關(guān)聯(lián)數(shù)據(jù)發(fā)表論文達(dá)成了共識(shí),已有部分期刊提出了提交支撐數(shù)據(jù)的要求。如《中華健康管理學(xué)雜志》從2016年起,逐步要求原始研究類稿件提供相應(yīng)的原始材料,例如原始數(shù)據(jù)、原始結(jié)果、量表、干預(yù)方法、問卷等,但限于傳統(tǒng)出版和當(dāng)前數(shù)據(jù)出版的局限性,這些資料不能完全發(fā)揮其本身的所有潛能。
通過查重軟件檢測(cè)可以發(fā)現(xiàn)部分學(xué)術(shù)不端行為,但軟件查重存在的漏洞和不足也使學(xué)術(shù)不端行為更加隱蔽,檢測(cè)出該行為的難度增大。語義技術(shù)的應(yīng)用不僅使得出版內(nèi)容發(fā)生改變,也可使得查重技術(shù)更加智能化,查重結(jié)果更為準(zhǔn)確。目前,語義技術(shù)是查重軟件應(yīng)用的技術(shù)之一即是基于詞頻統(tǒng)計(jì)的方法。此方法引自向量空間的檢索模型,和信息檢索技術(shù)相關(guān)。首先要統(tǒng)計(jì)每篇文檔中各個(gè)單詞的出現(xiàn)次數(shù),再根據(jù)指定規(guī)則將單詞頻度轉(zhuǎn)化為空間特征向量,最后采取度量向量之間的距離來計(jì)算相似度,從而達(dá)到查重的目的[9]。
近年來,中國(guó)知網(wǎng)開發(fā)的科研誠(chéng)信管理系統(tǒng)實(shí)現(xiàn)了基于內(nèi)容的信息指紋技術(shù)與語義分析技術(shù)的有效結(jié)合,不僅保證了檢查結(jié)果的精準(zhǔn)性,還具備了較強(qiáng)的抗干擾能力,支持文獻(xiàn)改寫、重組、翻譯等多種變換形式的檢測(cè),檢測(cè)系統(tǒng)已實(shí)現(xiàn)了語義級(jí)別內(nèi)容的檢測(cè)。該系統(tǒng)不僅可對(duì)圖、表等特殊檢測(cè)對(duì)象進(jìn)行基于標(biāo)題、上下文、圖表內(nèi)容結(jié)合的相似性檢測(cè)處理[10],還可根據(jù)特定的概念、觀點(diǎn)、結(jié)論等內(nèi)容進(jìn)行智能信息分類處理。隨著語義技術(shù)在查重系統(tǒng)中應(yīng)用的逐步成熟,粒度可調(diào)地融入語義特征的相似性分析技術(shù),以句子為基本分析單位,專門用于文本相似性的快速準(zhǔn)確比對(duì)。其強(qiáng)大的查重功能將會(huì)加大學(xué)術(shù)不端檢測(cè)力度,即使是一般的低水平重復(fù)也會(huì)被檢測(cè)出來,普通的逃避查重行為更是無處遁形,從而在剽竊和抄襲方面的學(xué)術(shù)不端行為防范中發(fā)揮重要作用。
另外,僅根據(jù)相似比來判斷是否存在學(xué)術(shù)不端行為,決定稿件“去”與“留”有著一定的不科學(xué)性。要真正地減少跟風(fēng)、重復(fù)選題,遏制平庸不良選題,不僅要杜絕“形抄”,更要杜絕“意抄”。應(yīng)用語義技術(shù)的科技期刊出版,將呈現(xiàn)智能化出版模式。智能化的信息獲取方式,可以讓電腦根據(jù)已有信息和用戶的偏好,直接獲得完成分析結(jié)果。
通過碎片化論文內(nèi)容加上關(guān)聯(lián)原始數(shù)據(jù)信息,可以完整再現(xiàn)作者的研究過程,數(shù)據(jù)來源更清晰,文章質(zhì)量更可信,并可實(shí)現(xiàn)對(duì)論文內(nèi)容的再分析,客觀評(píng)價(jià)其對(duì)科學(xué)發(fā)展的價(jià)值和影響。復(fù)證是檢驗(yàn)學(xué)術(shù)出版內(nèi)容真實(shí)性和科學(xué)性的有效手段,通過使用論文中數(shù)據(jù)和方法進(jìn)行重復(fù)操作,將試驗(yàn)結(jié)果與由獲得原始數(shù)據(jù)進(jìn)行比較,判斷學(xué)術(shù)成果的真實(shí)性、可信性和可靠性。利用語義技術(shù)進(jìn)行關(guān)聯(lián)數(shù)據(jù)出版,可完整展示試驗(yàn)過程,提供復(fù)證基礎(chǔ),增大了不端行為被發(fā)現(xiàn)的可能性。通過語義出版共享這些資源,還可讓更多的數(shù)據(jù)資源使用者從多個(gè)方面主動(dòng)參與論文“真?zhèn)巍钡谋鎰e。雖然不能完全排除數(shù)據(jù)篡改和偽造的可能性,但是造假本身所需付出的成本被擴(kuò)大。
大量的網(wǎng)絡(luò)信息被不加選擇地廣泛推送給不同的用戶。一般的主動(dòng)性推送,在引起用戶焦慮的同時(shí)也容易被忽略。而量體裁衣的精準(zhǔn)推送可以解決這一問題。通過分析用戶的偏好庫(kù),語義出版可以智能地將出版內(nèi)容主動(dòng)推送給相關(guān)領(lǐng)域的專家和學(xué)者,這樣“被作者”和“被免冠作者”的情況就會(huì)被及時(shí)發(fā)現(xiàn)。由于專業(yè)所限,一般的科研圈子范圍有其有限性,語義出版的精準(zhǔn)智能推送增大了抄襲行為對(duì)于目標(biāo)對(duì)象的曝光概率,將使得此類情況無處遁形。
現(xiàn)行的版權(quán)保護(hù)模式已經(jīng)不能適應(yīng)時(shí)代的需求,一紙簡(jiǎn)單的“誠(chéng)信承諾書”,也僅是道德層面的約束。語義出版實(shí)踐的數(shù)據(jù)發(fā)布過程中采取的是FAIR原則,這一原則與去中心化所遵循的原則有較大的重疊,即數(shù)據(jù)存儲(chǔ)獨(dú)立于服務(wù)提供商、具有交互性、可訪問性以及自由表達(dá)和處理網(wǎng)絡(luò)信任的能力[11]。語義出版天然具有去中心化的特點(diǎn),而去中心化可以防止文章被任意篡改。真正的語義出版是在論文創(chuàng)作階段就開始了語義分析和處理[11],如果語義出版自研究人員從試驗(yàn)數(shù)據(jù)的記錄開始,其后續(xù)發(fā)生數(shù)據(jù)篡改、版權(quán)爭(zhēng)議等事件的概率將大大降低。
單一的重復(fù)性檢測(cè)不足以充分發(fā)揮語義技術(shù)的優(yōu)勢(shì)。學(xué)術(shù)不端檢測(cè)需要一個(gè)盡可能完備的全文數(shù)據(jù)比對(duì)資源庫(kù)。目前,中國(guó)知網(wǎng)的科研誠(chéng)信管理系統(tǒng)不僅可以與知網(wǎng)所提供的《中國(guó)知識(shí)資源總庫(kù)》內(nèi)所收錄文獻(xiàn)的比對(duì),還可與互聯(lián)網(wǎng)部分開放的資源進(jìn)行比對(duì),但是對(duì)于其它數(shù)據(jù)庫(kù)的資源無法涉及。語義出版與數(shù)據(jù)的開放共享是互利的,可以實(shí)現(xiàn)學(xué)術(shù)不端檢測(cè)的全網(wǎng)協(xié)作,但是這與各數(shù)據(jù)庫(kù)出版商的利益存在沖突。
語義出版是有限的去中心化,通過與其他技術(shù)聯(lián)合使用,設(shè)計(jì)具有可信任性的語義出版物,實(shí)現(xiàn)完全去中心化,如區(qū)塊鏈技術(shù)。區(qū)塊鏈?zhǔn)峭ㄟ^密碼學(xué)方式形成的一個(gè)由集體維護(hù)的分布式數(shù)據(jù)庫(kù),數(shù)據(jù)塊相連組合成鏈條,各節(jié)點(diǎn)互相監(jiān)督,整個(gè)工作流程中移除了傳統(tǒng)第三方,信息互聯(lián)互通而又無法被篡改,安全性高[12]。通過區(qū)塊鏈技術(shù)可以對(duì)內(nèi)部數(shù)據(jù)塊進(jìn)行版權(quán)登記,并且其共識(shí)機(jī)制使版權(quán)交易公開透明[13]。雖然區(qū)塊鏈技術(shù)在版權(quán)方面的運(yùn)用還在探討與嘗試階段,但其不失為知識(shí)產(chǎn)權(quán)保護(hù)的有效方法之一。王眾等就兩項(xiàng)技術(shù)在農(nóng)產(chǎn)品質(zhì)量安全追溯領(lǐng)域的聯(lián)合應(yīng)用提出了一個(gè)概念性的驗(yàn)證系統(tǒng)[14]。在語義出版的基礎(chǔ)上應(yīng)用區(qū)塊鏈技術(shù),通過智能合約的方式建立共識(shí)機(jī)制,保障數(shù)據(jù)獲取的安全性和權(quán)益歸屬,為科技論文出版添加上信任的紐帶和數(shù)據(jù)安全的保障。語義技術(shù)是使得信息可用,而區(qū)塊鏈技術(shù)是確保隱私不被非法獲取和數(shù)據(jù)安全,二者間存在著一定的沖突。雖然區(qū)塊鏈技術(shù)與語義技術(shù)的融合對(duì)于防范學(xué)術(shù)不端頗具效力,但其可行性還需驗(yàn)證。
語義出版是具有彈性擴(kuò)展、動(dòng)態(tài)分配和資源共享等特點(diǎn)的數(shù)字內(nèi)容出版,它催生大量新型出版業(yè)信息服務(wù),帶動(dòng)出版格局的整體變革。充分利用語義技術(shù)強(qiáng)大的語義分析功能,可提高查重檢測(cè)的精確度,通過語義出版從多方面提高論文學(xué)術(shù)不端行為的辨識(shí)率,從技術(shù)手段方面防范學(xué)術(shù)不端,有利于對(duì)科技期刊的出版流程進(jìn)行更為科學(xué)的控制和管理,建立科技期刊知識(shí)版權(quán)的保護(hù)壁壘,從而確??萍计诳木G色健康發(fā)展,建立良好的學(xué)術(shù)環(huán)境。
在開放科學(xué)的大背景下,出版數(shù)據(jù)的開放共享趨勢(shì)明顯。在語義出版中,可以實(shí)施出版數(shù)據(jù)的開放共享與部分有償使用。在進(jìn)行學(xué)術(shù)不端檢測(cè)時(shí),通過與各出版商的利益關(guān)聯(lián),綜合性無償服務(wù)與個(gè)性化有償服務(wù)相結(jié)合,提高其共享數(shù)據(jù)的積極性,從而實(shí)現(xiàn)全網(wǎng)協(xié)同檢測(cè)。
目前,內(nèi)容組織的語義化已成為大數(shù)據(jù)時(shí)代科技期刊發(fā)展的主要趨勢(shì)。但是要使廣大的作者及編輯人員熟練地應(yīng)用語義技術(shù)來寫作和編輯論文,還須開發(fā)出友好的軟件操作界面以供使用。各刊社要重視專業(yè)人才的培養(yǎng)及現(xiàn)有人員知識(shí)的更新,有條件的單位可考慮引進(jìn)相關(guān)專業(yè)技術(shù)人才,已形成集群的科技期刊則可采取遠(yuǎn)程的專業(yè)智力資源共享。