李娜娜,李 爽,李 楊,李銀平
(1.天津市第一中心醫(yī)院 《實(shí)用器官移植電子雜志》編輯部 天津 300192;2.天津市天津醫(yī)院 《中華危重病急救醫(yī)學(xué)》雜志社 天津 300050)
近年來,學(xué)術(shù)不端的行為屢見報(bào)道,2015年英國出版商現(xiàn)代生物出版集團(tuán)撤稿生物醫(yī)學(xué)論文 43篇。2017年,施普林格出版集團(tuán)撤銷《腫瘤生物學(xué)》期刊論文107篇[1],此次撤稿事件在學(xué)術(shù)界引起軒然大波,不僅刷新了全球?qū)W術(shù)期刊一次性撤稿論文數(shù)量的紀(jì)錄,更是首次將科研誠信問題推至風(fēng)口浪尖。尤其在我國,科研誠信得到了前所未有的重視,科研誠信危機(jī)浮出水面。加強(qiáng)科研誠信建設(shè),提升學(xué)術(shù)道德水平,已成為我國學(xué)術(shù)界一項(xiàng)刻不容緩的重要任務(wù)。
當(dāng)前,隨著知識大爆炸時(shí)代的到來,人工智能(Artificial Intelligence,AI)、“互聯(lián)網(wǎng)+”、數(shù)據(jù)挖掘、深度學(xué)習(xí)正在融入我們的生活,同時(shí)對傳統(tǒng)行業(yè)提出了挑戰(zhàn)。國務(wù)院于2017年7月頒布了《新一代人工智能發(fā)展規(guī)劃》的通知,明確指出要全面貫徹、深入學(xué)習(xí)習(xí)近平總書記系列重要講話精神和治國理政新理念、新思想、新戰(zhàn)略,將提升新一代AI科技創(chuàng)新能力作為未來發(fā)展的重要戰(zhàn)略方針,構(gòu)建 AI科技與社會(huì)和諧發(fā)展的創(chuàng)新體系,爭取到 2030年,我國的 AI理論、技術(shù)與應(yīng)用總體可以位于世界領(lǐng)先地位[2]。AI是研究、開發(fā)用于模擬人的思維過程和行為的學(xué)科,該領(lǐng)域的研究包括機(jī)器人、音頻識別、語言輸入及處理等。隨著以數(shù)據(jù)挖掘、深度學(xué)習(xí)、互聯(lián)網(wǎng)為基礎(chǔ)的 AI時(shí)代的到來,人們逐步感受到了其帶來的沖擊和影響。作為發(fā)表重要科技成果、知識與信息傳播及引領(lǐng)輿論導(dǎo)向的重要行業(yè)[3],出版業(yè)一直是與人們生活密切相關(guān)并緊跟科技潮流的行業(yè),尤其是期刊領(lǐng)域,在人工智能不斷崛起的背景下,各種智能科技已開始逐步被應(yīng)用,未來將進(jìn)入智能出版時(shí)代[4]。因此,利用大數(shù)據(jù)挖掘、機(jī)器深度學(xué)習(xí)、VR/AR、人機(jī)交互等工具進(jìn)行學(xué)術(shù)不端檢測,逐漸成為新的趨勢。
目前,學(xué)術(shù)不端行為檢測系統(tǒng)是各出版社甄別學(xué)術(shù)不端的主要工具。與國內(nèi)相比,國外的檢測系統(tǒng)起步較早,反抄襲技術(shù)相對成熟。Turnitin檢測軟件創(chuàng)建于 1998年,是目前全球最權(quán)威、使用最多的英文檢測軟件[5],支持中文、意大利文、法文、英文等多種語言。在我國,中國知網(wǎng)在2008年開發(fā)的AMLC系統(tǒng)是目前國內(nèi)期刊出版單位使用最多的檢測系統(tǒng),其優(yōu)點(diǎn)是檢測速度快、準(zhǔn)確率高、抗干擾性強(qiáng),支持的文件格式多樣。隨后萬方數(shù)據(jù)庫和維普資訊也相繼推出WFSD系統(tǒng)及WPCS系統(tǒng),相比AMLC系統(tǒng),這2個(gè)系統(tǒng)都支持個(gè)人使用。WFSD的優(yōu)勢為算法精準(zhǔn)科學(xué),報(bào)告詳實(shí)全面;WPCS的優(yōu)勢為檢測資源豐富,有創(chuàng)新性檢測指標(biāo)。北京智齒數(shù)匯科技有限公司針對大部分高校畢業(yè)生推出了 PaperPass檢測系統(tǒng),其比對指紋數(shù)據(jù)庫由 9000多萬種學(xué)術(shù)期刊和學(xué)位論文、超過10億的互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù)庫組成[6]。
以上4種是目前我國使用比較普遍的檢測系統(tǒng),但仍然存在諸多問題:①各個(gè)系統(tǒng)存在檢測差異;②數(shù)據(jù)庫中的論文存在滯后性或缺失;③檢測算法不夠智能;④不能區(qū)分合理的自引、他引或抄襲;⑤不能檢測論文中的圖片、圖表抄襲。
這些問題已存在許久,但是隨著 AI、“互聯(lián)網(wǎng)+”、AR/VR等新興技術(shù)的崛起,信息傳播更加智能、精準(zhǔn),智媒時(shí)代已經(jīng)開啟[7],AI與文化產(chǎn)業(yè)的交集逐漸擴(kuò)大,為 AI在學(xué)術(shù)不端行為檢測中的應(yīng)用提供了可能,其中的跨語言檢測技術(shù)和語義識別技術(shù)可幫助檢測軟件有效解決“思想抄襲”的問題[6]。
想在海量的論文中分辨出相似、相近文章以及判斷文章的價(jià)值,需要一個(gè)龐大的數(shù)據(jù)庫系統(tǒng)。因此,未來將利用AI、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)不斷擴(kuò)大和完善數(shù)據(jù)庫。機(jī)器學(xué)習(xí)指用算法解析數(shù)據(jù),通過學(xué)習(xí)對周圍發(fā)生的事做出判斷、預(yù)測;深度學(xué)習(xí)是實(shí)現(xiàn)機(jī)器學(xué)習(xí)的一種技術(shù),利用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)實(shí)現(xiàn),它的構(gòu)想源自于大腦的神經(jīng)元,擁有獨(dú)立的層、連接以及數(shù)據(jù)傳播方向。每一個(gè)神經(jīng)元會(huì)對輸入的信息進(jìn)行權(quán)衡,確定權(quán)重,搞清它與所執(zhí)行任務(wù)的關(guān)系,比如有多正確或多么不正確,最終的結(jié)果由所有權(quán)重來決定[8]。
數(shù)據(jù)庫系統(tǒng)與AI系統(tǒng)是相輔相成的,AI系統(tǒng)使用大量標(biāo)準(zhǔn)的算法去執(zhí)行搜索與推理、高效檢索訪問以及管理海量數(shù)據(jù)庫。數(shù)據(jù)庫技術(shù)中引入AI,實(shí)現(xiàn)了兩者的完美結(jié)合:數(shù)據(jù)庫智能化和智能化數(shù)據(jù)庫。數(shù)據(jù)庫智能化,就是將數(shù)據(jù)庫系統(tǒng)作為 AI系統(tǒng),利用AI技術(shù)實(shí)現(xiàn)數(shù)據(jù)庫系統(tǒng)的智能表達(dá)、推理和查詢功能;智能化數(shù)據(jù)庫表現(xiàn)為數(shù)據(jù)庫定時(shí)自我更新的功能,使其具備一定的翻譯、推理功能,提高系統(tǒng)的智能化程度[9]。目前,國內(nèi)的 AMLC、WFSD、WPCS、PaperPass等系統(tǒng)均不能達(dá)到智能化效果,同時(shí)還存在數(shù)據(jù)庫不穩(wěn)定、更新不及時(shí)、缺乏外文以及小語種文獻(xiàn)、覆蓋范圍不全面、缺乏網(wǎng)絡(luò)或會(huì)議發(fā)表文章等問題,不能將同一作者、導(dǎo)師、單位進(jìn)行歸類,在文獻(xiàn)檢測的時(shí)候,通常不能排除同一作者的文章。另外,各系統(tǒng)缺乏數(shù)據(jù)共享平臺(tái),不同系統(tǒng)的檢測結(jié)果無法進(jìn)行共享對比。出版巨頭愛思唯爾誠信部門主管也表示,出版商需要?jiǎng)?chuàng)建一個(gè)共享的數(shù)據(jù)庫,以便進(jìn)行相關(guān)檢索,查實(shí)論文圖片重復(fù)使用的情況。而 AI不僅能建立完善的數(shù)據(jù)庫系統(tǒng),甚至構(gòu)建數(shù)據(jù)共享平臺(tái),為學(xué)術(shù)不端檢測打造扎實(shí)的基礎(chǔ)。
在文章相似性檢測中,圖片的相似性檢測往往是最困難的,因?yàn)槟壳皼]有任何一個(gè)軟件或算法能夠準(zhǔn)確分析2張圖片的相似性,尤其是在作者刻意進(jìn)行修改的前提下。在中國,論文文字查重體系一直到2005年前后才建立。后來,人們又不斷優(yōu)化這個(gè)系統(tǒng),從能識別“復(fù)制粘貼型”抄襲,到能識別改變用詞和句法的抄襲,但圖片重復(fù)一直是論文查重的死角[10]。在過去,圖片審核的工作往往需要人力完成。Nature雜志會(huì)對收到的稿件隨機(jī)抽樣進(jìn)行檢查,并要求作者提供未編輯的圖像作參考;《細(xì)胞生物學(xué)雜志》和《歐洲分子生物學(xué)組織雜志》也是對圖片進(jìn)行手工查重。手工查重不僅耗時(shí)、耗力,更重要的是效率低,甚至檢測不出,以至于多數(shù)刊物都沒有采用這項(xiàng)流程。
2018年億歐智庫發(fā)布的《2017人工智能+內(nèi)容生產(chǎn)研究報(bào)告》中提到的“圖像相似性檢測”或許將帶來新的希望。近 2年,在 AI芯片和服務(wù)器集群逐步完善,算力越發(fā)強(qiáng)大的基礎(chǔ)上,無監(jiān)督學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、生成對抗網(wǎng)絡(luò)等算法的研究繼續(xù)深入,在文本處理、音頻處理和圖像處理方面持續(xù)取得突破。將這一技術(shù)用于文章相似性檢測的想法,很快就實(shí)現(xiàn)了。同年,美國紐約雪城大學(xué)的研究員丹尼爾·阿庫納等研發(fā)出一套算法,可以利用 AI識別學(xué)術(shù)論文中的圖像造假,對論文圖片進(jìn)行查重。他們檢測了 76萬篇論文,并從中提出有效圖片 263萬張。其中,約 9%的圖像存在高度重復(fù),該團(tuán)隊(duì)又在其中選取了約4000張可疑圖片進(jìn)行人工核查。經(jīng)測算,在所有論文中,約 1.5%存在學(xué)術(shù)不端的嫌疑,0.6%確認(rèn)存在圖像方面的論文造假。
現(xiàn)有的檢測系統(tǒng)只能粗略檢測大段的文字復(fù)制,無法對篡改、偽造進(jìn)行檢測,并不能根據(jù)語義、語境、同義詞、近義詞等進(jìn)行檢測。中文博大精深,如果作者刻意對語言文字進(jìn)行修飾、篡改,現(xiàn)有檢測系統(tǒng)是不能及時(shí)發(fā)現(xiàn)的。自然語言處理(Natural Language Processing,NLP)是利用計(jì)算機(jī)對人類自然語言信息進(jìn)行處理和加工,最終實(shí)現(xiàn)人機(jī)對話的理論和方法[11]。目前,NLP與 ANN技術(shù)被應(yīng)用于學(xué)術(shù)不端檢測,大幅提高了編輯的效率[12]。無論字還是詞組,在形式上都可從發(fā)散或收斂、分或合,來產(chǎn)生或排除相應(yīng)的形式歧義,形成涉及形式語義的判定。另外,由于年代、方言和人際的種種復(fù)雜因素,其交叉重疊的內(nèi)容與形式之間增加了無數(shù)歧義,很多文章難以判斷,而 AI可以很好地解決這一難題。
此外,另一個(gè)檢測難點(diǎn)為外文翻譯,某些作者提交的文章是直接翻譯外文文獻(xiàn)后拼湊而成,目前各大檢測系統(tǒng)尚無法識別這種類型的文章。但是隨著 AI的發(fā)展,AI翻譯也逐漸變得簡單、便捷。AI翻譯是指通過計(jì)算機(jī)等芯片軟件,基于規(guī)則的機(jī)器翻譯,根據(jù)統(tǒng)計(jì)規(guī)律來進(jìn)行翻譯,這是通過詞典和規(guī)則庫來構(gòu)成知識源,以一定的規(guī)則為基礎(chǔ)來進(jìn)行的翻譯。隨著AI的發(fā)展,基于 ANN的機(jī)器翻譯誕生,通過深度神經(jīng)網(wǎng)絡(luò),自動(dòng)地在數(shù)據(jù)庫中學(xué)習(xí)翻譯知識,通過理解源句子,經(jīng)過復(fù)雜的推導(dǎo)運(yùn)算和學(xué)習(xí)計(jì)算,生成流暢且符合規(guī)范的譯文。這種基于ANN的機(jī)器翻譯實(shí)現(xiàn)了學(xué)習(xí)功能,從各個(gè)方面使人工智能翻譯取得質(zhì)的飛躍[13]。而文獻(xiàn)檢測系統(tǒng)可以利用這一技術(shù),檢測中文文章與外文文獻(xiàn)的相似性,進(jìn)一步杜絕不勞而獲的現(xiàn)象。
總之,學(xué)術(shù)期刊作為把控學(xué)術(shù)論文真實(shí)性的重要環(huán)節(jié)之一,深刻影響了國內(nèi)學(xué)術(shù)環(huán)境的學(xué)術(shù)誠信。科研人員及科研單位作為源頭,更應(yīng)充分了解國內(nèi)學(xué)術(shù)誠信現(xiàn)狀和學(xué)術(shù)態(tài)度的影響因素,加強(qiáng)學(xué)術(shù)誠信建設(shè),以提高論文的質(zhì)量和可靠性,提高我國學(xué)術(shù)誠信和國際影響力。在當(dāng)今人工智能迅速發(fā)展的時(shí)代,“互聯(lián)網(wǎng)+”、AI、數(shù)據(jù)挖掘等已經(jīng)為我們的生活帶來了許多便利,積極擁抱人工智能帶來的變革,探索利用人工智能促進(jìn)學(xué)術(shù)誠信建設(shè)的新方法,將會(huì)為學(xué)術(shù)期刊發(fā)展帶來新的動(dòng)力。