国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于領(lǐng)域的數(shù)字出版物檢測系統(tǒng)的實(shí)現(xiàn)

2015-12-15 02:01殷克濤
現(xiàn)代情報(bào) 2015年9期

殷克濤

〔摘 要〕數(shù)字出版物的侵權(quán)檢測能夠提高數(shù)字出版物質(zhì)量,凈化數(shù)字出版物市場,為數(shù)字出版物的發(fā)展提供良性循環(huán)。本文從出版機(jī)構(gòu)所處的領(lǐng)域出發(fā),以其自身所有的資源為基礎(chǔ),利用現(xiàn)有的文獻(xiàn)檢測技術(shù),在句子層次上實(shí)現(xiàn)了數(shù)字出版物的相似性檢測,從而為出版機(jī)構(gòu)提供一個符合其自身需求的檢測系統(tǒng)。

〔關(guān)鍵詞〕數(shù)字出版物;侵權(quán)檢測;相似性檢測

DOI:10.3969/j.issn.1008-0821.2015.09.014

〔中圖分類號〕G2376 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2015)09-0075-04

〔Abstract〕The digital publishing anti-plagiarism system can promote the quality of the publishing,clear the digital publishing market and establish the virtuous circle mechanism of the digital publishing development.This article built a digital publishing anti-plagiarism system by the sentences comparison.This system could help publishing institutions solve their plagiarism problem based on their own resources.

〔Key words〕digital publishing;anti-plagiarism system;similarity detection

近年來,隨著國家加強(qiáng)文化工程的建設(shè),以及數(shù)字閱讀需求的爆發(fā)式增長,數(shù)字出版物得到了前所未有的發(fā)展。在發(fā)展的同時(shí),很多出版機(jī)構(gòu)為了追求贏利而忽略數(shù)字出版物的質(zhì)量,特別是在書籍、資料等文獻(xiàn)領(lǐng)域,內(nèi)容重復(fù)、剽竊侵權(quán)現(xiàn)象嚴(yán)重,極大地?fù)p害了原創(chuàng)者的利益。已有的數(shù)字出版物檢測系統(tǒng)貪大求全,忽略了出版機(jī)構(gòu)對于檢測系統(tǒng)的專、精、深的特定需求,造成資源浪費(fèi)嚴(yán)重。同時(shí),專業(yè)領(lǐng)域內(nèi)的文獻(xiàn)資源往往比較混雜,即有書籍、報(bào)刊、也有一些共開的文件以及內(nèi)部資料等等,需要檢測系統(tǒng)能夠進(jìn)行跨文檔、跨格式檢測。而當(dāng)前已有的檢測系統(tǒng)大都只專注于論文及網(wǎng)頁的檢測,所檢測的對象比較單一,并不涉及書籍、資料、內(nèi)部文獻(xiàn)等多重格式的文獻(xiàn)檢測。因此,如何解決專業(yè)領(lǐng)域內(nèi)數(shù)字出版物剽竊的檢測是當(dāng)前我們急需解決的重要問題。

提高數(shù)字出版物的質(zhì)量,凈化數(shù)字出版物市場,降低編輯審閱的成本,減少讀者的閱讀干擾因素,打造良好的市場培育能力是當(dāng)前一些出版機(jī)構(gòu)的當(dāng)務(wù)之急。這首先需要解決領(lǐng)域內(nèi)的出版物剽竊現(xiàn)象,加強(qiáng)數(shù)子出版物相似性檢測,杜絕劣質(zhì)數(shù)字出版物的產(chǎn)生。本文從數(shù)字出版物所涉及的領(lǐng)域入手,以數(shù)字出版物的句子為基本單元,利用已有的編輯距離檢測方法實(shí)現(xiàn)了領(lǐng)域內(nèi)數(shù)字出版物的相似性檢測。本檢測系統(tǒng)簡單,容易操作,配置要求相對較低,適合各個小的出版單位自行解決領(lǐng)域內(nèi)數(shù)字出版物的文獻(xiàn)抄襲行為。

1 相關(guān)的研究

文獻(xiàn)相似性檢測主要涉及兩個方面:一是檢測對象,即對應(yīng)的數(shù)字資源。二是采取可靠的檢測技術(shù),主要是相似度的計(jì)算。首先從檢測技術(shù)來看,在文檔檢測領(lǐng)域的研究中,主要從3個方面來實(shí)現(xiàn)文檔相似性的比較。一個是利用詞頻統(tǒng)計(jì)的方法來實(shí)現(xiàn)文獻(xiàn)相似性的比較。該方法通常是將文本中的低頻詞忽略掉,以高頻詞作為相似性檢測的對象,通過相似詞的詞頻并結(jié)合一些特征判斷的方法來實(shí)現(xiàn)相似的檢測。典型的是1995年Garia-Molina等提出的SCAM系統(tǒng)[1]。這類檢測系統(tǒng)的優(yōu)點(diǎn)是簡單、速度快,缺點(diǎn)是結(jié)果并不理想。第二種方法是從文檔的結(jié)構(gòu)出發(fā)以某一結(jié)構(gòu)中包含相似字句作為比較的對象來實(shí)現(xiàn)文檔相似性的檢測。利用文檔結(jié)構(gòu)來實(shí)現(xiàn)檢測的系統(tǒng)通常以文檔的章節(jié)、段落、句子作為結(jié)構(gòu)處理對象,以句子或文本的詞性、詞序與之相結(jié)合作為相似度的比較依據(jù),并通過香港理工大學(xué)的Si和Leong在1997年研發(fā)的CHECK系統(tǒng)[2]利用關(guān)鍵詞統(tǒng)計(jì)再加上文本結(jié)構(gòu)信息實(shí)現(xiàn)文本相似性檢測。宋擒豹等于2003年提出的CDSDG系統(tǒng)[3]以及鮑軍鵬在2006年提出的DCDGrid系統(tǒng)[4]也是在檢測系統(tǒng)中利用了文檔、句子的結(jié)構(gòu)。楊思春提出了一種改進(jìn)的句子相似度計(jì)算模型,以關(guān)鍵詞抽取,結(jié)合同義詞比較,并以詞形加詞序來實(shí)現(xiàn)句子相似度的計(jì)算[5]。程克明以文本的結(jié)構(gòu)和內(nèi)容作為檢測對象,從文本中抽取其目錄作為目錄樹,利用關(guān)鍵詞統(tǒng)計(jì)和加權(quán)樹性結(jié)構(gòu)來實(shí)現(xiàn)文獻(xiàn)相似性檢測[6]。從結(jié)構(gòu)入手能夠大幅提高檢測結(jié)果的質(zhì)量,但是檢測效率有待提高。最后一種是利用數(shù)字指紋方法是實(shí)現(xiàn)文獻(xiàn)相似性檢測。數(shù)字指紋是通過對文檔的字符串進(jìn)行哈希運(yùn)算,得到字符串的不同的哈希值,形成“數(shù)字指紋”,并利用哈希表中相同的指紋數(shù)目或者比率作為字符串相似性比較的依據(jù),進(jìn)而得到文檔的相似性。典型的是亞利桑那大學(xué)的Manber在1994年提出了一個Sif工具[7],以字符串的Hash運(yùn)算值作為檢測值來實(shí)現(xiàn)大型文件系統(tǒng)中查找相似文檔。1995年斯坦福大學(xué)的Brin等人提出COPS系統(tǒng)[8],1996年Heintze的KOALA系統(tǒng)[9]以及后來的Broder的Shingling算法[10]和Charikar的Simhash算法[11],都是基于近似指紋的字符串匹配的算法進(jìn)行復(fù)制檢測的。數(shù)字指紋運(yùn)算快,適合大量數(shù)據(jù)之間的相似性計(jì)算,因此得到廣泛的應(yīng)用。近年來,隨著語義技術(shù)的發(fā)展,將語義技術(shù)融入相似性檢測中成為相似度檢測的趨勢。中國人民大學(xué)的夏天提出的xsimilarity項(xiàng)目實(shí)現(xiàn)了基于詞語的語義相似性檢測[12]。同時(shí),在相似性檢測上,還有很多其它方面相似度的測量,例如斯坦福大學(xué)的Alex Aiken 1994年開發(fā)的MOSS系統(tǒng)能夠?qū)崿F(xiàn)代碼、文本等多種表達(dá)語言的相似性檢測[13]。endprint

其次從檢測對象領(lǐng)域來看,大多數(shù)檢測系統(tǒng)并不涉及書籍、報(bào)刊、資料等內(nèi)容的檢測,只注重期刊、論文、網(wǎng)頁的檢測,而且多數(shù)檢測系統(tǒng)采取數(shù)據(jù)全盤掃描模式,并沒有領(lǐng)域之分。以中國知網(wǎng)CNKI為例,其在侵權(quán)檢測的方面存在3個子系統(tǒng):《科技期刊學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)(AMLC)》、《學(xué)位論文學(xué)術(shù)不端行為檢測系統(tǒng)(TMLC2)》、《社科期刊學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)(SMLC)》。它們都以《中國學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫》為全文比對數(shù)據(jù)庫,可檢測抄襲與剽竊、偽造、篡改、不當(dāng)署名、一稿多投等學(xué)術(shù)不端文獻(xiàn),可供期刊編輯部檢測來稿和已發(fā)表的文獻(xiàn)[14]。這種做法極大地提高了檢全率,但是也消耗了大量的資源來處理不同領(lǐng)域的內(nèi)容,甚至因?yàn)樵卺t(yī)學(xué)、物理、文學(xué)之間進(jìn)行相似性檢測而產(chǎn)生了一些毫無意義的結(jié)果。

由于出版機(jī)構(gòu)特別是一些專業(yè)出版社其經(jīng)營領(lǐng)域相對固定,經(jīng)常需要處理的都是一些即定領(lǐng)域的文檔,并不需要其它領(lǐng)域的文獻(xiàn)作為其資源庫的一部分。同時(shí),由于日常的工作積累,使其不僅擁有一些規(guī)范性的文檔,也擁有一些不規(guī)范的內(nèi)部資料,而這些文檔對于很多檢測系統(tǒng)來說并不支持。因此,當(dāng)前的一些檢測系統(tǒng)并不適合于當(dāng)前的出版機(jī)構(gòu)特別是一些專業(yè)出版社。

2 基于領(lǐng)域的侵權(quán)檢測系統(tǒng)

基于領(lǐng)域的數(shù)字出版物文檔侵權(quán)檢測系統(tǒng)能夠針對某一出版機(jī)構(gòu)所擁有的特定的數(shù)字資源,實(shí)現(xiàn)被檢測文檔與資源庫中的文檔資源相比較,發(fā)現(xiàn)存在相似性的語句,達(dá)到了侵權(quán)檢測的要求。它需要解決以下幾個方面的問題:首先,能夠解決特定領(lǐng)域內(nèi)的知識剽竊問題。要適合某些特定領(lǐng)域,就要求其能夠識別該特定領(lǐng)域內(nèi)所有類型的知識,并進(jìn)行相似性檢測。這些知識可以是書籍、論文、期刊、資料等。它也需要其能夠構(gòu)建自身擁有的特色資源庫,即一個包含多種類型文獻(xiàn)的綜合性知識庫。其次,該檢測系統(tǒng)需要能發(fā)現(xiàn)問題,即找出重復(fù)內(nèi)容并將結(jié)果顯示出來。當(dāng)然,這也是侵權(quán)檢測系統(tǒng)的核心,它要求侵權(quán)檢測系統(tǒng)能夠有很好的相似度計(jì)算方法,同時(shí)也要求能夠處理各類文檔并進(jìn)行相似度計(jì)算。再次,要求簡單。簡單一方面表示容易操作;另一方面表示其對于系統(tǒng)的配置要求相對較低,適合各個小的出版單位自行解決數(shù)字出版物文獻(xiàn)侵權(quán)抄襲行為。本文以數(shù)字出版物作為檢測的對象,利用當(dāng)前的文獻(xiàn)處理技術(shù),結(jié)合前面介紹的相似度解決方案,將檢測資源對象局限于領(lǐng)域之內(nèi),實(shí)現(xiàn)了數(shù)字出版物相似性檢測。

21 數(shù)字出版檢測系統(tǒng)的框架

本系統(tǒng)的框架結(jié)構(gòu),如圖1所示,其包括4個子模塊,“文檔識別模塊”、“文檔處理模塊”、“句子比較模塊”和“報(bào)告輸出模塊”。侵權(quán)檢測系統(tǒng)利用這4個模塊實(shí)現(xiàn)了數(shù)字出版物與資源庫(檢測文庫)中文檔進(jìn)行相似度的計(jì)算,獲取它們的相似性度量值,判斷是否存在著重復(fù)內(nèi)容,從而達(dá)到檢測文檔是否存在抄襲行為。通過這4個模塊實(shí)現(xiàn)了整個數(shù)字出版檢測的裝載、識別、處理、比較與結(jié)果的輸出。

“文檔識別模塊”負(fù)責(zé)識別數(shù)字出版物的類型,讀取數(shù)字出版物的內(nèi)容?!拔臋n識別模塊”實(shí)現(xiàn)數(shù)字出版物的裝載和文檔進(jìn)行簡單的處理。主要是辨別文檔的類型、將文檔中的圖片處理掉,并將文檔轉(zhuǎn)化為能夠識別的文本內(nèi)容?!拔臋n識別模塊”能夠識別出版機(jī)構(gòu)所擁有的多種文獻(xiàn)類型,包括常見的PDF、DOC、DOCX、TXT等。識別的文檔會存儲在一個臨時(shí)構(gòu)建的文件夾中?!拔臋n識別模塊”還需要從資源庫(檢測文庫)中依次讀出其所包含的文檔,并將其和識別出的數(shù)字出版物文檔一起交給“文檔處理模塊”進(jìn)行下一步的處理。

“文檔處理模塊”負(fù)責(zé)將識別出的文檔進(jìn)行加工處理。其目的是將讀入的文檔進(jìn)一步進(jìn)行細(xì)分,以求達(dá)到文檔檢

測所需要的粒度。在本侵權(quán)檢測系統(tǒng)中,“文檔處理模塊”按照文獻(xiàn)表達(dá)的基本單位——句子來進(jìn)行分解。在分解過程中采取獲取“?!?、“!”、“?”等分隔符將數(shù)字出版物分解成獨(dú)立的句子。分解后的文檔就變成了一個句子集合D={s1,s2,s3,…,sn},在此基礎(chǔ)之上進(jìn)行去噪——將長度小于一定值的句子去掉,不進(jìn)行相似性檢測,其目的是過濾掉較短的句子如eg之類。最后將它提交給“句子比較模塊”。“文檔處理模塊”還有另外一個功能是從“句子比較模塊”那里獲取到數(shù)字出版物與文庫文檔的每一個句子之間的相似度的計(jì)算值,并在此基礎(chǔ)上進(jìn)行匯總,進(jìn)一步計(jì)算出文檔級相似度,從而確定兩篇文檔的相似程度,并將結(jié)果傳遞給“報(bào)告輸出模塊”。

“句子比較模塊”主要負(fù)責(zé)實(shí)現(xiàn)句子相似度的計(jì)算,并返回計(jì)算結(jié)果。它將“文檔處理模塊”傳遞過來的句子按照Levenshtein 距離算法(編輯距離算法)進(jìn)行計(jì)算,從而獲取句子之間替換的步數(shù),以此作為相似性的計(jì)算度量?!熬渥颖容^模塊”將計(jì)算的結(jié)果返回給“文檔處理模塊”,同時(shí),記錄存在相似度高的句子,傳遞給“報(bào)告輸出模塊”。

“報(bào)告輸出模塊”是數(shù)字出版物相似性檢測結(jié)果的展示模塊。它包含兩個部分,一個是顯示在程序界面上的粗略檢測結(jié)果。另一個生成一個基于瀏覽器的網(wǎng)頁版報(bào)告?!皥?bào)告輸出模塊”主要是將被檢測文檔名、檢測文檔名、相似度以及相似性文檔片段以表、圖的形式顯示給用戶。

22 檢測文庫的構(gòu)建

檢測文庫是出版機(jī)構(gòu)所擁有的資源庫,它是檢測系統(tǒng)的檢測依據(jù)。資源庫的構(gòu)建可以采取數(shù)據(jù)庫建庫方式和文件夾方式。數(shù)據(jù)庫穩(wěn)定性強(qiáng),效率高,但是需要購買獨(dú)立的服務(wù)器與數(shù)據(jù)庫,并且還需要專業(yè)的維護(hù),因此,成本費(fèi)用較高。而采取文件夾相對比較簡單,維護(hù)也相對容易。本系統(tǒng)的資源庫采取簡單的文件夾構(gòu)建方法,通過將其所包含的資源集中在一個文件夾中形成自身資源庫。

相比其它的檢測系統(tǒng),資源庫中有多種類型的文檔,因此,需要采取多種處理器來處理這些文檔,將其轉(zhuǎn)換為能夠識別的文本文檔。針對檢測文庫資源的多樣性,在“文檔識別模塊”采用了多種解析器,能夠支持PDF、DOC、DOCX或TXT等多種格式的來源文檔檢測。

23 句子相似度

本侵權(quán)檢測系統(tǒng)以句子為基本單位,在句子的基礎(chǔ)采用經(jīng)典的Levenshtein距離算法(也稱編輯距離算法)對句子進(jìn)行相似度計(jì)算。以句子為基本單位符合著者表達(dá)完整的思想,同時(shí),也非常適合文獻(xiàn)量大的圖書、文檔、資料等的處理與分析。而編輯距離算法則是一個非常實(shí)用的字符串相似性檢測算法,其基本思想是通過找出兩個字符串之間由其中一個轉(zhuǎn)換成另外一個所需的最少編輯操作次數(shù),并以此作為相似性度量的依據(jù)。編輯操作次數(shù)指的是插入、刪除、修改字符的次數(shù)。由于編輯距離算法并不進(jìn)行語義計(jì)算,同時(shí),簡單、檢確率高,因此,其有著很廣泛的應(yīng)用,這也是本文采取該算法的原因。endprint

利用前面的框架以及句子相似度計(jì)算形成了本文的檢測系統(tǒng),如圖2所示。

3 結(jié) 語

與市面上大多數(shù)侵權(quán)檢測系統(tǒng)不同,本侵權(quán)檢測系統(tǒng)基于領(lǐng)域角度,以句子為基本單位,采用經(jīng)典的Levenshtein 距離算法,實(shí)現(xiàn)了數(shù)字出版物相似性檢測。經(jīng)過我們測試,其能夠很好地反應(yīng)出數(shù)字出版物之間的相似程度,滿足檢測的要求。同時(shí),本侵權(quán)檢測系統(tǒng)的資源庫可以根據(jù)自身的需要針對某一特定的領(lǐng)域自行構(gòu)建,靈活性強(qiáng),對于資源、配置以及管理的要求比較低,適合大多數(shù)出版機(jī)構(gòu)以及其它小型信息資源管理機(jī)構(gòu)。

參考文獻(xiàn)

[1]Shivakumar N,Garcia-Molina H.Building a scalable and accurate copy detection mechanism[C].In Proceedings of 1th ACM international conference on digital libraries,Bethesda Maryland,USA,1996:160-168.

[2]Si A,Leong H V.,Lau RH..CHECK:A Document Plagiarism Detection System[J].Journal of the ACM Symposium for Applied Computing,1997,8(6):70-77.

[3]宋擒豹,沈鈞毅.數(shù)字商品非法復(fù)制和擴(kuò)散的監(jiān)測機(jī)制[J].計(jì)算機(jī)研究與發(fā)展,2001,38(1):121-125.

[4]鮑軍鵬,沈鈞毅,劉曉東.一個基于網(wǎng)格的文本復(fù)制檢測系統(tǒng)[J].微電子學(xué)與計(jì)算機(jī),2004,21(9):7-10.

[5]楊思春.一種改進(jìn)的句子相似度計(jì)算模型[J].電子科技大學(xué)學(xué)報(bào),2006,(6):956-959.

[6]程克敏.基于文本結(jié)構(gòu)和內(nèi)容的中文論文復(fù)制檢測系統(tǒng)研究[D].合肥工業(yè)大學(xué),2007.

[7]Manber U.Finding similar files in a large file system[C].In Proceedings of the Winter USENIX Conference,California,USA,1994:1-10.

[8]Brin S,Davis J,Molina H G.Copy Detection Mechanisms for Digital Documents[C].In Proceedings of ACM international conference on management of data(SIGMOD),San Francisco,CA,1995:398-409.

[9]Heintze N.Scalable document fingerprinting(extended abstract)[EB/OL].http:∥www.cs.cmu.edu/afs/cs/user/nch/www/koala/main.html,2014-07-12.

[10]Broder A Z,Glassman S C,Manasse M S.Syntactic clustering of the web[C].In Proceedings of the 6end International Web Conference,Santa Clara,1997:1157-1166.

[11]Charikar M.Similarity estimation techniques from rounding algorithms[C].In Proceedings on 34th Annual ACM Symposium on Theory of Computing,May,Montréal,Québec,Canada,2002:19-21.

[12]GitHub.xiatian相似度計(jì)算軟件包[EB/OL].https:∥github.com/iamxiatian/Xsimilarity,2014-07-20.

[13]Aiken A.Moss:A System for Detecting Software Plagiarism[EB/OL].http:∥theory.stanford.edu/~aiken/moss,2014-05-14.

[14]CNKI科研誠信管理系統(tǒng)研究中心.學(xué)術(shù)不端檢測系統(tǒng)介紹[EB/OL].http:∥check.cnki.net,2014-11-24.

(本文責(zé)任編輯:郭沫含)endprint

托克逊县| 大理市| 龙南县| 当涂县| 宁强县| 桃源县| 河西区| 奉新县| 米林县| 尚义县| 济南市| 小金县| 弥渡县| 固原市| 博野县| 赤壁市| 潜江市| 九台市| 隆化县| 宁武县| 镶黄旗| 修文县| 团风县| 舞阳县| 七台河市| 舒城县| 正宁县| 东方市| 建德市| 美姑县| 牙克石市| 西乌| 霍邱县| 彭山县| 清原| 桦南县| 平潭县| 连江县| 闵行区| 石河子市| 通州市|