張淑娟
(云南經(jīng)濟(jì)管理職業(yè)學(xué)院,云南 昆明 650106)
計(jì)算機(jī)程序抄襲檢測系統(tǒng)的研發(fā)是為了進(jìn)一步遏制越來越猖狂的抄襲現(xiàn)象,為良好的學(xué)術(shù)氛圍構(gòu)建一個(gè)檢測平臺(tái)。當(dāng)前已經(jīng)有諸多的計(jì)算機(jī)程序抄襲檢測系統(tǒng)不斷被研發(fā)出來,各種各樣反抄襲手段也隨之而出,因此在對計(jì)算機(jī)程序抄襲檢測系統(tǒng)進(jìn)一步研發(fā)的過程中,我們追求的不僅僅是能夠檢測相應(yīng)的抄襲文檔,還應(yīng)該從性能、準(zhǔn)確度以及檢測效率等各個(gè)方面提升反抄襲檢測系統(tǒng)的實(shí)用性。衡量一個(gè)反抄襲檢測系統(tǒng)優(yōu)劣的標(biāo)準(zhǔn)諸多,但是關(guān)鍵還在于程序的算法設(shè)計(jì)方面。我國現(xiàn)有的諸多計(jì)算機(jī)程序抄襲檢測系統(tǒng)都是針對中文字符來設(shè)計(jì)相應(yīng)算法的,而國外較為先進(jìn)的計(jì)算機(jī)程序抄襲檢測系統(tǒng)卻是在英文環(huán)境之下進(jìn)行開發(fā)的,難以為我國學(xué)術(shù)檢測環(huán)境所應(yīng)用。針對中英文在我國學(xué)術(shù)界的通用性,我國需要在此環(huán)境基礎(chǔ)之上研發(fā)出相應(yīng)的計(jì)算機(jī)程序抄襲檢測系統(tǒng)。當(dāng)前計(jì)算機(jī)程序抄襲檢測系統(tǒng)相關(guān)核心技術(shù)主要有如下幾種:
一是模擬匹配技術(shù),模擬匹配技術(shù)在信息技術(shù)安全、信息檢索以及數(shù)據(jù)挖掘等方面已經(jīng)得到了廣泛的運(yùn)用,同時(shí)當(dāng)前我國計(jì)算機(jī)程序抄襲檢測系統(tǒng)也是在模擬匹配技術(shù)支持基礎(chǔ)之上實(shí)現(xiàn)的,一個(gè)良好的計(jì)算機(jī)程序抄襲檢測系統(tǒng)需要有一個(gè)精確的算法作為支撐,與此同時(shí)模擬匹配技術(shù)可以分為單模式和多模式匹配算法,其中單模式匹配算法指的是從在長度為N的字符串Y中找到與長度為M的字符串X有一定相似度的子串,如果有相符的字串就會(huì)相應(yīng)的位置,如果沒有找到相似的字串就會(huì)返回到零;其中多模式匹配算法指的是將字串集合P=(P1,P2,……P3),分別于字符串Z經(jīng)過相匹配分析得到相似的字符串并回到相應(yīng)的位置,如果沒有找到相似的字串就會(huì)返回到零,多模式匹配算法與單模式匹配算法有所不同,多模式匹配算法可以同時(shí)計(jì)算多個(gè)字符串并進(jìn)行匹配計(jì)算,可以大大提升計(jì)算機(jī)程序抄襲檢測系統(tǒng)的檢測效率和使用性能[1]。
二是相似度算法,隨著當(dāng)前我國計(jì)算機(jī)程序抄襲檢測系統(tǒng)的日益完善,抄襲者開始不斷變換抄襲手段,使用同義詞替換、添加刪除相應(yīng)的字段、調(diào)換字符串之間的順序等方式來逃避反抄襲檢測系統(tǒng),對此可以使用相似度算法原理來對計(jì)算機(jī)程序抄襲檢測系統(tǒng)進(jìn)行進(jìn)一步的優(yōu)化升級。相似度算法從一定程度上來說也是模式匹配算法中的一種算法模式,是對不同字符串中相似程度的計(jì)算方法,文本相似度計(jì)算方法主要有字符匹配相似度法、集合模型的相似度計(jì)算法、空間向量模型相似度計(jì)算方法等。
三是中文分詞技術(shù),在對文本抄襲進(jìn)行反抄襲檢測時(shí),如果利用整句的方式對相關(guān)關(guān)鍵信息進(jìn)行匹配相似度計(jì)算等,可能會(huì)使檢測過程極為復(fù)雜且有檢測信息片面等問題,從而大大降低了計(jì)算機(jī)程序抄襲檢測系統(tǒng)的檢測效率,對此,可以使用中文分詞技術(shù)在對檢測文本進(jìn)行合理化分割的前提之下提升計(jì)算機(jī)程序抄襲檢測系統(tǒng)的準(zhǔn)確度和性能。中文分詞技術(shù)主要包括了字符串匹配分詞技術(shù)、統(tǒng)計(jì)方法的分詞技術(shù)以及知識(shí)理解的分詞技術(shù)等方法[2]。
綜合前人的研究以及本文對反抄襲程序的研究可以知道計(jì)算機(jī)程序抄襲檢測系統(tǒng)設(shè)計(jì)的核心技術(shù)在于程序抄襲檢測技術(shù),從上述分析可以知道程序抄襲檢測技術(shù)的重點(diǎn)在于相似度計(jì)算技術(shù)的選擇與應(yīng)用,相似度計(jì)算技術(shù)在計(jì)算機(jī)程序設(shè)計(jì)中的應(yīng)用指的是運(yùn)用計(jì)算機(jī)實(shí)現(xiàn)對不同兩個(gè)程度文檔、代碼等各個(gè)方面的相似度匹配計(jì)算,這種方法已經(jīng)被廣泛地應(yīng)用到數(shù)字技術(shù)、學(xué)術(shù)領(lǐng)域、軟件工程代碼管理以及知識(shí)產(chǎn)權(quán)保護(hù)等各個(gè)領(lǐng)域中,可見相似度計(jì)算技術(shù)在計(jì)算機(jī)程序抄襲檢測系統(tǒng)的運(yùn)用是至關(guān)重要的。但是在進(jìn)行計(jì)算機(jī)程序抄襲檢測系統(tǒng)設(shè)計(jì)開發(fā)時(shí)首先需要明確系統(tǒng)的需求分析和相應(yīng)的功能分析[3]。
(1)計(jì)算機(jī)程序抄襲檢測系統(tǒng)使用需求分析
比如在學(xué)生提交所創(chuàng)作的電子文檔類型的程序設(shè)計(jì)作業(yè)時(shí),在沒有對此實(shí)行反抄襲軟件檢測之前,教師難以從中了解到提交的這些電子文檔類型程序設(shè)計(jì)作業(yè)哪些地方可能存在抄襲現(xiàn)象,因此在進(jìn)行計(jì)算機(jī)程序抄襲檢測系統(tǒng)設(shè)計(jì)開發(fā)之前需要將已有的所有文檔進(jìn)行相互對比匹配檢測,最終可以給出不同程序文檔之間的相似度匹配計(jì)算結(jié)果,一般都會(huì)以百分比的形式給出相應(yīng)的似度匹配計(jì)算結(jié)果。與此同時(shí)需要考慮到計(jì)算機(jī)程序抄襲檢測系統(tǒng)使用者的使用習(xí)慣和邏輯性思維,這就需要在完成不同程序文檔之間的相似度匹配計(jì)算結(jié)果之后,對這些相似度計(jì)算結(jié)果進(jìn)行一個(gè)方向性的排序,通過上述的計(jì)算分析處理就可以得到相似度最大的程度文檔,以此可以綜合性地高效、準(zhǔn)確地確定存在抄襲現(xiàn)象的電子程序文檔。
(2)計(jì)算機(jī)程序抄襲檢測系統(tǒng)使用功能分析
從上述分析可以知道,在進(jìn)行計(jì)算機(jī)程序抄襲檢測系統(tǒng)開發(fā)設(shè)計(jì)時(shí)需要保障有如下幾個(gè)方面的功能,以滿足反抄襲檢測系統(tǒng)的應(yīng)用需求:
一是,選取并按照一定的順序羅列出將要被計(jì)算機(jī)程序抄襲檢測系統(tǒng)進(jìn)行檢測的程序文檔文件名以及對應(yīng)的文檔路徑等,對于這些羅列的程序文檔可以進(jìn)行后續(xù)的添加和刪除,后續(xù)可以根據(jù)分析需求將指定的程序文檔進(jìn)行部分刪除或者全部清空處理等[4]。
二是,開發(fā)設(shè)計(jì)具備對程序文檔進(jìn)行相似度計(jì)算的功能。首先需要對這些將要被計(jì)算機(jī)程序抄襲檢測系統(tǒng)進(jìn)行檢測的程序文檔進(jìn)行相互匹配計(jì)算,即將所有文檔進(jìn)行相互的配對分析,然后在此基礎(chǔ)之上對這些程序文檔之間的相似度進(jìn)行有效計(jì)算,最后將上述程序文檔之間的相似度計(jì)算結(jié)果按照從高至低的順序進(jìn)行一一排列。在此將相似度匹配計(jì)算方法運(yùn)用到計(jì)算機(jī)程序抄襲檢測系統(tǒng)之中,可見這是該系統(tǒng)的核心功能所在。
三是,對上述程序文檔相似度較高的對象進(jìn)行進(jìn)一步的細(xì)化對此處理分析。由于相似度較高的程序文檔則說明這些程度文檔具備較高抄襲度,因此在上述相似度匹配計(jì)算結(jié)果基礎(chǔ)之上需要對其進(jìn)行進(jìn)一步的細(xì)化分析,從而準(zhǔn)確地確認(rèn)這些程序文檔是否存在抄襲現(xiàn)象,可以將兩個(gè)相似度最高的程序文檔進(jìn)行深入對比分析,并顯示出相同部分來確定。對于相似度匹配計(jì)算結(jié)果較低的程序文檔可以直接確定這些程序文檔不存在相互抄襲的現(xiàn)象。
從上述分析可以知道我國計(jì)算機(jī)程序抄襲檢測系統(tǒng)存在一定的可挖掘空間,面臨中英文環(huán)境的沖擊以及反抄襲檢測系統(tǒng)的功能需求,本文將在此基礎(chǔ)之上提出適用于中英文背景之下的計(jì)算機(jī)程序抄襲檢測系統(tǒng)研發(fā)技術(shù)工具,該反抄襲檢測系統(tǒng)設(shè)計(jì)的目的在于可以有效對程度文檔中的中英文字符進(jìn)行合理分割,進(jìn)而實(shí)現(xiàn)相似度匹配的計(jì)算,最終設(shè)計(jì)出相似度匹配過程中的模糊匹配、分割匹配等計(jì)算模式,從而高效準(zhǔn)確地對中英文字符文檔進(jìn)行檢測,并進(jìn)而根據(jù)所檢測的各個(gè)層次的字符串按照規(guī)定的方式進(jìn)行相似度計(jì)算,為抄襲現(xiàn)象的判斷提供可靠依據(jù)。與此同時(shí),計(jì)算機(jī)程序抄襲檢測系統(tǒng)還需要為數(shù)據(jù)庫提供中英文庫存文檔的存儲(chǔ)、添加刪除、信息資源庫的文化更新以及用戶信息資源的維護(hù)更新、文檔篩選檢測等方面的功能。據(jù)此可以對計(jì)算機(jī)程序抄襲檢測系統(tǒng)的功能模塊進(jìn)行對應(yīng)的開發(fā)設(shè)計(jì)[5]。
計(jì)算機(jī)程序抄襲檢測系統(tǒng)的功能模塊設(shè)計(jì)所需要服務(wù)的對象主要包括幾個(gè)層面:
一是,計(jì)算機(jī)程序抄襲檢測系統(tǒng)面向系統(tǒng)用戶的功能設(shè)計(jì),需要根據(jù)用戶的需求提供用戶注冊功能、用戶個(gè)人信息資源維護(hù)、信息更新以及修改完善、用戶會(huì)員登錄、信息資源程序文檔的提交、檢測結(jié)果的查詢、操作處理等方面的功能。
二是,計(jì)算機(jī)程序抄襲檢測系統(tǒng)面向系統(tǒng)管理員的功能設(shè)計(jì),需要根據(jù)系統(tǒng)管理員的需求提供信息資源庫中英文程序文檔的添加刪除、信息資源維護(hù)、信息資源信息表的及時(shí)更新等多個(gè)方面的操作處理功能,除此之外,還可以為系統(tǒng)管理員提供相關(guān)數(shù)據(jù)庫的構(gòu)建管理和系統(tǒng)用戶操作處理等方面的服務(wù)功能。
三是,計(jì)算機(jī)程序抄襲檢測系統(tǒng)檢測運(yùn)行實(shí)現(xiàn)的過程如下:首先系統(tǒng)管理員通過輸入相應(yīng)的口令登錄到檢測系統(tǒng)管理平臺(tái),然后將所要被檢測的中英文文檔添加進(jìn)入相應(yīng)的信息資源庫,以此方便系統(tǒng)用戶能夠便捷地進(jìn)行程序文檔的檢測。系統(tǒng)用戶在完成系統(tǒng)平臺(tái)注冊登錄之后便可以提供將要被檢測的程序文檔,計(jì)算機(jī)程序抄襲檢測系統(tǒng)將用戶的程序文檔與信息資源庫中的程序文檔進(jìn)行相似度匹配計(jì)算之后,可以得出相似度較高的程序文檔。最后將這些相似度較高的程序文檔進(jìn)行進(jìn)一步的兩兩對比深入分析,將最終結(jié)果通過計(jì)算機(jī)程序抄襲檢測系統(tǒng)顯示反饋給系統(tǒng)用戶。
綜上所述,可以將計(jì)算機(jī)程序抄襲檢測系統(tǒng)開發(fā)設(shè)計(jì)為文檔注冊模塊、篩選、抄襲檢測以及后臺(tái)信息資源維護(hù)模塊等幾個(gè)重要的模塊,如圖1所示,同時(shí)每一個(gè)模塊相對獨(dú)立地承擔(dān)相應(yīng)的功能,共同為反抄襲檢測系統(tǒng)服務(wù),從而為學(xué)術(shù)領(lǐng)域等提供最佳的反抄襲系統(tǒng)檢測服務(wù)。
圖1 :計(jì)算機(jī)程序抄襲檢測系統(tǒng)模塊方案
[1]房德安.計(jì)算機(jī)程序抄襲檢測系統(tǒng)的設(shè)計(jì)方案分析[J].黑龍江科技信息,2013,(2):53-54.
[2]李雅慧,郭婷,孫麗穎.一種基于高頻詞和段落匹配的論文抄襲檢測系統(tǒng)設(shè)計(jì)[J].現(xiàn)代經(jīng)濟(jì)信息,2009,(11):158-159.
[3]胡正軍.程序代碼相似度檢測方法研究及應(yīng)用[D].長沙:中南大學(xué),2012.
[4]李旭東.程序相似度計(jì)算技術(shù)及其在教學(xué)中的應(yīng)用[J].軟件導(dǎo)刊(教育技術(shù)),2010,(4):111-113.
[5]祁俊,王曉英.抄襲檢測系統(tǒng)對計(jì)算機(jī)類電子作業(yè)的影響分析[J].價(jià)值工程,2012,(8):76-79.