干麗萍,許 易,樓宋江,陳 盈
(臺州學(xué)院 數(shù)學(xué)與信息工程學(xué)院,浙江 臨?!?17000)
基于感知哈希的作業(yè)相似度檢測*
干麗萍,許易,樓宋江,陳盈*
(臺州學(xué)院數(shù)學(xué)與信息工程學(xué)院,浙江臨海317000)
現(xiàn)有抄襲檢測多以文本的字符串匹配實現(xiàn),無法檢測圖片作業(yè),有一定局限性。提出一種將文本作業(yè)轉(zhuǎn)化為圖片,應(yīng)用感知哈希算法獲取圖片特征值并計算圖片相似度的方法,實現(xiàn)作業(yè)的抄襲檢測。實驗表明,該方法在一定的檢測速度下,能保證低誤判率和查準率。
抄襲檢測;感知哈希;圖像特征
學(xué)習(xí)是人生中不可缺少的一部分,于學(xué)生而言更是如此。然而很多學(xué)生不是很明確學(xué)習(xí)的意義,在學(xué)習(xí)上總是得過且過,不求甚解,作業(yè)常常敷衍了事,或者直接抄襲。抄襲之風(fēng)屢禁不止,甚至愈演愈烈,不僅僅是因為惰性,更是因為沒有行之有效的檢測方法。
長期以來,抄襲檢測主要是依靠教師人工實現(xiàn)。然而受限于教師的精力與時間,抄襲檢測有一定的難度。抄襲行為不但助長了學(xué)生的惰性,還會破壞教學(xué)秩序。教師難以從作業(yè)中得知學(xué)生對新知識的掌握情況。此外,教師在無法確定作業(yè)是否抄襲時只能根據(jù)作業(yè)的質(zhì)量來進行打分,這就可能導(dǎo)致投機取巧的學(xué)生會有一個相對于認真完成作業(yè)的學(xué)生更好的成績,容易傷害學(xué)生學(xué)習(xí)積極性。要從源頭上遏制抄襲行為,就要讓學(xué)生認識到抄襲要付出的代價,因此對于作業(yè)的相似度檢測是非常重要的,實現(xiàn)抄襲檢測的自動化更是必要的。
現(xiàn)有的學(xué)生作業(yè)抄襲檢測系統(tǒng)主要借助字符串匹配算法和詞頻統(tǒng)計[1],是基于作業(yè)中的文本信息來進行對比檢測的。這種方法準確性高,但在檢測有大量文字的作業(yè)時運算量較大,且無法對圖片作業(yè)進行檢測。而通過將作業(yè)轉(zhuǎn)化為圖片,檢測圖片相似度以判斷是否抄襲的方法則沒有這種局限。由于作業(yè)易轉(zhuǎn)化成圖片,且不會改變作業(yè)的視覺信息,因此這種方法具有較高的可行性。
目前圖片相似度檢索的實現(xiàn)主要是應(yīng)用“感知哈希算法”[2],該算法是基于人類感知模型,將圖片唯一單向地映射為簡短的數(shù)字摘要[3]。這種算法起源于數(shù)字水印技術(shù),融合了多媒體中的認證、傳統(tǒng)密碼學(xué)中的哈希等理論與概念[4],將原本數(shù)據(jù)量較大的圖片表示為簡短的二值序列,在大量圖像數(shù)據(jù)的檢索中,不但降低了數(shù)據(jù)的存儲成本,更縮短了檢索時間。
衡量感知哈希算法性能的指標主要有抗碰撞能力、魯棒性等[5]。抗碰撞能力強表現(xiàn)為感知內(nèi)容不同的圖片不會被映射為相同摘要,而魯棒性則是取決于在經(jīng)歷圖片格式、大小等不改變圖片感知內(nèi)容的變化后,圖片是否仍映射為同一摘要。
自感知哈希被提出并有效地實現(xiàn)了可重復(fù)圖像的檢測后,研究者提出了眾多優(yōu)秀的算法,這些算法基于不同特征和編碼,但其生成方案基本相同,如圖1所示,分為特征提取、量化編碼等步驟[6-7]。
圖1 感知哈希序列生成流程圖
圖像是由像素點構(gòu)成的,包含了大量細節(jié)信息,因此在進行特征提取前需要對圖片進行一定處理,如統(tǒng)一圖片規(guī)格、將圖片轉(zhuǎn)化成灰度圖,以減少后續(xù)運算復(fù)雜度。
圖像特征的提取是檢測過程中的關(guān)鍵步驟[8],其圖像表達能力將直接決定檢測效果。早期感知哈希的特征提取大多是基于全局統(tǒng)計特征的[9],如顏色統(tǒng)計特征,這種方法的特點是簡單易實現(xiàn),但抗碰撞能力較差,不同的圖像可能生成相同的特征值。后來研究者們不斷對此進行改良研究,針對不同的應(yīng)用領(lǐng)域提出了許多具有抗碰撞能力與魯棒性的特征提取方法,如基于DCT變換的感知哈希[10]、基于圖像特征點的感知哈希[11]等。
針對學(xué)生作業(yè)的特點,我們選擇差異哈希來實現(xiàn)作業(yè)圖片相似度的檢測。該算法是在對圖片進行預(yù)處理后比較相鄰像素的亮度差,是基于漸變實現(xiàn)的,具有較好的圖像表達能力,實現(xiàn)流程如下。
上一步提取出的特征值往往具有一定的冗余,為了便于存儲與運算,需要對特征值進行量化與編碼以得到盡可能短的哈希序列,以便于后續(xù)的應(yīng)用。
由于學(xué)生在抄襲作業(yè)中鮮少有完全照搬的現(xiàn)象,而是或多或少地會做一些簡單的小改動,因此不能只判斷圖像特征是否相同,還需要計算出作業(yè)圖像的相似度。計算圖片相似度可以通過計算哈希序列的漢明距離來獲得:
其中,L為序列長度,H1和H2為兩個哈希序列,⊕為異或運算。漢明距離越小說明兩張圖片越相似,抄襲嫌疑越大。
2.1實驗準備
共收集了100份《計算機網(wǎng)絡(luò)實驗》課的實驗報告作為樣本,其中10份實驗報告已被驗證為是抄襲作業(yè),5份實驗報告被認為具有抄襲嫌疑。該課程每個學(xué)期會安排6-8個實驗,實驗內(nèi)容相對固定。在實驗結(jié)束后學(xué)生需要上交PDF格式的實驗報告,實驗報告要求填寫實驗步驟、粘貼實驗過程截圖以及實驗結(jié)果截圖。由于實驗報告填寫比較繁瑣,且實驗步驟以及實驗截圖比較類似,有相當一部分同學(xué)選擇直接復(fù)制粘貼他人作業(yè)以應(yīng)付老師。
衡量圖片重復(fù)檢測性能的指標有許多,在作業(yè)檢測中比較重要的是查全率 (Recall)、查準率(Precision)以及誤判率(False Positive Rate)。部分學(xué)生為了避免抄襲行為被發(fā)現(xiàn)會拼接多份實驗報告作為自己的作業(yè),而查全率是檢索出的圖像占相似圖像的比例。查準率描述了所有被檢測出的圖片中符合要求的圖片所占比例,誤判率則代表著不相似作業(yè)被判定為相似的概率。計算公式如下:
Recall=(檢測出的相似圖像)/(特征庫中相似圖像數(shù)量)*100%
Precision=(檢測出相似圖像數(shù)量)/(檢測到的圖像數(shù)量)*100%
FPR=(檢測出的不相似圖像數(shù)量)/(檢測到的圖像數(shù)量)*100%
2.2實驗過程
在實驗開始前需要設(shè)定兩個閾值,一是確定抄襲的閾值,二是有涉嫌抄襲的閾值。在本次實驗中我們設(shè)置確定抄襲的閾值為5,即漢明距離小于6的作業(yè)被認定為抄襲作業(yè),而涉嫌抄襲的閾值為10,即漢明距離小于11且大于5的圖作業(yè)被認為有抄襲嫌疑,需要教師進一步確認。
首先需要對樣本圖像進行預(yù)處理,將所有圖片轉(zhuǎn)化成相同大小的灰度圖,并通過差異哈希函數(shù)生成哈希序列;其次需要計算出樣本圖像與特征庫中哈希值的漢明距離,得出樣本圖像與所有特征庫中圖片的相似度。
若特征庫中無大于相似度閾值的圖片,則將該哈希序列加入特征庫中,再重復(fù)上述步驟直至樣本檢測完成;若特征庫中有相似度高于涉嫌抄襲閾值且低于確定抄襲閾值的圖片,則需要將樣本圖片與相似圖片輸出,由教師人工進行判斷,以確保誤判率盡可能地低;若相似度高于確定抄襲閾值,則無需教師再進行判斷,以減少教師工作量。實驗流程如圖2所示。
圖2 抄襲檢測流程圖
以學(xué)生上交的“實驗三服務(wù)器的構(gòu)建與應(yīng)用”實驗報告中無抄襲嫌疑的文檔A、文檔B為例進行測驗。首先將兩份文檔分別按頁轉(zhuǎn)化為7張、8張圖片,利用差異哈希得出每張圖片的哈希值并計算漢明距離,如表1所示。
表1 文檔A和B的漢明距離
表1中最右一列與最后一行是該行或該列中的最小值,表示在該頁與另一份文檔最大相似度。從表中數(shù)據(jù)可以看出兩份文檔的首頁漢明距離為0,是相當相似的。這是由于實驗報告的格式是固定的,文檔首頁內(nèi)容相似,結(jié)構(gòu)相同,因此在進行判定時可以忽略首頁的漢明距離。表中剩余的幾張圖片漢明距離均大于10,相似度較低。
類似于文檔A、B的檢測過程,樣本庫中的文檔圖片將會與特征庫中現(xiàn)有特征進行兩兩對比,檢測出其平均相似程度,無抄襲嫌疑的圖像特征值會逐漸加入特征庫,形成一個不斷更新的特征庫,能夠應(yīng)用于后續(xù)的作業(yè)檢測中。最終實驗結(jié)果如表2所示。
表2 實驗結(jié)果
2.3實驗結(jié)果分析
表1中結(jié)構(gòu)相同、內(nèi)容略有不同的圖片應(yīng)用感知哈希得出的圖片特征值相同,說明其具有一定的魯棒性。而其余文檔結(jié)構(gòu)不同的圖片計算出的漢明距離較大,說明算法的抗碰撞能力較好。
從表2可以看出,感知哈希算法的誤判率較低,但查全率不是很理想。這是因為考慮到誤判的危害以及教師的工作量而調(diào)整了涉嫌抄襲閾值,導(dǎo)致許多拼接作業(yè)難以被發(fā)現(xiàn)且難以查找出所有相似圖片。另外,為了降低運算復(fù)雜度未對圖像進行進一步的處理,導(dǎo)致有部分作業(yè)由于改變了頁面布局而獲得了較低的相似度。
綜合考慮檢測速度與有效性,差異哈希能夠在保證較低誤判率的情況下實現(xiàn)較理想的查找效果,比較適用于學(xué)生作業(yè)的抄襲檢測。
通過比較作業(yè)圖片的相似程度以進行作業(yè)檢測,能夠有效地解決傳統(tǒng)作業(yè)檢測方法無法檢測包含圖片作業(yè)的局限。本文將感知哈希應(yīng)用于作業(yè)檢測中,基于人類感知系統(tǒng)提取出作業(yè)圖片的特征,將圖像單向地映射為簡短的二值序列,并通過比較哈希值進行檢測。實驗結(jié)果表明該方法的準確度較為理想,且計算復(fù)雜度低,存儲量小,具有較好的應(yīng)用價值。
但由于該方法考慮到計算復(fù)雜度而拋棄了大量細節(jié)信息,影響了檢測效果。且差異哈希是基于漸變實現(xiàn)的,作業(yè)圖片的布局可能會因為微小的變化而有較大變化,容易導(dǎo)致最后得出的哈希序列變化大,難以檢測出真正與之相似的作業(yè)。今后將會繼續(xù)優(yōu)化感知哈希在作業(yè)檢測中的應(yīng)用,提高圖像特征的表達能力,以獲得更好的檢測效果。
[1]陳榮欽,胡永良,應(yīng)建健,等.在線評測系統(tǒng)中的源碼相似度檢測研究與實現(xiàn)[J].實驗技術(shù)與管理,2014,31(4):109-111.
[2]Abraham A K,Haroon R P.An Improved Hashing Method for the Detection of Image Forgery[J].IOSR Journal of Computer Engineering,2014,6(5):13-19.
[3]牛夏牧,焦玉華.感知哈希綜述[J].電子學(xué)報,2008,36(7):1406-1411.
[4]歐新宇,伍嘉,朱恒,等.基于深度自學(xué)習(xí)的圖像哈希檢索方法[J].計算機工程與科學(xué),2015,37(12):2386-2392.
[5]潘輝,鄭剛,胡曉惠,等.基于感知哈希的圖像內(nèi)容鑒別性能分析[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2012(07):925-931.
[6]唐堅剛,王澤興.基于Hash值的重復(fù)圖像檢測算法[J].計算機工程,2009(01):183-185.
[7]周國強,田先桃,張衛(wèi)豐,等.基于圖像感知哈希技術(shù)的釣魚網(wǎng)頁檢測[J].南京郵電大學(xué)學(xué)報(自然科學(xué)版),2012(04):59-63,69.
[8]翟俊海,趙文秀,王熙照.圖像特征提取研究[J].河北大學(xué)學(xué)報(自然科學(xué)版),2009(01):106-112.
[9]宋寶林.基于圖像特征的圖像哈希算法及實現(xiàn)[D].濟南:山東師范大學(xué),2014.
[10]Ahmed F,Siyal M.A novel hashing scheme for image authentication[C].Proceedings of the 2006 Innovations in Information Technology,2006(11):1-5.
[11]崔得龍,左敬龍,彭志平.結(jié)合Harris角點檢測和不變質(zhì)心的穩(wěn)健圖像Hash算法[J].傳感器與微系統(tǒng),2011,30(5):30-33.
Perceptual Hashing Based Plagiarism Detection of Homework*
GAN Liping,XU Yi,LOU Songjiang,CHEN Ying*
(School of Mathematics and Information Engineering,Taizhou University,Linhai 317000,China)
Plagiarism detection system s are mainly detecting by matching the string w hich causes restrictions,for instance,image homework doesn't apply to these systems.This paper achieves the detection by using the perceptual hashing algorithm to get features of the images transformed from homew ork and calculating the sim ilarity of these features.The experiments show that the method keeps the detection speed while ensures precision rate and false positive rate.
Plagiarism detection;perceptual hashing;image feature
10.13853/j.cnki.issn.1672-3708.2016.03.003
(責(zé)任編輯:耿繼祥)
2016-05-10;
2016-05-19
臺州學(xué)院2015年度開放實驗項目;臺州學(xué)院2016年大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目(2016004)。
通讀作者簡介:陳盈(1981-),男,浙江諸暨人,講師,碩士,主要從事智能信息處理方面的研究。