●李萬武
識別畢業(yè)論文抄襲的實驗研究
●李萬武
近幾年來,大學(xué)生畢業(yè)論文抄襲現(xiàn)象較為嚴(yán)重,通過組織學(xué)生參加設(shè)計論文抄襲識別系統(tǒng)實踐,即可人工智能識別出抄襲的論文,又能提高學(xué)生的實踐能力。文章通過整理分析計算機學(xué)院現(xiàn)存的大量論文資料,設(shè)計了符合專業(yè)特征的論文抄襲識別系統(tǒng),用一定數(shù)量的論文進行了系統(tǒng)檢驗,識別的結(jié)論正確。
論文抄襲 面向?qū)ο?特征選擇 相似度計算
近年來,部分計算機學(xué)院大學(xué)畢業(yè)論文中總會出現(xiàn)全部或部分抄襲他人論文的現(xiàn)象。受我國大學(xué)生就業(yè)壓力的影響,部分大四畢業(yè)生于畢業(yè)設(shè)計期間在外實習(xí)工作,這部分學(xué)生的畢業(yè)設(shè)計活動指導(dǎo)教師不好控制,容易出現(xiàn)抄襲的畢業(yè)設(shè)計論文。畢業(yè)生指導(dǎo)教師根據(jù)學(xué)校制度,以開題答辯、中期檢查和畢業(yè)答辯形式指導(dǎo)、檢查和監(jiān)督學(xué)生的設(shè)計,在整個設(shè)計期間指導(dǎo)教師負(fù)責(zé)任地和畢業(yè)生保持緊密的聯(lián)系,但以目前的工作方式并不能阻擋抄襲行為上升勢頭。
受經(jīng)濟利益驅(qū)使,網(wǎng)絡(luò)上出現(xiàn)販賣計算機專業(yè)畢業(yè)設(shè)計論文的網(wǎng)站,這使畢業(yè)生花錢能輕易獲得論文。學(xué)校制定嚴(yán)格的懲處措施處理畢業(yè)論文抄襲的學(xué)生,指導(dǎo)教師只接觸少量畢業(yè)生論文,因此發(fā)現(xiàn)論文抄襲的幾率不高,大部分違紀(jì)學(xué)生還是逃脫了懲罰。
我們針對計算機專業(yè),利用實驗室設(shè)備組織了學(xué)生設(shè)計抄襲論文識別實驗。教師提出論文相似性計算方法和編制實驗方案,學(xué)生在理解論文相似性算法后,按照實驗方案做信息分析和編寫軟件,并將完成的作品發(fā)布在網(wǎng)絡(luò)上,初步使用在本院的畢業(yè)設(shè)計論文抄襲檢查中。該實驗一定程度上制約了學(xué)生論文抄襲行為,并激發(fā)了學(xué)習(xí)興趣、提高了學(xué)生動手能力。
相似的文本具有相似的關(guān)鍵詞或相對詞頻,因此可以基于關(guān)鍵詞向量或關(guān)鍵詞相對詞頻向量來計算一組文本的相似度。文本與詞的相關(guān)矩陣如圖1所示,其中表示第i篇文本與第j個詞的相關(guān)程度,取值范圍為[0,1]。相關(guān)矩陣中的行描述一篇文本的特征,稱之為文本特征向量,列表示每個特征項與文獻集的相關(guān)程度。
圖1 文本與詞的相關(guān)矩陣
文本相似性算法有多種,但考慮到本校學(xué)生的接受能力,算法選擇《數(shù)據(jù)挖掘》課程中教授的余弦算法。
利用文本與詞的相關(guān)矩陣可以通過分析文本之間的相關(guān)性。相關(guān)性的大小可以用相關(guān)系數(shù)S來度量,第i篇文本與第j篇文本的相關(guān)系數(shù)可以表示為Sij。
文檔向量之間的關(guān)系用余弦法表示為:
學(xué)院共有3臺供教學(xué)實驗用的SUN品牌服務(wù)器和四個計算機實驗室,在教務(wù)科存儲有歷年學(xué)生提交的畢業(yè)設(shè)計論文光盤(估計有11000張左右),每個實驗室有學(xué)生實驗用的計算機50臺左右,均網(wǎng)絡(luò)連接。從實際情況出發(fā),實驗按如下四個階段進行:
圖2 實驗室計算機網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)鋱D
1.建設(shè)網(wǎng)絡(luò)平臺。四個計算機實驗室通過交換機級聯(lián)能互相訪問,其中的信息控制實驗室有一條專用線路與學(xué)校網(wǎng)絡(luò)信息中心的主路由器連接,理論上此鏈路能到達全校網(wǎng)絡(luò)上開放的每個計算機。3臺SUN品牌服務(wù)器中,2臺作為應(yīng)用服務(wù)器,1臺作為數(shù)據(jù)庫服務(wù)器。實驗室內(nèi)計算機實驗室網(wǎng)絡(luò)連接拓?fù)浣Y(jié)構(gòu)如圖2。
應(yīng)用服務(wù)器1安裝Windows Server2003操作系統(tǒng)+IIS服務(wù),應(yīng)用服務(wù)器2安裝linux操作系統(tǒng)+Tomcat服務(wù),數(shù)據(jù)庫服務(wù)器安裝Windows Server2003操作系統(tǒng)+SQL Server數(shù)據(jù)庫。
2.建論文信息庫。如果用常用的漢語詞典的詞表示文本特征的詞匯,則因為詞匯數(shù)量大,造成相應(yīng)詞頻矩陣的維度過高、信息處理的效率低。為此首先應(yīng)建立能表示計算機專業(yè)畢業(yè)論文特征的低維詞匯庫。初步從大量論文中提取2000個左右的計算機專業(yè)詞匯庫,利用編制的計算機專業(yè)詞匯庫建立論文的特征向量矩陣,即建立教務(wù)科存儲的光盤中每篇論文的特征向量矩陣,存儲到已建好的數(shù)據(jù)庫服務(wù)器中。
3.開發(fā)應(yīng)用軟件。應(yīng)用服務(wù)器1中的應(yīng)用程序用asp.net開發(fā),應(yīng)用服務(wù)器2中的信息處理應(yīng)用Jsp+Ajax開發(fā)。軟件開發(fā)采用面向?qū)ο蠓椒?,系統(tǒng)中完成一定功能的核心代碼asp.net中封裝為Activex組件,java環(huán)境中封裝為類庫,使用CSS美化頁面。
微軟公司提供了office產(chǎn)品外部訪問的com接口。C++訪問接口主要代碼如下:
教師用c++開發(fā)工具設(shè)計了獲取word文件中文本的COM組件,即為學(xué)生開發(fā)的軟件提供訪問word文檔的接口。
學(xué)生開發(fā)web應(yīng)用軟件實現(xiàn)如下功能:①獲取word文件中文本,根據(jù)計算機專業(yè)詞匯集合建立論文特征向量矩陣,將向量矩陣存入到paper數(shù)據(jù)庫中;②假設(shè)有n個論文,應(yīng)用余弦算法后臺計算n個論文之間的相似度,得到n×n的數(shù)據(jù)表格存入paper數(shù)據(jù)庫中;③從paper數(shù)據(jù)庫中排序讀取相似度表格,根據(jù)相似度識別出抄襲的論文。
從學(xué)院各班級中選拔出優(yōu)秀學(xué)生10名,按上述的設(shè)計方案進行實驗。
1.網(wǎng)絡(luò)環(huán)境搭建。首先在實驗室中三臺服務(wù)器中分別安裝操作系統(tǒng)和數(shù)據(jù)庫,并配置相應(yīng)Web服務(wù),新建名為paper的數(shù)據(jù)庫。經(jīng)過測試檢查確認(rèn)實驗室網(wǎng)絡(luò)運行正常。
2.信息分析。從教務(wù)科調(diào)出有代表性的100篇電子版畢業(yè)論文,每個學(xué)生分配10篇論文,安排他們從各自論文集中挖掘出2000個計算機專業(yè)詞匯,按規(guī)定格式保存在Excel文件中。教師對收集的Excel文件中詞匯集進行比對篩選,最終選出2015個計算機專業(yè)詞匯,并將這2015個詞匯導(dǎo)入到已建好的paper數(shù)據(jù)庫中。
3.軟件開發(fā)。5個學(xué)生一組用asp.net開發(fā)運行在IIS服務(wù)環(huán)境下的信息處理系統(tǒng),其他5個學(xué)生用java開發(fā)運行在tomcat服務(wù)環(huán)境下的應(yīng)用。經(jīng)過35天開發(fā),學(xué)生開發(fā)的應(yīng)用軟件在服務(wù)器調(diào)試運行。兩組學(xué)生使用了一致的算法,將100篇論文進行了比對,得出論文之間相似度矩陣,將結(jié)論以行列100×100關(guān)系型數(shù)據(jù)表格形式顯示。對數(shù)據(jù)按相似度排序,有2篇論文之間的明顯相似度數(shù)值大,相似度為0.891,可認(rèn)為是抄襲的論文。經(jīng)人工判斷,2篇論文內(nèi)容大部分相似,計算機自動判斷結(jié)論正確。
雖然已完成的論文抄襲識別系統(tǒng)能初步滿足要求,但實際應(yīng)用中還需要改進。主要改進的方面有:提煉計算機專業(yè)詞庫;提高算法精度;加快識別速度。
1.提煉計算機專業(yè)詞庫。編制的計算機專業(yè)詞庫沒有經(jīng)過實踐的檢驗,需要在學(xué)院保存11000篇論文進行識別過程中,進一步迭代整理詞庫,使之能精確反映計算機專業(yè)論文特征。
2.提高算法精度。沒有考慮詞的權(quán)重,也沒考慮詞與詞之間的依賴性,在一定程度上影響了精確度,需要改進算法。
3.加快識別速度。由于在論文相似性比對過程中,處理的信息量巨大,僅依靠實驗室中兩臺服務(wù)器處理,運行時間慢長、效率低。計劃將實驗室中計算機(大約200臺)參與到分布式計算中,期待提高論文相似度計算速度。
互聯(lián)網(wǎng)上提供的大量計算機專業(yè)論文資料,使畢業(yè)生能輕易抄襲他人論文。目前僅靠學(xué)校嚴(yán)格的管理手段和指導(dǎo)教師的認(rèn)真負(fù)責(zé)并不能完全杜絕論文抄襲現(xiàn)象,而利用計算機技術(shù)人工智能識別論文抄襲,在技術(shù)上高效地打消了畢業(yè)生僥幸心理。
組織學(xué)生實現(xiàn)的論文抄襲識別系統(tǒng)實驗作品,經(jīng)進一步改進后可以實際使用在計算機教學(xué)管理工作中。通過本項目實驗活動,提高了學(xué)生的網(wǎng)絡(luò)、程序開發(fā)、信息整理等方面的實踐能力,同時也教育了大學(xué)生努力學(xué)習(xí)、拒絕抄襲。
[1] 于守健,夏小玲,樂嘉錦.基于語義描述的分布式W eb服務(wù)發(fā)布與發(fā)現(xiàn)[J].計算機工程,2007
[2] 于守健,朱勤,樂嘉錦.一種基于分布式哈希表的W eb服務(wù)目錄系統(tǒng)[J].計算機工程,2007
[3] 李曉暉等.基于O racle的文獻資料庫全文檢索技術(shù)[J].成都信息工程學(xué)院學(xué)報,2003
[4] 閔小玲.W eb應(yīng)用系統(tǒng)設(shè)計的JSP技術(shù)方法[J].黃石理工學(xué)院學(xué)報,2005
[5] 陳治綱,何丕廉,孫越恒.基于向量空間模型的文本分類系統(tǒng)的研究與實現(xiàn).中文信息學(xué)報,2005
[6] 王秀娟.文本檢索中若干問題的研究[D].北京:北京郵電大學(xué),2006
[7] 劉群,李素建.基于“知網(wǎng)”的詞匯語義相似度計算[C].第三屆漢語詞匯語義學(xué)研討會,2002
[8] R.Yangaber,R.Grishman,P.Tapainen.Unsupervised Discovery of Scenario LevelPatterns for Information Extraction.In Proceedings of the Sixth Applied NaturalLanguage Processing Conference,Seattle A,2000,282-289
[9] Zhang YiQi,Zhou Qiang.The auto identification of Chinesebase phrase[J].Journal of Chinese Information Processing,2003,16(3):1-8
[10] 劉群,張華平,張浩.計算所漢語詞性標(biāo)記集Version3.0[Z].2004
[11] Roger Levy and Christopher D.Manning.Is it harderto parse Chinese or the Chinese Treebank?[A].In:proceedings of the 41st Annual Meeting of theAssociation for Computational Linguistics[C].200
[12] Daniel M.Bikel and David Chiang.Two statisticalparsing models applied to the Chinese Tree-bank[A].In::proceedings of the Second ChineseLanguage Processing W orkshop,ACL[C],2000
[13] 張浩,劉群,白碩等.結(jié)構(gòu)上下文相關(guān)的概率句法分析[A].第一屆學(xué)生計算語言學(xué)研討會論文集[C].北京大學(xué),2002
[14] Zhengping Jiang.Statistical Chinese parsing[Z].Honours thesis,2004,National University of Singapore
[15] M ichael Conllins.Head-Driven Statistical Models for Natural Language Parsing[D].University of Pennsylvania,1999
(作者單位:黑龍江科技大學(xué)計算機學(xué)院 黑龍江哈爾濱 150027)
(責(zé)編:呂尚)
G645
A
1004-4914(2014)01-263-03