咸悅 梁瑋琪
摘 要:本文結(jié)合進(jìn)行項目查重現(xiàn)有方法研究一種準(zhǔn)確、高效的方式??偨Y(jié)了科技項目查重的一般過程,將其概括為文本預(yù)處理、特征提取、模型構(gòu)建、相似度判別和專家審核。采用資源采集技術(shù),文本數(shù)據(jù)庫加工技術(shù),文本數(shù)據(jù)庫技術(shù), 數(shù)字資源版權(quán)保護(hù)技術(shù), 知識挖掘技術(shù), 自然語言處理技術(shù)、快速比對技術(shù)等,從多方面進(jìn)行數(shù)據(jù)采集,通過文本預(yù)處理、特征提取以及模型構(gòu)建及相似度判別,從而為查重網(wǎng)站信息整合平臺做出有力的數(shù)據(jù)支撐,為查重體系提供必要的參考。
關(guān)鍵詞:科研項目;文本挖掘;精準(zhǔn)對比
引言:
我國近年來不斷加大科研投入的規(guī)模和強(qiáng)度,科研項目的數(shù)量和經(jīng)費(fèi)規(guī)模均得到顯著的提升,形成了多個層次的國家科技計劃資助體系。然而,項目多頭申報、重復(fù)立項已成為科研項目管理領(lǐng)域的突出問題之一,尤其是跨科技計劃的重復(fù)立項問題。該問題不僅會造成國家科技資源的浪費(fèi),而且也會導(dǎo)致惡性的科研競爭環(huán)境,對科技創(chuàng)新發(fā)展的危害極大。因此,如何建立有效、可行的項目查重機(jī)制已經(jīng)成為科技計劃管理部門的重要任務(wù)之一。
教育一直是整個社會的熱點(diǎn)問題和關(guān)鍵問題。但現(xiàn)在隨著互聯(lián)網(wǎng)的廣泛應(yīng)用“抄襲借鑒”形成了一種風(fēng)氣,教育部在《關(guān)于切實加強(qiáng)和改進(jìn)高等學(xué)校學(xué)風(fēng)建設(shè)的實施意見》中指出:“學(xué)風(fēng)是大學(xué)精神的集中體現(xiàn),是教書育人的本質(zhì)要求,是高等學(xué)校的立校之本、發(fā)展之魂?!?誠信教育,是人類文化的重要組成部分,是弘揚(yáng)人文精神的重要形式,在社會主義先進(jìn)文化建設(shè)中發(fā)揮著不可替代的作用,要求我們大力弘揚(yáng)愛國主義、集體主義、社會主義思想,以增強(qiáng)誠信意識為重點(diǎn),加強(qiáng)社會公德、職業(yè)道德、家庭美德、個人品德建設(shè)。讓高校學(xué)生認(rèn)識到誠信的重要性,將有助于學(xué)生樹立正確的學(xué)習(xí)目的和學(xué)習(xí)態(tài)度,并制定合理的學(xué)習(xí)計劃,并通過他們的努力實現(xiàn)自己具體的奮斗目標(biāo)。論文查重需要強(qiáng)大的技術(shù)作為支撐,包括資源采集技術(shù),文本數(shù)據(jù)庫加工技術(shù),文本數(shù)據(jù)庫技術(shù), 數(shù)字資源版權(quán)保護(hù)技術(shù), 知識挖掘技術(shù), 自然語言處理技術(shù)、快速比對技術(shù)等。因此,本文是針對于科研項目設(shè)計的查重整合平臺。
1.概述
為推動科技創(chuàng)新發(fā)展和提高科技競爭力,科技項目查重已成為科技管理領(lǐng)域常見的詞匯,科技項目查重一般是指從已有的項目數(shù)據(jù)中通過文本挖掘和綜合判斷,確認(rèn)是否存在與待查項目的研究內(nèi)容相同或高度相似的項目的過程。已有的項目數(shù)據(jù)包括通過正式立項的項目信息如項目名稱、關(guān)鍵詞、摘要和項目申報書等,也包括項目的關(guān)聯(lián)信息如學(xué)術(shù)論文、科技報告和科技成果等。此外,項目承擔(dān)人和承擔(dān)單位等信息也能提供一定的線索?;谖谋就诰虻姆椒茏詣拥挠嬎沩椖康南嗨菩裕錅?zhǔn)確性較差,可用于快速排除大量的無關(guān)項目。項目的重復(fù)性判斷是一個復(fù)雜的過程,需要專家的綜合判斷能力甄別出重復(fù)的項目,但需要耗費(fèi)大量的人力。
結(jié)合上述方法進(jìn)行項目查重才是一種準(zhǔn)確、高效的方式??萍柬椖坎橹氐囊话氵^程,將其概括為文本預(yù)處理、特征提取、模型構(gòu)建、相似度判別和專家審核。 采用資源采集技術(shù),文本數(shù)據(jù)庫加工技術(shù),文本數(shù)據(jù)庫技術(shù), 數(shù)字資源版權(quán)保護(hù)技術(shù), 知識挖掘技術(shù), 自然語言處理技術(shù)、快速比對技術(shù)等。在海量的全文數(shù)據(jù)的基礎(chǔ)上實現(xiàn)快速準(zhǔn)確的檢測,上述技術(shù)是基本的保證。另外,檢測比對庫里需要收錄期刊、學(xué)位論文、會議論文、報紙、年鑒、工具書、專利、外文文獻(xiàn)、學(xué)術(shù)文獻(xiàn)引文等與科學(xué)研究、學(xué)習(xí)相關(guān)的主要資源,才可以支撐起一個論文查重檢測系統(tǒng)。
2.平臺搭建
本文所設(shè)計一款基于HTML的查重網(wǎng)站信息整合平臺進(jìn)行對外開放,主要針對于當(dāng)代高校師生,隨著互聯(lián)網(wǎng)的普及與此同時隨著網(wǎng)絡(luò)成為新時代發(fā)展趨勢。本著端正學(xué)風(fēng)的宗旨,本項目提出查重網(wǎng)站信息整合平臺要求學(xué)生要堅持“誠信立人”的原則,養(yǎng)成“嚴(yán)謹(jǐn)為學(xué)”的態(tài)度,促進(jìn)學(xué)術(shù)的健康、良性發(fā)展保護(hù)個人知識產(chǎn)權(quán)。
1、科技項目查重信息整合平臺的設(shè)計:
平臺將從已有的科技項目大數(shù)據(jù)中通過文本挖掘和綜合判斷,確認(rèn)是否存在與待查項目的研究內(nèi)容相同或高度相似的項目,也包括項目的關(guān)聯(lián)信息如學(xué)術(shù)論文、科技報告和科技成果等。此外,項目承擔(dān)人和承擔(dān)單位等信息也能提供一定的線索,因此科技項目查重的一般過程將其概括為文本預(yù)處理、特征提取、模型構(gòu)建、相似度判別和模擬專家審核;
2、科技項目比對庫:
科技項目查重信息整合平臺要建立一套科技項目比對庫,包含近年來已有的科研項目導(dǎo)入;
3、科技項目比對文檔:
通常是網(wǎng)頁在線格式或PDF格式,報告上會體現(xiàn)與已有的科研項目相似的比例、重復(fù)的內(nèi)容、重復(fù)內(nèi)容的來源等。
3.處理過程
論文查重系統(tǒng)看起來比較簡單,其實需要強(qiáng)大的技術(shù)作為支撐,包括資源采集技術(shù),文本數(shù)據(jù)庫加工技術(shù),文本數(shù)據(jù)庫技術(shù), 數(shù)字資源版權(quán)保護(hù)技術(shù), 知識挖掘技術(shù), 自然語言處理技術(shù)、快速比對技術(shù)等。
1、預(yù)處理:
預(yù)處理是將科技項目的相關(guān)大數(shù)據(jù)信息處理為指定的規(guī)范格式,并對文本信息確定處理單元及進(jìn)行分詞或分句、去停用詞等。
2、特征提取:
特征提取是從預(yù)處理后的數(shù)據(jù)中挖掘出能全面/部分描述項目內(nèi)容且區(qū)別于其他項目的特征向量,一般由特征詞和權(quán)重組成,采用基于詞頻或 TFIDF 值的方法計算其權(quán)重,并在大數(shù)據(jù)挖掘和文本分析領(lǐng)域應(yīng)用基于 TextRank 和主題模型的方法。
3、模型構(gòu)建:
模型構(gòu)建是按照數(shù)據(jù)規(guī)劃方式對特征向量進(jìn)行整合,從而建立能準(zhǔn)確、全面描述項目內(nèi)容的模型。
4、相似度判別:
相似度判別是基于項目表示模型設(shè)計相似度判別函數(shù),從已有項目的數(shù)據(jù)庫中發(fā)現(xiàn)疑似項目的過程。
5、模擬專家審核:
重復(fù)對疑似項目進(jìn)行二次數(shù)據(jù)綜合分析和判斷,確定待查項目是否為重復(fù)項目并提供相關(guān)證據(jù)的過程。
4.結(jié)論
綜上所述,本文所提出的基于HTML的查重網(wǎng)站信息整合平臺能夠從多方面進(jìn)行數(shù)據(jù)采集,通過文本預(yù)處理、特征提取以及模型構(gòu)建及相似度判別,從而為查重網(wǎng)站信息整合平臺做出有力的數(shù)據(jù)支撐,為查重體系提供必要的參考。
參考文獻(xiàn):
[1]李善青,邢曉昭,杜圣梅.科技項目查重方法研究綜述[J].科技管理研究. 2018(06)
基金項目:本文為吉林農(nóng)業(yè)科技學(xué)院自然科學(xué)類科研項目,項目編號吉農(nóng)院合字第[校20190693]號。
(吉林農(nóng)業(yè)科技學(xué)院? 吉林? 132000)