廣西壯族自治區(qū)科學(xué)技術(shù)情報研究所 廣西 南寧 530023
目前,項目的重復(fù)檢測主要是采用萬方、知網(wǎng)、維普等檢測系統(tǒng),通過字符串匹配算法來計算待檢測的文件相對于文件庫中的目標(biāo)文件的相似比[1]。字符串匹配算法是以一段文字一致作為衡量內(nèi)容重復(fù)的標(biāo)準[2],然而,由于中文語言的復(fù)雜性和表達方式的多樣性,對于實質(zhì)內(nèi)容相同的兩段文字,往往會因為中間出現(xiàn)一些無意義的“停詞”或虛詞或者主謂賓順序不一致等情況,而將其錯誤地判斷為不屬于重復(fù)內(nèi)容,因此,采用現(xiàn)有技術(shù)中的字符串匹配算法可能會導(dǎo)致查全率和查準率不高。而且,字符串匹配算法對字符串的選取要求嚴格,算法本身復(fù)雜度較高,需要相對大的資源開銷和較長的計算時間,因此,查重的效率也不高。此外,近年來,隨著科技項目申報、學(xué)術(shù)論文和學(xué)位論文等的數(shù)量大幅增長,迫切需要查重結(jié)果準確、高效的文本數(shù)據(jù)查重的方法[3]。
本文基于科技項目查重的需求背景,開展了自動實現(xiàn)字段權(quán)重分配的科技項目查重方法研究?;谏疃葘W(xué)習(xí)算法自動實現(xiàn)字段權(quán)重分配的科技項目查重方法包括如下步驟:
步驟1:在目標(biāo)文件的指定字段中提取目標(biāo)文本,將所述目標(biāo)文本切分為關(guān)鍵詞;例如,選取目標(biāo)文件,指定字段設(shè)置為“技術(shù)內(nèi)容”,在目標(biāo)文件的“技術(shù)內(nèi)容”字段中提取了“應(yīng)用游戲引擎UDK技術(shù)將提取的特色元素虛擬化、數(shù)字化,利用三維建模Blender技術(shù)將虛擬化信息應(yīng)用于移動游戲端”的目標(biāo)文本,將目標(biāo)文本切分為“應(yīng)用/游戲/引擎/UDK/技術(shù)/將/提取/的/特色/元素/虛擬化/數(shù)字化/利用/三維/建模/Blender/技術(shù)/將/虛擬化/信息/應(yīng)用于/移動/游戲端/”多個關(guān)鍵詞;實施例中,指定字段還可以包括“標(biāo)題”、“負責(zé)人”、“承擔(dān)機構(gòu)”、“合作機構(gòu)”、“摘要”以及“正文”;在實施例中,將目標(biāo)文本切分為關(guān)鍵詞時,可以按照動詞、名詞、形容詞、副詞、介詞切分為關(guān)鍵詞,省略其他類型的關(guān)鍵詞;
步驟2:在數(shù)據(jù)庫中檢索含有單個關(guān)鍵詞的項目文件,設(shè)定關(guān)鍵詞的權(quán)重值;例如,在12564個項目文件的數(shù)據(jù)庫中檢索后,含“應(yīng)用”關(guān)鍵詞的項目文件9472個,含“游戲”關(guān)鍵詞的項目文件2761個,含“引擎”關(guān)鍵詞的項目文件958個,含“UDK”關(guān)鍵詞的項目文件8個,對項目文件個數(shù)進行歸一化處理y=x-8/(9472-8),結(jié)果得出:“應(yīng)用”為“1”,“游戲”為“0.29089”,“引擎”為“0.10038”,“UDK”為“0.00085”;
步驟3:利用神經(jīng)網(wǎng)絡(luò)組建權(quán)重評估器對含有關(guān)鍵詞的待查文件進行評估,權(quán)重評估器輸出待查文件的相關(guān)度,根據(jù)權(quán)重評估器的輸出結(jié)果進行排序;如:權(quán)重評估器的輸出結(jié)果為:待查文件1的相關(guān)度為0.913,待查文件2的相關(guān)度為0.762,待查文件3的相關(guān)度為0.913,待查文件4的相關(guān)度為0.206,待查文件5的相關(guān)度為0.050,待查文件6的相關(guān)度為0;因此,排序為待查文件1>待查文件3>待查文件2>待查文件4>待查文件5>待查文件6。
獲取關(guān)鍵詞的權(quán)重值,選取六篇待查文件作為訓(xùn)練樣本,其中三篇待查文件與目標(biāo)文件相關(guān),其他三篇待查文件與目標(biāo)文件不相關(guān),將相關(guān)的待查文件賦值為1,不相關(guān)的待查文件賦值為0;
獲取六篇待查文件含有的關(guān)鍵詞,根據(jù)相關(guān)性輸入神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,如表1所示;
表1 神經(jīng)網(wǎng)絡(luò)樣本訓(xùn)練表
從表1可以獲得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集,輸入為關(guān)鍵詞權(quán)重值P=[0,0.29089,0.10038,0.00085;0,0.29089,0.10038,0;0,0,0.10038,0.00085;1,0.29089,0,0;0,0,0,0],輸出為相關(guān)性S0=[1,1,1,0,0,0];將以上樣本集代入式(1)的徑向基神經(jīng)網(wǎng)絡(luò)進行擬合訓(xùn)練,擬合訓(xùn)練可獲得具有關(guān)鍵詞特性的權(quán)重評估器,如式(1)所示;
式(1)中,||P-c i||為輸入量P與神經(jīng)網(wǎng)絡(luò)權(quán)量c i的歐式距離,w i為神經(jīng)網(wǎng)絡(luò)隱層到輸出層之間的權(quán)量,w i=[w1w2w3w4w5w6]T=[0.050 0.315 0.465 0.585 0.835 0.975],c i=[c1c2c3c4c5c6]T=[0.3050 0.4528 0.6238 0.8029 0.9763]。
待訓(xùn)練完成后,神經(jīng)網(wǎng)絡(luò)組建的權(quán)重評估器可以根據(jù)關(guān)鍵詞的權(quán)重值P輸出該待查文件的相關(guān)度S0的值,如表2所示;
表2 待查文件的相關(guān)度
根據(jù)S0進行待查文件的相關(guān)度排序,如表2所示。
步驟4:選取相關(guān)度最高的待查文件,在待查文件的指定字段中提取比對文本;如:選取待查文件1,提取比對文本如下:“利用UDK虛幻引擎畫刷制作游戲四面墻,然后利用UDK虛幻引擎進行初始游戲的基礎(chǔ)添加,通過四面墻的添加以及貼圖的附加,場景的初步搭建。在其中添加一些隔斷墻,并適當(dāng)?shù)奶砑右恍艄?給其符合場景的顏色,給一些比較暗的地方添加Sport Light,場景中只有墻體閉塞,可以適當(dāng)?shù)膭?chuàng)建天窗,并附上材質(zhì)”;
步驟5:將所述目標(biāo)文本與所述比對文本進行字母化,建立比對矩陣,在比對矩陣中查找滿足相似字符串條件的子矩陣;
步驟6:根據(jù)子矩陣的規(guī)模計算所述目標(biāo)文本與所述比對文本的相似度,
計算比對文本的相似度的公式如下:
其中,BFB表示章節(jié)相似比,TXTLEN表示比對文本長度,n是比對文本中關(guān)鍵字的個數(shù),KEYLEN表示關(guān)鍵字的長度(即查找出的相似片度的長度)。該方法利用神經(jīng)網(wǎng)絡(luò)對相關(guān)樣本進行學(xué)習(xí)訓(xùn)練,訓(xùn)練完成后能夠高效、快速地完成文件相似性比對(查重)的任務(wù)。
本研究提供了一種基于深度學(xué)習(xí)算法自動實現(xiàn)字段權(quán)重分配的科技項目查重方法,包括:在目標(biāo)文件的指定字段中提取目標(biāo)文本,將所述目標(biāo)文本切分為關(guān)鍵詞;在數(shù)據(jù)庫中檢索含有單個關(guān)鍵詞的待查文件,設(shè)定關(guān)鍵詞的權(quán)重值;利用神經(jīng)網(wǎng)絡(luò)組建權(quán)重評估器對含有關(guān)鍵詞的待查文件進行評估和排序;選取相關(guān)度最高的待查文件,在待查文件的指定字段中提取比對文本;建立比對矩陣,根據(jù)子矩陣的規(guī)模計算所述目標(biāo)文本與所述比對文本的相似度;該方法利用神經(jīng)網(wǎng)絡(luò)對相關(guān)樣本進行學(xué)習(xí)訓(xùn)練,訓(xùn)練完成后能夠高效、快速地完成文件相似性比對(查重)的任務(wù)。
科技項目重復(fù)立項問題會造成國家資助科技項目的資金浪費,同時損害科研精神,對科技創(chuàng)新造成較大的危害。本研究對大數(shù)據(jù)環(huán)境下的科技項目查重技術(shù)進行了研究,提出了自動實現(xiàn)字段權(quán)重分配的科技項目查重方法,此類科技項目查重技術(shù)的研究,將使大數(shù)據(jù)技術(shù)在科技項目查重中得到更好的利用,輔助科技項目查的重高質(zhì)高效完成。