焦文 魏海燕 石英 魯萱萱
摘 要 在企業(yè)和機構(gòu)內(nèi)部,科技項目查重能夠避免科技資源浪費、惡性科研競爭等重復(fù)立項帶來的問題。本文提出基于行業(yè)詞庫預(yù)訓練的科研項目查重方法研究,以申報材料中的關(guān)鍵指標為研究對象,對其段落、句子、詞等不同級別構(gòu)建相似度比較模型,采用Elasticsearch數(shù)據(jù)庫實現(xiàn)海量數(shù)據(jù)的快速索引。有效提高立項審批過程中工作效率,節(jié)約科研成本。
關(guān)鍵詞 科技項目查重;相似度計算;文檔結(jié)構(gòu)化;自然語言處理技術(shù)
1研究背景
國務(wù)院發(fā)布的“加快實施創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略”,全國各級政府、企業(yè)、機構(gòu)積極號召??萍柬椖康耐度氲目傮w趨勢在逐年擴大,科技項目的研究領(lǐng)域在逐年優(yōu)化,于是各單位的需求數(shù)量及最終形成的科技項目的數(shù)量逐年在增加。一直以來,科技管理人員采用的是人工提取關(guān)鍵詞或重點研究內(nèi)容比照已研或在研科技項目的歷史資料進行科技項目查重的模式。這種查重模式對于科技管理人員的專業(yè)技術(shù)水平要求較高,且存在查詢效率低以及查重遺漏的問題。
針對科技項目查重,部分企業(yè)和科研人員也進行了相應(yīng)的研究,但總體效果不明顯的主要原因在于:
(1)項目信息公開、共享和整合程度較低[1]。項目相似性判別方法單一[1]。近年來的相似度判別局限于針對立項材料進行比較,忽視了立項申報中關(guān)鍵指標之間的聯(lián)系。
(2)針對特定領(lǐng)域的項目查重難以滿足需求。
(3)通過文獻調(diào)研發(fā)現(xiàn),國內(nèi)許多學者對長文本查重有一定的研究。姜雪[2]利用長文本的局部敏感特性使用simhash算法來計算相似度,李成龍[3]和楊東菊[3]等人采用先分詞再轉(zhuǎn)換為向量空間模型(VSM:Vector Space Model)的方法進行計算,當前通用的相似度判別模型為:simhash[2]、TF-IDF[4]等,喬偉濤[5]、初雅莉[6]等在語義編碼上進行了相應(yīng)的研究。在實際應(yīng)用中,能夠很好地對部分科技文檔進行篩選和查重,但是在針對逐年細化的研究領(lǐng)域表現(xiàn)效果不佳。
針對上述所提及的逐年細化領(lǐng)域分類的科技文檔查重存在欠擬合等問題,本文以企業(yè)的實際數(shù)據(jù)作為研究樣本,提出一種基于行業(yè)詞庫預(yù)訓練的科技項目查重方法。首先對立項材料進行長文本的解析和抽取,抽取立項材料中關(guān)鍵指標作為原始數(shù)據(jù),利用雙向LSTM和JIEBA分詞等方法對長文本做預(yù)處理存入Elasticsearch數(shù)據(jù)庫,在特征提取階段采用關(guān)鍵詞提取、摘要分析為輔,利用基于ALBERT的余弦距離算法模型、TD-IDF算法模型、simhash算法模型、編輯距離相似度模型四種無監(jiān)督學習算法同時對相似片段進行計算,針對短文本、長文本進行加權(quán)計算得出相似度??紤]到在實際立項過程中,立項文檔的研究背景不應(yīng)作為判斷科技項目重復(fù)的主要原因,而是聚焦在研究內(nèi)容、研究方法、成果物的描述上,我們采用人工標注為輔的有監(jiān)督的方法對上述的計算結(jié)果進行校準,最后得出相似度結(jié)果。
2系統(tǒng)流程
查重平臺的流程如圖1所示。主要分為文檔解析和抽取、行業(yè)詞庫構(gòu)建、文本特征提取、相似度判別、人工標注分類幾個步驟。
查重技術(shù)流程圖如圖1所示,梳理歷史科技立項文檔資料,對文檔模板進行解析,構(gòu)建行業(yè)領(lǐng)域知識庫,專業(yè)詞匯和高質(zhì)量文檔查重指標項作為知識抽取的數(shù)據(jù)支撐。對文檔做結(jié)構(gòu)化處理,提取有價值的查重指標關(guān)鍵段落,對其進行分詞、去停用詞、特殊符號處理等預(yù)處理操作,對有價值的章節(jié)進行基于行業(yè)詞庫的關(guān)鍵詞提取、實體提取、摘要提取、句法分析等語義關(guān)系抽取,通過大規(guī)模的預(yù)訓練的深度學習模型和基于ALBERT的余弦相似度模型、TD-IDF、simhash、編輯距離,輸出對比文檔的各項分析結(jié)果,同時引入相似度質(zhì)量評估,人工對相似要素的分析結(jié)果進行標注,對每一指標項的相似度分析結(jié)果進行正確和錯誤的標注。最后綜合結(jié)構(gòu)化的相似度得分,估算出文檔的綜合相似度,為科技立項文檔相似對比提供參考依據(jù)。
2.1 數(shù)據(jù)整合和結(jié)構(gòu)化
在科技項目立項過程中,項目申報人會填報其基本信息、立項申請文檔、立項論證文檔、立項任務(wù)文檔以及最后項目驗收文檔這四類文檔?;拘畔ǎ喉椖棵Q、立項年度、承擔人及所屬單位。本文整合了15年以來的某企業(yè)立項文檔作為原始數(shù)據(jù),對不同的模板進行了結(jié)構(gòu)化梳理,總結(jié)關(guān)鍵指標信息:項目名稱、研究目標、研究內(nèi)容、技術(shù)指標、創(chuàng)新點及成果。通過機器學習和人工標注的方式將大量科技項目資料文檔進行解析、抽取存入Elasticsearch數(shù)據(jù)庫作為知識抽取的依據(jù)。
2.2 行業(yè)詞庫構(gòu)建
陶善菊[7]在文獻中提出:行業(yè)詞庫就是經(jīng)過規(guī)范化處理的主題詞及其之間的關(guān)系所構(gòu)成的詞典。行業(yè)詞庫通常包括兩個部分:詞庫和關(guān)系庫,詞庫用于存儲主題詞,關(guān)系庫則用于存儲主題詞間的各種關(guān)系。主題詞可以是行業(yè)的專業(yè)詞匯、技術(shù)名詞、產(chǎn)品名詞、機構(gòu)名稱、人名等,關(guān)系可以包含同義詞、縮略語、英文簡稱、行業(yè)分類等。行業(yè)詞庫中描述的主題詞之間的語義關(guān)系可以起到知識關(guān)聯(lián)計算和相似度計算的作用。行業(yè)詞庫構(gòu)建步驟具體如下:
(1)確定行業(yè)邊界。對立項文檔進行分類,梳理結(jié)構(gòu)體系,確定行業(yè)邊界和領(lǐng)域劃分。
(2)構(gòu)建新詞發(fā)現(xiàn)。通過機器學習的詞向量模型和聚類算法發(fā)現(xiàn)行業(yè)領(lǐng)域的專業(yè)詞匯。
(3)組織專家篩選。組織行業(yè)專家對已發(fā)現(xiàn)行業(yè)詞匯、各維度對應(yīng)的同義詞和排除詞,進行校正。
2.3 查重模型構(gòu)建
相似度判別模型一般用于文本查重、文本快速索引構(gòu)建,用來計算文本之間的語義相似程度。相似度判別模型主要是通過機器學習將文本向量化,計算兩個向量之間相似度從而得出文本相似程度。本文提出的相似度判別模型主要基于行業(yè)詞庫預(yù)訓練的四類無監(jiān)督模型和分類模型共同計算并輸出結(jié)果。
(1)TF-IDF模型
TF-IDF(詞頻-逆向文件頻率)是一種用于信息檢索與文本挖掘的常用加權(quán)統(tǒng)計方法。理論依據(jù)為以字、詞在文檔出現(xiàn)的頻率來決定其重要性,但同時隨著它在語料庫中出現(xiàn)的頻率成反比下降。