蒙 杰 楊生舉 施韶亭
(甘肅省科學(xué)技術(shù)情報(bào)研究所甘肅省科技評價監(jiān)測重點(diǎn)實(shí)驗(yàn)室 甘肅 蘭州 730000)
?
基于文本挖掘的科研項(xiàng)目管理輔助決策系統(tǒng)研究與實(shí)現(xiàn)
蒙杰楊生舉施韶亭
(甘肅省科學(xué)技術(shù)情報(bào)研究所甘肅省科技評價監(jiān)測重點(diǎn)實(shí)驗(yàn)室甘肅 蘭州 730000)
針對科研項(xiàng)目管理中重復(fù)申報(bào)、重復(fù)立項(xiàng)和項(xiàng)目與評審專家匹配性等問題,通過文獻(xiàn)分析法深入分析科研項(xiàng)目管理輔助決策研究現(xiàn)狀,提出一種基于文本挖掘的科研項(xiàng)目管理輔助決策解決方案。采用ICTCLAS分詞技術(shù)、改進(jìn)的TF-IDF算法和余弦相似性算法等綜合技術(shù),確定科研項(xiàng)目之間的相似性、項(xiàng)目和專家之間的匹配性,為科研項(xiàng)目管理提供可靠的決策支持。詳細(xì)介紹系統(tǒng)的總體架構(gòu)、關(guān)鍵技術(shù)和關(guān)鍵步驟。該解決方案在甘肅科技計(jì)劃項(xiàng)目管理中的應(yīng)用,有效解決了科研項(xiàng)目重復(fù)申報(bào)、重復(fù)立項(xiàng)和項(xiàng)目與專家匹配性等問題,提高了科研項(xiàng)目管理水平和科研資金使用效益。
科研項(xiàng)目管理輔助決策系統(tǒng)文本挖掘相似性分析
近年來,國家財(cái)政大力支持科技創(chuàng)新,積極實(shí)施創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略,科技事業(yè)得到快速發(fā)展,涌現(xiàn)出一系列重大科技成果。如:載人航天、嫦娥登月工程、蛟龍?zhí)柹詈]d人潛水器、天河系列高性能計(jì)算機(jī)、雜交水稻技術(shù)、人類基因組研究、第四代移動通訊、集成電路裝備、高速鐵路等一批重大技術(shù)實(shí)現(xiàn)跨越式發(fā)展。隨著科技經(jīng)費(fèi)投入的持續(xù)增加,科研項(xiàng)目的申報(bào)數(shù)量也大幅增長,隨之而來的問題是,科研項(xiàng)目重復(fù)申報(bào)、重復(fù)立項(xiàng)、相近似研究等現(xiàn)象日趨嚴(yán)重。一些科研項(xiàng)目申報(bào)單位或申請者缺乏誠信,或者對科研項(xiàng)目的研究現(xiàn)狀和創(chuàng)新性分析不足,以相同或相近似的研究內(nèi)容重復(fù)申報(bào)科研項(xiàng)目,嚴(yán)重影響了科技資源與經(jīng)費(fèi)的合理配置,阻礙了科技進(jìn)步和社會發(fā)展。
近年來,科研項(xiàng)目重復(fù)申報(bào)、重復(fù)立項(xiàng)的問題得到科技管理部門和學(xué)術(shù)界的關(guān)注和重視,國內(nèi)學(xué)者分別從科技評估、分析預(yù)警、查新查重等幾個方面對科研項(xiàng)目管理輔助決策手段進(jìn)行了研究,以輔助科技管理部門科學(xué)管理科研項(xiàng)目,從而使高質(zhì)量高水平的科研項(xiàng)目優(yōu)先得到資助,有效提高科技投入的效率。文獻(xiàn)[1]提出借鑒美日等發(fā)達(dá)國家科技評估的成功經(jīng)驗(yàn),引入第三方評估機(jī)構(gòu),選用合適的評估方法對科研項(xiàng)目進(jìn)行事前、事中、事后和跟蹤評估,并及時將評估意見反饋給項(xiàng)目申請者,然而科技評估周期長、成本高,對新申報(bào)的大批量項(xiàng)目進(jìn)行事前評估并不可行;文獻(xiàn)[2]以輔助決策模型為研究對象,以項(xiàng)目管理過程中積累的大量科研、財(cái)務(wù)、人事等基礎(chǔ)數(shù)據(jù)為依托,提供了數(shù)據(jù)統(tǒng)計(jì)查詢,態(tài)勢分析、分析預(yù)警等三個級別的決策支持功能,為科技管理部門掌握科研動態(tài)、科研活動趨勢提供了支撐,不足之處是不能對項(xiàng)目重復(fù)申報(bào)、重復(fù)立項(xiàng)做出及時有效的監(jiān)測和預(yù)警;文獻(xiàn)[3]提出依靠科技查新結(jié)構(gòu)查重的方式,一定程度上可以減少科研項(xiàng)目的重復(fù)立項(xiàng),但是查新工作量大、時間緊,“查全率”和“查準(zhǔn)率”也受到多種因素的影響,難以有效地解決科研項(xiàng)目重復(fù)立項(xiàng)和相近似研究等問題。
借鑒國內(nèi)外現(xiàn)有科研項(xiàng)目管理輔助決策手段的成功經(jīng)驗(yàn),本文運(yùn)用文本挖掘等相關(guān)信息技術(shù),設(shè)計(jì)和實(shí)現(xiàn)了基于文本挖掘的科研項(xiàng)目管理輔助決策系統(tǒng)。通過綜合分析科研項(xiàng)目之間的相似性、項(xiàng)目與評審專家之間的匹配性,為科技管理部門科學(xué)管理提供決策支持,有效地提高科研項(xiàng)目的管理水平和實(shí)施績效。
該系統(tǒng)以科技計(jì)劃管理系統(tǒng)[4]和專家信息管理系統(tǒng)積累的大量半結(jié)構(gòu)化或非結(jié)構(gòu)化科研項(xiàng)目和專家信息為支撐,遵循簡單性、適應(yīng)性、一致性、可靠性和經(jīng)濟(jì)性的設(shè)計(jì)原則[5],采用自頂向下、逐步分解的方法,將系統(tǒng)分解為數(shù)據(jù)抽取、數(shù)據(jù)分析、數(shù)據(jù)展示三大子系統(tǒng)。系統(tǒng)功能結(jié)構(gòu)如圖1所示。
圖1 系統(tǒng)功能結(jié)構(gòu)圖
2.1數(shù)據(jù)抽取子系統(tǒng)
數(shù)據(jù)抽取子系統(tǒng)主要包括項(xiàng)目文本抽取、分詞和特征項(xiàng)選取三個功能模塊。
文本抽取模塊利用數(shù)據(jù)庫相關(guān)技術(shù),從科技計(jì)劃管理系統(tǒng)和專家信息管理系統(tǒng)數(shù)據(jù)庫中,批量抽取項(xiàng)目名稱、項(xiàng)目簡介、項(xiàng)目研究的科學(xué)依據(jù)和意義、項(xiàng)目主要研究內(nèi)容、項(xiàng)目研究方法、項(xiàng)目考核指標(biāo)、項(xiàng)目關(guān)鍵詞、專家簡介、技術(shù)職稱、所學(xué)專業(yè)、熟悉學(xué)科、技術(shù)領(lǐng)域、專家學(xué)術(shù)專長和研究方向等文本數(shù)據(jù),并采用一定的正則規(guī)則對抽取的數(shù)據(jù)進(jìn)行清洗和規(guī)范處理,形成該系統(tǒng)的基礎(chǔ)數(shù)據(jù)庫。
文本分詞模塊采用漢語詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),將從不同角度表達(dá)科研項(xiàng)目信息和專家信息的漢字序列,分解成為能夠獨(dú)立運(yùn)用的最小語言單位即詞。
特征項(xiàng)選取模塊首先對文本分詞結(jié)果進(jìn)行去除停用詞處理,然后采用TF-IDF算法分別計(jì)算詞在文本中的權(quán)重,根據(jù)詞在文本中的重要程度,選取一定數(shù)量的詞形成一個能準(zhǔn)確表達(dá)科研項(xiàng)目信息和專家信息的文本特征子集。
2.2數(shù)據(jù)分析子系統(tǒng)
數(shù)據(jù)分析子系統(tǒng)包括項(xiàng)目相似性分析、項(xiàng)目分組、項(xiàng)目-專家匹配性分析三個功能模塊。
項(xiàng)目相似性分析模塊運(yùn)用余弦相似性算法,分別計(jì)算一項(xiàng)目與其他項(xiàng)目的項(xiàng)目名稱、簡介、科學(xué)依據(jù)和意義、主要研究內(nèi)容、研究方法、考核指標(biāo)等多個角度的相似性,根據(jù)表達(dá)項(xiàng)目信息的重要性不同,對其賦予相應(yīng)的權(quán)重進(jìn)行加權(quán)平均,得出該項(xiàng)目與其他項(xiàng)目的綜合相似性。
項(xiàng)目分組模塊依據(jù)項(xiàng)目相似性分析結(jié)果,將研究方向相近科研項(xiàng)目歸類到同一分組中。在項(xiàng)目評審時,將同一分組的項(xiàng)目分配給同一批評審專家,保證評審結(jié)果公平、公正。
項(xiàng)目-專家匹配性分析模塊通過對項(xiàng)目信息和專家信息進(jìn)行相似性分析,自動遴選出與項(xiàng)目研究內(nèi)容最相符的評審專家,使項(xiàng)目按照細(xì)化專業(yè)精確地分配到省內(nèi)外同行專家手中,提高項(xiàng)目評審的科學(xué)性、合理性。
2.3數(shù)據(jù)展示子系統(tǒng)
數(shù)據(jù)展示子系統(tǒng)包括項(xiàng)目相似性展示,科研合作關(guān)系分析,項(xiàng)目組人員科研動態(tài)分析三個功能模塊。
項(xiàng)目相似性展示模塊采用餅狀圖直觀地顯示出一項(xiàng)目與其他項(xiàng)目相似性的大小,點(diǎn)擊餅狀圖可查看相似項(xiàng)目內(nèi)容的具體比對,并將高相似項(xiàng)目向社會公開,發(fā)揮督導(dǎo)警示作用。
科研合作關(guān)系分析模塊運(yùn)用社會網(wǎng)絡(luò)圖形象地描繪出項(xiàng)目申請者的科研合作情況,包括合作的科研項(xiàng)目和科研人員,幫助科技管理部門理清科研合作關(guān)系,有助于加強(qiáng)科研合作交流,實(shí)現(xiàn)科研資源共享。
項(xiàng)目組人員科研動態(tài)分析模塊羅列出項(xiàng)目組人員的科研動態(tài),用紅色字體醒目的顯示出項(xiàng)目組人員參與的未按期結(jié)題的項(xiàng)目,輔助科技管理部門掌握項(xiàng)目組人員的科研活躍度和科研誠信,在項(xiàng)目立項(xiàng)時合理分配,保證科研任務(wù)順利實(shí)施。
3.1主題詞表建立
將北京大學(xué)計(jì)算語言學(xué)研究所加工的語料庫和科技計(jì)劃管理系統(tǒng)數(shù)據(jù)庫中的項(xiàng)目關(guān)鍵詞結(jié)合起來,并加入新術(shù)語、含字母詞語等科研領(lǐng)域?qū)I(yè)術(shù)語[6],形成科研領(lǐng)域?qū)I(yè)語料庫,使科研項(xiàng)目信息和評審專家信息的文本分詞更加準(zhǔn)確。
3.2文本信息分詞
該系統(tǒng)基于ICTCLAS分詞技術(shù)[7]對科研項(xiàng)目信息和評審專家信息進(jìn)行文本切分。ICTCLAS分詞技術(shù)基于層疊隱馬爾可夫模型CHMM(cascaded hidden Markov model),將未登錄詞識別、排歧、分詞等過程有機(jī)地融合到一個統(tǒng)一的理論模型當(dāng)中。應(yīng)用結(jié)果證明ICTCLAS具有良好的分詞效果。
3.3文本特征項(xiàng)選取
系統(tǒng)采用張瑾提出的基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法[8]對科研項(xiàng)目信息和評審專家信息進(jìn)行文本特征項(xiàng)選取。首先對文本向量進(jìn)行粗降維,然后采用TF-IDF的改進(jìn)算法對每一個特征項(xiàng)進(jìn)行評估,按照評估分?jǐn)?shù)從高到低排序后,選取評估分?jǐn)?shù)高于設(shè)定閾值的特征項(xiàng),形成項(xiàng)目信息和評審專家信息的文本特征向量?;赥F-IDF的改進(jìn)加權(quán)公式如式(1)所示:
(1)
其中fij為詞語i在文檔f中出現(xiàn)的頻率,N為文檔總數(shù),Ni為文檔中出現(xiàn)詞語i的文檔數(shù),β為一個經(jīng)驗(yàn)值,一般取0.01,li表示詞語i出現(xiàn)的段數(shù),L表示總段落數(shù)。
算法的迭代過程描述如下:
Step1輸入文檔集D={d1,d2,…,dn}、文檔di對應(yīng)的文本候選特征集Ti={t1,t2,…,tn};
Step2統(tǒng)計(jì)詞語ti在文檔di中出現(xiàn)的頻率fi,并進(jìn)行歸一化處理,防止偏向長文檔;
Step3計(jì)算詞語ti在文檔集D中逆文本頻率idf;
Step5使用式(1)計(jì)算詞語ti的TF-IDF權(quán)值Wi;
Step7重復(fù)Step1-Step6,直到文檔集D中所有文檔的文本特征項(xiàng)選取完畢。
3.4相似度計(jì)算
(2)
余弦夾角的取值范圍為[-1,1],由于文本特征項(xiàng)的詞頻不為負(fù),所以兩個文本向量余弦夾角的取值范圍為[0,1]。余弦夾角為1表示兩個文本向量完全匹配,余弦夾角為0表示兩個文本向量相互獨(dú)立,在0和1之間表示不同程度的相似。
算法的迭代過程描述如下:
Step1輸入文檔di特征項(xiàng)的詞頻向量Fi={fi1,fi2,…,fin}(詞頻向量經(jīng)過歸一化處理,防止偏向長文檔)、待比較文檔dj特征項(xiàng)的詞頻向量Fj={fi1,fj2,…,fjn};
Step3重復(fù)Step1-Step2,直到文檔di與其他待比較文檔的余弦相似性計(jì)算完畢;
Step4重復(fù)Step1-Step3,直到文檔集D中所有文檔與其他待比較文檔的余弦相似性計(jì)算完畢。
以該系統(tǒng)在甘肅省科技廳科技計(jì)劃項(xiàng)目管理中的應(yīng)用為例,系統(tǒng)對2014年新申報(bào)的3443個科研項(xiàng)目進(jìn)行綜合分析,篩選出高度相似(相似度大于等于60%)的117個項(xiàng)目。其中同一申請者重復(fù)申報(bào)項(xiàng)目43項(xiàng),同一申報(bào)單位重復(fù)申報(bào)項(xiàng)目54項(xiàng),其他重復(fù)申報(bào)項(xiàng)目20項(xiàng)。高度相似項(xiàng)目主要是項(xiàng)目申請者對本單位或本人已立項(xiàng)的項(xiàng)目稍作改動,進(jìn)行重復(fù)申報(bào),有些項(xiàng)目盡管名稱不同,但項(xiàng)目研究內(nèi)容和研究方法卻類同或相近似。系統(tǒng)按項(xiàng)目相似性降序排列界面如圖2所示。
圖2 項(xiàng)目相似性降序排列界面效果圖
甘肅省科技廳依據(jù)系統(tǒng)的項(xiàng)目相似性分析結(jié)果,建立了科研誠信檔案,對重復(fù)申報(bào)項(xiàng)目的單位或個人進(jìn)行警告并取消本年度項(xiàng)目申報(bào)資格,對其以后年度申報(bào)的項(xiàng)目予以重點(diǎn)審查。采取該措施后,2015年度甘肅科研項(xiàng)目重復(fù)申報(bào)數(shù)量大幅減少,極大地提高了科研項(xiàng)目的申報(bào)質(zhì)量。
表1、表2、表3列出了系統(tǒng)對甘肅2014年度新申報(bào)科研項(xiàng)目查重分析的部分結(jié)果。
表1 同一申請者新申報(bào)項(xiàng)目與已立項(xiàng)項(xiàng)目相似性分析結(jié)果
表1是同一申請者重復(fù)申報(bào)已立項(xiàng)項(xiàng)目的案例中5個相似度最高的項(xiàng)目。這5個新申報(bào)項(xiàng)目的項(xiàng)目名稱是對已立項(xiàng)項(xiàng)目的項(xiàng)目名稱稍作改動,項(xiàng)目申報(bào)書中的內(nèi)容也基本相同或相近似。
表2 同一申報(bào)單位新申報(bào)項(xiàng)目與已立項(xiàng)項(xiàng)目相似性分析結(jié)果
表2是同一申報(bào)單位重復(fù)申報(bào)已立項(xiàng)項(xiàng)目案例中相似度最高的5個項(xiàng)目。通過對全部新申報(bào)項(xiàng)目相似性分析結(jié)果統(tǒng)計(jì)得知,同一單位重復(fù)申報(bào)項(xiàng)目占全部重復(fù)申報(bào)項(xiàng)目的46%,占的比重最大。
表3記錄了除同一申請者和同一單位的重復(fù)或相近似項(xiàng)目,這種情況主要是項(xiàng)目申請者對新申報(bào)項(xiàng)目的研究現(xiàn)狀或創(chuàng)新性分析不足,而出現(xiàn)與已立項(xiàng)項(xiàng)目研究內(nèi)容相近似的現(xiàn)象。
表3 新申報(bào)項(xiàng)目與已立項(xiàng)項(xiàng)目相似性分析結(jié)果(不包括同一申請者和同一單位的項(xiàng)目)
本文在深入研究自然語言處理、文本相似度計(jì)算等文本挖掘相關(guān)技術(shù)的基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)了基于文本挖掘的科研項(xiàng)目管理輔助決策系統(tǒng),實(shí)現(xiàn)了對科研項(xiàng)目申請書相似性綜合分析和項(xiàng)目-評審專家匹配性分析,為科研項(xiàng)目科學(xué)立項(xiàng)提供了可靠的決策依據(jù)。該系統(tǒng)已在甘肅省科技廳投入運(yùn)行,有效解決了科研項(xiàng)目重復(fù)申報(bào)、重復(fù)立項(xiàng)和相近似研究等問題,同時極大地減少了人工查重查新的工作量,提高了科研項(xiàng)目管理水平和科研資金使用效益。同時有助于形成嚴(yán)謹(jǐn)?shù)目蒲凶黠L(fēng),營造良好的創(chuàng)新環(huán)境。
目前系統(tǒng)仍有不足之處,如某些新申報(bào)項(xiàng)目是申請者在之前科研項(xiàng)目基礎(chǔ)上做更深層次的研究,若系統(tǒng)對項(xiàng)目文本分詞和文本特征項(xiàng)抽取不精確,則導(dǎo)致新申報(bào)項(xiàng)目和已立項(xiàng)項(xiàng)目相似度分析值較高,但實(shí)際并非重復(fù)申報(bào)或相近似研究。而如何進(jìn)一步提高科研領(lǐng)域文本分詞和文本抽取的準(zhǔn)確性,都將成為本文下一步的重點(diǎn)研究工作。
[1] 楊洪濤,左舒文.國外科技評估發(fā)展新趨勢及對上海的啟示[J].科技管理研究,2014(22):15-17.
[2] 李建平,及俊川,吳登生,等.科研管理輔助決策模型研究:以ARP為例[J].科技促進(jìn)發(fā)展,2012(10):18-22.
[3] 劉蔭明,張???劉謙.淺析科研管理之避免重復(fù)立項(xiàng)[J].科技管理研究,2010(21):198-200.
[4] Shengju Yang, Shaoting Shi, Jie Meng. Research and Safety Design on The Scientific Resarch Project Management System Based on J2EE[J]. Mechanical.Electronic and Information Technology Engineering, 2015, 743:633-640.
[5] 楊生舉,趙昕暉.基于PHP+XML的人才信息管理系統(tǒng)實(shí)現(xiàn)與安全設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(2):221-223,257.
[6] 姜韶華.科研項(xiàng)目管理中的文本挖掘方法研究及應(yīng)用[D].大連:大連理工大學(xué),2006:63-68.
[7] 劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計(jì)算機(jī)研究與發(fā)展, 2004,41(8):1421-1428.
[8] 張瑾.基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法[J].情報(bào)雜志, 2014,33(4):153-155.
[9] 施侃晟,劉海濤,白英彩,等.余弦度量和適應(yīng)度函數(shù)改進(jìn)的聚類方法[J].電子科技大學(xué)學(xué)報(bào),2013,42(4):621-624.
STUDY AND IMPLEMENTATION OF TEXT MINING-BASED ASSISTANT DECISION SUPPORT SYSTEM FOR SCIENTIFIC RESEARCH PROJECT MANAGEMENT
Meng JieYang ShengjuShi Shaoting
(Institute of Scientific and Technical Information of Gansu,Key Laboratory of Scientific and Technical EvaluationandMonitoringofGansu,Lanzhou730000,Gansu,China)
To solve the problems in scientific research project management including repetitive project declarations and approvals as well as matching the projects and assessment experts, by in-depth analysis of current status quo of assistant decision support for scientific research project management with literature analysis method, we presented a text mining-based solution of assistant decision support for scientific research project management. It adopts the ICTCLAS Chinese partition technology, the improved TF-IDF algorithm and the cosine correlation algorithm to determine the similarity between scientific research projects, the matching between projects and experts, and provides reliable decision support for scientific research project management. The paper introduces in detail the general system framework, key technologies and the system actualisation key steps. The solution has been applied in scientific research project management of Gansu province, and efficiently solves the problems listed above, raises the level of scientific research project management and the benefit of the use of scientific research funds.
Scientific research project managementAssistant decision support systemText miningSimilarity analysing
2015-06-24。甘肅省青年科技基金計(jì)劃項(xiàng)目(1308R JYA100);甘肅省科技支撐計(jì)劃項(xiàng)目(1304GKCA035)。蒙杰,工程師,主研領(lǐng)域:數(shù)據(jù)挖掘。楊生舉,副研究員。施韶亭,研究員。
TP315
A
10.3969/j.issn.1000-386x.2016.09.006