鮮國建 羅婷婷 趙瑞雪 張建勇 楊增秀
(1. 中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2. 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點實驗室,北京 100081;3. 中國科學(xué)院文獻情報中心,北京 100190;4. 機械工業(yè)信息研究院,北京 100037)
NSTL自2000年成立以來,始終按照“統(tǒng)一采購、規(guī)范加工、聯(lián)合上網(wǎng)、資源共享”的機制,采集、收藏和開發(fā)理、工、農(nóng)、醫(yī)各學(xué)科領(lǐng)域的科技文獻資源,是面向全國提供公益、普惠的科技文獻信息服務(wù)的機構(gòu)[1]。隨著數(shù)字科技文獻的大量出現(xiàn)、開放獲取資源快速發(fā)展和用戶對知識服務(wù)需求的日益增長,近年來NSTL大力推進由成立之初的傳統(tǒng)外文文獻信息保障服務(wù)向新時期新型泛在知識發(fā)現(xiàn)服務(wù)的戰(zhàn)略轉(zhuǎn)型。為此,NSTL數(shù)據(jù)庫建設(shè)模式也隨之發(fā)生轉(zhuǎn)變。本文以期刊文獻為例,介紹NSTL文摘數(shù)據(jù)加工模式發(fā)展脈絡(luò)和近十年文摘數(shù)據(jù)加工利用的情況,并重點闡述“多源異構(gòu)數(shù)據(jù)深度融合利用”模式的構(gòu)建,以期為實現(xiàn)多源異構(gòu)數(shù)據(jù)的集成管理,提升數(shù)據(jù)組織管理能力,消除“數(shù)據(jù)孤島”,挖掘數(shù)據(jù)的潛在價值[2]提供參考借鑒。
NSTL文摘數(shù)據(jù)加工業(yè)務(wù)伴隨NSTL的誕生而誕生,伴隨NSTL的發(fā)展而發(fā)展,是NSTL科技文獻信息資源與服務(wù)體系建設(shè)的核心業(yè)務(wù)單元,對于促進文獻信息資源的開發(fā)利用具有非常重要的意義[3]。20年來,NSTL數(shù)據(jù)加工組組織9家成員單位,本著“統(tǒng)一標準、分布加工、集中建庫、分布服務(wù)”的原則持續(xù)開展科技文摘的數(shù)字化加工。在此期間,由于文獻資源的來源及形態(tài)不斷發(fā)展變化,數(shù)據(jù)加工工作大體經(jīng)歷了三個發(fā)展階段。
在這一階段,NSTL訂購資源主要以印本為主,文獻類型包括西文期刊論文、會議論文、文集匯編、學(xué)位論文、科技報告、標準等,對這些文獻,數(shù)據(jù)加工組按照統(tǒng)一的文獻數(shù)據(jù)加工標準規(guī)范,采用人工掃描識別等方式開展數(shù)字化加工工作。為有效規(guī)范和指導(dǎo)各類文獻的數(shù)字化加工,NSTL研究制定文獻數(shù)據(jù)庫數(shù)據(jù)加工規(guī)范,對各類文獻數(shù)據(jù)的元數(shù)據(jù)描述框架、元素集的構(gòu)成和元素集之間關(guān)系進行了系統(tǒng)描述[4]。同時,為加強數(shù)據(jù)加工的規(guī)范化控制,提高數(shù)據(jù)質(zhì)量和管理效率,NSTL啟動聯(lián)合數(shù)據(jù)加工系統(tǒng)的研發(fā)并于2010年上線運行,正式承擔(dān)起NSTL數(shù)據(jù)加工管理任務(wù),實現(xiàn)NSTL各單位之間數(shù)據(jù)加工的集成化、協(xié)同化管理,并建立了與NSTL聯(lián)合目錄系統(tǒng)、數(shù)據(jù)倉儲系統(tǒng)、門戶服務(wù)系統(tǒng)等基于OAI-PMH協(xié)議的元數(shù)據(jù)共享和交換體系[5]。經(jīng)過15年的全自主加工和持續(xù)建設(shè),為NSTL奠定了與文獻檢索及原文傳遞等服務(wù)相匹配,并擁有獨立自主知識產(chǎn)權(quán)的海量外文文獻核心元數(shù)據(jù)的資源保障體系。
為有效應(yīng)對數(shù)字文獻信息資源環(huán)境變化、用戶信息需求變化和學(xué)術(shù)信息服務(wù)市場競爭,NSTL在其“十三五”發(fā)展規(guī)劃中明確提出加強國家科技文獻信息資源建設(shè),擴大數(shù)字資源和開放資源保障能力的發(fā)展目標,以及拓展國家科技文獻信息元數(shù)據(jù)資源多渠道采集方式等任務(wù)措施[6]。從2015年1月起,NSTL在堅持做好訂購文獻自主加工的同時,以專項任務(wù)等形式,前期開展了Web of Science(WoS)等第三方來源數(shù)據(jù)與NSTL自主加工期刊論文數(shù)據(jù)的品種覆蓋、加工著錄規(guī)范、數(shù)據(jù)內(nèi)容質(zhì)量等多角度對比分析和規(guī)律總結(jié),并行啟動了WoS、中圖公司、期刊出版社等第三方來源元數(shù)據(jù)的獲取、解析、映射和本地化存儲管理。結(jié)合第三方來源數(shù)據(jù)特點,研究制定了NSTL加工使用第三方數(shù)據(jù)的若干規(guī)定,設(shè)計研發(fā)了準備庫系統(tǒng)和第三方數(shù)據(jù)獲取工具,并與聯(lián)合數(shù)據(jù)加工系統(tǒng)進行無縫集成和互操作。經(jīng)過加工組全體成員的共同努力,實現(xiàn)了第三方文獻元數(shù)據(jù)與NSTL自加工數(shù)據(jù)的有機整合[7],同時進一步促進NSTL數(shù)據(jù)加工效率和數(shù)據(jù)質(zhì)量的提高。為確保NSTL文獻檢索和原文傳遞服務(wù)的一致性和穩(wěn)定性,這一階段主要以NSTL自加工數(shù)據(jù)為基礎(chǔ)來推進第三方數(shù)據(jù)的引進利用。
為高效應(yīng)對數(shù)字業(yè)務(wù)環(huán)境變化和知識服務(wù)的新要求,NSTL加快了原有基于印本文獻的采集加工和服務(wù)的業(yè)務(wù)布局優(yōu)化重組步伐,規(guī)劃設(shè)計了NSTL新的業(yè)務(wù)總體框架和業(yè)務(wù)布局。根據(jù)流程再造規(guī)劃方案,在繼續(xù)做好訂購資源元數(shù)據(jù)加工處理的基礎(chǔ)上,重點建立健全多來源元數(shù)據(jù)加工和匹配融合機制,基于新的統(tǒng)一文獻元數(shù)據(jù)標準規(guī)范,建設(shè)多源數(shù)據(jù)驅(qū)動的新型文獻元數(shù)據(jù)分布式協(xié)同加工管理平臺與人工弱干預(yù)數(shù)據(jù)融合系統(tǒng),全面推進多源異構(gòu)數(shù)據(jù)的廣泛匯聚、迭代加工、精準映射與深度融合。
目前,隨著WoS、Taylor、Crossref等10多種第三方數(shù)據(jù)資源引進量不斷增加,其在NSTL文獻資源中占比不斷擴大,現(xiàn)已超過60%。同時,第三方數(shù)據(jù)中還包含大量非NSTL訂購資源,這些多來源數(shù)據(jù)相對獨立分散,NSTL尚未實現(xiàn)對所有來源和所有類型異構(gòu)數(shù)據(jù)的集成管理、深度融合和一體化服務(wù)。在此背景下,根據(jù)新的業(yè)務(wù)再造要求,從2018年開始,NSTL先后啟動了文獻元數(shù)據(jù)集成加工管理系統(tǒng)建設(shè)、多來源文摘數(shù)據(jù)融合研究與系統(tǒng)建設(shè)等重點專項,以期全面推進多源異構(gòu)文獻數(shù)據(jù)的匯聚、加工和融合,進一步實現(xiàn)數(shù)據(jù)加工模式的轉(zhuǎn)型升級。本文還將繼續(xù)探討這一模式的建設(shè)進展。
本文對NSTL近十年(2010—2019年)期刊文摘數(shù)據(jù)加工情況進行統(tǒng)計,見表1。
不難看出,2010—2014年采用“全自主加工”模式,年數(shù)據(jù)加工量基本穩(wěn)定。2015年以來,采用“自主加工+第三方數(shù)據(jù)利用”模式,自主加工數(shù)據(jù)量總體呈下降趨勢,自主加工量占總加工量比例由2015年的51.0%下降到2019年的39.1%。而第三方數(shù)據(jù)利用量不斷增加,第三方數(shù)據(jù)量占總加工量比例由2015年的49.0%上升到2019年的60.9%。表明利用第三方數(shù)據(jù)在NSTL數(shù)據(jù)加工工作中的重要性不斷提高。
表1 近十年(2010—2019年)期刊文摘數(shù)據(jù)加工情況統(tǒng)計
雖然2015—2019年NSTL利用第三方數(shù)據(jù)不斷增多,但已利用量占總購買量的比重不到15%,尚有超過85%的第三方數(shù)據(jù)未被利用。究其原因,主要在于這些數(shù)據(jù)具有來源廣泛、數(shù)據(jù)量大、數(shù)據(jù)類型多、結(jié)構(gòu)復(fù)雜等特點,要實現(xiàn)有效的加工、融合、利用,尚需持續(xù)深入開展研究、探索、實踐,找到行之有效的辦法并不斷優(yōu)化完善。
上述分析表明,最大程度地發(fā)揮第三方數(shù)據(jù)的價值,與NSTL自主加工建設(shè)數(shù)據(jù)庫進行取長補短、優(yōu)勢互補,是目前需要著重解決的問題。由第三方數(shù)據(jù)的特點可知,要對其有效利用,需要解決這些多源異構(gòu)數(shù)據(jù)的格式規(guī)范化、層級結(jié)構(gòu)清晰化等關(guān)鍵問題,需要管理多源異構(gòu)數(shù)據(jù)的整個生命周期[8],以實現(xiàn)多來源數(shù)據(jù)的精準匹配與深度融合,促進NSTL基于數(shù)據(jù)資產(chǎn)的服務(wù)創(chuàng)新和價值創(chuàng)造[9]。
為此,總結(jié)以往數(shù)據(jù)加工經(jīng)驗,融入大數(shù)據(jù)治理和數(shù)據(jù)全生命周期管理[10]等理念,本文提出了一種“多源異構(gòu)數(shù)據(jù)深度融合利用”的新模式,通過數(shù)據(jù)采集、匯聚、匹配、融合、審核、發(fā)布等核心環(huán)節(jié),實現(xiàn)多源異構(gòu)數(shù)據(jù)形式和內(nèi)容上的匯聚與融合,為NSTL實現(xiàn)知識發(fā)現(xiàn)、知識計算和開放共享等知識服務(wù)提供科技大數(shù)據(jù)資源保障。
為確保多源異構(gòu)數(shù)據(jù)深度融合利用模式全流程轉(zhuǎn)型和工程化實施的順利穩(wěn)定開展,構(gòu)建多源異構(gòu)數(shù)據(jù)深度融合利用模式,需要遵循以下原則。
(1)標準化、規(guī)范化原則。多源異構(gòu)數(shù)據(jù)匹配融合集成加工需要使用開放的、公共采用的標準規(guī)范,主要基于NSTL統(tǒng)一文獻元數(shù)據(jù)規(guī)范XMLSchema3.0格式,以便于實現(xiàn)與NSTL其他各業(yè)務(wù)系統(tǒng)的協(xié)同、交互與合作。
(2)易用性、可溯性、可擴展性原則。數(shù)據(jù)建設(shè)組采用的數(shù)據(jù)采集、數(shù)據(jù)匯聚、數(shù)據(jù)匹配等數(shù)據(jù)治理方法流程要簡單清晰、易理解,最終形成的融合后數(shù)據(jù)要可回溯、可修改、可擴展。
(3)連續(xù)性、完整性原則。多源異構(gòu)數(shù)據(jù)深度融合集成加工是一個長期的過程,一方面要保證數(shù)據(jù)的連續(xù)性和完整性,另一方面也要建立長效機制,保證參與多源異構(gòu)數(shù)據(jù)匹配融合集成加工人員的連續(xù)性。
為加強多源異構(gòu)數(shù)據(jù)匹配融合加工的規(guī)范化控制,提高數(shù)據(jù)匹配融合率,保證融合后數(shù)據(jù)質(zhì)量,需要做到流程清晰、接口規(guī)范、人機協(xié)作友好,實現(xiàn)與NSTL各業(yè)務(wù)系統(tǒng)的無縫連接,多源異構(gòu)數(shù)據(jù)深度融合利用模式的總體框架如圖1所示,主要包括數(shù)據(jù)獲取、數(shù)據(jù)匯聚、數(shù)據(jù)匹配、數(shù)據(jù)融合、人工弱干預(yù)、成果數(shù)據(jù)發(fā)布等步驟。
首先,定期通過微服務(wù)數(shù)據(jù)接口或其他方式獲取多源異構(gòu)數(shù)據(jù),并建立不同來源和規(guī)范格式的元數(shù)據(jù)向NSTL統(tǒng)一文獻元數(shù)據(jù)規(guī)范XMLSchema3.0格式的統(tǒng)一映射與同構(gòu)轉(zhuǎn)換,完成同來源數(shù)據(jù)查重后進入數(shù)據(jù)匯聚庫,建立索引并進行核心字段預(yù)處理,開展多途徑精準匹配,并將精準匹配的多源數(shù)據(jù)開展字段級深度融合。然后,各成員單位數(shù)據(jù)處理人員進行數(shù)據(jù)抽檢,對疑似數(shù)據(jù)或未匹配成功的數(shù)據(jù)進行人工匹配融合,融合后的數(shù)據(jù)寫回匯聚庫。最后,對機器+人工融合后的成果數(shù)據(jù)進行質(zhì)量檢查,并通過接口等方式輸出,供NSTL其他業(yè)務(wù)系統(tǒng)使用。
圖1 匹配融合加工模式總體框架
在該模式下,如何實現(xiàn)多源數(shù)據(jù)中同屬一篇文獻的精準匹配并完成字段級內(nèi)容融合是核心,匹配融合規(guī)則及算法設(shè)計合理性將直接影響文摘數(shù)據(jù)匹配率和數(shù)據(jù)融合質(zhì)量。經(jīng)過深入分析大量多源異構(gòu)數(shù)據(jù)母體、卷期、篇級等信息,通過多輪優(yōu)化完善,項目組探索出一套合理完善的多源異構(gòu)文摘數(shù)據(jù)匹配融合規(guī)則,并進行了算法實現(xiàn)。
2.3.1 流程規(guī)則設(shè)計
分析數(shù)據(jù)本身的特點是規(guī)則設(shè)計的基礎(chǔ)。多源異構(gòu)文摘數(shù)據(jù)結(jié)構(gòu)復(fù)雜,層級較深,需要分類分層逐個分析。根據(jù)多源異構(gòu)期刊文摘數(shù)據(jù)的特征,數(shù)據(jù)加工組依次從期刊母體、卷期、篇級三個層級開展了深入分析。在期刊母體、卷期數(shù)據(jù)方面,針對卷期命名規(guī)則不一致的現(xiàn)象,進行了統(tǒng)一規(guī)范化處理;在期刊篇級數(shù)據(jù)方面,對標題、DOI、起始頁碼、摘要、作者等核心字段進行了規(guī)范化處理。
據(jù)統(tǒng)計,在來源數(shù)據(jù)中有ISSN號的數(shù)據(jù)約占90%。為提高匹配效率和準確率,匹配規(guī)則可分為ISSN不為空和ISSN為空兩類,不同類別的數(shù)據(jù)匹配規(guī)則不同。
針對ISSN不為空的數(shù)據(jù),匹配規(guī)則總體思路是在同一ISSN下進行三輪循環(huán):首先,直接循環(huán)匹配DOI,再比對標題;然后,按出版年分大組,再按標題分小組,小組內(nèi)對比卷、期、起止頁、作者、摘要等核心數(shù)據(jù)項;最后,未匹配成功的數(shù)據(jù),根據(jù)年份和期進行分組,循環(huán)計算每組兩條數(shù)據(jù)標題的相似度,編輯距離大于閾值0.7的數(shù)據(jù)繼續(xù)進入第二輪匹配循環(huán)。
針對ISSN為空的數(shù)據(jù),以及后續(xù)增量數(shù)據(jù)匹配規(guī)則總體思路是:通過標題和年份查詢,快速獲取候選集,再根據(jù)標題和相似度,取出滿足標題和年份相等或者相似度較高的數(shù)據(jù),先對比DOI,再對比卷、期、起止頁、作者、摘要等核心數(shù)據(jù)項。匹配規(guī)則詳細流程如圖2示。
在精準匹配基礎(chǔ)上,針對NSTL元數(shù)據(jù)30多個字段/組內(nèi)容進行了數(shù)據(jù)字段級內(nèi)容融合規(guī)則和優(yōu)化級的設(shè)計確定,字段級融合規(guī)則的總體思路是先以NSTL字段為融合基準,再為WoS等其他優(yōu)質(zhì)來源數(shù)據(jù)依次選用,融合過程通過日志可回溯可修改。
圖2 多源異構(gòu)數(shù)據(jù)匹配規(guī)則流程圖
2.3.2 核心算法實現(xiàn)
匹配融合規(guī)則的合理性和準確性需要通過算法來實現(xiàn)和驗證,這決定了多源異構(gòu)數(shù)據(jù)深度融合利用的模式具有計算密集型的特點。在具體實現(xiàn)中,基于當(dāng)前大數(shù)據(jù)環(huán)境下主流的算法靠近數(shù)據(jù)的原則,通過構(gòu)建ElasticSearch索引集群來進行匹配,采用快速分組方式,提取出所有的ISSN號,每次只處理同一個ISSN下的數(shù)據(jù),并將匹配算法封裝為中間件,集成到Pentaho開源ETL工具,開啟多線程運行(見圖3)。經(jīng)過多輪改進優(yōu)化,目前的數(shù)據(jù)處理效率為一周內(nèi)可完成7000萬條數(shù)據(jù)的精準匹配。目前,基于匹配算法初步實現(xiàn)了1.57億余條13類多來源異構(gòu)期刊文摘數(shù)據(jù)的精準匹配,精準匹配的數(shù)據(jù)約7900萬條(占比50%),疑似匹配的數(shù)據(jù)約311萬條(占比2%),未匹配(單一來源)的數(shù)據(jù)約7533萬條(占比48%)。
在融合算法實現(xiàn)方面,對匹配上的數(shù)據(jù)進行分組,再根據(jù)數(shù)據(jù)融合規(guī)則選取相應(yīng)字段的具體信息,生成一條新的數(shù)據(jù)并同時記錄該數(shù)據(jù)所有字段來源信息(見圖4)。目前,在單線程下每分鐘能融合1000條,據(jù)初步統(tǒng)計分析,基于融合算法將精確匹配的7900萬余條數(shù)據(jù)融合為2990萬余條。
圖3 精準匹配算法流程圖
圖4 字段級融合算法流程圖
通過數(shù)據(jù)采集、匯聚、匹配、融合等數(shù)據(jù)治理核心流程,使多源異構(gòu)文摘數(shù)據(jù)實現(xiàn)了精準匹配和字段級融合。從匹配融合的結(jié)果來看,一方面,存在一部分疑似數(shù)據(jù)和未匹配數(shù)據(jù)無法通過機器實現(xiàn)匹配融合,需要基于多源數(shù)據(jù)融合系統(tǒng)開展人工弱干預(yù);另一方面,為了保證數(shù)據(jù)的真實性、準確性、連續(xù)性、及時性,需要將這一套數(shù)據(jù)治理方法及流程固化到融合系統(tǒng)之中,實現(xiàn)全流程展示及監(jiān)控。因此,項目組研制了一套計算機自動匹配融合與人工弱干預(yù)相結(jié)合的多來源文摘數(shù)據(jù)匹配融合系統(tǒng)。
2.4.1 核心功能設(shè)計
新型多源異構(gòu)數(shù)據(jù)融合系統(tǒng)的核心數(shù)據(jù)處理功能是后臺數(shù)據(jù)密集型計算,前端則側(cè)重于對人機互動的高效、友好、便捷的互操作支撐。因此,核心功能將不再是細粒度的流程驅(qū)動和逐條逐項數(shù)據(jù)的細致操作,而主要包括系統(tǒng)管理、統(tǒng)計分析、典型案例、數(shù)據(jù)匹配、數(shù)據(jù)融合、數(shù)據(jù)審核、數(shù)據(jù)發(fā)布、系統(tǒng)管理等。其中,系統(tǒng)管理模塊是指對任務(wù)、角色、菜單、用戶等管理;統(tǒng)計分析模塊包括文摘數(shù)據(jù)來源占比情況、各來源數(shù)據(jù)匹配情況、融合情況等多維度統(tǒng)計,實時查看數(shù)據(jù)流轉(zhuǎn)各流程、在線查看日志統(tǒng)計圖表;典型案例是指通過多途徑處理后,成功匹配上的數(shù)據(jù)展示;數(shù)據(jù)匹配模塊包括疑似數(shù)據(jù)人工匹配、人工抽檢、未匹配查看;數(shù)據(jù)融合模塊包括融合數(shù)據(jù)人工抽檢;數(shù)據(jù)審核模塊主要是對數(shù)據(jù)匹配、融合環(huán)節(jié)人工干預(yù)的操作進行審核;數(shù)據(jù)發(fā)布是指對機器+人工融合后的成果數(shù)據(jù)進行展示。系統(tǒng)核心功能如圖5所示。
圖5 多源文摘數(shù)據(jù)匹配融合系統(tǒng)核心功能
2.4.2 系統(tǒng)功能研發(fā)
結(jié)合業(yè)務(wù)流程再造的發(fā)展目標,多源數(shù)據(jù)融合系統(tǒng)將不再是支撐人工密集型數(shù)據(jù)加工業(yè)務(wù)的系統(tǒng),也需要改變原有聯(lián)合數(shù)據(jù)加工系統(tǒng)中總分結(jié)合的系統(tǒng)架構(gòu)和部署模式。因此,本系統(tǒng)整體基于B/S架構(gòu),采用“關(guān)系型數(shù)據(jù)庫+NoSQL數(shù)據(jù)庫+ElasticSearch索引集群”等大數(shù)據(jù)混合存儲框架來支撐多源數(shù)據(jù)的集中存儲、高效讀寫和統(tǒng)一調(diào)度,并集成富客戶端ExtJS和ECharts等前端框架技術(shù),為數(shù)據(jù)庫建設(shè)管理人員和加工人員提供網(wǎng)絡(luò)化、分布式協(xié)同工作平臺。目前,該系統(tǒng)初步完成了一期核心功能研發(fā)與測試,并在成員單位開展了應(yīng)用測試。其體系架構(gòu)及系統(tǒng)部分功能見圖6和圖7。
圖6 系統(tǒng)體系架構(gòu)圖
圖7 精準數(shù)據(jù)人工抽檢功能(部分)
20年來,NSTL數(shù)據(jù)加工工作走過了一條不平凡之路,取得了顯著成績。數(shù)據(jù)庫建設(shè)組緊密結(jié)合NSTL“十三五”發(fā)展規(guī)劃和業(yè)務(wù)流程再造總體目標,積極探索新型的“多源異構(gòu)數(shù)據(jù)深度融合利用”模式,為深入推進NSTL多來源數(shù)據(jù)加工融合全流程轉(zhuǎn)型和工程化實施奠定了基礎(chǔ),初步實現(xiàn)了從人工密集型向計算密集型數(shù)據(jù)加工的轉(zhuǎn)變。相對而言,傳統(tǒng)自主加工模式重點依托聯(lián)合數(shù)據(jù)加工系統(tǒng),由各成員單位組織數(shù)據(jù)加工人員開展任務(wù)獲取、數(shù)據(jù)加工、審核與提交,是以人工密集型為主。而計算密集型模式主要依賴大數(shù)據(jù)基礎(chǔ)設(shè)施算力和自主研發(fā)的流程算法,自動化程度更高、效率更高,也能減少人為理解偏差或失誤等因素造成的錯誤,加之通過多源數(shù)據(jù)內(nèi)容取長補短實現(xiàn)內(nèi)容增強,數(shù)據(jù)質(zhì)量也得以顯著提升。
然而,由于當(dāng)前要加工融合的數(shù)據(jù)來源廣泛、數(shù)據(jù)規(guī)范格式不一、數(shù)據(jù)項厚薄不均、數(shù)據(jù)體量巨大,對融合數(shù)據(jù)支撐后續(xù)挖掘計算和知識發(fā)現(xiàn)提出了更高要求。因此,在NSTL整體業(yè)務(wù)流程再造過程中,多源異構(gòu)數(shù)據(jù)匹配融合加工模式要全面轉(zhuǎn)型,還存在諸多困難和挑戰(zhàn)。在今后的工作中,還將重點開展多源異構(gòu)數(shù)據(jù)匹配融合工程化實施,基于大數(shù)據(jù)基礎(chǔ)設(shè)施和數(shù)據(jù)治理技術(shù)方法,加強與NSTL其他業(yè)務(wù)和服務(wù)體系的集成,實現(xiàn)從加工流程驅(qū)動向多源大數(shù)據(jù)驅(qū)動的全面轉(zhuǎn)型。在此基礎(chǔ)上,進一步開展人機協(xié)同的數(shù)據(jù)內(nèi)容規(guī)范化處理,細粒度知識單元識別、組織與關(guān)聯(lián),開展泛科技文獻大數(shù)據(jù)知識圖譜構(gòu)建,為NSTL構(gòu)建下一代新型、智能化的知識發(fā)現(xiàn)服務(wù)體系,提供堅實的數(shù)字科技文獻大數(shù)據(jù)支撐和富含語義信息的基礎(chǔ)語料知識庫體系。