NSTL大數(shù)據(jù)管理與計算平臺的設(shè)計與應(yīng)用實踐

2020-08-03 09:33:52董智鵬常志軍張建勇錢力

數(shù)字圖書館論壇 2020年7期

董智鵬常志軍張建勇錢力

（中國科學(xué)院文獻情報中心，北京 100190）

NSTL發(fā)展規(guī)劃的智能知識服務(wù)需要深入的數(shù)據(jù)挖掘、語義計算、深度學(xué)習(xí)等技術(shù)進行強有力的支持。NSTL經(jīng)過近20年的發(fā)展，已形成了海量的多來源、多類型的文獻元數(shù)據(jù)庫，當(dāng)前采用的存儲技術(shù)和管理技術(shù)相對比較傳統(tǒng)，數(shù)據(jù)管理成本較高，橫向擴展與彈性收縮較差，已不能滿足業(yè)務(wù)對數(shù)據(jù)的應(yīng)用需求，亟須引進具有良好擴展特性的開源大數(shù)據(jù)生態(tài)圈技術(shù)，建設(shè)大數(shù)據(jù)管理與計算平臺。形成統(tǒng)一化、規(guī)范化、智能化的數(shù)據(jù)業(yè)務(wù)管理體系，提高業(yè)務(wù)運行效率，支持海量文獻元數(shù)據(jù)的集中管理和計算業(yè)務(wù)，提高數(shù)據(jù)管理的效率，擴展數(shù)據(jù)間的關(guān)系，強化數(shù)據(jù)的關(guān)聯(lián)度，以適應(yīng)NSTL從文獻服務(wù)向知識服務(wù)轉(zhuǎn)變的發(fā)展戰(zhàn)略。

1 數(shù)據(jù)管理業(yè)務(wù)流程再造

傳統(tǒng)數(shù)據(jù)管理流程采用聯(lián)機事務(wù)處理（OLTP）機制進行數(shù)據(jù)交互，在大規(guī)模處理數(shù)據(jù)時，存儲與計算瓶頸凸顯。針對NSTL業(yè)務(wù)流程再造目標分析，數(shù)據(jù)管理流程需要滿足海量多來源異構(gòu)數(shù)據(jù)匯聚、融合、計算等大吞吐量操作，所以需對傳統(tǒng)數(shù)據(jù)管理流程進行改造與優(yōu)化，采用聯(lián)機分析處理（OLAP）機制，提高數(shù)據(jù)計算效率、數(shù)據(jù)計算精度，有利于支撐數(shù)據(jù)產(chǎn)品研發(fā)。

1.1 業(yè)務(wù)流程再造目標

NSTL業(yè)務(wù)流程再造目標對數(shù)據(jù)業(yè)務(wù)中的數(shù)據(jù)管理流程提出3個主要任務(wù)。首先，需滿足多來源、多類型、海量的數(shù)據(jù)資源的采集、發(fā)現(xiàn)、評估、共享與合作等；其次，滿足集成數(shù)據(jù)匯聚、數(shù)據(jù)融合、數(shù)據(jù)增值計算、名稱規(guī)范、語義標注和知識標引等，實現(xiàn)數(shù)據(jù)全生命周期的管理；最后，以知識發(fā)現(xiàn)為目標，促進知識與知識、數(shù)據(jù)與數(shù)據(jù)、用戶與用戶、知識與用戶的關(guān)聯(lián)、計算與聚合。

1.2 數(shù)據(jù)加工管理轉(zhuǎn)型

NSTL數(shù)據(jù)加工是支撐文獻服務(wù)的重要環(huán)節(jié)之一，經(jīng)過多年的建設(shè)與發(fā)展，已經(jīng)形成了自主加工，通過數(shù)據(jù)庫集成商和出版社購買、開放獲取、贈予等多種渠道獲取數(shù)據(jù)方式。隨著數(shù)據(jù)來源的增多，數(shù)據(jù)量的增大，目前的數(shù)據(jù)加工方式和管理流程已不能適應(yīng)NSTL發(fā)展對數(shù)據(jù)加工的新需求。所以，基于NSTL發(fā)展目標再造數(shù)據(jù)加工業(yè)務(wù)流程，從“移動數(shù)據(jù)”向“移動計算”轉(zhuǎn)型[1]，逐步形成從資源采集到數(shù)據(jù)計算，再到數(shù)據(jù)產(chǎn)品的數(shù)據(jù)加工流程具有非常重要的戰(zhàn)略意義?；跇I(yè)務(wù)流程再造的數(shù)據(jù)加工流程管理框架如圖1所示。

圖1 數(shù)據(jù)加工流程管理框架

改造后的數(shù)據(jù)加工管理流程從多來源異構(gòu)數(shù)據(jù)采集獲取出發(fā)，遵循NSTL統(tǒng)一文獻元數(shù)據(jù)標準規(guī)范，基于新構(gòu)建的大數(shù)據(jù)管理與計算平臺進行數(shù)據(jù)的解析與存儲，平臺的數(shù)據(jù)加工任務(wù)管理模塊將需要加工的數(shù)據(jù)分配到相應(yīng)的數(shù)據(jù)處理平臺，如數(shù)據(jù)融合系統(tǒng)和引文處理系統(tǒng)，進行數(shù)據(jù)融合，集成處理。通過平臺任務(wù)管理模塊對數(shù)據(jù)進行關(guān)聯(lián)計算，如引文關(guān)系、規(guī)范關(guān)系、主題標引等，最終形成可服務(wù)數(shù)據(jù)。再通過基于微服務(wù)架構(gòu)的RESTful接口向外部提供數(shù)據(jù)輸出服務(wù)，以支撐更多的數(shù)據(jù)產(chǎn)品研發(fā)和知識服務(wù)。

2 大數(shù)據(jù)管理與計算平臺設(shè)計

根據(jù)NSTL數(shù)據(jù)管理業(yè)務(wù)流程再造的目標，選擇大數(shù)據(jù)相關(guān)技術(shù)搭建NSTL大數(shù)據(jù)管理和計算平臺，全面支撐NSTL各類數(shù)據(jù)的加工管理，支撐對大規(guī)模數(shù)據(jù)進行關(guān)聯(lián)計算的需求。本設(shè)計將大數(shù)據(jù)管理和計算平臺構(gòu)建劃分為4個主要任務(wù)：①集成大數(shù)據(jù)生態(tài)圈開源軟件，部署基礎(chǔ)環(huán)境；②設(shè)計從抽取、清洗、轉(zhuǎn)換、裝載等全生命周期管理的數(shù)據(jù)治理流程體系與技術(shù)規(guī)范；③集成多來源異構(gòu)數(shù)據(jù)，抽取實體，進行相關(guān)數(shù)據(jù)計算；④基于微服務(wù)技術(shù)建設(shè)數(shù)據(jù)輸出服務(wù)接口。

2.1 業(yè)務(wù)架構(gòu)

NSTL大數(shù)據(jù)管理與計算平臺的核心目標是建立可支撐數(shù)據(jù)獲取、清洗、集成、增值的海量數(shù)據(jù)治理流程，形成可提供數(shù)據(jù)分布式存儲和計算的基礎(chǔ)環(huán)境。業(yè)務(wù)架構(gòu)如圖2所示。

作為支持NSTL數(shù)據(jù)業(yè)務(wù)的大數(shù)據(jù)基礎(chǔ)環(huán)境，平臺將遵循NSTL統(tǒng)一文獻元數(shù)據(jù)標準，支撐數(shù)據(jù)獲取、數(shù)據(jù)治理（數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)增值）以及數(shù)據(jù)服務(wù)等各業(yè)務(wù)環(huán)節(jié)，最終釋放數(shù)據(jù)價值。

圖2 平臺業(yè)務(wù)架構(gòu)

2.2 技術(shù)架構(gòu)

NSTL大數(shù)據(jù)管理與計算平臺以大數(shù)據(jù)生態(tài)環(huán)境松耦合[2]的研發(fā)理念，在數(shù)據(jù)管理的重要階段（如源文件管理、元數(shù)據(jù)管理、索引管理等）對數(shù)據(jù)進行處理和完善。提供以HDFS[3]和Hive[4]技術(shù)為基礎(chǔ)的數(shù)據(jù)存儲環(huán)境，以Yarn、MapReduce、Spark[5]計算框架為基礎(chǔ)的數(shù)據(jù)計算環(huán)境，以ElasticSearch[6]、Redis[7]技術(shù)為基礎(chǔ)的數(shù)據(jù)查詢服務(wù)環(huán)境，以Kafka、Spark-streaming技術(shù)為基礎(chǔ)的流式處理環(huán)境，以Hue、Oozie技術(shù)為基礎(chǔ)的可視化環(huán)境，5個環(huán)境協(xié)同調(diào)度與工作，實現(xiàn)無縫銜接。涉及的工業(yè)級大數(shù)據(jù)技術(shù)有HDFS、MapReduce、Spark、Hive、ElasticSearch、Hue、Oozie、Kafka、Zookeeper、Redis、MicroService、Flume-ng等。從技術(shù)層面可分為數(shù)據(jù)接入層、分布式存儲層、分布式計算層、數(shù)據(jù)模型層、數(shù)據(jù)服務(wù)層以及應(yīng)用層。平臺技術(shù)架構(gòu)如圖3所示。

從數(shù)據(jù)源到服務(wù)層，根據(jù)數(shù)據(jù)規(guī)模、計算規(guī)模、服務(wù)模式等對平臺進行功能層次劃分。存儲層提供海量數(shù)據(jù)的存儲功能，采用Hadoop-HDFS。計算層提供海量數(shù)據(jù)的計算引擎，該層采用MapReduce、Spark多引擎模式，全新設(shè)計了MapReduce主要用于科技數(shù)據(jù)非迭代處理，而Spark主要用于模型計算、關(guān)系計算等處理的計算分工。同時，平臺提供計算任務(wù)管理平臺，支撐多用戶遠程提交計算任務(wù)，共享計算資源。索引分為計算索引和服務(wù)索引，分別支撐底層計算和用戶服務(wù)。服務(wù)層為用戶提供高效、穩(wěn)定的數(shù)據(jù)查詢服務(wù)。

平臺采用Spring Cloud[8]技術(shù)，結(jié)合科技數(shù)據(jù)服務(wù)的特點，甄選、二次開發(fā)相關(guān)組件進而整合了一套集服務(wù)注冊器、負載均衡器、權(quán)限控制、服務(wù)生產(chǎn)者、服務(wù)消費者等核心組件的科技數(shù)據(jù)服務(wù)架構(gòu)，并擴展了消費管理及防爬功能，構(gòu)建了分布式微服務(wù)系統(tǒng)。應(yīng)用層指基于大數(shù)據(jù)平臺的應(yīng)用系統(tǒng)，可支持業(yè)務(wù)鏈條的數(shù)據(jù)應(yīng)用，包括平臺級別和服務(wù)級別的應(yīng)用，并能根據(jù)業(yè)務(wù)量，進行彈性擴展保證服務(wù)性能。

2.3 平臺構(gòu)建

平臺構(gòu)建主要從平臺數(shù)據(jù)流程技術(shù)規(guī)范制定、總體硬件服務(wù)器組件部署和網(wǎng)絡(luò)拓撲劃分、大數(shù)據(jù)技術(shù)生態(tài)圈開源軟件選型與集成部署三方面展開。平臺旨在解決多源異構(gòu)數(shù)據(jù)的存儲和計算的瓶頸，依托NSTL統(tǒng)一文獻元數(shù)據(jù)標準規(guī)范建立統(tǒng)一化的分層管理數(shù)據(jù)流程和技術(shù)規(guī)范體系，構(gòu)建統(tǒng)一數(shù)據(jù)集成子系統(tǒng)和分布式計算任務(wù)管理，建設(shè)具有消費管理及防爬蟲功能的分布式微服務(wù)子系統(tǒng)。

圖3 平臺技術(shù)架構(gòu)

2.3.1 技術(shù)規(guī)范制定

技術(shù)規(guī)范規(guī)定了基于NSTL大數(shù)據(jù)管理與計算平臺覆蓋文獻元數(shù)據(jù)處理的生命全周期，即技術(shù)類型、文件存儲的讀寫操作、計算處理的編程引擎、元數(shù)據(jù)規(guī)范、數(shù)據(jù)微服務(wù)接口使用等。制訂的技術(shù)標準規(guī)范包括五大類，即數(shù)據(jù)采集引進存儲規(guī)范、計算引擎技術(shù)標準規(guī)范、搜索引擎技術(shù)標準規(guī)范、高速緩存技術(shù)標準規(guī)范和服務(wù)接口技術(shù)標準規(guī)范。此外，技術(shù)標準體系各環(huán)節(jié)數(shù)據(jù)描述遵循NSTL統(tǒng)一文獻元數(shù)據(jù)標準3.0（正式版）。

針對數(shù)據(jù)來源復(fù)雜、異構(gòu)多樣、存儲分散的特點，對數(shù)據(jù)采集存儲進行規(guī)范。從采集頻率、數(shù)據(jù)文件格式、結(jié)構(gòu)化規(guī)范、存儲目錄規(guī)范、增量更新模式5個角度制定規(guī)則，以保證數(shù)據(jù)規(guī)格化、流程規(guī)范化和業(yè)務(wù)標準化。針對MapReduce和Spark計算引擎的特點，計算引擎技術(shù)標準規(guī)范從數(shù)據(jù)輸入、計算邏輯實現(xiàn)、結(jié)果輸出三個階段制定規(guī)則，以保證各業(yè)務(wù)計算模型、處理程序在平臺中正確執(zhí)行。針對ElasticSearch搜索引擎軟件集群的特點，搜索引擎技術(shù)標準規(guī)范從建索引、各類型檢索、索引更新、索引刪除等多種操作制定規(guī)則，以保證各業(yè)務(wù)在使用搜索引擎時，程序能夠正確執(zhí)行。針對Redis服務(wù)的特點，高速緩存技術(shù)標準規(guī)范從計算處理各個層面可能依賴高速緩存技術(shù)進行性能提升的環(huán)節(jié)制定規(guī)則，以保證各業(yè)務(wù)在使用Redis時，程序能夠正確執(zhí)行。針對平臺的接口管理和監(jiān)控，制定服務(wù)接口技術(shù)標準規(guī)范，用戶可以通過訪問平臺地址進入系統(tǒng)，使用用戶注冊、接口申請以及API實例監(jiān)控等功能來滿足各種需求。

2.3.2 硬件設(shè)施部署

（1）服務(wù)器組件部署。NSTL大數(shù)據(jù)管理與計算平臺基礎(chǔ)設(shè)施硬件部署，將配備30臺服務(wù)器支撐數(shù)據(jù)深加工過程，強調(diào)存儲能力、計算能力、服務(wù)能力。其中，10臺服務(wù)器構(gòu)建分布式存儲集群，10臺服務(wù)器構(gòu)建分布式搜索引擎集群，6臺服務(wù)器構(gòu)建分布式計算集群，4臺服務(wù)器部署集中管理工具、日志服務(wù)應(yīng)用。

（2）網(wǎng)絡(luò)拓撲結(jié)構(gòu)。網(wǎng)絡(luò)拓撲主要由6部分組成：可擴展的數(shù)據(jù)匯聚服務(wù)器集群，可擴展和可負載均衡的Map-Reduce計算引擎，HDFS文件系統(tǒng)以及Hive數(shù)據(jù)倉庫共用服務(wù)器集群，可擴展的ElasticSearch計算引擎集群，可擴展和可負載均衡的Spark計算引擎集群，可擴展的SpringCloud微服務(wù)集群。

2.3.3 軟件設(shè)施部署

（1）關(guān)鍵技術(shù)選型。NSTL數(shù)據(jù)具有多類型、多來源、數(shù)據(jù)量級增長快等特性，傳統(tǒng)處理技術(shù)很難進行較高效的數(shù)據(jù)處理。在分布式存儲方面，G級別大文件可采用HDFS分布式文件系統(tǒng)；小文件的存儲1M左右，甚至更小，則采用FastDFS文件系統(tǒng)。索引存儲采用ElasticSearch。高性能緩沖存儲采用Redis。通過以上軟件整合，可使存儲所需資源按需使用，可根據(jù)業(yè)務(wù)需要彈性伸縮存儲能力，有效節(jié)省成本用于海量數(shù)據(jù)的管理和分析，提供Hadoop/Spark框架對接能力。

在分布式計算方面，海量數(shù)據(jù)ETL等處理適合采用MapReduce、模型計算等適合采用Spark、實時要求高的計算適合采用Spark-streaming或Storm、簡單的類SQL處理適合用HiveSQL。通過以上軟件整合，可支持對海量數(shù)據(jù)的清洗、抽取等技術(shù)數(shù)據(jù)處理的并行執(zhí)行，覆蓋多種主流計算引擎?？啥ㄖ浦髁鞯哪Ｐ停峁崟r分析與推薦，專注于垂直數(shù)據(jù)的深度[9]。

通過以上大數(shù)據(jù)生態(tài)圈成熟技術(shù)的整合，可使平臺具有多源聚合、多類型存儲、高吞吐、可彈性擴展、計算模型準確度高、計算資源分配較合理等特性。

（2）關(guān)鍵技術(shù)部署。平臺主要從技術(shù)架構(gòu)中的3層功能區(qū)進行部署，即數(shù)據(jù)匯聚區(qū)、數(shù)據(jù)存儲區(qū)和數(shù)據(jù)輸出區(qū)。平臺上集成部署了分布式文件系統(tǒng)（HDFS）、分布式計算系統(tǒng)（MR）、搜索引擎集群（ES）、內(nèi)存計算集群（Spark）、高性能KV服務(wù)（Redis）、數(shù)據(jù)倉庫管理工具（Hive）、分布式協(xié)調(diào)系統(tǒng)（ZK）大數(shù)據(jù)處理與管理工具等。

針對通用分布式技術(shù)環(huán)境部署進行系統(tǒng)級優(yōu)化，以開源軟件官方網(wǎng)站提供的說明為基礎(chǔ)，結(jié)合集群的實際情況進行調(diào)優(yōu)。解決包括SSHD登錄慢，永久性關(guān)閉防火墻，最大打開文件數(shù)、進程數(shù)、文件數(shù)、單一進程可申請的內(nèi)存數(shù)以及關(guān)閉SWAP等問題。對分布式組件的部分重要參數(shù)，通過關(guān)閉置換區(qū)，增加文件描述符的最大數(shù)量，提供足夠的內(nèi)存和線程最大數(shù)量以及對JAVA虛擬機和DNS緩存的設(shè)置，進行了進一步優(yōu)化。

（3）微服務(wù)系統(tǒng)建設(shè)。平臺對外數(shù)據(jù)接口采用微服務(wù)架構(gòu)，服務(wù)接口之間互相獨立部署，動態(tài)擴展，穩(wěn)定性高，易于拆分。微服務(wù)子系統(tǒng)建設(shè)將采用的技術(shù)架構(gòu)為Spring Cloud、EUREKA、ElasticSearch、MySQL。接口通過HTTP請求訪問指定的請求方法，接口在訪問ElasticSearch前進行安全策略檢查，同時響應(yīng)固定格式的返回結(jié)果。接口建立初衷是為了減少服務(wù)對于ElasticSearch集群壓力，還可以通過定制開發(fā)，更好地為用戶提供優(yōu)質(zhì)的服務(wù)。

微服務(wù)子系統(tǒng)通過服務(wù)注冊模塊為各數(shù)據(jù)輸出提供接口應(yīng)用注冊，通過數(shù)據(jù)總線（Data-Bus）支撐獲取數(shù)據(jù)，各應(yīng)用可共享數(shù)據(jù)通路也可獨立使用，可針對每個服務(wù)組件進行拆分和開發(fā)；同時支持接口應(yīng)用熱插拔功能。

3 應(yīng)用實踐

基于上述硬件環(huán)境、軟件環(huán)境和技術(shù)規(guī)范的設(shè)計，搭建了滿足NSTL數(shù)據(jù)管理和計算需要的平臺環(huán)境。目前該平臺環(huán)境在數(shù)據(jù)治理流程、分布式計算、微服務(wù)等三方面開展了應(yīng)用。

3.1 多來源異構(gòu)數(shù)據(jù)治理流程應(yīng)用

數(shù)據(jù)治理需要建立統(tǒng)一化的流程體系，體系構(gòu)建從數(shù)據(jù)生態(tài)建立、治理統(tǒng)一規(guī)范標準、數(shù)據(jù)雙向流動、多種計算框架、數(shù)據(jù)釋放價值五方面支撐。其中數(shù)據(jù)雙向流動通過HDFS文件系統(tǒng)為中介[10]，使業(yè)務(wù)存儲覆蓋多個文件系統(tǒng)，互相備份數(shù)據(jù)，保障安全。通過各種合適的計算框架，諸如Java程序、MapReduce程序、Spark程序等保證計算效率，節(jié)省計算資源。通過微服務(wù)技術(shù)使數(shù)據(jù)服務(wù)與數(shù)據(jù)應(yīng)用完全解耦，具有彈性擴展能力。平臺數(shù)據(jù)治理流程如圖4所示。

圖4 平臺數(shù)據(jù)治理流程

數(shù)據(jù)流管理分為批處理和流處理。在批處理階段：①②從數(shù)據(jù)源開始，對全量數(shù)據(jù)進行統(tǒng)一匯聚；③來源數(shù)據(jù)在進行ETL處理后進入分布式文件系統(tǒng)HFDS；④通過Hive元數(shù)據(jù)管理方式構(gòu)建數(shù)據(jù)倉庫；⑦采用MapReduce或者Spark計算框架，對數(shù)據(jù)進行處理后在計算索引中創(chuàng)建索引；⑧計算索引數(shù)據(jù)定時同步到服務(wù)索引中。在流處理階段：主要的區(qū)別在于通過Spark-streaming對數(shù)據(jù)進行實時處理，并在計算索引中創(chuàng)建索引，后續(xù)處理與批處理一致；⑤⑥為更方便、高效地支持多用戶使用，平臺基于計算框架底層接口開發(fā)分布式計算任務(wù)管理模塊，支撐用戶遠程提交作業(yè)，共享集群的計算資源；⑨⑩在服務(wù)層，通過微服務(wù)技術(shù)將前后端分離；?分別向人、程序、機構(gòu)提供數(shù)據(jù)輸出服務(wù)。

3.2 分布式計算技術(shù)應(yīng)用

基于大數(shù)據(jù)基礎(chǔ)設(shè)施的新加工模式下的引文數(shù)據(jù)進行關(guān)系計算，形成歸一關(guān)系、被引關(guān)系和耦合關(guān)系?；跉w一關(guān)系還原引文數(shù)據(jù)，充分發(fā)揮引文數(shù)據(jù)在信息發(fā)現(xiàn)、信息利用中的作用。應(yīng)用主要包括引文關(guān)系元數(shù)據(jù)設(shè)計，基于Spark引文計算流程設(shè)計，基于Spark引文計算算法封裝。

基于Spark引文計算設(shè)計流程思想，將關(guān)系計算的需求轉(zhuǎn)化為對數(shù)據(jù)集的篩選、統(tǒng)計的結(jié)構(gòu)化檢索語言。類似業(yè)務(wù)管理系統(tǒng)通過SQL實現(xiàn)主要數(shù)據(jù)操作的思想。被引關(guān)系計算主要抽取文獻被引關(guān)鍵字段，通過相關(guān)字段檢索識別可進行溯源的文獻，然后利用Spark進行被引次數(shù)累計計算，并提供實時接口輸出計算結(jié)果。耦合關(guān)系計算分別抽取兩篇文獻的關(guān)鍵字段，利用兩篇文獻的所有參考文獻進行耦合檢索（兩兩共同出現(xiàn)），然后利用Spark進行耦合數(shù)累計計算，并提供實時接口輸出計算結(jié)果。引文關(guān)系計算架構(gòu)如圖5所示。

其中Spark計算引擎原理為：通過Spark-submit提交Application，Spark管理節(jié)點（Master）將分派集群計算資源，各集群工作節(jié)點（Worker）接收任務(wù)并實時監(jiān)控運行狀態(tài)并反饋管理節(jié)點（Master）。目前已對國際西文引文（DISC）數(shù)據(jù)進行引文計算測試，約3000萬條文摘、3億條引文數(shù)據(jù)計算時間約6小時，對比原來的計算方式在時間效率上提高3倍。因為目前利用搜索引擎方式計算數(shù)據(jù)，所以數(shù)據(jù)可進行增量引文關(guān)系計算，增量處理約1萬條/分鐘級別。

圖5 引文關(guān)系計算架構(gòu)

通過大數(shù)據(jù)基礎(chǔ)環(huán)境，首先解決了海量數(shù)據(jù)存儲的瓶頸問題，其次利用ElasticSearch搜索引擎解決了數(shù)據(jù)增量計算問題，最后利用Spark計算引擎提升了計算效率。

3.3 微服務(wù)技術(shù)應(yīng)用

基于大數(shù)據(jù)基礎(chǔ)環(huán)境中微服務(wù)系統(tǒng)，可輕松建立各種類型的數(shù)據(jù)輸出服務(wù)接口，各服務(wù)接口獨立部署，動態(tài)擴展，穩(wěn)定性較高。如通用文獻獲取接口（XML與JSON格式）、引文關(guān)系計算的被引頻次與耦合度接口、實體規(guī)范關(guān)系接口等。部署的接口通過松耦合且獨立靈活方式無縫對接NSTL其他業(yè)務(wù)系統(tǒng)，實現(xiàn)特色數(shù)據(jù)服務(wù)。

4 結(jié)語

本文通過基于大數(shù)據(jù)開源生態(tài)圈技術(shù)，自主研發(fā)滿足NSTL大數(shù)據(jù)管理與計算需求的平臺，實現(xiàn)了NSTL業(yè)務(wù)流程再造目標，解決了數(shù)據(jù)存儲與計算瓶頸，提升了數(shù)據(jù)治理能力與數(shù)據(jù)服務(wù)能力。同時也探索了基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)治理框架，并結(jié)合NSTL數(shù)據(jù)服務(wù)特點介紹了相關(guān)應(yīng)用示范。未來將基于前期基礎(chǔ)，不斷實踐與探索，進一步優(yōu)化流程和完善平臺，提升文獻數(shù)據(jù)的服務(wù)質(zhì)量，以適應(yīng)從文獻服務(wù)向知識服務(wù)轉(zhuǎn)變的發(fā)展戰(zhàn)略。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡