国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

NSTL大數(shù)據(jù)管理與計算平臺的設(shè)計與應(yīng)用實踐

2020-08-03 09:33:52董智鵬常志軍張建勇錢力
數(shù)字圖書館論壇 2020年7期
關(guān)鍵詞:標準規(guī)范數(shù)據(jù)管理集群

董智鵬 常志軍 張建勇 錢力

(中國科學(xué)院文獻情報中心,北京 100190)

NSTL發(fā)展規(guī)劃的智能知識服務(wù)需要深入的數(shù)據(jù)挖掘、語義計算、深度學(xué)習(xí)等技術(shù)進行強有力的支持。NSTL經(jīng)過近20年的發(fā)展,已形成了海量的多來源、多類型的文獻元數(shù)據(jù)庫,當(dāng)前采用的存儲技術(shù)和管理技術(shù)相對比較傳統(tǒng),數(shù)據(jù)管理成本較高,橫向擴展與彈性收縮較差,已不能滿足業(yè)務(wù)對數(shù)據(jù)的應(yīng)用需求,亟須引進具有良好擴展特性的開源大數(shù)據(jù)生態(tài)圈技術(shù),建設(shè)大數(shù)據(jù)管理與計算平臺。形成統(tǒng)一化、規(guī)范化、智能化的數(shù)據(jù)業(yè)務(wù)管理體系,提高業(yè)務(wù)運行效率,支持海量文獻元數(shù)據(jù)的集中管理和計算業(yè)務(wù),提高數(shù)據(jù)管理的效率,擴展數(shù)據(jù)間的關(guān)系,強化數(shù)據(jù)的關(guān)聯(lián)度,以適應(yīng)NSTL從文獻服務(wù)向知識服務(wù)轉(zhuǎn)變的發(fā)展戰(zhàn)略。

1 數(shù)據(jù)管理業(yè)務(wù)流程再造

傳統(tǒng)數(shù)據(jù)管理流程采用聯(lián)機事務(wù)處理(OLTP)機制進行數(shù)據(jù)交互,在大規(guī)模處理數(shù)據(jù)時,存儲與計算瓶頸凸顯。針對NSTL業(yè)務(wù)流程再造目標分析,數(shù)據(jù)管理流程需要滿足海量多來源異構(gòu)數(shù)據(jù)匯聚、融合、計算等大吞吐量操作,所以需對傳統(tǒng)數(shù)據(jù)管理流程進行改造與優(yōu)化,采用聯(lián)機分析處理(OLAP)機制,提高數(shù)據(jù)計算效率、數(shù)據(jù)計算精度,有利于支撐數(shù)據(jù)產(chǎn)品研發(fā)。

1.1 業(yè)務(wù)流程再造目標

NSTL業(yè)務(wù)流程再造目標對數(shù)據(jù)業(yè)務(wù)中的數(shù)據(jù)管理流程提出3個主要任務(wù)。首先,需滿足多來源、多類型、海量的數(shù)據(jù)資源的采集、發(fā)現(xiàn)、評估、共享與合作等;其次,滿足集成數(shù)據(jù)匯聚、數(shù)據(jù)融合、數(shù)據(jù)增值計算、名稱規(guī)范、語義標注和知識標引等,實現(xiàn)數(shù)據(jù)全生命周期的管理;最后,以知識發(fā)現(xiàn)為目標,促進知識與知識、數(shù)據(jù)與數(shù)據(jù)、用戶與用戶、知識與用戶的關(guān)聯(lián)、計算與聚合。

1.2 數(shù)據(jù)加工管理轉(zhuǎn)型

NSTL數(shù)據(jù)加工是支撐文獻服務(wù)的重要環(huán)節(jié)之一,經(jīng)過多年的建設(shè)與發(fā)展,已經(jīng)形成了自主加工,通過數(shù)據(jù)庫集成商和出版社購買、開放獲取、贈予等多種渠道獲取數(shù)據(jù)方式。隨著數(shù)據(jù)來源的增多,數(shù)據(jù)量的增大,目前的數(shù)據(jù)加工方式和管理流程已不能適應(yīng)NSTL發(fā)展對數(shù)據(jù)加工的新需求。所以,基于NSTL發(fā)展目標再造數(shù)據(jù)加工業(yè)務(wù)流程,從“移動數(shù)據(jù)”向“移動計算”轉(zhuǎn)型[1],逐步形成從資源采集到數(shù)據(jù)計算,再到數(shù)據(jù)產(chǎn)品的數(shù)據(jù)加工流程具有非常重要的戰(zhàn)略意義?;跇I(yè)務(wù)流程再造的數(shù)據(jù)加工流程管理框架如圖1所示。

圖1 數(shù)據(jù)加工流程管理框架

改造后的數(shù)據(jù)加工管理流程從多來源異構(gòu)數(shù)據(jù)采集獲取出發(fā),遵循NSTL統(tǒng)一文獻元數(shù)據(jù)標準規(guī)范,基于新構(gòu)建的大數(shù)據(jù)管理與計算平臺進行數(shù)據(jù)的解析與存儲,平臺的數(shù)據(jù)加工任務(wù)管理模塊將需要加工的數(shù)據(jù)分配到相應(yīng)的數(shù)據(jù)處理平臺,如數(shù)據(jù)融合系統(tǒng)和引文處理系統(tǒng),進行數(shù)據(jù)融合,集成處理。通過平臺任務(wù)管理模塊對數(shù)據(jù)進行關(guān)聯(lián)計算,如引文關(guān)系、規(guī)范關(guān)系、主題標引等,最終形成可服務(wù)數(shù)據(jù)。再通過基于微服務(wù)架構(gòu)的RESTful接口向外部提供數(shù)據(jù)輸出服務(wù),以支撐更多的數(shù)據(jù)產(chǎn)品研發(fā)和知識服務(wù)。

2 大數(shù)據(jù)管理與計算平臺設(shè)計

根據(jù)NSTL數(shù)據(jù)管理業(yè)務(wù)流程再造的目標,選擇大數(shù)據(jù)相關(guān)技術(shù)搭建NSTL大數(shù)據(jù)管理和計算平臺,全面支撐NSTL各類數(shù)據(jù)的加工管理,支撐對大規(guī)模數(shù)據(jù)進行關(guān)聯(lián)計算的需求。本設(shè)計將大數(shù)據(jù)管理和計算平臺構(gòu)建劃分為4個主要任務(wù):①集成大數(shù)據(jù)生態(tài)圈開源軟件,部署基礎(chǔ)環(huán)境;②設(shè)計從抽取、清洗、轉(zhuǎn)換、裝載等全生命周期管理的數(shù)據(jù)治理流程體系與技術(shù)規(guī)范;③集成多來源異構(gòu)數(shù)據(jù),抽取實體,進行相關(guān)數(shù)據(jù)計算;④基于微服務(wù)技術(shù)建設(shè)數(shù)據(jù)輸出服務(wù)接口。

2.1 業(yè)務(wù)架構(gòu)

NSTL大數(shù)據(jù)管理與計算平臺的核心目標是建立可支撐數(shù)據(jù)獲取、清洗、集成、增值的海量數(shù)據(jù)治理流程,形成可提供數(shù)據(jù)分布式存儲和計算的基礎(chǔ)環(huán)境。業(yè)務(wù)架構(gòu)如圖2所示。

作為支持NSTL數(shù)據(jù)業(yè)務(wù)的大數(shù)據(jù)基礎(chǔ)環(huán)境,平臺將遵循NSTL統(tǒng)一文獻元數(shù)據(jù)標準,支撐數(shù)據(jù)獲取、數(shù)據(jù)治理(數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)增值)以及數(shù)據(jù)服務(wù)等各業(yè)務(wù)環(huán)節(jié),最終釋放數(shù)據(jù)價值。

圖2 平臺業(yè)務(wù)架構(gòu)

2.2 技術(shù)架構(gòu)

NSTL大數(shù)據(jù)管理與計算平臺以大數(shù)據(jù)生態(tài)環(huán)境松耦合[2]的研發(fā)理念,在數(shù)據(jù)管理的重要階段(如源文件管理、元數(shù)據(jù)管理、索引管理等)對數(shù)據(jù)進行處理和完善。提供以HDFS[3]和Hive[4]技術(shù)為基礎(chǔ)的數(shù)據(jù)存儲環(huán)境,以Yarn、MapReduce、Spark[5]計算框架為基礎(chǔ)的數(shù)據(jù)計算環(huán)境,以ElasticSearch[6]、Redis[7]技術(shù)為基礎(chǔ)的數(shù)據(jù)查詢服務(wù)環(huán)境,以Kafka、Spark-streaming技術(shù)為基礎(chǔ)的流式處理環(huán)境,以Hue、Oozie技術(shù)為基礎(chǔ)的可視化環(huán)境,5個環(huán)境協(xié)同調(diào)度與工作,實現(xiàn)無縫銜接。涉及的工業(yè)級大數(shù)據(jù)技術(shù)有HDFS、MapReduce、Spark、Hive、ElasticSearch、Hue、Oozie、Kafka、Zookeeper、Redis、MicroService、Flume-ng等。從技術(shù)層面可分為數(shù)據(jù)接入層、分布式存儲層、分布式計算層、數(shù)據(jù)模型層、數(shù)據(jù)服務(wù)層以及應(yīng)用層。平臺技術(shù)架構(gòu)如圖3所示。

從數(shù)據(jù)源到服務(wù)層,根據(jù)數(shù)據(jù)規(guī)模、計算規(guī)模、服務(wù)模式等對平臺進行功能層次劃分。存儲層提供海量數(shù)據(jù)的存儲功能,采用Hadoop-HDFS。計算層提供海量數(shù)據(jù)的計算引擎,該層采用MapReduce、Spark多引擎模式,全新設(shè)計了MapReduce主要用于科技數(shù)據(jù)非迭代處理,而Spark主要用于模型計算、關(guān)系計算等處理的計算分工。同時,平臺提供計算任務(wù)管理平臺,支撐多用戶遠程提交計算任務(wù),共享計算資源。索引分為計算索引和服務(wù)索引,分別支撐底層計算和用戶服務(wù)。服務(wù)層為用戶提供高效、穩(wěn)定的數(shù)據(jù)查詢服務(wù)。

平臺采用Spring Cloud[8]技術(shù),結(jié)合科技數(shù)據(jù)服務(wù)的特點,甄選、二次開發(fā)相關(guān)組件進而整合了一套集服務(wù)注冊器、負載均衡器、權(quán)限控制、服務(wù)生產(chǎn)者、服務(wù)消費者等核心組件的科技數(shù)據(jù)服務(wù)架構(gòu),并擴展了消費管理及防爬功能,構(gòu)建了分布式微服務(wù)系統(tǒng)。應(yīng)用層指基于大數(shù)據(jù)平臺的應(yīng)用系統(tǒng),可支持業(yè)務(wù)鏈條的數(shù)據(jù)應(yīng)用,包括平臺級別和服務(wù)級別的應(yīng)用,并能根據(jù)業(yè)務(wù)量,進行彈性擴展保證服務(wù)性能。

2.3 平臺構(gòu)建

平臺構(gòu)建主要從平臺數(shù)據(jù)流程技術(shù)規(guī)范制定、總體硬件服務(wù)器組件部署和網(wǎng)絡(luò)拓撲劃分、大數(shù)據(jù)技術(shù)生態(tài)圈開源軟件選型與集成部署三方面展開。平臺旨在解決多源異構(gòu)數(shù)據(jù)的存儲和計算的瓶頸,依托NSTL統(tǒng)一文獻元數(shù)據(jù)標準規(guī)范建立統(tǒng)一化的分層管理數(shù)據(jù)流程和技術(shù)規(guī)范體系,構(gòu)建統(tǒng)一數(shù)據(jù)集成子系統(tǒng)和分布式計算任務(wù)管理,建設(shè)具有消費管理及防爬蟲功能的分布式微服務(wù)子系統(tǒng)。

圖3 平臺技術(shù)架構(gòu)

2.3.1 技術(shù)規(guī)范制定

技術(shù)規(guī)范規(guī)定了基于NSTL大數(shù)據(jù)管理與計算平臺覆蓋文獻元數(shù)據(jù)處理的生命全周期,即技術(shù)類型、文件存儲的讀寫操作、計算處理的編程引擎、元數(shù)據(jù)規(guī)范、數(shù)據(jù)微服務(wù)接口使用等。制訂的技術(shù)標準規(guī)范包括五大類,即數(shù)據(jù)采集引進存儲規(guī)范、計算引擎技術(shù)標準規(guī)范、搜索引擎技術(shù)標準規(guī)范、高速緩存技術(shù)標準規(guī)范和服務(wù)接口技術(shù)標準規(guī)范。此外,技術(shù)標準體系各環(huán)節(jié)數(shù)據(jù)描述遵循NSTL統(tǒng)一文獻元數(shù)據(jù)標準3.0(正式版)。

針對數(shù)據(jù)來源復(fù)雜、異構(gòu)多樣、存儲分散的特點,對數(shù)據(jù)采集存儲進行規(guī)范。從采集頻率、數(shù)據(jù)文件格式、結(jié)構(gòu)化規(guī)范、存儲目錄規(guī)范、增量更新模式5個角度制定規(guī)則,以保證數(shù)據(jù)規(guī)格化、流程規(guī)范化和業(yè)務(wù)標準化。針對MapReduce和Spark計算引擎的特點,計算引擎技術(shù)標準規(guī)范從數(shù)據(jù)輸入、計算邏輯實現(xiàn)、結(jié)果輸出三個階段制定規(guī)則,以保證各業(yè)務(wù)計算模型、處理程序在平臺中正確執(zhí)行。針對ElasticSearch搜索引擎軟件集群的特點,搜索引擎技術(shù)標準規(guī)范從建索引、各類型檢索、索引更新、索引刪除等多種操作制定規(guī)則,以保證各業(yè)務(wù)在使用搜索引擎時,程序能夠正確執(zhí)行。針對Redis服務(wù)的特點,高速緩存技術(shù)標準規(guī)范從計算處理各個層面可能依賴高速緩存技術(shù)進行性能提升的環(huán)節(jié)制定規(guī)則,以保證各業(yè)務(wù)在使用Redis時,程序能夠正確執(zhí)行。針對平臺的接口管理和監(jiān)控,制定服務(wù)接口技術(shù)標準規(guī)范,用戶可以通過訪問平臺地址進入系統(tǒng),使用用戶注冊、接口申請以及API實例監(jiān)控等功能來滿足各種需求。

2.3.2 硬件設(shè)施部署

(1)服務(wù)器組件部署。NSTL大數(shù)據(jù)管理與計算平臺基礎(chǔ)設(shè)施硬件部署,將配備30臺服務(wù)器支撐數(shù)據(jù)深加工過程,強調(diào)存儲能力、計算能力、服務(wù)能力。其中,10臺服務(wù)器構(gòu)建分布式存儲集群,10臺服務(wù)器構(gòu)建分布式搜索引擎集群,6臺服務(wù)器構(gòu)建分布式計算集群,4臺服務(wù)器部署集中管理工具、日志服務(wù)應(yīng)用。

(2)網(wǎng)絡(luò)拓撲結(jié)構(gòu)。網(wǎng)絡(luò)拓撲主要由6部分組成:可擴展的數(shù)據(jù)匯聚服務(wù)器集群,可擴展和可負載均衡的Map-Reduce計算引擎,HDFS文件系統(tǒng)以及Hive數(shù)據(jù)倉庫共用服務(wù)器集群,可擴展的ElasticSearch計算引擎集群,可擴展和可負載均衡的Spark計算引擎集群,可擴展的SpringCloud微服務(wù)集群。

2.3.3 軟件設(shè)施部署

(1)關(guān)鍵技術(shù)選型。NSTL數(shù)據(jù)具有多類型、多來源、數(shù)據(jù)量級增長快等特性,傳統(tǒng)處理技術(shù)很難進行較高效的數(shù)據(jù)處理。在分布式存儲方面,G級別大文件可采用HDFS分布式文件系統(tǒng);小文件的存儲1M左右,甚至更小,則采用FastDFS文件系統(tǒng)。索引存儲采用ElasticSearch。高性能緩沖存儲采用Redis。通過以上軟件整合,可使存儲所需資源按需使用,可根據(jù)業(yè)務(wù)需要彈性伸縮存儲能力,有效節(jié)省成本用于海量數(shù)據(jù)的管理和分析,提供Hadoop/Spark框架對接能力。

在分布式計算方面,海量數(shù)據(jù)ETL等處理適合采用MapReduce、模型計算等適合采用Spark、實時要求高的計算適合采用Spark-streaming或Storm、簡單的類SQL處理適合用HiveSQL。通過以上軟件整合,可支持對海量數(shù)據(jù)的清洗、抽取等技術(shù)數(shù)據(jù)處理的并行執(zhí)行,覆蓋多種主流計算引擎??啥ㄖ浦髁鞯哪P停峁崟r分析與推薦,專注于垂直數(shù)據(jù)的深度[9]。

通過以上大數(shù)據(jù)生態(tài)圈成熟技術(shù)的整合,可使平臺具有多源聚合、多類型存儲、高吞吐、可彈性擴展、計算模型準確度高、計算資源分配較合理等特性。

(2)關(guān)鍵技術(shù)部署。平臺主要從技術(shù)架構(gòu)中的3層功能區(qū)進行部署,即數(shù)據(jù)匯聚區(qū)、數(shù)據(jù)存儲區(qū)和數(shù)據(jù)輸出區(qū)。平臺上集成部署了分布式文件系統(tǒng)(HDFS)、分布式計算系統(tǒng)(MR)、搜索引擎集群(ES)、內(nèi)存計算集群(Spark)、高性能KV服務(wù)(Redis)、數(shù)據(jù)倉庫管理工具(Hive)、分布式協(xié)調(diào)系統(tǒng)(ZK)大數(shù)據(jù)處理與管理工具等。

針對通用分布式技術(shù)環(huán)境部署進行系統(tǒng)級優(yōu)化,以開源軟件官方網(wǎng)站提供的說明為基礎(chǔ),結(jié)合集群的實際情況進行調(diào)優(yōu)。解決包括SSHD登錄慢,永久性關(guān)閉防火墻,最大打開文件數(shù)、進程數(shù)、文件數(shù)、單一進程可申請的內(nèi)存數(shù)以及關(guān)閉SWAP等問題。對分布式組件的部分重要參數(shù),通過關(guān)閉置換區(qū),增加文件描述符的最大數(shù)量,提供足夠的內(nèi)存和線程最大數(shù)量以及對JAVA虛擬機和DNS緩存的設(shè)置,進行了進一步優(yōu)化。

(3)微服務(wù)系統(tǒng)建設(shè)。平臺對外數(shù)據(jù)接口采用微服務(wù)架構(gòu),服務(wù)接口之間互相獨立部署,動態(tài)擴展,穩(wěn)定性高,易于拆分。微服務(wù)子系統(tǒng)建設(shè)將采用的技術(shù)架構(gòu)為Spring Cloud、EUREKA、ElasticSearch、MySQL。接口通過HTTP請求訪問指定的請求方法,接口在訪問ElasticSearch前進行安全策略檢查,同時響應(yīng)固定格式的返回結(jié)果。接口建立初衷是為了減少服務(wù)對于ElasticSearch集群壓力,還可以通過定制開發(fā),更好地為用戶提供優(yōu)質(zhì)的服務(wù)。

微服務(wù)子系統(tǒng)通過服務(wù)注冊模塊為各數(shù)據(jù)輸出提供接口應(yīng)用注冊,通過數(shù)據(jù)總線(Data-Bus)支撐獲取數(shù)據(jù),各應(yīng)用可共享數(shù)據(jù)通路也可獨立使用,可針對每個服務(wù)組件進行拆分和開發(fā);同時支持接口應(yīng)用熱插拔功能。

3 應(yīng)用實踐

基于上述硬件環(huán)境、軟件環(huán)境和技術(shù)規(guī)范的設(shè)計,搭建了滿足NSTL數(shù)據(jù)管理和計算需要的平臺環(huán)境。目前該平臺環(huán)境在數(shù)據(jù)治理流程、分布式計算、微服務(wù)等三方面開展了應(yīng)用。

3.1 多來源異構(gòu)數(shù)據(jù)治理流程應(yīng)用

數(shù)據(jù)治理需要建立統(tǒng)一化的流程體系,體系構(gòu)建從數(shù)據(jù)生態(tài)建立、治理統(tǒng)一規(guī)范標準、數(shù)據(jù)雙向流動、多種計算框架、數(shù)據(jù)釋放價值五方面支撐。其中數(shù)據(jù)雙向流動通過HDFS文件系統(tǒng)為中介[10],使業(yè)務(wù)存儲覆蓋多個文件系統(tǒng),互相備份數(shù)據(jù),保障安全。通過各種合適的計算框架,諸如Java程序、MapReduce程序、Spark程序等保證計算效率,節(jié)省計算資源。通過微服務(wù)技術(shù)使數(shù)據(jù)服務(wù)與數(shù)據(jù)應(yīng)用完全解耦,具有彈性擴展能力。平臺數(shù)據(jù)治理流程如圖4所示。

圖4 平臺數(shù)據(jù)治理流程

數(shù)據(jù)流管理分為批處理和流處理。在批處理階段:①②從數(shù)據(jù)源開始,對全量數(shù)據(jù)進行統(tǒng)一匯聚;③來源數(shù)據(jù)在進行ETL處理后進入分布式文件系統(tǒng)HFDS;④通過Hive元數(shù)據(jù)管理方式構(gòu)建數(shù)據(jù)倉庫;⑦采用MapReduce或者Spark計算框架,對數(shù)據(jù)進行處理后在計算索引中創(chuàng)建索引;⑧計算索引數(shù)據(jù)定時同步到服務(wù)索引中。在流處理階段:主要的區(qū)別在于通過Spark-streaming對數(shù)據(jù)進行實時處理,并在計算索引中創(chuàng)建索引,后續(xù)處理與批處理一致;⑤⑥為更方便、高效地支持多用戶使用,平臺基于計算框架底層接口開發(fā)分布式計算任務(wù)管理模塊,支撐用戶遠程提交作業(yè),共享集群的計算資源;⑨⑩在服務(wù)層,通過微服務(wù)技術(shù)將前后端分離;?分別向人、程序、機構(gòu)提供數(shù)據(jù)輸出服務(wù)。

3.2 分布式計算技術(shù)應(yīng)用

基于大數(shù)據(jù)基礎(chǔ)設(shè)施的新加工模式下的引文數(shù)據(jù)進行關(guān)系計算,形成歸一關(guān)系、被引關(guān)系和耦合關(guān)系?;跉w一關(guān)系還原引文數(shù)據(jù),充分發(fā)揮引文數(shù)據(jù)在信息發(fā)現(xiàn)、信息利用中的作用。應(yīng)用主要包括引文關(guān)系元數(shù)據(jù)設(shè)計,基于Spark引文計算流程設(shè)計,基于Spark引文計算算法封裝。

基于Spark引文計算設(shè)計流程思想,將關(guān)系計算的需求轉(zhuǎn)化為對數(shù)據(jù)集的篩選、統(tǒng)計的結(jié)構(gòu)化檢索語言。類似業(yè)務(wù)管理系統(tǒng)通過SQL實現(xiàn)主要數(shù)據(jù)操作的思想。被引關(guān)系計算主要抽取文獻被引關(guān)鍵字段,通過相關(guān)字段檢索識別可進行溯源的文獻,然后利用Spark進行被引次數(shù)累計計算,并提供實時接口輸出計算結(jié)果。耦合關(guān)系計算分別抽取兩篇文獻的關(guān)鍵字段,利用兩篇文獻的所有參考文獻進行耦合檢索(兩兩共同出現(xiàn)),然后利用Spark進行耦合數(shù)累計計算,并提供實時接口輸出計算結(jié)果。引文關(guān)系計算架構(gòu)如圖5所示。

其中Spark計算引擎原理為:通過Spark-submit提交Application,Spark管理節(jié)點(Master)將分派集群計算資源,各集群工作節(jié)點(Worker)接收任務(wù)并實時監(jiān)控運行狀態(tài)并反饋管理節(jié)點(Master)。目前已對國際西文引文(DISC)數(shù)據(jù)進行引文計算測試,約3000萬條文摘、3億條引文數(shù)據(jù)計算時間約6小時,對比原來的計算方式在時間效率上提高3倍。因為目前利用搜索引擎方式計算數(shù)據(jù),所以數(shù)據(jù)可進行增量引文關(guān)系計算,增量處理約1萬條/分鐘級別。

圖5 引文關(guān)系計算架構(gòu)

通過大數(shù)據(jù)基礎(chǔ)環(huán)境,首先解決了海量數(shù)據(jù)存儲的瓶頸問題,其次利用ElasticSearch搜索引擎解決了數(shù)據(jù)增量計算問題,最后利用Spark計算引擎提升了計算效率。

3.3 微服務(wù)技術(shù)應(yīng)用

基于大數(shù)據(jù)基礎(chǔ)環(huán)境中微服務(wù)系統(tǒng),可輕松建立各種類型的數(shù)據(jù)輸出服務(wù)接口,各服務(wù)接口獨立部署,動態(tài)擴展,穩(wěn)定性較高。如通用文獻獲取接口(XML與JSON格式)、引文關(guān)系計算的被引頻次與耦合度接口、實體規(guī)范關(guān)系接口等。部署的接口通過松耦合且獨立靈活方式無縫對接NSTL其他業(yè)務(wù)系統(tǒng),實現(xiàn)特色數(shù)據(jù)服務(wù)。

4 結(jié)語

本文通過基于大數(shù)據(jù)開源生態(tài)圈技術(shù),自主研發(fā)滿足NSTL大數(shù)據(jù)管理與計算需求的平臺,實現(xiàn)了NSTL業(yè)務(wù)流程再造目標,解決了數(shù)據(jù)存儲與計算瓶頸,提升了數(shù)據(jù)治理能力與數(shù)據(jù)服務(wù)能力。同時也探索了基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)治理框架,并結(jié)合NSTL數(shù)據(jù)服務(wù)特點介紹了相關(guān)應(yīng)用示范。未來將基于前期基礎(chǔ),不斷實踐與探索,進一步優(yōu)化流程和完善平臺,提升文獻數(shù)據(jù)的服務(wù)質(zhì)量,以適應(yīng)從文獻服務(wù)向知識服務(wù)轉(zhuǎn)變的發(fā)展戰(zhàn)略。

猜你喜歡
標準規(guī)范數(shù)據(jù)管理集群
企業(yè)級BOM數(shù)據(jù)管理概要
定制化汽車制造的數(shù)據(jù)管理分析
海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實踐
CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
海上小型無人機集群的反制裝備需求與應(yīng)對之策研究
工業(yè)鍋爐標準規(guī)范數(shù)據(jù)庫管理系統(tǒng)實現(xiàn)
一種無人機集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計
電子制作(2018年11期)2018-08-04 03:25:40
Python與Spark集群在收費數(shù)據(jù)分析中的應(yīng)用
勤快又呆萌的集群機器人
韓國擬修訂食品容器和包裝標準規(guī)范
乌苏市| 大渡口区| 大埔县| 儋州市| 尉犁县| 三台县| 彭泽县| 同心县| 永福县| 唐海县| 道孚县| 历史| 东山县| 祁连县| 鄄城县| 黄平县| 八宿县| 措勤县| 阜康市| 清苑县| 阜城县| 长阳| 德阳市| 卢湾区| 承德县| 长葛市| 黑河市| 乐亭县| 恩平市| 临江市| 泽库县| 平顶山市| 密山市| 县级市| 建阳市| 万山特区| 浮梁县| 京山县| 于都县| 汨罗市| 清水县|