国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)環(huán)境的科技管理數(shù)據(jù)集成平臺研究

2021-10-11 10:14:36劉曉晨王卓昊
情報學(xué)報 2021年9期
關(guān)鍵詞:組件科技管理

劉曉晨,王卓昊

(中國科學(xué)技術(shù)信息研究所,北京 100038)

1 引 言

我國高度重視科技發(fā)展,在“十三五”期間,面向世界科技前沿、面向經(jīng)濟(jì)主戰(zhàn)場、面向國家重大需求、面向人民生命健康,大力推進(jìn)國家科技計劃組織與實施工作[1]。有效的科技計劃項目管理通常離不開先進(jìn)的信息系統(tǒng)支撐。早在2014年12月,國務(wù)院就提出了建設(shè)完善統(tǒng)一的國家科技管理信息系統(tǒng)[2],用于支撐科技項目的全流程管理工作。該系統(tǒng)的管理階段、主要流程和典型業(yè)務(wù)如圖1所示。

圖1 國家科技管理信息系統(tǒng)的管理階段、主要流程和典型業(yè)務(wù)

隨著科技計劃管理改革的不斷推進(jìn),科技管理信息系統(tǒng)的應(yīng)用模塊持續(xù)增加、業(yè)務(wù)流程日趨復(fù)雜,導(dǎo)致科技管理數(shù)據(jù)出現(xiàn)了來源途徑多、結(jié)構(gòu)不統(tǒng)一等問題。面對海量的多源異構(gòu)數(shù)據(jù),有必要對其進(jìn)行集成管理,以此來打通分散的“數(shù)據(jù)孤島”。數(shù)據(jù)集成(data integration)是指將互相關(guān)聯(lián)的多個異構(gòu)數(shù)據(jù)源集成在一起,使用戶能夠以透明的方式對其進(jìn)行統(tǒng)一的訪問和操作。有效的數(shù)據(jù)集成不僅可以提高對數(shù)據(jù)的訪問效率,而且可以幫助用戶更好地對數(shù)據(jù)進(jìn)行管理和分析。早期的數(shù)據(jù)集成方法主要包括聯(lián)邦式數(shù)據(jù)庫、數(shù)據(jù)倉庫和中間件等[3]。近年來,伴隨著大數(shù)據(jù)平臺的體系架構(gòu)趨于成熟,加上容器技術(shù)[4]的推廣使用,基于大數(shù)據(jù)環(huán)境的數(shù)據(jù)集成技術(shù)逐漸流行,它讓數(shù)據(jù)集成平臺的架構(gòu)部署更加簡單、快捷。相對于傳統(tǒng)的數(shù)據(jù)集成平臺,在處理效率、可擴(kuò)展性、容錯性等方面都有著較大幅度的提升。

因此,針對科技管理數(shù)據(jù)面臨的多源異構(gòu)、實施效率和控制管理等問題,本文提出了一種基于大數(shù)據(jù)環(huán)境的科技管理數(shù)據(jù)集成方法。首先,介紹科技管理信息系統(tǒng)和數(shù)據(jù)集成的研究現(xiàn)狀;然后,提出一種基于大數(shù)據(jù)環(huán)境的科技管理數(shù)據(jù)集成平臺,并對其整體架構(gòu)和具體流程做了詳細(xì)的介紹;最后,通過數(shù)據(jù)可視化和數(shù)據(jù)駕駛艙的方式展示了數(shù)據(jù)集成的成效。

2 研究現(xiàn)狀

科技管理信息系統(tǒng)在國內(nèi)外政府部門、科研機(jī)構(gòu)中均有著廣泛的應(yīng)用。美國的政府資助項目統(tǒng)一管理平臺Grants.gov[5]根據(jù)美國總統(tǒng)管理議程等制度,由聯(lián)邦政府創(chuàng)建,實現(xiàn)多個聯(lián)邦政府部門的項目信息發(fā)布、申請管理以及項目資助,高效支撐聯(lián)邦政府的項目管理。法國的科研活動管理系統(tǒng)LA‐BINTEL[6]根據(jù)互聯(lián)網(wǎng)及信息技術(shù)的發(fā)展需要,由法國國家科學(xué)研究中心(Centre National de la Recher‐che Scientifique,CNRS)建設(shè)和運(yùn)營,覆蓋科技項目從申請到結(jié)項的各個環(huán)節(jié),以及成果轉(zhuǎn)化、專利管理、合同管理等業(yè)務(wù),實現(xiàn)科研項目、科研活動的管理與評估。韓國的國家科技信息服務(wù)系統(tǒng)(National Technical Information Service,NTIS)[7]順應(yīng)科技出版網(wǎng)絡(luò)化的發(fā)展趨勢,由韓國科學(xué)技術(shù)信息研究所(Korea Institute of Science and Technology Information,KISTI)建設(shè),實現(xiàn)多個政府機(jī)構(gòu)和科研機(jī)構(gòu)的研發(fā)課題收集以及成果集成,支撐政府決策部門的趨勢把控。在中國,中央和地方層面都有各自的科技管理信息系統(tǒng)。科技部的國家科技管理信息系統(tǒng)(National Science and Technology Informa‐tion System,NSTIS)[8]落實中央財政科技計劃管理改革要求,實現(xiàn)國家級科技計劃項目的全流程管理,有效支撐了科技計劃項目管理、綜合統(tǒng)籌和業(yè)務(wù)監(jiān)督。國家自然科學(xué)基金委員會的科學(xué)基金網(wǎng)絡(luò)信息系統(tǒng)(Internet-based Science Information System,ISIS)[9]滿足科學(xué)基金發(fā)展規(guī)劃要求,具備項目申請、科研人員管理、科技項目查詢等功能,支持科學(xué)基金項目的知識庫建設(shè)、資源共享和項目全過程精細(xì)化管理。廣東省科技廳的廣東科技業(yè)務(wù)管理陽光政務(wù)平臺[6]實現(xiàn)了廣東省內(nèi)科技項目指南編制、申報、評審、撥款、績效及驗收等多環(huán)節(jié)的一站式痕跡化管理,有效支撐了廣東省科技業(yè)務(wù)信息公開、資源整合和全流程“痕跡”管理,是我國地方科技管理信息系統(tǒng)的典型代表。由此可見,科技管理信息化已經(jīng)在各個層級廣泛開展。

面對科技管理信息系統(tǒng)建設(shè)中的各種問題,諸多學(xué)者展開了深入研究。吳川徽等[10]針對科研項目數(shù)據(jù)多源化、碎片化而導(dǎo)致計量分析失真的問題,提出了一種主題數(shù)據(jù)庫,用來集成科研項目數(shù)據(jù),實現(xiàn)項目從立項到產(chǎn)出的全生態(tài)鏈數(shù)據(jù)采集與計量分析。王海丹等[11]圍繞科技服務(wù)集成現(xiàn)狀中跨平臺、跨區(qū)域的資源異構(gòu)性問題,提出了一種科技服務(wù)集成的標(biāo)準(zhǔn)體系,服務(wù)于科技資源開放共享應(yīng)用。李宗俊等[12]同樣針對科技服務(wù)中資源的集成互聯(lián)問題,構(gòu)建了面向區(qū)域的數(shù)據(jù)資源池,并提出了科技資源集成的關(guān)聯(lián)優(yōu)化策略。

近年來,隨著大數(shù)據(jù)的發(fā)展,基于大數(shù)據(jù)環(huán)境的數(shù)據(jù)集成方法逐漸流行。劉堅等[13]聚焦地震科學(xué)領(lǐng)域數(shù)據(jù),以核心地震業(yè)務(wù)數(shù)據(jù)為基礎(chǔ),利用ETL(extraction transformation loading)、分布式存儲、云計算等大數(shù)據(jù)技術(shù),重點解決增量數(shù)據(jù)集成、跨平臺數(shù)據(jù)整合等問題,構(gòu)建了地震大數(shù)據(jù)共享平臺。廣東省基于大數(shù)據(jù)相關(guān)技術(shù),從基礎(chǔ)設(shè)施層、平臺服務(wù)層、應(yīng)用服務(wù)層實現(xiàn)了司法數(shù)據(jù)集成和共享平臺的建設(shè)方案[14]。解鵬飛等[15]基于大數(shù)據(jù)和數(shù)據(jù)虛擬化平臺等技術(shù),參照ODM2(the observations da‐ta model 2)信息模型和MMI ORR(marine metadata interoperability project ontology registry and repository)本體語義框架來解決海洋環(huán)境監(jiān)測數(shù)據(jù)的集成問題。數(shù)據(jù)集成相關(guān)的研究覆蓋了多個行業(yè),并且從傳統(tǒng)的數(shù)據(jù)倉庫、中間件等集成模式逐漸過渡到基于大數(shù)據(jù)和云計算的集成模式。

從上述研究情況來看,數(shù)據(jù)倉庫、中間件等仍是目前數(shù)據(jù)集成最常用的方法,在應(yīng)對信息系統(tǒng)部署分散、系統(tǒng)功能體系龐雜、業(yè)務(wù)流程差異明顯、數(shù)據(jù)集成關(guān)聯(lián)性不高等挑戰(zhàn)時,會出現(xiàn)數(shù)據(jù)處理耗時過長、無法靈活調(diào)配計算資源等問題。因此,為了適應(yīng)科技管理改革的新要求,并應(yīng)對大數(shù)據(jù)環(huán)境下的集成挑戰(zhàn),研究和開發(fā)新型科技管理數(shù)據(jù)集成平臺就顯得十分必要。

3 科技管理數(shù)據(jù)集成平臺構(gòu)建

為了提高科技管理數(shù)據(jù)集成的效率和效果,并降低數(shù)據(jù)集成平臺的運(yùn)行和維護(hù)成本,本文引入了以容器為代表的大數(shù)據(jù)相關(guān)技術(shù)來搭建數(shù)據(jù)集成平臺。容器是一種輕量級的虛擬化技術(shù)[16],具有資源占用少、運(yùn)行速度快等優(yōu)點。容器以進(jìn)程隔離的方式實現(xiàn)了運(yùn)行環(huán)境的隔離,十分適用于集群管理,可以方便、高效地搭建各類大數(shù)據(jù)應(yīng)用平臺。本文所提出的科技管理數(shù)據(jù)集成平臺就采用了容器的開源實現(xiàn),即Docker技術(shù)。

3.1 整體架構(gòu)

本文提出了一種基于大數(shù)據(jù)環(huán)境的科技管理數(shù)據(jù)集成平臺,主要包括云平臺層、大數(shù)據(jù)基礎(chǔ)能力層、數(shù)據(jù)集成層和應(yīng)用服務(wù)層,如圖2所示。

圖2 科技管理數(shù)據(jù)集成平臺架構(gòu)

(1)云平臺層。云平臺層是整個平臺的基礎(chǔ),負(fù)責(zé)管理和調(diào)度分布式資源;同時,對容器進(jìn)行編排,實現(xiàn)多用戶的租戶空間資源分配和隔離[17]。

(2)大數(shù)據(jù)基礎(chǔ)能力層。大數(shù)據(jù)基礎(chǔ)能力層負(fù)責(zé)集成各類大數(shù)據(jù)組件,并利用云平臺層提供的各類資源,為科技管理數(shù)據(jù)集成和上層應(yīng)用提供各種必要的工具。

(3)數(shù)據(jù)集成層。作為整個平臺的工作中心,數(shù)據(jù)集成層使用大數(shù)據(jù)基礎(chǔ)能力層所提供的各種工具,對科技管理信息系統(tǒng)涉及的各種數(shù)據(jù)進(jìn)行采集、轉(zhuǎn)換、治理和分析計算,并為應(yīng)用服務(wù)層提供數(shù)據(jù)服務(wù)。

(4)應(yīng)用服務(wù)層?;跀?shù)據(jù)集成層加工、治理之后的數(shù)據(jù),應(yīng)用服務(wù)層可以面向不同的應(yīng)用場景提供定制化的服務(wù),如數(shù)據(jù)可視化、科研關(guān)系分析、項目風(fēng)險分析等。同時,應(yīng)用服務(wù)層能夠利用云平臺層提供的應(yīng)用統(tǒng)一調(diào)度管理體系,對應(yīng)用進(jìn)行容器化管理。

3.2 云平臺層

云平臺層采用Mesos技術(shù)來建設(shè)分布式集群管理系統(tǒng),負(fù)責(zé)集群資源的分配,包括CPU(central processing unit)資源、內(nèi)存資源、存儲資源、網(wǎng)絡(luò)資源等[18]。在Mesos集群上可以運(yùn)行Marathon、Ha‐doop、Spark、Kafka、Hive等多種框架。由于Me‐sos本身只提供資源的分配,并不涉及存儲、任務(wù)調(diào)度等功能,因此,Mesos要和其他軟件或者系統(tǒng)搭配使用才能構(gòu)成完整的分布式系統(tǒng)。例如,將Mesos、Docker、Marathon/Chronos、ZooKeeper、HDFS(Hadoop distributed file system)組成一個完整的分布式系統(tǒng),分別負(fù)責(zé)資源分配、進(jìn)程管理、任務(wù)調(diào)度、進(jìn)程間通信和文件系統(tǒng)。云平臺層具備以下五種功能。

(1)分布式集群管理:同時支持物理機(jī)服務(wù)器和虛擬機(jī)服務(wù)器,并且可以動態(tài)擴(kuò)容,支持系統(tǒng)應(yīng)用的自動彈性擴(kuò)容和自動容錯。

(2)監(jiān)控告警管理:定時采集硬件資源數(shù)據(jù),如CPU、硬盤、內(nèi)存、網(wǎng)絡(luò)等狀態(tài)數(shù)據(jù),服務(wù)和應(yīng)用的實例數(shù)量、資源消耗等狀態(tài)數(shù)據(jù),以及分布式文件存儲系統(tǒng)的存儲狀態(tài)、文件數(shù)量等。

(3)日志文件管理:提供統(tǒng)一的日志收集、查詢和分析框架,提供標(biāo)準(zhǔn)的日志采集接口,提供應(yīng)用程序的日志采集配置和管理功能。此外,日志文件管理提供可視化的日志查看器,可以根據(jù)服務(wù)器節(jié)點、應(yīng)用類型等進(jìn)行日常查詢和分析。

(4)權(quán)限管理:實現(xiàn)多用戶的大數(shù)據(jù)平臺系統(tǒng)必要的權(quán)限控制,避免非授權(quán)用戶對系統(tǒng)重要數(shù)據(jù)或配置進(jìn)行不當(dāng)操作,不同的用戶和用戶組對系統(tǒng)的各類資源具有不同的使用權(quán)限。

(5)負(fù)載均衡管理:云平臺層采用HAProxy技術(shù)[19]來實現(xiàn)系統(tǒng)的負(fù)載均衡功能,能夠?qū)⑻囟ǖ娜蝿?wù)分發(fā)給多個服務(wù)器,從而提升了任務(wù)處理能力,保證了系統(tǒng)的高可用性。

3.3 大數(shù)據(jù)基礎(chǔ)能力層

大數(shù)據(jù)基礎(chǔ)能力層是一個能力框架層,可以快速地集成各種主流的大數(shù)據(jù)組件,為解決上層的數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理等業(yè)務(wù)需求提供有效的工具[20]。大數(shù)據(jù)基礎(chǔ)能力層的所有組件均可以高效、合理地使用云平臺層提供的各類分布式計算資源和存儲資源。絕大多數(shù)組件(除了數(shù)據(jù)存儲相關(guān)的組件)都能夠以容器化的形態(tài)發(fā)布,因此,也可以通過云平臺層提供的統(tǒng)一調(diào)度管理機(jī)制來管理。大數(shù)據(jù)基礎(chǔ)能力層所集成的組件主要分為以下五類。

(1)數(shù)據(jù)采集組件:都是基于分布式的數(shù)據(jù)采集平臺,兼容各類主流數(shù)據(jù)庫、多種網(wǎng)絡(luò)服務(wù)接口以及本地文件系統(tǒng),具有容錯和恢復(fù)機(jī)制,可提供高可靠、高可用的數(shù)據(jù)采集和傳輸服務(wù)。常用的相關(guān)組件為Kafka和Flume等。

(2)數(shù)據(jù)存儲組件:可以分布式地存儲結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的科技管理數(shù)據(jù),能夠?qū)崿F(xiàn)快速檢索和查詢功能。常用的相關(guān)組件為HDFS、MPP(massively parallel processing)、HBase、Elas‐ticsearch、Redis等。

(3)計算引擎組件:大多屬于分布式計算框架,支持對大規(guī)模的科技管理數(shù)據(jù)進(jìn)行批處理,可以有效提高數(shù)據(jù)集成的運(yùn)算效率。常用的相關(guān)組件為MapReduce、Spark等。

(4)數(shù)據(jù)處理組件:是數(shù)據(jù)查詢和分析的數(shù)據(jù)倉庫工具,如可以進(jìn)行大規(guī)模的離線數(shù)據(jù)分析。同時,數(shù)據(jù)處理組件實現(xiàn)對MySQL、HBase、HDFS中數(shù)據(jù)文件的抽取、轉(zhuǎn)換以及加載工作。常用的相關(guān)組件為Hive、Spark ETL等。

(5)其他組件:除了上述組件外,大數(shù)據(jù)基礎(chǔ)能力層還有一些機(jī)器學(xué)習(xí)組件,如SparkMLIB、TensorFlow、PyTorch等;數(shù)據(jù)挖掘和分析組件,如RapidMiner等;數(shù)據(jù)治理組件,如Atlas、Grinffin等。

3.4 數(shù)據(jù)集成層

數(shù)據(jù)集成層是整個平臺的工作中心,其主要基于ETL技術(shù),首先從各個來源抽取出原始的科技管理數(shù)據(jù),然后按照預(yù)定義的數(shù)據(jù)模型,對原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換操作,最后將轉(zhuǎn)換后的數(shù)據(jù)加載到數(shù)據(jù)湖中[21]。其中,原始數(shù)據(jù)包括多時間、多維度、多場景的科研數(shù)據(jù)、管理數(shù)據(jù)、信息化服務(wù)記錄數(shù)據(jù)等,這些原始數(shù)據(jù)共同構(gòu)成了科技管理信息系統(tǒng)的數(shù)據(jù)資產(chǎn),如圖3所示。

圖3 科技管理信息系統(tǒng)的數(shù)據(jù)資產(chǎn)

根據(jù)不同的應(yīng)用場景,可以將上述的數(shù)據(jù)資產(chǎn)以不同的方式集成起來。例如,將科研人員在不同階段提交的申報書、任務(wù)書、報告資料等數(shù)據(jù)集成起來,可以復(fù)現(xiàn)出對應(yīng)項目的完整科研歷程;又如,將某個指南方向下所有的項目和課題數(shù)據(jù)集成在一起,可以方便管理人員掌握該科研領(lǐng)域不同方向的成果??萍脊芾頂?shù)據(jù)集成的具體流程包括數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載等,如圖4所示。

圖4 科技管理數(shù)據(jù)集成流程

3.4.1 數(shù)據(jù)抽取

數(shù)據(jù)抽取的對象涉及科技項目在申請、評審、立項、執(zhí)行、驗收等生命周期內(nèi)所產(chǎn)生的各種數(shù)據(jù),主要包括指南數(shù)據(jù)、項目數(shù)據(jù)、專家數(shù)據(jù)、成果數(shù)據(jù)、信用數(shù)據(jù)、財務(wù)數(shù)據(jù)、文獻(xiàn)數(shù)據(jù)等。

對于新發(fā)布的指南或新創(chuàng)建的項目來說,可以通過全量抽取的方式,使用Sqoop、DataX等大數(shù)據(jù)組件直接從數(shù)據(jù)庫、文件或其他業(yè)務(wù)系統(tǒng)中抽取出完整的原始數(shù)據(jù)。對于原有科技項目新增或修改的數(shù)據(jù),可以通過增量的方式進(jìn)行數(shù)據(jù)抽取,即利用Flume等工具實時監(jiān)測源數(shù)據(jù)的變化,然后采取定時或定量的方式抽取出發(fā)生變化的數(shù)據(jù)。這種做法可以有效減輕數(shù)據(jù)集成平臺的運(yùn)行壓力。

3.4.2 數(shù)據(jù)轉(zhuǎn)換

通過數(shù)據(jù)抽取步驟所獲得的數(shù)據(jù)可能存在數(shù)據(jù)格式的不一致、數(shù)據(jù)輸入錯誤、數(shù)據(jù)不完整等問題,同時,為了將不同來源、不同結(jié)構(gòu)的數(shù)據(jù)有機(jī)結(jié)合起來并加以利用,往往需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換操作。

通常使用ETL引擎進(jìn)行數(shù)據(jù)轉(zhuǎn)換。ETL引擎中包含多種數(shù)據(jù)轉(zhuǎn)換組件,可以以自動化的方式實現(xiàn)字段映射、數(shù)據(jù)過濾、數(shù)據(jù)清洗、數(shù)據(jù)替換、數(shù)據(jù)計算、數(shù)據(jù)驗證、數(shù)據(jù)加解密、數(shù)據(jù)合并、數(shù)據(jù)拆分等操作,并且對數(shù)據(jù)訪問接口、數(shù)據(jù)格式以及數(shù)據(jù)傳輸方式有著嚴(yán)格的規(guī)范。有些ETL工具如Ket‐tle還提供了腳本支持[22],使得用戶可以以一種編程的方式定制數(shù)據(jù)的轉(zhuǎn)換和加工行為。使用上述ETL引擎對科技管理數(shù)據(jù)進(jìn)行轉(zhuǎn)換,可以有效清除其中的臟數(shù)據(jù),并將存在關(guān)聯(lián)的數(shù)據(jù)統(tǒng)一組織起來。同時,部分工作場景下,也需要在數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)轉(zhuǎn)換。

3.4.3 數(shù)據(jù)加載

數(shù)據(jù)集成的最終目的是將海量的異構(gòu)數(shù)據(jù)有機(jī)地匯聚在一起,在大多數(shù)情況下,并不會改變數(shù)據(jù)的原有格式。因此,原始的科技管理數(shù)據(jù)經(jīng)過轉(zhuǎn)換操作之后,仍然包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。為了將這些數(shù)據(jù)有效地組織起來,往往會將其加載到數(shù)據(jù)湖中。數(shù)據(jù)湖(data lake)[23]作為一個集中的存儲庫,可以存儲任意格式、任何規(guī)模的數(shù)據(jù),并能夠利用大數(shù)據(jù)基礎(chǔ)能力層提供的組件,對外提供快速、高效的數(shù)據(jù)查詢和處理接口。數(shù)據(jù)湖的加載方式主要有以下三種,適應(yīng)于不同的應(yīng)用場景。

(1)完全刷新。在這種方式下,數(shù)據(jù)湖中只包括最新的數(shù)據(jù)。每次加載之前,數(shù)據(jù)抽取程序會抽取源數(shù)據(jù)中的所有記錄,然后將目標(biāo)數(shù)據(jù)表清空,最后完全加載最新的集成后數(shù)據(jù)。

(2)鏡像增量。源數(shù)據(jù)中的記錄定期更新,但記錄中包括記錄時間字段,源數(shù)據(jù)中保存了數(shù)據(jù)歷史的記錄,ETL可以通過記錄時間將增量數(shù)據(jù)從源數(shù)據(jù)抽取出來,以附加的方式加載到數(shù)據(jù)湖中,數(shù)據(jù)的歷史記錄也會被保留在數(shù)據(jù)湖中。

(3)鏡像比較。源數(shù)據(jù)中的記錄每天都可能被更新,但不保留歷史記錄。數(shù)據(jù)湖中的數(shù)據(jù)具有生效日期字段,記錄變化和更新時間。加載時,將新的鏡像數(shù)據(jù)與上次加載的數(shù)據(jù)進(jìn)行比較,找出變更部分并進(jìn)行更新,同時更新生效日期。

數(shù)據(jù)集成層中的各種數(shù)據(jù)操作,都以容器化的方式進(jìn)行,這樣既可以充分利用云平臺層的容器化應(yīng)用調(diào)度編排能力,最大限度、最合理地使用計算和存儲資源,還能夠?qū)⒚總€數(shù)據(jù)集成處理的流水線進(jìn)行隔離性管理,方便對每個過程進(jìn)行監(jiān)控,及時發(fā)現(xiàn)問題,做到相互之間互不干擾,降低由于資源搶占所帶來的死鎖或沖突問題。

3.5 應(yīng)用服務(wù)層

在對科技管理數(shù)據(jù)進(jìn)行集成后,便可基于數(shù)據(jù)集成層提供的各種服務(wù)API(application program‐ming interface)來搭建應(yīng)用平臺,如數(shù)據(jù)可視化平臺、統(tǒng)計分析平臺、機(jī)器學(xué)習(xí)平臺等,為不同的用戶提供個性化的服務(wù)。以機(jī)器學(xué)習(xí)應(yīng)用平臺為例,當(dāng)把所有屬于同一科技專項的申報書或報告資料集成在一起后,即可借助條件隨機(jī)場模型CRF(con‐ditional random field)或者循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(re‐current neural network)進(jìn)行領(lǐng)域分析。

在傳統(tǒng)的科技管理信息系統(tǒng)中,如果上線新的業(yè)務(wù)或者對舊的業(yè)務(wù)進(jìn)行改進(jìn)升級,經(jīng)常要面對系統(tǒng)重新配置、項目編譯、環(huán)境依賴調(diào)整等多個繁雜的技術(shù)環(huán)節(jié),稍有不慎就有可能造成系統(tǒng)故障,系統(tǒng)的運(yùn)行效率和穩(wěn)定性也面臨巨大挑戰(zhàn)。在本文所述的平臺中,各種運(yùn)行在應(yīng)用服務(wù)層的業(yè)務(wù)以容器化的運(yùn)行模式發(fā)布和使用,應(yīng)用服務(wù)層的需求可以得到快速響應(yīng),進(jìn)而支持根據(jù)敏捷開發(fā)的理念進(jìn)行分布式協(xié)同開發(fā)、測試和部署。

4 平臺效果展示與分析

4.1 效果展示

基于上述的數(shù)據(jù)集成平臺,本節(jié)以科技項目的申報管理、立項管理、過程管理和績效評價四個階段為例,展示科技管理數(shù)據(jù)的集成效果。通過數(shù)據(jù)集成,可以實現(xiàn)項目數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的有機(jī)匯聚和關(guān)聯(lián),完整地還原了項目數(shù)據(jù)的全貌和全流程管理過程,可方便科技管理人員以時間軸的方式直觀地查看項目的執(zhí)行與管理情況。

如圖5所示,在申報受理階段,可以直觀地展示出項目的指南信息、項目申報材料、提交時間、申報提交用戶等,便于管理單位查看項目申報過程產(chǎn)生的文檔數(shù)據(jù),支撐項目申報的數(shù)字化歸檔和過程溯源。

圖5 項目申報階段可視化界面

如圖6所示,在立項管理階段,可以直觀地展示出立項操作記錄、預(yù)評審結(jié)果、答辯評審結(jié)果、視頻答辯影音記錄等,實現(xiàn)全部管理過程“可查詢、可申訴、可追溯”。

圖6 項目立項階段可視化界面

如圖7所示,在過程管理階段,可以直觀地展示出年度報告、中期報告、科技報告,以及全部經(jīng)費撥款詳情記錄,支撐項目監(jiān)督、執(zhí)行審計和重點環(huán)節(jié)把控,落實“由重立項管理到重過程管理”的改革要求。

圖7 項目過程管理階段可視化界面

如圖8所示,在績效評價階段,可以按照項目驗收業(yè)務(wù)流程展示出綜合績效自評價報告、各類審查和評議意見、成果提交情況、項目跟蹤情況等,較以往更好地實現(xiàn)了項目全流程閉環(huán)管理和持續(xù)跟蹤評價。

圖8 項目績效評價階段可視化界面

為了進(jìn)一步利用數(shù)據(jù)集成成果,本文構(gòu)建了科技管理數(shù)據(jù)駕駛艙應(yīng)用系統(tǒng),更加形象化、直觀化和具體化地反映科技管理數(shù)據(jù)運(yùn)行態(tài)勢。在駕駛艙應(yīng)用環(huán)境中,初步實現(xiàn)了項目數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)相結(jié)合、歷史數(shù)據(jù)和實時數(shù)據(jù)相結(jié)合、項目相關(guān)數(shù)據(jù)和操作留痕數(shù)據(jù)相結(jié)合、科技計劃數(shù)據(jù)與其他學(xué)術(shù)資源數(shù)據(jù)相結(jié)合的科技管理數(shù)據(jù)集成效果的綜合呈現(xiàn)。

上述工作對科技項目管理起到了支撐作用,在集成應(yīng)用方面具有創(chuàng)新價值。

(1)打破數(shù)據(jù)分散現(xiàn)狀,實現(xiàn)數(shù)據(jù)貫通。通過數(shù)據(jù)集成,打破了以往科技管理過程中數(shù)據(jù)分散的情況,實現(xiàn)了科技項目與業(yè)務(wù)數(shù)據(jù)的匯聚和關(guān)聯(lián),還原科技項目數(shù)據(jù)的全貌,服務(wù)科技管理人員直觀、便捷地查看項目的執(zhí)行與管理過程。

(2)提高數(shù)據(jù)應(yīng)用效率,發(fā)揮數(shù)據(jù)效能。以數(shù)據(jù)處理方式匯聚數(shù)據(jù)資源,以數(shù)據(jù)集成技術(shù)串聯(lián)項目全流程管理過程,實現(xiàn)了規(guī)范化、自動化以及分布式的數(shù)據(jù)管理,提高數(shù)據(jù)管理與應(yīng)用效率,有效地發(fā)揮了數(shù)據(jù)服務(wù)效能。

(3)全局展現(xiàn)科技數(shù)據(jù),服務(wù)科技決策。數(shù)據(jù)集成應(yīng)用實現(xiàn)了動態(tài)化、直觀化以及全局化的數(shù)據(jù)展示,幫助科技管理部門和人員更好地統(tǒng)籌科技管理全局,為科技管理和決策提供技術(shù)支撐和數(shù)據(jù)支持,是發(fā)揮科技數(shù)據(jù)服務(wù)作用的重要體現(xiàn)。

4.2 挑戰(zhàn)及展望

本文在使用基于大數(shù)據(jù)環(huán)境的平臺架構(gòu)對科技管理數(shù)據(jù)進(jìn)行集成的過程中,主要面臨以下六個方面的挑戰(zhàn)。

(1)數(shù)據(jù)規(guī)模不斷擴(kuò)大。中央和地方資金支持的科技項目越來越多,產(chǎn)生各種數(shù)據(jù)的規(guī)模也不斷擴(kuò)大,這給系統(tǒng)的計算性能和存儲性能帶來了嚴(yán)峻的考驗,因此,需要提出新的方法來合理組織和存儲科技管理數(shù)據(jù)[24]。

(2)數(shù)據(jù)結(jié)構(gòu)愈加復(fù)雜。隨著科技管理信息系統(tǒng)的不斷更新和升級,其所接入的數(shù)據(jù)結(jié)構(gòu)也越來越復(fù)雜,除了一般意義上的結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù),許多專業(yè)領(lǐng)域還存在其獨有的數(shù)據(jù)類型,如基因組序列、衛(wèi)星地圖、CAD(computeraided design)文件等。如何將這些異構(gòu)的數(shù)據(jù)有效地集成起來,是一個需要長期攻關(guān)的難題。

(3)數(shù)據(jù)源的動態(tài)性??萍脊芾頂?shù)據(jù)并不是靜態(tài)的,而是在動態(tài)變化,包括數(shù)據(jù)自身的增刪改、權(quán)限調(diào)整、獲取方式變更等,如何保持集成后的數(shù)據(jù)與實際數(shù)據(jù)之間的同步狀態(tài)是一個至關(guān)重要的問題。若同步頻率太高,則需要付出較大的人員、時間、經(jīng)費代價;若同步頻率太低,則會使得集成數(shù)據(jù)的可用性變差。

(4)數(shù)據(jù)集成的伸縮性。工作之初,數(shù)據(jù)集成的數(shù)據(jù)源數(shù)量偏少,系統(tǒng)壓力階段可控,但往往增長趨勢未知,數(shù)據(jù)源數(shù)量與應(yīng)用效果互相構(gòu)成“馬太效應(yīng)”。當(dāng)數(shù)據(jù)集成面臨巨量數(shù)據(jù)源,系統(tǒng)吞吐效率、忙閑峰谷調(diào)控都面臨巨大困難,往往資源不足與效率不足并存。

(5)數(shù)據(jù)集成的容錯性。數(shù)據(jù)量大和數(shù)據(jù)源復(fù)雜必定帶來數(shù)據(jù)傳輸邏輯判別、質(zhì)量控制要求,如何支撐斷點續(xù)傳、如何控制重復(fù)數(shù)據(jù)、如何實現(xiàn)數(shù)據(jù)關(guān)聯(lián)回滾及版本控制,成為集成的關(guān)鍵挑戰(zhàn)之一。

(6)數(shù)據(jù)的語義信息理解??萍脊芾頂?shù)據(jù)大部分是文本數(shù)據(jù),如何借助自然語言處理中的模型實現(xiàn)科技管理文本數(shù)據(jù)在語義層面上的理解,發(fā)現(xiàn)數(shù)據(jù)之間存在的更深層次的關(guān)聯(lián)關(guān)系,將成為后續(xù)研究的重點問題。

5 小結(jié)

本文從科技管理實際業(yè)務(wù)需求出發(fā),結(jié)合以往的研究工作,提出了一種基于大數(shù)據(jù)環(huán)境的科技管理數(shù)據(jù)集成平臺,該平臺充分利用了大數(shù)據(jù)各種控制、計算、存儲等組件,具備良好的穩(wěn)定性、可維護(hù)性和容錯性。通過這種平臺對科技管理信息系統(tǒng)中存在的海量、多源、異構(gòu)數(shù)據(jù)進(jìn)行集成,可以有效地利用科技管理數(shù)據(jù),為支撐科技管理決策、綜合統(tǒng)籌提供理論方法和技術(shù)保障。

猜你喜歡
組件科技管理
棗前期管理再好,后期管不好,前功盡棄
無人機(jī)智能巡檢在光伏電站組件診斷中的應(yīng)用
能源工程(2022年2期)2022-05-23 13:51:50
新型碎邊剪刀盤組件
U盾外殼組件注塑模具設(shè)計
科技助我來看云
科技在線
科技在線
“這下管理創(chuàng)新了!等7則
雜文月刊(2016年1期)2016-02-11 10:35:51
科技在線
風(fēng)起新一代光伏組件膜層:SSG納米自清潔膜層
太陽能(2015年11期)2015-04-10 12:53:04
米泉市| 吴堡县| 抚松县| 迁西县| 北票市| 康乐县| 扶沟县| 平湖市| 扎兰屯市| 大连市| 宜良县| 新乐市| 曲阳县| 黑山县| 涡阳县| 南平市| 大田县| 桦甸市| 苗栗县| 昂仁县| 安丘市| 建平县| 克什克腾旗| 武宁县| 澜沧| 乐亭县| 广丰县| 乐东| 万年县| 白银市| 星子县| 泽普县| 图们市| 南丰县| 泸溪县| 白朗县| 新营市| 丁青县| 德昌县| 会泽县| 兴业县|