趙望強(qiáng) 柳毅 譚青
摘 要:在大數(shù)據(jù)的基礎(chǔ)上,針對(duì)目前各類科技咨詢專家?guī)旃芾硇畔⑾到y(tǒng)建設(shè)現(xiàn)狀和應(yīng)用存在的問題,結(jié)合大數(shù)據(jù)存儲(chǔ)和分析技術(shù),對(duì)專家?guī)旃芾硇畔⑾到y(tǒng)進(jìn)行了框架設(shè)計(jì)和系統(tǒng)功能設(shè)計(jì)的研究。通過對(duì)專家?guī)旃芾硇畔⑾到y(tǒng)的構(gòu)建探討,從而實(shí)現(xiàn)科學(xué)管理專家信息和抽取專家。該構(gòu)建方法有利于盤活數(shù)據(jù),讓數(shù)據(jù)說話,為專家信息服務(wù)提供支撐。
關(guān)鍵詞:大數(shù)據(jù) 專家信息 專家?guī)旃芾硇畔⑾到y(tǒng)
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2018)10(c)-0012-03
Abstract:On the basis of big data,Aiming at the current situation and application problems of various types of science and technology consulting expert library management information system construction, combined with big data storage and analysis technology, the framework design and system function design of expert database management information system are studied.Through the discussion of the construction of the expert database management information system, scientific management expertinformation and extraction experts can be realized.Thisconstruction method is conducive to revitalizing data, allowing data to speak and providing support for expertinformation services.
Key Words:Big data; Expert information; Expert library management information system
隨著科技創(chuàng)新咨詢與決策環(huán)境的日益復(fù)雜化以及科技創(chuàng)新咨詢與評(píng)審項(xiàng)目的層出不窮,科技評(píng)審專家其咨詢意見和建議對(duì)于促進(jìn)科技成果轉(zhuǎn)化,減少科技決策失誤,提高科技發(fā)展水平和科技創(chuàng)新具有重要作用。而專家?guī)旃芾硇畔⑾到y(tǒng)(以下簡(jiǎn)稱“專家?guī)旃芾硐到y(tǒng)”)作為收集各行業(yè)專家的信息智庫(kù),為發(fā)揮專家在科技創(chuàng)新戰(zhàn)略咨詢決策中的重要作用,及提高科技管理和決策的科學(xué)化、規(guī)范化水平提供重要平臺(tái)條件保障。
數(shù)字化時(shí)代下,特別是在科技行業(yè)中,現(xiàn)科技項(xiàng)目存在著多學(xué)科的交叉和融合,如何根據(jù)科技項(xiàng)目特點(diǎn)抽取合適的專家已成為專家?guī)旃芾硐到y(tǒng)建設(shè)難點(diǎn)。
針對(duì)上述問題,通過介紹專家?guī)煨畔⑾到y(tǒng)的應(yīng)用現(xiàn)狀,本文提出了基于大數(shù)據(jù)技術(shù)下專家?guī)旃芾硐到y(tǒng)的總體框架和系統(tǒng)設(shè)計(jì)及如何在建設(shè)中應(yīng)用大數(shù)據(jù)技術(shù)。
1 科技專家?guī)旃芾硇畔⑾到y(tǒng)建設(shè)現(xiàn)狀
1.1 目前建設(shè)現(xiàn)狀
科技專家?guī)煨畔⑾到y(tǒng)的建設(shè)是一個(gè)動(dòng)態(tài)建設(shè)和管理過程,目前,基本的建設(shè)現(xiàn)狀如下。
(1)承擔(dān)建設(shè)主體多。各省市科技業(yè)務(wù)部門均不同程度開展了專家?guī)斓慕ㄔO(shè),均建有自己的科技咨詢專家?guī)旃芾硐到y(tǒng)[1]。因各個(gè)專家?guī)旖ㄔO(shè)的標(biāo)準(zhǔn)和評(píng)審業(yè)務(wù)類型不同,這些專家?guī)煜嗷オ?dú)立,分別由不同的部門管理和使用,而且相互間難以共享。
(2)專家標(biāo)準(zhǔn)規(guī)范多。現(xiàn)已建各類專家?guī)旃芾硐到y(tǒng)按照各自管理需要對(duì)專家進(jìn)行標(biāo)準(zhǔn)分類入庫(kù),各類專家的信息標(biāo)準(zhǔn)規(guī)范基本上能夠符合本級(jí)所屬業(yè)務(wù)需要或使用需要,
(3)抽取專家方法一致。對(duì)評(píng)審項(xiàng)目中按照項(xiàng)目所屬技術(shù)領(lǐng)域或?qū)W科大類對(duì)項(xiàng)目分組,根據(jù)分組統(tǒng)一對(duì)入庫(kù)專家進(jìn)行匹配,從而實(shí)現(xiàn)專家抽取。
1.2 應(yīng)用存在問題
(1)專家基礎(chǔ)資源少,難以找到需求數(shù)量。雖然專家信息系統(tǒng)建設(shè)主體多,但相互獨(dú)立,導(dǎo)致科技專家資源過度分散、不便交流,難以聯(lián)通。專家信息來源方式單一,由專家自我填寫。一旦當(dāng)參評(píng)項(xiàng)目數(shù)超過庫(kù)有專家一定比例要求時(shí),就會(huì)存在難以找到更多的專家滿足項(xiàng)目評(píng)審的需求。
(2)專家類型單一,難以滿足精準(zhǔn)需求。專家標(biāo)準(zhǔn)規(guī)范多,分類類別標(biāo)準(zhǔn)不一,以及在數(shù)據(jù)庫(kù)專家信息關(guān)系上結(jié)構(gòu)單一,常用關(guān)系數(shù)據(jù)庫(kù)線性表存儲(chǔ),容易造成僅是數(shù)據(jù)量的疊加,不是信息的展現(xiàn)。一定程度上影響項(xiàng)目對(duì)評(píng)審專家的精準(zhǔn)匹配需求。
2 大數(shù)據(jù)技術(shù)下專家?guī)旃芾硇畔⑾到y(tǒng)構(gòu)建
2.1 專家?guī)旃芾硇畔⑾到y(tǒng)架構(gòu)
大數(shù)據(jù)環(huán)境下,以科技項(xiàng)目、成果、專家等為代表的科技數(shù)據(jù)發(fā)展著不可或缺的作用,以科技大數(shù)據(jù)為基礎(chǔ),將科研項(xiàng)目、專家、成果、大型儀器、科技文獻(xiàn)等科技創(chuàng)新要素進(jìn)行有機(jī)結(jié)合,可以為科技管理者、科研人員、社會(huì)公眾等各類用戶開展專家管理、專家推薦等輔助決策服務(wù)。系統(tǒng)架構(gòu)設(shè)計(jì)如圖1所示。
(1)基礎(chǔ)數(shù)據(jù)層。專家?guī)旃芾硐到y(tǒng)主要依托專家信息基本庫(kù)和接入各類科技計(jì)劃管理系統(tǒng)的現(xiàn)有或歷史的項(xiàng)目基礎(chǔ)數(shù)據(jù)及其他各類數(shù)據(jù),如:人員信息庫(kù)、論文資源庫(kù)、機(jī)構(gòu)信息庫(kù)等。這些數(shù)據(jù)具有海量、標(biāo)準(zhǔn)規(guī)范不一、結(jié)構(gòu)各異的特征。
(2)數(shù)據(jù)存儲(chǔ)分析層。數(shù)據(jù)存儲(chǔ)分析層是基礎(chǔ)數(shù)據(jù)匯聚(包括數(shù)據(jù)識(shí)別、數(shù)據(jù)傳輸、數(shù)據(jù)感知等過程[2])后,在數(shù)據(jù)管控和數(shù)據(jù)安全前提下運(yùn)用大數(shù)據(jù)處理技術(shù)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)清洗及加工形成數(shù)據(jù)中心庫(kù)。在數(shù)據(jù)中心庫(kù)中對(duì)數(shù)據(jù)進(jìn)行計(jì)算、數(shù)據(jù)分析及關(guān)聯(lián)關(guān)系,將結(jié)果提供給數(shù)據(jù)服務(wù)層,支撐系統(tǒng)業(yè)務(wù)。
(3)數(shù)據(jù)服務(wù)層。數(shù)據(jù)服務(wù)層主要是根據(jù)業(yè)務(wù)的實(shí)際需要,整合互聯(lián)網(wǎng)的可視化互動(dòng)交流技術(shù)實(shí)現(xiàn)前端的顯示和應(yīng)用。具體業(yè)務(wù)應(yīng)用有專家管理、科技項(xiàng)目咨詢、評(píng)審等。
2.2 大數(shù)據(jù)關(guān)鍵技術(shù)
(1)數(shù)據(jù)存儲(chǔ)技術(shù)。
對(duì)于從各種類型庫(kù)來源的數(shù)據(jù),如有專家信息、項(xiàng)目信息(項(xiàng)目申報(bào)書、任務(wù)書、驗(yàn)收書、科技報(bào)告等)、視頻、圖片、音頻等,這些數(shù)據(jù)類型可分為結(jié)構(gòu)化和非結(jié)構(gòu)化,結(jié)構(gòu)化數(shù)據(jù)一般使用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)和管理。而管理非結(jié)構(gòu)化數(shù)據(jù)就非常復(fù)雜,海量異構(gòu)管理方面存在著一定的問題[3]。在這種情況下,就需要用到大數(shù)據(jù)存儲(chǔ)技術(shù)將零散數(shù)據(jù)整合到一起管理。
主要運(yùn)用存儲(chǔ)技術(shù)有分布式文件系統(tǒng)(HDFS)、NoSQL數(shù)據(jù)庫(kù)(HBase)、大數(shù)據(jù)倉(cāng)庫(kù)(Hive)、MPP數(shù)據(jù)庫(kù)等存儲(chǔ)系統(tǒng),實(shí)現(xiàn)對(duì)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和數(shù)據(jù)實(shí)時(shí)處理。
(2)大數(shù)據(jù)挖掘分析技術(shù)。
各類基礎(chǔ)數(shù)據(jù)里隱藏著無窮的價(jià)值,但直接從里面獲取有效的信息,是非常困難的。主要是因?yàn)閿?shù)據(jù)分散且數(shù)據(jù)規(guī)模大,難以處理且難以消化等。因此,在數(shù)據(jù)已經(jīng)收集存儲(chǔ)的基礎(chǔ)上,通過對(duì)帶數(shù)據(jù)挖掘技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行挖掘分析,大數(shù)據(jù)技術(shù)不是一款簡(jiǎn)單的數(shù)據(jù)分析軟件,而是要從大體量、多類別數(shù)據(jù)中獲取價(jià)值。常用的大數(shù)據(jù)分析方法:回歸分析、聚類分析、網(wǎng)絡(luò)分析、關(guān)聯(lián)分析等。
本文主要采用關(guān)聯(lián)分析和文本分析。文本分析屬于自然語言處理領(lǐng)域,主要包括詞典管理和文本處理。詞典庫(kù)是文本分析的數(shù)據(jù)基礎(chǔ),文本處理是產(chǎn)生高質(zhì)量文本的過程,提供了詞性分析、自動(dòng)摘要、依存文法、關(guān)鍵詞提取、詞義聯(lián)系、分詞工具、漢字轉(zhuǎn)拼音、繁體轉(zhuǎn)換、簡(jiǎn)體轉(zhuǎn)換等功能。根據(jù)文本分析形成的數(shù)據(jù),進(jìn)行多維關(guān)聯(lián)分析,語義關(guān)聯(lián)與聚合,實(shí)現(xiàn)以人為中心的關(guān)系圖譜。
2.3 專家管理信息系統(tǒng)的設(shè)計(jì)
專家?guī)旃芾硐到y(tǒng)使用用戶有科研項(xiàng)目管理者、專家。該系統(tǒng)一方面是為科研管理者提供信息手段管理,另一方面是為專家提供服務(wù)??偟脑瓌t是以大數(shù)據(jù)技術(shù)為技術(shù)基礎(chǔ),保證科技咨詢專家科學(xué)管理的同時(shí),重點(diǎn)強(qiáng)化數(shù)據(jù)支撐科技咨詢業(yè)務(wù)的能力建設(shè)。專家?guī)旃芾硐到y(tǒng)根據(jù)業(yè)務(wù)需求主要由專家管理和專家推薦兩大部分組成,如圖2所示。
(1)專家管理。專家管理系統(tǒng)以信息標(biāo)準(zhǔn)規(guī)范為基準(zhǔn),大數(shù)據(jù)存儲(chǔ)技術(shù)為手段,負(fù)責(zé)對(duì)專家的信息征集,對(duì)有效專家信息的入庫(kù),出庫(kù)審核。通過大數(shù)據(jù)信息挖掘與分析技術(shù)對(duì)專家信息深度化高效動(dòng)態(tài)管理等。
(2)專家推薦。專家推薦以專家管理中對(duì)專家數(shù)據(jù)分析為基礎(chǔ),并對(duì)大數(shù)據(jù)關(guān)聯(lián)分析形成的專家多維信息(基本信息、學(xué)歷、工作經(jīng)歷、榮譽(yù)、承擔(dān)項(xiàng)目、科研成果等)進(jìn)行標(biāo)引。經(jīng)過限制條件(如支撐、人才稱號(hào)等)層層篩選,與被評(píng)審項(xiàng)目精細(xì)化匹配。評(píng)審活動(dòng)結(jié)束后由管理者對(duì)參與的專家進(jìn)行進(jìn)一步評(píng)價(jià),以此來提高專家項(xiàng)目評(píng)審質(zhì)量。
3 系統(tǒng)其他方面的建議
(1)加強(qiáng)數(shù)據(jù)權(quán)限和安全管理。專家管理信息系統(tǒng)不僅只是單個(gè)管理系統(tǒng),也是個(gè)人信息的大數(shù)據(jù)資源。信息安全問題也就由此產(chǎn)生。特別是基本信息、知識(shí)產(chǎn)權(quán)信息等等都面臨著使用權(quán)限和安全管理等問題,也就帶來了更高的管理要求。
(2)擴(kuò)大基礎(chǔ)數(shù)據(jù)來源?;A(chǔ)數(shù)據(jù)不足或有效數(shù)據(jù)量不多時(shí),系統(tǒng)也就發(fā)揮不出特有的數(shù)據(jù)優(yōu)勢(shì)。建議擴(kuò)寬信息來源渠道,如從網(wǎng)絡(luò)或從其他機(jī)構(gòu)獲?。惶岣咝畔①|(zhì)量檢測(cè)篩選或以共建共享方式提高數(shù)據(jù)質(zhì)量。
4 結(jié)語
通過大數(shù)據(jù)技術(shù)對(duì)專家?guī)旃芾硇畔⑾到y(tǒng)進(jìn)行重新構(gòu)建,為建設(shè)資源豐富、運(yùn)行高效、結(jié)構(gòu)合理、標(biāo)準(zhǔn)規(guī)范的科技專家?guī)焯峁├碚搮⒖?。完善了專家推薦能力,提高決策的科學(xué)化和民主化水平,以及對(duì)科技管理工作水平及項(xiàng)目評(píng)審的規(guī)范性及客觀公平性具有重要意義。
參考文獻(xiàn)
[1] 陳洪平.科技咨詢專家管理系統(tǒng)的回顧與思考[J].價(jià)值工程,2014,33(5):194-195.
[2] 何清,敖翔,莊福振,等.一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用[J].信息通信技術(shù),2015,9(6):42-49.
[3] 梁吉業(yè),錢宇華,李德玉,等.大數(shù)據(jù)挖掘的粒計(jì)算理論與方法[J].中國(guó)科學(xué):信息科學(xué),2015,45(11):1355-1369.