楊 俊
(中國藝術(shù)科技研究所,北京 100007)
科技成果能否轉(zhuǎn)化為現(xiàn)實(shí)生產(chǎn)力已經(jīng)成為衡量一個(gè)國家和地區(qū)科技發(fā)展水平的重要標(biāo)志,促進(jìn)科技成果轉(zhuǎn)移轉(zhuǎn)化是實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略的重要任務(wù),是加強(qiáng)科技與經(jīng)濟(jì)緊密結(jié)合的關(guān)鍵環(huán)節(jié),對于推進(jìn)結(jié)構(gòu)性改革尤其是供給側(cè)結(jié)構(gòu)性改革、支撐經(jīng)濟(jì)轉(zhuǎn)型升級和產(chǎn)業(yè)結(jié)構(gòu)調(diào)整,打造經(jīng)濟(jì)發(fā)展新引擎具有重要意義。
依據(jù)《中共中央關(guān)于制定國民經(jīng)濟(jì)和社會發(fā)展第十四個(gè)五年規(guī)劃和二〇三五年遠(yuǎn)景目標(biāo)的建議》,以近年來黨中央國務(wù)院就高質(zhì)量發(fā)展、供給側(cè)結(jié)構(gòu)性改革、培育新業(yè)態(tài)新動(dòng)能、擴(kuò)內(nèi)需促消費(fèi)、完善要素市場、發(fā)展文化產(chǎn)業(yè)做出的系列部署為指導(dǎo),遵循大幅提高科技成果轉(zhuǎn)移轉(zhuǎn)化成效要求,構(gòu)建文化科技成果轉(zhuǎn)化的系統(tǒng)(即專業(yè)性網(wǎng)站或軟件系統(tǒng)),其以科研項(xiàng)目、學(xué)術(shù)論文、專利、科技動(dòng)態(tài)、科研人員、機(jī)構(gòu)等為主要數(shù)據(jù)源,進(jìn)行文化科技學(xué)科分析、影響力評價(jià)、關(guān)聯(lián)挖掘等大數(shù)據(jù)加工,并利用專業(yè)應(yīng)用門戶網(wǎng)站展示成果轉(zhuǎn)化的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及數(shù)據(jù)源的關(guān)系。通過文化科技成果轉(zhuǎn)化系統(tǒng)可以探索科技成果轉(zhuǎn)化路徑,激發(fā)數(shù)據(jù)資源潛力,推動(dòng)文化科技產(chǎn)業(yè)鏈創(chuàng)新和應(yīng)用。
目前,文化科技的創(chuàng)新研究主要集中在科研院所和大專院校,以及有研發(fā)能力的企事業(yè)單位,文化科技創(chuàng)新成果與企業(yè)相結(jié)合的路徑和模式上存在問題,從基礎(chǔ)研究到技術(shù)開發(fā)、從實(shí)驗(yàn)室模型到企業(yè)轉(zhuǎn)化存在斷點(diǎn),科技項(xiàng)目、科研人員、科技成果等方面有海量科研數(shù)據(jù)資源極度分散,共享程度較低,研究項(xiàng)目與應(yīng)用需求沒有對接。如何將這些科技成果供給與文化產(chǎn)業(yè)需求精準(zhǔn)對接,以達(dá)到科技創(chuàng)新促進(jìn)經(jīng)濟(jì)高質(zhì)量發(fā)展,是亟待解決的問題。
為構(gòu)建文化科技成果轉(zhuǎn)化系統(tǒng),需要建立一套技術(shù)方案,如圖1所示。首先,通過開放API(Application Programming Interface,應(yīng)用程序接口),進(jìn)行公開數(shù)據(jù)、爬取數(shù)據(jù)與合作數(shù)據(jù)的采集,如通過CNKI、DBLP、CSCD、OAD等數(shù)據(jù)庫獲取論文數(shù)據(jù),通過國內(nèi)外專利網(wǎng)站獲取專利數(shù)據(jù),通過合作機(jī)構(gòu)獲取人才數(shù)據(jù)、科研成果數(shù)據(jù);再進(jìn)行預(yù)處理,依據(jù)統(tǒng)一規(guī)范的元數(shù)據(jù)描述,將采集到的數(shù)據(jù)存入數(shù)據(jù)庫或者分布式文件系統(tǒng)中。然后,使用基于規(guī)則和智能算法的實(shí)體識別和實(shí)體融合,抽取數(shù)據(jù)庫中的實(shí)體和關(guān)系,從而構(gòu)建圖數(shù)據(jù)庫模型。同時(shí),通過知識推理相關(guān)技術(shù),實(shí)現(xiàn)學(xué)科耦合關(guān)系推理、師承關(guān)系推理、學(xué)科熱詞推理等功能,豐富和擴(kuò)展數(shù)據(jù)庫;并基于此更新任務(wù)流水線,實(shí)現(xiàn)系統(tǒng)模式層和數(shù)據(jù)層的動(dòng)態(tài)增量更新。
文化科技成果轉(zhuǎn)化系統(tǒng)的架構(gòu)分為四層,分別是數(shù)據(jù)層、分析層、服務(wù)層及應(yīng)用層,如圖2所示。
圖2 系統(tǒng)架構(gòu)
2.2.1 數(shù)據(jù)層
在數(shù)據(jù)層,首先抽取、重新組織開放數(shù)據(jù)、爬取數(shù)據(jù)與合作數(shù)據(jù),包含開源專利、公開科技文獻(xiàn)、科研人員、機(jī)構(gòu)、項(xiàng)目等多種數(shù)據(jù)類型。然后,通過唯一標(biāo)識、網(wǎng)絡(luò)關(guān)聯(lián)及結(jié)構(gòu)化等方法完成對數(shù)據(jù)的預(yù)處理,構(gòu)建文化科技知識網(wǎng)絡(luò)圖數(shù)據(jù)庫、多維數(shù)據(jù)庫等模型,進(jìn)行有效的數(shù)據(jù)庫運(yùn)行和維護(hù),支持?jǐn)?shù)據(jù)分布式處理,支持導(dǎo)出與發(fā)布,實(shí)現(xiàn)一體化數(shù)據(jù)存儲,形成統(tǒng)一的數(shù)據(jù)資源中心。
文化科技數(shù)據(jù)資源中心,通過ETL(抽取-轉(zhuǎn)換-裝載)實(shí)現(xiàn)對大規(guī)模多維數(shù)據(jù)及網(wǎng)絡(luò)數(shù)據(jù)的高效存儲,結(jié)合成熟的開源大數(shù)據(jù)平臺及大數(shù)據(jù)平臺管理工具,構(gòu)成起文化科技大數(shù)據(jù)關(guān)系網(wǎng)絡(luò)體系,為數(shù)據(jù)存儲、管理提供基礎(chǔ)的大數(shù)據(jù)環(huán)境。
2.2.2 分析層
分析層是在數(shù)據(jù)層完成對數(shù)據(jù)組織與管理的基礎(chǔ)上,實(shí)現(xiàn)多維統(tǒng)計(jì)分析以及知識網(wǎng)絡(luò)檢索、分析。其中,多維統(tǒng)計(jì)分析服務(wù)子系統(tǒng)的構(gòu)建包括統(tǒng)計(jì)維度、Top-N統(tǒng)計(jì)、CUBE、SQL界面,基于Kylin的多維分析功能,根據(jù)管理的需求進(jìn)行自定義的開發(fā),以實(shí)現(xiàn)多維分析的功能。知識網(wǎng)絡(luò)檢索與分析服務(wù)子系統(tǒng)的構(gòu)建包括關(guān)聯(lián)檢索、關(guān)鍵節(jié)點(diǎn)發(fā)現(xiàn)、聚類分析、PageRank分析等,基于Titan的網(wǎng)絡(luò)分析功能,根據(jù)知識庫管理的需求進(jìn)行自定義的開發(fā),以實(shí)現(xiàn)網(wǎng)絡(luò)分析的功能。
在同一類數(shù)據(jù)內(nèi)部及不同類數(shù)據(jù)之間,存在大量的網(wǎng)絡(luò)特性,利用經(jīng)典的網(wǎng)絡(luò)分析算法,在數(shù)據(jù)層的數(shù)據(jù)處理基礎(chǔ)上,實(shí)現(xiàn)知識網(wǎng)絡(luò)關(guān)聯(lián)查詢、知識網(wǎng)絡(luò)圖分析及知識網(wǎng)絡(luò)圖分析挖掘算法庫,為上層應(yīng)用子系統(tǒng)提供分析服務(wù)及算法支持。在知識網(wǎng)絡(luò)關(guān)聯(lián)查詢上,實(shí)現(xiàn)科研項(xiàng)目、科研人員、科研成果、依托科研單位等分布式三角形計(jì)算的關(guān)聯(lián)關(guān)系查詢、分布式連通子圖查詢,實(shí)現(xiàn)基于最小生成樹獲取圖的概要信息和索引結(jié)構(gòu)及基于遍歷的實(shí)時(shí)查詢。在知識網(wǎng)絡(luò)圖分析上,實(shí)現(xiàn)知識網(wǎng)絡(luò)圖的關(guān)鍵節(jié)點(diǎn)發(fā)現(xiàn)、頻繁子圖挖掘及重疊社區(qū)發(fā)現(xiàn)。在知識網(wǎng)絡(luò)分析挖掘算法庫上,實(shí)現(xiàn)PageRank分析、知識網(wǎng)絡(luò)聚類分析、科研社區(qū)分析和抽取的知識網(wǎng)絡(luò)LDA(Linear Discriminant Analysis, 線性判別分析)及科研人員網(wǎng)絡(luò)的三角關(guān)系關(guān)聯(lián)分析。
2.2.3 服務(wù)層
在分析層完成基本的多維分析及網(wǎng)絡(luò)分析方法的基礎(chǔ)上,服務(wù)層以微服務(wù)接口的方式提供查詢服務(wù)、統(tǒng)計(jì)分析和智能挖掘服務(wù)。
(1)查詢服務(wù)
查詢服務(wù)指以Web交互的方式檢索存在關(guān)聯(lián)的項(xiàng)目、人員、成果等,為用戶與知識網(wǎng)絡(luò)提供關(guān)聯(lián)交互手段。例如,用戶輸入關(guān)鍵字“項(xiàng)目A”,應(yīng)用子系統(tǒng)返回“項(xiàng)目A”的相關(guān)信息,如主要參與人員、項(xiàng)目成果、以及存在關(guān)聯(lián)關(guān)系的項(xiàng)目、成果、人員。用戶可以根據(jù)這些信息選擇進(jìn)一步的檢索,以發(fā)現(xiàn)感興趣的研究課題和研究成果,與相關(guān)科研人員建立朋友關(guān)系以便進(jìn)一步合作。
(2)統(tǒng)計(jì)分析
統(tǒng)計(jì)分析指在研究人員、單位、項(xiàng)目、成果等多維度組合數(shù)據(jù)查詢結(jié)果基礎(chǔ)上,采用可視化技術(shù)把多維數(shù)據(jù)展示出來,并提供項(xiàng)目、成果、詞匯的趨勢分析。
(3)智能挖掘
智能挖掘指采用混合搜索的方式,同時(shí)輸入實(shí)體和關(guān)系,以縮小檢索范圍。如果知識網(wǎng)絡(luò)中存在對應(yīng)實(shí)體和關(guān)聯(lián),則可視化輸出,否則輸出與之近似的檢索內(nèi)容,輔助用戶做進(jìn)一步的檢索決定。另外,基于知識網(wǎng)絡(luò)的關(guān)聯(lián)分析,支持項(xiàng)目、科研人員和科研成果的關(guān)聯(lián)查詢。
2.2.4 應(yīng)用層
應(yīng)用層提供新技術(shù)發(fā)現(xiàn)、科技規(guī)劃支持、交叉學(xué)科分析、專家智庫推薦、科技成果轉(zhuǎn)化等功能。通過科技大數(shù)據(jù)知識圖譜服務(wù)門戶系統(tǒng),為相關(guān)人員提供一體化的大數(shù)據(jù)知識管理服務(wù),滿足對項(xiàng)目、成果、人員等的交互式查詢,并實(shí)現(xiàn)科技規(guī)劃支持、領(lǐng)域技術(shù)畫像、新技術(shù)發(fā)現(xiàn)、交叉學(xué)科分析、專家智庫推薦、科技成果轉(zhuǎn)化等功能。
通過文化科技成果轉(zhuǎn)化系統(tǒng),以開源專利、公開科技文獻(xiàn)、科研人員、科研機(jī)構(gòu)、項(xiàng)目等數(shù)據(jù)源為基礎(chǔ),有效呈現(xiàn)智能數(shù)據(jù)收集、處理,并借助多維統(tǒng)計(jì)分析子系統(tǒng)和知識網(wǎng)絡(luò)檢索分析子系統(tǒng)對其進(jìn)行學(xué)科分析、影響力評價(jià)、關(guān)聯(lián)挖掘,進(jìn)一步將海量數(shù)據(jù)集中進(jìn)行數(shù)據(jù)展示、分析,從而提供從宏觀到微觀不同尺度的預(yù)判,洞悉科技前沿發(fā)展,提升創(chuàng)新能力,為文化領(lǐng)域的決策、布局提供依據(jù)。
(1)專家智庫對接
依據(jù)公開數(shù)據(jù)、合作數(shù)據(jù)、爬取數(shù)據(jù),匯聚文化領(lǐng)域的各類專家,為專家進(jìn)行大數(shù)據(jù)畫像,并實(shí)時(shí)跟蹤他們技術(shù)研究進(jìn)展及可轉(zhuǎn)化的成果,挖掘科研機(jī)構(gòu)之間的合作關(guān)系,發(fā)現(xiàn)存在合作關(guān)系的人員和單位,輔助用戶尋找頻繁合作的人員、機(jī)構(gòu)等群體,然后根據(jù)產(chǎn)業(yè)、區(qū)域的具體需求,通過大數(shù)據(jù)和人工智能的分析,打破地域和機(jī)構(gòu)邊界,進(jìn)行精準(zhǔn)匹配和推送(見圖3),可有效實(shí)現(xiàn)點(diǎn)對點(diǎn)解決技術(shù)難題。
圖3 匹配和推送方案
通過以上技術(shù)方案,用戶可以通過查詢相關(guān)的專家信息進(jìn)行專家智庫的推薦與匹配,如圖4所示。
圖4 專家智庫的推薦與匹配
(2)科技成果轉(zhuǎn)化
利用文化科技成果轉(zhuǎn)化系統(tǒng),使科技創(chuàng)新成果和目標(biāo)企業(yè)的精準(zhǔn)匹配(見圖5),快速落地,充分挖掘科技成果的價(jià)值,提升科技成果的轉(zhuǎn)化質(zhì)量和效率。
圖5 科技成果轉(zhuǎn)化
通過文化科技成果轉(zhuǎn)化系統(tǒng)匯聚文化科技服務(wù)的海量數(shù)據(jù),建立文化科技知識網(wǎng)絡(luò)圖數(shù)據(jù)庫、多維數(shù)據(jù)庫等模型,并借助多維統(tǒng)計(jì)分析以及知識網(wǎng)絡(luò)檢索、分析等大數(shù)據(jù)分析工具和算法,使文化科技成果在行業(yè)創(chuàng)新方面充分發(fā)揮其效能,引導(dǎo)并滿足企業(yè)技術(shù)創(chuàng)新需求,為文化科技創(chuàng)新提供專業(yè)化服務(wù),預(yù)測未來科技創(chuàng)新發(fā)展趨勢,為文化科技創(chuàng)新提供專業(yè)化服務(wù);挖掘文化科技創(chuàng)新與經(jīng)濟(jì)社會發(fā)展的互動(dòng)規(guī)律,推進(jìn)科技鏈、產(chǎn)業(yè)鏈、創(chuàng)新鏈的有機(jī)融合,促進(jìn)文化事業(yè)和文化產(chǎn)業(yè)的繁榮發(fā)展。