王永勝 馮偉華 鄭新章 劉亞麗 賈 楠 王 銳 宗國(guó)浩 王 迪 杜 一
1(中國(guó)煙草總公司鄭州煙草研究院 河南 鄭州 450001) 2(中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心 北京 100190) 3(中國(guó)科學(xué)院大學(xué) 北京 100049)
一直以來,煙草行業(yè)都非常重視對(duì)科技創(chuàng)新工作的投入,近些年其在科學(xué)研究、技術(shù)開發(fā)和生產(chǎn)經(jīng)營(yíng)等活動(dòng)中,積累了海量的科技信息資源,如煙草類科技文獻(xiàn)、煙草專利、煙草標(biāo)準(zhǔn)、煙草科技成果等數(shù)據(jù),數(shù)據(jù)量已達(dá)到了百萬條。這些科技信息資源數(shù)據(jù)蘊(yùn)含著豐富的知識(shí),不僅包含了人員、機(jī)構(gòu)、產(chǎn)出成果等基礎(chǔ)信息,還包括了科研工作的學(xué)術(shù)結(jié)構(gòu)、科研熱點(diǎn)、合作關(guān)系等潛在的知識(shí)。但目前煙草行業(yè)還沒有一個(gè)整合煙草行業(yè)所有科技信息資源的知識(shí)服務(wù)系統(tǒng),分布在各個(gè)業(yè)務(wù)系統(tǒng)的科技信息資源也缺乏高效的組織與管理,科研數(shù)據(jù)的寶貴價(jià)值還未充分發(fā)揮出來,無法幫助人們高效、精準(zhǔn)地從這些科技信息資源中獲取所需要的知識(shí),也無法幫助煙草科研人員在宏觀層面掌握行業(yè)科研工作的發(fā)展態(tài)勢(shì)及科研合作的模式。
知識(shí)圖譜是一種用圖模型來描述知識(shí)和構(gòu)建世界萬物之間的關(guān)聯(lián)關(guān)系的技術(shù)方法[1]。從本質(zhì)而言,知識(shí)圖譜旨在從數(shù)據(jù)中識(shí)別、發(fā)現(xiàn)和推理事物之間的復(fù)雜關(guān)系,是事物關(guān)系的可計(jì)算模型[2-3]。采用知識(shí)圖譜技術(shù)可以為數(shù)據(jù)的共享、獲取、重用及應(yīng)用創(chuàng)新提供自動(dòng)化的知識(shí)分析服務(wù)。自2012年Google正式提出“知識(shí)圖譜”的概念以來,知識(shí)圖譜就一直是學(xué)術(shù)研究的重要方向。近幾年來,知識(shí)圖譜在搜索引擎、智能問答、語言理解、推薦系統(tǒng)和大數(shù)據(jù)決策分析等眾多領(lǐng)域得到廣泛的實(shí)際應(yīng)用[4-6]。2017年7月,國(guó)家《新一代人工智能發(fā)展規(guī)劃》中提出“重點(diǎn)突破知識(shí)加工、深度搜索和可視交互核心技術(shù),實(shí)現(xiàn)對(duì)知識(shí)持續(xù)增量的自動(dòng)獲取,具備概念識(shí)別、實(shí)體發(fā)現(xiàn)、屬性預(yù)測(cè)、知識(shí)演化建模和關(guān)系挖掘能力,形成涵蓋數(shù)十億實(shí)體規(guī)模的多源、多學(xué)科和多數(shù)據(jù)類型的跨媒體知識(shí)圖譜[7]”。針對(duì)煙草科研工作存在的上述問題,基于知識(shí)圖譜技術(shù),構(gòu)建一個(gè)面向煙草科研人員的煙草科技知識(shí)圖譜服務(wù)平臺(tái),實(shí)現(xiàn)煙草科技信息資源的整理、融合與深度挖掘,已是提升煙草科研工作效率和質(zhì)量,助力煙草科技創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略的必由之路。
煙草科技知識(shí)圖譜服務(wù)平臺(tái)是面向煙草科研人員開發(fā)的煙草科技領(lǐng)域知識(shí)服務(wù)系統(tǒng)。平臺(tái)基于煙草科研領(lǐng)域的項(xiàng)目、成果、論文、專利、標(biāo)準(zhǔn)、科研人員、科研單位等構(gòu)建網(wǎng)絡(luò)實(shí)體,以“科研人員產(chǎn)出成果”“科研人員依托單位”等構(gòu)建網(wǎng)絡(luò)關(guān)系,最終形成煙草科技信息資源知識(shí)網(wǎng)絡(luò)。在煙草科技信息資源知識(shí)網(wǎng)絡(luò)的基礎(chǔ)上,實(shí)現(xiàn)了煙草科技信息資源的多角度、全方位的知識(shí)檢索功能。針對(duì)所構(gòu)建的知識(shí)網(wǎng)絡(luò),平臺(tái)使用關(guān)聯(lián)分析等數(shù)據(jù)挖掘算法實(shí)現(xiàn)了科研人員之間和科研機(jī)構(gòu)之間的合作網(wǎng)絡(luò)分析和關(guān)聯(lián)路徑分析;使用基于模塊度的社區(qū)發(fā)現(xiàn)算法等實(shí)現(xiàn)了科研合作社區(qū)和學(xué)術(shù)相似社區(qū)的智能發(fā)現(xiàn)。此外,平臺(tái)基于關(guān)鍵詞詞頻統(tǒng)計(jì)和大數(shù)據(jù)網(wǎng)絡(luò)的共詞聚類分析,實(shí)現(xiàn)了煙草科學(xué)研究熱點(diǎn)的圖譜化分析和國(guó)內(nèi)外研究熱點(diǎn)走勢(shì)分析。
煙草科技知識(shí)圖譜服務(wù)平臺(tái)基于B/S架構(gòu),采用SOA的設(shè)計(jì)思想,遵循J2EE開發(fā)標(biāo)準(zhǔn)規(guī)范構(gòu)建系統(tǒng),通過組件式開發(fā)模式,保證各功能模塊間是高內(nèi)聚、低耦合模式。平臺(tái)采用基于Restful的Web Service服務(wù),以保證架構(gòu)的先進(jìn)性、穩(wěn)定性和可擴(kuò)展性。在前端展示方面平臺(tái)主要采用Echarts、D3.js等可視化開發(fā)庫,利用基于“Overview+Detail”和“Focus+Context”的分析模式,將煙草科技知識(shí)圖譜中抽取的實(shí)體和關(guān)聯(lián)關(guān)系以可視化的形式進(jìn)行呈現(xiàn)。煙草科技知識(shí)圖譜服務(wù)平臺(tái)的體系結(jié)構(gòu)如圖1所示。
圖1 煙草科技知識(shí)圖譜服務(wù)平臺(tái)體系結(jié)構(gòu)圖
煙草科技知識(shí)圖譜服務(wù)平臺(tái)的體系結(jié)構(gòu)主要分為數(shù)據(jù)層、服務(wù)層和應(yīng)用層。數(shù)據(jù)層主要是為構(gòu)建煙草科技知識(shí)圖譜上層應(yīng)用提供數(shù)據(jù)支撐的科研機(jī)構(gòu)數(shù)據(jù)、科研人員數(shù)據(jù)、科研文獻(xiàn)資源(主要包括中文和外文科技論文數(shù)據(jù)、煙草技術(shù)專利數(shù)據(jù)、科研項(xiàng)目數(shù)據(jù)、煙草技術(shù)標(biāo)準(zhǔn)數(shù)據(jù)、煙草圖書專著數(shù)據(jù)、煙草科技成果數(shù)據(jù))等。服務(wù)層主要包括數(shù)據(jù)處理和知識(shí)服務(wù)兩部分,通過對(duì)煙草科技信息資源數(shù)據(jù)的匯聚、清洗、整合、加工以及構(gòu)建RDF元數(shù)據(jù)資源模型等,完成煙草科技資源元數(shù)據(jù)的深度處理和煙草科技資源知識(shí)網(wǎng)絡(luò)的構(gòu)建。針對(duì)構(gòu)建的煙草科技資源知識(shí)網(wǎng)絡(luò),通過封裝多維統(tǒng)計(jì)、關(guān)聯(lián)分析、知識(shí)挖掘等技術(shù),基于Restful方式為應(yīng)用層提供API接口服務(wù)。應(yīng)用層基于煙草科技資源知識(shí)網(wǎng)絡(luò)實(shí)現(xiàn)了煙草行業(yè)科技資源查詢、科研人員和科研機(jī)構(gòu)畫像、合作網(wǎng)絡(luò)分析、關(guān)聯(lián)路徑發(fā)現(xiàn)、科研社區(qū)發(fā)現(xiàn)和研究熱點(diǎn)分析等功能。
煙草科技知識(shí)圖譜服務(wù)平臺(tái)是面向煙草科研人員開發(fā)的知識(shí)服務(wù)系統(tǒng),旨在通過梳理整合分布在行業(yè)不同科研系統(tǒng)中的科技信息資源,基于知識(shí)圖譜技術(shù),構(gòu)建包含煙草科研論文、技術(shù)專利、科研項(xiàng)目、技術(shù)標(biāo)準(zhǔn)、圖書專著、科技成果等煙草科技信息資源的知識(shí)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)煙草科技信息資源的整理、融合與深度挖掘,為煙草科研人員準(zhǔn)確把握研究方向、尋找潛在合作伙伴、提高科研活動(dòng)效率提供支持。煙草科技知識(shí)圖譜服務(wù)平臺(tái)的功能模塊如圖2所示。
圖2 煙草科技知識(shí)圖譜服務(wù)平臺(tái)功能模塊
(1) 基礎(chǔ)知識(shí)查詢模塊:該模塊通過對(duì)煙草行業(yè)的科研機(jī)構(gòu)、科研人員、科研項(xiàng)目、論文、專利等科技信息資源的檢索,實(shí)現(xiàn)煙草科技基礎(chǔ)知識(shí)查詢的功能。例如,在科研人員檢索子模塊中,構(gòu)建了科研人員畫像,不僅展示了科研人員的學(xué)歷、職稱、研究領(lǐng)域、個(gè)人簡(jiǎn)介等基本情況,還借助可視化技術(shù)展示了科研人員的研究興趣圖譜、學(xué)術(shù)成果圖譜、個(gè)人影響力雷達(dá)圖、科研人員合作網(wǎng)絡(luò)關(guān)系、個(gè)人學(xué)術(shù)關(guān)鍵詞詞云等,圍繞科研人員科研信息以更直觀生動(dòng)的方式多維度、全方位地展示其科研知識(shí)圖譜。在科研論文檢索子模塊中,除了介紹了論文的摘要、作者、關(guān)鍵詞、被引次數(shù)等基本信息外,還根據(jù)論文的參考文獻(xiàn)和引證文獻(xiàn)構(gòu)建了參考引證圖譜和關(guān)鍵詞詞云,并統(tǒng)計(jì)分析了論文每年的引用次數(shù),構(gòu)建了年度被引用趨勢(shì)圖。
(2) 合作網(wǎng)絡(luò)分析模塊:該模塊包括人員網(wǎng)絡(luò)分析和機(jī)構(gòu)網(wǎng)絡(luò)分析兩部分功能?;陧?xiàng)目、成果(成果論文、成果專利、成果標(biāo)準(zhǔn)、成果圖書等)構(gòu)建了需要分析的科研人員或科研機(jī)構(gòu)的合作網(wǎng)絡(luò)圖,合作網(wǎng)絡(luò)圖中展示了合作者之間的關(guān)系和合作次數(shù),并通過權(quán)重計(jì)算篩選出了關(guān)系最為緊密的合作者。
(3) 關(guān)聯(lián)路徑發(fā)現(xiàn)模塊:該模塊包括科研人員關(guān)聯(lián)路徑分析和科研機(jī)構(gòu)網(wǎng)絡(luò)分析兩部分功能。通過限定關(guān)聯(lián)關(guān)系深度值,以可視化的形式構(gòu)建科研關(guān)聯(lián)路徑網(wǎng)絡(luò)圖,實(shí)現(xiàn)了被查詢的兩個(gè)科研人員或兩個(gè)科研機(jī)構(gòu)之間關(guān)聯(lián)路徑的分析。該模塊可以幫助用戶以更直觀的方式了解兩個(gè)被查詢主體的關(guān)聯(lián)路徑。
(4) 科研社區(qū)發(fā)現(xiàn)模塊:該模塊包括科研合作社區(qū)發(fā)現(xiàn)和學(xué)術(shù)相似社區(qū)發(fā)現(xiàn)兩部分功能?;跓煵菘萍贾R(shí)圖譜的圖數(shù)據(jù),通過分析挖掘科研人員基于項(xiàng)目及成果的合作關(guān)系,將科研人員關(guān)系網(wǎng)絡(luò)圖分成關(guān)系比較緊密的不同子網(wǎng)絡(luò)圖,從而實(shí)現(xiàn)科研合作社區(qū)發(fā)現(xiàn)的功能。通過對(duì)煙草科研人員的論文共被引關(guān)系進(jìn)行深度挖掘,通過聚類分析,實(shí)現(xiàn)相似學(xué)術(shù)方向的學(xué)術(shù)相似社區(qū)發(fā)現(xiàn)功能。
(5) 研究熱點(diǎn)分析模塊:該模塊包括國(guó)內(nèi)外熱點(diǎn)圖譜、研究熱點(diǎn)搜索、國(guó)內(nèi)外熱點(diǎn)走勢(shì)三部分功能。煙草科技文獻(xiàn)中關(guān)鍵詞之間的相關(guān)性在一定程度上可以揭示煙草領(lǐng)域不同研究方向或視角的內(nèi)在聯(lián)系。煙草研究熱點(diǎn)分析是通過對(duì)中外論文、專利進(jìn)行關(guān)鍵詞的提取解析、詞頻統(tǒng)計(jì)、共現(xiàn)分析,獲得了高頻度出現(xiàn)的主題詞共詞網(wǎng)絡(luò),從而實(shí)現(xiàn)煙草科學(xué)研究熱點(diǎn)圖譜分析、研究熱點(diǎn)搜索以及熱點(diǎn)走勢(shì)展示。
目前,知識(shí)圖譜的構(gòu)建方式主要有自頂向下與自底向上兩種構(gòu)建方式,結(jié)合煙草科研數(shù)據(jù)的實(shí)際情況,煙草科技知識(shí)圖譜服務(wù)平臺(tái)以現(xiàn)有的結(jié)構(gòu)化知識(shí)庫為基礎(chǔ)知識(shí)庫,采用自頂向下的方式設(shè)計(jì)煙草科研數(shù)據(jù)的本體及數(shù)據(jù)模式。煙草科技知識(shí)圖譜服務(wù)平臺(tái)的業(yè)務(wù)構(gòu)建流程包括了知識(shí)抽取、知識(shí)融合和知識(shí)應(yīng)用三個(gè)方面,結(jié)合煙草科技信息資源的特點(diǎn),設(shè)計(jì)了煙草科技知識(shí)圖譜服務(wù)平臺(tái)。其業(yè)務(wù)構(gòu)建流程如圖3所示。
圖3 煙草科技知識(shí)圖譜服務(wù)平臺(tái)業(yè)務(wù)構(gòu)建流程
(1) 知識(shí)抽取:首先抽取多源異構(gòu)系統(tǒng)中數(shù)據(jù),并進(jìn)行初步數(shù)據(jù)清洗。整理出煙草科技信息資源中的論文、專利、標(biāo)準(zhǔn)、科研項(xiàng)目、成果所屬單位或機(jī)構(gòu)、關(guān)鍵詞等各種實(shí)體類型以及各實(shí)體類型之間的關(guān)系,構(gòu)建煙草科研知識(shí)圖譜的Schema模型,從本體構(gòu)建上描述煙草領(lǐng)域相關(guān)概念與概念之間的關(guān)系及屬性表示。
(2) 知識(shí)融合:煙草科技信息資源來源于不同的系統(tǒng),知識(shí)圖譜中的實(shí)體以及知識(shí)體系不可避免地存在重復(fù)、缺失、沖突等問題,平臺(tái)設(shè)計(jì)過程中通過對(duì)抽取的數(shù)據(jù)進(jìn)行數(shù)據(jù)整合、知識(shí)加工、本體構(gòu)建、質(zhì)量評(píng)估等,以提升數(shù)據(jù)的質(zhì)量并達(dá)到知識(shí)的更新。
(3) 知識(shí)應(yīng)用:基于RDF三元組的知識(shí)表示和本體描述的基礎(chǔ)上,煙草科技信息資源采取知識(shí)圖譜的方式進(jìn)行表示,平臺(tái)采用基于圖深度優(yōu)先遍歷算法、社區(qū)發(fā)現(xiàn)算法、關(guān)聯(lián)挖掘算法以及可視化技術(shù)等實(shí)現(xiàn)煙草知識(shí)檢索、機(jī)構(gòu)(人員)合作網(wǎng)絡(luò)分析、關(guān)聯(lián)路徑發(fā)現(xiàn)、科研社區(qū)發(fā)現(xiàn)、研究熱點(diǎn)分析等知識(shí)應(yīng)用服務(wù)。
通過梳理整合分布在煙草行業(yè)內(nèi)不同科研系統(tǒng)中的論文、專利、成果、標(biāo)準(zhǔn)、圖書等科技信息資源,結(jié)合行業(yè)的科研機(jī)構(gòu)和科研人員信息,借助大數(shù)據(jù)流水線系統(tǒng)PiFlow平臺(tái),完成數(shù)據(jù)清洗、概念識(shí)別、實(shí)體發(fā)現(xiàn)、實(shí)體融合、關(guān)系構(gòu)建。目前,煙草科技知識(shí)圖譜服務(wù)平臺(tái)根據(jù)科技信息資源的特點(diǎn)抽取了19類數(shù)據(jù)實(shí)體并建立了33類實(shí)體關(guān)系。平臺(tái)從各類實(shí)體以及實(shí)體之間的關(guān)系、屬性出發(fā),構(gòu)建了煙草科技知識(shí)網(wǎng)絡(luò)如圖4所示。
圖4 煙草科技知識(shí)網(wǎng)絡(luò)
基礎(chǔ)知識(shí)查詢模塊可以實(shí)現(xiàn)煙草行業(yè)的科研機(jī)構(gòu)、科研人員、科研項(xiàng)目、論文、專利等科技信息資源的檢索。當(dāng)用戶輸入相關(guān)檢索條件進(jìn)行檢索時(shí),系統(tǒng)會(huì)返回相應(yīng)的檢索結(jié)果列表,列表中每項(xiàng)檢索結(jié)果都有獨(dú)立的詳細(xì)知識(shí)主頁面。基礎(chǔ)知識(shí)查詢模塊中的科技論文檢索如圖5、圖6所示。
圖5 煙草科研論文檢索結(jié)果展示
圖6 煙草科研論文詳情展示
平臺(tái)基于煙草科技信息資源,進(jìn)行科研數(shù)據(jù)實(shí)體融合、關(guān)聯(lián)關(guān)系抽取等構(gòu)建煙草科研人員畫像。該模塊采用多標(biāo)簽構(gòu)建技術(shù)和精準(zhǔn)畫像技術(shù),從多層級(jí)、多維度的應(yīng)用分析出發(fā),全方位、立體化地展示煙草科研人員的學(xué)術(shù)成果信息。科研人員畫像功能模塊主要展示科研人員個(gè)人影響力分析、研究興趣圖譜、學(xué)術(shù)成果圖譜、個(gè)人學(xué)術(shù)關(guān)鍵詞等幾方面,如圖7所示。其中,個(gè)人影響力分析是根據(jù)領(lǐng)域?qū)<已杏懙脑u(píng)分體系,通過計(jì)算各項(xiàng)指標(biāo)得分,借助雷達(dá)圖進(jìn)行展示,雷達(dá)圖面積大小代表各項(xiàng)指標(biāo)總得分情況,雷達(dá)圖中每個(gè)頂點(diǎn)表示影響力的一級(jí)指標(biāo),指標(biāo)數(shù)值代表該項(xiàng)指標(biāo)的具體分值。
通過對(duì)當(dāng)前科研人員發(fā)表的學(xué)術(shù)論文進(jìn)行文本分析,統(tǒng)計(jì)分析其論文中高頻關(guān)鍵詞,采用輪播滾動(dòng)的可視化方式展示其近十年來的學(xué)術(shù)關(guān)鍵詞,結(jié)合學(xué)術(shù)關(guān)鍵詞,構(gòu)建科研人員的研究興趣圖譜,揭示科研人員研究方向變化,如圖8所示??蒲腥藛T學(xué)術(shù)成果圖譜展示了當(dāng)前科研人員按不同年度所產(chǎn)出的不同成果的數(shù)量和類型,如圖9所示。圖中不同顏色代表科研人員不同的成果類型,結(jié)合時(shí)間軸和數(shù)據(jù)說明,可以更加直觀地顯示科研人員的學(xué)術(shù)成果。
圖8 煙草科研人員研究興趣圖譜
圖9 科研人員學(xué)術(shù)成果圖譜
科研人員合作社區(qū)發(fā)現(xiàn)是基于梳理整合的煙草科技信息資源,通過分析挖掘科研人員間項(xiàng)目及成果的合作關(guān)系,發(fā)現(xiàn)并識(shí)別合作緊密的科研人員團(tuán)體。當(dāng)通過導(dǎo)航進(jìn)入科研人員合作社區(qū)發(fā)現(xiàn)頁面后,頁面自動(dòng)分析加載默認(rèn)的全部合作類型的社區(qū)發(fā)現(xiàn)。社區(qū)網(wǎng)絡(luò)圖譜由不同簇區(qū)分不同的合作社區(qū),網(wǎng)絡(luò)圖譜中節(jié)點(diǎn)大小和連線邊的粗細(xì)具有實(shí)際意義,節(jié)點(diǎn)大小代表科研人員影響力的大小、連線的粗細(xì)表示兩個(gè)科研人員合作關(guān)系的強(qiáng)弱,合作關(guān)系越強(qiáng)的科研人員在圖譜中的位置越靠近,子網(wǎng)絡(luò)圖中核心人員為科研學(xué)術(shù)高活躍度的科研人員,網(wǎng)絡(luò)圖右側(cè)表示總共發(fā)現(xiàn)的社區(qū)數(shù)量及各個(gè)社區(qū)人數(shù)。煙草科研人員合作社區(qū)如圖10所示。
圖10 煙草科研人員合作社區(qū)
學(xué)術(shù)關(guān)鍵詞之間的相關(guān)性往往揭示不同研究方向或視角的內(nèi)在聯(lián)系。研究熱點(diǎn)知識(shí)發(fā)現(xiàn)圖譜通過關(guān)鍵詞共現(xiàn)關(guān)系來分析和判斷煙草科研熱點(diǎn)的發(fā)展變化。在平臺(tái)系統(tǒng)中,國(guó)內(nèi)煙草科研熱點(diǎn)圖譜是基于對(duì)國(guó)內(nèi)發(fā)表煙草科技文獻(xiàn)的關(guān)鍵詞頻次及共現(xiàn)關(guān)系進(jìn)行分析挖掘。圖譜中所有節(jié)點(diǎn)的大小表示當(dāng)前關(guān)鍵詞共現(xiàn)頻次的多少。圖譜中的連線表示兩個(gè)關(guān)鍵詞間有共現(xiàn)關(guān)系,連線的粗細(xì)位置表示兩個(gè)關(guān)鍵詞間關(guān)聯(lián)度的強(qiáng)弱,關(guān)聯(lián)度越強(qiáng)的關(guān)鍵詞在圖譜中聚合得越緊密。國(guó)內(nèi)煙草科研熱點(diǎn)圖譜如圖11所示。
圖11 國(guó)內(nèi)煙草科研熱點(diǎn)圖譜
在煙草科研熱點(diǎn)搜索功能模塊中,用戶輸入需要查詢的煙草領(lǐng)域熱點(diǎn)詞匯,即可獲得該熱點(diǎn)詞匯的詳細(xì)信息并借助可視化圖形展示。主要包括四類信息:該熱點(diǎn)關(guān)鍵詞年度出現(xiàn)次數(shù)統(tǒng)計(jì)圖、關(guān)鍵詞共現(xiàn)關(guān)系網(wǎng)絡(luò)圖、關(guān)鍵詞研究貢獻(xiàn)的top10機(jī)構(gòu)和top10科研人員。煙草科研熱點(diǎn)搜索如圖12所示。
圖12 煙草科研熱點(diǎn)搜索
知識(shí)圖譜用來描述現(xiàn)實(shí)中的概念、實(shí)體與關(guān)系,它是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)和邊組成。其中節(jié)點(diǎn)即實(shí)體,由一個(gè)全局唯一的ID標(biāo)示,關(guān)系(也稱屬性)用于連接兩個(gè)節(jié)點(diǎn)。通俗地講,知識(shí)圖譜就是把所有不同種類的信息連接在一起而得到一個(gè)關(guān)系網(wǎng)絡(luò),提供了從“關(guān)系”的角度去分析問題的能力。
本平臺(tái)采用Neo4j作為圖模型的存儲(chǔ)方式,Neo4j是高性能的NoSQL圖數(shù)據(jù)庫,是目前知識(shí)圖譜系統(tǒng)中使用率最高的圖數(shù)據(jù)庫[8]。Neo4j的數(shù)據(jù)存儲(chǔ)形式主要是節(jié)點(diǎn)(node)和邊(edge)來組織數(shù)據(jù)。node可以代表知識(shí)圖譜中的實(shí)體,edge可以用來代表實(shí)體間的關(guān)系,關(guān)系可以有方向,兩端對(duì)應(yīng)開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)。
為了更好地呈現(xiàn)基于煙草科技信息資源構(gòu)建的煙草科技知識(shí)圖譜平臺(tái),使用D3.JS等底層可視化開發(fā)庫,設(shè)計(jì)基于網(wǎng)絡(luò)查詢、挖掘分析結(jié)果的交互式可視化方法。平臺(tái)采用“Overview+Detail”和“Focus+Context”相結(jié)合的交互式可視化分析模式?!癘verview+Detail”的交互式可視化分析模式首先考慮使用可視化方法進(jìn)行整體的探查,在發(fā)現(xiàn)感興趣的內(nèi)容之后,通過過濾、縮放等交互技術(shù)進(jìn)一步探查細(xì)節(jié),從而發(fā)現(xiàn)數(shù)據(jù)的詳細(xì)情況;“Focus+Context”的交互式可視化分析模式則強(qiáng)調(diào)在關(guān)注某個(gè)特定的可視化區(qū)域的同時(shí),對(duì)區(qū)域的上下文信息也要給予關(guān)注。在煙草科技知識(shí)圖譜平臺(tái)構(gòu)建過程中,結(jié)合交互式技術(shù)對(duì)圖譜的形狀、大小、顏色等進(jìn)行可視化展示,為煙草科研人員提供直觀生動(dòng)的用戶體驗(yàn)。
關(guān)鍵詞是代表文本重要內(nèi)容的一組詞,關(guān)鍵詞抽取是指抽取目標(biāo)文本中的主要信息,涉及實(shí)體識(shí)別、屬性抽取、因果關(guān)系抽取等多項(xiàng)關(guān)鍵技術(shù)[9-10]。關(guān)鍵詞提取是知識(shí)圖譜領(lǐng)域的一個(gè)重要任務(wù),在信息檢索中,準(zhǔn)確的關(guān)鍵詞提取可以大幅提升檢索效率;在智能問答中,機(jī)器可以通過關(guān)鍵詞來理解用戶意圖;在知識(shí)推薦中,關(guān)鍵詞的發(fā)現(xiàn)有助于獲取主題思想。
在對(duì)煙草領(lǐng)域的科技信息資源進(jìn)行文本預(yù)處理階段,本平臺(tái)采用TextRank、LDA等關(guān)鍵詞提取算法通過抽取實(shí)體對(duì)象、屬性關(guān)系、主題詞等構(gòu)建了領(lǐng)域知識(shí)網(wǎng)絡(luò),為科研人員學(xué)術(shù)關(guān)鍵詞提取及研究熱點(diǎn)相關(guān)詞分析提供技術(shù)保障。
融合各類煙草科技知識(shí)實(shí)體的人員合作關(guān)系網(wǎng)絡(luò)同其他實(shí)際網(wǎng)絡(luò)具有相同特性及社區(qū)結(jié)構(gòu),即整個(gè)網(wǎng)絡(luò)由若干個(gè)社區(qū)構(gòu)成,每個(gè)社區(qū)內(nèi)部的節(jié)點(diǎn)之間聯(lián)系相對(duì)緊密,各個(gè)社區(qū)之間的連接相對(duì)稀疏。在煙草科技知識(shí)圖譜服務(wù)平臺(tái)中,合作社區(qū)發(fā)現(xiàn)主要實(shí)現(xiàn)從科研人員出發(fā),基于煙草知識(shí)圖譜的圖數(shù)據(jù),通過分析挖掘科研人員基于項(xiàng)目及成果的合作關(guān)系,從而實(shí)現(xiàn)發(fā)現(xiàn)合作緊密的科研人員社區(qū)團(tuán)體。
本平臺(tái)采用Louvain算法作為實(shí)際的社區(qū)發(fā)現(xiàn)算法,實(shí)現(xiàn)了控制網(wǎng)絡(luò)規(guī)模及邊界情況下的合作社區(qū)發(fā)現(xiàn),并在最終的可視化展示中取得了很好的可視化效果。Louvain算法是基于模塊度的社區(qū)發(fā)現(xiàn)算法,該算法在執(zhí)行效率和效果上都表現(xiàn)較好,且能夠發(fā)現(xiàn)層次性的社區(qū)結(jié)構(gòu),實(shí)現(xiàn)最大化整個(gè)社區(qū)網(wǎng)絡(luò)的模塊度的目標(biāo)[11]。
共詞分析法是內(nèi)容分析法的一種,通過對(duì)文獻(xiàn)中共現(xiàn)的詞對(duì)(主題詞或關(guān)鍵詞)的關(guān)聯(lián)性進(jìn)行運(yùn)算,將關(guān)系密切的詞聚集歸類,進(jìn)而分析這些詞所代表的學(xué)科和主題的結(jié)構(gòu)變化趨勢(shì)[12]。針對(duì)文獻(xiàn)主題詞來說,文獻(xiàn)主題詞共現(xiàn)次數(shù)越多則代表兩主題關(guān)系越緊密,采用聚類分析等多元統(tǒng)計(jì)方法,將眾多分析對(duì)象之間錯(cuò)綜復(fù)雜的共詞網(wǎng)狀關(guān)系簡(jiǎn)化為若干群之間的關(guān)系并直觀地表達(dá)出來,可以準(zhǔn)確地歸納出該學(xué)科的研究熱點(diǎn)[13]。
在本平臺(tái)中,從煙草領(lǐng)域?qū)W術(shù)文獻(xiàn)中提取出關(guān)鍵詞或主題詞,設(shè)定閾值高于一定頻率的關(guān)鍵詞或主題詞作為代表某一學(xué)科或研究方向的高頻詞,通過統(tǒng)計(jì)高頻詞同時(shí)出現(xiàn)在同一篇學(xué)術(shù)文獻(xiàn)中的次數(shù),構(gòu)建共詞矩陣,進(jìn)而圍繞共詞矩陣進(jìn)行相關(guān)分析。
知識(shí)圖譜是提高知識(shí)獲取能力的有效服務(wù)手段,針對(duì)煙草領(lǐng)域科技信息資源的數(shù)據(jù)特點(diǎn)以及煙草科研工作知識(shí)獲取的工作需求,設(shè)計(jì)并實(shí)現(xiàn)了煙草科技知識(shí)圖譜服務(wù)平臺(tái)。該平臺(tái)梳理整合了分布在煙草行業(yè)不同科研系統(tǒng)中的科技信息資源,基于知識(shí)圖譜技術(shù)構(gòu)建了包含科技項(xiàng)目、科技成果、科技論文、技術(shù)專利、技術(shù)標(biāo)準(zhǔn)等煙草科技信息資源知識(shí)網(wǎng)絡(luò),結(jié)合煙草科研大數(shù)據(jù)知識(shí)畫像、關(guān)聯(lián)挖掘、煙草科研知識(shí)圖譜分析等,完成了煙草科技信息資源的深入挖掘分析和多角度多層級(jí)的可視化展示。煙草科技知識(shí)圖譜服務(wù)平臺(tái)的建設(shè)應(yīng)用可為煙草科研人員準(zhǔn)確把握研究方向、尋找潛在合作伙伴、提高科研活動(dòng)效率提供智力支持,對(duì)煙草科研領(lǐng)域的知識(shí)發(fā)現(xiàn)也具有十分重要的意義。