文/張青嶺 李顯正 李航宇 李華健
知識(shí)圖譜旨在通過(guò)可視化技術(shù)對(duì)客觀世界的概念、實(shí)體、事件及各部分之間的關(guān)系進(jìn)行描述,具有直觀、定量、簡(jiǎn)潔、獲取隱藏知識(shí)和客觀等優(yōu)點(diǎn)。2003年,知識(shí)圖譜這一概念在美國(guó)國(guó)家科學(xué)院組織的“知識(shí)圖譜測(cè)繪”研討會(huì)上第一次被提出,隨后便引起了學(xué)者的關(guān)注。近幾年,隨著大數(shù)據(jù)、物聯(lián)網(wǎng)和人工智能等新一代信息技術(shù)的不斷發(fā)展,知識(shí)圖譜逐步進(jìn)入大規(guī)模深入研究階段,已被廣泛應(yīng)用于生物信息、金融和醫(yī)療健康等領(lǐng)域,并在智能搜索、智慧問(wèn)答、大數(shù)據(jù)風(fēng)控、推薦系統(tǒng)等應(yīng)用中發(fā)揮著重要作用。
黨的十九大報(bào)告中提到,要推動(dòng)信息化和農(nóng)業(yè)現(xiàn)代化共同發(fā)展,而農(nóng)業(yè)信息化已經(jīng)成為農(nóng)業(yè)現(xiàn)代化的重要組成部分。我國(guó)的農(nóng)業(yè)大數(shù)據(jù)不斷發(fā)展擴(kuò)大,結(jié)構(gòu)越來(lái)越復(fù)雜,大數(shù)據(jù)可視化可將復(fù)雜的數(shù)據(jù)直觀化、定量化和簡(jiǎn)單化,有利于推動(dòng)我國(guó)農(nóng)業(yè)信息化的發(fā)展。
知識(shí)圖譜可以構(gòu)造復(fù)雜的知識(shí)網(wǎng)絡(luò),科學(xué)地預(yù)測(cè)前沿的研究熱點(diǎn),擁有非常廣闊的研究?jī)r(jià)值和應(yīng)用前景。將知識(shí)圖譜這一可視化技術(shù)與農(nóng)業(yè)相結(jié)合,對(duì)檢索到的數(shù)據(jù)進(jìn)行展示與分析,有助于農(nóng)業(yè)大數(shù)據(jù)的展示,有助于發(fā)現(xiàn)農(nóng)業(yè)生產(chǎn)規(guī)律。
知識(shí)圖譜是以科學(xué)學(xué)為基礎(chǔ),通過(guò)將應(yīng)用數(shù)學(xué)和信息科學(xué)等多門學(xué)科的理論方法相結(jié)合,通過(guò)可視化的形式實(shí)現(xiàn)多學(xué)科的融合,是科學(xué)計(jì)量學(xué)和信息計(jì)量學(xué)的新發(fā)展。目前,國(guó)內(nèi)研究學(xué)者對(duì)知識(shí)圖譜尚未給出統(tǒng)一定義。陳悅等將知識(shí)圖譜定義為科學(xué)計(jì)量學(xué)范疇內(nèi)的顯示科學(xué)知識(shí)的發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一種圖像。借鑒以往學(xué)者對(duì)知識(shí)圖譜的定義,本文認(rèn)為知識(shí)圖譜是由節(jié)點(diǎn)和邊構(gòu)成的能夠描述物理世界中復(fù)雜關(guān)系的圖形,其本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò),表達(dá)了各類實(shí)體、概念及其之間的語(yǔ)義關(guān)系。其中節(jié)點(diǎn)表示實(shí)體或概念,邊表示實(shí)體與實(shí)體之間的聯(lián)系。
表1:4種知識(shí)圖譜繪制工具比較
大多數(shù)學(xué)者認(rèn)為知識(shí)圖譜具有直觀化、可視化和形象化的特征,但不同的研究學(xué)者對(duì)其特征還有不同的理解和解釋。
知識(shí)圖譜作為大數(shù)據(jù)可視化的一種重要表現(xiàn)形式,具有重要的研究和應(yīng)用價(jià)值。知識(shí)圖譜把復(fù)雜的知識(shí)領(lǐng)域用直觀簡(jiǎn)潔的圖形展示出來(lái),把有關(guān)知識(shí)體系系統(tǒng)地展示給用戶,進(jìn)一步為該領(lǐng)域的學(xué)科研究提供極有價(jià)值的參考和依據(jù)。同時(shí),知識(shí)圖譜具有強(qiáng)大的語(yǔ)義處理能力和開放組織能力。
在知識(shí)圖譜被提出之前,數(shù)據(jù)可視化基本停留在實(shí)體的客觀展示上,知識(shí)圖譜賦予了數(shù)據(jù)可視化一個(gè)新的方向,即展現(xiàn)實(shí)體間的關(guān)系,豐富的實(shí)體關(guān)系提供了一種從關(guān)系的視角來(lái)看世界的新方向。知識(shí)圖譜的核心即三元組,它使存儲(chǔ)的信息很容易地被人類和計(jì)算機(jī)解讀,并且使計(jì)算機(jī)具有一定的推理能力,進(jìn)而讓知識(shí)圖譜具有一定的可解釋能力,彌補(bǔ)了之前的缺陷。此外,知識(shí)圖譜還具有規(guī)模龐大、系統(tǒng)性、客觀性和全面性等特征。
近年來(lái),知識(shí)圖譜作為大數(shù)據(jù)可視化和人工智能重要組成部分,受到了國(guó)內(nèi)外學(xué)者和用戶的廣泛關(guān)注及高度重視。
2012年,谷歌將知識(shí)圖譜應(yīng)用于搜索引擎,以此來(lái)提升搜索質(zhì)量,之后在學(xué)術(shù)界掀起了一股熱潮,各大相關(guān)企業(yè)也推出了自己的知識(shí)圖譜產(chǎn)品。2017年11月,在北京召開的世界人工智能大會(huì)上,百度知識(shí)圖譜摘得了“AI創(chuàng)新產(chǎn)品”殊榮。2018年3月,蘇寧金融企業(yè)知識(shí)圖譜系統(tǒng)成功上線,阿里巴巴集團(tuán)積極舉辦知識(shí)圖譜研討會(huì),天津大學(xué)的科研團(tuán)隊(duì)建立起了一套知識(shí)圖譜管理與推理系統(tǒng),知識(shí)圖譜在各領(lǐng)域的交流合作迎來(lái)了新的階段。
中國(guó)是傳統(tǒng)的農(nóng)業(yè)大國(guó),但是我國(guó)的農(nóng)業(yè)仍處于分散式、半機(jī)械化的階段,存在多種資源利用率低的現(xiàn)象。
圖2:利用Gephi繪制的茶葉病害知識(shí)圖譜
然而大量的農(nóng)業(yè)數(shù)據(jù)資料是很分散的、不集中的,且存放在結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)格式中,很難形成一個(gè)相互聯(lián)系的整體,因此農(nóng)民及研究學(xué)者很難從中獲取到直觀有價(jià)值的信息。
而知識(shí)圖譜可以將這些離散的信息相互關(guān)聯(lián),形成一個(gè)可視化的語(yǔ)義網(wǎng)絡(luò),把復(fù)雜的農(nóng)業(yè)知識(shí)直觀地展示給農(nóng)民、農(nóng)業(yè)技術(shù)人員和相關(guān)決策者。知識(shí)圖譜還可以對(duì)市場(chǎng)進(jìn)行輔助決策,幫助政府對(duì)生產(chǎn)合作社、農(nóng)民及企業(yè)之間進(jìn)行信息管理與數(shù)據(jù)挖掘,進(jìn)而將傳統(tǒng)的農(nóng)業(yè)轉(zhuǎn)換為精準(zhǔn)農(nóng)業(yè)。
采用檢索式“SU=‘知識(shí)圖譜’*‘農(nóng)業(yè)’”(SU為主題),于2019年1月20日檢索中國(guó)知網(wǎng)(CNKI),發(fā)現(xiàn)目前國(guó)內(nèi)學(xué)者已發(fā)表81篇農(nóng)業(yè)知識(shí)圖譜相關(guān)的研究文獻(xiàn),占全部知識(shí)圖譜研究文獻(xiàn)(4569)的1.77%,由此可見,知識(shí)圖譜中農(nóng)業(yè)上的應(yīng)用較少。
在國(guó)內(nèi),湖南省農(nóng)村農(nóng)業(yè)信息化工程技術(shù)研究中心通過(guò)對(duì)國(guó)內(nèi)外農(nóng)業(yè)信息化相關(guān)領(lǐng)域分析,探究知識(shí)圖譜在農(nóng)業(yè)信息服務(wù)中的應(yīng)用,利用湖南農(nóng)業(yè)產(chǎn)業(yè)知識(shí)搭建一個(gè)農(nóng)業(yè)知識(shí)群圖譜可視化系統(tǒng)。國(guó)內(nèi)還出現(xiàn)了像Agriculture_KnowledgeGraph一樣的搜索查詢系統(tǒng),此系統(tǒng)的主要功能在于利用農(nóng)業(yè)分類的樹形結(jié)構(gòu)對(duì)某種類型的植物或動(dòng)物進(jìn)行查詢,但是查詢結(jié)果較為單一,實(shí)用性較小。
目前,常用的知識(shí)圖譜的繪制工具有以下4種,介紹如下。
CiteSapce是一款用于計(jì)量和分析科學(xué)文獻(xiàn)數(shù)據(jù)的信息可視化軟件,由陳超美教授和他的團(tuán)隊(duì)共同研發(fā)。
CiteSpace以從各大文獻(xiàn)數(shù)據(jù)庫(kù)(如Web of Science、CNKI、CSSCI等)導(dǎo)出的純文本數(shù)據(jù)為主要的數(shù)據(jù)來(lái)源。如圖1所示,導(dǎo)出的純文本數(shù)據(jù)中的文獻(xiàn)字段主要包括作者姓名、文章名稱、所載期刊、關(guān)鍵詞、摘要、作者單位和發(fā)表時(shí)間等信息。
CiteSpace能夠繪制施引文獻(xiàn)的合作圖譜、共現(xiàn)圖譜和共被引圖譜,并且為圖譜的展示提供了三種可視化模式,分別為聚類視圖、時(shí)間線視圖和時(shí)區(qū)視圖。
除此之外,CiteSpace還具有突發(fā)檢測(cè)、網(wǎng)絡(luò)裁剪、地理空間分析等實(shí)用性功能。
Ucinet是一款用于社會(huì)網(wǎng)絡(luò)分析的軟件,由L. Freeman編寫,后來(lái)主要由S. Borgatti和M. Everett進(jìn)行維護(hù)更新。
Ucinet能夠處理多種數(shù)據(jù)格式的數(shù)據(jù),主要有初始數(shù)據(jù)文件(Raw Date File)、Excel數(shù)據(jù)文件以及數(shù)據(jù)語(yǔ)言文件(DL File)三種。初始數(shù)據(jù)文件僅包含數(shù)字,只能以矩陣的格式輸入。Ucinet支持直接從Excel表導(dǎo)入數(shù)據(jù),但數(shù)據(jù)列數(shù)最多只能支持255列。數(shù)據(jù)語(yǔ)言文件包含一系列數(shù)字以及描述數(shù)據(jù)的很多關(guān)鍵語(yǔ)句等。
與其他軟件相比,Ucinet最大的優(yōu)點(diǎn)是可以將一些原始數(shù)據(jù)轉(zhuǎn)換成矩陣格式,從而構(gòu)建各種關(guān)系矩陣,如作者共現(xiàn)矩陣、關(guān)鍵字共現(xiàn)矩陣和期刊共引矩陣等。
Gephi是一款跨平臺(tái)的、用于網(wǎng)絡(luò)分析和可視化的免費(fèi)開源軟件。Gephi支持多種數(shù)據(jù)格式,包括“.dot”,“.gdf”,“.gml”,“.net”,“.gexf”等;能夠處理大量的數(shù)據(jù),支持的節(jié)點(diǎn)數(shù)達(dá)50,000個(gè),支持的邊達(dá)1,000,000條,適合于繪制大型的圖譜。
Gephi提供多種對(duì)數(shù)據(jù)的操作方法和展示圖譜的方式。Gephi能夠?qū)崿F(xiàn)對(duì)圖譜中邊和節(jié)點(diǎn)的屬性的調(diào)節(jié),也有多種實(shí)時(shí)的布局算法,能夠?qū)D譜進(jìn)行各種各樣的布局;而且能夠支持使用者對(duì)其二次開發(fā),增加其他算法。
Pajek是由斯洛文尼亞盧布爾雅那大學(xué)的Vladimir.Batagelj和Andrej.Mrvar應(yīng)用Pascal語(yǔ)言開發(fā)的一款用于分析大型復(fù)雜網(wǎng)絡(luò)的軟件,該軟件的安裝程序是免費(fèi)的,但不提供源代碼。
Pajek可以讀取多種純文本格式的數(shù)據(jù)以及ASCII碼文件,包括Pajek網(wǎng)絡(luò)格式(PajekNwtworks)、Pajek矩陣格式(Pajek matrices)、UCINET DL f iles格式、Vega格式(Vega Graphs)、GEDCOM格式(GEDCOM Files)等多種數(shù)據(jù)格式。
相較于其他繪制工具,Pajek具有處理具有數(shù)百萬(wàn)個(gè)節(jié)點(diǎn)的大型網(wǎng)絡(luò)的能力,還可以從大型網(wǎng)絡(luò)中提取一些小型網(wǎng)絡(luò),以便使用經(jīng)典算法進(jìn)行更詳細(xì)的研究,并通過(guò)可視化功能顯示網(wǎng)絡(luò)和分析結(jié)果。
4種知識(shí)圖譜繪制工具的比較如表1所示。
CiteSpace是目前國(guó)內(nèi)研究者使用最多的一款軟件,軟件自身的功能比較完善,在構(gòu)建知識(shí)圖譜的整個(gè)流程中, 各個(gè)步驟的處理都能滿足不同研究者的需要,但該軟件對(duì)內(nèi)存的消耗大,不適合處理數(shù)據(jù)量大的數(shù)據(jù);Ucinet的優(yōu)點(diǎn)在于其使用簡(jiǎn)單,并且具有強(qiáng)大的數(shù)據(jù)管理和轉(zhuǎn)化功能,但由于識(shí)別的數(shù)據(jù)格式都與矩陣有關(guān),需要花費(fèi)很多時(shí)間和精力用于處理原始數(shù)據(jù);Gephi界面美觀,能夠處理大量的數(shù)據(jù),適合繪制大型的圖譜,也適用于對(duì)動(dòng)態(tài)數(shù)據(jù)的追蹤與表現(xiàn),且支持運(yùn)用插件進(jìn)行擴(kuò)展,但Gephi對(duì)純數(shù)據(jù)的處理功能較為薄弱;Pajek在數(shù)據(jù)與處理和數(shù)據(jù)規(guī)范化處理上有一定的不足,但它支持多種格式的輸入,并且提供了多種有效的算法,能將大型的網(wǎng)絡(luò)分解為多個(gè)子網(wǎng)絡(luò)。
本文以茶葉病蟲害為例,利用Gephi進(jìn)行茶葉病蟲害知識(shí)圖譜的繪制,結(jié)果如圖2所示。圖2中的紅色節(jié)點(diǎn)表示病蟲害的名稱,藍(lán)色節(jié)點(diǎn)表示易發(fā)生地區(qū),黃色節(jié)點(diǎn)表示易發(fā)生條件,綠色節(jié)點(diǎn)表示防治方法;兩個(gè)節(jié)點(diǎn)之間有連線表示他們之間具有聯(lián)系,邊的粗細(xì)表示關(guān)系的強(qiáng)弱。
以圖2中“黑刺粉虱”節(jié)點(diǎn)為例,可以看出它與茶蚜、茶餅病等病蟲害之間存在聯(lián)系,易發(fā)生湖北省、浙江省、貴州省等省份,可以用誘蟲板、瓢蟲等進(jìn)行防治。以“茶餅病”為例,可以看出其易發(fā)生在云南省、江西省等省份,并且和茶炭疽病之間存在聯(lián)系。
本文介紹了知識(shí)圖譜的基本知識(shí)和常用的種工具。利用Gephi工具繪制了茶葉病蟲害知識(shí)圖譜,并進(jìn)行了相關(guān)的分析。隨著農(nóng)業(yè)大數(shù)據(jù)研究的不斷深入,知識(shí)圖譜作為重要的可視化工具有著廣闊的應(yīng)用前景,必將在輔助農(nóng)業(yè)決策中發(fā)揮越來(lái)越重要的作用。