黃細(xì)鳳
摘要:針對(duì)不同的信息品類(lèi)在信息轉(zhuǎn)換、處理、展示時(shí)出現(xiàn)的失真、損傷或偏差的問(wèn)題,提出了全維知識(shí)圖譜的概念,對(duì)全維知識(shí)圖譜的原理、關(guān)注內(nèi)容、用法和好處進(jìn)行了概述;然后針對(duì)全維知識(shí)表示,提出了統(tǒng)一的知識(shí)表示框架,采用分級(jí)的信息特征和特征屬性進(jìn)行信息內(nèi)容的描述,并以文本類(lèi)信息為例對(duì)表示框架進(jìn)行實(shí)例化,形成了信息特征表示模型。
關(guān)鍵詞: 知識(shí)圖譜;全維知識(shí)圖譜;全維知識(shí)表示;知識(shí)表示框架;信息特征
中圖分類(lèi)號(hào):TP18 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)14-0145-02
Abstract: Aiming at the problems of distortion, damage or deviation in information conversion, processing and display of different information categories, the concept of full-dimensional knowledge graph was proposed, and the principle, content, usage and advantages of full-dimensional knowledge graph were summarized. A unified knowledge representation framework was proposed for full-dimensional knowledge representation, which is based on hierarchical information features and feature attributes of descripting information content. Taking text information as an example, the representation framework was instantiated and an information feature representation model was formed.
Key words: knowledge graph; full-dimensional knowledge graph; full-dimensional knowledge representation; knowledge representation framework; information feature
世界多姿多彩,信息豐富,描述方式與信息品類(lèi)多種多樣,有文字、聲音、圖片、視頻等等。而不同信息品類(lèi)在信息轉(zhuǎn)換、處理、展示時(shí)會(huì)失真或損傷,甚至出現(xiàn)偏差與錯(cuò)誤。例如,將聲音轉(zhuǎn)成文字時(shí),僅僅記錄了聲音的語(yǔ)義,卻忽略了說(shuō)話人的語(yǔ)種、語(yǔ)氣、語(yǔ)調(diào)、情感、修辭、傾向、風(fēng)格等等信息,從而丟失了很多維度的信息,對(duì)于理解聲音就可能產(chǎn)生歧義、不到位、甚至錯(cuò)誤的理解。
用全維知識(shí)圖譜的方法來(lái)進(jìn)行信息解析與知識(shí)表達(dá),不失真、不降維地對(duì)知識(shí)進(jìn)行采集、存儲(chǔ)等。一方面,可以完整地高保真地對(duì)信息進(jìn)行記錄,在轉(zhuǎn)移時(shí)使受眾不產(chǎn)生歧義;另一方面,統(tǒng)一一種處理方法,可以將文字、聲音、圖像、視頻等進(jìn)行大融合,為跨專(zhuān)業(yè)、跨領(lǐng)域的知識(shí)交互與融合提供基礎(chǔ)。因此,本文提出采用全維知識(shí)圖譜來(lái)構(gòu)建一種知識(shí)表達(dá)的框架和標(biāo)準(zhǔn),規(guī)范不同品類(lèi)信息的描述方法,以便在信息采集、存儲(chǔ)、解析、轉(zhuǎn)換、處理、融合等等過(guò)程中不失真、不降維。
1 全維知識(shí)圖譜概述
本文將從三個(gè)方面來(lái)對(duì)全維知識(shí)圖譜進(jìn)行闡述,包括其關(guān)注內(nèi)容、怎么用和有什么出好處。
1.1 關(guān)注內(nèi)容是什么?
全維知識(shí)圖譜需要關(guān)注的內(nèi)容有:
(1)全維知識(shí)圖譜基礎(chǔ)理論研究;
(2)跨學(xué)科知識(shí)表達(dá)標(biāo)準(zhǔn)體系,知識(shí)分類(lèi)體系;
(3)知識(shí)表達(dá)統(tǒng)一框架構(gòu)建,全維知識(shí)圖譜基本架構(gòu)和頂層模型梳理;
(4)垂直領(lǐng)域全維知識(shí)圖譜構(gòu)建;
(5)全維知識(shí)圖譜的效能統(tǒng)一表征方法與效能評(píng)估;
(6)基于全維知識(shí)圖譜的跨品類(lèi)、跨專(zhuān)業(yè)、跨學(xué)科知識(shí)融合。
1.2 怎么用?
現(xiàn)階段以Knowledge Graph為主的一系列知識(shí)圖譜為精細(xì)化的查詢(xún)奠定了基礎(chǔ),隨著智能信息服務(wù)應(yīng)用的不斷發(fā)展,知識(shí)圖譜已被廣泛應(yīng)用于智能搜索、智能問(wèn)答、個(gè)性化推薦、可視化決策支持等領(lǐng)域。而當(dāng)前知識(shí)表達(dá)方法,不管是基于怎樣的學(xué)習(xí)原則,都不可避免地產(chǎn)生語(yǔ)義損失。符號(hào)化的知識(shí)一旦向量化后,大量的語(yǔ)義信息被丟棄,只能表達(dá)十分模糊的語(yǔ)義相似關(guān)系。全維知識(shí)圖譜以知識(shí)圖譜的概念為基礎(chǔ),構(gòu)建知識(shí)表達(dá)統(tǒng)一框架,多視角、多維度地對(duì)信息或?qū)ο筮M(jìn)行描述,應(yīng)用于軍事領(lǐng)域,可為作戰(zhàn)指揮人員提供更為“真實(shí)”的情報(bào),提高作戰(zhàn)效率。應(yīng)用方向有:
(1)用于規(guī)范素材、信息的采集,提升海量半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的有效獲取能力;
(2)促進(jìn)領(lǐng)域知識(shí)體系的構(gòu)建;
(3)基于全維知識(shí)圖譜,構(gòu)建領(lǐng)域知識(shí)庫(kù),在接入、處理、分析、服務(wù)等各個(gè)環(huán)節(jié)提供統(tǒng)一的數(shù)據(jù)空間,將不同品類(lèi)、不同對(duì)象的數(shù)據(jù)統(tǒng)一存儲(chǔ)、處理、使用;
(4)特別地,應(yīng)用于目標(biāo)識(shí)別領(lǐng)域,可以給目標(biāo)識(shí)別提供更加豐富的視角和特征;
(5)同樣地,支持基于知識(shí)圖譜的應(yīng)用,如智能搜索、智能問(wèn)答、個(gè)性化推薦、可視化決策支持等。
1.3 有什么好處?
作用和好處包括:
(1)全維知識(shí)圖譜可以指導(dǎo)信息的采集、存儲(chǔ)、處理、轉(zhuǎn)移、解析、理解;
(2)可以根據(jù)用戶(hù)的實(shí)際情況實(shí)現(xiàn)合理的剪裁,得到精準(zhǔn)服務(wù)的效果,是人工智能的主要研究方向;
(3)可以完整地高保真地對(duì)信息進(jìn)行記錄,在轉(zhuǎn)移時(shí)使受眾不產(chǎn)生歧義;
(4)信息利用更充分,可以將文字、聲音、圖像、視頻等進(jìn)行大融合;
(5)全面地、多視角地、多維度地描述信息、目標(biāo)等對(duì)象;為目標(biāo)識(shí)別提供更多維度、更多視角、更多特征;
(6)可以提供深度的知識(shí)關(guān)聯(lián)及語(yǔ)義層的知識(shí)推理,更深層地理解信息;
(7)為跨領(lǐng)域、跨專(zhuān)業(yè)的交互、協(xié)作與統(tǒng)一融合提供了基礎(chǔ)。
2 全維知識(shí)表示框架
“全維”是指采用盡量多的維度和側(cè)面來(lái)描述信息,以使采集的信息盡量完整和準(zhǔn)確。本文針對(duì)文本、語(yǔ)音、圖像、視頻、結(jié)構(gòu)化數(shù)據(jù)等多種類(lèi)型的信息,采用分級(jí)的信息特征和特征屬性進(jìn)行信息內(nèi)容的描述,形成基本的知識(shí)表示框架,如圖1所示。
信息特征由其語(yǔ)義特征、背景特征和關(guān)聯(lián)特征組成。其中語(yǔ)義特征由包括語(yǔ)義特征的向量化表達(dá)、淺層語(yǔ)義及深層語(yǔ)義;背景特征包括時(shí)間背景、地域背景、事件背景、人物背景等;關(guān)聯(lián)特征包括人物關(guān)聯(lián)、時(shí)間關(guān)聯(lián)、事件關(guān)聯(lián)、地域關(guān)聯(lián)等特征。
特征屬性中所有的屬性?xún)?nèi)容都有其模型,例如人物模型、時(shí)間模型、語(yǔ)氣模型、情感模型,也就是說(shuō)每增加一項(xiàng)屬性?xún)?nèi)容就對(duì)該屬性?xún)?nèi)容進(jìn)行描述,即知識(shí)對(duì)象模型。而當(dāng)這些模型進(jìn)行實(shí)例化時(shí),知識(shí)數(shù)據(jù)就來(lái)自各種信息素材,從而與知識(shí)圖譜進(jìn)行關(guān)聯(lián),這樣就構(gòu)建出了知識(shí)世界的框架。
3 信息特征表示模型
在信息特征表示框架中,按文本、語(yǔ)音、圖像、視頻等類(lèi)型,對(duì)各自的特征屬性進(jìn)行實(shí)例化,就構(gòu)建成了文本、語(yǔ)音、圖像、視頻的信息特征表示模型了。下面以文本信息為重點(diǎn)進(jìn)行詳細(xì)闡述。
3.1 文本信息特征表示模型
文本信息特征表示模型如圖2所示。
文本信息特征由語(yǔ)義特征、文本內(nèi)容和文本寫(xiě)作的背景特征和關(guān)聯(lián)特征等一級(jí)內(nèi)容特征組成。其中,語(yǔ)義特征由語(yǔ)義特征的向量化表達(dá)、淺層語(yǔ)義、深層語(yǔ)義等二級(jí)內(nèi)容特征組成;背景特征由事件背景、時(shí)間背景、環(huán)境背景、作者背景、時(shí)間背景、環(huán)境背景、事件背景等二級(jí)內(nèi)容特征組成;關(guān)聯(lián)特征由人物關(guān)聯(lián)、事件關(guān)聯(lián)等二級(jí)內(nèi)容特征組成。二級(jí)特征又由一系列的特征屬性組成,如淺層語(yǔ)義特征由文本摘要、關(guān)鍵詞、實(shí)體、文本分類(lèi)、態(tài)勢(shì)要素、元事件等組成。每個(gè)特征屬性又具有相應(yīng)的描述信息,如淺層語(yǔ)義中的人物實(shí)體對(duì)應(yīng)的描述信息包括人物的外部特征、聲音特征、履歷、興趣愛(ài)好、行為習(xí)慣、參與事件活動(dòng)、關(guān)聯(lián)人物等,其中每個(gè)描述信息又包括系列具體的屬性,如人物的外部特征包括性別、身高、體重、頭發(fā)長(zhǎng)短、膚色、臉型、體型等外部特征描述和語(yǔ)義、語(yǔ)速、音調(diào)、音色等聲音特征組成。
3.2 其他信息特征表示模型
語(yǔ)音特征表示模型:基于信息特征表示框架,構(gòu)建語(yǔ)音特征表示模型,其中背景特征和關(guān)聯(lián)特征與文本信息類(lèi)似,重點(diǎn)對(duì)語(yǔ)義特征進(jìn)行建模。其中,淺層語(yǔ)義主要指語(yǔ)音轉(zhuǎn)成的文字以及語(yǔ)音中的關(guān)鍵詞,深層語(yǔ)義主要指語(yǔ)音本身所攜帶的聲紋特征、語(yǔ)氣、語(yǔ)調(diào)、音色、音頻等特征。
圖像特征表示模型:圖像的語(yǔ)義特征,從向量化表達(dá)的角度,一般使用圖像特征來(lái)表達(dá),如統(tǒng)計(jì)特征、紋理、結(jié)構(gòu)等;圖像的淺層語(yǔ)義主要指從圖像中獲取的文本化內(nèi)容,如圖像所描述的物體、人物、姿態(tài)以及位置關(guān)系等;圖像的深層含義主要指從圖像中描述的內(nèi)容所表達(dá)的意圖信息、心理活動(dòng)等。
視頻特征表示模型:視頻可以看成是連續(xù)的圖像加上聲音,其語(yǔ)義特征可以參照?qǐng)D像特征及語(yǔ)音特征進(jìn)行構(gòu)建。
4 結(jié)論
在本文中,我們提出了全維知識(shí)圖譜的概念,采用盡量多的維度、統(tǒng)一的知識(shí)表示框架來(lái)規(guī)范不同品類(lèi)信息的描述方法,能夠使采集的信息盡量完整和準(zhǔn)確。本文對(duì)全維知識(shí)圖譜的概念內(nèi)涵進(jìn)行了闡述,并給出了一種知識(shí)表示的框架,說(shuō)明在領(lǐng)域應(yīng)用中是可行的,而通過(guò)分析可知,全維知識(shí)圖譜能夠在多個(gè)環(huán)節(jié)發(fā)揮實(shí)際的好處,因此,很有必要進(jìn)行繼續(xù)深入的研究。
參考文獻(xiàn):
[1] 徐增林, 盛泳潘, 賀麗榮. 知識(shí)圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報(bào),2016,45(4): 589-606.
[2] 馬創(chuàng)新.論知識(shí)表示[J]. 現(xiàn)代情報(bào),2014,34(3):21-24.
[3] 劉嶠, 李楊, 段宏. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.
[4] 虞盛康. 面向互聯(lián)網(wǎng)數(shù)據(jù)的知識(shí)表送與推理[D].浙江:浙江大學(xué),2016.
[5] 陳宏. 基于本體的知識(shí)表示研究[D].長(zhǎng)沙:長(zhǎng)沙理工大學(xué),2006.
[6] 黨洪莉. 知識(shí)科學(xué)視角下我國(guó)知識(shí)融合研究現(xiàn)狀解析[J].情報(bào)雜志,2015,34(8):158-162.
[7] 周芳, 王鵬波, 韓立巖. 多源知識(shí)融合處理算法[J].北京航空航天大學(xué)學(xué)報(bào),2013,39(1):109-114.
[8] 王錦, 王會(huì)珍, 張俐. 基于維基百科類(lèi)別的文本特征表示[J].中文信息學(xué)報(bào),2011,25(2):27-31.
[9] 許鵬飛. 圖像結(jié)構(gòu)化特征表達(dá)方法研究[D].哈爾濱: 哈爾濱工業(yè)大學(xué),2013.
【通聯(lián)編輯:唐一東】