国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義推理的文本信息關(guān)聯(lián)關(guān)系分析技術(shù)*

2014-09-28 12:09:06陳天瑩蘇智慧
電訊技術(shù) 2014年1期
關(guān)鍵詞:本體關(guān)聯(lián)檢索

陳天瑩,蘇智慧

(中國西南電子技術(shù)研究所,成都610036)

1 引言

基于文本信息的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)是當(dāng)前信息處理的一大熱點(diǎn)。文本信息中蘊(yùn)含的潛在信息非常豐富,信息之間既具有語義性又具有關(guān)聯(lián)性。文本信息的無結(jié)構(gòu)性導(dǎo)致計(jì)算機(jī)對其理解、處理、分析較為受限,目前主要依托人工閱讀、編輯、分析的方式來進(jìn)行處理。因此,如何快速從文本信息中找到信息之間的所有直接和潛在關(guān)聯(lián),并快速對關(guān)聯(lián)信息進(jìn)行分析是輔助文本信息分析人員工作的重要技術(shù)。

關(guān)聯(lián)關(guān)系屬于知識發(fā)現(xiàn)的范疇,分別在數(shù)據(jù)挖掘和文本挖掘中有不同的內(nèi)涵和處理技術(shù),針對不同領(lǐng)域、不同信息處理對象其涉及的關(guān)鍵技術(shù)也大有不同。

在數(shù)據(jù)挖掘中的關(guān)聯(lián)分析主要是指關(guān)聯(lián)規(guī)則挖掘,它由 Agrawal等人[1-2]提出,其處理對象主要是海量的有結(jié)構(gòu)的數(shù)據(jù)庫數(shù)據(jù)。關(guān)聯(lián)規(guī)則挖掘主要是在有結(jié)構(gòu)化的數(shù)據(jù)集上發(fā)現(xiàn)數(shù)據(jù)集中項(xiàng)之間的聯(lián)系。現(xiàn)已發(fā)表的研究論文包括確定性關(guān)聯(lián)規(guī)則的挖掘、量化關(guān)聯(lián)規(guī)則的挖掘、增量式關(guān)聯(lián)規(guī)則的挖掘、廣義關(guān)聯(lián)規(guī)則的挖掘等。最著名的關(guān)聯(lián)規(guī)則算法是Apriori[3]算法,其思想是通過多次迭代找出所有的頻繁項(xiàng)目集。關(guān)聯(lián)規(guī)則主要運(yùn)用于交易數(shù)據(jù)庫中發(fā)現(xiàn)各數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系,從而生成形如“X Y”的規(guī)則。

文本挖掘中的關(guān)聯(lián)分析主要是指知識關(guān)聯(lián),它是利用各項(xiàng)智能分析技術(shù)對非結(jié)構(gòu)化文本進(jìn)行信息提取、存儲、分析后獲取有用知識和信息的技術(shù)。文本信息中的關(guān)聯(lián)性指對象之間的關(guān)聯(lián)性,如(A和B相關(guān))、(B和C相關(guān))、(C和D相關(guān));檢索希望實(shí)現(xiàn)A到D的查詢,推理希望告訴用戶A和D具有路徑關(guān)聯(lián)關(guān)系,這是人們基于語義的一種推理過程。同時(shí),知識之間存在很多有用的關(guān)聯(lián)性,在知識組織中,如果將知識視為一種網(wǎng)狀結(jié)構(gòu),那么這種特定意義上的知識就是由眾多的結(jié)點(diǎn)(知識)和結(jié)點(diǎn)間關(guān)系組成的[4]。有人將知識關(guān)聯(lián)定義為,知識關(guān)聯(lián)就是指大量的知識點(diǎn)之間存在的知識序化的聯(lián)系,以及所隱藏的、可理解的、最終可用的關(guān)聯(lián),它超出信息檢索的范疇,主要是揭示知識之間隱含的關(guān)聯(lián)與寓意,發(fā)現(xiàn)更有價(jià)值的知識[5]。

文本信息的潛在關(guān)聯(lián)關(guān)系分析技術(shù)主要引入語義技術(shù),將信息抽取處理的結(jié)果采用本體進(jìn)行知識表示,并結(jié)合知識檢索技術(shù)、推理技術(shù)來實(shí)現(xiàn)文本信息挖掘。當(dāng)前,國內(nèi)研究將文本挖掘的方法集中在分類、聚類、機(jī)器學(xué)習(xí)等傳統(tǒng)技術(shù)上,對信息抽取的結(jié)果采用關(guān)聯(lián)規(guī)則提取的方式完成文本信息的挖掘,而本技術(shù)在信息抽取結(jié)果表示、處理上均采用語義技術(shù),保留數(shù)據(jù)間的語義關(guān)系,在語義關(guān)系上進(jìn)行知識檢索和推理實(shí)現(xiàn)潛在關(guān)聯(lián)關(guān)系發(fā)現(xiàn)。

2 文本信息中目標(biāo)的關(guān)聯(lián)關(guān)系分析

技術(shù)以文本信息的關(guān)聯(lián)關(guān)系分析為研究對象,主要模擬文本信息處理和分析人員的需求,將信息的關(guān)聯(lián)關(guān)系分析限定為目標(biāo)的關(guān)聯(lián)關(guān)系分析和潛在關(guān)聯(lián)關(guān)系發(fā)現(xiàn)。目標(biāo)是指進(jìn)行作戰(zhàn)或者采取行動時(shí)需要考慮的一個實(shí)體或者一個物體,它可以是為支持指揮員作戰(zhàn)目標(biāo)與作戰(zhàn)意圖所采取行動而識別出得地域、集群、設(shè)施、部隊(duì)、裝備、能力、功能、個人、人群、系統(tǒng)、實(shí)體或者行為[6],研究的目標(biāo)主要是文本信息中的個人、設(shè)施、地域、機(jī)構(gòu)。為了完成文本信息中目標(biāo)的關(guān)聯(lián)關(guān)系分析,首先,采用基于本體的信息抽取技術(shù)對文本內(nèi)容進(jìn)行信息提取,獲取語義關(guān)系;其次,將提取的信息和關(guān)聯(lián)關(guān)系存儲到知識庫中;最后,在知識庫上進(jìn)行知識檢索和推理完成兩種關(guān)聯(lián)關(guān)系的分析。

2.1 關(guān)聯(lián)數(shù)據(jù)抽取

本技術(shù)采用基于本體的信息抽取技術(shù)來完成關(guān)聯(lián)數(shù)據(jù)和關(guān)聯(lián)關(guān)系的獲取。關(guān)聯(lián)關(guān)系抽取首先要確定抽取信息的范疇,即確定哪些信息是有價(jià)值的。抽取對象是目標(biāo)對象及目標(biāo)對象之間的關(guān)系。經(jīng)過仔細(xì)分析,在文本信息中目標(biāo)對象之間的關(guān)聯(lián)關(guān)系通常是和目標(biāo)的動向情況進(jìn)行直接關(guān)聯(lián)的。目標(biāo)動向事件是指目標(biāo)的行為,例如目標(biāo)的參與活動、發(fā)表言論等,將動向事件簡稱為動向。研究的范疇定義如下:

因此,“目標(biāo)-動向”是目標(biāo)關(guān)聯(lián)的重要信息,其關(guān)系圖及示例如圖1所示。

圖1 目標(biāo)對象-事件”關(guān)系圖及示例Fig.1 Diagram of target-event relationship with an example

由圖1可以看出,目標(biāo)的關(guān)聯(lián)關(guān)系包括“目標(biāo)-動向”、“動向-時(shí)間”、“動向-地點(diǎn)”以及間接的“目標(biāo)-時(shí)間”、“目標(biāo)-地點(diǎn)”、“目標(biāo)-目標(biāo)”6種關(guān)系。文本采用基于本體的信息抽取技術(shù)來提取關(guān)聯(lián)關(guān)系,流程如圖2所示。

圖2 關(guān)聯(lián)關(guān)系抽取流程Fig.2 Relationship extraction workflow

信息抽取首先對待處理文本進(jìn)行目標(biāo)實(shí)體識別,將目標(biāo)實(shí)體識別的位置和分句結(jié)果相結(jié)合選取候選事件,為保證動向事件的可讀性和完整性,我們將一個完整的包含動向事件的語句作為一個動向;在候選動向事件中進(jìn)行語義分析,語義分析主要包括語法分析和句法分析,當(dāng)候選動向事件包含的要素滿足事件定義時(shí),將其確定為動向事件,簡稱動向;將動向事件按照本體模型進(jìn)行關(guān)聯(lián)關(guān)系提取;最后將提取出來的關(guān)系按照本體模型的schema進(jìn)行存儲。

2.2 關(guān)聯(lián)本體模型構(gòu)建

本體模型的構(gòu)建是信息抽取、知識庫存儲、知識檢索和知識推理的依據(jù)。下面重點(diǎn)介紹如何對文本信息中的目標(biāo)對象及目標(biāo)對象關(guān)聯(lián)關(guān)系進(jìn)行建模。

首先,確定領(lǐng)域本體的建模范圍,即建模對象(概念)有哪些,并對其關(guān)系進(jìn)行描述和建模。本研究中的概念和關(guān)系如下:

其次,分別對Concept概念和關(guān)系進(jìn)行建模。本體模型分為兩個部分:一個是對概念及概念之間關(guān)系的描述,在描述邏輯中通常稱為TBox;另一個可以簡單看成是對TBox進(jìn)行實(shí)例化后的關(guān)系模型,稱為ABox。采用Topbraid Composer本體建模工具進(jìn)行建模。

(1)概念模型

概念模型按照本體構(gòu)建的標(biāo)準(zhǔn)和規(guī)范,主要定義了Class,以及Class之間的分類關(guān)系。由圖3可看出,我們定義了目標(biāo)、動向2個Class,并在目標(biāo)下細(xì)分人物、機(jī)構(gòu)、設(shè)施、地點(diǎn)4個子類。如此層層細(xì)分,將我們所需要研究的概念分層分類進(jìn)行表示。

圖3 概念模型圖Fig.3 Diagram of conceptual model

(2)關(guān)系模型

圖4 關(guān)系模型圖Fig.4 Diagram of relation model

如圖4所示,關(guān)系模型同樣是在本體構(gòu)建得標(biāo)準(zhǔn)和規(guī)范下,定義每個Class之間的關(guān)系,以及這些關(guān)系的數(shù)據(jù)模型和邏輯描述模型。所有定義規(guī)范遵循W3C的規(guī)范標(biāo)準(zhǔn),同時(shí)引用了RDF/RDFs、OWL標(biāo)準(zhǔn)。關(guān)系模型表如表1所示。

表1 關(guān)系模型表Table1 Table of relation model

2.3 關(guān)聯(lián)檢索及推理

關(guān)聯(lián)檢索及推理是在知識庫的基礎(chǔ)上,運(yùn)用知識檢索技術(shù)和知識庫推理技術(shù)來對知識庫中的知識進(jìn)行關(guān)聯(lián)關(guān)系挖掘和發(fā)現(xiàn)的一種基于業(yè)務(wù)驅(qū)動的應(yīng)用性技術(shù)。關(guān)聯(lián)分析主要解決目標(biāo)的知識檢索、目標(biāo)的路徑關(guān)聯(lián)分析和目標(biāo)的潛在關(guān)聯(lián)關(guān)系發(fā)現(xiàn)三個方面。

目標(biāo)的知識檢索區(qū)別于關(guān)鍵詞檢索的不同在于,關(guān)鍵詞檢索使用戶只能查詢哪些文本中出現(xiàn)了該目標(biāo),返回的結(jié)果集大,從結(jié)果集中需要人工定位后通過上下文獲取到該目標(biāo)的信息;目標(biāo)的知識檢索是從目標(biāo)出發(fā),在網(wǎng)狀結(jié)構(gòu)的知識中將目標(biāo)關(guān)聯(lián)的所有事件聚合后返回給用戶。因此,目標(biāo)的知識檢索是基于語句的檢索,而關(guān)鍵詞檢索是基于文章的檢索,目標(biāo)的知識檢索返回的結(jié)果更加精確。同時(shí),在知識檢索的結(jié)果上可以按時(shí)間、地點(diǎn)排序和統(tǒng)計(jì),以實(shí)現(xiàn)對目標(biāo)的簡要分析,如目標(biāo)動向、目標(biāo)活動軌跡以及活動預(yù)測等。圖5用某人物為示例展示了知識檢索和關(guān)鍵詞檢索的結(jié)果及可擴(kuò)展的分析能力。

圖5 知識檢索和關(guān)鍵詞檢索結(jié)果對比圖Fig.5 Comparison between knowledge search result and keyword search result

目標(biāo)的關(guān)聯(lián)關(guān)系分析分為路徑關(guān)聯(lián)分析和潛在關(guān)聯(lián)關(guān)系發(fā)現(xiàn)兩種,前者主要是基于知識檢索進(jìn)行的路徑關(guān)聯(lián)查詢,后者是基于知識推理規(guī)則進(jìn)行的知識發(fā)現(xiàn)。下面我們將根據(jù)一個實(shí)際的示例來主要描述潛在關(guān)聯(lián)關(guān)系發(fā)現(xiàn)得的分析方法和模型及結(jié)果。首先示例ABox用triples形式描述如圖6。

圖6 事件描述及抽取關(guān)聯(lián)關(guān)系Fig.6 Event description and extraction relationship

目標(biāo)對象的潛在關(guān)聯(lián)關(guān)系發(fā)現(xiàn)模型及示例如下:

(1)關(guān)聯(lián)規(guī)則1定義:如果兩個目標(biāo)A和B在同一時(shí)間、同一地點(diǎn)出現(xiàn),則目標(biāo)對象A和B具有潛在關(guān)聯(lián)。

Prolog規(guī)則模型如圖7所示。

圖7 規(guī)則1描述圖Fig.7 Description diagram of rule 1

(2)關(guān)聯(lián)規(guī)則2定義:如果兩個目標(biāo)對象A和B,分別檢索并得到A和B的直接關(guān)聯(lián)目標(biāo)對象集合,直接目標(biāo)對象中超過兩個以上相同,則A和B具有潛在關(guān)聯(lián)性。

Prolog規(guī)則描述如圖8所示。

圖8 規(guī)則2描述圖Fig.8 Description diagram of rule 2

3 系統(tǒng)主要流程

信息關(guān)聯(lián)分析系統(tǒng)主要實(shí)現(xiàn)基于語義的知識檢索,并在知識檢索的結(jié)果上進(jìn)行知識分析;在信息知識庫的知識上通過基于語義的知識推理來完成目標(biāo)對象的路徑關(guān)聯(lián)分析和目標(biāo)對象的潛在關(guān)聯(lián)關(guān)系發(fā)現(xiàn)。系統(tǒng)處理流程如圖9所示。

首先將文本信息接入到系統(tǒng),系統(tǒng)通過本體模型中的概念來確定需要在該文本信息中識別和提取哪些目標(biāo),以及判別這些目標(biāo)實(shí)體的類型;通過目標(biāo)實(shí)體識別結(jié)果、類型及位置來獲取候選事件集;將候選事件集進(jìn)行語法、句法分析來進(jìn)行檢測,選取符合條件的事件;在抽取的事件集中,結(jié)合本體模型的關(guān)系模型來提取目標(biāo)實(shí)體之間的關(guān)聯(lián)關(guān)系;將抽取的目標(biāo)實(shí)體關(guān)聯(lián)關(guān)系存儲到實(shí)例知識庫中;在實(shí)例知識庫、本體知識庫上進(jìn)行知識檢索;在實(shí)體知識庫、本體知識庫和規(guī)則庫上進(jìn)行知識推理;最后給出關(guān)聯(lián)分析的結(jié)果。

圖9 系統(tǒng)流程圖Fig.9 Diagram of system workflow

文本關(guān)聯(lián)關(guān)系分析技術(shù)其目的在于為文本信息處理人員提供快速的關(guān)聯(lián)關(guān)系檢索,并輔助其完成關(guān)聯(lián)關(guān)系發(fā)現(xiàn)。結(jié)合工程系統(tǒng)應(yīng)用,本技術(shù)對接入的文本信息中人物目標(biāo)的相關(guān)信息進(jìn)行提取,在抽取結(jié)果上引入語義技術(shù)進(jìn)行人物目標(biāo)的信息聚合,采用知識檢索技術(shù)實(shí)現(xiàn)人物目標(biāo)關(guān)聯(lián)信息的快速檢索,運(yùn)用知識推理技術(shù)完成指定人物目標(biāo)的潛在關(guān)聯(lián)人物發(fā)現(xiàn)等功能,為信息分析人員進(jìn)行人物跟蹤監(jiān)控、多人物間關(guān)系分析等提供輔助決策信息。

4 結(jié)論

文本關(guān)聯(lián)關(guān)系分析技術(shù)針對文本信息處理領(lǐng)域中文本信息的關(guān)聯(lián)關(guān)系自動提取、快速檢索、潛在關(guān)聯(lián)關(guān)系發(fā)現(xiàn)等重大處理需求進(jìn)行研究和設(shè)計(jì),采用語義技術(shù)抽取并表示文本信息的關(guān)聯(lián)關(guān)系,運(yùn)用知識檢索和推理技術(shù)實(shí)現(xiàn)信息聚合檢索和潛在關(guān)聯(lián)關(guān)系發(fā)現(xiàn)。基于語義進(jìn)行文本信息的挖掘是一個新的研究方向,仍需要對每個處理環(huán)節(jié)進(jìn)行持續(xù)研究,包括如何提取有價(jià)值的關(guān)聯(lián)信息,如何更加合理、靈活地保留其語義信息和表示,語義信息的推理技術(shù)是否可以有效結(jié)合非語義數(shù)據(jù)從而演變新的技術(shù)來滿足業(yè)務(wù)的處理需求等。

[1]Gao J.Resolution and accuracy of terrain representation by grid GEMs at a micro scale[J].International Journal of Geographical Information Science,1997,11(2):199-212.

[2]湯國安,楊勤科,張勇,等.不同比例尺DEM提取地面坡度的精度研究——以在黃土丘陵溝壑區(qū)的試驗(yàn)為例[J].水土保持通報(bào),2001,21(1):53-56.TANG Guo-an,YANG Qin-ke,ZHANG Yong,et al.Research on Accuracy of Slope Derived From DEMs of Different Map Scales[J].Bulletin of Soil and Water Conservation,2001,21(1):53-56.(in Chinese)

[3]吳強(qiáng),劉宗田,強(qiáng)宇.基于本體的知識庫推理研究[J].計(jì)算機(jī)應(yīng)用研究,2005,21(1):55-57.WU Qiang,LIU Zong-tian,QIANG Yu.Ontology based knowledge reasoning research[J].Application Research of Computers,2005,21(1):55-57.(in Chinese)

[4]曹錦丹.基于文獻(xiàn)知識單元的知識組織—文獻(xiàn)知識庫建設(shè)研究[J].情報(bào)科學(xué),2002,20(11):1187-1189.CAO Jin-dan.The knowledge organization based on the document knowledge unit[J].Information Science,2002,20(11):1187-1189.(in Chinese)

[5]盧寧.面向知識發(fā)現(xiàn)的知識關(guān)聯(lián)提示及其應(yīng)用研究[D].南京:南京理工大學(xué),2007.LU Ning.Knowledge discovery oriented knowledge relationship reveal and application research[D].Nanjing:Nanjing University of Science and Technology,2007.(in Chinese)

[6]中國電子科技集團(tuán)公司第十研究所.聯(lián)合情報(bào)[J].電訊技術(shù),2012,52(suppl.1):1-132.The 10th Institute of CETC.Joint Information[J].Telecommunication Engineering,2012,52(Suppl.1):1-132.(in Chinese)

[7]于龍,蹇強(qiáng).面向主題的信息抽取需求描述與分析[J].計(jì)算機(jī)工程,2012(23):57-59.YU Long,QIAN Qiang.Theme oriented information extraction requirement description and anaylsys[J].Computer Engineering,2012(23):57-59.(in Chinese)

[8]高強(qiáng),游宏梁.事件抽取技術(shù)研究綜述[J].情報(bào)理論與實(shí)踐,2013(4):118-121,132.GAO Qiang,YOU Hong-liang.Summery of event extraction technology research[J].Information Studies:Theory& Application,2013(4):118-121,132.(in Chinese)

猜你喜歡
本體關(guān)聯(lián)檢索
Abstracts and Key Words
對姜夔自度曲音樂本體的現(xiàn)代解讀
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
2019年第4-6期便捷檢索目錄
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
Care about the virtue moral education
卷宗(2013年6期)2013-10-21 21:07:52
語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
瑞安市| 句容市| 博罗县| 丹寨县| 中牟县| 昌乐县| 鞍山市| 武山县| 库车县| 同仁县| 桑植县| 侯马市| 青川县| 洛阳市| 西乌| 铜梁县| 星子县| 西和县| 象山县| 万源市| 白沙| 龙岩市| 黄骅市| 临城县| 马鞍山市| 平潭县| 青州市| 弋阳县| 杨浦区| 藁城市| 巴马| 梓潼县| 博白县| 阳春市| 南安市| 南木林县| 延川县| 洛阳市| 渭南市| 阜南县| 赫章县|