国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于本體的學(xué)科體系知識(shí)圖譜構(gòu)建研究

2019-05-24 14:12熊嘉強(qiáng)孫陽(yáng)光
電腦知識(shí)與技術(shù) 2019年9期
關(guān)鍵詞:知識(shí)圖譜本體

熊嘉強(qiáng) 孫陽(yáng)光

摘要:作為人工智能領(lǐng)域的一個(gè)熱點(diǎn)問(wèn)題,知識(shí)圖譜逐漸成為語(yǔ)義搜索和知識(shí)問(wèn)答的關(guān)鍵技術(shù)之一。本文研究了學(xué)科體系的本體模型,利用RDF三元組進(jìn)行知識(shí)表示,并通過(guò)Jsoup爬蟲技術(shù)來(lái)對(duì)知識(shí)庫(kù)進(jìn)行擴(kuò)充,實(shí)現(xiàn)了學(xué)科體系知識(shí)圖譜構(gòu)建,這對(duì)復(fù)雜領(lǐng)域知識(shí)圖譜構(gòu)建具有實(shí)際意義。

關(guān)鍵詞:本體;RDF;學(xué)科體系;知識(shí)圖譜

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2019)09-0187-03

Abstract: As a hot topic in the field of artificial intelligence,knowledge graph has gradually become one of the key technology of semantic search and knowledge base question answering. This paper studies the ontology model of discipline system,uses RDF three triple represent knowledge,and extends the knowledge base by Jsoup crawler technology,it achieves the construction of discipline system of knowledge graph, and it has practical significance to build a complex domain knowledge graph.

Key words: Ontology;RDF;Discipline;Knowledge Graph

1 引言

知識(shí)圖譜作為語(yǔ)義網(wǎng)的數(shù)據(jù)支撐,在搜索和問(wèn)答方面已經(jīng)成功應(yīng)用到了很多領(lǐng)域[1]。知識(shí)圖譜用于描述真實(shí)世界中存在的各種實(shí)體或概念,以及實(shí)體概念之間的關(guān)系[2]。每個(gè)實(shí)體或概念用一個(gè)全局唯一確定的標(biāo)識(shí)符來(lái)標(biāo)識(shí),屬性-值對(duì)用來(lái)刻畫實(shí)體的內(nèi)在特性,利用關(guān)系來(lái)連接兩個(gè)實(shí)體,知識(shí)圖譜可有效反映它們之間的關(guān)聯(lián)。

學(xué)科體系是根據(jù)科學(xué)分工和產(chǎn)業(yè)結(jié)構(gòu)的需要所設(shè)置的學(xué)科門類。研究學(xué)科體系知識(shí)圖譜的構(gòu)建能有效解決學(xué)科內(nèi)一些知識(shí)記憶類的問(wèn)題。本文采用惠普實(shí)驗(yàn)室開發(fā)的Jena技術(shù)框架,它為RDF、RDFS、OWL提供了一個(gè)程序開發(fā)環(huán)境[3],并支持利用Excel文檔去批量導(dǎo)入數(shù)據(jù)三元組的方式。通過(guò)對(duì)基于本體的學(xué)科體系知識(shí)圖譜構(gòu)建研究,本文為知識(shí)圖譜的應(yīng)用提供了新思路。

2 學(xué)科體系知識(shí)圖譜建模

知識(shí)圖譜構(gòu)建主要分為本體層和數(shù)據(jù)層[4]。本體層是知識(shí)圖譜的骨架,強(qiáng)調(diào)的是學(xué)科體系中概念與概念之間的關(guān)系。數(shù)據(jù)層是本體的一個(gè)豐富過(guò)程,強(qiáng)調(diào)的是學(xué)科體系中實(shí)體與實(shí)體之間的關(guān)系,以及它們的屬性和屬性值。本文知識(shí)圖譜建模分為以下六個(gè)步驟,具體流程如圖1所示。

1)本體模型的構(gòu)建;

2)通過(guò)數(shù)據(jù)標(biāo)注的方式創(chuàng)建實(shí)例和三元組;

3)將數(shù)據(jù)以RDF表示的形式存儲(chǔ);

4)知識(shí)庫(kù)擴(kuò)充采用爬蟲算法去爬取網(wǎng)絡(luò)數(shù)據(jù);

5)外源數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,并將數(shù)據(jù)存儲(chǔ)入庫(kù);

6)數(shù)據(jù)入庫(kù)后,可以對(duì)知識(shí)進(jìn)行查詢,查詢無(wú)結(jié)果,進(jìn)行數(shù)據(jù)更新,重新數(shù)據(jù)標(biāo)注。

2.1本體模型

本體模型是按照現(xiàn)實(shí)生活中的概念、概念間的關(guān)系、概念所具有的特征(即屬性)以及概念的實(shí)例抽象出現(xiàn)實(shí)的模型。本文學(xué)科體系的本體模型是通過(guò)學(xué)科領(lǐng)域各實(shí)例抽象出來(lái)的概念,以及概念之間的關(guān)系所構(gòu)成的模型。其本體模型構(gòu)建分為以下五個(gè)步驟:

1)本體的專業(yè)領(lǐng)域和范疇的確定:本文研究的本體范疇是學(xué)科體系,下文以政治學(xué)科為例,給出基于本體的學(xué)科體系知識(shí)圖譜構(gòu)建過(guò)程。政治學(xué)科本體范圍需要在政治老師的指導(dǎo)下,以初高中教材為主,結(jié)合教輔教材,確定本體范圍。

2)概念體系的確定:構(gòu)建概念體系要明確概念的定義,本文把很多具有相同特性的實(shí)例抽象為一個(gè)概念,對(duì)應(yīng)于模型中類(owl:Class)[5]。而概念體系則是多個(gè)類結(jié)合在一起,構(gòu)成的一個(gè)有上下位關(guān)系的體系。本文結(jié)合政治學(xué)科的特點(diǎn)以及政治老師的建議,最終確定了概念體系。

3)屬性及其約束的確定:本體里面的屬性一般分為對(duì)象屬性(owl:ObjectProperty)和數(shù)據(jù)屬性(owl:DatatypeProperty)。對(duì)象屬性一般指實(shí)例與實(shí)例之間的關(guān)系,以及實(shí)例與概念之間的關(guān)系。數(shù)據(jù)屬性一般指實(shí)例的自身屬性,如某個(gè)實(shí)例的內(nèi)容、含義等。屬性的約束在本文是指代定義域(rdfs:Domain)和值域(rdfs:Range)的約束。

4)創(chuàng)建實(shí)例:本文采用標(biāo)注的方法創(chuàng)建實(shí)例。通過(guò)把教材電子化,然后對(duì)每個(gè)章節(jié)的內(nèi)容進(jìn)行標(biāo)注,利用標(biāo)注出的實(shí)例以及它的基礎(chǔ)屬性生成一個(gè)有主謂賓部分的Excel文檔,此部分對(duì)應(yīng)于知識(shí)圖譜里面的RDF三元組。

5)本體存儲(chǔ)和更新:本文本體數(shù)據(jù)以Excel導(dǎo)入的方式存儲(chǔ)。在知識(shí)更新的過(guò)程中,本體需要逐步的完善,盡可能覆蓋更多的知識(shí)點(diǎn)。

2.2 知識(shí)表示

本文采用W3C規(guī)范的RDF資源描述框架(Resource Description Framework)對(duì)知識(shí)進(jìn)行表示。RDF將知識(shí)表示成資源-屬性-值這樣的三元組形式。本文將RDF三元組形式分別對(duì)應(yīng)于主謂賓部分,并以列的形式存儲(chǔ)在Excel文檔內(nèi),利用Jena技術(shù)將Excel數(shù)據(jù)以RDF形式批量導(dǎo)入的方式來(lái)構(gòu)建知識(shí)圖譜。

RDF三元組可以利用圖形結(jié)構(gòu)表示,本文知識(shí)圖譜部分?jǐn)?shù)據(jù)表示關(guān)系如圖2所示。節(jié)點(diǎn)表示概念或?qū)嵗?,邊表示關(guān)系或?qū)傩?。圖2上面部分是本體層,每個(gè)圓形節(jié)點(diǎn)表示一個(gè)概念,節(jié)點(diǎn)的邊表示他們的關(guān)系。圖2下面部分是數(shù)據(jù)層,每個(gè)橢圓形節(jié)點(diǎn)表示實(shí)例,實(shí)例與實(shí)例之間的邊表示關(guān)系,與實(shí)例相連的每個(gè)方框和邊構(gòu)成實(shí)例的屬性-值對(duì)。

2.3 數(shù)據(jù)存儲(chǔ)

知識(shí)圖譜的數(shù)據(jù)存儲(chǔ)主要采用RDF數(shù)據(jù)庫(kù)和圖數(shù)據(jù)庫(kù)這種非關(guān)系型數(shù)據(jù)庫(kù)來(lái)存儲(chǔ),包括Neo4J,RDF4J,Virtuoso,StarDog等[6]。本文采用基于Jena-TDB的技術(shù)對(duì)RDF三元組提供數(shù)據(jù)存儲(chǔ)。作為Java中本體文件的管理編輯工具,Jena提供了TDB用來(lái)對(duì)RDF數(shù)據(jù)進(jìn)行存儲(chǔ)和查詢,支持所有的Jena Api[7]。Jena-TDB還集成了SPARQL,支持SPARQL查詢。

TDB的使用一般可以分為以下四步:第一步是建立Dataset;第二步是裝載Model;第三部是固化TDB文件;第四步是提交和關(guān)閉操作。通過(guò)知識(shí)表示將數(shù)據(jù)以RDF三元組的形式存儲(chǔ)到數(shù)據(jù)庫(kù)中,最終完成知識(shí)庫(kù)的數(shù)據(jù)存儲(chǔ)。

3 知識(shí)庫(kù)擴(kuò)充和查詢顯示

3.1 知識(shí)庫(kù)擴(kuò)充

學(xué)科體系包含核心知識(shí)點(diǎn)和非核心知識(shí)點(diǎn)。我們需要對(duì)非核心知識(shí)點(diǎn)的數(shù)據(jù)進(jìn)行擴(kuò)充。本文采取的是網(wǎng)絡(luò)爬蟲算法的方式收集數(shù)據(jù)。相關(guān)技術(shù)采用的是Jsoup爬蟲技術(shù),它是一款Java 的Html解析器,可直接解析某個(gè)Html文本內(nèi)容。

本文學(xué)科體系知識(shí)庫(kù)擴(kuò)充分文以下幾步:首先是實(shí)體集擴(kuò)充,本文在相關(guān)權(quán)威的教材教輔網(wǎng)站上面,爬取一些高頻詞匯。然后通過(guò)和知識(shí)庫(kù)里面的實(shí)例對(duì)比去重,再給相關(guān)的專家老師進(jìn)行審核,確定實(shí)例。接著是三元組的擴(kuò)充,本文選用了可信度較高的百度百科,通過(guò)Jsoup爬蟲去爬取實(shí)例百科頁(yè)面的內(nèi)容解釋和屬性-值對(duì),以及鏈接到下一層的相關(guān)數(shù)據(jù)。最后對(duì)爬蟲結(jié)果進(jìn)行了數(shù)據(jù)整合和清洗,并將Excel表格數(shù)據(jù)導(dǎo)入知識(shí)庫(kù)中存儲(chǔ),完成知識(shí)庫(kù)的擴(kuò)充。本文爬蟲算法步驟分為以下七步,具體流程如圖3所示。

1)根據(jù)實(shí)例名獲取對(duì)應(yīng)的百度百科Url;

2)查看目標(biāo)網(wǎng)頁(yè)的Html源碼;

3)利用Jsoup對(duì)應(yīng)的方法對(duì)目標(biāo)內(nèi)容進(jìn)行解析;

4)查看當(dāng)前解析內(nèi)容是否有鏈接到下一層的Url;

5)如果有鏈接到下一層的Url,則獲取該Url,深度減1(初始深度值默認(rèn)2),然后繼續(xù)執(zhí)行第四步;

6)如果沒(méi)有鏈接到下一層的Url,則直接獲取該實(shí)例對(duì)應(yīng)的相關(guān)屬性和屬性值;

7)將獲取的數(shù)據(jù)按照主謂賓三元組的形式導(dǎo)出到Excel。

3.2 查詢顯示

為了提升問(wèn)答質(zhì)量,本文采用了SPARQL來(lái)對(duì)RDF數(shù)據(jù)進(jìn)行查詢。SPARQL是專門針對(duì)RDF三元組的一種查詢語(yǔ)言,它的重要性類似于關(guān)系數(shù)據(jù)庫(kù)中的SQL。這里以查詢“貨幣的職能”這一個(gè)概念所擁有的實(shí)例為例,其查詢語(yǔ)句如下:

PREFIX resource:

PREFIX rdf:

SELECT ?s WHERE {?s rdf:type resource:貨幣的職能}

4 結(jié)論

構(gòu)建學(xué)科體系知識(shí)圖譜能有效地解決學(xué)科領(lǐng)域知識(shí)記憶類問(wèn)題,這對(duì)學(xué)科體系知識(shí)的應(yīng)用具有現(xiàn)實(shí)意義。本文基于本體通過(guò)本體模型、知識(shí)表示、數(shù)據(jù)存儲(chǔ)的方式對(duì)學(xué)科體系知識(shí)圖譜的構(gòu)建進(jìn)行了研究,利用爬蟲技術(shù)對(duì)知識(shí)庫(kù)的擴(kuò)充進(jìn)行了探索,這為進(jìn)一步構(gòu)建復(fù)雜領(lǐng)域知識(shí)圖譜打下了基礎(chǔ)。

參考文獻(xiàn):

[1]徐增林,盛泳潘,賀麗榮,等.知識(shí)圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報(bào),2016,45(4):589-606.

[2]漆桂林,高桓,吳天星.知識(shí)圖譜研究進(jìn)展[J].情報(bào)工程,2017,3(1):4-25.

[3]王勁東,武頻,朱永華. 基于Jena的電影素材領(lǐng)域本體構(gòu)建及推理研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,

2016,26(08):30-34.

[4]李涓子,侯磊.知識(shí)圖譜研究綜述[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,40(03):454-459.

[5]張德政,謝永紅,李曼,石川.基于本體的中醫(yī)知識(shí)圖譜構(gòu)建[J].情報(bào)工程,2017,3(01):35-42.

[6]胡澤文, 孫建軍, 武夷山.國(guó)內(nèi)知識(shí)圖譜應(yīng)用研究綜述[J]. 圖書情報(bào)工作, 2013, 57(3):131-137.

[7]Saruladha K, Aghila G, Sathiya B. A Comparative Analysis of Ontology and Schema Matching Systems[J]. International Journal of Computer Applications, 2011, 34(8):14-21.

【通聯(lián)編輯:唐一東】

猜你喜歡
知識(shí)圖譜本體
Abstracts and Key Words
對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
基于本體的機(jī)械產(chǎn)品工藝知識(shí)表示
從《ET&S》與《電化教育研究》對(duì)比分析中管窺教育技術(shù)發(fā)展
《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
專題
黔西| 珲春市| 晴隆县| 深州市| 日喀则市| 沅江市| 阿鲁科尔沁旗| 武乡县| 乐昌市| 西昌市| 丹凤县| 丹东市| 星子县| 新建县| 象山县| 漳州市| 崇仁县| 弋阳县| 于都县| 辽宁省| 平谷区| 普洱| 营山县| 修武县| 溧水县| 巴林右旗| 且末县| 泌阳县| 梅河口市| 泸州市| 高雄县| 界首市| 遂平县| 称多县| 亳州市| 永川市| 大同市| 正蓝旗| 古交市| 周至县| 万源市|