国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于英、維匹配技術(shù)的跨語言領(lǐng)域本體構(gòu)建方法研究

2018-07-05 04:32:36庫都來提阿布都熱合曼哈妮克孜伊拉洪艾斯卡爾艾木都拉新疆大學(xué)新疆烏魯木齊830046
計算機應(yīng)用與軟件 2018年6期
關(guān)鍵詞:三元組維吾爾語實例

庫都來提·阿布都熱合曼 哈妮克孜·伊拉洪 艾斯卡爾·艾木都拉(新疆大學(xué) 新疆 烏魯木齊 830046)

0 引 言

本體在信息科學(xué)領(lǐng)域和人工智能領(lǐng)域中的作用越來越顯著。本體是共享概念模型的形式化規(guī)范說明[1]。本體用來研究領(lǐng)域或更廣范圍的知識對象、分類和屬性以及它們之間的關(guān)系,從而描述領(lǐng)域知識,本體中的所有的概念的定義必須明確且無歧義[2]。作為專業(yè)性較強的領(lǐng)域本體,其描述的是特定領(lǐng)域中的概念和概念之間的關(guān)系。在本體構(gòu)建方面,國內(nèi)外的文獻中出現(xiàn)了一些較成熟的方法。文獻[3]提出TOVE法是先建立本體的非形式化描述 后將這種描述形式化。文獻[4]提出 METHONTOLOGY方法支持在知識的層次上完成本體構(gòu)建。國內(nèi)用的較多的本體構(gòu)建方法是基于虛詞表的方法,如唐愛民[5]提出了一種基于敘詞表構(gòu)建領(lǐng)域本體原型的方法。李景[6]提出的大規(guī)模本體開發(fā)環(huán)境原型系統(tǒng)(LODE)以農(nóng)業(yè)敘詞表為中心知識庫基礎(chǔ)。

而維吾爾語中本體的研究相對于英語和中文開始的比較晚,領(lǐng)域本體構(gòu)建方法的研究也相對較少[7]。朱昊天等[8]提出基于跨語言本體轉(zhuǎn)換的維吾爾語輿情本體。因此,本文的研究目的是通過提出一種新的維吾爾語領(lǐng)域本體構(gòu)建方法來豐富維吾爾語中本體的研究及應(yīng)用。

1 概念及重用本體集合

1.1 基本概念

本文在領(lǐng)域本體構(gòu)建過程中主要基于概念、關(guān)系以及實例層次的構(gòu)建?;驹乜梢杂霉奖硎綶9]:

O=〈C,R,A,I〉

(1)

式中:O表示本體,C表示概念或者類的集合,R表示關(guān)系集合,I表示實例的集合。概念Concept或者類Classes在本體中意思相同,可以通用。

(1) 概念和類用來描述知識。任何知識都能夠用概念具體化。一個本體通常由多個概念組成,形成概念集合。

(2) 關(guān)系Ralations用來定義概念之間的聯(lián)系。關(guān)系分為等級關(guān)系和非等級關(guān)系。表1是幾種常見的基本關(guān)系。

表1 本體中基本關(guān)系

(3) 公理Axioms。無需證明的不隨時間變化而發(fā)生結(jié)論變化的概念、關(guān)系之間的關(guān)系描述。公理是構(gòu)建本體模型的基礎(chǔ)。

(4) 實例Instances是抽象類的具體實物。實例和類的區(qū)別并不明顯。在構(gòu)建本體層次模型時,最底層的抽象類充當(dāng)實例的角色。當(dāng)對最底層的抽象類進一步細分時,實例充當(dāng)類的角色。實例的角色有新的最底層類充當(dāng)。類和實例的角色是可以互換的。

(5) 三元組是一種信息的表達方式。一個三元組可表示為T={A,R,B}。在本研究中,A和B可以理解為兩個不同的概念或?qū)嵗?,R同式(1)。

1.2 重用本體集合

概念在多語種環(huán)境下所表達的內(nèi)涵是一致的[10]。司莉等[11]在論文中實驗驗證了跨語言本體技術(shù)在研究信息檢索模型領(lǐng)域中的作用。因此在本文中,使用本體研究技術(shù)較成熟的英語領(lǐng)域本體進行重用來彌補維吾爾語中本體構(gòu)建研究的不足。本研究所選擇的領(lǐng)域為旅游領(lǐng)域,通過互聯(lián)網(wǎng)等途徑,收集構(gòu)建維吾爾語領(lǐng)域本體所使用的英文領(lǐng)域本體集合EO。EO的公式如下:

EO={EO1,EO2,…,EOi,…,EOn}

(2)

每一個選擇本體EOi都表示旅游領(lǐng)域中的部分知識庫。其中需包含式(1)中所包含的概念、關(guān)系、實例,同時都體現(xiàn)旅游領(lǐng)域知識。本研究充分利用每一個選擇的本體所體現(xiàn)的領(lǐng)域知識,將其中所包含的領(lǐng)域知識結(jié)合并進行處理。

2 領(lǐng)域本體構(gòu)建模型

2.1 領(lǐng)域本體構(gòu)建模型

構(gòu)建維吾爾語領(lǐng)域本體的過程中,將該方法的實現(xiàn)分階段進行。因此,構(gòu)造出領(lǐng)域本體構(gòu)建模型如圖1所示。

圖1 領(lǐng)域本體構(gòu)建模型

領(lǐng)域本體自動構(gòu)建主要按圖1模型進行,主要分為三個步驟。

首先是收集領(lǐng)域本體,收集的本體必須包含所研究領(lǐng)域的知識。以三元組為單位,使用Apache Jena開源工程自動提取本體集合中的三元組[12]。

其次對提取到的三元組進行維吾爾語三元組匹配和整理操作。

最后基于處理后的維吾爾語三元組庫進行領(lǐng)域本體的實現(xiàn)。完成領(lǐng)域本體的構(gòu)建后,對構(gòu)建的領(lǐng)域本體進行評價并完善。

2.2 領(lǐng)域本體的收集

研究中在Protege Ontology Library[13]與Swoogle[14]等互聯(lián)網(wǎng)途徑收集了3種不同的英語旅游本體。它們分別是:ETP-tourism.owl、Travel-ontology-ontologies.owl與TravelOntology.owl。雖然這些本體知識庫都代表英語旅游領(lǐng)域種的知識,但是這些本體的領(lǐng)域側(cè)重點也有所差異。如ETP-tourism.owl中類個數(shù)較多,而TravelOntology.owl中對象屬性和實例個數(shù)較多。因此,通過對這些本體重用來構(gòu)建的維吾爾語領(lǐng)域本體結(jié)構(gòu)有所區(qū)別并規(guī)模也會較大,因此需要進一步處理并完善。

2.3 提取三元組集合及數(shù)據(jù)處理

2.3.1 Apache Jena

Apache Jena是目前已經(jīng)被廣泛運用于語義網(wǎng)應(yīng)用[10]。Jena提供以下6個功能:

(1) 以XML、N-triples和Turtle格式讀入、處理、存儲RDF數(shù)據(jù)的API。

(2) 處理OWL和RDFS本體的API[15]。

(3) 基于規(guī)則的推理引擎,用于推薦RDF和OWL數(shù)據(jù)。

(4) 高效存儲大規(guī)模RDF三元組到硬盤的功能。

(5) 基于三元組SPARQL的查詢服務(wù)。

(6) 將RDF數(shù)據(jù)發(fā)布到其他應(yīng)用程序的功能。

利用Jena提供的API能夠訪問RDF三元組。該研究的算法實現(xiàn)部分就利用Jena這一優(yōu)勢,對在三元組層面上對其進行研究。而且構(gòu)建的實驗平臺可移植性高,可以運用到其他系統(tǒng)平臺或其他領(lǐng)域。

2.3.2 構(gòu)建三元組庫ET

關(guān)系在領(lǐng)域本體中的重要性毋庸置疑,也是在本體構(gòu)建過程中難度最大的[16]。在領(lǐng)域本體構(gòu)建過程中,如果只收集領(lǐng)域知識中的概念,仍然無法知道這些概念之間的關(guān)聯(lián)關(guān)系,也無法更好地表示該領(lǐng)域知識。如表2所示,在三元組庫中主要有2種關(guān)系,等級關(guān)系與非等級關(guān)系。等級關(guān)系比較單一,表示包含與被包含關(guān)系。在本研究中使用概念和屬性的等級關(guān)系。而非等級關(guān)系比較復(fù)雜,非等級關(guān)系是指除了等級關(guān)系之外的其他所有領(lǐng)域概念之間的關(guān)系。本研究主要選擇3種非等級關(guān)系。

表2 三元組分類表

確定要提取的三元組形式之后,使用已收集的領(lǐng)域本體集合進行三元組自動提取并構(gòu)建英語領(lǐng)域本體三元組庫ET。表3是集合ET種概念等級關(guān)系的部分顯示。構(gòu)建的領(lǐng)域本體集合需保存三元組的來源與三元組本身,這樣便于最后的結(jié)果分析。

表3 英語概念等級關(guān)系三元組庫ET

2.3.3 元素匹配

在構(gòu)建英文三元組庫ET之后,對該集合的每一個三元組中的每一個元素進行維漢匹配。其中,在對英語本體三元組進行維吾爾語元素匹配過程中,需使用英語、維吾爾語詞匯庫。將英文三元組通過匹配轉(zhuǎn)換成維吾爾語三元組并構(gòu)建維吾爾語三元組庫UT,此庫中包含的三元組類型與ET中相似。需要說明的是,為了使用Protégé 5.0工具驗證構(gòu)建的領(lǐng)域本體的語法規(guī)則,在對維吾爾語三元組庫中概念和屬性的等級關(guān)系三元組在匹配時,只對概念詞進行匹配,對關(guān)系詞不需要匹配。但是,對非等級關(guān)系進行匹配時不僅對概念詞進行匹配,同時也對關(guān)系詞進行匹配。圖2是元素匹配中等級關(guān)系匹配過程。C1與C2是英文概念,且C1是C2的子集。子集關(guān)系在Protégé 5.0工具中用Subclass_of來表達。C1通過利用英語、維吾爾語詞匯庫匹配來獲取概念C1對應(yīng)的維吾爾語概念UyC1,同理獲取概念C2對應(yīng)的UyC2。完成匹配之后將匹配后的三元組放入到UTi中。

圖2 三元組等級關(guān)系匹配

3 基于三元組的本體構(gòu)建

3.1 領(lǐng)域本體構(gòu)建模型

本研究選擇的領(lǐng)域是旅游領(lǐng)域,因此在本研究中使用的重用本體均表示旅游領(lǐng)域知識。它們的規(guī)模較小,所表示的領(lǐng)域知識不能完全涵蓋這個領(lǐng)域。其中大部分都是該領(lǐng)域較頂端的領(lǐng)域知識。因此重用的本體出現(xiàn)了領(lǐng)域知識部分重疊等現(xiàn)象。表4為構(gòu)建的部分維吾爾語三元組庫。

表4 維吾爾語概念等級關(guān)系三元組庫UT

可以發(fā)現(xiàn),這些重疊的部分在三元組集合中的表現(xiàn)為:一些三元組會重復(fù)的出現(xiàn)。因此,需對三元組集合UT進行進一步處理。具體方法是:將重復(fù)出現(xiàn)的三元組關(guān)系刪除,并將不符合維吾爾語語言規(guī)則的三元組進行修改或刪除,提高三元組集合的精準(zhǔn)度最終得到三元組集合UT*如表5所示。

表5 維吾爾語概念等級關(guān)系三元組庫UT

3.2 構(gòu)建維吾爾語領(lǐng)域本體

為了創(chuàng)建維吾爾語旅游領(lǐng)域本體UyTravelOntology,需使用處理過的三元組集合UT*,基于相同關(guān)系類型的三元組逐步擴充領(lǐng)域本體。其中概念詞或?qū)傩栽~為節(jié)點,關(guān)系為連接關(guān)系構(gòu)建維吾爾語領(lǐng)域本體。如圖3所示,將表示相同概念的節(jié)點相互連接,最終實現(xiàn)規(guī)模較大的領(lǐng)域本體。

圖3 維吾爾語本體構(gòu)建過程

3.3 構(gòu)建維吾爾語領(lǐng)域本體

在完成維吾爾語領(lǐng)域本體之后,通過Protégé 5.0工具對所構(gòu)建的領(lǐng)域本體進行及基本語法驗證[17]。圖4為維吾爾語領(lǐng)域本在Protégé 5.0工具中的部分圖的顯示。從圖中可以看出,構(gòu)建的維吾爾語領(lǐng)域本體通過了Protégé 5.0工具的語法檢測。之后再對構(gòu)建的領(lǐng)域本體進行數(shù)據(jù)統(tǒng)計如表6所示。從表6中可以看出,構(gòu)建的領(lǐng)域本體類、對象屬性、數(shù)據(jù)屬性與實例的總數(shù)為506大于任何一個收集的英語領(lǐng)域本體的總數(shù)。說明不僅完成了領(lǐng)域本體構(gòu)建工作,同時也擴大了領(lǐng)域本體。此外,收集的領(lǐng)域本體中類總數(shù)為318,而構(gòu)建的領(lǐng)域本體中類個數(shù)為278,說明領(lǐng)域本體中出現(xiàn)了重復(fù)的類節(jié)點。

圖4 維吾爾語領(lǐng)域本體

表6 領(lǐng)域本體構(gòu)建結(jié)果對照表

4 結(jié) 語

本文通過英文本體重用的方法來構(gòu)建了維吾爾語領(lǐng)域本體,并提出了基于跨語言本體重用的維語本體構(gòu)建方法,擴充了維文本體構(gòu)建領(lǐng)域,實現(xiàn)了對重用的本體三元組提取。使用Jena開源工程搭建了領(lǐng)域本體構(gòu)建平臺,并證明了該平臺的可用性和高效性。在接下來的研究中,主要是完善理論知識和領(lǐng)域本體構(gòu)建的模型框架。通過擴充重用的本體集合,進一步研究提高所構(gòu)建領(lǐng)域本體的規(guī)模。

[1] Studer R, Benjamins V R, Fensel D. Knowledge engineering: principles and methods[J]. Data & Knowledge Engineering, 1998, 25(1- 2):161- 197.

[2] Trinkunas J, Vasilecas O. Building ontologies from relational databases using reverse engineering methods[C]// International Conference on Computer Systems and Technologies. ACM, 2007:13.

[3] Tham K D, Fox M S, Gruninger M. A cost ontology for enterprise modelling[C]// The Workshop on Enabling Technologies: Infrastructure for Collaborative Enterprises. IEEE, 1994:197- 210.

[4] Fernández-López M, Gómez-Pérez A, Juristo N. METHONTOLOGY: from ontological art towards ontological engineering[C]// Proceedings of the Ontological Engineering AAAI-97 Spring Symposium Series. 1997.

[5] 唐愛民, 真溱, 樊靜. 基于敘詞表的領(lǐng)域本體構(gòu)建研究[J]. 現(xiàn)代圖書情報技術(shù), 2005, 21(4):1- 5.

[6] 李景.領(lǐng)域本體的構(gòu)建方法與應(yīng)用研究[D].北京:中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,2009.

[7] Hankiz Y, Seyyare I, Askar H. A Mixed Method for Building the Uyghur and Chinese Domain Ontology[C]// China Conference on Knowledge Graph and Semantic Computing. Springer Singapore, 2016:124- 129.

[8] 朱昊天. 基于跨語本體轉(zhuǎn)換的維吾爾文輿情本體構(gòu)建研究[D]. 新疆大學(xué), 2015.

[9] Perez A G, Benjamins V R. Overview of Knowledge Sharing and Reuse Components: Ontologies and Problem-Solving Methods[C]//Proceedings of the 16th International Joint Conference on Artificial Intelligence (IJCAI’99) Workshop KRR5: Ontologies and Problem-Solving Methods: Lesson Learned and Future Trends.1999.

[10] 吳丹, 王惠臨. 本體在跨語言信息檢索中的應(yīng)用機制研究[J]. 圖書情報工作, 2006, 50(9):10- 13.

[11] 司莉, 陳雨雪, 曾粵亮. 基于多語言本體的中英跨語言信息檢索模型及實現(xiàn)[J]. 圖書情報工作, 2017,61(1):100- 108.

[12] Benafia A, Mazouzi S, Benafia S. Building Ontologies from Text Corpora[C]// The International Conference on Engineering & Mis. ACM, 2015:28.

[13] Search travel ontology [EB/OL]. [2017- 04- 05]. http://swoogle.umbc.edu/2006/.

[14] Search tourism ontology [EB/OL]. [2017- 04- 05]. https://protegewiki.stanford.edu/wiki/Protege_Ontology_Library.

[15] 向陽, 王敏, 馬強. 基于Jena的本體構(gòu)建方法研究[J]. 計算機工程, 2007, 33(14):59- 61.

[16] Kavalec M, Vojtech S V. A Study on Automated Relation Labelling in Ontology Learning[C]// Ontology Learning from Text: Methods, Evaluation and Applications. IOS. 2005:44- 58.

[17] 李連倍, 劉勝全, 劉艷,等. 基于跨語本體重用的維語本體構(gòu)建方法[J]. 計算機工程與應(yīng)用, 2015, 51(11):104- 108.

猜你喜歡
三元組維吾爾語實例
基于語義增強雙編碼器的方面情感三元組提取
軟件工程(2024年12期)2024-12-28 00:00:00
基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
關(guān)于余撓三元組的periodic-模
統(tǒng)計與規(guī)則相結(jié)合的維吾爾語人名識別方法
維吾爾語話題的韻律表現(xiàn)
維吾爾語詞重音的形式判斷
語言與翻譯(2015年4期)2015-07-18 11:07:45
現(xiàn)代維吾爾語中“-0wat-”的進行體特征
語言與翻譯(2014年3期)2014-07-12 10:32:09
完形填空Ⅱ
完形填空Ⅰ
三元組輻射場的建模與仿真
塔河县| 榆林市| 甘洛县| 贵阳市| 古蔺县| 博白县| 新安县| 临朐县| 光泽县| 两当县| 龙门县| 静乐县| 清涧县| 清徐县| 咸宁市| 申扎县| 高台县| 安福县| 阿图什市| 阜新市| 光泽县| 神农架林区| 临江市| 吉林省| 平远县| 荆门市| 大悟县| 德惠市| 汉源县| 罗田县| 辽阳市| 石景山区| 酉阳| 湟中县| 同德县| 浠水县| 西藏| 兰溪市| 始兴县| 巴青县| 巧家县|