国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義網(wǎng)技術(shù)的信息檢索研究

2015-05-13 19:31:20王智剛
卷宗 2015年3期
關(guān)鍵詞:信息檢索本體文檔

摘 要:語義網(wǎng)致力于改善讀者檢索體驗,是Web3.0技術(shù)的一個核心指標。本文首先分析了基于關(guān)鍵詞的機械式匹配的傳統(tǒng)信息檢索系統(tǒng)的不足,其次描述了語義網(wǎng)的特征、體系結(jié)構(gòu)、并分析了語義網(wǎng)檢索系統(tǒng)的關(guān)鍵技術(shù),最后,在此基礎(chǔ)上構(gòu)建出基于語義網(wǎng)技術(shù)的信息檢索系統(tǒng)。

關(guān)鍵詞:語義網(wǎng);檢索;智能

校級科研項目:本文系鄖陽師范高等??茖W校校立科研項目“基于語義網(wǎng)技術(shù)的武當文化特色庫檢索模型研究”(編號:2012B06)的研究成果之一。

在進入大數(shù)據(jù)時代的今天,萬維網(wǎng)(WWW)成為了人們生活和工作中獲取信息的一個重要渠道,它是面向文檔的,信息量豐富、獲取簡便。和傳統(tǒng)信息相比,因其表現(xiàn)形式多樣而往往會出現(xiàn)組織形式整體無序或局部無序的狀態(tài)。在廣袤的信息資源面前,怎樣迅速獲取自己想要的信息是迫切需要解決的問題。萬維網(wǎng)聯(lián)盟的創(chuàng)始者蒂姆·伯納斯-李(Tim Berners-Lee)在1998年提出了“語義網(wǎng)”的概念,它的核心是:通過給萬維網(wǎng)上的文檔(如: HTML)添加能夠被計算機所理解的語義(Meta data),從而使整個互聯(lián)網(wǎng)成為一個通用的信息交換媒介[1]。語義網(wǎng)是一種能夠理解人類語言的智能網(wǎng)絡(luò),因此,語義網(wǎng)的初步實現(xiàn)也作為智能網(wǎng)絡(luò)web3.0的重要特征之一。

1 傳統(tǒng)信息檢索存在的問題

信息檢索是指從信息資源集合中查找所需文獻,或查找文獻中包含的信息內(nèi)容的過程。Baidu、Google等搜索引擎的誕生,讓人們從無序的、海量的網(wǎng)絡(luò)信息中抽取自己想要的信息成為了可能,這種檢索工具讓萬維網(wǎng)的作用得以充分發(fā)揮,在某種程度上促進了信息革命。但人們很快就發(fā)現(xiàn),用戶在使用這些檢索工具時,雖能能得到許多信息,但有時很難迅速地找到自己想要的信息。這種傳統(tǒng)的信息檢索技術(shù),都是基于關(guān)鍵詞機械匹配的,雖然具有使用簡單、快捷的優(yōu)點,但是因為缺乏語義描述,所以存在以下幾個問題:

(1)忠實表達的問題。有些情況下,用戶無法用一個確切的詞語來表達自己需求的信息時,就無法使用搜索引擎。

(2)表達差異的問題。在人類語言當中,一詞多義和一義多詞是比較普遍的。一詞多義,如“蘋果”,即可以指人們吃的蘋果,也可指某一種品牌的計算機。如果用傳統(tǒng)的檢索方法,就會產(chǎn)生查準率的問題;一義多詞即同義詞,如“立刻”、“馬上”,如果用傳統(tǒng)的檢索方法,只檢索一個詞語,又會帶來查全率的問題。

(3)詞匯孤島的問題。“詞匯孤島”是指傳統(tǒng)的信息檢索不能將關(guān)鍵詞關(guān)聯(lián)起來,每個關(guān)鍵詞像孤島一樣獨立存在[2]。比如:檢索“文具”,理論上講,鋼筆、直尺、橡皮都是文具,但在檢索結(jié)果中一般都不會出現(xiàn)含有帶“鋼筆”、“直尺”、“橡皮” 的網(wǎng)頁。

(4)機械表達的問題。傳統(tǒng)的信息檢索工具只能機械地從字形上標識關(guān)鍵字,比如:檢索“圖書”,會機械匹配出一大堆與“圖書館”相關(guān)的信息。

2 語義網(wǎng)及其關(guān)鍵技術(shù)

人們?yōu)榱私鉀Q上述傳統(tǒng)信息檢索中存在的問題,開始了語義網(wǎng)技術(shù)的研究。語義網(wǎng)是一種智能網(wǎng)絡(luò),它不僅可以理解詞語和概念,而且還能夠理解詞匯之間的邏輯關(guān)系,從而使人機交互變得更有效率。對語義網(wǎng)技術(shù)的研究,需要對語義網(wǎng)的基本特征、體系結(jié)構(gòu)和關(guān)鍵技術(shù)有一定的了解。

2.1 語義網(wǎng)的基本特征

語義網(wǎng)雖然是WWW的延伸,但它與WWW有很大的區(qū)別,它不僅可使用自然語言表現(xiàn)網(wǎng)絡(luò)內(nèi)容,而且這些內(nèi)容還可以被軟件代理人(software agent)所閱讀和使用。 “語義網(wǎng)”是計算機和互聯(lián)網(wǎng)界在描述下一階段網(wǎng)絡(luò)發(fā)展時所使用的術(shù)語[3]。所謂“語義”就是文本的含義,語義網(wǎng)就是能夠根據(jù)語義進行判斷的網(wǎng)絡(luò),也就是一種能理解人類語言,可以使人與電腦之間的交流變得像人與人之間交流一樣輕松的智能網(wǎng)絡(luò)[3]。依據(jù)這種設(shè)計理念,語義網(wǎng)具有以下幾個特征:語義網(wǎng)是WWW的擴展與延伸;語義網(wǎng)則面向文檔所表示的數(shù)據(jù);語義網(wǎng)具有一定的判斷、推理能力,其指令便于計算機理解與執(zhí)行[4]。

2.2 語義網(wǎng)的體系結(jié)構(gòu)

萬維網(wǎng)的締造者Berners-Lee,在1998年提出了語義網(wǎng)的概念。當他提出這個概念時,RDF開始嶄露頭角;XML技術(shù)已經(jīng)被廣泛使用;在知識工程領(lǐng)域,已經(jīng)對本體技術(shù)、邏輯語義研究了幾十年。而Berners-Lee對這些技術(shù)進行分析與總結(jié),將以上技術(shù)融合在一起,設(shè)計出了語義網(wǎng)的體系架構(gòu)。在2000年,他又提出了語義網(wǎng)的體系結(jié)構(gòu),如圖1所示。

Berners-Lee將整個語義網(wǎng)結(jié)構(gòu)分為七個層次:標識符和字符集層、根標記語言層、資源描述框架層、本體層、邏輯層、證明層、信任層,在不同的機構(gòu)層次中,又融合了多種互聯(lián)網(wǎng)新技術(shù),最終實現(xiàn)語義檢索。

2.3 語義網(wǎng)檢索系統(tǒng)的關(guān)鍵技術(shù)

構(gòu)建基于語義網(wǎng)的信息檢索系統(tǒng)的目的,是為了能讓計算機輕松地理解并處理用戶的檢索需求,并為用戶提供智能化、個性化的信息檢索過程。在語義網(wǎng)的體系結(jié)構(gòu)中,根標記語言、資源描述框架和本體,是語義網(wǎng)的關(guān)鍵技術(shù)。

2.3.1 本體

本體(Ontology)是源自哲學領(lǐng)域的一個概念,即“存在論”。圖2是各種語言對這一詞語的表述。

在信息科學領(lǐng)域,本體是指一種形式化的,對共享概念體系明確而又詳細的說明,它是對特定領(lǐng)域之中某套概念及其相互之間關(guān)系的形式化表達。一個本體描述了一個特定研究領(lǐng)域的一個形式化的、共享的概念化模型,它用于描述互聯(lián)網(wǎng)上各種不同的、分散的、半結(jié)構(gòu)化的信息資源[5],從而幫助人與機器之間交流。關(guān)于本體的基本要素,Perez 等人認為可以按分類法來組織,劃分為5個基本要素:類(classes) ,關(guān)系(relations) ,函數(shù)(functions) ,公理(axioms) 和實例(instances)[6]。

語義網(wǎng)首先用XML定義標簽,然后用靈活性很高的RDF來表達數(shù)據(jù),最后用一種本體的網(wǎng)絡(luò)語言來描述網(wǎng)絡(luò)文檔中術(shù)語的明確含義和他們之間的關(guān)系。本體語言非常多,既有專有本體語言,也有基于標準的本體語言,而和Web有關(guān)的主要有:RDF、RDF-S、OWL等,它們之間有著非常密切的聯(lián)系,是W3C本體語言棧中的不同層次,都是基于XML的。

2.3.2資源描述框架

資源描述框架(RDF)是一個處理元數(shù)據(jù)的XML應(yīng)用,RDF即Framework for Describing Resources。資源(Resource)是指所有在Web上被命名、具有統(tǒng)一資源標識符URI的事物,比如網(wǎng)頁和XML文檔中的元素等;描述(Description)是指對資源屬性的陳述,以表明資源的特性以及資源之間的聯(lián)系;框架(Framework)是指一種與被描述資源無關(guān)的通用模型,用以管理資源的多樣性、不一致性和重復性[7]。

RDF定義了一種通用框架,使用屬性、屬性值來描述資源,然后用Web標識符URI來標識事物。通過這種框架,RDF用以描述語義網(wǎng)上的所有資源。資源,作為RDF中的三要素之一,是指可擁有URI的所有事物,比如http://www.calis.edu.cn/rdf;屬性是指擁有名稱的資源,比如“author”或“homepage”等;屬性值是指某個屬性的值,如屬性值“Johnson”是屬性“author”的值。下面是一個用XML描述資源http://www.calis.edu.cn/rdf的RDF文檔:

David

http://www.w3school.com.cn

[6]

2.3.3語義標注技術(shù)。

語義標注就是將實例與本體的概念相聯(lián)系的過程,它用本體對網(wǎng)頁數(shù)據(jù)進行標引,讓動態(tài)變化中的實例與本體結(jié)合在一起,使網(wǎng)頁實現(xiàn)智能化。語義網(wǎng)中的根標記語言XML,既能描述文檔數(shù)據(jù)對象本身,也能部分描述如何處理這些數(shù)據(jù)。同時,它是一種語義/結(jié)構(gòu)化語言,用戶可以很方便地定義自己領(lǐng)域的專用標記。XML文檔在不同應(yīng)用中使用時,文檔本身不必修改,僅需改變相應(yīng)的表現(xiàn)形式。

圖3所示是對普通文檔進行語義標注的過程。語義標注工作類似于給數(shù)據(jù)庫添加記錄,對互聯(lián)網(wǎng)網(wǎng)頁做語義標注,將網(wǎng)頁文檔中的信息和推理規(guī)則聯(lián)系起來,讓網(wǎng)頁文檔信息的含義轉(zhuǎn)化為本體,使計算機能夠理解,最終使檢索者能夠得到自己想要的準確結(jié)果。由此可知,語義標注就是用本體對數(shù)據(jù)進行索引的過程。

3 構(gòu)建語義網(wǎng)信息檢索系統(tǒng)的策略

標引和檢索是信息檢索的兩個基本過程,傳統(tǒng)的信息檢索技術(shù),僅僅停留在關(guān)鍵詞的標引和關(guān)鍵詞檢索上,因而,傳統(tǒng)信息檢索技術(shù)借助關(guān)鍵詞、目錄和索引實現(xiàn)全文檢索,雖簡單快捷,但檢索結(jié)構(gòu)卻很難讓人滿意。而語義網(wǎng),可通過XML語句、RDF概念和本體系統(tǒng)對萬維網(wǎng)信息資源進行概念標引,進而讓用戶實現(xiàn)概念檢索,實現(xiàn)智能匹配。一個語義網(wǎng)信息檢索系統(tǒng)實現(xiàn)的過程主要包括本體的構(gòu)建、語義標注和語義檢索機制等核心程序。

3.1 領(lǐng)域本體的建立

語義網(wǎng)信息檢索系統(tǒng)實現(xiàn)的第一步就是構(gòu)建領(lǐng)域本體,如果本領(lǐng)域研究的是文獻檢索,那么需要有文獻領(lǐng)域本體研究的專家做建模幫助。文獻領(lǐng)域本體的建立過程是:本體確立——本體編碼。

文獻本體確立的步驟如下:(1)確定以文獻為對象為研究領(lǐng)域,以文獻檢索為研究目的;(2)需求分析,需求為文獻本體;(3)對研究領(lǐng)域中文獻的關(guān)鍵詞、編號、標題、作者等進行概括,以確定本領(lǐng)域的核心概念集;(4)對抽取的本體核心概念集,定義類與類之間的關(guān)系,確定概念集的對象屬性;(5)確定文獻數(shù)據(jù)屬性,包括文獻關(guān)鍵詞、題目、內(nèi)容數(shù)據(jù)屬性。

本體編碼一般由本體編輯工具對照本體模型來實現(xiàn),首先編輯文獻本體的類,然后編輯類的屬性,最后對本體編碼并存儲。這個過程普遍采用的是網(wǎng)絡(luò)本體語言O(shè)WL進行編碼,并形成一個文件來保存。文獻領(lǐng)域本體構(gòu)建的目的,是為了實現(xiàn)概念匹配,讓計算機與人交互,獲得更精準的檢索結(jié)果。

3.2 信息語義標注

如何將領(lǐng)域本體和信息關(guān)聯(lián)起來,是語義網(wǎng)需要解決的一個重要問題。因此,研究人員便結(jié)合構(gòu)建領(lǐng)域本體,對信息進行語義標注。在以上文獻本體確立之后,我們便要對概念集、文獻數(shù)據(jù)屬性進行一一標注,比如,對文獻標題、作者、關(guān)鍵詞字段進行標注,最后將實例加入到本體庫之中,以實現(xiàn)對文獻信息的語義標注。

3.3 語義檢索機制

領(lǐng)域本體的建立,以及信息語義標注,加工的對象都是信息資源,在一個檢索系統(tǒng)中,我們還要對用戶檢索請求和檢索結(jié)果進行分析,才能精準而全面地找到用戶所需要的結(jié)果。首先,要用基于關(guān)聯(lián)樹的,或者基于概念的,或者基于語義相似度的語義查詢擴展算法,對用戶的檢索請求做語義擴展分析,充分理解用戶的檢索請求,獲得一組語義擴展后的查詢關(guān)鍵詞集合,再進一步進行檢索。最后,需要用基于語義權(quán)重的結(jié)果排序方法,比如HITS 算法、PageRank 算法、基于關(guān)鍵詞位置的算法等,對檢索結(jié)果進行排序,將最接近用戶檢索請求的結(jié)果呈現(xiàn)靠前,以提高檢索質(zhì)量。

4 結(jié)束語

語義網(wǎng)的提出與發(fā)展已經(jīng)走過了十余年,也取得了比較多的研究成果。國外理論研究相對成熟,部分商用數(shù)據(jù)庫產(chǎn)品,和語義搜索引擎也相繼問世。但相比之下,國內(nèi)理論研究大多停留在綜述國外研究的水平上,語義網(wǎng)應(yīng)用方面的研究也相對較少。在信息爆炸的今天,人們普遍感覺檢索體驗差的情況下,我們有必要將語義網(wǎng)運用到數(shù)字圖書館建設(shè)中來,以解決信息檢索中遇到信息量大、檢索雜亂繁雜、垃圾信息干擾的問題,使讀者檢索變得更精準,方便廣大的讀者。

參考文獻

[1]語義網(wǎng)[EB/OL][2014-12-30] http://zh.wikipedia.org/wiki/語義網(wǎng)

[2]賈思宇,馬玲,常瑋. 基于語義網(wǎng)分析的在線學習智能答疑方法研究[J]. 情報雜志,2012,09:104-108.

[3]黃怡. 基于本體的構(gòu)件描述以及Jena框架下構(gòu)件庫的設(shè)計和實現(xiàn)[D].吉林大學,2009.

[4]張莉萍. 語義Web層級論析[J]. 情報雜志,2006,11:89-91.

[5]李潔,丁穎. 語義網(wǎng)關(guān)鍵技術(shù)概述[J]. 計算機工程與設(shè)計,2007,08:1831-1833+1836.

[6]郭亮. 基于知識單元的語義Wiki知識庫[D].西安電子科技大學,2009.

[7]賈正雪. UTO本體的構(gòu)建及應(yīng)用研究[D].吉林大學,2008..

[8] 田蓉. 語義網(wǎng)在數(shù)字圖書館信息檢索中的應(yīng)用[J]. 青年與社會,2013,10:298.

作者簡介

王智剛,網(wǎng)絡(luò)工程師,館員,鄖陽師范高等??茖W校圖書館技術(shù)部主任,研究方向:數(shù)字圖書館。

猜你喜歡
信息檢索本體文檔
Abstracts and Key Words
哲學分析(2023年4期)2023-12-21 05:30:27
有人一聲不吭向你扔了個文檔
對姜夔自度曲音樂本體的現(xiàn)代解讀
中國音樂學(2020年4期)2020-12-25 02:58:06
基于RI碼計算的Word復制文檔鑒別
醫(yī)學期刊編輯中文獻信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究
《我應(yīng)該感到自豪才對》的本體性教學內(nèi)容及啟示
文學教育(2016年27期)2016-02-28 02:35:15
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
教學型大學《信息檢索》公選課的設(shè)計與實施
河南科技(2014年11期)2014-02-27 14:10:19
Care about the virtue moral education
卷宗(2013年6期)2013-10-21 21:07:52
英吉沙县| 巴林右旗| 梅州市| 浦江县| 盐山县| 紫阳县| 双牌县| 双城市| 西贡区| 广水市| 东乡族自治县| 米林县| 哈尔滨市| 且末县| 牡丹江市| 博罗县| 兴义市| 元氏县| 新宾| 贺兰县| 石泉县| 泸溪县| 永泰县| 新泰市| 南京市| 高邑县| 衡山县| 满洲里市| 甘孜县| 祁门县| 德庆县| 斗六市| 江西省| 西昌市| 梅河口市| 观塘区| 兰溪市| 双峰县| 聊城市| 乌拉特前旗| 广水市|