齊云飛 趙宇翔 朱慶華
摘 要:為滿足數(shù)字圖書館語義化資源整合與發(fā)現(xiàn)需要,文章提出了基于書目框架(BIBFRAME)的數(shù)字圖書館語義搜索框架,并對資源的語義化描述、組織和搜索過程以及各模塊的功能進行了設(shè)計和說明。最后,通過搭建實驗系統(tǒng)對框架功能進行測試,實驗結(jié)果表明,系統(tǒng)滿足了預(yù)期的功能需求,提出的數(shù)字圖書館語義搜索框架具有較好的科學(xué)性和有效性。
關(guān)鍵詞:書目框架;數(shù)字圖書館;關(guān)聯(lián)數(shù)據(jù);資源整合;語義搜索
中圖分類號:G250.76 文獻標識碼:A DOI:10.11968/tsyqb.1003-6938.2017010
Abstract This paper proposes the semantic search framework in digital library to meet the needs of resource integration and discovery. On the basis, the author introduces the process of semantic description, organization, and search, as well as the function of each module. Furthermore, an experiment system is constructed to verify the function of the framework. The results show that the system meets the functional requirements, and the semantic search framework of digital library is scientific and efficient.
Key words BIBFRAME; digital library; linked data; resource integration; semantic search
隨著分布式存儲、云計算等信息技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為用戶發(fā)布、獲取信息的主要渠道,以知識服務(wù)為核心的圖書館正面臨著用戶流失的風(fēng)險[1]。數(shù)字圖書館作為數(shù)字資源的存儲、組織和傳播中心,實現(xiàn)了圖書館功能向互聯(lián)網(wǎng)的延伸,代表了圖書館未來的發(fā)展方向。然而,在網(wǎng)絡(luò)信息高速發(fā)展的今天,數(shù)字圖書館仍然無法真正融入開放的互聯(lián)網(wǎng)絡(luò),且面臨著多個方面的發(fā)展困境,如:核心資源主要來源于長期的館藏積累,數(shù)據(jù)量少,更新慢,且不完整;資源組織方面仍然采用圖書館特有的MARC元數(shù)據(jù),編目信息缺少通用性和可讀性,無法適用互聯(lián)網(wǎng)多來源異構(gòu)、多類型、多粒度資源的整合需要;仍然采用基于關(guān)鍵詞的檢索方式,缺少對檢索語句的語義解讀,無法發(fā)現(xiàn)深層的用戶需求。
語義搜索是基于語義網(wǎng)技術(shù)提出的全新的資源搜索方法,其能夠從語義層面識別用戶的檢索請求[2],以機器可理解的方式對資源及資源間的關(guān)系進行語義描述和組織,并通過邏輯推理實現(xiàn)資源的語義檢索[3]。本體是實現(xiàn)語義搜索的基礎(chǔ),其與關(guān)聯(lián)數(shù)據(jù)的結(jié)合可以有效解決多來源、多領(lǐng)域、多類型資源的整合問題[4]。書目框架(BIBFRAME)是美國國會圖書館提出的新一代編目本體。與MARC元數(shù)據(jù)不同,BIBFRAME采用本體的方式對資源進行描述,并通過關(guān)聯(lián)數(shù)據(jù)進行發(fā)布。本文基于BIBFRAME提出了一種數(shù)字圖書館的語義搜索框架,該框架融合了關(guān)聯(lián)數(shù)據(jù)、自然語言處理、SPARQL搜索等相關(guān)技術(shù),實現(xiàn)了信息的語義整合、需求的語義識別和資源的語義搜索。以為解決數(shù)字圖書館語義整合和搜索提供了經(jīng)驗。
1 數(shù)字圖書館語義搜索分析
1.1 語義搜索概述
語義搜索的出現(xiàn)源于語義網(wǎng)這一概念的提出[2]。根據(jù)蒂姆·伯納斯·李的構(gòu)想,語義網(wǎng)環(huán)境下所有的資源具有唯一的URI,資源之間通過語義關(guān)系進行關(guān)聯(lián),整個互聯(lián)網(wǎng)被聚合成為一個巨大的數(shù)據(jù)庫,通過語義搜索為各個領(lǐng)域提供知識發(fā)現(xiàn)和決策支持服務(wù)[5]。語義搜索作為語義網(wǎng)環(huán)境下新一代的知識獲取方式,涉及信息檢索、人工智能、語義網(wǎng)挖掘等眾多研究領(lǐng)域[6],許多研究者將本體、關(guān)聯(lián)數(shù)據(jù)、自然語言處理等技術(shù)應(yīng)用于語義搜索,取得了豐碩的研究成果[3]。
在資源組織方面,本體是語義搜索的基礎(chǔ)[2],本體中的抽象概念可以對資源進行聚類,屬性可以描述資源間豐富的語義關(guān)系,基于本體構(gòu)建的概念模型是結(jié)構(gòu)化、語義化資源組織的重要工具。目前,許多研究者探索了本體在非結(jié)構(gòu)化信息描述[7] 、元數(shù)據(jù)轉(zhuǎn)換[8]和移動語義搜索中的應(yīng)用[9-10]。在語義編碼方面,關(guān)聯(lián)數(shù)據(jù)是本體發(fā)布和映射的主要方式,其采用三元組對語義關(guān)系進行描述,通過RDF對概念模型進行編碼,并支持以RDF圖的形式進行基于推理的關(guān)系發(fā)現(xiàn)和語義檢索[11-16]。在自動化處理方面,自然語言處理技術(shù)提供了高效和智能的語義處理,可以解決搜索過程中的語義標注[17-18]、語義識別[19-21]、語義排序[22]和搜索評價[23]等問題。
1.2 數(shù)字圖書館語義搜索
語義搜索具有廣闊的發(fā)展前景,許多研究者從互聯(lián)網(wǎng)、生物、醫(yī)療、旅游等眾多領(lǐng)域探索了其在網(wǎng)絡(luò)內(nèi)容監(jiān)管[24-25]、極地數(shù)據(jù)分析[26]、用戶生成內(nèi)容挖掘[27-28]、學(xué)科知識服務(wù)[29]等方面的應(yīng)用。在數(shù)字圖書館領(lǐng)域,我們認為語義搜索同樣具有重要的價值:(1)在海量資源管理方面,基于本體的資源描述可以更好的實現(xiàn)數(shù)字圖書館資源的組織與整合;(2)在編目數(shù)據(jù)序列化方面,基于關(guān)聯(lián)數(shù)據(jù)的編目信息具有更好的通用性和可讀性。通過關(guān)聯(lián)數(shù)據(jù)云技術(shù),數(shù)字圖書館可以更方便的分享館藏信息,提高互聯(lián)網(wǎng)環(huán)境下的資源可見度;(3)在資源語義檢索方面,基于語義的檢索方式可以更有效的發(fā)掘資源內(nèi)涵、理解用戶需求,提供更全面、更準確的知識發(fā)現(xiàn)服務(wù)。
同時,筆者也認為數(shù)字圖書館在實現(xiàn)語義搜索方面存在著巨大的優(yōu)勢:(1)數(shù)字圖書館采用結(jié)構(gòu)化的資源描述和組織方式,專業(yè)人員編輯的書目數(shù)據(jù)提供了豐富的語義信息,這些信息在揭示資源內(nèi)涵方面發(fā)揮著重要的作用;(2)語義網(wǎng)一直是圖書館領(lǐng)域的研究熱點,許多受控詞表、本體模型已經(jīng)通過關(guān)聯(lián)數(shù)據(jù)進行發(fā)布。BIBFRAME是美國國會圖書館基于關(guān)聯(lián)數(shù)據(jù)發(fā)布的新一代編目本體,其代表了編目格式未來的發(fā)展趨勢。通過上述分析,筆者認為BIBFRAME作為圖書館領(lǐng)域的編目本體,具有強大的語義描述和組織功能,如果將其與語義搜索技術(shù)結(jié)合將可以有效的推動數(shù)字圖書館知識服務(wù)的創(chuàng)新與變革。
2 BIBFRAME概述
2.1 BIBFRAME的產(chǎn)生與發(fā)展
2011年5 月,美國國會圖書館開始了“書目框架轉(zhuǎn)換活動”計劃,旨在解決傳統(tǒng)MARC數(shù)據(jù)向關(guān)聯(lián)數(shù)據(jù)的轉(zhuǎn)化問題。次 年11月,又發(fā)布了書目框架的模型草案(BIBFRAME1.0),隨后陸續(xù)修訂、完善了元數(shù)據(jù)、轉(zhuǎn)換工具、測試數(shù)據(jù)集等相關(guān)內(nèi)容。BIBFRAME提出后受到了業(yè)界極大的關(guān)注,美國國會圖書館聯(lián)合英國國家圖書館等機構(gòu)對BIBFRAME的功能性和交互性進行了大量研究和測試,并于2016年1月提出了最新的修訂版本BIBFRAME2.0。
2.2 BIBFRAME的特點
BIBFRAME作為新一代的圖書館編目標準,其目標是打破傳統(tǒng)OPAC系統(tǒng)的封閉性,實現(xiàn)互聯(lián)網(wǎng)資源與圖書館資源的整合與共享,使圖書館真正融入以互聯(lián)網(wǎng)為核心的現(xiàn)代信息社會[1]。對此,BIBFRAME采用了全新的資源描述和組織方式。
(1)構(gòu)建層次化的概念模型。BIBFRAME2.0將資源統(tǒng)一抽象為作品、實例和單件三個核心類,其他的類和屬性均與這三個類進行關(guān)聯(lián)(見圖1)。作品是對資源本質(zhì)的概念化描述,與其相關(guān)的是主題、責(zé)任者、事件等內(nèi)容。實例反映的是作品的一個具體版本,與其相關(guān)的是作品的出版信息。單件反映的是作品的一個具體副本,與其相關(guān)的是副本的館藏信息。本文通過構(gòu)建層次化的概念模型,BIBFRAME對圖書館編目數(shù)據(jù)進行了層次劃分,實現(xiàn)了不同主題的資源描述。
(2)明確定義實體類型和屬性。BIBFRAME明確規(guī)定了作品、實例支持的實體類型,并以子類的形式進行規(guī)范。如明確規(guī)定作品支持的實體為文本、地圖、音頻等11種類型。實例支持的出版物為印刷版、手稿、電子版等5種類型。在實體關(guān)系方面,BIBFRAME在描述的通用性和專業(yè)性上作出了平衡,制定了合理的屬性用于描述實體內(nèi)部和實體間的關(guān)系。
(3)采用語義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)技術(shù)。BIBFRAME接受了語義網(wǎng)的思想,采用實體-關(guān)系的方式構(gòu)建概念模型,實現(xiàn)了編目數(shù)據(jù)的層次化組織。在概念模型和內(nèi)容規(guī)則方面,BIBFRAME充分借鑒了已有的RDA、Schema.org等標準,堅持復(fù)用已有的本體術(shù)語,從而保持了數(shù)據(jù)的兼容性;在編碼方式方面,采用RDF/RDFS、OWL等關(guān)聯(lián)數(shù)據(jù)和本體描述語言進行編碼和發(fā)布,為基于關(guān)聯(lián)數(shù)據(jù)的資源整合和SPARQL搜索提供了支持。
2.3 BIBFRAME的應(yīng)用
為推動BIBFRAME的發(fā)展,美國國會圖書館開發(fā)了BIBFRAME的編輯、比較和轉(zhuǎn)化工具,并聯(lián)合英國國家圖書館等機構(gòu)發(fā)布了BIBFRAME的數(shù)據(jù)集。此外,美國國會圖書館還開通了針對BIBFRAME的應(yīng)用注冊服務(wù),目前已經(jīng)有15家機構(gòu)參與其中。BIBFRAME的快速發(fā)展同樣引起了國內(nèi)圖書館領(lǐng)域?qū)W者的關(guān)注。劉煒[20]、夏翠娟[1]等國內(nèi)較早開展相關(guān)研究的學(xué)者詳細介紹了BIBFRAME的內(nèi)涵和特點,并對其在語義網(wǎng)和家譜本體方面的應(yīng)用進行了深入的研究;安小麗等[33]研究了BIBFRAME對圖書館工作帶來的變革;婁秀明和危紅[34]介紹了從MARC到BIBFRAME編目格式的發(fā)展歷程,并對BIBFRAME的實踐進行了探索;胡小菁[35]深入分析了BIBFRAME模型變化的原因,并對其發(fā)展方向進行了研究;李勇文[36]對BIBFRAME的數(shù)據(jù)模型、應(yīng)用規(guī)則等進行分析,提出了BIBFRAME的實踐策略。目前,關(guān)于BIBFRAME的研究主要集中在圖書館資源描述和組織方面,而將其應(yīng)用于資源語義整合和搜索的研究還很少,尤其是在具體的系統(tǒng)設(shè)計方面還沒有實際的研究案例。
3 基于BIBFRAME的數(shù)字圖書館語義搜索框架
3.1 功能需求
本研究提出的數(shù)字圖書館語義搜索主要實現(xiàn)三個方面的功能:(1)實現(xiàn)互聯(lián)網(wǎng)資源的語義化描述與整合?;ヂ?lián)網(wǎng)環(huán)境下,數(shù)字圖書館需要面對網(wǎng)絡(luò)用戶、數(shù)字出版商和圖書館同行等的信息交互與共享需求,為了提供完整、準確的知識服務(wù),語義搜索系統(tǒng)要能夠適應(yīng)不同的資源描述方式,實現(xiàn)異構(gòu)資源組織與整合;(2)實現(xiàn)用戶需求的語義化解讀。用戶在訪問數(shù)字圖書館時通常采用自然語言進行檢索,語義搜索系統(tǒng)要能夠識別檢索語句中的實體對象和深層語義,理解用戶真正的檢索需求;(3)實現(xiàn)資源的語義化搜索。語義搜索系統(tǒng)要支持對語義關(guān)系的描述和基于推理的檢索,提供全面、準確的知識發(fā)現(xiàn)服務(wù)。
3.2 系統(tǒng)架構(gòu)
針對上述需求,本研究提出了基于BIBFRAME的數(shù)字圖書館語義搜索框架(見圖2),該框架主要包括七個核心模塊,實線箭頭顯示了資源的構(gòu)建過程,虛線箭頭顯示了資源的檢索過程。資源的構(gòu)建過程主要通過模型構(gòu)建、模型映射、模型編碼和語義存儲四個模塊實現(xiàn)。首先,模型構(gòu)建模塊負責(zé)基于BIBFRAME構(gòu)建資源描述的概念模型。模型映射模塊則負責(zé)對外部數(shù)據(jù)進行整合。由于外部數(shù)據(jù)通常采用不同的描述格式,所以需要采用差異化的映射方式;然后,模型編碼模塊對上述模塊生成的描述信息進行關(guān)聯(lián)數(shù)據(jù)編碼,生成機器可理解的RDF文件;最后,語義存儲模塊將生成的RDF數(shù)據(jù)存入三元組數(shù)據(jù)庫,并提供添加、刪除、查找等數(shù)據(jù)管理功能。資源的搜索過程主要通過檢索語句處理、檢索語句轉(zhuǎn)換和SPARQL搜索三個模塊實現(xiàn)。首先,檢索語句處理模塊對用戶檢索式進行語義分析,通過自然語言處理技術(shù)提取其中的本體術(shù)語和命名實體;然后,檢索語句轉(zhuǎn)換模塊對提取到的本體和實體詞匯進行標注,并將其轉(zhuǎn)化為SPARQL檢索語句;最后,SPARQL搜索模塊對數(shù)據(jù)庫進行檢索,并將結(jié)果返回用戶。
3.3 系統(tǒng)模塊
(1)模型構(gòu)建模塊。該模塊主要負責(zé)基于BIBFRAME構(gòu)建概念模型對圖書館本地資源進行描述,具體功能包括:本體模型構(gòu)建和實體構(gòu)建。本體模型構(gòu)建主要根據(jù)BIBFRAME構(gòu)建概念描述模型。因為BIBFRAME已經(jīng)進行了較為詳細的類和屬性定義,所以構(gòu)建過程中主要對類的約束、關(guān)系(等價、互斥)和屬性特性(功能、傳遞、對稱、反身)等進行定義。實體構(gòu)建主要定義實體所屬的類,以及實體之間的屬性關(guān)系。
(2)模型映射模塊。模型映射模塊主要負責(zé)從結(jié)構(gòu)和內(nèi)容兩個方面對外部異構(gòu)信息進行整合。BIBFRAME提供了作品、實例、單件構(gòu)成的層次模型,每個核心類分別對應(yīng)了不同的描述主題(見表1),能夠?qū)崿F(xiàn)不同粒度的資源描述。
①整合策略。系統(tǒng)需要根據(jù)外部資源類型選擇合適的概念層次對信息進行整合。對于海量的網(wǎng)絡(luò)用戶生成內(nèi)容(User Generated Content,UGC)由于缺少明確的出版和館藏信息可以在作品層進行描述,通過添加標題、作者、主題等信息實現(xiàn)數(shù)字圖書館對網(wǎng)絡(luò)資源的整合。對于出版機構(gòu)可以在作品層和實例層進行描述,實現(xiàn)數(shù)字圖書館與出版機構(gòu)資源的交互與共享。對于圖書館同行之間的信息整合可以在作品、實例、單件三層進行,實現(xiàn)完整的書目信息整合;②整合方法。在結(jié)構(gòu)方面,對于非結(jié)構(gòu)化的外部信息,系統(tǒng)需要根據(jù)整合策略為其補充相應(yīng)的描述信息。對于基于不同本體的異構(gòu)信息,系統(tǒng)首先需要設(shè)置本體之間的等價關(guān)系(等價類、等價屬性、等價實體),然后通過推理實現(xiàn)本體模型和實體數(shù)據(jù)的整合。在內(nèi)容方面,利用BIBFRAME提供的主題、事件、集合等抽象概念,從內(nèi)容上對資源信息進行整合。
(3)模型編碼模塊。模型編碼模塊主要通過關(guān)聯(lián)數(shù)據(jù)的方式對之前構(gòu)建的概念、實體模型進行編碼,生成機器可識別的RDF文件。概念、實體模型的關(guān)聯(lián)數(shù)據(jù)編碼主要包括兩項內(nèi)容:①為所有的類、屬性和實體定義全網(wǎng)唯一的URI,從而實現(xiàn)資源的唯一定位。URI由前綴和對象名兩部分組成;②生成RDF編碼。資源描述框架(Resource Description Framework,RDF)是W3C組織發(fā)布的語義網(wǎng)資源描述標準,其采用三元組的方式(主語、謂語、客體)對資源間的關(guān)系進行描述,生成機器可理解的關(guān)系模型。目前,DC、DCTERMS、BIBFRAME等元數(shù)據(jù)和本體詞匯集都已經(jīng)通過RDF進行發(fā)布。
(4)語義存儲模塊。語義存儲模塊負責(zé)對生成的RDF數(shù)據(jù)進行存儲和管理。由于RDF特殊的數(shù)據(jù)結(jié)構(gòu),傳統(tǒng)的關(guān)系數(shù)據(jù)庫無法對其進行有效管理,所以需要專門的三元組數(shù)據(jù)庫進行存儲。三元組數(shù)據(jù)庫主要采用SPARQL語言進行管理,能夠提供對RDF數(shù)據(jù)的插入、刪除、修改和查詢操作。區(qū)別于傳統(tǒng)數(shù)據(jù)庫的處理方式,三元組存儲器主要通過圖模式匹配的方式執(zhí)行SPARQL操作。
(5)檢索語句處理模塊。檢索語句處理模塊負責(zé)檢索句的命名實體提取和本體標注[37]。因為編目信息中已經(jīng)包含了完整的本體和實體定義,所以系統(tǒng)主要采用基于規(guī)則和用戶詞典方式進行分詞。具體方法是將全部的命名實體和本體詞匯存入用戶詞典,以優(yōu)化用戶檢索語句的分詞。分詞后所有的命名實體和本體詞匯將被單獨切分,對此還需要構(gòu)建實體索引和本體索引。實體索引以類為單位進行構(gòu)建,索引表的名稱為類的名稱。本體索引主要包括本體名稱和URI兩個關(guān)鍵字段,分別存儲類和屬性的相應(yīng)信息。通過對分詞結(jié)果進行實體和本體檢索,系統(tǒng)就可以識別檢索語句中的命名實體和本體詞匯。
(6)檢索語句轉(zhuǎn)化模塊。SPARQL轉(zhuǎn)化主要負責(zé)將提取的命名實體和本體標注結(jié)果轉(zhuǎn)化為SPARQL語句進行語義搜索。SPARQL是W3C針對RDF提出的查詢標準和數(shù)據(jù)訪問協(xié)議,主要由PREFIX、SELECT、FROM和WHERE四部分構(gòu)成。PREFIX用于設(shè)置前綴,SELECT用于設(shè)置檢索的對象,F(xiàn)ROM用于設(shè)置檢索的位置,WHERE用于設(shè)置檢索的條件。檢索語句的轉(zhuǎn)換涉及較為復(fù)雜的句法分析,目前本研究僅針對簡單句提出了若干轉(zhuǎn)換規(guī)則,對于復(fù)雜句的處理還需要更深入的研究。
(7)SPARQL搜索模塊。SPARQL搜索模塊主要負責(zé)對構(gòu)建的SPARQL檢索式進行語義檢索。區(qū)別于傳統(tǒng)的檢索方式,SPARQL檢索的對象是RDF三元組。檢索過程中,SPARQL搜索引擎首先將數(shù)據(jù)庫存儲的三元組數(shù)據(jù)轉(zhuǎn)化成RDF圖,然后通過圖搜索算法進行檢索。目前,常用的SPARQL搜索引擎是Apache開發(fā)的fuseki。另外,也可以通過調(diào)用JeanAPIs對JenaTDB進行檢索。為了提高系統(tǒng)檢索質(zhì)量,還可以采用推理機提高系統(tǒng)的語義發(fā)現(xiàn)能力。目前,JeanAPIs主要支持基于規(guī)則的推理,而RACER、FaCT++、Pellet等則可以在OWL2 RL規(guī)則的約束下進行更專業(yè)的推理。
4 語義搜索框架測試
為了驗證上述語義搜索框架的效果,本研究搭建了基于該框架的驗證系統(tǒng),并設(shè)計了多個實驗對系統(tǒng)的運行效果進行檢驗。
4.1 驗證系統(tǒng)的搭建
(1)本體模型的構(gòu)建及序列化。采用protege5.0對概念模型進行構(gòu)建,并在模型的基礎(chǔ)上進行實體和實體屬性的定義。概念模型主要基于BIBFRAME進行構(gòu)建,除此以外還復(fù)用了DC、EVENT、FOAF等常用的本體詞匯集;根據(jù)實驗需要,選取了網(wǎng)絡(luò)用戶、圖書館和出版機構(gòu)等多個來源的信息,如書籍的出版信息、館藏信息和用戶評論等;構(gòu)建完成后系統(tǒng)生成RDF格式的序列化文件。
(2)檢索語句處理及轉(zhuǎn)換。采用NLPIR2016進行檢索語句的分詞,用戶字典采用系統(tǒng)自帶的UserDict文件;命名實體索引和本體索引采用MySQL5.7.14數(shù)據(jù)庫進行存儲和檢索;SPARQL轉(zhuǎn)換通過JAVA代碼實現(xiàn)。
(3)RDF存儲與檢索。采用JenaTDB+Fuseki+Tomcat的架構(gòu)。JenaTDB主要負責(zé)RDF數(shù)據(jù)的存儲;Fuseki是開源的SPARQL搜索引擎,提供RDF查詢服務(wù);Tomcat主要提供WEB服務(wù),在使用前需要先導(dǎo)入Fuseki的WAR文件。
4.2 實驗測試
為了驗證系統(tǒng)效果,本研究設(shè)計了三個實驗分別對系統(tǒng)的語義描述、語義整合和語義檢索功能進行測試。
(1)語義描述功能測試。為了驗證系統(tǒng)的語義描述功能,本研究從豆瓣、中國圖書網(wǎng)、中國國家圖書館等網(wǎng)站獲取了與書籍相關(guān)的書評、出版和館藏信息,然后采用基于BIBFRAME的概念模型對上述資源進行了描述。具體描述了采用的類和屬性(見表2),生成了書評和書籍RDF數(shù)據(jù)(見圖3)。
實驗結(jié)果表明,BIBFRAME提供了豐富的類和屬性定義,Work、Instance和Item三個核心類能夠較好的滿足書評信息、出版信息和館藏信息的描述需要。同時,測試也顯示BIBFRAME具有適度的描述彈性,在描述責(zé)任者、分類標記、作品名稱時,允許使用者自己定義需要的類型。如BIBFRAME設(shè)置了Contribution類和role屬性,通過定義Contribution實體和該實體role屬性的值,使用者可以定義需要的貢獻者類型。此外,VarientTitle、Source也都采用了類似的定義方法,能夠?qū)σ延械臉祟}和標記類型進行擴展。
(2)語義整合功能測試。為驗證系統(tǒng)語義整合功能,本研究收集了多個來源的圖像、視頻、報告、期刊等資源的描述信息,每種信息均采用了不同的本體描述結(jié)構(gòu)。為解決異構(gòu)信息整合問題,筆者采用owl:equivalentClass 、owl:equivalentProperty和owl:sameAs對異構(gòu)本體進行映射,并通過FaCT++推理機和BIBFRAME中的事件類實現(xiàn)了資源在結(jié)構(gòu)和內(nèi)容上的整合。為了驗證整合效果,筆者以“2001年7月13日北京申奧成功”為事件進行檢索,結(jié)果顯示了所有與該事件相關(guān)的資源信息(見圖4)。測試結(jié)果表明基于等價關(guān)系的本體映射和BIBFRAME的概念、屬性能夠?qū)Ξ悩?gòu)資源進行有效的整合。
(3)語義檢索功能測試。為了驗證系統(tǒng)的語義檢索功能,本研究采用了多條檢索語句進行實驗(見表3),以測試系統(tǒng)各個環(huán)節(jié)的運行效果。
系統(tǒng)通過對檢索語句分詞實現(xiàn)了實體和本體詞匯的單獨分割(見表3)。系統(tǒng)對檢索語句的轉(zhuǎn)換結(jié)果(見表4),通過對SPARQL搜索結(jié)果進行驗證(見圖5),確認系統(tǒng)獲取了較為準確的結(jié)果,達到了預(yù)期的語義檢索效果。
上述實驗結(jié)果表明,本研究基于BIBFRAME提出的數(shù)字圖書館語義搜索框架具有較好的科學(xué)性和有效性,根據(jù)其構(gòu)建的驗證系統(tǒng)能夠較好的實現(xiàn)數(shù)字圖書館資源的語義描述、組織和檢索,滿足了預(yù)期的資源整合和發(fā)現(xiàn)需求。同時,測試也顯示驗證系統(tǒng)在深層語義發(fā)現(xiàn)和復(fù)雜語句識別方面存在不足,這主要由于兩個方面的原因:①驗證系統(tǒng)主要針對實體間的顯性關(guān)系構(gòu)建概念模型,對資源深層語義的發(fā)現(xiàn)存在不足;②系統(tǒng)雖然能夠處理常見的簡單句查詢,但是由于缺少句法分析導(dǎo)致系統(tǒng)對復(fù)雜語句的識別存在不足。
5 結(jié)語
為提高數(shù)字圖書館對互聯(lián)網(wǎng)資源的整合與發(fā)現(xiàn)能力,本文提出了基于BIBFRAME的數(shù)字圖書館語義搜索框架,實驗結(jié)果表明,本研究提出的數(shù)字圖書館語義搜索框架具有較好的科學(xué)性和有效性,能夠有效解決數(shù)字圖書館面臨的資源整合和發(fā)現(xiàn)難題。目前,本文提出的框架還存在深層語義發(fā)現(xiàn)和復(fù)雜語句處理兩個方面的不足。后續(xù)研究中,我們將繼續(xù)對框架進行細化,并嘗試采用推理、概率統(tǒng)計的方法提高系統(tǒng)對潛在語義的發(fā)現(xiàn)能力;在檢索語句處理方面,將嘗試增加句法分析功能,提高系統(tǒng)對復(fù)雜語句的處理能力。
參考文獻:
[1] Pesch O,Miller E.Using BIBFRAME and library linked data to solve real problems:an interview with eric miller of zepheira:edited by oliver pesch[J].The Serials Librarian,2016,71(1):1-8.
[2] 蘇明明,宋文.基于本體的語義搜索引擎解決方案研究新進展[J].現(xiàn)代圖書情報技術(shù),2008(11):24-28.
[3] 郭衛(wèi)寧,司莉.國外語義搜索引擎調(diào)查與分析[J].圖書情報工作,2013,57(23):121-129.
[4] 王碩,周華琳.基于語義搜索引擎的數(shù)字圖書館服務(wù)優(yōu)化研究[J].圖書館學(xué)研究,2012(14):41-45.
[5] 文坤梅,盧正鼎,孫小林,等.語義搜索研究綜述[J].計算機科學(xué),2008,35(5):1-4.
[6] Wei X,Zeng D D.Exna:an efficient search pattern for semantic search engines[J].Concurrency and Computation:Practice and Experience,28(15):4107-4124.
[7] Hu Y,Janowicz K,Prasad S,et al.Enabling Semantic Search and Knowledge Discovery for ArcGIS Online:A Linked-Data-Driven Approach[M].Agile 2015.Switzerlan:Springer,2015:107-124.
[8] Koutsomitropoulos D A,Solomou G D,Kalou A K.Herding linked data:semantic search and navigation among scholarly datasets[J].International Journal of Semantic Computing,2015,9(4):459-482.
[9] Shin S,Ko J,Eom S,et al.Keyword-based mobile semantic search using mobile ontology[J].Journal of Information Science,2015,41(2):178-196.
[10] Song M,Eom S,Shin S,et al.Enriching Mobile Semantic Search with Web Services[C].Semantic Computing (ICSC),2015 IEEE International Conference on Image Process.Quebec:IEEE,2015:452-455.
[11] Stanchev L.Semantic Search Using a Similarity Graph[C].Semantic Computing (ICSC),2015 IEEE International Conference on Image Process.Quebec:IEEE,2015:93-100.
[12] Stanchev L.Fine-tuning an algorithm for semantic search using a similarity graph[J].International Journal of Semantic Computing,2015,9(3):283-306.
[13] Tablan V,Bontcheva K,Roberts I,et al.Mímir:an open-source semantic search framework for interactive information seeking and discovery[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(30):52-68.
[14] Cohen T,Widdows D,Rindflesch T.Expansion-by-Analogy:A Vector Symbolic Approach to Semantic Search[C].International Symposium on Quantum Interaction.Filzbach:Springer,2015:54-66.
[15] Fatima A,Luca C,Hobbs M.Free-Text User Queries for Semantic Search[C].2015 IEEE 13th International Conference on Industrial Informatics (INDIN).Cambridge:IEEE,2015:838-843.
[16] El-gayar M M,Mekky N,Atwan A.Efficient proposed framework for semantic search engine using new semantic ranking algorithm[J].International Journal of Advanced Computer Science and Applications,2015,6(8):136-143.
[17] Berlanga R,Nebot V,Pérez M.Tailored semantic annotation for semantic search[J].Web Semantics:Science,Services and Agents on the World Wide Web,2015(30):69-81.
[18] 楊麗姣,肖航.漢語深層語義理解與知識表示-面向語義搜索的語料庫語境信息標注研究[J].語言文字應(yīng)用,2015 (1):107-116.
[19] Davelaar E J.Semantic search in the remote associates test[J].Topics in Cognitive Science,2015,7(3):494-512.
[20] Hong K J,Kim H J.A Semantic Search Technique with Wikipedia-Based Text Representation Model[C].2016 International Conference on Big Data and Smart Computing (BigComp).Hong Kong:IEEE,2016:177-182.
[21] 陳國華,湯庸,許玉贏,等.基于詞向量的學(xué)術(shù)語義搜索研究[J].華南師范大學(xué)學(xué)報(自然科學(xué)版),2016,48(3):53-58.
[22] Shabbir U,Kanwal T,Malik R,et al.Comparison between SSTC and LINGO Algorithms in Clustered Based Semantic Search for Browsing Scholarships[C].International Conference on Frontiers of Information Technology.Islamabad:IEEE Computer Society,2015:53-58.
[23] Elibedweihy K M,Wrigley S N,Clough P,et al.An overview of semantic search evaluation initiatives[J].Web Semantics Science Services & Agents on the World Wide Web,2015,30(C):82-105.
[24] Laura L,Me G.Searching the web for illegal content:the anatomy of a semantic search engine[J].Soft Computing,2015(534):1-8.
[25] Ma B,Zhang N,Liu G,et al.Semantic search for public opinions on urban affairs:a probabilistic topic modeling-based approach[J].Information Processing & Management,2015,forthcoming(3):430-445.
[26] Li W,Bhatia V,Cao K.Intelligent polar cyberinfrastructure:enabling semantic search in geospatial metadata catalogue to support polar data discovery[J].Earth Science Informatics,2015,8(1):111-123.
[27] Ma B,Zhang N,Liu G,et al.Semantic search for public opinions on urban affairs:a probabilistic topic modeling-based approach[J].Information Processing & Management,2016,52(3):430-445.
[28] 柯葉青,馬志柔,伍海江,等.一種簡歷語義搜索系統(tǒng)的實現(xiàn)方法[J].計算機科學(xué),2015,42(12):56-59.
[29] 盛東方,孫建軍.基于語義搜索引擎的學(xué)科知識服務(wù)研究—以GoPubMed為例[J].圖書情報知識,2015 (4):113-120.
[30] 劉煒,夏翠娟.書目數(shù)據(jù)新格式BIBFRAME及其應(yīng)用[J].大學(xué)圖書館學(xué)報,2014,32(1):5-13.
[31] 夏翠娟.面向語義網(wǎng)的書目框架(BIBFRAME):功能需求及實現(xiàn)[J].大學(xué)圖書館學(xué)報,2014,32(6):61-69.
[32] 夏翠娟,劉煒,張磊,等.基于書目框架(BIBFRAME)的家譜本體設(shè)計[J].圖書館論壇,2014(11):5-19.
[33] 安曉麗.BIBFRAME圖書館工作的變革[J].圖書館建設(shè),2015(10):40-42.