,
大數(shù)據(jù)時(shí)代,文獻(xiàn)信息資源呈現(xiàn)出來(lái)源多樣化、數(shù)據(jù)增長(zhǎng)快速化、數(shù)據(jù)資源海量化等特點(diǎn),給用戶快速發(fā)現(xiàn)和有效利用信息提出了挑戰(zhàn)。對(duì)此,圖書(shū)館應(yīng)積極整合信息資源和創(chuàng)新服務(wù)模式,為用戶提供專(zhuān)業(yè)、高效的個(gè)性化信息服務(wù)。
本文運(yùn)用語(yǔ)義網(wǎng)技術(shù)針對(duì)用戶的檢索方式和學(xué)科館員的服務(wù)方式提出了新的思路和模型,即基于語(yǔ)義網(wǎng)關(guān)聯(lián)數(shù)據(jù)和本體技術(shù)的用戶檢索方式的轉(zhuǎn)變及基于本體的學(xué)科館員信息服務(wù)模式。在基于語(yǔ)義網(wǎng)技術(shù)的個(gè)性化信息服務(wù)新模式下,學(xué)科館員通過(guò)領(lǐng)域本體和構(gòu)建應(yīng)用本體向用戶“推信息”,用戶端通過(guò)“所得即所需”的方式“拉信息”的模式獲取準(zhǔn)確度、相關(guān)度高的信息。
語(yǔ)義網(wǎng)的出現(xiàn)改變了圖書(shū)館的信息組織和檢索方式,將以前沒(méi)有關(guān)聯(lián)的數(shù)據(jù)通過(guò)語(yǔ)義關(guān)系相聯(lián)系起來(lái),在邏輯層面上實(shí)現(xiàn)了數(shù)據(jù)整合[1-2];擺脫傳統(tǒng)關(guān)系數(shù)據(jù)模型下機(jī)械式檢索的約束,實(shí)現(xiàn)基于語(yǔ)義關(guān)系的智能化數(shù)據(jù)檢索。
關(guān)聯(lián)數(shù)據(jù)技術(shù)是語(yǔ)義網(wǎng)實(shí)現(xiàn)的基礎(chǔ)。關(guān)聯(lián)數(shù)據(jù)技術(shù)通過(guò)網(wǎng)絡(luò)把相關(guān)數(shù)據(jù)通過(guò)語(yǔ)義連接起來(lái),目的是構(gòu)建一個(gè)計(jì)算機(jī)能夠理解的具有結(jié)構(gòu)化的和富含語(yǔ)義的數(shù)據(jù)網(wǎng)絡(luò),以便在此基礎(chǔ)上構(gòu)建更智能的應(yīng)用[3]。關(guān)聯(lián)數(shù)據(jù)技術(shù)采用資源描述框架(Resource Description Framework,RDF)數(shù)據(jù)模型,利用URI命名數(shù)據(jù)實(shí)體,并在網(wǎng)絡(luò)上發(fā)布,從而可以通過(guò)HTTP 協(xié)議揭示并獲取這些數(shù)據(jù),同時(shí)強(qiáng)調(diào)數(shù)據(jù)的相互聯(lián)系以及有助于人和計(jì)算機(jī)理解數(shù)據(jù)的語(yǔ)境信息[4-5]。關(guān)聯(lián)數(shù)據(jù)技術(shù)引領(lǐng)用戶檢索方式由傳統(tǒng)的字面意義的匹配查詢轉(zhuǎn)化為圍繞著主題的基于語(yǔ)義的查詢,為將檢索詞背后隱藏的、相關(guān)聯(lián)的信息充分揭示給用戶提供了技術(shù)基礎(chǔ)。
本體用來(lái)描述或表達(dá)由RDF所描述的某領(lǐng)域內(nèi)知識(shí)的一組概念或術(shù)語(yǔ)[6],使這些概念和關(guān)系在共享范圍內(nèi)具有大家共同認(rèn)可的、明確的、唯一的定義,在此基礎(chǔ)上便于人機(jī)以及機(jī)器之間可以進(jìn)行交流[7]。
本體的目標(biāo)是獲取、描述和表示相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這些詞匯和詞匯間相互關(guān)系的明確定義[6]。本體按層次劃分為頂層本體、領(lǐng)域本體、任務(wù)本體和應(yīng)用本體4個(gè)層次[8]。本體能夠在不同層次范圍內(nèi)構(gòu)建出具有多種屬性的概念關(guān)系網(wǎng),為基于領(lǐng)域內(nèi)的語(yǔ)義查詢實(shí)現(xiàn)更具指向性、精確性、專(zhuān)業(yè)化的檢索能力提供了可能[9]。
SOA(service-oriented architecture,面向服務(wù)的體系結(jié)構(gòu))是一個(gè)組件模型,它將應(yīng)用程序的不同功能單元(稱為“服務(wù)”)之間定義良好的接口和契約聯(lián)系起來(lái)。其中,接口是采用中立的方式進(jìn)行定義,獨(dú)立于實(shí)現(xiàn)服務(wù)的硬件平臺(tái)、操作系統(tǒng)和編程語(yǔ)言,使構(gòu)建在這樣的系統(tǒng)中的各種服務(wù)可以以一種統(tǒng)一和通用的方式進(jìn)行交互[10];服務(wù)是一種部署在網(wǎng)絡(luò)上的實(shí)現(xiàn)了一定功能的應(yīng)用邏輯單元,它包含一組操作集(一個(gè)或多個(gè)操作)并向外界提供訪問(wèn)操作的接口,服務(wù)請(qǐng)求者通過(guò)服務(wù)提供的接口來(lái)調(diào)用服務(wù)實(shí)現(xiàn)應(yīng)用需求。
模型的核心設(shè)計(jì)思想是建立一個(gè)開(kāi)放的基于語(yǔ)義網(wǎng)的信息服務(wù)平臺(tái),在該平臺(tái)上建立起學(xué)科館員、醫(yī)學(xué)領(lǐng)域?qū)<液蛯W(xué)科專(zhuān)業(yè)用戶之間以信息為紐帶的新型個(gè)性化服務(wù)關(guān)系。基于語(yǔ)義網(wǎng)和SOA的圖書(shū)信息服務(wù)模型架構(gòu)見(jiàn)圖1。在該模型中,基于SOA的RDF服務(wù)、RDFS服務(wù)、本體服務(wù)及傳統(tǒng)業(yè)務(wù)服務(wù)是核心服務(wù)組件。在核心服務(wù)組件的支撐下,形成信息的“聚合”和“流動(dòng)”,即以學(xué)科館員為代表的服務(wù)人員針對(duì)學(xué)科專(zhuān)業(yè)用戶的需求構(gòu)建適當(dāng)層次的領(lǐng)域本體或應(yīng)用本體模型,專(zhuān)業(yè)用戶基于本體模型驅(qū)動(dòng)的服務(wù)獲取高質(zhì)量的信息。
2.1.1 核心服務(wù)組件
核心服務(wù)組件主要包括RDF服務(wù)接口、RDFS服務(wù)接口、本體服務(wù)接口及傳統(tǒng)服務(wù)業(yè)務(wù)接口。核心服務(wù)組件架構(gòu)主要層次大致分為4層(圖2)。
底層為數(shù)據(jù)層,包括關(guān)聯(lián)數(shù)據(jù)知識(shí)庫(kù)/本體模型庫(kù)/用戶數(shù)據(jù)庫(kù)、元數(shù)據(jù)庫(kù)系統(tǒng)及傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)等。其中元數(shù)據(jù)庫(kù)系統(tǒng)是另外兩個(gè)數(shù)據(jù)庫(kù)的基礎(chǔ),包括了元數(shù)據(jù)標(biāo)準(zhǔn)庫(kù)、元數(shù)據(jù)庫(kù)和元數(shù)據(jù)映射庫(kù),元數(shù)據(jù)庫(kù)為知識(shí)發(fā)現(xiàn)提供了規(guī)范和基于規(guī)范的數(shù)據(jù)基礎(chǔ)。元數(shù)據(jù)標(biāo)準(zhǔn)庫(kù)包括不同元數(shù)據(jù)標(biāo)準(zhǔn),模型通過(guò)本體的映射屏蔽數(shù)據(jù)的異構(gòu)性并提供統(tǒng)一的邏輯視圖。關(guān)聯(lián)數(shù)據(jù)知識(shí)庫(kù)提供了元數(shù)據(jù)的關(guān)聯(lián)模型和類(lèi)型定義信息,本體模型庫(kù)則提供了知識(shí)概念之間的聯(lián)系信息,用戶數(shù)據(jù)庫(kù)為不同用戶提供個(gè)性化的信息記錄服務(wù)。
RDF服務(wù)引擎和RDFS服務(wù)引擎共同組成了關(guān)聯(lián)數(shù)據(jù)服務(wù)引擎,在關(guān)聯(lián)數(shù)據(jù)知識(shí)庫(kù)、本體模型庫(kù)、元數(shù)據(jù)庫(kù)系統(tǒng)的支撐下為關(guān)聯(lián)數(shù)據(jù)的生成、入庫(kù)和基于關(guān)聯(lián)數(shù)據(jù)庫(kù)的語(yǔ)義查詢提供服務(wù)。
本體服務(wù)引擎完成各種本體的輔助構(gòu)建和在RDF服務(wù)引擎和RDFS服務(wù)引擎的幫助下完成基于本體模型的語(yǔ)義查詢。
傳統(tǒng)數(shù)據(jù)庫(kù)和傳統(tǒng)服務(wù)業(yè)務(wù)層承擔(dān)整合已有數(shù)據(jù)庫(kù)和保留傳統(tǒng)業(yè)務(wù)軟件資產(chǎn)的任務(wù),使舊業(yè)務(wù)和舊數(shù)據(jù)無(wú)縫地融入新平臺(tái)和新應(yīng)用。
圖2 核心服務(wù)組件架構(gòu)主要層次
2.1.2 服務(wù)總線及接口
服務(wù)總線是負(fù)責(zé)管理和協(xié)調(diào)學(xué)科館員平臺(tái)、醫(yī)學(xué)領(lǐng)域?qū)<移脚_(tái)、學(xué)科專(zhuān)業(yè)用戶平臺(tái)與核心服務(wù)組件接口關(guān)系的組件,服務(wù)總線可以應(yīng)用企業(yè)服務(wù)總線(Enterprise Service Bus,ESB)平臺(tái)。
2.1.3 學(xué)科館員工作平臺(tái)
學(xué)科館員工作平臺(tái)為學(xué)科館員在基于語(yǔ)義網(wǎng)的醫(yī)學(xué)信息服務(wù)系統(tǒng)中發(fā)揮驅(qū)動(dòng)和提煉醫(yī)學(xué)文獻(xiàn)信息知識(shí)的能力提供了重要的支撐,為學(xué)科館員與學(xué)科專(zhuān)業(yè)用戶的溝通提供了便捷的、專(zhuān)業(yè)的、實(shí)時(shí)的聯(lián)系工具。學(xué)科專(zhuān)業(yè)用戶的需求可以通過(guò)提交到用戶數(shù)據(jù)庫(kù)等多樣的方式傳遞給學(xué)科館員,使學(xué)科館員能捕獲最準(zhǔn)確的需求信息。 學(xué)科館員根據(jù)獲得的需求信息為用戶構(gòu)建、選擇適當(dāng)?shù)念I(lǐng)域本體或應(yīng)用本體,通過(guò)擴(kuò)展或裁減的迭代,為用戶提供最準(zhǔn)確、相關(guān)度最大的本體模型,并持續(xù)跟蹤用戶的研究動(dòng)向,不斷完善更新本體模型,以提高用戶獲取信息的效率和質(zhì)量。
核心服務(wù)組件為學(xué)科館員提供私有的用戶數(shù)據(jù)庫(kù),用來(lái)保存學(xué)科館員的各種經(jīng)驗(yàn)、規(guī)則、模型及由其他各類(lèi)數(shù)據(jù)挖掘等方法獲取的醫(yī)學(xué)及相關(guān)知識(shí),為知識(shí)、方法的復(fù)用提供了技術(shù)基礎(chǔ)。
2.1.4 醫(yī)學(xué)領(lǐng)域?qū)<夜ぷ髌脚_(tái)
醫(yī)學(xué)領(lǐng)域?qū)<壹瓤梢允菍W(xué)科館員的協(xié)作者,也可以是高層次的學(xué)科專(zhuān)業(yè)用戶。領(lǐng)域本體及應(yīng)用本體的構(gòu)建是專(zhuān)業(yè)性很強(qiáng)的工作,本體構(gòu)建的科學(xué)與否,與檢索結(jié)果的準(zhǔn)確度密切相關(guān),但學(xué)科館員往往難以完全勝任本體的構(gòu)建工作。作為學(xué)科館員的協(xié)作者,醫(yī)學(xué)領(lǐng)域?qū)<铱梢灾笇?dǎo)其構(gòu)建醫(yī)學(xué)領(lǐng)域本體或應(yīng)用本體模型。作為學(xué)科專(zhuān)業(yè)用戶,醫(yī)學(xué)領(lǐng)域?qū)<铱梢酝ㄟ^(guò)用戶數(shù)據(jù)庫(kù)和積累的相關(guān)經(jīng)驗(yàn)及知識(shí)與學(xué)科館員溝通交流。
2.1.5 專(zhuān)業(yè)用戶終端
本文所指的學(xué)科專(zhuān)業(yè)用戶是一個(gè)廣義的用戶群,沒(méi)有特定的指向,既可能是獨(dú)立的醫(yī)學(xué)學(xué)者,也可是與醫(yī)學(xué)學(xué)科相關(guān)的群體。專(zhuān)業(yè)用戶可通過(guò)終端與學(xué)科館員交換信息,也可以用來(lái)記錄自己的相關(guān)需求和經(jīng)驗(yàn)。
模型的工作方式有本體模型的建立/選擇過(guò)程、基于關(guān)聯(lián)數(shù)據(jù)和本體模型的檢索過(guò)程兩部分。
2.2.1 本體模型的建立/選擇過(guò)程工作流程
學(xué)科專(zhuān)業(yè)用戶將服務(wù)需求以學(xué)科館員規(guī)范的形式提交給學(xué)科館員,必要時(shí)可提交附件,輔助學(xué)科館員充分理解、分析用戶需求。學(xué)科館員與醫(yī)學(xué)領(lǐng)域?qū)<疫M(jìn)行充分的溝通,對(duì)用戶的意圖和需求的目標(biāo)進(jìn)行確認(rèn),初步構(gòu)建起或選擇所需的本體模型,對(duì)本體模型進(jìn)行驗(yàn)證評(píng)估,必要時(shí)進(jìn)行修改和完善,并重復(fù)本步驟,對(duì)優(yōu)選出來(lái)的模型提交給核心組件的相關(guān)數(shù)據(jù)庫(kù),需要時(shí)可以同步提交到學(xué)科館員用戶數(shù)據(jù)庫(kù),用于知識(shí)的積累。
2.2.2 基于關(guān)聯(lián)數(shù)據(jù)和本體模型的檢索過(guò)程工作流程
醫(yī)學(xué)專(zhuān)業(yè)用戶提交檢索需求給核心服務(wù)組件,核心服務(wù)組件對(duì)檢索命令按照關(guān)聯(lián)數(shù)據(jù)或本體服務(wù)引擎的需要進(jìn)行格式化,然后轉(zhuǎn)交給關(guān)聯(lián)數(shù)據(jù)引擎或本體服務(wù)引擎。當(dāng)轉(zhuǎn)交給關(guān)聯(lián)數(shù)據(jù)引擎時(shí),由RDF引擎和RDFS引擎根據(jù)命令參數(shù)及算法查找出相關(guān)信息;當(dāng)轉(zhuǎn)交給本體服務(wù)引擎時(shí),本體服務(wù)引擎在RDF引擎和RDFS引擎的支持下,查找與本體相匹配的信息,將信息按照用戶的需求做進(jìn)一步的處理后返回到接口。
不同的醫(yī)學(xué)專(zhuān)業(yè)用戶均可訪問(wèn)模型所支持的文獻(xiàn)信息資源,不同的圖書(shū)館文獻(xiàn)信息資源也可以通過(guò)關(guān)聯(lián)數(shù)據(jù)技術(shù)相關(guān)聯(lián),以關(guān)聯(lián)數(shù)據(jù)為形式的醫(yī)學(xué)信息資源從多個(gè)維度進(jìn)行擴(kuò)張。
對(duì)學(xué)科館員來(lái)說(shuō)需求指向更加明確,信息推送更加精確;對(duì)醫(yī)學(xué)用戶來(lái)說(shuō)檢索過(guò)程達(dá)到“一鍵拉取”,檢索結(jié)果達(dá)到“所得即所需”,形成基于信息“推拉”模式的個(gè)性化服務(wù)新模式。
既可實(shí)現(xiàn)數(shù)字資源的整合又能實(shí)現(xiàn)基于語(yǔ)義網(wǎng)的檢索能力,同時(shí)還可有效保護(hù)已有的軟件資產(chǎn)。
對(duì)學(xué)科館員的學(xué)科專(zhuān)業(yè)性和語(yǔ)義網(wǎng)應(yīng)用建模能力提出了新的挑戰(zhàn)。
強(qiáng)調(diào)了醫(yī)學(xué)領(lǐng)域?qū)<以诨诒倔w的智能檢索服務(wù)中不可或缺的角色。
本文論述了基于SOA架構(gòu)方法將關(guān)聯(lián)數(shù)據(jù)和本體技術(shù)應(yīng)用于醫(yī)學(xué)圖書(shū)館信息資源服務(wù)的模型架構(gòu),模型借助SOA方法屏蔽了傳統(tǒng)業(yè)務(wù)和數(shù)據(jù)層的異構(gòu)性,并為醫(yī)學(xué)信息資源整合提供了可行性,針對(duì)各種異構(gòu)資源,能夠提供基于語(yǔ)義網(wǎng)技術(shù)的開(kāi)放的應(yīng)用接口,使資源之間具有了語(yǔ)義上的可擴(kuò)展的關(guān)聯(lián)關(guān)系。兩種技術(shù)方法的結(jié)合提供了一個(gè)較為通用的整合資源和基于語(yǔ)義的信息組織、檢索服務(wù)系統(tǒng)建設(shè)新思路。模型通過(guò)應(yīng)用本體模型的技術(shù)為學(xué)科館員和學(xué)科專(zhuān)業(yè)用戶之間架起了一座橋梁。學(xué)科館員在醫(yī)學(xué)領(lǐng)域?qū)<业膮f(xié)助下,應(yīng)用本體模型為醫(yī)學(xué)專(zhuān)業(yè)用戶提供語(yǔ)義層面的智能化檢索服務(wù),并不斷追蹤醫(yī)學(xué)專(zhuān)業(yè)用戶的需求變化,同步更新本體模型,逼近用戶的真實(shí)需求。
中華醫(yī)學(xué)圖書(shū)情報(bào)雜志2015年9期