国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義的文獻資源發(fā)現(xiàn)服務(wù)體系構(gòu)建

2018-09-19 01:55:22劉愛琴于賈燕
圖書館理論與實踐 2018年8期
關(guān)鍵詞:主題詞服務(wù)體系文檔

劉愛琴,于賈燕,尚 珊

(山西大學(xué)經(jīng)濟與管理學(xué)院)

當(dāng)前互聯(lián)網(wǎng)上海量文獻資源的品質(zhì)參差不齊,導(dǎo)致用戶無法及時有效地檢索目標(biāo)信息,文獻資源發(fā)現(xiàn)服務(wù)體系服務(wù)效率低下,查準(zhǔn)率較低,且無法實現(xiàn)對不同信息的統(tǒng)一訪問。[1]基于語義的文獻資源發(fā)現(xiàn)服務(wù)體系是借助人的智慧創(chuàng)建的依托于機器的智能化系統(tǒng),提供人與機器之間信息通信的中介,可借助與客戶檢索文獻信息相關(guān)的語義知識地圖實現(xiàn)對知識的深度挖掘以及用戶與計算機間對數(shù)據(jù)信息的一致理解和認(rèn)識。本研究致力于在語義的基礎(chǔ)上搭建將目標(biāo)文獻資源以“與用戶檢索內(nèi)容相匹配的數(shù)字資源的全文信息PDF匯編文檔”的形式,替代當(dāng)前簡單的檢索目錄呈獻給用戶的文獻資源發(fā)現(xiàn)服務(wù)體系,進而根據(jù)用戶需求實現(xiàn)知識重組,促進知識創(chuàng)造的發(fā)展。

1 國內(nèi)外研究成果

語義Web起源于英國,由國際W3C主席Tim Berners-Lee首次提出,即給出一種機器可理解的描述資源的方式,在保證查全率的基礎(chǔ)上大幅提升查準(zhǔn)率。[2]當(dāng)前,比較典型的語義數(shù)字資源服務(wù)系統(tǒng)有BRICKS、Fedora和JeromeDL。BRICKS是依托分布式開放結(jié)構(gòu)的集成化整合文化知識服務(wù)資源建設(shè)的開源軟件系統(tǒng);[3]Fedora是基于Web2.0靈活可擴展的、通用的數(shù)字對象管理系統(tǒng);[4]JeromeDL是基于語義Web的高互操作性、高可用性、開源社會化語義數(shù)字資源服務(wù)系統(tǒng)。[5]上述三個語義數(shù)字資源服務(wù)系統(tǒng)各具特色,對語義技術(shù)有較強的支持作用,為數(shù)字信息領(lǐng)域提供了典型的研究范例,具有極強的參考價值。

中國學(xué)者劉健等為應(yīng)對傳統(tǒng)數(shù)字文獻資源內(nèi)容推薦服務(wù)過程中無法充分挖掘資源語義信息等問題,提出對用戶檢索關(guān)鍵詞實行語義擴展,并嘗試采用全新的語義相似度計算方法,借助本體推理規(guī)則,計算文獻資源內(nèi)容相似度。[6]李佳南提出以用戶需求為核心出發(fā)點,在館藏資源特征分析的基礎(chǔ)上提出語義知識庫構(gòu)建的方法,采用自底向上的構(gòu)建思想構(gòu)造層次化的館藏資源語義知識庫框架體系。[7]高俊峰提出一種基于語義標(biāo)簽的數(shù)字文獻資源組織方法,力求為新技術(shù)標(biāo)準(zhǔn)下的數(shù)字圖書館知識服務(wù)工作的開展提供解決方案。[8]但令人遺憾的是,目前國內(nèi)仍然沒有學(xué)者明確提出構(gòu)建基于語義的文獻資源發(fā)現(xiàn)服務(wù)體系。

本研究嘗試搭建實現(xiàn)轉(zhuǎn)變關(guān)鍵詞為主題詞、對主題詞進行科學(xué)切分和重組,從而能夠根據(jù)用戶需求實現(xiàn)知識重組、促進知識創(chuàng)造的基于語義的文獻資源發(fā)現(xiàn)服務(wù)體系。該體系可以將匹配用戶檢索信息的相關(guān)數(shù)字資源以PDF文檔格式條理化、可視化的形式呈獻給用戶,實現(xiàn)全文信息呈現(xiàn)替代當(dāng)前的檢索目錄可視化,進而借助形象化、具體化的描述提高信息的可理解性和可認(rèn)知性的程度,提高數(shù)字資源的有效利用率,以達到減少用戶檢索獲取知識資源的時間與精力的目的。

2 基于語義的文獻資源發(fā)現(xiàn)服務(wù)體系機理分析

提供基于語義的文獻資源發(fā)現(xiàn)服務(wù),更好地揭示數(shù)字文獻資源的語義特性,實現(xiàn)由關(guān)鍵詞到主題詞的轉(zhuǎn)變及主題詞的切分和重組,深度集成和統(tǒng)籌互聯(lián)網(wǎng)數(shù)字資源,反饋給用戶可視化的目標(biāo)文獻資源全文信息。以語義Web技術(shù)為支撐,從用戶層、檢索層、語義分析層、預(yù)處理層、知識集成層五個層次挖掘并整合互聯(lián)網(wǎng)數(shù)字文獻資源(見圖1)。

(1)用戶在用戶層進行檢索查詢時制定的檢索策略會直接傳遞給檢索層。該層是實現(xiàn)用戶與機器直接信息交流的平臺,若用戶訪問一個信息內(nèi)容實例,則把該內(nèi)容以指定的中介格式(PDF文檔)反饋給用戶。同時,該層還負責(zé)以動態(tài)跟蹤的方式實時跟蹤所提供的知識服務(wù),以主動推送的方式優(yōu)化知識服務(wù),進一步提升用戶滿意度。

(2)檢索層的檢索工具將用戶需求傳遞至推理機,提取需求特征后進行本體擴展,消除語義沖突和語義分歧等,并在服務(wù)器的基礎(chǔ)上完成數(shù)字資源語義沖突的智能化識別和處理。從而在已經(jīng)建立的語義化信息或知識及相關(guān)算法的支持下,實現(xiàn)用戶需求的初步解讀。用戶需求數(shù)據(jù)庫通過推理機傳遞的經(jīng)解讀分析后的數(shù)據(jù)信息了解用戶對知識服務(wù)的需求,從而進行整理和儲存。然后對用戶感興趣及習(xí)慣性的信息進行定期跟蹤查新,并通過用戶層及時將最新信息推送給用戶。

(3)用戶需求庫將解讀后的需求信息傳輸至語義分析層數(shù)據(jù)庫,在語義Web技術(shù)的基礎(chǔ)上,從索引庫、主題詞庫、文獻文檔三個維度對匹配用戶需求的相關(guān)文檔進行語義方面的逐層解析,進而篩選調(diào)用語義標(biāo)準(zhǔn)化后的數(shù)字資源,形成基于XML的檢索目錄。

圖1 基于語義的文獻資源發(fā)現(xiàn)服務(wù)體系機理分析

(4)預(yù)處理層響應(yīng)語義分析層的要求,收集為匹配用戶需求而篩選調(diào)用的文獻文檔,然后借助語義Web技術(shù)對其進行解析處理,具體過程如下。① 在數(shù)字資源尾部找到屬性標(biāo)簽;② 轉(zhuǎn)入數(shù)字資源文檔根對象;③ 轉(zhuǎn)入數(shù)字資源文檔頁根對象;④ 轉(zhuǎn)入內(nèi)容對象,解讀字體信息、位置信息和文本信息;⑤將所有內(nèi)容對象的解碼流連接起來,組成文本內(nèi)容流。該層基于語義技術(shù)通過突破描述異構(gòu)、傳輸異構(gòu)、兼容異構(gòu)、功能異構(gòu)以及過程異構(gòu)等多種語義本體異構(gòu)問題,將解析后形式各異的館藏數(shù)字資源用統(tǒng)一化、標(biāo)準(zhǔn)化、機器可理解的語言描述,為下一步的全文內(nèi)容抽取奠定基礎(chǔ)。

(5)知識集成層由提取器、篩選器和包裝器三個模塊構(gòu)成,對語義分析層形成的檢索目錄中的資源進行全文內(nèi)容獲取,進而逐步實現(xiàn)推理解析、語義組別劃分和知識單元關(guān)聯(lián)匯總,基于數(shù)字信息資源聚類、分類和學(xué)習(xí)等算法研究,完成推理任務(wù)描述與分解技術(shù)研究,實現(xiàn)提取資源全文內(nèi)容的生成、重用和演化,最終打包成包含匹配用戶需求的所有文獻文檔全文信息的PDF集成文檔呈現(xiàn)給客戶,實現(xiàn)基于語義的智能化文獻資源發(fā)現(xiàn)整合服務(wù),更易于被用戶發(fā)現(xiàn)和瀏覽。

3 基于語義的文獻資源發(fā)現(xiàn)服務(wù)體系構(gòu)建

實現(xiàn)高效準(zhǔn)確的基于語義的文獻資源整合及知識推送服務(wù)的前提是基于語義標(biāo)準(zhǔn)化數(shù)字資源的篩選凝聚,在實現(xiàn)由關(guān)鍵詞到主題詞轉(zhuǎn)變的基礎(chǔ)上,系統(tǒng)才能高效滿足用戶的深層次知識需求,增進知識認(rèn)知、推動知識解讀、促進知識整合、推進知識創(chuàng)作。基于此,本研究構(gòu)建的基于語義的文獻資源發(fā)現(xiàn)服務(wù)體系由用戶層、檢索層、語義分析層、預(yù)處理層和知識集成層五個層次支撐并實現(xiàn)(見圖2)。

圖2 基于語義的文獻資源發(fā)現(xiàn)服務(wù)體系模型

(1)用戶層。該層與檢索層緊密相連,根據(jù)用戶的檢索需求,準(zhǔn)確得到用戶目標(biāo)信息,高效、可視化地反饋給用戶與檢索信息相匹配的文獻資源PDF整合文檔,這也是整個基于語義的文獻資源發(fā)現(xiàn)服務(wù)體系中最能直接體現(xiàn)其高速、高效、高水準(zhǔn)知識服務(wù)的模塊。

(2)檢索層。該層主要發(fā)現(xiàn)、解析并整合用戶的檢索需求,具體流程如下。① 用戶在用戶界面上的檢索欄通過關(guān)鍵詞檢索、模糊檢索、相關(guān)機構(gòu)檢索等檢索方式進行查詢檢索?;谡Z義的文獻資源發(fā)現(xiàn)服務(wù)體系在用戶層可實現(xiàn)動態(tài)自適應(yīng)界面功能,并將用戶需求傳遞至檢索工具。② 推理機可實現(xiàn)將事實查詢和本體概念合并為一個查詢,經(jīng)推理機借助領(lǐng)域本體規(guī)則,獲取用戶需求概念后依次進行特征描述、特征提取、概念擴展等處理,進而推理整合分析后,將用戶需求、用戶偏好、用戶特點等信息匯總至用戶需求庫。③ 系統(tǒng)自動將用戶需求庫匯總所得到的信息傳遞到語義分析層的特定數(shù)據(jù)庫進行匹配,進一步分析處理后調(diào)用語義標(biāo)準(zhǔn)化后的文獻文檔數(shù)據(jù)資源。

(3)語義分析層。該層基于語義Web技術(shù)首先從索引庫、主題詞庫、文獻文檔三個維度對需匹配用戶需求的相關(guān)文檔展開解析處理,并對書目進行層次劃分處理,分離屬性特征,概括并提取實體和屬性的語義關(guān)系,構(gòu)建相應(yīng)的數(shù)據(jù)庫,包含關(guān)鍵詞表、作者表、期刊表、引文表等。數(shù)據(jù)庫進而篩選調(diào)用預(yù)處理層語義標(biāo)準(zhǔn)化后的數(shù)字資源,將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)換成RDF格式,以RDF有向圖的形式描述和表達各種關(guān)系;借助固定的、普遍的詞匯集實現(xiàn)概念規(guī)范,形成立體的組織模式;最終采用XSLT和XPATH(W3C協(xié)會提供)語言實現(xiàn)XML的目錄層集成,實現(xiàn)相關(guān)信息檢索目錄的可視化。

(4)預(yù)處理層。該層次的任務(wù)是回應(yīng)語義分析層的需求,將數(shù)據(jù)庫所需篩選調(diào)用的文獻文檔預(yù)先進行標(biāo)準(zhǔn)化處理。① 收集并整合館藏數(shù)字資源,通過Spider實現(xiàn)任務(wù)分發(fā),借助CNKI、萬方、維普和其他收集整理模塊形成源數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。② 由于源數(shù)據(jù)存在格式不一致的問題,必須進行數(shù)據(jù)標(biāo)準(zhǔn)化處理,消除數(shù)字資源之間的異構(gòu)特性。為簡化語義分析層的標(biāo)準(zhǔn)化步驟,省去不必要的麻煩,故在該層事先進行數(shù)據(jù)預(yù)處理。將出處各異、結(jié)構(gòu)不同、格式不一、類型多樣的海量數(shù)字資源進行統(tǒng)一描述,確定各獨立資源節(jié)點、知識要素之間的語義關(guān)聯(lián),保障其具有一致的標(biāo)準(zhǔn),為計算機識別與知識細粒度化提供便利。

其中,語義標(biāo)準(zhǔn)化的具體過程如下。① URI、U-nicode在整個語義Web結(jié)構(gòu)中處于最底層URI對Web上所有資源進行統(tǒng)一描述,保證唯一標(biāo)識其中任意一個資源,借助鏈接實現(xiàn)資源的引用;Unicode為確保機器能有效地識別資源編碼而使用國際上的通用字符集。② XML為文檔提供結(jié)構(gòu)化的語法,借助URI實現(xiàn)引用標(biāo)識,達到資源存儲方式的統(tǒng)一。③ RDF(S)是一種借助數(shù)據(jù)模型提供簡單的語義資源描述框架,實現(xiàn)資源描述方式的一致化。④ 本體層通過提供確切的形式化語言,幫助準(zhǔn)確定義術(shù)語及術(shù)語間的關(guān)系。⑤ 邏輯、證明和信任。邏輯層主要負責(zé)推理規(guī)則,證明層注重認(rèn)證機制,信任層著重信任機制。⑥數(shù)字簽名的本質(zhì)是一段數(shù)據(jù)加密塊,是實現(xiàn)Web信任的關(guān)鍵技術(shù)和基礎(chǔ)。

(5)知識集成層。該層是實現(xiàn)基于語義的文獻資源發(fā)現(xiàn)服務(wù)體系與其他知識服務(wù)不同的關(guān)鍵所在。分別通過提取器、篩選器和包裝器三部分對檢索目錄中的資源進行全文內(nèi)容提取、語義組別劃分和知識單元關(guān)聯(lián)匯總,最終提供給用戶匹配其檢索內(nèi)容的文獻資源PDF集成文檔。① 提取器借助由W3C協(xié)會提供的RDF和SOAP對檢索目錄中的資源實現(xiàn)全文內(nèi)容提取。進而采用OntoBroker推理引擎對資源全文內(nèi)容進行深度推理解析,動態(tài)識別資源主題,包括關(guān)鍵詞和主題詞,集成資源的核心研究問題、主要研究方法以及主要技術(shù)與工具。作為一個面向?qū)ο蟮倪壿嬐评硐到y(tǒng),OntoBroker可以實現(xiàn)以數(shù)據(jù)庫現(xiàn)有知識為基礎(chǔ)提取新知識的功能。② 系統(tǒng)通過篩選器對提取器所得數(shù)據(jù)單元進行篩選整合,將推理擴展得到的內(nèi)容在層次深度、區(qū)域密度、概念屬性三方面進行語義相似度計算,進而實現(xiàn)資源相關(guān)度計算,并按專題、年份、作者或其他因素進行語義組劃分,接著將相似文檔聚類成組。③ 通過包裝器,對同組別知識單元實現(xiàn)關(guān)聯(lián),采用K關(guān)聯(lián)/S關(guān)聯(lián)等技術(shù)過程中通過補充關(guān)鍵詞、對摘要和題名進行切分詞處理等方式,實現(xiàn)對信息資源已有知識的發(fā)現(xiàn)與重組,進而形成全新的知識元,完成深度聚類和數(shù)據(jù)關(guān)聯(lián)。

區(qū)別于傳統(tǒng)的聚合方式,基于語義關(guān)聯(lián)的知識聚合主要從數(shù)字資源的概念關(guān)系、引證關(guān)系、等級關(guān)系、映射關(guān)系等層面進行語義分析,然后提取語義元數(shù)據(jù)與異構(gòu)信息接口,解決異構(gòu)數(shù)字資源之間的語義沖突,進而實現(xiàn)基于語義關(guān)聯(lián)的知識聚合。同時,突破篇名、作者、機構(gòu)、內(nèi)容知識單元、來源出版物和參考文獻等傳統(tǒng)題錄項之間的顯性關(guān)系構(gòu)建,借助語義消歧、關(guān)系約簡及重構(gòu)等方式綜合了題目、目錄、關(guān)鍵詞、數(shù)據(jù)、主題詞、內(nèi)容等多種類型外部特征與語義元素之間的關(guān)聯(lián)方式,實現(xiàn)動態(tài)、多維的知識關(guān)聯(lián)。

最后,借助文件打包器對聚合的文檔進行匯總打包,實現(xiàn)智能、可視化知識獲取,將目標(biāo)資源的全文信息以PDF文檔格式條理化、可視化地呈獻給用戶。取代先前簡單的檢索目錄,用戶即可獲得與其查詢內(nèi)容相匹配的文獻數(shù)字資源的全文信息PDF匯編文檔,以期給用戶帶來更加智能化、便利化、柔性化的文獻資源發(fā)現(xiàn)服務(wù)。

4 總結(jié)與展望

針對當(dāng)前數(shù)字文獻資源數(shù)據(jù)整體上不能實現(xiàn)互相關(guān)聯(lián),只能實現(xiàn)局部范圍內(nèi)組織的現(xiàn)狀,導(dǎo)致形成了大量分散、相互獨立的信息孤島。本研究專注探索如何借助語義Web技術(shù)對數(shù)字文獻資源進行統(tǒng)一描述、統(tǒng)一匯編等問題,為完成打造一個能夠?qū)崿F(xiàn)語義功能的數(shù)字資源服務(wù)平臺的任務(wù),搭建了一個基于語義的文獻資源發(fā)現(xiàn)服務(wù)體系。該體系核心是基于語義元數(shù)據(jù)的構(gòu)建與關(guān)聯(lián)實現(xiàn)與檢索目標(biāo)信息相匹配的數(shù)字文獻資源的全文內(nèi)容PDF文檔匯編,替代當(dāng)前簡單的檢索目錄。不可否認(rèn),語義Web的產(chǎn)生是搭建文獻資源發(fā)現(xiàn)服務(wù)體系的一個良好契機,提供了預(yù)處理層的語義級支持。在此基礎(chǔ)上,本系統(tǒng)匹配更加自動化、智能化的技術(shù),如,高精度的知識篩選聚合技術(shù)、深層次的推理技術(shù)、高水平的可視化技術(shù)等,解決了傳統(tǒng)數(shù)字文獻資源服務(wù)推薦過程中存在的無法充分挖掘資源語義信息等問題,為用戶提供更加便利化、柔性化的知識服務(wù)。基于語義的文獻資源發(fā)現(xiàn)服務(wù)提升了數(shù)字文獻資源的篩選利用與整合匯編的效率,為知識匯總與獲取提供了有效的途徑,保障用戶能夠高效率地知識選擇、知識摘錄、知識利用、知識轉(zhuǎn)化、知識表達和知識創(chuàng)新。

猜你喜歡
主題詞服務(wù)體系文檔
智慧出行,智繪未來——新一代出行服務(wù)體系構(gòu)建與實踐探討
有人一聲不吭向你扔了個文檔
“三效合一”構(gòu)建現(xiàn)代農(nóng)業(yè)服務(wù)體系
建好公共法律服務(wù)體系“最后一公里”
基于RI碼計算的Word復(fù)制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
我校學(xué)報第32卷第5期(2014年10月)平均每篇有3.04個21世紀(jì)的Ei主題詞
我校學(xué)報第32卷第6期(2014年12月)平均每篇有3.00個21世紀(jì)的Ei主題詞
初具規(guī)模的健康管理服務(wù)體系
2014年第16卷第1~4期主題詞索引
宝坻区| 青田县| 沂源县| 分宜县| 抚远县| 若尔盖县| 光山县| 陈巴尔虎旗| 明水县| 潢川县| 灌阳县| 图片| 津南区| 汾西县| 乐陵市| 杭州市| 武夷山市| 五指山市| 汉中市| 峨眉山市| 青铜峡市| 贞丰县| 怀宁县| 康马县| 安溪县| 紫阳县| 海林市| 宜州市| 屯留县| 肇东市| 武鸣县| 德令哈市| 枣庄市| 仲巴县| 南通市| 原阳县| 广水市| 卫辉市| 巨野县| 海林市| 大埔区|