●陳立華(德州學(xué)院圖書(shū)館,山東德州253023)
面向企業(yè)需求的數(shù)字信息資源整合及信息集成服務(wù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
●陳立華(德州學(xué)院圖書(shū)館,山東德州253023)
信息整合;服務(wù)集成;服務(wù)平臺(tái);企業(yè)需求
解決數(shù)字信息資源整合和服務(wù)集成的機(jī)制、管理和技術(shù)問(wèn)題,探索網(wǎng)絡(luò)環(huán)境下企業(yè)信息需求導(dǎo)向的信息集成服務(wù)平臺(tái)的系統(tǒng)構(gòu)建、功能選擇、用戶(hù)需求等.
基于信息資源整合與信息門(mén)戶(hù)集成設(shè)計(jì)的企業(yè)信息服務(wù)平臺(tái)建設(shè),目的是運(yùn)用集成管理理念,把分屬各行業(yè)體系的信息資源進(jìn)行整合,原先獨(dú)立運(yùn)行的管理體系通過(guò)集成融合為有機(jī)的運(yùn)作整體,在技術(shù)層面上提供統(tǒng)一的用戶(hù)檢索界面和信息服務(wù)平臺(tái).
1.1整合信息資源
信息資源的整合是對(duì)多樣、分散的信息資源進(jìn)行匯集并提供結(jié)構(gòu)組織和邏輯引導(dǎo).通過(guò)本體語(yǔ)義關(guān)系將元信息進(jìn)行描述,方便企業(yè)用戶(hù)檢索利用.面向企業(yè)需求導(dǎo)向的信息資源整合首先從數(shù)據(jù)庫(kù)及數(shù)據(jù)結(jié)構(gòu)進(jìn)行整合,通常包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、知識(shí)評(píng)估及表達(dá).[1]其集成過(guò)程是將資源信息元數(shù)據(jù)輸入平臺(tái)數(shù)據(jù)庫(kù),經(jīng)過(guò)合并查重后在同一平臺(tái)上提供檢索服務(wù),從根本上解決了各類(lèi)信息資源孤立、異構(gòu)等問(wèn)題,實(shí)現(xiàn)信息資源應(yīng)用服務(wù)的統(tǒng)一,使信息集成服務(wù)上升到一個(gè)新高度.
1.2實(shí)施技術(shù)協(xié)同
面向企業(yè)需求導(dǎo)向的技術(shù)協(xié)同是基于資源整合和服務(wù)集成的信息服務(wù)平臺(tái)建設(shè)的關(guān)鍵.技術(shù)協(xié)同的目的在于通過(guò)統(tǒng)一的操作界面,為企業(yè)用戶(hù)定制個(gè)性化的服務(wù)功能,實(shí)現(xiàn)多個(gè)信息資源共享.技術(shù)協(xié)同并沒(méi)有改變各信息資源元數(shù)據(jù)的源碼結(jié)構(gòu),是通過(guò)數(shù)據(jù)接口實(shí)現(xiàn)元數(shù)據(jù)的互操作,[2]例如,中國(guó)科學(xué)圖書(shū)館管理的"中國(guó)科學(xué)文獻(xiàn)管理系統(tǒng)",把各科學(xué)圖書(shū)館館藏資源以不同深度的文獻(xiàn)身份整合在一起,用戶(hù)可以通過(guò)運(yùn)行元數(shù)據(jù)的互操作實(shí)現(xiàn)OPAC檢索,在身份的確認(rèn)下直接查看文獻(xiàn)全文.技術(shù)協(xié)同的意旨在于促進(jìn)異構(gòu)資源的深層次交融關(guān)聯(lián),并提供符合用戶(hù)個(gè)性定制服務(wù)功能實(shí)現(xiàn)對(duì)多個(gè)信息資源系統(tǒng)的透明訪問(wèn)與檢索,從而在技術(shù)上解決了內(nèi)容重復(fù)、互不關(guān)聯(lián)、彼此孤立的信息資源的統(tǒng)一問(wèn)題.
1.3形成服務(wù)集成
服務(wù)集成的目的在于提高整合信息資源的利用率,并且在衡量信息服務(wù)平臺(tái)效果中主要標(biāo)準(zhǔn)在于基于信息資源整合的集成服務(wù)功能產(chǎn)生的效益.服務(wù)集成必須遵循信息服務(wù)的業(yè)務(wù)規(guī)范,以企業(yè)對(duì)信息的實(shí)際需求為導(dǎo)向,實(shí)施調(diào)整信息資源整合內(nèi)容和服務(wù)方式,實(shí)現(xiàn)信息資源、人力資源、服務(wù)技術(shù)資源的共享,達(dá)到信息資源與行業(yè)信息服務(wù)有機(jī)結(jié)合的目的.
面向企業(yè)需求導(dǎo)向的集成服務(wù)平臺(tái)以數(shù)字技術(shù)和網(wǎng)絡(luò)技術(shù)為支撐,基本組成元素有計(jì)算機(jī)軟硬件、信息資源、信息資源整合與服務(wù)集成應(yīng)用軟件、面向企業(yè)服務(wù)的信息用戶(hù).圖1為包含各組成元素的集成服務(wù)平臺(tái)結(jié)構(gòu)圖.
圖1 面向企業(yè)需求導(dǎo)向的集成服務(wù)平臺(tái)結(jié)構(gòu)圖
本結(jié)構(gòu)圖分三個(gè)層面.
第一個(gè)層面是環(huán)境層.環(huán)境層是保持信息服務(wù)平臺(tái)常規(guī)運(yùn)行的基礎(chǔ),包括網(wǎng)絡(luò)化設(shè)備、服務(wù)技術(shù)和組織管理.第二個(gè)層面是信息資源層.信息資源層內(nèi)的資源建設(shè)應(yīng)體現(xiàn)多樣化、異構(gòu)性的信息資源彼此依存和彼此補(bǔ)充.實(shí)施建設(shè)時(shí)要明確資源共享的程度、具有擴(kuò)展采集信息資源范圍的潛力、信息深加工和深處理的能力,使信息組織具有足夠的深度和廣度,以滿(mǎn)足企業(yè)用戶(hù)的各種需求.第三個(gè)層面是信息管理層.信息管理的目的在于集合分布的資源,進(jìn)行整合并深度挖掘,構(gòu)建基于企業(yè)內(nèi)容的平臺(tái)數(shù)字信息來(lái)源庫(kù),為企業(yè)用戶(hù)群發(fā)布信息和提供集成服務(wù)功能.在集成服務(wù)平臺(tái)界面上,具有信息資源檢索、元數(shù)據(jù)信息來(lái)源、學(xué)習(xí)研究、策略研析等集成式功能模塊,實(shí)現(xiàn)基于平臺(tái)管理的集成服務(wù)模式的操作.實(shí)施集成服務(wù)平臺(tái)界面流程,可以根據(jù)檢索策略從網(wǎng)絡(luò)上查詢(xún)、檢索信息,對(duì)實(shí)際采集的信息進(jìn)行去重和分詞操作,對(duì)檢索詞進(jìn)行權(quán)重賦予,從而形成詞語(yǔ)類(lèi)化,以實(shí)現(xiàn)基于某一聚類(lèi)的分布式信息發(fā)布.
根據(jù)企業(yè)信息集成服務(wù)平臺(tái)的層面結(jié)構(gòu),設(shè)計(jì)平臺(tái)功能框架(見(jiàn)圖2).
圖2 企業(yè)信息集成服務(wù)平臺(tái)功能框架
(1)分布、異構(gòu)的信息資源以本體形式進(jìn)行語(yǔ)言描述并封合為統(tǒng)一的界面,將描述和封合的規(guī)范內(nèi)容登記于公共元數(shù)據(jù)系統(tǒng),以發(fā)布形式轉(zhuǎn)換至集成服務(wù)系統(tǒng),支持基于本體語(yǔ)言描述的各類(lèi)信息服務(wù)系統(tǒng)互操作,實(shí)現(xiàn)個(gè)人定制、檢索、評(píng)議等功能.
(2)元數(shù)據(jù)本體描述系統(tǒng)通過(guò)規(guī)范方式實(shí)施各類(lèi)元數(shù)據(jù)的登記,支持?jǐn)?shù)據(jù)的個(gè)性化檢索和長(zhǎng)久性管理,支持資源檢索請(qǐng)求方對(duì)元數(shù)據(jù)的鏈接、分析與檢索.元數(shù)據(jù)本體描述是分布的,可以分別對(duì)某類(lèi)元數(shù)據(jù)進(jìn)行描述、登記,系統(tǒng)本身也作為服務(wù)對(duì)象在集成服務(wù)登記系統(tǒng)中登記.
(3)集成服務(wù)登記系統(tǒng)支持各個(gè)信息服務(wù)系統(tǒng)的語(yǔ)言描述和邏輯結(jié)構(gòu),支持對(duì)描述信息的登記、組織管理和檢索輸出,支持資源檢索請(qǐng)求方對(duì)元數(shù)據(jù)的挖掘與分析.服務(wù)登記系統(tǒng)可以是分布的,可對(duì)某類(lèi)或某部分功能模塊進(jìn)行登記,本身也作為信息元素被登記或被開(kāi)放檢索.
(4)集成信息門(mén)戶(hù)根據(jù)企業(yè)用戶(hù)群的需求向?qū)?duì)異構(gòu)的各信息服務(wù)系統(tǒng)的資源和各類(lèi)服務(wù)進(jìn)行整合,并依據(jù)服務(wù)流程進(jìn)行數(shù)據(jù)鏈接,將檢索結(jié)果顯示在用戶(hù)桌面上.集成信息門(mén)戶(hù)可以運(yùn)用集成服務(wù)登記系統(tǒng)中的模塊管理功能搜尋信息資源數(shù)據(jù),通過(guò)服務(wù)定制功能調(diào)制和集成,其本身也作為服務(wù)系統(tǒng)被登記,可被資源檢索請(qǐng)求方所檢索和分析.
(5)組織協(xié)調(diào)機(jī)制遵循邏輯規(guī)范原則,支持對(duì)各個(gè)登記系統(tǒng)的分析、搜尋,協(xié)調(diào)元數(shù)據(jù)本體描述系統(tǒng)與集成服務(wù)登記系統(tǒng)之間資源與服務(wù)選取的鏈接、分析、嵌套與輸出.組織協(xié)調(diào)機(jī)制中的諸多功能,如服務(wù)流程設(shè)置、數(shù)據(jù)轉(zhuǎn)換、鏈接分析等也可以作為資源檢索提供方被登記和檢索.
元數(shù)據(jù)的本體描述是一種開(kāi)放描述.各信息服務(wù)系統(tǒng)中的元數(shù)據(jù)是在開(kāi)放狀態(tài)下規(guī)范方式的描述,包括資源集合(各類(lèi)圖書(shū)館、互聯(lián)網(wǎng)站)、知識(shí)(分類(lèi)法、敘詞表)、管理(用戶(hù)控制、產(chǎn)權(quán)管理、協(xié)議)、服務(wù)(數(shù)據(jù)交換、檢索輸出)等.信息服務(wù)系統(tǒng)的語(yǔ)言描述主要是元數(shù)據(jù)功能的本體語(yǔ)言描述,其系統(tǒng)功能結(jié)構(gòu)包括概念生成器、本體生成器、RSS解析器等主要組件,如圖3所示.
圖3 元數(shù)據(jù)本體語(yǔ)言描述系統(tǒng)功能圖
系統(tǒng)通過(guò)對(duì)信息資源的語(yǔ)義分析形成領(lǐng)域概念和組織形成,通過(guò)概念生成器和本體生成器生成具有概念語(yǔ)義關(guān)系的領(lǐng)域本體.集成信息門(mén)戶(hù)通過(guò)領(lǐng)域本體的語(yǔ)義映射功能對(duì)各組件進(jìn)行分類(lèi)設(shè)置并獲取相關(guān)意義的檢索詞,進(jìn)而通過(guò)RSS解析概念生成RSS種子. RSS種子本身具有解析功能,可解析信息資源元數(shù)據(jù)獲取組件內(nèi)容.用戶(hù)通過(guò)個(gè)性化檢索要求,定制對(duì)應(yīng)的集成信息門(mén)戶(hù)組件,實(shí)現(xiàn)個(gè)性化定制服務(wù)檢索.
4.1領(lǐng)域概念的產(chǎn)生
擇取DOAJ中主題為Digital Resources的相關(guān)論文20篇作為分析對(duì)象,運(yùn)用Stanford Parser對(duì)論文進(jìn)行分析統(tǒng)計(jì),根據(jù)分析情況產(chǎn)生關(guān)于Digital Resources的相關(guān)概念.
4.2概念格形式下領(lǐng)域本體的產(chǎn)生
利用Stanford Parser對(duì)相關(guān)論文中有關(guān)Digital Resources的主體概念和屬性概念進(jìn)行提取和處理,獲取到了OA Journal Database、Publisher Journal Database、Indel&Abstract Datdbase、Publisher Journal Repository等概念屬性,得到了beFree、beOpenAccess、Authorize、by Web、Periodicity、Fulltext、E-only等組織形式.在概念格的形式下構(gòu)建領(lǐng)域本體,本體生成器完成這項(xiàng)工作.本體生成器通過(guò)基于OWL的語(yǔ)義表述,實(shí)施概念映射本體,生成領(lǐng)域本體.
(1)類(lèi)群映射.把概念格中一個(gè)屬性映射為本體中一個(gè)對(duì)象,通過(guò)概念的屬性?xún)?nèi)涵和外延范疇進(jìn)行概念背景解析,建立相應(yīng)的本體類(lèi).[3]在映射過(guò)程中,需要通過(guò)人工方式對(duì)生成的本體類(lèi)進(jìn)行修訂.映射標(biāo)準(zhǔn)為:層次最高的概念描述為"Database Resources",自動(dòng)映射為"Concept_1".
(2)層面映射.層面映射是通過(guò)語(yǔ)義分析,運(yùn)用謂詞來(lái)揭示概念之間的各種關(guān)系.所獲得的OAJournalDatabase、PublisherJournalDatabase、Indel&Abstract Datdbase、Publisher Journal Repository等所有概念屬性與上位概念Database Resources是上下位關(guān)系,關(guān)系描述謂詞是"rdfs:subClassOf".在OWL語(yǔ)言描述中, E-journal是Database Resources的具體化標(biāo)識(shí)符號(hào).
(3)關(guān)聯(lián)映射.概念在組織形式下的屬性到領(lǐng)域本體下屬性的映射,即把be Free、be Open Access、Authorize、by Web、Periodicity、Fulltext、E-only等組織形式映射為領(lǐng)域本體.
(4)領(lǐng)域本體的生成.通過(guò)以上三種類(lèi)型的映射,即可生成概念格式下的語(yǔ)義概念,也可生成謂詞描述概念關(guān)系的領(lǐng)域本體實(shí)例.
(5)領(lǐng)域本體映射信息表的建立.在形成一定數(shù)量的信息資源語(yǔ)義分析統(tǒng)計(jì)的境況下,建立概念生成的敘詞詞典.將獲取的概念與敘詞詞典依據(jù)詞頻建立映射詞典,成為映射信息表.其功能是本體搜索轉(zhuǎn)變?yōu)閼?yīng)用數(shù)據(jù)源的關(guān)系型數(shù)據(jù)庫(kù)檢索.
4.3RSS解析
企業(yè)用戶(hù)根據(jù)需求進(jìn)行個(gè)性請(qǐng)求,在集成門(mén)戶(hù)界面中輸入主題詞語(yǔ),平臺(tái)集成服務(wù)登記系統(tǒng)依據(jù)其模塊控制功能,運(yùn)用SPARQL(Simple Protocol And RDF Query Language)進(jìn)行概念語(yǔ)義查詢(xún),分析和輸出與用戶(hù)請(qǐng)求具有語(yǔ)義關(guān)聯(lián)的檢索條件.
語(yǔ)義關(guān)聯(lián)的檢索條件生成后,通過(guò)領(lǐng)域本體映射信息表把檢索條件轉(zhuǎn)化成若干關(guān)系型數(shù)據(jù)庫(kù)的SQL語(yǔ)句,[4]實(shí)現(xiàn)對(duì)各信息服務(wù)系統(tǒng)中信息資源的檢索.同時(shí),檢索結(jié)果可以通過(guò)RSS生成RSS種子,通過(guò)集成信息門(mén)戶(hù)實(shí)時(shí)將檢索結(jié)果推送給用戶(hù).
集成登記系統(tǒng)服務(wù)是一種分布服務(wù),把各個(gè)信息服務(wù)系統(tǒng)視為一個(gè)對(duì)象整體,集中對(duì)檢索界面、模塊功能、數(shù)據(jù)流向、注冊(cè)協(xié)議進(jìn)行描述.集成登記服務(wù)機(jī)制利用XML語(yǔ)言對(duì)整體信息系統(tǒng)進(jìn)行規(guī)范描述,實(shí)現(xiàn)元數(shù)據(jù)的登記與檢索,通過(guò)注冊(cè)協(xié)議支持信息資源的調(diào)用,[5]具有互操作的管理功能.這種分布服務(wù)的代表是Web Services Architecture、ebXML.下面以Web Services Architecture分布服務(wù)體系為例說(shuō)明集成登記服務(wù)機(jī)制與功能(見(jiàn)圖4).
圖4 Architecture分布服務(wù)體系機(jī)制與功能說(shuō)明圖
(1)網(wǎng)絡(luò)中分布、異構(gòu)的各個(gè)信息服務(wù)系統(tǒng)以規(guī)范的SOAP協(xié)議通過(guò)遠(yuǎn)程控制程序傳輸數(shù)據(jù)單元進(jìn)行互操作.在這種XML傳遞消息方式下,任何一個(gè)信息服務(wù)系統(tǒng)既為服務(wù)請(qǐng)求者也為服務(wù)提供者.
(2)運(yùn)用WSDL描述語(yǔ)言對(duì)各個(gè)信息服務(wù)系統(tǒng)的操作機(jī)制、數(shù)據(jù)流向、元數(shù)據(jù)類(lèi)型、注冊(cè)協(xié)議等集成方式和網(wǎng)絡(luò)方位進(jìn)行描述,形成一個(gè)XML管理文件,[6]用來(lái)建立和管理裝在集成信息門(mén)戶(hù)的服務(wù)系統(tǒng)的標(biāo)準(zhǔn)界面.
(3)這種基于XML的Web描述文件以直線管理的方式,指令信息服務(wù)提供方提供搜索引擎搜尋或在集成服務(wù)登記系統(tǒng)中登記,并通過(guò)電子郵件或FTP文件傳送信息資源給信息服務(wù)請(qǐng)求者.
(4)Web描述文件通過(guò)UDDI公共登記系統(tǒng)進(jìn)行登記,同時(shí)并行登記其他信息,支持以規(guī)范描述方式對(duì)描述服務(wù)文件和相關(guān)信息的檢索.
(5)在SOAP的支持下,信息服務(wù)請(qǐng)求方通過(guò)服務(wù)定制選擇合適的Web信息服務(wù)模塊,可以直接向信息服務(wù)提供方實(shí)施OAI搜索或檢索公共服務(wù)登記系統(tǒng).
(6)信息服務(wù)請(qǐng)求方、提供方通過(guò)集成服務(wù)登記系統(tǒng)進(jìn)行信息傳遞,是基于SOPA協(xié)議下的捆綁于HTTP上的服務(wù)方式.為此,集成后的信息服務(wù)門(mén)戶(hù)可以在萬(wàn)維網(wǎng)上順利實(shí)施功能操作,而且通過(guò)WSFL等開(kāi)放式描述語(yǔ)言實(shí)施服務(wù)流程中的角色、功能及數(shù)據(jù)格式和流向控制等語(yǔ)言描述,從而支持業(yè)務(wù)管理來(lái)調(diào)用和集成多個(gè)信息服務(wù)系統(tǒng).
分布服務(wù)體系本身可以?xún)?yōu)化和擴(kuò)展,由簡(jiǎn)單的信息服務(wù)登記和搜索擴(kuò)展到不同類(lèi)型、層次的元數(shù)據(jù)規(guī)范描述、檢索輸出,進(jìn)一步還可擴(kuò)展到應(yīng)用業(yè)務(wù)內(nèi)容的開(kāi)放描述和對(duì)各個(gè)信息服務(wù)系統(tǒng)資源的調(diào)用、配置.[7]在網(wǎng)絡(luò)信息服務(wù)業(yè),分布服務(wù)形式多樣:OAI系統(tǒng)具有元數(shù)據(jù)開(kāi)放搜索、檢索和提供增值服務(wù)等功能;SDLIP組織協(xié)議基于查詢(xún)界面語(yǔ)言描述,實(shí)施對(duì)異構(gòu)信息服務(wù)系統(tǒng)進(jìn)行封合;STARTS協(xié)議以SOIF格式的形式對(duì)元數(shù)據(jù)源、檢索輸出格式進(jìn)行描述,支持用戶(hù)終端對(duì)檢索系統(tǒng)類(lèi)型進(jìn)行選擇、對(duì)檢索結(jié)果進(jìn)行整合.可以說(shuō),分布服務(wù)體系建立在網(wǎng)絡(luò)規(guī)范描述上,有利于信息服務(wù)系統(tǒng)方便地接入和靈活地調(diào)用,有效地實(shí)施分布、異構(gòu)的信息服務(wù)系統(tǒng)的集成和集成信息門(mén)戶(hù)的功能展現(xiàn).
[1]張文德.信息資源整合系統(tǒng)與技術(shù)研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2003(6):72-73.
[2]Van de Sompel H,Beit-Arie O.Generalizing the OpenURL Framework beyond Reference to Scholarly Works:TheBison-futeModel[J].D-LibMagazine, 2001(7):31-37.
[3]滕廣青,畢強(qiáng).基于概念格的異構(gòu)資源領(lǐng)域本體構(gòu)建研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2011(5): 7-12.
[4]張宗仁,楊天奇.基于自然語(yǔ)言理解的SPARQL本體查詢(xún)[J].計(jì)算機(jī)應(yīng)用,2010(12):3397-3400.
[5]De Maio C,et al.Ontology-based Knowledge Structuring:An Application on RSS Feeds[C]//Proceeding of the 2nd Conference on Human System Interactions, Catania.Piscataway,NJ,USA:IEEE Press,2009: 464-470.
[6]Hong H S,Colomb R M.Ontology Mapping Between Heterogeneous Systemsfor Semantic Web[J].Journal of Korea Information Science Society,2004,1(1): 25-32.
[7]Emathieu.Posh[EB/OL].[2011-12-05].http:// sour-ceforge.net/mediawiki/posh/index.php?title=Poshdocumentation.
G250.73;254.97
B
1005-8214(2015)10-0107-04
陳立華(1970-),男,管理學(xué)碩士,德州學(xué)院圖書(shū)館副館長(zhǎng),副研究館員,研究方向:信息集成與資源管理.
2014-12-21[責(zé)任編輯]徐娜