趙夕姝
(南京圖書(shū)館 江蘇南京 210018)
隨著云計(jì)算和人工智能技術(shù)應(yīng)用領(lǐng)域的不斷推廣,人們的生產(chǎn)生活方式得到了極大的改變,與此同時(shí),圍繞服務(wù)人們生產(chǎn)生活的各類(lèi)數(shù)據(jù)資源量呈幾何級(jí)數(shù)增長(zhǎng),大量數(shù)據(jù)資源得到積累[1]。就圖書(shū)館館藏資源而言,也面臨著大量的數(shù)字資源堆積問(wèn)題,這些數(shù)字資源由于存在數(shù)據(jù)類(lèi)型、數(shù)據(jù)結(jié)構(gòu)、物理存儲(chǔ)位置等差異和不同,導(dǎo)致數(shù)字資源間關(guān)聯(lián)性較弱,不利于圖書(shū)館館藏資源管理和資源檢索[2]。本文將知識(shí)圖譜引入圖書(shū)館館藏?cái)?shù)字資源管理與檢索系統(tǒng),建立了不同類(lèi)型、結(jié)構(gòu)數(shù)字資源的關(guān)聯(lián)關(guān)系,理順了數(shù)字資源間的邏輯層次,在方便圖書(shū)館館藏?cái)?shù)字資源存儲(chǔ)的同時(shí),提升了圖書(shū)館館藏?cái)?shù)字資源系統(tǒng)檢索能力。
當(dāng)前,圖書(shū)館館藏?cái)?shù)字資源涵蓋的領(lǐng)域較廣,不僅包括書(shū)籍類(lèi)資源,還包括名家講座、期刊雜志、新媒體等數(shù)字資源,資源類(lèi)型眾多,資源結(jié)構(gòu)不盡相同[3-4]。因此,對(duì)圖書(shū)館館藏?cái)?shù)字資源管理及資源檢索提出挑戰(zhàn)。通過(guò)利用知識(shí)圖譜,可以將不同數(shù)字資源知識(shí)單元串聯(lián)起來(lái),形成清晰的知識(shí)脈絡(luò),有效解決了不同數(shù)字資源的無(wú)序化存儲(chǔ),提高了圖書(shū)館用戶(hù)資源檢索的精準(zhǔn)性,同時(shí)還滿(mǎn)足了不同用戶(hù)的個(gè)性化、多樣化需求。
隨著信息化技術(shù)的不斷發(fā)展,大量應(yīng)用系統(tǒng)被引入到圖書(shū)館領(lǐng)域,在方便圖書(shū)館日常管理服務(wù)的同時(shí),積累了大量數(shù)據(jù)資源[5]。這些資源的存儲(chǔ)方式相對(duì)單一,大量占用了圖書(shū)館物理存儲(chǔ)空間,同時(shí)對(duì)圖書(shū)館館藏?cái)?shù)字資源檢索效率提升提出挑戰(zhàn)。知識(shí)圖譜打破了數(shù)字資源傳統(tǒng)關(guān)聯(lián)特征,通過(guò)深度挖掘不同數(shù)字資源描述特征信息,建立了數(shù)字資源知識(shí)單元邏輯關(guān)聯(lián),形成了不同數(shù)字資源清晰的知識(shí)脈絡(luò)。這種知識(shí)脈絡(luò)使數(shù)字資源間聯(lián)系更為緊密,便于圖書(shū)館按照相應(yīng)關(guān)聯(lián)管理對(duì)數(shù)字資源進(jìn)行存儲(chǔ),并且提高了館藏?cái)?shù)字資源的科學(xué)管理能力和水平。
隨著用戶(hù)多樣化、個(gè)性化需求的日益增多,圖書(shū)館在適應(yīng)這一轉(zhuǎn)變的過(guò)程中,積累了大量用戶(hù)個(gè)性化需求數(shù)據(jù)信息。這些數(shù)據(jù)信息反映了不同用戶(hù)的需求習(xí)慣特征,只有深入研究這些特征信息,才能從根本上掌握用戶(hù)個(gè)性化需求習(xí)慣[6-8]。知識(shí)圖譜可以從用戶(hù)海量需求特征信息中發(fā)掘出用戶(hù)的愛(ài)好、興趣、主要關(guān)注領(lǐng)域等信息,同時(shí)建立這些特征信息的關(guān)聯(lián)關(guān)系,形成圖書(shū)館用戶(hù)信息圖譜[9]。用戶(hù)知識(shí)圖譜的建立是圖書(shū)館提供個(gè)性化服務(wù)的關(guān)鍵,圖書(shū)館通過(guò)用戶(hù)信息圖譜可以精準(zhǔn)掌握用戶(hù)真實(shí)需求,并將相應(yīng)的館藏?cái)?shù)字資源推薦給用戶(hù),在滿(mǎn)足用戶(hù)需求的同時(shí),切實(shí)提升了圖書(shū)館個(gè)性化知識(shí)服務(wù)水平。
當(dāng)前,人們生產(chǎn)生活節(jié)奏逐漸加快,如何提高用戶(hù)獲取資源效率成為圖書(shū)館需要研究的重要問(wèn)題之一。通常,用戶(hù)使用圖書(shū)館系統(tǒng)獲取檢索資源信息為樹(shù)形或者目錄式,包括標(biāo)題、摘要等內(nèi)容,不能體現(xiàn)資源信息間的關(guān)聯(lián)關(guān)系及關(guān)聯(lián)匹配程度[10]。知識(shí)圖譜可以將圖書(shū)館館藏?cái)?shù)字資源按不同主題單元進(jìn)行知識(shí)單元串聯(lián),所串聯(lián)的知識(shí)單元間內(nèi)在邏輯關(guān)系明顯,圖形化的展現(xiàn)方式使資源脈絡(luò)更為清晰,資源瀏覽更為直觀。也就是說(shuō),當(dāng)用戶(hù)使用圖書(shū)館進(jìn)行資源檢索時(shí),系統(tǒng)會(huì)將檢索內(nèi)容以知識(shí)全景圖的方式向用戶(hù)進(jìn)行展示,切實(shí)提高了圖書(shū)館館藏?cái)?shù)字資源的檢索服務(wù)能力和效率。
圖書(shū)館館藏?cái)?shù)字資源內(nèi)容豐富、種類(lèi)較多,通常來(lái)講,館藏?cái)?shù)字資源包括用戶(hù)信息、圖書(shū)文獻(xiàn)資源、學(xué)科知識(shí)信息、資源機(jī)構(gòu)信息、業(yè)務(wù)知識(shí)信息、場(chǎng)景資源等,知識(shí)圖譜可以對(duì)上述數(shù)字資源信息進(jìn)行處理,繪制對(duì)應(yīng)的知識(shí)圖譜,如圖1所示。
圖1 圖書(shū)館館藏?cái)?shù)字資源知識(shí)圖譜構(gòu)成圖
圖書(shū)館是一個(gè)面向大眾的公共服務(wù)場(chǎng)所,用戶(hù)對(duì)象數(shù)量龐大,身份層次、工作崗位各不相同,這些用戶(hù)可能在某些興趣、愛(ài)好、習(xí)慣上相同;每位圖書(shū)館用戶(hù)都有著屬于自己的工作生活交際圈,這種人與人之間的關(guān)系可以將不同用戶(hù)進(jìn)行關(guān)聯(lián)?;诖?,以用戶(hù)社交關(guān)系和興趣愛(ài)好為主題可以建立用戶(hù)信息圖譜,直觀系統(tǒng)展示用戶(hù)間的關(guān)系特征,提高圖書(shū)館對(duì)用戶(hù)的深層次認(rèn)知。
圖書(shū)館館藏圖書(shū)文獻(xiàn)資源種類(lèi)繁多、類(lèi)型各異,傳統(tǒng)資源存儲(chǔ)方式是建立在領(lǐng)域關(guān)聯(lián)的基礎(chǔ)上。也就是說(shuō),將同領(lǐng)域的圖書(shū)文獻(xiàn)資源進(jìn)行關(guān)聯(lián)并集中存儲(chǔ)。然而,圖書(shū)文獻(xiàn)資源特征信息還有很多,比如關(guān)鍵詞、作者、出版社等。單一關(guān)聯(lián)主題并不能真實(shí)反映圖書(shū)文獻(xiàn)資源的關(guān)聯(lián)關(guān)系,只有更多地考慮資源特征信息,才能更加精確地展示資源信息。通過(guò)建立圖書(shū)文獻(xiàn)關(guān)鍵詞圖譜、作者圖譜、領(lǐng)域圖譜、出版社圖譜,進(jìn)而繪制邏輯清晰的圖書(shū)文獻(xiàn)資源圖譜,使圖書(shū)館館藏圖書(shū)文獻(xiàn)資源系統(tǒng)化、有序化。
通常來(lái)講,圖書(shū)館是一個(gè)綜合性的資源服務(wù)平臺(tái),這一平臺(tái)數(shù)據(jù)資源豐富,涵蓋了工科、理科、醫(yī)學(xué)、法學(xué)等多個(gè)學(xué)科領(lǐng)域的資源信息。學(xué)科不同,資源信息特征也不同。以學(xué)科特征為主題,建立圖書(shū)館學(xué)科知識(shí)信息圖譜,可以幫助圖書(shū)館深入系統(tǒng)地挖掘不同學(xué)科的知識(shí)特點(diǎn),在方便圖書(shū)館館藏資源存儲(chǔ)的同時(shí),為向用戶(hù)提供便捷的學(xué)科知識(shí)服務(wù)奠定基礎(chǔ),同時(shí)這將在很大程度上提升圖書(shū)館特色學(xué)科資源服務(wù)能力和水平。
資源機(jī)構(gòu)是圖書(shū)館館藏資源的重要來(lái)源,這些機(jī)構(gòu)有些是面向大眾的、具有公益性特征的機(jī)構(gòu),如城市檔案館等;有些是面向?qū)I(yè)領(lǐng)域的、經(jīng)營(yíng)性機(jī)構(gòu),如高校圖書(shū)館、科研單位、雜志社等。不同機(jī)構(gòu)資源應(yīng)用也不同,有些側(cè)重于科研研究,有些側(cè)重于理論教學(xué),還有些側(cè)重于智庫(kù)服務(wù)。資源機(jī)構(gòu)信息圖譜將不同資源機(jī)構(gòu)進(jìn)行關(guān)聯(lián),使其內(nèi)部資源信息間建立某種關(guān)聯(lián),這種關(guān)聯(lián)不僅包含了機(jī)構(gòu)特征信息,而且還包含了資源需求、使用特征,這將為圖書(shū)館開(kāi)展有針對(duì)性的服務(wù)奠定基礎(chǔ)。
業(yè)務(wù)知識(shí)能力是圖書(shū)館服務(wù)能力和服務(wù)水平的決定因素,只有較高的業(yè)務(wù)知識(shí)能力才能適應(yīng)當(dāng)前用戶(hù)多樣化、個(gè)性化的檢索服務(wù)。圖書(shū)館業(yè)務(wù)工作主要包括資源信息采編、收錄資源宣傳、信息咨詢(xún)、知識(shí)推薦等,每項(xiàng)業(yè)務(wù)工作都需要精深的業(yè)務(wù)知識(shí)來(lái)支撐。建立業(yè)務(wù)知識(shí)信息圖譜主要目的是將經(jīng)驗(yàn)化、碎片化的業(yè)務(wù)知識(shí)進(jìn)行整合,形成具有條理性、系統(tǒng)性特征的圖書(shū)館業(yè)務(wù)知識(shí)信息,方便業(yè)務(wù)知識(shí)信息的共享,進(jìn)而提升圖書(shū)館業(yè)務(wù)工作能力和工作效率。
場(chǎng)景資源是一種包含圖書(shū)館內(nèi)部物理結(jié)構(gòu)、位置信息的資源信息。隨著智能化技術(shù)應(yīng)用的不斷推廣,智慧圖書(shū)館成為圖書(shū)館未來(lái)發(fā)展的方向。在智慧圖書(shū)館建設(shè)過(guò)程中,場(chǎng)景資源能夠?yàn)橄到y(tǒng)提供用戶(hù)的位置信息、物理狀況等,方便系統(tǒng)及時(shí)捕捉用戶(hù)需求變化。場(chǎng)景資源圖譜是將場(chǎng)景概念引入知識(shí)圖譜,細(xì)化圖書(shū)館場(chǎng)景信息,辨識(shí)用戶(hù)在不同場(chǎng)景下的資源需求,進(jìn)而梳理出與用戶(hù)場(chǎng)景信息相匹配的資源需求信息。
知識(shí)圖譜是對(duì)圖書(shū)館館藏?cái)?shù)字資源的再加工,其在圖書(shū)館中的應(yīng)用可以分為知識(shí)提取、知識(shí)表示、知識(shí)聚合和知識(shí)推理這四個(gè)方面。
圖書(shū)館館藏?cái)?shù)字資源的知識(shí)提取主要包括資源數(shù)據(jù)信息提取、資源關(guān)系特征提取和資源屬性特征提取三個(gè)部分。資源數(shù)據(jù)信息提取主要是提取資源來(lái)源機(jī)構(gòu)信息、資源名稱(chēng)、資源關(guān)鍵詞信息、資源發(fā)布時(shí)間等;資源關(guān)系特征提取主要是提取資源信息間的內(nèi)在關(guān)系、邏輯聯(lián)系,如同一作者發(fā)表的不同文章間的關(guān)系特征,一篇文章中題目名稱(chēng)、作者、出版社、關(guān)鍵詞等之間的關(guān)系特征;資源屬性特征提取主要是提取資源本身所包含的資源大小、資源類(lèi)型等信息。這三個(gè)部門(mén)不是獨(dú)立存在的,而是一一對(duì)應(yīng)的關(guān)系?;谥R(shí)圖譜的圖書(shū)館館藏?cái)?shù)字資源是對(duì)不同來(lái)源資源、不同結(jié)構(gòu)資源進(jìn)行數(shù)據(jù)特征提取,形成具有特定邏輯關(guān)系的數(shù)據(jù)知識(shí),并存儲(chǔ)到圖書(shū)館知識(shí)圖譜數(shù)據(jù)庫(kù)中。
數(shù)據(jù)資源的表示方式有多種,通常來(lái)講主要包括三元組表示法、分布式表示法和復(fù)雜關(guān)聯(lián)表示法。針對(duì)圖書(shū)館館藏?cái)?shù)字資源無(wú)序化、離散化特征,本文采用分布式表示法對(duì)圖書(shū)館館藏?cái)?shù)字資源進(jìn)行知識(shí)表示。該方法不僅能夠?qū)Y源內(nèi)容進(jìn)行表示,而且可以準(zhǔn)確的將資源內(nèi)在關(guān)系特征進(jìn)行展示,例如可以表示資源作者與用戶(hù)、作者與資源、用戶(hù)與資源、資源與資源等關(guān)聯(lián)關(guān)系。資源內(nèi)在關(guān)系特征往往不是單一存在的,通常有多個(gè)關(guān)系特征,甚至不同關(guān)系特征存在交叉關(guān)聯(lián)。通過(guò)知識(shí)圖譜的知識(shí)表示功能,可以將圖書(shū)館館藏?cái)?shù)字資源信息內(nèi)容、內(nèi)在關(guān)系系統(tǒng)清晰地向用戶(hù)、管理者展示,方便對(duì)資源有深層次的理解。
知識(shí)聚合是對(duì)知識(shí)提取數(shù)據(jù)信息的再處理。知識(shí)提取后的數(shù)據(jù)信息往往具有多樣性、重復(fù)性特征,知識(shí)聚合可以通過(guò)執(zhí)行統(tǒng)一規(guī)范,剔除多樣性、重復(fù)性數(shù)據(jù)信息,并開(kāi)展資源數(shù)據(jù)對(duì)齊、提取數(shù)據(jù)關(guān)聯(lián)關(guān)系推演等操作,將處理后的提取數(shù)據(jù)進(jìn)行聚合,形成一個(gè)完整的數(shù)據(jù)體。在知識(shí)聚合過(guò)程中,預(yù)處理是關(guān)鍵步驟,它是利用函數(shù)關(guān)系將目標(biāo)數(shù)據(jù)做分塊預(yù)處理,剔除無(wú)用、重復(fù)信息。負(fù)載處理是將預(yù)處理后的數(shù)據(jù)與原數(shù)據(jù)信息進(jìn)行比對(duì),計(jì)算兩者間的相似程度,并建立相應(yīng)鏈接。關(guān)系推演是驗(yàn)證數(shù)據(jù)是否失真的重要環(huán)節(jié),推演結(jié)果對(duì)知識(shí)聚合起決定性作用。知識(shí)聚合可以將關(guān)系特征復(fù)雜的圖書(shū)館館藏?cái)?shù)字資源進(jìn)行深度聚合處理,從而反映圖書(shū)館館藏?cái)?shù)字資源內(nèi)在的關(guān)系特征規(guī)律,為資源更好利用提供重要參考依據(jù)。
知識(shí)圖譜的知識(shí)推理過(guò)程是潛在關(guān)聯(lián)信息發(fā)掘的過(guò)程,圖書(shū)館開(kāi)展知識(shí)推理可以發(fā)掘出館藏?cái)?shù)字資源潛在的關(guān)聯(lián)規(guī)律信息、潛在的知識(shí)點(diǎn),經(jīng)過(guò)該過(guò)程所得到的知識(shí)將被作為新的資源信息進(jìn)行存儲(chǔ)。知識(shí)圖譜的知識(shí)推理主要包括了邏輯推理和圖形推理兩種,邏輯推理相對(duì)簡(jiǎn)單,它是在現(xiàn)有資源數(shù)據(jù)基礎(chǔ)上,依據(jù)數(shù)據(jù)邏輯關(guān)系推導(dǎo)出新的數(shù)據(jù)關(guān)系信息;圖形推理是一個(gè)復(fù)雜過(guò)程,它將現(xiàn)有資源數(shù)據(jù)表示為不同的數(shù)據(jù)節(jié)點(diǎn),通過(guò)節(jié)點(diǎn)間路徑推理推導(dǎo)新的數(shù)據(jù)關(guān)系信息。知識(shí)推理是基于知識(shí)圖譜的圖書(shū)館館藏?cái)?shù)字資源管理與檢索系統(tǒng)的核心環(huán)節(jié),它可以很大程度上提升圖書(shū)館對(duì)用戶(hù)需求的精準(zhǔn)掌握,進(jìn)而提升圖書(shū)館檢索能力。
本文將知識(shí)圖譜應(yīng)用在圖書(shū)館館藏?cái)?shù)字資源中,不僅可以建立資源間深層次關(guān)聯(lián)和系統(tǒng)化聯(lián)系,有效提升了圖書(shū)館館藏?cái)?shù)字資源管理和檢索能力,而且通過(guò)知識(shí)推理可以形成新的知識(shí)點(diǎn)或知識(shí)單元,進(jìn)一步提升館藏?cái)?shù)字資源的內(nèi)在價(jià)值?;谥R(shí)圖譜的圖書(shū)館館藏?cái)?shù)字資源管理與檢索系統(tǒng)主要由圖書(shū)館館藏?cái)?shù)字資源存儲(chǔ)層、圖書(shū)館知識(shí)圖譜層和圖書(shū)館用戶(hù)交互平臺(tái)層三部分組成,如圖2所示。
圖2 基于知識(shí)圖譜的館藏?cái)?shù)字資源管理系統(tǒng)框架
圖書(shū)館館藏?cái)?shù)字資源存儲(chǔ)層是圖書(shū)館資源管理與檢索系統(tǒng)的基礎(chǔ),該層中存儲(chǔ)了大量的數(shù)字資源,這些資源有的來(lái)源于城市檔案館、城市書(shū)屋等公益性機(jī)構(gòu),有些來(lái)源于高校圖書(shū)館、科研單位、雜志社等經(jīng)營(yíng)性機(jī)構(gòu),包含了大量子數(shù)據(jù)庫(kù),每個(gè)機(jī)構(gòu)資源可能由幾個(gè)子數(shù)據(jù)庫(kù)存儲(chǔ)。
該層是圖書(shū)館資源管理和檢索系統(tǒng)的核心層,它可以將圖書(shū)館館藏?cái)?shù)字資源存儲(chǔ)層中數(shù)字資源進(jìn)行再加工,以系統(tǒng)化、可視化的形式展示資源間的內(nèi)在邏輯。同時(shí),該層的知識(shí)推理功能還可以在原有數(shù)字資源的基礎(chǔ)上,推理生成新的數(shù)字資源,以便豐富圖書(shū)館館藏?cái)?shù)字資源庫(kù)。
用戶(hù)交互層是圖書(shū)館獲取用戶(hù)需求信息的主要平臺(tái)。該平臺(tái)的主要作用是建立圖書(shū)館與用戶(hù)的數(shù)據(jù)信息互通。圖書(shū)館將在該平臺(tái)獲取的用戶(hù)需求信息傳輸至圖書(shū)館知識(shí)圖譜層進(jìn)行分析和數(shù)據(jù)信息圖譜檢索,利用多個(gè)主題知識(shí)圖譜來(lái)精確用戶(hù)需求內(nèi)容,并在圖書(shū)館館藏?cái)?shù)字資源層中檢索初始資源,最終通過(guò)交互平臺(tái)向用戶(hù)展現(xiàn)檢索結(jié)果。該平臺(tái)功能較多,不僅包括資源檢索,還包括資源收藏、索引、下載等功能,方便圖書(shū)館用戶(hù)日常使用。