国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖數(shù)據(jù)庫在圖書館的應(yīng)用研究

2020-12-01 14:53:42李金陽
圖書館 2020年11期
關(guān)鍵詞:標(biāo)簽建模數(shù)據(jù)庫

李金陽

(蘇州市吳中區(qū)圖書館 江蘇蘇州 215128)

1 圖數(shù)據(jù)庫的關(guān)鍵技術(shù)和原理

1.1 圖數(shù)據(jù)庫基本原理

在計算機科學(xué)中,圖形作為一種特定的數(shù)據(jù)結(jié)構(gòu),用于表達數(shù)據(jù)之間的復(fù)雜關(guān)系,如社交關(guān)系、組織架構(gòu)、交通信息、網(wǎng)絡(luò)拓撲等等。在圖計算中,基本的數(shù)據(jù)結(jié)構(gòu)表達式是:G=(V,E),V=vertex(節(jié)點),E=edge(邊)。圖形結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu)一般以節(jié)點和邊來表現(xiàn),也可以在節(jié)點上增加鍵值對屬性。圖數(shù)據(jù)庫是NoSQL(非關(guān)系型數(shù)據(jù)庫)的一種,它應(yīng)用圖形數(shù)據(jù)結(jié)構(gòu)的特點(節(jié)點、屬性和邊)存儲數(shù)據(jù)實體和相互之間的關(guān)系信息[1]。節(jié)點和邊是圖數(shù)據(jù)庫模型的基礎(chǔ),節(jié)點通過邊組織起來,按照相互的關(guān)系組成復(fù)雜的圖結(jié)構(gòu)模型。節(jié)點和邊分別有很多屬性,節(jié)點通常用來表示實體,邊具有方向性以及多個屬性的鍵/值對(keyvalue pair),其中方向性既可以單向,也可以雙向。圖數(shù)據(jù)庫具備圖形結(jié)構(gòu)數(shù)據(jù)的原生存儲和遍歷能力,由于圖形數(shù)據(jù)結(jié)構(gòu)關(guān)系變化的多樣性,圖數(shù)據(jù)庫適合對數(shù)據(jù)結(jié)構(gòu)較為復(fù)雜的關(guān)聯(lián)關(guān)系、動態(tài)關(guān)系變化較快的海量數(shù)據(jù)進行存儲和管理,可以對數(shù)據(jù)關(guān)聯(lián)關(guān)系進行快速匹配、遍歷和查找。圖數(shù)據(jù)庫的基本存儲結(jié)構(gòu)如下:

節(jié)點:代表數(shù)據(jù)實體,如讀者、書籍、圖書館等。

屬性:節(jié)點的附屬信息,如讀者的姓名、性別,書籍的書名、出版社、ISBN等信息。

邊:表示節(jié)點之間的關(guān)系,如讀者節(jié)點與書籍節(jié)點的借閱關(guān)系等。

圖1 圖形數(shù)據(jù)結(jié)構(gòu)節(jié)點關(guān)系

數(shù)十年以來,關(guān)系型數(shù)據(jù)庫(RDBMS)以“表格化結(jié)構(gòu)”的方式對實際中的聯(lián)系進行建模,對聚合數(shù)據(jù)進行優(yōu)化,在結(jié)構(gòu)化數(shù)據(jù)的處理方面產(chǎn)生了非常重要的作用。但是關(guān)系型數(shù)據(jù)庫較難適應(yīng)快速的數(shù)據(jù)變化,對于動態(tài)變化的數(shù)據(jù)結(jié)構(gòu)關(guān)系較難管理。在處理“聯(lián)系”的具體問題上,任何強聯(lián)系增強都會導(dǎo)致數(shù)據(jù)庫連接操作的增加,在這種情況下,關(guān)系型數(shù)據(jù)庫的連接查詢方式顯得非?!鞍嘿F”,并且在反向查詢方面代價更高。例如,在探究社交網(wǎng)絡(luò)查詢朋友鏈的關(guān)系時,SQL語句的層級結(jié)構(gòu)使用了遞歸連接,遞歸問題的連表查詢具有非常高的復(fù)雜度,查詢效率非常低。以我們的社交關(guān)系為例,它是人與人密集關(guān)聯(lián)的網(wǎng)狀模型,一個普適性的Schema或切割成無關(guān)聯(lián)性的聚合數(shù)據(jù)都難以展現(xiàn)它的復(fù)雜度。但假如我們采用“圖建?!钡姆绞?,則可以在現(xiàn)實世界與模型的數(shù)據(jù)庫之間建立更貼切的聯(lián)系。通過“圖建模”的方式,充滿聯(lián)系的世界不再抽象為幾個簡單的表格,而是由節(jié)點、聯(lián)系和屬性組成的關(guān)系圖。因此,圖數(shù)據(jù)庫更適用于相互之間高度關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu),它在處理多數(shù)據(jù)關(guān)系建模、數(shù)據(jù)關(guān)系動態(tài)擴展、實時遍歷數(shù)據(jù)關(guān)系等方面具有諸多優(yōu)點,具體為:①可以通過更貼近現(xiàn)實關(guān)系的方式進行圖數(shù)據(jù)的建模;②通過圖論的遍歷方式訪問圖結(jié)構(gòu)數(shù)據(jù);③在數(shù)據(jù)集增大時,它的性能趨向于保持不變[2];④通過特殊的查詢語言可以直接訪問數(shù)據(jù)[3];⑤基于圖結(jié)構(gòu)的天生可擴展能力,具備更佳的靈活性。

1.2 圖數(shù)據(jù)庫的遍歷搜索和性能對比

在計算機科學(xué)的領(lǐng)域,圖形是最為靈活的數(shù)據(jù)結(jié)構(gòu)之一。圖形數(shù)據(jù)結(jié)構(gòu)的遍歷算法從開始節(jié)點出發(fā),通過與之相連的節(jié)點進行查詢。圖的搜索算法包括廣度優(yōu)先和深度優(yōu)先兩種:

廣度優(yōu)先(breadth first)搜索:是最為簡單和便捷的圖搜索算法之一,這種查找方法在很多應(yīng)用中都非常有用,也是很多圖形算法的基礎(chǔ)和原型。圖的廣度優(yōu)先遍歷類似于樹的層序遍歷,它的思想是從一個頂點V0開始,輻射狀地優(yōu)先遍歷其周圍較廣的區(qū)域。它屬于一種盲目的搜索方法,徹底搜索整個圖數(shù)據(jù)結(jié)構(gòu),直到找到結(jié)果為止。

深度優(yōu)先(depth first)搜索:圖的深度優(yōu)先搜索和樹的先序遍歷較為類似,它的搜索思想是:從第一個節(jié)點V0出發(fā),依次從它的各個未被訪問的鄰接點出發(fā)深度優(yōu)先搜索遍歷圖,直至圖中所有和V0有路徑相通的頂點都被訪問到。若尚有其他頂點未被訪問到,則另選一個未被訪問的頂點作起始點,重復(fù)上述過程,直至圖中所有頂點都被訪問到為止。這是一種基于遞歸的搜索過程。

很多知名的圖數(shù)據(jù)庫采用原生圖存儲,是專門為存儲、搜索和管理圖而設(shè)計和優(yōu)化的。這些圖數(shù)據(jù)庫的圖計算引擎技術(shù)支持在大數(shù)據(jù)集上使用圖形理論的算法,并對批處理大規(guī)模數(shù)據(jù)進行優(yōu)化。當(dāng)我們把實體事物關(guān)系構(gòu)建成圖數(shù)據(jù)庫的實例模型,很多關(guān)聯(lián)型的用例和數(shù)據(jù)模型采用圖數(shù)據(jù)庫可以使性能提升一個甚至幾個數(shù)量級,而且圖數(shù)據(jù)庫還能提供非常靈活的數(shù)據(jù)構(gòu)建方式。同樣的模型如果采用關(guān)系型數(shù)據(jù)庫建模,將造成大量表連接、非空邏輯檢查,同時關(guān)聯(lián)關(guān)系的連通性增強都將增加數(shù)據(jù)庫表之間的連接操作,從而帶來巨大的性能開銷。

我們以一個社交關(guān)系關(guān)注深度查詢的例子來比較關(guān)系型數(shù)據(jù)庫和圖數(shù)據(jù)庫的查詢性能(關(guān)系型數(shù)據(jù)庫采用MySQL,圖數(shù)據(jù)庫采用Neo4j)。

采用MySQL對個人的關(guān)注關(guān)系進行建模,結(jié)構(gòu)如下:

圖2 關(guān)系型數(shù)據(jù)庫社交關(guān)系建模

采用Neo4j對個人的關(guān)注關(guān)系進行建模,關(guān)聯(lián)結(jié)構(gòu)如下:

圖3 圖數(shù)據(jù)庫社交關(guān)系建模

當(dāng)查詢“某人的關(guān)注的關(guān)注”這項深度為2度的內(nèi)容時,采用SQL查詢代碼將進行兩次的JOIN操作,如果查詢深度為4度以上的關(guān)注關(guān)系時,遞歸的連表查詢使得時間和空間復(fù)雜度都非常高,多重JOIN查詢效率極為低下,查詢時間呈指數(shù)級增加,開銷非常大;而如果采用圖數(shù)據(jù)庫進行關(guān)注關(guān)系的查詢,基于路徑遍歷的圖形數(shù)據(jù)結(jié)構(gòu)操作與數(shù)據(jù)本身的關(guān)聯(lián)結(jié)構(gòu)高度一致,隨著查詢深度的增加,查詢時間是線性增長,響應(yīng)時間表現(xiàn)非常平坦。在超過3度關(guān)聯(lián)關(guān)系查詢時,圖數(shù)據(jù)庫的性能就大幅領(lǐng)先于關(guān)系型數(shù)據(jù)庫了。在對100萬個用戶的數(shù)據(jù)集進行查詢時,兩者性能對比如下:

表1 關(guān)系型數(shù)據(jù)庫和圖數(shù)據(jù)庫深度查詢性能對比

從這個簡單的例子我們可以看出,在面對大量且復(fù)雜的數(shù)據(jù)連接查詢時,圖數(shù)據(jù)庫展現(xiàn)出非常優(yōu)秀的性能,基于圖形的算法能夠快速遍歷圖中的節(jié)點和關(guān)系。在大數(shù)據(jù)時代,圖數(shù)據(jù)庫非常適合特定情況下復(fù)雜海量數(shù)據(jù)的建模和遍歷,具有更好的靈活性和可擴展性。

2 Neo4j介紹

2.1 Neo4j基本情況

Neo4j是當(dāng)前較為主流和先進的原生圖數(shù)據(jù)庫之一,提供原生的圖數(shù)據(jù)存儲、檢索和處理。它由Neo Technology支持,從2003年開始開發(fā),1.0版本發(fā)布于2010年,2.0版本發(fā)布于2013年。經(jīng)過十多年的發(fā)展,Neo4j獲得越來越高的關(guān)注度,它已經(jīng)從一個Java領(lǐng)域內(nèi)的圖數(shù)據(jù)庫逐漸發(fā)展成為適應(yīng)多語言多框架的圖數(shù)據(jù)庫。Neo4j支持ACID、集群、備份和故障轉(zhuǎn)移,具有較高的可用性和穩(wěn)定性;它具備非常好的直觀性,通過圖形化的界面表示節(jié)點和關(guān)系;同時它具備較高的可擴展性,能夠承載上億的節(jié)點、關(guān)系和屬性,通過REST接口或者面向?qū)ο蟮腏AVA API進行訪問。Neo4j的各個特性貼合圖形數(shù)據(jù)結(jié)構(gòu),其各部分的內(nèi)容、特點以及數(shù)據(jù)量支撐情況如下:

節(jié)點:節(jié)點是主要的數(shù)據(jù)元素;節(jié)點通過關(guān)系連接到其他節(jié)點;節(jié)點可以具有一個或多個屬性(存儲為鍵/值對的屬性);節(jié)點有一個或多個標(biāo)簽,用于描述其在圖表中的作用。

關(guān)系:關(guān)系連接兩個節(jié)點;關(guān)系是方向性的;節(jié)點可以有多個甚至遞歸的關(guān)系;關(guān)系可以有一個或多個屬性(即存儲為鍵/值對的屬性)。

屬性:屬性是命名值,其中名稱(或鍵)是字符串;屬性可以被索引和約束;可以從多個屬性創(chuàng)建復(fù)合索引。

標(biāo)簽:標(biāo)簽用于將節(jié)點分組;一個節(jié)點可以具有多個標(biāo)簽;對標(biāo)簽進行索引可以加速在圖中查找節(jié)點。

表2 Neo4j各部分?jǐn)?shù)據(jù)量支撐情況[4]

2.2 Neo4j存儲結(jié)構(gòu)

Neo4j圖數(shù)據(jù)庫的不同部分(節(jié)點、關(guān)系、屬性、標(biāo)簽)分別保存在不同的存儲文件(store file)中,Neo4j對這些存儲文件作了專門的設(shè)計和優(yōu)化,以提升存儲和訪問效率,Neo4j運行時引擎可以對這些文件格式進行高效的查找和遍歷。其中的核心特點之一是Neo4j按照免索引臨近原則存儲數(shù)據(jù),這樣當(dāng)執(zhí)行遍歷時Neo4j能夠直接跟隨指針連接節(jié)點和關(guān)系,相對于關(guān)系型數(shù)據(jù)庫的非免索引鄰近存儲,這種類型的訪問速度會更加快[5]。

表3 Neo4j主存儲文件及相關(guān)的屬性

在Neo4j中,節(jié)點、關(guān)系和屬性等圖的組成部分都是基于Neo4j內(nèi)部的編號進行訪問的,而且這些元素是定長存儲的。以節(jié)點為例,第1個字節(jié)是標(biāo)志位,表示“是否正在使用”,接下來4個字節(jié)表示關(guān)聯(lián)到該節(jié)點的第一個關(guān)系,再接下來的4個字節(jié)表示該節(jié)點第一個屬性的編號,其存儲結(jié)構(gòu)如下圖所示:

圖4 Neo4j節(jié)點的存儲結(jié)構(gòu)

這樣設(shè)計的優(yōu)點在于,知道了某節(jié)點/關(guān)系/屬性的內(nèi)部編號,就能直接算出該編號在對應(yīng)文件中的偏移位置,直接進行訪問。也就是說在圖的遍歷過程中不需要基于索引掃描就可以直接找到該元素。例如,我們要查找內(nèi)部編號為200的相關(guān)數(shù)據(jù),那么就能夠直接計算出這一數(shù)據(jù)將會在節(jié)點存儲文件中從2 800字節(jié)開始(14字節(jié) * 節(jié)點編號200)。通過這樣的存儲方式,圖數(shù)據(jù)庫計算這些數(shù)據(jù)起始位置的時間復(fù)雜度,將遠小于搜索一個函數(shù)的時間復(fù)雜度。當(dāng)涉及大量數(shù)據(jù)時,這會帶來顯著的性能提高,這也是Neo4j具有較高遍歷和檢索性能的原因之一。

2.3 Cypher查詢語言

Neo4j有基于自身優(yōu)化的圖形搜索算法,也具備一套自身的查詢語言解析系統(tǒng)。Cypher是幾種用來描述和查詢屬性圖的語言之一,也是Neo4j采用的圖數(shù)據(jù)庫查詢語言。Cypher是一種簡潔且富有表現(xiàn)力的語言,以精確的方式程序化地描述圖結(jié)構(gòu)。Neo4j使用Cypher對圖形數(shù)據(jù)進行增刪查改(CRUD)操作。在搜索功能中,Cypher語言由start、match、where、return四個部分組成:

start:在圖中指定一個或多個起始節(jié)點,可以通過索引查找獲得,也可以通過節(jié)點的編號直接獲得;

match:圖形的匹配模式,也是實例化的需求部分;

where:提供過濾模式匹配結(jié)果的條件;

頂崗實習(xí)是高校人才培養(yǎng)中的重要一環(huán),是學(xué)生在校完成基礎(chǔ)技術(shù)技能的學(xué)習(xí)后,去專業(yè)對口企業(yè)參與實際生產(chǎn)過程,運用所學(xué)知識和技能,完成一定生產(chǎn)任務(wù)的一種實踐性教學(xué)形式,是培養(yǎng)學(xué)生進一步獲得實踐技能、創(chuàng)新意識及創(chuàng)業(yè)精神的重要途徑,在整個高職教育過程中占有舉足輕重的地位。實現(xiàn)頂崗實習(xí)過程的規(guī)范管理對提高頂崗實習(xí)的質(zhì)量和效果有著重要意義。

return:用來指明在已經(jīng)匹配查詢的數(shù)據(jù)中,哪些節(jié)點、關(guān)系和屬性是需要返回給客戶端的。

舉例:從用戶Tom出發(fā),搜索有同學(xué)關(guān)系(CLASSMATE)的人:

從大量的應(yīng)用案例可以證明,Cypher可用性較高,不僅能實現(xiàn)關(guān)系型數(shù)據(jù)庫SQL語言的相關(guān)功能,還能實現(xiàn)SQL語言不具備的遍歷查找功能。Neo4j圖數(shù)據(jù)庫憑借其出色的設(shè)計思想、高可用的框架、高性能的存儲結(jié)構(gòu)、簡易靈活的配套語言,在大數(shù)據(jù)時代的數(shù)據(jù)建模、檢索優(yōu)化、社交網(wǎng)絡(luò)等方面發(fā)揮著越來越重要的作用。

3 Neo4j數(shù)據(jù)建模實例

在關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)建模中,將事物的邏輯結(jié)構(gòu)歸結(jié)為滿足一定條件的二維表中的元素,這種表就稱為關(guān)系表,是使用實體(Entity)對這類事物進行抽象的結(jié)果。這樣的模型主要描述的是經(jīng)過抽象后的實體之間的關(guān)系,而并非表述自然事物的實例。圖數(shù)據(jù)庫的數(shù)據(jù)建模更加貼近自然,它沒有對事物進行抽象和聚類,描述的是具體事物和事物之間的聯(lián)系。圖數(shù)據(jù)模型中的節(jié)點對應(yīng)的就是具體事物實例。如果要對事物實例進行聚類和抽象,可以使用標(biāo)簽進行標(biāo)識,與關(guān)系數(shù)據(jù)模型不一樣的是,關(guān)系數(shù)據(jù)模型中的表是強制性約束的,而圖數(shù)據(jù)模型中的標(biāo)簽是可選擇性的,更具有可擴展性和靈活性。因此,圖數(shù)據(jù)建模更適合關(guān)聯(lián)關(guān)系復(fù)雜、不斷演化的、增量式迭代式的應(yīng)用場景和軟件開發(fā)實踐案例。

表4 圖數(shù)據(jù)庫元素建模功能

我們以圖書館最基本的業(yè)務(wù)模式來描述Neo4j圖數(shù)據(jù)庫的建模過程,以及圍繞不斷新增的業(yè)務(wù)需求來不斷迭代完善這個數(shù)據(jù)模型。

首先構(gòu)建一個讀者借閱圖書的模型:

圖5 圖書館讀者模型圖(1)

然后加入讀者喜好和評論圖書功能:

圖6 圖書館讀者模型圖(2)

示例代碼:

最后加入讀者間的社交功能:

圖7 圖書館讀者模型圖(3)

示例代碼:

以上是一個比較簡單的圖數(shù)據(jù)庫構(gòu)建示例,我們從最基本的圖書借閱功能,逐步擴展了個性化表達、社交網(wǎng)絡(luò)等功能,跟隨圖書館業(yè)務(wù)的發(fā)展維度,我們還可以對這個模型進行更多的功能擴展,而且可以非常方便地做到。從這個例子中,我們可以發(fā)現(xiàn):相對于關(guān)系型數(shù)據(jù)庫建模,圖數(shù)據(jù)庫建模的方式更加靈活,它的模型不需要進一步的抽象,更貼合現(xiàn)實的事物關(guān)系,因此更適應(yīng)于迭代式和增量式的開發(fā)模式。它可以一個特性接著一個特性、一個用戶故事接著一個用戶故事,不斷加入新的元素來滿足新的需求,在模型中加入新的事物和連接關(guān)系不會對既有的數(shù)據(jù)模型、范式、約束造成影響,從而具有更強的可塑性。在實際應(yīng)用方面,圖數(shù)據(jù)模型降低了事物對象模型和關(guān)系表模型之間的翻譯困難,消除了技術(shù)領(lǐng)域和業(yè)務(wù)領(lǐng)域的溝通障礙,使得大家都可以用同樣的模型和思路來探討業(yè)務(wù)中的核心問題,再將其整合到應(yīng)用程序之中。除此以外,圖數(shù)據(jù)模型在關(guān)系網(wǎng)絡(luò)查詢方面還有關(guān)系型數(shù)據(jù)庫不具備的性能優(yōu)勢。基于這些優(yōu)點,圖數(shù)據(jù)庫在當(dāng)今IT和互聯(lián)網(wǎng)產(chǎn)業(yè)中得到非常廣泛的應(yīng)用,很多知名的大公司如IBM、Microsoft、Walmart、eBay、VOLVO都采用了這一技術(shù)方案。在各行各業(yè)都在擁抱互聯(lián)網(wǎng)的今天,圖書館行業(yè)也不例外,圖數(shù)據(jù)庫在圖書館行業(yè)未來的發(fā)展和應(yīng)用中有非常多的“用武之地”,我們將在下一節(jié)進行闡述。

4 圖數(shù)據(jù)庫在圖書館業(yè)務(wù)中的應(yīng)用

4.1 讀者圖書推薦系統(tǒng)

在線推薦系統(tǒng)是許多電子商務(wù)網(wǎng)站的核心構(gòu)建之一。以當(dāng)前熱門購物網(wǎng)站為例,當(dāng)我們?yōu)g覽若干個商品或購買某件物品之后,網(wǎng)站便會根據(jù)我們最近這段時間的瀏覽習(xí)慣和購物需求推薦它認(rèn)為值得我們購買的物品;在新聞類網(wǎng)站或App中,系統(tǒng)也會針對我們最近的閱讀偏好推送它認(rèn)為我們想要閱讀的內(nèi)容。目前業(yè)界較為主流的推薦算法包括:基于流行度的推薦算法、基于協(xié)同過濾的推薦算法、基于內(nèi)容的推薦算法、基于模型的推薦算法等等。圖書館對于讀者的圖書推薦工作,一般圍繞當(dāng)前熱點、編輯推薦、類別推薦等方面展開,這些推薦方法都有很大的局限性。對于圖書館而言,只有針對每位讀者的個性化需求進行智能化推薦的系統(tǒng),才是真正意義上的推薦系統(tǒng)。公共圖書館的個性化圖書推薦系統(tǒng)與商業(yè)購書網(wǎng)站、社交書評網(wǎng)站(如豆瓣)有非常大的不同。圖書館的個性化智能推薦系統(tǒng)需要滿足兩個條件:第一是存在信息過載的問題,第二是讀者大部分時間沒有明確的需求,因為如果讀者有明確的需求,就可以通過檢索系統(tǒng)找到自己需要的書籍了。同時,圖書館對于讀者個人資料的掌握往往也較為有限,圖書館與讀者、讀者與讀者這兩種聯(lián)系都是“弱聯(lián)系”關(guān)系,圖書館的“生態(tài)環(huán)境”也是弱社交化的交流環(huán)境,圖書館與讀者、讀者與讀者之間的主要是通過書這樣一種介質(zhì)產(chǎn)生關(guān)聯(lián)。在這種情況下,我們可以引入圖數(shù)據(jù)庫,以閱讀內(nèi)容為聯(lián)系節(jié)點構(gòu)建群體閱讀網(wǎng)狀模型,按照“人以群分”的思路對讀者群體進行分類集體畫像,構(gòu)建一種基于圖書關(guān)聯(lián)的新型網(wǎng)狀結(jié)構(gòu)模型:我們將每一位讀者作為一個節(jié)點,同時又將他(她)閱讀的每一本書作為一個節(jié)點,兩者之間的關(guān)系就是閱讀關(guān)系;當(dāng)這本書被其他讀者借閱時,那么另一位讀者與這本書又產(chǎn)生了閱讀關(guān)系,讀者與讀者之間是通過閱讀共同(或相似)的一本書而產(chǎn)生聯(lián)系的。通過這種錯綜復(fù)雜的閱讀關(guān)系,不同的讀者之間便產(chǎn)生了社交聯(lián)系。這樣,所有的讀者、書籍、閱讀關(guān)系便構(gòu)成了一張龐大的社交關(guān)系網(wǎng),系統(tǒng)基于相似群體閱讀內(nèi)容的特性,可以為讀者推薦適合他們需要的、個性化的閱讀內(nèi)容。除此以外,基于圖數(shù)據(jù)庫的閱讀推薦方法還能很好地解決“冷啟動”的問題:讀者只要在圖書館開始借書,就可以根據(jù)圖書的關(guān)聯(lián)特點很快獲得推薦圖書;讀者借的書越多,推薦的樣本就越豐富,推薦的內(nèi)容就更加趨于合理。

4.2 數(shù)據(jù)資源管理

圖書館作為一個信息服務(wù)中心,具備各式各樣的自建和外購數(shù)據(jù)資源以及與之匹配的各種檢索系統(tǒng)。目前大多數(shù)數(shù)據(jù)資源和檢索系統(tǒng)都構(gòu)建于關(guān)系型數(shù)據(jù)庫之上,系統(tǒng)根據(jù)用戶輸入的關(guān)鍵字在數(shù)據(jù)庫中進行查詢,并返回相關(guān)的網(wǎng)頁、圖片、視頻等資源。如果圖書館管理的數(shù)據(jù)資源過多,分散式的信息檢索系統(tǒng)會給讀者帶來諸多不便,這樣就需要引入統(tǒng)一資源檢索平臺對數(shù)據(jù)資源檢索進行管理。統(tǒng)一資源檢索平臺一般通過數(shù)據(jù)接口、特定協(xié)議、頁面分析技術(shù),對異構(gòu)系統(tǒng)的信息進行抓取,然后匯總在一個頁面上進行展示。但這樣的異構(gòu)系統(tǒng)數(shù)據(jù)資源檢索和管理方式存在諸多不足:第一,僅從視圖層對信息進行了組織和展示,內(nèi)在的邏輯關(guān)系未打通;第二,基于關(guān)鍵詞的檢索具有較大的冗余性,可能把僅僅名字相同而非實際相關(guān)的內(nèi)容展示出來;第三,這樣抽取的只是零散的數(shù)據(jù)而不是有組織的知識,而當(dāng)前人們不再滿足于簡單搜索引擎返回的信息,他們更希望獲得符合個人需求的有實際價值的知識。檢索系統(tǒng)的發(fā)展勢必要更多地關(guān)注于關(guān)聯(lián)關(guān)系挖掘、關(guān)系存儲、知識表示和關(guān)系推理等[6]。對于這種情況和未來數(shù)據(jù)資源管理的發(fā)展趨勢,圖數(shù)據(jù)庫的特性支撐它在圖書館的數(shù)據(jù)管理和檢索優(yōu)化中有更大的作為空間。使用圖數(shù)據(jù)庫作為數(shù)據(jù)資源管理的構(gòu)建支撐系統(tǒng),基于圖理論對數(shù)據(jù)進行存儲和檢索結(jié)果反饋,可以更好地對異構(gòu)系統(tǒng)數(shù)據(jù)的關(guān)聯(lián)關(guān)系進行挖掘、分析和推理,展示的結(jié)果內(nèi)容會更加立體化,也具有更強的延伸性。這種構(gòu)建過程可以圍繞某個行業(yè)領(lǐng)域、熱點事件、討論話題等單元內(nèi)容展開,首先對基礎(chǔ)數(shù)據(jù)內(nèi)容進行采集和預(yù)處理,將信息內(nèi)容、信息來源、信息來源間的關(guān)系轉(zhuǎn)換成存儲的節(jié)點和關(guān)系的屬性,構(gòu)建這個單元板塊的數(shù)據(jù)資源圖譜,并根據(jù)數(shù)據(jù)內(nèi)容的特點構(gòu)建索引,提升資源管理效率。對于用戶的檢索請求,系統(tǒng)通過算法智能對檢索結(jié)果進行加權(quán)反饋,對內(nèi)容進行自動的優(yōu)先級優(yōu)化,而不是像大雜燴一樣呈現(xiàn);另外,還可以根據(jù)圖模型的特性,在反饋結(jié)果中展示出源數(shù)據(jù)到最后整合數(shù)據(jù)的整個數(shù)據(jù)生成鏈路,方便用戶對數(shù)據(jù)關(guān)聯(lián)關(guān)系進行更細粒度的分析。

4.3 信息構(gòu)建與知識構(gòu)建

美國建筑學(xué)家沃爾曼(Richard Saul Wurman)于1975年首次提出信息構(gòu)建, 將其定義為“組織數(shù)據(jù)的模式,使復(fù)雜信息清晰化”,并且提出了信息構(gòu)建的五項規(guī)則[7]。目前普遍認(rèn)為信息構(gòu)建是以合理的方式對信息進行組織,是信息技術(shù)管理和資源管理的核心。對于圖書館而言,有學(xué)者提出以信息構(gòu)建的四大核心系統(tǒng)為評價參考,以信息構(gòu)建的五項原則為標(biāo)準(zhǔn),對數(shù)字圖書館的評價指標(biāo)體系進行構(gòu)建[8]。知識構(gòu)建是在信息構(gòu)建基礎(chǔ)上的信息組織形式,是信息資源鏈更高級的組合和服務(wù),使信息更加清晰化和便于理解。在圖書館中,對于知識和信息的管理需要對大量信息進行收集,將收集的信息按照不同的門類和需求進行組織和存儲,不斷對顯性知識和隱性知識進行挖掘,對知識之間的關(guān)系進行揭示,方便人們獲取所需知識資源。知識地圖是知識構(gòu)建過程中常用的管理方式,被普遍認(rèn)為是一個具備知識導(dǎo)航和管理功能的信息圖,使得資源信息按照一定規(guī)律組織在一起,能夠有效展示信息和知識在圖中的存儲和分布情況,并提供明確的訪問途徑。知識地圖還能顯示出知識點之間、知識點與個人或組織之間的相互聯(lián)系,進而能夠清晰向用戶展示各知識、條目的關(guān)系,獲取相應(yīng)的知識內(nèi)容,并借助可視化、形象化的手段對知識信息進行查詢。對于知識地圖和倉庫一般采用關(guān)系型數(shù)據(jù)庫或RDF描述語言進行構(gòu)建,關(guān)系型數(shù)據(jù)庫可以對知識內(nèi)容進行抽象和快速查詢,但在關(guān)聯(lián)關(guān)系方面存在不足;RDF描述語言基于XML可以表達數(shù)據(jù)和數(shù)據(jù)之間的語義關(guān)系,但它在本質(zhì)上是一種簡單本體語言,缺乏統(tǒng)一管理和版本控制,在海量數(shù)據(jù)構(gòu)建和檢索方面也存在短板。圖數(shù)據(jù)庫在圖書館知識倉庫構(gòu)建和語義關(guān)聯(lián)方面則具備更多優(yōu)勢,文本知識結(jié)構(gòu)中的知識元是知識結(jié)構(gòu)體系中最小的單位,可以使用圖數(shù)據(jù)庫的節(jié)點進行記錄;知識之間的關(guān)聯(lián)、要素之間的聯(lián)系,可以使用圖數(shù)據(jù)庫的關(guān)系進行表達,進而建立知識與信息之間、知識與持有者之間、知識與用戶之間的各種聯(lián)系;再基于圖數(shù)據(jù)庫優(yōu)秀的檢索性能,可以為用戶沿著知識分布圖或樹,快速地找到位置并將結(jié)果進行反饋。除此以外,系統(tǒng)還可以憑借圖數(shù)據(jù)庫的特性對隱性知識進行挖掘、捕獲和組織。

4.4 其他應(yīng)用方面

圖書館信息治理:隨著圖書館業(yè)務(wù)體系的不斷發(fā)展,基于總分館服務(wù)模式的外延也在不斷地拓展,除過去的傳統(tǒng)分館外,各類載體都加入了圖書館的服務(wù)體系,再加上硬件、軟件、網(wǎng)絡(luò)服務(wù)設(shè)備的擴容,各類型數(shù)據(jù)中心的建設(shè)、虛擬化服務(wù)的實施、整體拓撲結(jié)構(gòu)也變得越來越復(fù)雜,這也給圖書館的信息治理工作帶來了更大的工作量和難度。圖數(shù)據(jù)庫在網(wǎng)絡(luò)和數(shù)據(jù)中心管理方面已有成功應(yīng)用案例,在基礎(chǔ)架構(gòu)、網(wǎng)絡(luò)規(guī)劃、路由分布、服務(wù)質(zhì)量映射以及網(wǎng)絡(luò)影響分析等諸多方面可以發(fā)揮作用。例如,對圖書館的通信體系進行圖建模,將各種硬件設(shè)備、軟件、數(shù)據(jù)中心等實體以圖數(shù)據(jù)庫節(jié)點的方式進行映射,將各種實體之間的聯(lián)系以圖數(shù)據(jù)庫關(guān)系的方式進行表示,可以較為全面和準(zhǔn)確地展示出圖書館通信體系的整體拓撲結(jié)構(gòu)、數(shù)據(jù)鏈接路徑、路由節(jié)點以及網(wǎng)絡(luò)流量等各方面的信息,還可以協(xié)助做好信息治理中的問題診斷和原因分析,在信息安全方面發(fā)揮較大的作用。

圖書館標(biāo)簽系統(tǒng):標(biāo)簽系統(tǒng)在圖書館中是一個廣義的概念,一方面是物理上的標(biāo)簽,如RFID電子標(biāo)簽,另一方面是對資源屬性進行標(biāo)識的標(biāo)簽,這種標(biāo)簽既可來自原生出版方或圖書館采編工作方,也可以來自用戶對感興趣的內(nèi)容和資源進行的標(biāo)注,還可以來自人工智能技術(shù)等對資源進行的標(biāo)識和分類。用戶、各種類型的標(biāo)簽、資源三者間呈網(wǎng)狀關(guān)系,是標(biāo)簽系統(tǒng)最重要的三種元素。標(biāo)簽系統(tǒng)是聯(lián)系資源和用戶的紐帶,對于圖書館資源管理和讀者服務(wù)具有重要意義。基于標(biāo)簽系統(tǒng)的圖結(jié)構(gòu),圖數(shù)據(jù)庫相較于關(guān)系型數(shù)據(jù)庫具有更多的優(yōu)勢:面對標(biāo)簽系統(tǒng)的超大數(shù)據(jù)集以及復(fù)雜的連接結(jié)構(gòu),圖數(shù)據(jù)庫都展現(xiàn)出了更好的契合度,而且具有更豐富的表現(xiàn)形式。資源、標(biāo)簽、用戶在圖數(shù)據(jù)庫模型中可以以節(jié)點進行標(biāo)識,相互之間的關(guān)聯(lián)可以用關(guān)系進行標(biāo)識。標(biāo)簽系統(tǒng)在圖數(shù)據(jù)庫建模的基礎(chǔ)上可以展示出直觀的聚類關(guān)系,通過上下文環(huán)境的語義和相似度算法能運用在檢索系統(tǒng)、推薦系統(tǒng)等領(lǐng)域。

用戶行為分析:用戶行為分析是圖書館面對不斷變化的讀者需求,準(zhǔn)確了解讀者個人偏好、使用習(xí)慣、閱讀特征的重要手段,并且在分析的過程中不斷揭示讀者個人和群體的行為規(guī)律,對于資源購買、內(nèi)容推薦、需求引導(dǎo)、預(yù)測用戶行為、改進服務(wù)措施等方面具有重要意義。在大數(shù)據(jù)時代,用戶行為更加復(fù)雜化和多元化,通過各種手段和方法采集的數(shù)據(jù)具有網(wǎng)狀和交叉特點,各種用戶、行為和終端之間又有很大的關(guān)聯(lián)性,這些特征都適合引入圖模型,將圖數(shù)據(jù)庫作為后臺的行為數(shù)據(jù)存儲工具。在圖數(shù)據(jù)庫中,可以將用戶、終端、資源、介質(zhì)作為節(jié)點進行標(biāo)識,將行為作為關(guān)系進行標(biāo)識,這些節(jié)點產(chǎn)生聯(lián)系,根據(jù)時間、坐標(biāo)等屬性描述出用戶行為軌跡;通過圖模型聚類信息我們還可以清晰地看出群體行為聚集和流量情況,有利于對圖書館各方面存在的問題進行針對性的解決,也有利于對不同用戶群體的差異化特征進行分析,針對不同的對象和應(yīng)用場景提出具有指導(dǎo)性的服務(wù)建議,從而提升圖書館的整體服務(wù)質(zhì)量。

5 結(jié)語

隨著相關(guān)理論研究的逐漸深入,圖數(shù)據(jù)庫技術(shù)從實驗室走出來得到越來越廣泛的重視和應(yīng)用。圖數(shù)據(jù)庫在某些方面具備關(guān)系型數(shù)據(jù)庫不具備的優(yōu)勢,但在數(shù)據(jù)完整性、可維護性等方面也存在很多挑戰(zhàn),整體來說圖數(shù)據(jù)庫技術(shù)處于發(fā)展的初期,還有不斷擴展的空間。在大數(shù)據(jù)環(huán)境下,以數(shù)據(jù)和關(guān)系為中心的圖結(jié)構(gòu)模型在圖書館中將越來越常見,期待能夠繼續(xù)加強圖數(shù)據(jù)庫在圖書館行業(yè)的應(yīng)用研究,未來有更多的實用性工具和產(chǎn)品落地,推動圖書館信息和數(shù)據(jù)服務(wù)能力得到更好的發(fā)展。

猜你喜歡
標(biāo)簽建模數(shù)據(jù)庫
聯(lián)想等效,拓展建模——以“帶電小球在等效場中做圓周運動”為例
基于PSS/E的風(fēng)電場建模與動態(tài)分析
電子制作(2018年17期)2018-09-28 01:56:44
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不對稱半橋變換器的建模與仿真
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
標(biāo)簽化傷害了誰
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
祥云县| 南丰县| 甘孜县| 张掖市| 石渠县| 昌邑市| 嘉义县| 亳州市| 赤水市| 元氏县| 湘乡市| 化德县| 泰州市| 莲花县| 永修县| 颍上县| 临安市| 凤台县| 宁海县| 和顺县| 镇江市| 逊克县| 海淀区| 秦安县| 平舆县| 九台市| 乌恰县| 射洪县| 临西县| 梁山县| 江源县| 莒南县| 玉树县| 平阳县| 玉溪市| 杭锦旗| 恩施市| 湟源县| 台湾省| 张家口市| 辽阳市|