楊政
摘要:隨著檢索系統(tǒng)技術的發(fā)展方向逐步向檢索實體的關聯(lián)關系發(fā)展,傳統(tǒng)的關系型數(shù)據(jù)庫難以滿足需要,為高效存儲和方便查找數(shù)據(jù)間的關系,圖數(shù)據(jù)庫應運而生。該文闡釋了圖數(shù)據(jù)庫的基本概念,基于圖數(shù)據(jù)庫對關系處理的優(yōu)勢,設計構造面向關聯(lián)關系的特定領域檢索系統(tǒng)框架。該系統(tǒng)具有索引構建簡化、檢索速度快、檢索效率高、數(shù)據(jù)更新快速等優(yōu)點,但是也存在數(shù)據(jù)預處理要求高的缺點。除此之外,圖數(shù)據(jù)庫在全文檢索系統(tǒng)中還面臨著大數(shù)據(jù)量和數(shù)據(jù)動態(tài)變化等帶來的挑戰(zhàn)。
關鍵詞:圖數(shù)據(jù)庫;關聯(lián)關系;檢索系統(tǒng);關系型數(shù)據(jù)庫;檢索效率
中圖分類號:TP391? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)27-0010-03
Abstract: With the development of retrieval system technology gradually developing to the association relationship of retrieval entities, traditional relational databases are difficult to meet the needs. For efficient storage and easy to find the relationship between data, the graph database emerges as the times require. This paper explains the basic concept of graph database, based on the advantages of graph database for relational processing, and de-signs a domain-specific retrieval system framework for association relations. The system has the advantages of simplified index construction, fast retrieval speed, high retrieval efficiency and fast data update, but it also has the disadvantage of high data preprocessing requirements. In addition, the graph database faces the challenges of large data volume and dynamic data changes in the full-text search system.
Key words: Graph database; Association relationship; Retrieval system; Relational database; Retrieval efficiency
1 引言
在信息檢索技術高速發(fā)展的時代,各大檢索系統(tǒng)在互聯(lián)網應用行業(yè)都能獨占鰲頭,不僅因為檢索系統(tǒng)能帶來大量的數(shù)據(jù)和知識,而且人們的生活以及技術的發(fā)展越來越離不開檢索系統(tǒng)技術[1]?,F(xiàn)代檢索系統(tǒng)大多建立在關系型數(shù)據(jù)庫的基礎之上,通過用戶輸入的檢索詞返回用戶需要查詢的網頁、圖片、音視頻等數(shù)據(jù)資源[2,3]。但是檢索系統(tǒng)技術由于關鍵詞能提供的信息量少、查詢數(shù)據(jù)庫大等因素,在返回給用戶的信息中還是存在不全面、不準確或是查詢速度慢的問題,這也是檢索系統(tǒng)技術的未來改進方向。
現(xiàn)如今用戶對于檢索系統(tǒng)的需求漸漸轉變?yōu)閷ζ渲嘘P聯(lián)關系的需求。而關系型數(shù)據(jù)庫存儲存在的掣肘,一方面是存儲內容是數(shù)據(jù)而不是知識,這就導致了用戶對于檢索系統(tǒng)返回的結果還需要進一步的分析加工。另一方面,關系型數(shù)據(jù)庫存儲的數(shù)據(jù)量越大,對查詢速度的影響就越明顯,關系型數(shù)據(jù)庫難以適應有實時價值的數(shù)據(jù)關系。因此,考慮到近年來發(fā)展迅猛的圖數(shù)據(jù)庫在存儲關聯(lián)關系數(shù)據(jù)上的優(yōu)點,本文分析設計了基于圖數(shù)據(jù)庫的檢索系統(tǒng)。
2 檢索系統(tǒng)發(fā)展趨勢和圖數(shù)據(jù)庫
在知識體量爆炸增長的現(xiàn)代化社會,檢索系統(tǒng)的發(fā)展也不再僅限于簡單的搜索引擎返回的頁面、圖片等,人們更需要從檢索系統(tǒng)中獲得更符合個人需求的更多有價值的知識,而不在僅僅是一個網頁的文本內容。而這些知識的表現(xiàn)方式大多是關聯(lián)關系。因此,檢索系統(tǒng)的發(fā)展勢必要更多的關注于關聯(lián)關系挖掘、關系存儲、知識表示和關系推理等[4]。
2.1 自然語言理解
用戶檢索輸入的內容理解是檢索系統(tǒng)性能提升的一個重要方面。受檢索輸入長度、語言歧義現(xiàn)象等影響,用戶的檢索意圖和想要獲取的內容都難以符號化描述的理解。
2.2 關系挖掘
面向關聯(lián)關系的檢索系統(tǒng)還需要解決關系挖掘的問題?,F(xiàn)在的網絡信息絕大部分是以文本或音視頻等方式存在的,難以挖掘結構化的知識以及知識間的關系。
2.3 關聯(lián)關系分析和推理
在知識庫已經建立完成的基礎上,對關聯(lián)關系的分析和推理結果也是十分重要的,這決定了返回用戶的檢索結果是否能滿足用戶需求。
綜上三點,用戶對檢索系統(tǒng)的需求將更多地傾向于對知識的獲取,而關聯(lián)關系分析推理能更好地滿足這樣的需求。因此可以說,未來檢索系統(tǒng)的發(fā)展將與“關系”密不可分。
3 基于圖數(shù)據(jù)存儲的特定領域檢索系統(tǒng)架構設計
由于在特定領域中的數(shù)據(jù)一般為結構化或半結構化的數(shù)據(jù),且涉及的數(shù)據(jù)體量較小,易于處理。除此之外,建立在專業(yè)領域的檢索系統(tǒng)更容易獲得查全率和查準率的提高,并且數(shù)據(jù)庫中的信息更精細化。因此在本文中以基于圖數(shù)據(jù)存儲的特定領域檢索系統(tǒng)為例,闡述其架構設計。
傳統(tǒng)的基于關系型數(shù)據(jù)庫的檢索系統(tǒng)架構圖如圖1所示。一般將數(shù)據(jù)存儲在文本數(shù)據(jù)庫中,然后對數(shù)據(jù)庫中的文本數(shù)據(jù)提取文本中的詞匯,然后依據(jù)提取的數(shù)據(jù)對文本進行索引。在用戶檢索的過程中,需要根據(jù)用戶輸入的查詢詞等根據(jù)索引庫查找文本,然后對檢索出的文本進行排序,將排序后的文本返回給用戶。在接下來的過程中,還需要根據(jù)用戶的反饋不斷改進檢索結果。
如圖2所示,在基于圖數(shù)據(jù)庫的特定領域檢索系統(tǒng)架構中,與傳統(tǒng)的基于關系型數(shù)據(jù)庫的檢索系統(tǒng)不同之處有四。其一是數(shù)據(jù)的存儲內容與一般的檢索系統(tǒng)不同,其二數(shù)據(jù)的存儲結構是基于圖的理論,其三是索引的構建不同,其四是檢索反饋的結果和方式不同:
1)數(shù)據(jù)存儲內容
可以看出,由于圖數(shù)據(jù)庫的存儲特點,該架構對數(shù)據(jù)源的預處理要求較高。由于圖數(shù)據(jù)庫存儲的是實體的屬性以及關系的屬性,因此在儲存之前需要對采集的數(shù)據(jù)源進行預處理。不是所有采集的數(shù)據(jù)都可以直接使用,而是需要將其進行結構化的預處理,轉換成存儲的節(jié)點和關系的屬性。因此圖數(shù)據(jù)庫存儲的內容與一般關系型數(shù)據(jù)庫有很大區(qū)別,對文本的預處理要求較高。
2)數(shù)據(jù)存儲結構
圖數(shù)據(jù)庫的存儲結構是基于圖論理論,因此在數(shù)據(jù)庫中關系是圖的重要組成部分,沒有關系的聯(lián)結,圖中的節(jié)點就是互相孤立存在的。
3)索引的構建
圖數(shù)據(jù)庫的索引構建方式也與一般的關系型數(shù)據(jù)庫不同。根據(jù)圖論,可以將圖數(shù)據(jù)分為若干個子圖,然后對子圖的內容進行抽取概括,形成索引。但是在特定領域檢索系統(tǒng)中,數(shù)據(jù)規(guī)模一般不大,所以可以簡化索引的構建。
4)檢索反饋
在該架構中,不再對返回的文本進行排序,而是需要對節(jié)點進行排序,最相關節(jié)點則重要度越高,然后通過節(jié)點的關系及關系屬性為相關聯(lián)的節(jié)點加權,以此來進行返回結果的排序。
在返回節(jié)點和關系的基礎上,還需要對返回結果進行文本處理,以便于閱讀和理解的方式呈現(xiàn)給用戶。由于節(jié)點和關系數(shù)據(jù)的結構化,因此呈現(xiàn)方式可以多樣化,不僅是文本,也可以是圖表等。
接下來根據(jù)查詢結果的用戶反饋情況,對排序結果進行優(yōu)化以及對查詢結果進行增刪。用戶點擊率高的查詢結果節(jié)點要賦予更大的權重并返回更多的關聯(lián)節(jié)點,而對于用戶點擊率低的查詢結果節(jié)點則減少權重并較少該節(jié)點的關聯(lián)節(jié)點。
除此之外,該架構還需要不斷更新圖數(shù)據(jù)庫內容以滿足用戶查詢需求。圖數(shù)據(jù)庫的更新比關系型數(shù)據(jù)庫更為便捷,因為圖的插入操作開銷較小。圖數(shù)據(jù)庫插入一個節(jié)點或關系并不會改變原有的建模方式,只需要預處理的過程中將數(shù)據(jù)轉換為預先建立的結構即可,而關系型數(shù)據(jù)庫更新數(shù)據(jù)則需要改變數(shù)據(jù)庫的架構。
4 面臨的挑戰(zhàn)
在對特定領域進行檢索系統(tǒng)的設計中,使用圖數(shù)據(jù)庫能帶來很多優(yōu)勢。首先,用戶對學科領域內容的檢索期待的結果一是知識內容,二是相關聯(lián)知識,而圖數(shù)據(jù)庫則是對關聯(lián)關系的分析和查找應運而生的。第二是由于使用了簡單高效的Chyphe作為查詢語言,因此圖數(shù)據(jù)庫可以提升查詢的速度。第三是由于領域知識數(shù)據(jù)基本上是結構化或半結構化的,因此圖數(shù)據(jù)庫中節(jié)點和關系的屬性建立就比較完備,也易于閱讀和理解。
但是對于基于圖數(shù)據(jù)存儲的特定領域檢索系統(tǒng),盡管對于關聯(lián)關系的挖掘和實體的查詢速度都會有所提升,但是仍面臨著以下挑戰(zhàn):
1)數(shù)據(jù)內容的完整性。由于是對特定領域的知識進行檢索,在數(shù)據(jù)量規(guī)模不大的情況下需要對數(shù)據(jù)內容的完整性做出要求。最理想的情況是包含該領域全部的信息,但是這是十分困難的,因為領域存在交叉性和復雜性。
2)數(shù)據(jù)的實時更新。對于特定領域的檢索系統(tǒng)來說,數(shù)據(jù)的內容要保持實時的更新,因此對于節(jié)點和關系的增、刪、改等操作要進行較完備的定義。
除了利用圖數(shù)據(jù)庫進行特定領域檢索系統(tǒng)外,還有許多基于圖數(shù)據(jù)庫對全文數(shù)據(jù)進行檢索的研究。
由于檢索系統(tǒng)技術的面臨著龐大的數(shù)據(jù)體量,因此利用圖數(shù)據(jù)庫進行全文檢索系統(tǒng)的研究仍處于不斷探究的過程中。龐大體量的信息進行圖存儲就必須面對大圖數(shù)據(jù),其中所包含的節(jié)點和關系規(guī)模都處于數(shù)十億的級別。但同時其對于許多應用都能帶來益處,例如搜索引擎發(fā)展、電商廣告推送、路徑規(guī)劃等。對于大圖數(shù)據(jù)的管理也面臨著諸多挑戰(zhàn),例如:
1)數(shù)據(jù)規(guī)模龐大且復雜,不僅包含了大量的節(jié)點以及節(jié)點屬性,而且包含了復雜的關聯(lián)關系。
2)數(shù)據(jù)靈活性大大增加,由于包含的非結構化或半結構化的數(shù)據(jù),因此各節(jié)點和關系的屬性夠各不相同。數(shù)據(jù)的異構性導致難以存儲為固定的模式。
3)數(shù)據(jù)時刻處于動態(tài)變化之中。隨著各類數(shù)據(jù)的不斷更新變化,圖數(shù)據(jù)存儲的內容也在時刻發(fā)生著變化。變化的內容包括節(jié)點和關系的屬性變化、節(jié)點的增刪、關系的增刪等。
4)大數(shù)據(jù)量帶來查詢操作的復雜性。由于圖數(shù)據(jù)量大、復雜、動態(tài)變化的特性,對大圖數(shù)據(jù)的查詢操作也帶來了困難。大圖數(shù)據(jù)的并行分布存儲使得查詢首先需要全局的圖信息,在其中進行分塊查找,然后查詢子圖數(shù)據(jù)。因此對大圖索引的建立也提出了要求。
值得一提的是,很多學者為了解決以上這些問題會將圖數(shù)據(jù)庫與其他的關系型或非關系型數(shù)據(jù)庫結合起來使用,在內存中使用圖數(shù)據(jù)庫的形式,查詢速度得到了提高,同時也能降低存儲的復雜度,因此這種方法也取得了較好的效果。
5 結語
本文討論了基于圖存儲的檢索系統(tǒng),以基于圖數(shù)據(jù)存儲的特定領域檢索系統(tǒng)為例,分析了系統(tǒng)構建框架和系統(tǒng)設計模塊,該框架具有檢索效率高、速度快、易于更新等優(yōu)點,同時也存在更新數(shù)據(jù)質量要求高等不足之處。最后本文分析了在特定領域檢索系統(tǒng)和全文檢索系統(tǒng)中,圖數(shù)據(jù)存儲帶來的優(yōu)勢和面臨的挑戰(zhàn)。
總的來說,世界的發(fā)展使事物之間的聯(lián)系越來越緊密,組成許多的關系網,帶來更多的關聯(lián)關系。因此未來檢索系統(tǒng)技術將需要為用戶提供越來越多的關系分析,圖數(shù)據(jù)庫的加入會更好地解決這個問題。圖數(shù)據(jù)目前在存儲管理上主要是面對大數(shù)據(jù)量和實時更新的要求仍有困難,這也是將來該系統(tǒng)的改進方向之一。
參考文獻:
[1] 邱勝海,王云霞,樊樹海,賈曉林.云環(huán)境下圖數(shù)據(jù)庫建模技術及其應用研究[J].計算機應用研究,2016,33(3):794-797.
[2] 廖理.基于Neo4j圖數(shù)據(jù)庫的時空數(shù)據(jù)存儲[J].信息安全與技術,2015,6(8):43-44,56.
[3] 周美麗,白宗文.基于形狀特征的圖像檢索系統(tǒng)的設計[J].國外電子測量技術,2015,34(06):82-84.
[4] 胡德華,種樂熹,邱均平,李俊.國內外知識檢索研究的進展與趨勢[J].圖書情報知識,2015(03):93-106.
[5] 項靈輝,顧進廣,吳鋼.基于圖數(shù)據(jù)庫的RDF數(shù)據(jù)分布式存儲[J].計算機應用與軟件,2014,31(11):35-39.
[6] Cihan Kü?ükke?eci,Adnan Yaz?c?. Big Data Model Simulation on a Graph Database for Surveillance in Wireless Multimedia Sensor Networks[J]. Big Data Research,2018,11.
【通聯(lián)編輯:梁書】