国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關系數(shù)據(jù)庫向Neo4j圖數(shù)據(jù)庫轉化的應用研究
——以工程科技詞系統(tǒng)為例

2021-12-04 08:50:36韓紅旗悅林東
中國科技資源導刊 2021年5期
關鍵詞:中圖法關系數(shù)據(jù)庫詞表

王 力 韓紅旗 高 雄 悅林東 張 琳 邱 爽

(1.中國科學技術信息研究所,北京 100038;2. 富媒體數(shù)字出版內(nèi)容組織與知識服務重點實驗室,北京 100038;3. 北京建筑大學,北京 100044)

0 引言

科技創(chuàng)新的活動中離不開科技信息資源的支撐。日益增長的信息數(shù)量正在對科技資源服務和知識技術提出了更高的要求。知識組織系統(tǒng)是知識技術的核心,可有效提高各類資源的開發(fā)利用效率。詞表系統(tǒng)是基于知識組織的核心思想,對某一主題法實體的具體體現(xiàn),包括分類表、敘詞表、可檢詞單、同義詞環(huán)、術語表、名稱規(guī)范文檔等[1]。其主要用途是方便科技信息工作者更準確、全面地標引和檢索文獻。漢語科技詞系統(tǒng)是在詞表系統(tǒng)的基礎上,充分吸收本體思想而構建的專業(yè)領域知識服務系統(tǒng),既能支持傳統(tǒng)的敘詞表、分類、范疇等,又能支持用戶自定義的屬性和關系,具有良好的知識組織系統(tǒng)兼容性,本質上是一種知識庫資源。詞系統(tǒng)能夠有效滿足科技信息資源深度加工的需要,為高水平科技服務提供了知識組織內(nèi)容資源[2]。

工程科技詞系統(tǒng)全稱是中國工程科技知識中心知識組織系統(tǒng),由中國工程科技知識中心委托中國科學技術信息研究所在20余分中心提供的領域詞表基礎上建設的,旨在促進各類資源的匯集、融合、連通和共享,支持知識中心的各項知識服務功能。其發(fā)展歷經(jīng)了集成融合、關系和屬性擴展以及詞系統(tǒng)協(xié)同構建3個階段。該系統(tǒng)以詞條(Term)作為基本組織對象,包含基本信息、定義及注釋、屬性、多維分類、詞條之間的關系以及形式化概念描述等知識結構。其中,詞間關系可精確定位一個概念;屬性可對一條詞條進行限定;分類包括3個分類體系,即《中國圖書館分類法》(CLC)、《國際專類分類法》(IPC)和領域相關分類體系(DSC);形式化概念描述有利于詞系統(tǒng)自動化分析和計算。通過對這4個要素的不斷優(yōu)化和完善,可以有效提高詞系統(tǒng)知識服務功能的發(fā)揮,促進行業(yè)知識服務產(chǎn)品的推廣和應用。

現(xiàn)有詞系統(tǒng)包含了21個詞表,有2 469 796個詞條、3 180 610個關系,并以關系數(shù)據(jù)庫的形式存儲,廣泛應用于知識中心和各下屬分中心的知識組織體系及資源建設中。自20世紀80年代以來,關系數(shù)據(jù)庫一直是數(shù)據(jù)庫領域發(fā)展的主力并持續(xù)至今,具有簡單、易操作的優(yōu)點。但當面臨大規(guī)模數(shù)據(jù)作業(yè)時,則需要耗費大量的時間和操作成本,并且缺乏連通性[3]?;陉P系數(shù)據(jù)庫構建的詞系統(tǒng),其詞條和關系是分開存儲的,并利用主鍵、外鍵等建立數(shù)據(jù)庫表間的關系。這種存儲方式帶來的主要問題是:若用戶想獲取某個關系詞條的名稱,或檢索與某詞條具有某種關系的詞條集合等,常需通過資源消耗較大的連接(join)操作來實現(xiàn);基于關系數(shù)據(jù)庫存儲的詞表缺乏跨知識鏈接的能力,具體表現(xiàn)為同名概念詞匯在多個領域的無關系存儲為跨領域的知識檢索帶來不便;缺乏一套靈活的分類體系存儲方案,無法將分類與概念知識進行有效鏈接。此外,在增加屬性或關系等詞表擴展上,關系數(shù)據(jù)庫也對數(shù)據(jù)庫設計和使用者提出了較高的要求。

和關系數(shù)據(jù)庫相比,圖數(shù)據(jù)庫更善于處理大量復雜、低結構化且互連接的數(shù)據(jù),支持用戶頻繁的查詢,并且采用去中心化分布式存儲,易于擴展應用到多臺服務器上,支持Java、Python等多種流行語言調用[4]。隨著互聯(lián)網(wǎng)技術的發(fā)展,傳統(tǒng)的關系數(shù)據(jù)庫已不能很好地滿足用戶信息組織和知識服務方面的需求,限制了詞系統(tǒng)功能的發(fā)揮。因此,將大規(guī)模詞系統(tǒng)從關系數(shù)據(jù)庫向圖數(shù)據(jù)庫的轉化逐漸成為系統(tǒng)升級的首要選擇。Neo4j是一種同時支持節(jié)點和關系的屬性定義的圖數(shù)據(jù)庫,可以清晰、靈活地表示節(jié)點、關系和屬性元素,能實現(xiàn)專業(yè)數(shù)據(jù)庫級別的圖數(shù)據(jù)模型的存儲;可以靈活添加或更改數(shù)據(jù)和數(shù)據(jù)類型,提供更快的事務處理和數(shù)據(jù)關系處理功能,有利于縮短開發(fā)時間,實現(xiàn)項目的敏捷、迭代開發(fā)。因此,本文基于工程科技詞系統(tǒng)在發(fā)展和應用過程中的問題,提出了詞系統(tǒng)的圖數(shù)據(jù)庫存儲方案,并選擇Neo4j作為存儲的圖數(shù)據(jù)庫實現(xiàn)詞系統(tǒng)從關系數(shù)據(jù)庫向圖數(shù)據(jù)庫的轉化,重點解決詞系統(tǒng)中同名詞檢索、詞條屬性及詞條間關系映射和詞系統(tǒng)分類體系表達等問題。

1 圖數(shù)據(jù)庫研究現(xiàn)狀及分析

近年來,圖數(shù)據(jù)庫應用廣泛[5-7],它支持百億乃至千億量級規(guī)模的巨型圖的存儲。圖數(shù)據(jù)庫是以圖論為理論基礎,以節(jié)點和關系所組成的圖作為數(shù)據(jù)模型的數(shù)據(jù)庫,具有良好的可擴展性和互操作性,可實現(xiàn)高效的圖數(shù)據(jù)利用和圖分析[8]。圖分析可以深入探索各種實體(如組織,人員,交易)之間復雜的相互關系。

主要的圖數(shù)據(jù)存儲系統(tǒng)包括RDF圖模型和屬性圖模型。前者以RDF(Resource Description Framework)三元組為存儲對象。RDF由節(jié)點和邊組成,節(jié)點表示實體/資源或者屬性,邊表示實體和實體之間的關系以及實體和屬性的關系。RDF圖模型具有較成熟的標準體系和標準查詢語言SparQL,常見的數(shù)據(jù)庫有Jena和Virtuoso等。屬性圖是目前主流圖數(shù)據(jù)庫選擇的數(shù)據(jù)模型,更確切地說是帶標簽的屬性圖(Labeled-Property Graph),它的節(jié)點和邊都可以定義屬性。常見的圖數(shù)據(jù)庫有Neo4j、GraphDB和FlockDB等[9]。其中,Neo4j實現(xiàn)了專業(yè)級別的圖數(shù)據(jù)模型存儲和高性能的圖遍歷功能,已被數(shù)十萬家公司和組織采用。Neo4j主要元素包括節(jié)點、關系、屬性和實體標簽。這些不同元素存儲在不同的文件中,具有明確的存儲職責劃分,并以圖的形式進行鏈接,邊緣信息則作為屬性存儲起來(圖1)。Neo4j主要采用的是Cypher查詢語言。該語言是一種聲明式圖數(shù)據(jù)庫查詢語言,具有豐富的表現(xiàn)力,能高效地查詢和更新圖數(shù)據(jù)[10]。

圖1 圖數(shù)據(jù)庫模型

將關系數(shù)據(jù)庫轉化為RDF圖模型已有了較多的研究。例如,Angels R[6]等詳細地分析了圖數(shù)據(jù)庫的整體框架,并闡述了知識在圖數(shù)據(jù)庫中的存儲形式。師波等[11]提出了一種能自動將關系數(shù)據(jù)庫數(shù)據(jù)轉換為 RDF 的方法,并通過實驗驗證了該方法的可行性。張曄等[12]針對基于關系數(shù)據(jù)庫構建的Acemap系統(tǒng)中存在的多表聯(lián)合查詢和擴展性差的問題,提出了三元組形式存儲的圖數(shù)據(jù)庫解決方案。隨著本體研究的不斷深入,OWL本體作為RDF本體的擴展,已得到廣泛應用。黃奇等[13-14]提出了基于圖形數(shù)據(jù)庫的OWL本體存儲模型,該模型滿足模式結構的規(guī)范性、穩(wěn)定性、可理解性,保證了語義的完備性,是一種理論上可行的規(guī)范存儲模型,并以全球產(chǎn)品分類GPC為例,設計實現(xiàn)了產(chǎn)品分類本體的圖數(shù)據(jù)庫存儲。這種RDF圖雖然學術界研究較多,易于數(shù)據(jù)的發(fā)布、分享,但由于三元組的實體和關系不包含屬性,不支持兩個同樣實體之間的多個同類關系,缺少靈活性,在實際應用中存在諸多不便。因此,近年來很多商業(yè)應用開始考慮采用圖數(shù)據(jù)庫取代以RDF圖為基礎的SparQL數(shù)據(jù)庫。

隨著基于屬性圖的圖數(shù)據(jù)庫的成熟和發(fā)展,已有一些學者針對關系數(shù)據(jù)庫和圖數(shù)據(jù)庫之間轉化的問題開展了研究。例如,郭林斐等[15]分析了關系數(shù)據(jù)庫的不足和圖數(shù)據(jù)庫的優(yōu)勢,基于Neo4j建立了用于處理不確定性歷史數(shù)據(jù)的通用數(shù)學模型,解決了不確定性歷史數(shù)據(jù)的語義框架問題。陳青云等[16]對敘詞表進行加工,以機械領域為例,將傳統(tǒng)敘詞表轉換成SKOS本體,并利用Neo4j加以存儲。沈思等[17]從知識服務的角度出發(fā),結合了圖數(shù)據(jù)庫的特點提出了分類表知識組織結構,并給出了分類表的圖數(shù)據(jù)庫存儲方案。

從當前研究可以發(fā)現(xiàn),尚未形成一套完整的詞表系統(tǒng)向圖數(shù)據(jù)庫轉化存儲方案?,F(xiàn)有的部分研究雖探討了詞表和分類的圖數(shù)據(jù)庫存儲,但并未解決多領域詞表的圖數(shù)據(jù)庫轉化及分類與詞表的映射問題。因此,本文在前人研究的基礎上,分析了工程科技詞系統(tǒng)的知識結構特點,針對詞系統(tǒng)現(xiàn)存問題,提出了基于Neo4j圖數(shù)據(jù)庫的詞系統(tǒng)存儲方案。

2 基于Neo4j的詞系統(tǒng)存儲方案

依據(jù)現(xiàn)有詞表系統(tǒng)發(fā)展過程中產(chǎn)生的實際需求,提出基于Neo4j的詞系統(tǒng)存儲方案。將現(xiàn)有詞系統(tǒng)從關系數(shù)據(jù)庫轉化為Neo4j圖數(shù)據(jù)庫主要考慮以下3個問題:一是現(xiàn)存詞表是用多張關聯(lián)表的關系數(shù)據(jù)庫格式進行存儲,詞條范圍覆蓋多個工程領域,有些相同名稱的詞條出現(xiàn)在不同領域的詞表中,具有不同的詞條含義。因此,在關系數(shù)據(jù)庫中索引這類詞條時,會耗費大量操作和時間,大大降低了詞系統(tǒng)的知識服務功能的發(fā)揮。二是當前詞系統(tǒng)中詞條之間的關系是一種重要的知識存在,通過詞條關系可以較為精確地定位一個概念。詞條的屬性是對詞條的另一種限定,是詞條另一種重要的描述形式。因此,是否能將關系和屬性進行良好的表達是詞系統(tǒng)能否提高知識服務水平的關鍵。三是分類表是詞系統(tǒng)的一個重要資源,當前詞系統(tǒng)支持多維分類,即一個詞條可以用不同的分類法類目加以標識。因此,如何將分類體系轉化成Neo4j進行存儲也是至關重要的。

2.1 同名詞處理

同名詞是指在不同領域詞表中出現(xiàn)的相同名稱的詞條。例如,名稱為A的詞條(Term)既存在于敘詞表(Thesaurus)Ⅰ中,又存在于敘詞表(Thesaurus)Ⅱ中。對同名詞進行檢索可以實現(xiàn)跨領域的知識鏈接。然而,在關系數(shù)據(jù)庫中,對同名詞A的詞條(Term)A檢索時為順序檢索,這大大降低了檢索效率。在轉換為圖數(shù)據(jù)庫時,一個解決方案是在不同詞表的同名詞條間建立sameAs關系,然而這會增加關系(邊)的存儲數(shù)量,而且不利于了解哪些概念具有跨領域特征。例如,若5個詞表存在同一個同名詞,需要增加10條具有sameAs關系的邊,且需通過查找全部sameAs關系并在去重后才能知道哪些詞存在于多個領域。因此,本文提出了同名詞檢索轉化方案(圖2)。

圖2以兩個同名詞為例,多個同名詞的處理與之相同。同名詞條(Term)A在敘詞表(Thesaurus)Ⅰ中與詞條(Term)B具有關系(relation)α,在敘詞表(Thesaurus)Ⅱ中與詞條(Term)C具有關系(relation)β。建立一類特殊節(jié)點,標簽命名為Polysemy。這樣同名詞條(Term)A就可以表示為Polysemy{Term A},該節(jié)點與分布在敘詞表(Thesaurus)Ⅰ和敘詞表(Thesaurus)Ⅱ中的ThesaurusⅠ{TermA}及ThesaurusⅡ{TermA}建立鏈接。

圖2 同名詞檢索轉化方案

當用戶檢索詞條(Term)A時,可同時找到在敘詞表(Thesaurus)Ⅰ中與詞條(Term)A有關系(relation)α的詞條(Term)B以及在敘詞表(Thesaurus)Ⅱ有關系(relation)β的詞條(Term)C。

2.2 詞表關系處理

詞間關系是詞系統(tǒng)中一種重要知識的存在。詞間一級關系有3種基本類型,分別是等同關系、層級關系和相關關系。其中,等同關系是有方向的,涵蓋了敘詞表或主題詞表中的用代關系;層級關系是有方向的,涵蓋了敘詞表或主題詞表中的屬分關系;相關關系是無方向的,對應了敘詞表或主題詞表中的參關系。和傳統(tǒng)敘詞表或主題詞表相比,詞系統(tǒng)中的關系定義支持二級關系,更為復雜和靈活。其中,等同關系的二級類型包括“全稱是”“縮略為”等;層次關系的二級類型包括“參與構成”“構成成分”等;相關關系依據(jù)領域的不同又分為控制關系、時間關系、空間關系、因果關系等類型。本文將這類關系稱為相關關系,二級類型包括“替代”“影響”等(表1)。

表1 關系數(shù)據(jù)庫中的關系表

為了解決二級關系在Neo4j中的存儲,我們將二級關系名稱轉變?yōu)橐患夑P系的屬性來實現(xiàn)詞條間關系的描述。在實現(xiàn)方案中,關系數(shù)據(jù)庫中的一級類型映射到Neo4j中作為關系名稱出現(xiàn),而二級類型作為關系的屬性類型,即將二級類型作為關系的類型(type)呈現(xiàn)。例如,“等同關系—全稱是”“層次關系—參與構成”“相關關系—影響”可采用圖3所示的方式進行轉化和存儲。Neo4j中的關系一般是有方向的,因此在轉化的過程中,對于無方向的關系需要創(chuàng)建雙向的關系。

圖3 關系轉化示意

2.3 詞表屬性處理

詞系統(tǒng)中屬性描述模式和關系相似,存在二級屬性(表2)。

表2 關系數(shù)據(jù)庫中的屬性表

在將關系數(shù)據(jù)庫存儲的詞系統(tǒng)轉化為Neo4j的過程中,屬性表的處理較為復雜,主要原因在于屬性表中一級類型和二級類型的表示問題。如果只把二級類型保留作為詞條間關系,則丟失了一級類型屬性信息。同樣地,若只把一級類型作為詞條間關系名稱,則失去了更為詳細的二級類型屬性信息。為了保留詞條的二級屬性信息,提出屬性轉化解決方案(圖4)。

圖4 屬性轉化方案示意

在該方案中,將一級類型的屬性抽象為一類標簽(采用PropertyNode表示),將一級屬性名稱用name屬性來描述;將二級類型的屬性抽象為一類關系,將二級屬性的名稱作為屬性關系類型的type屬性。這樣在實例化時,詞條的屬性值作為PropertyNode節(jié)點的一個屬性值,就可以在保留詞條的一級和二級屬性信息的同時,解決詞條屬性值的存儲問題。

2.4 分類表處理方案

工程科技詞系統(tǒng)的分類體系包括《中國圖書館分類法》(CLC)、《國際專類分類法》(IPC)和領域相關分類體系(DSC)。在關系數(shù)據(jù)庫中,這3個分類體系分別作為3張表進行存儲。將分類表轉化成Neo4j存儲的主要目的是構建一個可以靈活使用的分類體系。本文以《中國圖書館分類法》(以下簡稱“《中圖法》”)為例,提出詞表轉化的方案,IPC和DSC可以采用類似的方法實現(xiàn)。

《中圖法》是以科學分類和知識分類為基礎、結合文獻內(nèi)容特點及形式特征進行邏輯劃分和系統(tǒng)排列的類目表,是類分文獻、組織文獻分類排架、編制分類檢索系統(tǒng)的工具?!吨袌D法》共分5個基本部類、22個大類,大類下面又分為多層次子類。采用漢語拼音字母與阿拉伯數(shù)字相結合的混合號碼,用一個字母代表一個大類,以字母順序反映大類的次序,在字母后用數(shù)字作標記。

在《中圖法》分類表轉化的過程中,為了表示《中圖法》的一個類目,我們定義了一類“CLC”標簽。該類標簽具有兩個基本的屬性:一個屬性名是CID,用來存儲類目的編碼,如“TD1”;另一個屬性名是name,用來存儲類目的名稱,例如“礦山地質與測量”。為了表示類目之間的層級關系,我們定義了關系類型“subClass”作為上下級類目之間的鏈接。該關系類型具有一個基本屬性“l(fā)evel”,用來表示關系的級別(圖5)。

圖5 屬性轉化方案示意

詞系統(tǒng)中建立了詞條與分類類目之間的鏈接關系。一般來說,詞條和《中圖法》類目之間存在著多對多的關系,即一個詞條可能與多個《中圖法》類目存在關聯(lián)關系,同時一個《中圖法》類目與多個詞條間存在關聯(lián)關系(圖6)。

圖6 分類關系描述示意

在將《中圖法》轉化為Neo4j存儲后,可以方便地表示詞條在《中圖法》之間存在的多對多關系。為此,我們定義了“TermOfCLC”關系,從一個詞條指向《中圖法》一個類目(圖7)。

圖7 分類體系轉化方案示意

3 實驗結果及分析

本實驗的硬件環(huán)境為64位的Windows 7操作系統(tǒng);8 GB內(nèi)存、AMD A10CPU。軟件環(huán)境為1.8版本的JDK 8.0的Mysql和3.4.17版本的Neo4j。采用的數(shù)據(jù)來自于中國工程科技知識中心的知識組織系統(tǒng),共包含21個詞表。采用提出的存儲方案后實現(xiàn)了將詞系統(tǒng)從MySql關系數(shù)據(jù)庫向Neo4j圖數(shù)據(jù)庫的轉化。圖8是轉換后的一個片段的可視化展示。在圖8中,“polysemy”代表新增加的同名詞類的節(jié)點,“數(shù)據(jù)合并”和“數(shù)據(jù)處理”這兩個詞分別在“地質學主題詞表”“信息中心主題詞表”和“環(huán)境保護主題詞表”這3個表中出現(xiàn)過,具體關系如圖8中左邊部分所示。圖8的下面分別展示了關系和屬性的具體描述信息。

圖8 Neo4j存儲示意

為了驗證轉化后詞系統(tǒng)的檢索性能,開展了檢索時間對比實驗和關聯(lián)路徑查詢實驗。檢索時間對比實驗是為了驗證轉化后詞表知識資源利用的高效性;關聯(lián)路徑查詢實驗是為了展示圖數(shù)據(jù)庫在檢索的詞表知識路徑的便捷性。

3.1 檢索時間對比實驗

選擇“有色金屬”“黑色金屬”兩個領域的詞表進行對比實驗。數(shù)據(jù)信息共包括詞條27 373條,詞條關系70 785條,詞條屬性16 673條,詞條分類11 837條;《中國圖書館分類法》《國際專利分類法》兩個分類法,共有類目109 441條。

隨機選擇一個分類類目特種結構材料(TB383),在Mysql和Neo4j中分別檢索其下所有的詞條信息。檢索結果見表3。

表3 關系數(shù)據(jù)庫與圖數(shù)據(jù)庫檢索時間

和關系數(shù)據(jù)庫的平均檢索時間0.950秒相比,基于Neo4j存儲的工程科技詞系統(tǒng)在檢索詞條時只需0.129秒,大大降低了檢索時間,有效地提高了檢索效率。

3.2 詞條關系路徑查詢

兩個詞條關系路徑查詢有助于了解兩個概念詞匯之間的關聯(lián)關系,即了解相關知識之間深層次的關系。以詞系統(tǒng)中的“球墨鑄鐵”和“脫碳相”兩個詞條為例(圖9),這兩個詞條之間并沒有任何直接關系。如果要在關系數(shù)據(jù)庫中查找它們的路徑,需要找到“球墨鑄鐵”的關系詞條,然后通過關系詞條查找其直接關聯(lián)的詞條,再從關聯(lián)的每一個詞條出發(fā),重復延伸關系,一直找到“脫碳相”為止。假設“球墨鑄鐵”到“脫碳相”之間有N個節(jié)點,每個節(jié)點的關系數(shù)量為T。在關系數(shù)據(jù)庫中,若要得到“球墨鑄鐵”與“脫碳相”之間的關系,只有遍歷最大N×T次,才能得到。

圖9 圖數(shù)據(jù)庫示意

而在Neo4j中,可以使用查詢語句直接獲取到“球墨鑄鐵”與“脫碳相”之間的關系。查詢語句為:MATCH (a:`黑色金屬`{中文名稱:"球墨鑄鐵"}),(b:`黑色金屬`{中文名稱:"脫 碳 相"}) return (a)-[*]->(b);也可直接使用allshortestPaths獲取所有最短路徑,即MATCH n=allshortestPaths((a:`黑色金屬`{中文名稱:”球墨鑄鐵”})-[*]-(b:`黑色金屬`{中文名稱:”脫碳相”})) return n。查詢結果見圖10。

圖10 關系路徑查詢示意

可見,在詞系統(tǒng)中獲取沒有直接關系且相距較遠的兩個詞條之間的關聯(lián)時,Mysql數(shù)據(jù)庫需要極其復雜的操作過程才能實現(xiàn),普通人員幾乎無法完成,而在Neo4j中卻可輕松實現(xiàn)。Neo4j不僅支持所有路徑的查詢,而且提供了最短路徑、所有最短路徑、路徑深度配置的查詢,為關聯(lián)詞條的查詢提供了便捷性。

3.3 詞條信息動態(tài)更新

因為關系數(shù)據(jù)庫要考慮規(guī)范化的問題,一個詞條完整的信息常常保存在若干個表中,而圖數(shù)據(jù)庫是屬性圖,不存在這個問題,在詞條信息動態(tài)更新時更加簡便。因此,在增刪改查方面,Neo4j的操作效率和可維護性一般要遠高于關系數(shù)據(jù)庫。下面以為一個詞條增加一個屬性來說明。具體來說,操作是在詞條屬性中添加一個新屬性(字段),并為其添加一個詞條屬性的值,描述當前詞條屬性的來源。

在關系數(shù)據(jù)庫中,描述詞條屬性共有3個表,分別為詞條信息表、屬性類型表、詞條屬性信息表。在關系數(shù)據(jù)庫中的詞條“生鐵”,在詞條屬性表中描述信息如圖11所示,該圖是由3個表關聯(lián)查詢得到的結果。

圖11 關系數(shù)據(jù)庫中詞條屬性信息

若對“生鐵”添加新的屬性“應用場景:軌道”,添加來源字段為“漢語科技詞系統(tǒng)”。在關系數(shù)據(jù)庫中需先添加字段:

alter tablelogin_user add source varchar(255)DEFAULT NULL;

然后執(zhí)行插入操作:

INSERT INTO fhcb_tbl_term_attribute(termId,attributeId,content,source)

SELECT t2.id as termId,

(SELECT t3.id from fhcb_tbl_attribute t3 where t3.name=‘應用場景’)as attributedId,‘軌道’as content,‘漢語科技詞系統(tǒng)’as sourcefrom fhcb_tbl_term t2 where t2.‘name’=‘生鐵’

在執(zhí)行插入操作的過程中,需要分別在詞條所在的詞表和屬性類型表中找到其對應的id,在獲取id后再進行插入。此外,對于使用關系數(shù)據(jù)庫為存儲的應用系統(tǒng)中,在開發(fā)時,還需要對數(shù)據(jù)庫表修改實體類文件的字段,相應的接口層都需要進行修改,涉及大量的代碼編程,操作較繁瑣。

在Neo4j圖數(shù)據(jù)庫中,可直接插入詞條屬性,操作簡單,無需對整個結構進行修改。其執(zhí)行語句為:

MATCH (n{`中文名稱`: ‘生 鐵’}) SET n.source = '漢語科技詞系統(tǒng)',n.`應用場景`='軌道' RETURN n;

4 結論與展望

搜索和存儲數(shù)據(jù)所付出的成本浪費是當前大數(shù)據(jù)研究普遍存在的問題[18-19]。本文基于工程科技領域詞系統(tǒng)知識資源有效利用的需求,針對同名詞檢索、詞間關系和屬性以及詞系統(tǒng)中分類體系表達這3個問題,提出了由關系數(shù)據(jù)庫向Neo4j存儲的轉化方案。該轉化方案可以有效地解決同名詞檢索、詞條屬性及詞條間關系映射和詞系統(tǒng)分類體系表達。詞表系統(tǒng)轉化為圖數(shù)據(jù)庫后,不僅提高了知識檢索的速度,而且可以便捷地實現(xiàn)知識關聯(lián)地查詢,可以更加方便地實現(xiàn)詞條的動態(tài)更新。

圖數(shù)據(jù)庫為知識組織系統(tǒng)發(fā)展帶來了新的機遇和挑戰(zhàn)。它不僅能夠解決現(xiàn)有詞表系統(tǒng)的存儲和數(shù)據(jù)更新維護等問題,而且以其良好的特性幫助用戶更好地理解知識,實現(xiàn)詞表知識的高效利用。本文提出的詞表系統(tǒng)向圖數(shù)據(jù)庫轉化方案,可以解決多領域詞表系統(tǒng)的圖數(shù)據(jù)庫轉化,以及分類與詞表的映射這兩個問題,為未來知識組織系統(tǒng)的有效利用提供了基礎。

本文的研究對象是工程科技領域詞系統(tǒng),和敘詞表、主題詞表或一般類型詞表相比,詞系統(tǒng)從規(guī)模和結構上更加龐大和復雜。因此,本文提出的方案可以廣泛適用于其他類型詞表的圖數(shù)據(jù)庫轉化上。但在實際的應用過程中,還需在本方案基礎上結合各個類型詞表自身特征進行修改。

猜你喜歡
中圖法關系數(shù)據(jù)庫詞表
關系數(shù)據(jù)庫在高爐數(shù)據(jù)采集系統(tǒng)中的應用
山東冶金(2022年2期)2022-08-08 01:51:30
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
英語世界(2021年13期)2021-01-12 05:47:51
敘詞表與其他詞表的互操作標準
基于索引結構的關系數(shù)據(jù)庫關鍵詞檢索
知識圖譜視角下《中國圖書館分類法》研究演進與思考
一種基于數(shù)據(jù)圖劃分的關系數(shù)據(jù)庫關鍵詞檢索方法
國外敘詞表的應用與發(fā)展趨勢探討*
圖書館建設(2012年3期)2012-10-23 05:16:30
《中圖法》與《中分表》修訂信息(連載3)
基于用戶反饋的關系數(shù)據(jù)庫關鍵字查詢系統(tǒng)
常用聯(lián)綿詞表
對聯(lián)(2011年20期)2011-09-19 06:24:36
衡阳县| 鄂托克旗| 凤山县| 股票| 平谷区| 若尔盖县| 万载县| 西青区| 芦山县| 隆尧县| 甘谷县| 常熟市| 罗田县| 大渡口区| 鲜城| 化德县| 隆回县| 金堂县| 思茅市| 成都市| 德庆县| 分宜县| 交城县| 乌鲁木齐市| 安吉县| 阜平县| 余庆县| 永新县| 怀安县| 平利县| 泗洪县| 青神县| 额尔古纳市| 台中市| 忻州市| 诸暨市| 上饶市| 桂阳县| 惠安县| 固阳县| 静宁县|