面向智慧文博的知識(shí)圖譜構(gòu)建綜述

2022-05-26 08:56:02張浩然

軟件導(dǎo)刊 2022年5期

趙卓，田侃，張殊，張晨，吳濤，張浩然

（1.重慶中國三峽博物館文物信息部，重慶 400015；2.重慶郵電大學(xué)網(wǎng)絡(luò)空間安全與信息法學(xué)院，重慶 400065）

0 引言

隨著社會(huì)經(jīng)濟(jì)的發(fā)展和生活水平的不斷提高，人們?cè)絹碓街匾暰裆?，也更加有條件享受豐富多彩的精神文化產(chǎn)品。博物館是征集、典藏、陳列和研究自然遺跡和人類文化遺產(chǎn)的場所，擁有大量具有科學(xué)性、歷史性和藝術(shù)價(jià)值的物品，能夠?yàn)楣娞峁┲R(shí)、教育和公益性文化服務(wù)［1］。如何讓文物活起來，使博物館成為公共文化服務(wù)體系的重要載體，成為大眾終身學(xué)習(xí)的精神課堂，是近年來社會(huì)對(duì)博物館行業(yè)的普遍期望，也是博物館行業(yè)的重要工作方向。如何更好地挖掘傳播地區(qū)歷史文化、創(chuàng)建具有吸引力的文化產(chǎn)品以及提供良好的公共文化服務(wù)是博物館工作的重要訴求。

圍繞文博行業(yè)現(xiàn)狀以及社會(huì)實(shí)際需要，我國頻繁出臺(tái)文物保護(hù)和博物館建設(shè)的政策，使文博行業(yè)能更好地服務(wù)于國家文化發(fā)展需要，滿足人民群眾精神文化需求。2015年2 月，國務(wù)院發(fā)布了《博物館條例》，鼓勵(lì)博物館向公眾免費(fèi)開放。2016 年3 月，國務(wù)院印發(fā)的《關(guān)于進(jìn)一步加強(qiáng)文物工作的指導(dǎo)意見》倡導(dǎo)大力發(fā)展文博創(chuàng)意產(chǎn)業(yè)。2017年4 月，文化部出臺(tái)《文化部“十三五”時(shí)期文化科技創(chuàng)新規(guī)劃》，提出要實(shí)現(xiàn)我國文化、藝術(shù)與科技的融合。實(shí)際上，通過近20 年的信息化建設(shè)，博物館數(shù)字資源數(shù)量、質(zhì)量穩(wěn)步上升，藏品資源、藏品管理、多媒體展示、專用業(yè)務(wù)系統(tǒng)等均取得了不斐成績。然而，隨著大數(shù)據(jù)、人工智能等新興技術(shù)的出現(xiàn)，科技與文化融合成為博物館領(lǐng)域新的發(fā)展趨勢(shì)，智能化技術(shù)應(yīng)用成為未來博物館發(fā)展的必由之路。

知識(shí)圖譜以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體間的復(fù)雜關(guān)系，提供了一種高效組織、管理海量信息的方式。傳統(tǒng)的圖像、語音等人工智能領(lǐng)域主要關(guān)注感知智能，而知識(shí)圖譜的重點(diǎn)在于通過知識(shí)與模型的融合實(shí)現(xiàn)認(rèn)知推理，支持高水平的知識(shí)表示與計(jì)算。目前，知識(shí)圖譜通過與問答、搜索、推薦等應(yīng)用相結(jié)合已被廣泛應(yīng)用于金融、醫(yī)療、電商等領(lǐng)域。為顯著提升文化遺產(chǎn)傳承能力，本文聚焦適合博物館的知識(shí)圖譜系統(tǒng)構(gòu)建問題，首先對(duì)文博領(lǐng)域知識(shí)圖譜系統(tǒng)的構(gòu)建過程和方案進(jìn)行概述，然后介紹知識(shí)圖譜構(gòu)建的主要流程和關(guān)鍵技術(shù)，最后對(duì)未來值得關(guān)注的研究方向進(jìn)行初步探討。

1 文博知識(shí)圖譜研究現(xiàn)狀

知識(shí)圖譜在文化、博物館領(lǐng)域的應(yīng)用處于起步階段，取得了一定研究成果。例如，張建星［2］研究了基于大數(shù)據(jù)環(huán)境的中國傳統(tǒng)文化知識(shí)圖譜構(gòu)建框架，設(shè)計(jì)了由事件、人物、時(shí)間、地點(diǎn)、社會(huì)背景、文化領(lǐng)域六元組組成的中國傳統(tǒng)文化本體模型，構(gòu)建了中國傳統(tǒng)文化知識(shí)庫；萬靜等［3］介紹了知識(shí)圖譜在國內(nèi)外的研究應(yīng)用情況，探討了其在智慧博物館建設(shè)中的初步應(yīng)用設(shè)想；張娜［4］針對(duì)當(dāng)前文物知識(shí)圖譜依賴于人工構(gòu)建、缺乏自動(dòng)化方法的問題，對(duì)文物知識(shí)圖譜構(gòu)建過程中的文物關(guān)系自動(dòng)抽取技術(shù)進(jìn)行了研究，設(shè)計(jì)并實(shí)現(xiàn)了完整的文物知識(shí)圖譜構(gòu)建與展示方案；劉芳等［5］設(shè)計(jì)了以藏品、多媒體、展覽、項(xiàng)目、人員、機(jī)構(gòu)、文獻(xiàn)等實(shí)體為核心的知識(shí)圖譜，探討了知識(shí)圖譜在檢索優(yōu)化、智能推薦、可視化展示和智能問答領(lǐng)域的應(yīng)用方式；楊偉強(qiáng)［6］以山西博物院專家選取的100 件具有代表性的館藏文物作為構(gòu)建知識(shí)圖譜的基礎(chǔ)性文物擴(kuò)展相關(guān)知識(shí)節(jié)點(diǎn)，通過與領(lǐng)域?qū)＜液献鳎岢鲇糜谥R(shí)表達(dá)的本體模型和標(biāo)準(zhǔn)規(guī)范，采用構(gòu)建文物知識(shí)圖譜的形式形象地展示文物知識(shí)的結(jié)構(gòu)及其之間的聯(lián)系；劉紹南等［7］提出利用文物知識(shí)圖譜對(duì)不同來源、不同格式的海量文物數(shù)據(jù)進(jìn)行分析、展示和利用，然后基于語義檢索、推薦和問答開發(fā)等典型應(yīng)用支撐智慧博物館的建設(shè)。

2 系統(tǒng)架構(gòu)與知識(shí)建模

2.1 系統(tǒng)架構(gòu)

以文博知識(shí)圖譜構(gòu)建為目標(biāo)，聚焦人物、文物、遺跡、建筑、交通、書畫等數(shù)據(jù)，在收集相關(guān)古籍資料、研究成果、學(xué)術(shù)文獻(xiàn)、網(wǎng)絡(luò)資源等基礎(chǔ)上，綜合利用自然語言處理、數(shù)據(jù)挖掘、深度學(xué)習(xí)以及圖計(jì)算等技術(shù)進(jìn)行數(shù)據(jù)分析與知識(shí)抽取，整體知識(shí)圖譜系統(tǒng)構(gòu)建框架如圖1 所示。具體階段介紹如下。

Fig.1 Framework of knowledge graph cultural museum system construction圖1 文博知識(shí)圖譜系統(tǒng)構(gòu)建框架

（1）數(shù)據(jù)存儲(chǔ)與訪問架構(gòu)設(shè)計(jì)。數(shù)據(jù)采集平臺(tái)能夠獲得大量來自考古、交通、宗教等不同領(lǐng)域的文博數(shù)據(jù)，這些數(shù)據(jù)往往具有來源廣泛、規(guī)模龐大、種類繁多、非結(jié)構(gòu)化等特征，現(xiàn)有平臺(tái)的存儲(chǔ)方式無法很好地支持如此復(fù)雜數(shù)據(jù)的高效查詢和分析。如果孤立地管理這些數(shù)據(jù)，會(huì)直接影響平臺(tái)運(yùn)作效率和效果。因此，除了對(duì)每類數(shù)據(jù)單獨(dú)索引外，還需要對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行特征學(xué)習(xí)，建立混合式索引，以提高數(shù)據(jù)訪問效率。

（2）知識(shí)特征提取。針對(duì)考古、交通、軍事、宗教等不同領(lǐng)域的數(shù)據(jù)，通過自然語言處理、機(jī)器學(xué)習(xí)領(lǐng)域前沿理論模型，構(gòu)建多源異構(gòu)數(shù)據(jù)的知識(shí)特征提取與融合方法，進(jìn)行文化數(shù)據(jù)的知識(shí)抽取，將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的知識(shí)表達(dá)形式。

（3）知識(shí)庫構(gòu)建。根據(jù)數(shù)據(jù)的結(jié)構(gòu)特征，在數(shù)據(jù)庫知識(shí)抽取的基礎(chǔ)上，建立文化數(shù)據(jù)知識(shí)表達(dá)模型，對(duì)文物、環(huán)境、歷史文獻(xiàn)、考古資料、歷史事件等海量、多源、異構(gòu)的文化數(shù)據(jù)進(jìn)行規(guī)范化組織，使文物知識(shí)可檢索、可計(jì)算、可自動(dòng)關(guān)聯(lián)，形成文化數(shù)據(jù)標(biāo)準(zhǔn)知識(shí)庫。

（4）文化知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)研究。研究實(shí)體識(shí)別、關(guān)系抽取、實(shí)體鏈接、推理補(bǔ)全、語義消歧等理論與技術(shù)，為知識(shí)圖譜系統(tǒng)的構(gòu)建提供理論與技術(shù)支撐。同時(shí)，分析面向知識(shí)圖譜構(gòu)建文博數(shù)據(jù)的特性問題，展開針對(duì)性研究以突破技術(shù)瓶頸。

（5）知識(shí)圖譜系統(tǒng)構(gòu)建。遵循統(tǒng)一、集約、高效、規(guī)范的原則，構(gòu)建允許知識(shí)檢索、關(guān)聯(lián)挖掘、可視化呈現(xiàn)的知識(shí)圖譜系統(tǒng)，支持可移植、跨平臺(tái)、可配置的需求，自動(dòng)抽取半結(jié)構(gòu)化文本中的屬性和值，實(shí)現(xiàn)知識(shí)審核與校對(duì)，形成知識(shí)圖譜更新管理機(jī)制，建立運(yùn)營管理體系。

2.2 知識(shí)建模

文博知識(shí)圖譜構(gòu)建以古籍資源、學(xué)術(shù)文獻(xiàn)、文物信息等數(shù)據(jù)資源為依托。文物資源包含石刻、建筑、書畫、交通、軍事、考古等，各類文物有相關(guān)的金石著錄、發(fā)掘報(bào)告、研究論文、著作等材料對(duì)其進(jìn)行描述介紹，每個(gè)文物都具有差異化的屬性、特質(zhì)。古籍資源往往以神話傳說、歷史事件、民間故事等形式介紹歷史知識(shí)文化，具有故事差異性大、內(nèi)容龐雜的特點(diǎn)。著名人物數(shù)據(jù)包含出生于或曾到過各個(gè)地區(qū)的書畫家、詩人，以及與之相關(guān)的交通、軍事事件等。文化旅游數(shù)據(jù)包含著名地點(diǎn)以及與之相關(guān)的歷史事件、名人等，涉及文物、古籍、歷史和名人等信息?；谝陨蟽?nèi)容分析，文博數(shù)據(jù)知識(shí)表達(dá)模型如圖2所示。

Fig.2 Cultural data knowledge representation model圖2 文博數(shù)據(jù)知識(shí)表達(dá)模型

2.3 數(shù)據(jù)組織與處理規(guī)范

為了進(jìn)行文博題刻知識(shí)圖譜的構(gòu)建，本文收集整理大量歷史文化數(shù)據(jù)，其中題刻數(shù)據(jù)示例如圖3 所示，其文字內(nèi)容為：“涪江石魚，鐫于波底，現(xiàn)則歲豐。數(shù)千百年來，傳為盛事?？滴跻页蟠赫?，水落而魚復(fù)出。望前二日，偕同人往觀之，仿佛雙魚莫蓂蓮隱躍。蓋因歲久剝落，形質(zhì)模糊，幾不可問。遂命石工刻而新之，俾不至湮沒無傳，且以望豐亨之永兆云爾。時(shí)同游者舊黔令、云間杜同春梅川，州佐、四明王運(yùn)亨元公，旴江吳天衡高倫，何謙文奇，西陵高應(yīng)乾侶叔，郡人劉之益四仙，文珂奚仲。涪州牧?xí)B江蕭星拱薇翰氏記略?！?/p>

Fig.3 Example of Xiao Xinggong reengraving double fish rubbing圖3 蕭星拱重鐫雙魚記拓片示例

可以看出，文博數(shù)據(jù)具有較強(qiáng)的歷史性和專業(yè)性特征，傳統(tǒng)的知識(shí)圖譜技術(shù)無法直接應(yīng)用于文博數(shù)據(jù)處理，需要設(shè)計(jì)合理的文博知識(shí)圖譜構(gòu)建方案。在查閱相關(guān)文博資料的基礎(chǔ)上，綜合分析不同數(shù)據(jù)組織形式的優(yōu)缺點(diǎn)，設(shè)計(jì)用于文博知識(shí)圖譜構(gòu)建的數(shù)據(jù)組織與處理規(guī)范，如圖4 所示。總體來說，基于關(guān)系型數(shù)據(jù)庫實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的簡單、高效檢索，基于實(shí)體、關(guān)系與屬性抽取技術(shù)實(shí)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化處理，基于圖數(shù)據(jù)庫實(shí)現(xiàn)復(fù)雜關(guān)聯(lián)數(shù)據(jù)的存儲(chǔ)與檢索。通過該數(shù)據(jù)組織與處理規(guī)范，可以對(duì)文博數(shù)據(jù)資源進(jìn)行預(yù)處理和標(biāo)準(zhǔn)化存儲(chǔ)，以支撐數(shù)據(jù)的知識(shí)表達(dá)與高效計(jì)算。

Fig.4 Data organization standard for the construction of cultural relic knowledge graph圖4 文博知識(shí)圖譜構(gòu)建的數(shù)據(jù)組織與處理規(guī)范

3 文博知識(shí)抽取方法

3.1 命名實(shí)體識(shí)別

命名實(shí)體識(shí)別（Named Entity Recognition）又稱為實(shí)體識(shí)別，其對(duì)知識(shí)圖譜的構(gòu)建具有重要意義。命名實(shí)體是一個(gè)詞或短語，命名實(shí)體識(shí)別是指在輸入文本中識(shí)別具有特定屬性的實(shí)體。在文本被識(shí)別為實(shí)體后，開發(fā)人員可以對(duì)不同類別的實(shí)體執(zhí)行各種操作。傳統(tǒng)的命名實(shí)體識(shí)別方法主要包括基于規(guī)則的方法、知識(shí)庫方法、監(jiān)督學(xué)習(xí)方法和半監(jiān)督學(xué)習(xí)方法。早期由于計(jì)算能力限制，知識(shí)庫方法和基于規(guī)則的方法被廣泛使用，多通過維護(hù)專門的詞典庫或由專家根據(jù)專門詞匯的特點(diǎn)構(gòu)建規(guī)則以識(shí)別命名實(shí)體。一般來說，每個(gè)規(guī)則都有一個(gè)權(quán)重，發(fā)生規(guī)則沖突時(shí)，權(quán)重最高的規(guī)則用于確定命名實(shí)體的類型?；谝?guī)則的實(shí)體識(shí)別系統(tǒng)通常需要使用實(shí)體字典進(jìn)一步確認(rèn)候選實(shí)體。當(dāng)字典內(nèi)容詳盡時(shí)，基于規(guī)則的系統(tǒng)運(yùn)行良好。然而，基于特定領(lǐng)域和不完備字典的規(guī)則往往導(dǎo)致命名實(shí)體識(shí)別系統(tǒng)召回率低，且這些規(guī)則難以適用于其他領(lǐng)域。近年來，機(jī)器學(xué)習(xí)被廣泛應(yīng)用于各種自然語言處理任務(wù)中，并取得了巨大成功。與知識(shí)庫和基于規(guī)則的方法相比，機(jī)器學(xué)習(xí)方法減少了大量人工干預(yù)，具有優(yōu)越的可移植性?；跈C(jī)器學(xué)習(xí)模型的命名實(shí)體識(shí)別方法會(huì)預(yù)先標(biāo)記語料庫作為訓(xùn)練集，并通過訓(xùn)練模型學(xué)習(xí)相關(guān)特征識(shí)別實(shí)體。

知識(shí)圖譜命名實(shí)體識(shí)別中最具代表性的方法為BERT預(yù)訓(xùn)練模型［8-9］和Bi-LSTM 與CRF 的融合模型［10-11］。Bi-LSTM 與CRF 的融合模型是在Bi-LSTM 的條件上加了一層條件隨機(jī)場作為模型的解碼層，以預(yù)測結(jié)果的合理性。同時(shí)，由于文博數(shù)據(jù)的專業(yè)性和特殊性，基于常見標(biāo)記語料庫的實(shí)體識(shí)別模型無法完全有效識(shí)別數(shù)據(jù)中存在的文物、古籍、年號(hào)、官職等專業(yè)術(shù)語與歷史名稱。因此，本文通過爬蟲、文本分析等方法構(gòu)建功名、官職、年號(hào)、節(jié)日等專有名詞庫，示例如圖5 所示。然后，結(jié)合基于知識(shí)庫和算法模型的方法進(jìn)行命名實(shí)體識(shí)別，從而支撐文博領(lǐng)域?qū)嶓w信息的準(zhǔn)確識(shí)別與發(fā)現(xiàn)。

3.2 知識(shí)圖譜關(guān)系抽取

Fig.5 Example of proper nouns for official positions圖5 官職專有名詞庫示例

關(guān)系抽取（Relationship Extraction）是指在命名實(shí)體識(shí)別之后，根據(jù)句子中的語義信息學(xué)習(xí)實(shí)體間的關(guān)系。準(zhǔn)確的關(guān)系抽取有利于構(gòu)造邏輯結(jié)構(gòu)清晰的圖譜［12-13］?；谝?guī)則的關(guān)系抽取方法通過語言學(xué)知識(shí)對(duì)文本結(jié)構(gòu)抽象出一個(gè)固定的模式集，并對(duì)給定的文本進(jìn)行模式匹配以確定其中關(guān)系?？傮w上，傳統(tǒng)的關(guān)系抽取方法需要大量人力設(shè)計(jì)特征，難以應(yīng)用于大規(guī)模的關(guān)系抽取任務(wù)。近年來，基于深度學(xué)習(xí)的關(guān)系抽取模型被提出，其可自動(dòng)學(xué)習(xí)有效的關(guān)系特征。目前主流的深度學(xué)習(xí)關(guān)系抽取方法包括基于卷積神經(jīng)網(wǎng)絡(luò)模型的關(guān)系抽取方法［14-17］、基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的關(guān)系抽取方法［18-20］以及基于詞法句法模型的關(guān)系抽取方法［21-23］。然而，深度學(xué)習(xí)模型往往需要大量已標(biāo)記訓(xùn)練數(shù)據(jù)。為解決訓(xùn)練數(shù)據(jù)短缺問題，降低模型訓(xùn)練成本，遠(yuǎn)程監(jiān)督（Distant Supervision）模型方法被提出［24］。此外，為降低命名實(shí)體識(shí)別錯(cuò)誤對(duì)關(guān)系抽取準(zhǔn)確率的影響，實(shí)體關(guān)系聯(lián)合抽取方法［25-27］被提出。

為進(jìn)行文博數(shù)據(jù)中實(shí)體關(guān)系的準(zhǔn)確抽取，本文提出基于規(guī)則的方法以及基于正反向迭代式消除的方法。文博數(shù)據(jù)中書名、字號(hào)等信息往往標(biāo)識(shí)性強(qiáng)、規(guī)則清晰，在獲取人名、地名等實(shí)體的基礎(chǔ)上，基于簡單規(guī)則即可準(zhǔn)確發(fā)現(xiàn)人物字號(hào)、官職等關(guān)系信息。而對(duì)于語句中的復(fù)雜關(guān)系，本文提出首先進(jìn)行實(shí)體和屬性識(shí)別與消除、然后在剩余內(nèi)容中正、反雙向識(shí)別語義關(guān)系的迭代式解決方案。

3.3 知識(shí)圖譜關(guān)系推理

知識(shí)圖譜關(guān)系推理（Relationship Inference）是指基于已有的知識(shí)圖譜結(jié)構(gòu)和內(nèi)容信息推理出新的知識(shí)或識(shí)別錯(cuò)誤知識(shí)的過程，可解決文博領(lǐng)域數(shù)據(jù)稀疏的問題，并削減數(shù)據(jù)質(zhì)量不高對(duì)知識(shí)圖譜準(zhǔn)確率和完整性的影響。知識(shí)圖譜關(guān)系推理方法主要包括基于規(guī)則的方法、基于結(jié)構(gòu)相似性估計(jì)的方法、基于結(jié)構(gòu)建模的方法以及基于知識(shí)表示的方法。其中，基于規(guī)則的關(guān)系推理主要通過文博數(shù)據(jù)本體模型中的相關(guān)約束和規(guī)律進(jìn)行推理；基于結(jié)構(gòu)相似性估計(jì)的方法主要包括共同鄰居方法、資源分配方法、局部路徑法等；基于結(jié)構(gòu)建模的關(guān)系推理方法借用網(wǎng)絡(luò)數(shù)據(jù)分析領(lǐng)域的模型算法，包括標(biāo)記傳播（Label Propagation）方法、隨機(jī)行走（Random Walk）方法、圖神經(jīng)網(wǎng)絡(luò)模型（Graph Neural Networks）等；基于知識(shí)表示的方法首先對(duì)知識(shí)圖譜中的實(shí)體和關(guān)系進(jìn)行降維表示，然后基于表示結(jié)果直接計(jì)算實(shí)體之間存在關(guān)系的可能性。知識(shí)表示學(xué)習(xí)方法通過機(jī)器學(xué)習(xí)算法自動(dòng)從數(shù)據(jù)中獲得知識(shí)表示，能夠根據(jù)具體任務(wù)學(xué)習(xí)到合適的特征。目前，最具代表性的知識(shí)表示方法包括TransE［28］、TransH［29］、TransR［30］以及TransD［31］。

本文提出不同顯著性的文博知識(shí)圖譜關(guān)系，采用結(jié)構(gòu)相似性估計(jì)方法、圖神經(jīng)網(wǎng)絡(luò)模型方法以及基于卷積特征表示的少樣本學(xué)習(xí)方法進(jìn)行知識(shí)圖譜的關(guān)系推理。具體來說，對(duì)于局部性、顯著性強(qiáng)的潛在關(guān)系，采用結(jié)構(gòu)相似性估計(jì)方法進(jìn)行預(yù)測；對(duì)于大范圍的復(fù)雜結(jié)構(gòu)關(guān)系，基于圖神經(jīng)網(wǎng)絡(luò)模型方法進(jìn)行結(jié)構(gòu)建模和學(xué)習(xí)，然后利用學(xué)習(xí)到的結(jié)構(gòu)模式指導(dǎo)潛在關(guān)系的推理預(yù)測。由于知識(shí)圖譜中的關(guān)系往往存在長尾現(xiàn)象，即關(guān)系數(shù)量主要集中在少數(shù)幾種類型上，其他類型的關(guān)系數(shù)量較少，不利于建模學(xué)習(xí)，本文提出基于少樣本學(xué)習(xí)的知識(shí)圖譜關(guān)系推理方法。

4 基于Neo4j的知識(shí)圖譜構(gòu)建

知識(shí)圖譜數(shù)據(jù)應(yīng)用的前提是關(guān)聯(lián)數(shù)據(jù)的有效表示和存儲(chǔ)，其數(shù)據(jù)模型主要分為三元組和圖模型兩種［32］。圖數(shù)據(jù)庫因其對(duì)節(jié)點(diǎn)間復(fù)雜關(guān)系的良好支持而成為多數(shù)知識(shí)圖譜的首要存儲(chǔ)選擇。

圖數(shù)據(jù)庫中，數(shù)據(jù)的基本元素包括節(jié)點(diǎn)集合與關(guān)系集合。關(guān)系型數(shù)據(jù)庫能夠較好地凸顯單條數(shù)據(jù)的內(nèi)容和存儲(chǔ)情況，而圖數(shù)據(jù)庫以非結(jié)構(gòu)化的方式存儲(chǔ)關(guān)聯(lián)數(shù)據(jù)，可以直接顯示數(shù)據(jù)的關(guān)聯(lián)特征，在知識(shí)圖譜關(guān)系查詢中效率更高。目前代表性圖數(shù)據(jù)庫包括Neo4j、JanusGraph、GraphDB、HugeGraph 等［33］。本文選擇能夠輕松表示關(guān)聯(lián)數(shù)據(jù)的Neo4j，其操作簡便靈活?；贜eo4j，本文構(gòu)建的部分知識(shí)圖譜結(jié)果如下。

示例1：與“進(jìn)士”相關(guān)的人物包括“劉心源”“趙熙”“寇凖”“陳文燭”“龐恭孫”等，其中每個(gè)人物又有相關(guān)的實(shí)體和關(guān)系。例如，人物“寇凖”涉及到書籍《十朋梅溪后集》以及官職“校書郎”，由此形成了以“進(jìn)士”為中心的知識(shí)圖譜，具體如圖6所示。

Fig.6 Knowledge graph centered on"Jinshi"圖6 以“進(jìn)士”為中心的知識(shí)圖譜

示例2：與“蕭星拱觀石魚記”直接相關(guān)的人物包括“蕭星拱”“陳曦震”等，其中每個(gè)人物又有相關(guān)的實(shí)體和關(guān)系。例如，人物“蕭星拱”涉及到書名《清蕭星拱傳記》以及官職“郡守”，以“蕭星拱觀石魚記”為中心的知識(shí)圖譜如圖7所示。

5 文博知識(shí)圖譜的應(yīng)用與管理

5.1 知識(shí)圖譜的應(yīng)用

Fig.7 Knowledge graph centered on"Xiao Xinggong view stone fish"圖7 以“蕭星拱觀石魚記”為中心的知識(shí)圖譜

知識(shí)圖譜是融合數(shù)據(jù)與算法的新型知識(shí)表達(dá)形式，其可將數(shù)據(jù)中的知識(shí)組織成<主，謂，賓>三元組的形式以表征客觀世界中實(shí)體之間的關(guān)系［34］?；谥R(shí)圖譜的可視化技術(shù)可以構(gòu)建直觀的數(shù)據(jù)展示系統(tǒng)，優(yōu)化用戶交互體驗(yàn)；基于知識(shí)圖譜的推薦系統(tǒng)可以利用圖譜中的關(guān)系推理用戶的興趣偏好，同時(shí)支持對(duì)推理過程和推薦結(jié)果的解釋；基于知識(shí)圖譜的搜索避免了傳統(tǒng)機(jī)械的關(guān)鍵詞匹配搜索形式，能夠根據(jù)人們的思考習(xí)慣檢索查詢相關(guān)信息，給出直接的答案；基于知識(shí)圖譜的問答系統(tǒng)能夠?qū)栴}邏輯解析到知識(shí)圖譜中，通過推理計(jì)算直接給出問題答案。

文博知識(shí)圖譜構(gòu)建的主要目標(biāo)是解決長期以來文博領(lǐng)域舊拓資料散落各地而無法形成一套完整體系的問題。收集、整理特定主題的數(shù)據(jù)資料，通過數(shù)據(jù)清洗、整合以及知識(shí)圖譜構(gòu)建，自動(dòng)化形成較為完整的知識(shí)體系，有助于文化遺產(chǎn)的科學(xué)發(fā)掘［35］。同時(shí)，通過知識(shí)圖譜構(gòu)建以及可視化展示，能使觀眾直觀地了解歷史文化知識(shí)，提升其觀感體驗(yàn)，更好地傳播歷史文化知識(shí)。具體示例如圖8所示。

Fig.8 Example of visualization for cultural knowledge graph圖8 文博知識(shí)圖譜可視化展示示例

5.2 知識(shí)圖譜的運(yùn)營管理

知識(shí)圖譜的運(yùn)營管理是指在知識(shí)圖譜初次構(gòu)建完成后，根據(jù)用戶的使用反饋以及不斷出現(xiàn)的新知識(shí)進(jìn)行知識(shí)圖譜演化和完善的過程，更新過程中需要保證知識(shí)圖譜的質(zhì)量可控以及內(nèi)容豐富衍化。

知識(shí)圖譜的運(yùn)營管理是一個(gè)體系化工程，覆蓋了知識(shí)獲取到知識(shí)計(jì)算的整個(gè)生命周期。知識(shí)圖譜的運(yùn)營主要有兩個(gè)關(guān)注點(diǎn)：一個(gè)是基于增量數(shù)據(jù)的知識(shí)圖譜構(gòu)建過程監(jiān)控，另一個(gè)是通過知識(shí)圖譜的應(yīng)用發(fā)現(xiàn)知識(shí)錯(cuò)誤和新的業(yè)務(wù)需求，例如錯(cuò)誤的實(shí)體屬性值、缺失的實(shí)體間關(guān)系、未識(shí)別的實(shí)體、重復(fù)實(shí)體等問題?？傮w來說，知識(shí)圖譜運(yùn)營管理需要用戶反饋、專家修正、運(yùn)行監(jiān)控、算法調(diào)整更新等相結(jié)合，是一個(gè)人機(jī)協(xié)同、領(lǐng)域?qū)＜遗c算法相互配合的過程。

6 結(jié)語

作為人工智能的重要應(yīng)用之一，近年來知識(shí)圖譜受到各個(gè)領(lǐng)域的廣泛關(guān)注。文博系統(tǒng)是國家精神文明建設(shè)的重要領(lǐng)域，如何結(jié)合前沿科技實(shí)現(xiàn)文化創(chuàng)新成為其當(dāng)前面臨的重要問題。文博領(lǐng)域數(shù)據(jù)資料體量龐大且零散，文博知識(shí)圖譜的構(gòu)建對(duì)于博物館的智能化建設(shè)、智慧文化產(chǎn)品開發(fā)具有重要支撐作用。然而，相關(guān)學(xué)者雖然對(duì)知識(shí)圖譜的理論與應(yīng)用問題進(jìn)行了研究，但針對(duì)文博知識(shí)圖譜構(gòu)建的研究仍然較少。

本文剖析了文博知識(shí)圖譜的背景、內(nèi)涵及發(fā)展現(xiàn)狀，提出了基于多源文化數(shù)據(jù)進(jìn)行文博知識(shí)圖譜構(gòu)建的系統(tǒng)架構(gòu)、知識(shí)模型以及組織規(guī)范，基于實(shí)體識(shí)別、關(guān)系抽取、關(guān)系推理等關(guān)鍵技術(shù)展示了基于圖數(shù)據(jù)庫的知識(shí)圖譜構(gòu)建方法，然后介紹了知識(shí)圖譜的應(yīng)用以及現(xiàn)實(shí)運(yùn)營管理問題。需要注意的是，由于文博領(lǐng)域數(shù)據(jù)的專業(yè)性與稀疏性，直接應(yīng)用常規(guī)知識(shí)圖譜關(guān)鍵技術(shù)往往不能獲得滿意結(jié)果。例如，前期本文進(jìn)行了DeepDive 等知識(shí)圖譜構(gòu)建工具的測試，但結(jié)果并不令人滿意。因此，文博知識(shí)圖譜構(gòu)建需要結(jié)合文博數(shù)據(jù)特征進(jìn)行針對(duì)性的理論與技術(shù)研究。為了面向文博知識(shí)圖譜的特征提出針對(duì)性解決方案，同時(shí)保留進(jìn)一步創(chuàng)新優(yōu)化的可能性，本文給出了文博知識(shí)圖譜構(gòu)建的初步技術(shù)并基于相關(guān)前沿算法進(jìn)行了實(shí)現(xiàn)與優(yōu)化，未來將在此開放式方案的基礎(chǔ)上進(jìn)一步優(yōu)化與提升。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡