趙 卓,田 侃,張 殊,張 晨,吳 濤,張浩然
(1.重慶中國三峽博物館文物信息部,重慶 400015;2.重慶郵電大學(xué)網(wǎng)絡(luò)空間安全與信息法學(xué)院,重慶 400065)
隨著社會(huì)經(jīng)濟(jì)的發(fā)展和生活水平的不斷提高,人們?cè)絹碓街匾暰裆?,也更加有條件享受豐富多彩的精神文化產(chǎn)品。博物館是征集、典藏、陳列和研究自然遺跡和人類文化遺產(chǎn)的場所,擁有大量具有科學(xué)性、歷史性和藝術(shù)價(jià)值的物品,能夠?yàn)楣娞峁┲R(shí)、教育和公益性文化服務(wù)[1]。如何讓文物活起來,使博物館成為公共文化服務(wù)體系的重要載體,成為大眾終身學(xué)習(xí)的精神課堂,是近年來社會(huì)對(duì)博物館行業(yè)的普遍期望,也是博物館行業(yè)的重要工作方向。如何更好地挖掘傳播地區(qū)歷史文化、創(chuàng)建具有吸引力的文化產(chǎn)品以及提供良好的公共文化服務(wù)是博物館工作的重要訴求。
圍繞文博行業(yè)現(xiàn)狀以及社會(huì)實(shí)際需要,我國頻繁出臺(tái)文物保護(hù)和博物館建設(shè)的政策,使文博行業(yè)能更好地服務(wù)于國家文化發(fā)展需要,滿足人民群眾精神文化需求。2015年2 月,國務(wù)院發(fā)布了《博物館條例》,鼓勵(lì)博物館向公眾免費(fèi)開放。2016 年3 月,國務(wù)院印發(fā)的《關(guān)于進(jìn)一步加強(qiáng)文物工作的指導(dǎo)意見》倡導(dǎo)大力發(fā)展文博創(chuàng)意產(chǎn)業(yè)。2017年4 月,文化部出臺(tái)《文化部“十三五”時(shí)期文化科技創(chuàng)新規(guī)劃》,提出要實(shí)現(xiàn)我國文化、藝術(shù)與科技的融合。實(shí)際上,通過近20 年的信息化建設(shè),博物館數(shù)字資源數(shù)量、質(zhì)量穩(wěn)步上升,藏品資源、藏品管理、多媒體展示、專用業(yè)務(wù)系統(tǒng)等均取得了不斐成績。然而,隨著大數(shù)據(jù)、人工智能等新興技術(shù)的出現(xiàn),科技與文化融合成為博物館領(lǐng)域新的發(fā)展趨勢(shì),智能化技術(shù)應(yīng)用成為未來博物館發(fā)展的必由之路。
知識(shí)圖譜以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體間的復(fù)雜關(guān)系,提供了一種高效組織、管理海量信息的方式。傳統(tǒng)的圖像、語音等人工智能領(lǐng)域主要關(guān)注感知智能,而知識(shí)圖譜的重點(diǎn)在于通過知識(shí)與模型的融合實(shí)現(xiàn)認(rèn)知推理,支持高水平的知識(shí)表示與計(jì)算。目前,知識(shí)圖譜通過與問答、搜索、推薦等應(yīng)用相結(jié)合已被廣泛應(yīng)用于金融、醫(yī)療、電商等領(lǐng)域。為顯著提升文化遺產(chǎn)傳承能力,本文聚焦適合博物館的知識(shí)圖譜系統(tǒng)構(gòu)建問題,首先對(duì)文博領(lǐng)域知識(shí)圖譜系統(tǒng)的構(gòu)建過程和方案進(jìn)行概述,然后介紹知識(shí)圖譜構(gòu)建的主要流程和關(guān)鍵技術(shù),最后對(duì)未來值得關(guān)注的研究方向進(jìn)行初步探討。
知識(shí)圖譜在文化、博物館領(lǐng)域的應(yīng)用處于起步階段,取得了一定研究成果。例如,張建星[2]研究了基于大數(shù)據(jù)環(huán)境的中國傳統(tǒng)文化知識(shí)圖譜構(gòu)建框架,設(shè)計(jì)了由事件、人物、時(shí)間、地點(diǎn)、社會(huì)背景、文化領(lǐng)域六元組組成的中國傳統(tǒng)文化本體模型,構(gòu)建了中國傳統(tǒng)文化知識(shí)庫;萬靜等[3]介紹了知識(shí)圖譜在國內(nèi)外的研究應(yīng)用情況,探討了其在智慧博物館建設(shè)中的初步應(yīng)用設(shè)想;張娜[4]針對(duì)當(dāng)前文物知識(shí)圖譜依賴于人工構(gòu)建、缺乏自動(dòng)化方法的問題,對(duì)文物知識(shí)圖譜構(gòu)建過程中的文物關(guān)系自動(dòng)抽取技術(shù)進(jìn)行了研究,設(shè)計(jì)并實(shí)現(xiàn)了完整的文物知識(shí)圖譜構(gòu)建與展示方案;劉芳等[5]設(shè)計(jì)了以藏品、多媒體、展覽、項(xiàng)目、人員、機(jī)構(gòu)、文獻(xiàn)等實(shí)體為核心的知識(shí)圖譜,探討了知識(shí)圖譜在檢索優(yōu)化、智能推薦、可視化展示和智能問答領(lǐng)域的應(yīng)用方式;楊偉強(qiáng)[6]以山西博物院專家選取的100 件具有代表性的館藏文物作為構(gòu)建知識(shí)圖譜的基礎(chǔ)性文物擴(kuò)展相關(guān)知識(shí)節(jié)點(diǎn),通過與領(lǐng)域?qū)<液献鳎岢鲇糜谥R(shí)表達(dá)的本體模型和標(biāo)準(zhǔn)規(guī)范,采用構(gòu)建文物知識(shí)圖譜的形式形象地展示文物知識(shí)的結(jié)構(gòu)及其之間的聯(lián)系;劉紹南等[7]提出利用文物知識(shí)圖譜對(duì)不同來源、不同格式的海量文物數(shù)據(jù)進(jìn)行分析、展示和利用,然后基于語義檢索、推薦和問答開發(fā)等典型應(yīng)用支撐智慧博物館的建設(shè)。
以文博知識(shí)圖譜構(gòu)建為目標(biāo),聚焦人物、文物、遺跡、建筑、交通、書畫等數(shù)據(jù),在收集相關(guān)古籍資料、研究成果、學(xué)術(shù)文獻(xiàn)、網(wǎng)絡(luò)資源等基礎(chǔ)上,綜合利用自然語言處理、數(shù)據(jù)挖掘、深度學(xué)習(xí)以及圖計(jì)算等技術(shù)進(jìn)行數(shù)據(jù)分析與知識(shí)抽取,整體知識(shí)圖譜系統(tǒng)構(gòu)建框架如圖1 所示。具體階段介紹如下。
Fig.1 Framework of knowledge graph cultural museum system construction圖1 文博知識(shí)圖譜系統(tǒng)構(gòu)建框架
(1)數(shù)據(jù)存儲(chǔ)與訪問架構(gòu)設(shè)計(jì)。數(shù)據(jù)采集平臺(tái)能夠獲得大量來自考古、交通、宗教等不同領(lǐng)域的文博數(shù)據(jù),這些數(shù)據(jù)往往具有來源廣泛、規(guī)模龐大、種類繁多、非結(jié)構(gòu)化等特征,現(xiàn)有平臺(tái)的存儲(chǔ)方式無法很好地支持如此復(fù)雜數(shù)據(jù)的高效查詢和分析。如果孤立地管理這些數(shù)據(jù),會(huì)直接影響平臺(tái)運(yùn)作效率和效果。因此,除了對(duì)每類數(shù)據(jù)單獨(dú)索引外,還需要對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行特征學(xué)習(xí),建立混合式索引,以提高數(shù)據(jù)訪問效率。
(2)知識(shí)特征提取。針對(duì)考古、交通、軍事、宗教等不同領(lǐng)域的數(shù)據(jù),通過自然語言處理、機(jī)器學(xué)習(xí)領(lǐng)域前沿理論模型,構(gòu)建多源異構(gòu)數(shù)據(jù)的知識(shí)特征提取與融合方法,進(jìn)行文化數(shù)據(jù)的知識(shí)抽取,將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的知識(shí)表達(dá)形式。
(3)知識(shí)庫構(gòu)建。根據(jù)數(shù)據(jù)的結(jié)構(gòu)特征,在數(shù)據(jù)庫知識(shí)抽取的基礎(chǔ)上,建立文化數(shù)據(jù)知識(shí)表達(dá)模型,對(duì)文物、環(huán)境、歷史文獻(xiàn)、考古資料、歷史事件等海量、多源、異構(gòu)的文化數(shù)據(jù)進(jìn)行規(guī)范化組織,使文物知識(shí)可檢索、可計(jì)算、可自動(dòng)關(guān)聯(lián),形成文化數(shù)據(jù)標(biāo)準(zhǔn)知識(shí)庫。
(4)文化知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)研究。研究實(shí)體識(shí)別、關(guān)系抽取、實(shí)體鏈接、推理補(bǔ)全、語義消歧等理論與技術(shù),為知識(shí)圖譜系統(tǒng)的構(gòu)建提供理論與技術(shù)支撐。同時(shí),分析面向知識(shí)圖譜構(gòu)建文博數(shù)據(jù)的特性問題,展開針對(duì)性研究以突破技術(shù)瓶頸。
(5)知識(shí)圖譜系統(tǒng)構(gòu)建。遵循統(tǒng)一、集約、高效、規(guī)范的原則,構(gòu)建允許知識(shí)檢索、關(guān)聯(lián)挖掘、可視化呈現(xiàn)的知識(shí)圖譜系統(tǒng),支持可移植、跨平臺(tái)、可配置的需求,自動(dòng)抽取半結(jié)構(gòu)化文本中的屬性和值,實(shí)現(xiàn)知識(shí)審核與校對(duì),形成知識(shí)圖譜更新管理機(jī)制,建立運(yùn)營管理體系。
文博知識(shí)圖譜構(gòu)建以古籍資源、學(xué)術(shù)文獻(xiàn)、文物信息等數(shù)據(jù)資源為依托。文物資源包含石刻、建筑、書畫、交通、軍事、考古等,各類文物有相關(guān)的金石著錄、發(fā)掘報(bào)告、研究論文、著作等材料對(duì)其進(jìn)行描述介紹,每個(gè)文物都具有差異化的屬性、特質(zhì)。古籍資源往往以神話傳說、歷史事件、民間故事等形式介紹歷史知識(shí)文化,具有故事差異性大、內(nèi)容龐雜的特點(diǎn)。著名人物數(shù)據(jù)包含出生于或曾到過各個(gè)地區(qū)的書畫家、詩人,以及與之相關(guān)的交通、軍事事件等。文化旅游數(shù)據(jù)包含著名地點(diǎn)以及與之相關(guān)的歷史事件、名人等,涉及文物、古籍、歷史和名人等信息?;谝陨蟽?nèi)容分析,文博數(shù)據(jù)知識(shí)表達(dá)模型如圖2所示。
Fig.2 Cultural data knowledge representation model圖2 文博數(shù)據(jù)知識(shí)表達(dá)模型
為了進(jìn)行文博題刻知識(shí)圖譜的構(gòu)建,本文收集整理大量歷史文化數(shù)據(jù),其中題刻數(shù)據(jù)示例如圖3 所示,其文字內(nèi)容為:“涪江石魚,鐫于波底,現(xiàn)則歲豐。數(shù)千百年來,傳為盛事??滴跻页蟠赫?,水落而魚復(fù)出。望前二日,偕同人往觀之,仿佛雙魚莫蓂蓮隱躍。蓋因歲久剝落,形質(zhì)模糊,幾不可問。遂命石工刻而新之,俾不至湮沒無傳,且以望豐亨之永兆云爾。時(shí)同游者舊黔令、云間杜同春梅川,州佐、四明王運(yùn)亨元公,旴江吳天衡高倫,何謙文奇,西陵高應(yīng)乾侶叔,郡人劉之益四仙,文珂奚仲。涪州牧?xí)B江蕭星拱薇翰氏記略?!?/p>
Fig.3 Example of Xiao Xinggong reengraving double fish rubbing圖3 蕭星拱重鐫雙魚記拓片示例
可以看出,文博數(shù)據(jù)具有較強(qiáng)的歷史性和專業(yè)性特征,傳統(tǒng)的知識(shí)圖譜技術(shù)無法直接應(yīng)用于文博數(shù)據(jù)處理,需要設(shè)計(jì)合理的文博知識(shí)圖譜構(gòu)建方案。在查閱相關(guān)文博資料的基礎(chǔ)上,綜合分析不同數(shù)據(jù)組織形式的優(yōu)缺點(diǎn),設(shè)計(jì)用于文博知識(shí)圖譜構(gòu)建的數(shù)據(jù)組織與處理規(guī)范,如圖4 所示。總體來說,基于關(guān)系型數(shù)據(jù)庫實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的簡單、高效檢索,基于實(shí)體、關(guān)系與屬性抽取技術(shù)實(shí)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化處理,基于圖數(shù)據(jù)庫實(shí)現(xiàn)復(fù)雜關(guān)聯(lián)數(shù)據(jù)的存儲(chǔ)與檢索。通過該數(shù)據(jù)組織與處理規(guī)范,可以對(duì)文博數(shù)據(jù)資源進(jìn)行預(yù)處理和標(biāo)準(zhǔn)化存儲(chǔ),以支撐數(shù)據(jù)的知識(shí)表達(dá)與高效計(jì)算。
Fig.4 Data organization standard for the construction of cultural relic knowledge graph圖4 文博知識(shí)圖譜構(gòu)建的數(shù)據(jù)組織與處理規(guī)范
命名實(shí)體識(shí)別(Named Entity Recognition)又稱為實(shí)體識(shí)別,其對(duì)知識(shí)圖譜的構(gòu)建具有重要意義。命名實(shí)體是一個(gè)詞或短語,命名實(shí)體識(shí)別是指在輸入文本中識(shí)別具有特定屬性的實(shí)體。在文本被識(shí)別為實(shí)體后,開發(fā)人員可以對(duì)不同類別的實(shí)體執(zhí)行各種操作。傳統(tǒng)的命名實(shí)體識(shí)別方法主要包括基于規(guī)則的方法、知識(shí)庫方法、監(jiān)督學(xué)習(xí)方法和半監(jiān)督學(xué)習(xí)方法。早期由于計(jì)算能力限制,知識(shí)庫方法和基于規(guī)則的方法被廣泛使用,多通過維護(hù)專門的詞典庫或由專家根據(jù)專門詞匯的特點(diǎn)構(gòu)建規(guī)則以識(shí)別命名實(shí)體。一般來說,每個(gè)規(guī)則都有一個(gè)權(quán)重,發(fā)生規(guī)則沖突時(shí),權(quán)重最高的規(guī)則用于確定命名實(shí)體的類型?;谝?guī)則的實(shí)體識(shí)別系統(tǒng)通常需要使用實(shí)體字典進(jìn)一步確認(rèn)候選實(shí)體。當(dāng)字典內(nèi)容詳盡時(shí),基于規(guī)則的系統(tǒng)運(yùn)行良好。然而,基于特定領(lǐng)域和不完備字典的規(guī)則往往導(dǎo)致命名實(shí)體識(shí)別系統(tǒng)召回率低,且這些規(guī)則難以適用于其他領(lǐng)域。近年來,機(jī)器學(xué)習(xí)被廣泛應(yīng)用于各種自然語言處理任務(wù)中,并取得了巨大成功。與知識(shí)庫和基于規(guī)則的方法相比,機(jī)器學(xué)習(xí)方法減少了大量人工干預(yù),具有優(yōu)越的可移植性?;跈C(jī)器學(xué)習(xí)模型的命名實(shí)體識(shí)別方法會(huì)預(yù)先標(biāo)記語料庫作為訓(xùn)練集,并通過訓(xùn)練模型學(xué)習(xí)相關(guān)特征識(shí)別實(shí)體。
知識(shí)圖譜命名實(shí)體識(shí)別中最具代表性的方法為BERT預(yù)訓(xùn)練模型[8-9]和Bi-LSTM 與CRF 的融合模型[10-11]。Bi-LSTM 與CRF 的融合模型是在Bi-LSTM 的條件上加了一層條件隨機(jī)場作為模型的解碼層,以預(yù)測結(jié)果的合理性。同時(shí),由于文博數(shù)據(jù)的專業(yè)性和特殊性,基于常見標(biāo)記語料庫的實(shí)體識(shí)別模型無法完全有效識(shí)別數(shù)據(jù)中存在的文物、古籍、年號(hào)、官職等專業(yè)術(shù)語與歷史名稱。因此,本文通過爬蟲、文本分析等方法構(gòu)建功名、官職、年號(hào)、節(jié)日等專有名詞庫,示例如圖5 所示。然后,結(jié)合基于知識(shí)庫和算法模型的方法進(jìn)行命名實(shí)體識(shí)別,從而支撐文博領(lǐng)域?qū)嶓w信息的準(zhǔn)確識(shí)別與發(fā)現(xiàn)。
Fig.5 Example of proper nouns for official positions圖5 官職專有名詞庫示例
關(guān)系抽取(Relationship Extraction)是指在命名實(shí)體識(shí)別之后,根據(jù)句子中的語義信息學(xué)習(xí)實(shí)體間的關(guān)系。準(zhǔn)確的關(guān)系抽取有利于構(gòu)造邏輯結(jié)構(gòu)清晰的圖譜[12-13]?;谝?guī)則的關(guān)系抽取方法通過語言學(xué)知識(shí)對(duì)文本結(jié)構(gòu)抽象出一個(gè)固定的模式集,并對(duì)給定的文本進(jìn)行模式匹配以確定其中關(guān)系??傮w上,傳統(tǒng)的關(guān)系抽取方法需要大量人力設(shè)計(jì)特征,難以應(yīng)用于大規(guī)模的關(guān)系抽取任務(wù)。近年來,基于深度學(xué)習(xí)的關(guān)系抽取模型被提出,其可自動(dòng)學(xué)習(xí)有效的關(guān)系特征。目前主流的深度學(xué)習(xí)關(guān)系抽取方法包括基于卷積神經(jīng)網(wǎng)絡(luò)模型的關(guān)系抽取方法[14-17]、基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的關(guān)系抽取方法[18-20]以及基于詞法句法模型的關(guān)系抽取方法[21-23]。然而,深度學(xué)習(xí)模型往往需要大量已標(biāo)記訓(xùn)練數(shù)據(jù)。為解決訓(xùn)練數(shù)據(jù)短缺問題,降低模型訓(xùn)練成本,遠(yuǎn)程監(jiān)督(Distant Supervision)模型方法被提出[24]。此外,為降低命名實(shí)體識(shí)別錯(cuò)誤對(duì)關(guān)系抽取準(zhǔn)確率的影響,實(shí)體關(guān)系聯(lián)合抽取方法[25-27]被提出。
為進(jìn)行文博數(shù)據(jù)中實(shí)體關(guān)系的準(zhǔn)確抽取,本文提出基于規(guī)則的方法以及基于正反向迭代式消除的方法。文博數(shù)據(jù)中書名、字號(hào)等信息往往標(biāo)識(shí)性強(qiáng)、規(guī)則清晰,在獲取人名、地名等實(shí)體的基礎(chǔ)上,基于簡單規(guī)則即可準(zhǔn)確發(fā)現(xiàn)人物字號(hào)、官職等關(guān)系信息。而對(duì)于語句中的復(fù)雜關(guān)系,本文提出首先進(jìn)行實(shí)體和屬性識(shí)別與消除、然后在剩余內(nèi)容中正、反雙向識(shí)別語義關(guān)系的迭代式解決方案。
知識(shí)圖譜關(guān)系推理(Relationship Inference)是指基于已有的知識(shí)圖譜結(jié)構(gòu)和內(nèi)容信息推理出新的知識(shí)或識(shí)別錯(cuò)誤知識(shí)的過程,可解決文博領(lǐng)域數(shù)據(jù)稀疏的問題,并削減數(shù)據(jù)質(zhì)量不高對(duì)知識(shí)圖譜準(zhǔn)確率和完整性的影響。知識(shí)圖譜關(guān)系推理方法主要包括基于規(guī)則的方法、基于結(jié)構(gòu)相似性估計(jì)的方法、基于結(jié)構(gòu)建模的方法以及基于知識(shí)表示的方法。其中,基于規(guī)則的關(guān)系推理主要通過文博數(shù)據(jù)本體模型中的相關(guān)約束和規(guī)律進(jìn)行推理;基于結(jié)構(gòu)相似性估計(jì)的方法主要包括共同鄰居方法、資源分配方法、局部路徑法等;基于結(jié)構(gòu)建模的關(guān)系推理方法借用網(wǎng)絡(luò)數(shù)據(jù)分析領(lǐng)域的模型算法,包括標(biāo)記傳播(Label Propagation)方法、隨機(jī)行走(Random Walk)方法、圖神經(jīng)網(wǎng)絡(luò)模型(Graph Neural Networks)等;基于知識(shí)表示的方法首先對(duì)知識(shí)圖譜中的實(shí)體和關(guān)系進(jìn)行降維表示,然后基于表示結(jié)果直接計(jì)算實(shí)體之間存在關(guān)系的可能性。知識(shí)表示學(xué)習(xí)方法通過機(jī)器學(xué)習(xí)算法自動(dòng)從數(shù)據(jù)中獲得知識(shí)表示,能夠根據(jù)具體任務(wù)學(xué)習(xí)到合適的特征。目前,最具代表性的知識(shí)表示方法包括TransE[28]、TransH[29]、TransR[30]以及TransD[31]。
本文提出不同顯著性的文博知識(shí)圖譜關(guān)系,采用結(jié)構(gòu)相似性估計(jì)方法、圖神經(jīng)網(wǎng)絡(luò)模型方法以及基于卷積特征表示的少樣本學(xué)習(xí)方法進(jìn)行知識(shí)圖譜的關(guān)系推理。具體來說,對(duì)于局部性、顯著性強(qiáng)的潛在關(guān)系,采用結(jié)構(gòu)相似性估計(jì)方法進(jìn)行預(yù)測;對(duì)于大范圍的復(fù)雜結(jié)構(gòu)關(guān)系,基于圖神經(jīng)網(wǎng)絡(luò)模型方法進(jìn)行結(jié)構(gòu)建模和學(xué)習(xí),然后利用學(xué)習(xí)到的結(jié)構(gòu)模式指導(dǎo)潛在關(guān)系的推理預(yù)測。由于知識(shí)圖譜中的關(guān)系往往存在長尾現(xiàn)象,即關(guān)系數(shù)量主要集中在少數(shù)幾種類型上,其他類型的關(guān)系數(shù)量較少,不利于建模學(xué)習(xí),本文提出基于少樣本學(xué)習(xí)的知識(shí)圖譜關(guān)系推理方法。
知識(shí)圖譜數(shù)據(jù)應(yīng)用的前提是關(guān)聯(lián)數(shù)據(jù)的有效表示和存儲(chǔ),其數(shù)據(jù)模型主要分為三元組和圖模型兩種[32]。圖數(shù)據(jù)庫因其對(duì)節(jié)點(diǎn)間復(fù)雜關(guān)系的良好支持而成為多數(shù)知識(shí)圖譜的首要存儲(chǔ)選擇。
圖數(shù)據(jù)庫中,數(shù)據(jù)的基本元素包括節(jié)點(diǎn)集合與關(guān)系集合。關(guān)系型數(shù)據(jù)庫能夠較好地凸顯單條數(shù)據(jù)的內(nèi)容和存儲(chǔ)情況,而圖數(shù)據(jù)庫以非結(jié)構(gòu)化的方式存儲(chǔ)關(guān)聯(lián)數(shù)據(jù),可以直接顯示數(shù)據(jù)的關(guān)聯(lián)特征,在知識(shí)圖譜關(guān)系查詢中效率更高。目前代表性圖數(shù)據(jù)庫包括Neo4j、JanusGraph、GraphDB、HugeGraph 等[33]。本文選擇能夠輕松表示關(guān)聯(lián)數(shù)據(jù)的Neo4j,其操作簡便靈活?;贜eo4j,本文構(gòu)建的部分知識(shí)圖譜結(jié)果如下。
示例1:與“進(jìn)士”相關(guān)的人物包括“劉心源”“趙熙”“寇凖”“陳文燭”“龐恭孫”等,其中每個(gè)人物又有相關(guān)的實(shí)體和關(guān)系。例如,人物“寇凖”涉及到書籍《十朋梅溪后集》以及官職“校書郎”,由此形成了以“進(jìn)士”為中心的知識(shí)圖譜,具體如圖6所示。
Fig.6 Knowledge graph centered on"Jinshi"圖6 以“進(jìn)士”為中心的知識(shí)圖譜
示例2:與“蕭星拱觀石魚記”直接相關(guān)的人物包括“蕭星拱”“陳曦震”等,其中每個(gè)人物又有相關(guān)的實(shí)體和關(guān)系。例如,人物“蕭星拱”涉及到書名《清蕭星拱傳記》以及官職“郡守”,以“蕭星拱觀石魚記”為中心的知識(shí)圖譜如圖7所示。
Fig.7 Knowledge graph centered on"Xiao Xinggong view stone fish"圖7 以“蕭星拱觀石魚記”為中心的知識(shí)圖譜
知識(shí)圖譜是融合數(shù)據(jù)與算法的新型知識(shí)表達(dá)形式,其可將數(shù)據(jù)中的知識(shí)組織成<主,謂,賓>三元組的形式以表征客觀世界中實(shí)體之間的關(guān)系[34]?;谥R(shí)圖譜的可視化技術(shù)可以構(gòu)建直觀的數(shù)據(jù)展示系統(tǒng),優(yōu)化用戶交互體驗(yàn);基于知識(shí)圖譜的推薦系統(tǒng)可以利用圖譜中的關(guān)系推理用戶的興趣偏好,同時(shí)支持對(duì)推理過程和推薦結(jié)果的解釋;基于知識(shí)圖譜的搜索避免了傳統(tǒng)機(jī)械的關(guān)鍵詞匹配搜索形式,能夠根據(jù)人們的思考習(xí)慣檢索查詢相關(guān)信息,給出直接的答案;基于知識(shí)圖譜的問答系統(tǒng)能夠?qū)栴}邏輯解析到知識(shí)圖譜中,通過推理計(jì)算直接給出問題答案。
文博知識(shí)圖譜構(gòu)建的主要目標(biāo)是解決長期以來文博領(lǐng)域舊拓資料散落各地而無法形成一套完整體系的問題。收集、整理特定主題的數(shù)據(jù)資料,通過數(shù)據(jù)清洗、整合以及知識(shí)圖譜構(gòu)建,自動(dòng)化形成較為完整的知識(shí)體系,有助于文化遺產(chǎn)的科學(xué)發(fā)掘[35]。同時(shí),通過知識(shí)圖譜構(gòu)建以及可視化展示,能使觀眾直觀地了解歷史文化知識(shí),提升其觀感體驗(yàn),更好地傳播歷史文化知識(shí)。具體示例如圖8所示。
Fig.8 Example of visualization for cultural knowledge graph圖8 文博知識(shí)圖譜可視化展示示例
知識(shí)圖譜的運(yùn)營管理是指在知識(shí)圖譜初次構(gòu)建完成后,根據(jù)用戶的使用反饋以及不斷出現(xiàn)的新知識(shí)進(jìn)行知識(shí)圖譜演化和完善的過程,更新過程中需要保證知識(shí)圖譜的質(zhì)量可控以及內(nèi)容豐富衍化。
知識(shí)圖譜的運(yùn)營管理是一個(gè)體系化工程,覆蓋了知識(shí)獲取到知識(shí)計(jì)算的整個(gè)生命周期。知識(shí)圖譜的運(yùn)營主要有兩個(gè)關(guān)注點(diǎn):一個(gè)是基于增量數(shù)據(jù)的知識(shí)圖譜構(gòu)建過程監(jiān)控,另一個(gè)是通過知識(shí)圖譜的應(yīng)用發(fā)現(xiàn)知識(shí)錯(cuò)誤和新的業(yè)務(wù)需求,例如錯(cuò)誤的實(shí)體屬性值、缺失的實(shí)體間關(guān)系、未識(shí)別的實(shí)體、重復(fù)實(shí)體等問題??傮w來說,知識(shí)圖譜運(yùn)營管理需要用戶反饋、專家修正、運(yùn)行監(jiān)控、算法調(diào)整更新等相結(jié)合,是一個(gè)人機(jī)協(xié)同、領(lǐng)域?qū)<遗c算法相互配合的過程。
作為人工智能的重要應(yīng)用之一,近年來知識(shí)圖譜受到各個(gè)領(lǐng)域的廣泛關(guān)注。文博系統(tǒng)是國家精神文明建設(shè)的重要領(lǐng)域,如何結(jié)合前沿科技實(shí)現(xiàn)文化創(chuàng)新成為其當(dāng)前面臨的重要問題。文博領(lǐng)域數(shù)據(jù)資料體量龐大且零散,文博知識(shí)圖譜的構(gòu)建對(duì)于博物館的智能化建設(shè)、智慧文化產(chǎn)品開發(fā)具有重要支撐作用。然而,相關(guān)學(xué)者雖然對(duì)知識(shí)圖譜的理論與應(yīng)用問題進(jìn)行了研究,但針對(duì)文博知識(shí)圖譜構(gòu)建的研究仍然較少。
本文剖析了文博知識(shí)圖譜的背景、內(nèi)涵及發(fā)展現(xiàn)狀,提出了基于多源文化數(shù)據(jù)進(jìn)行文博知識(shí)圖譜構(gòu)建的系統(tǒng)架構(gòu)、知識(shí)模型以及組織規(guī)范,基于實(shí)體識(shí)別、關(guān)系抽取、關(guān)系推理等關(guān)鍵技術(shù)展示了基于圖數(shù)據(jù)庫的知識(shí)圖譜構(gòu)建方法,然后介紹了知識(shí)圖譜的應(yīng)用以及現(xiàn)實(shí)運(yùn)營管理問題。需要注意的是,由于文博領(lǐng)域數(shù)據(jù)的專業(yè)性與稀疏性,直接應(yīng)用常規(guī)知識(shí)圖譜關(guān)鍵技術(shù)往往不能獲得滿意結(jié)果。例如,前期本文進(jìn)行了DeepDive 等知識(shí)圖譜構(gòu)建工具的測試,但結(jié)果并不令人滿意。因此,文博知識(shí)圖譜構(gòu)建需要結(jié)合文博數(shù)據(jù)特征進(jìn)行針對(duì)性的理論與技術(shù)研究。為了面向文博知識(shí)圖譜的特征提出針對(duì)性解決方案,同時(shí)保留進(jìn)一步創(chuàng)新優(yōu)化的可能性,本文給出了文博知識(shí)圖譜構(gòu)建的初步技術(shù)并基于相關(guān)前沿算法進(jìn)行了實(shí)現(xiàn)與優(yōu)化,未來將在此開放式方案的基礎(chǔ)上進(jìn)一步優(yōu)化與提升。