檔案文獻的本體構(gòu)建與知識推理

2024-01-22 10:01:52譚碧云王秀梅

太原城市職業(yè)技術(shù)學(xué)院學(xué)報 2023年11期

■譚碧云，王秀梅

（1.惠州市排水管理中心，廣東惠州 516000；2.廣東藥科大學(xué)，廣東廣州 510006）

數(shù)字檔案項目已在臺灣國家自然科學(xué)博物館（NMNS）建立。該項目旨在設(shè)計各種自然科學(xué)領(lǐng)域，如動物學(xué)、植物學(xué)、地質(zhì)學(xué)和人類學(xué)。盡管可以使用查詢或通過元數(shù)據(jù)模式或超鏈接手動表示內(nèi)容，但這項研究認為，數(shù)字檔案是提供“知識”的一個有前途的模型。當前NMNS 的可用性只關(guān)注于提供明確的靜態(tài)信息。因此，當前的系統(tǒng)不足以支持高級知識工程，例如，知識推理過程。

一、研究的目的

數(shù)字博物館應(yīng)用信息技術(shù)建立在線服務(wù)，用戶無需親自到場即可訪問。我們還要考慮當前信息系統(tǒng)面臨的一些挑戰(zhàn)，以使公眾能夠重復(fù)使用和共享知識。本體是一種用于知識管理的方法，用于創(chuàng)建定義良好的知識庫。本體需要以系統(tǒng)的、細粒度的方式構(gòu)建，因為現(xiàn)實世界的認知和本體的概念結(jié)構(gòu)之間存在很大的差距，需要發(fā)展構(gòu)建。因此，本研究具有以下目標：設(shè)計一種有效識別本體概念結(jié)構(gòu)的方法以及設(shè)計使用基于邏輯的語言輔助知識推理的方法。為了實現(xiàn)這些目標，本研究檢查了現(xiàn)有的提取方法，調(diào)查了相應(yīng)的工具，并進行了必要的修改。本研究采用形式概念分析（FCA）來識別概念并確定其層次關(guān)系，簡化描述在本體中的應(yīng)用。此外，開發(fā)人員不需要太多的設(shè)計時間或數(shù)學(xué)技能應(yīng)用DL模型。

二、本體的概念

為了建立本體概念框架并發(fā)現(xiàn)概念之間的層次結(jié)構(gòu)，本研究采用形式概念分析（FCA）方法。FCA 最初是一種基于詞匯和層次問題的數(shù)據(jù)分析方法，將元素分類為形式對象和形式屬性。正式對象和屬性的集合，以及它們之間的關(guān)系，形成了一個“正式上下文”。當對象和屬性中的關(guān)系不能增加時，這對關(guān)系是封閉的，并進一步稱為“形式概念”。概念格包括形式上下文的概念集合和概念之間的層次關(guān)系。

折線圖直觀地表示FCA 形式上下文。圖1 中的線圖由節(jié)點、線和所有對象的標簽（在節(jié)點下方表示）以及給定上下文的屬性（在節(jié)點上方表示）組成。折線圖描述了形式概念之間的依賴關(guān)系。形式概念可以定義為{（對象集），（屬性集）}。例如，形式概念{（G），（Herb）}被附加到{（天南星科），（草本，種子，喬木）}和{（槭樹科），（草本，蕨類）}節(jié)點之上的節(jié)點。在其超級節(jié)點之下的每個節(jié)點都表示一個“超級- 子”關(guān)系，即“is-a”層次概念集群。因此，F(xiàn)CA是一種確定概念之間穩(wěn)定依賴關(guān)系的有用技術(shù)。

圖1 FCA 分析的維管植物的一個例子

三、本體的構(gòu)建

文獻的本體構(gòu)建早已被用來表達人類對信息的共同理解。Gruber 將本體定義為“概念化的規(guī)范”。概念化是一種抽象的、簡化的世界視圖。也就是說，文獻的本體構(gòu)建是對概念、屬性和關(guān)系的正式描述，這些概念、屬性與關(guān)系涉及建立對現(xiàn)實世界事件認知的共同理解。知識庫社區(qū)通過定義一組術(shù)語、話語和公理，采用文獻的本體構(gòu)建方法。因此，本體對于定義用于表示共享知識的通用詞匯表是有價值的。廣泛的共識是，采用基于文獻的本體構(gòu)建的系統(tǒng)的開發(fā)人員必須專注于特定的領(lǐng)域問題，并提供對單個概念的共同理解。然而，從現(xiàn)實世界中獲得認知，從而設(shè)計本體概念方面存在挑戰(zhàn)。

XML 技術(shù)最近被引入各種應(yīng)用領(lǐng)域的數(shù)據(jù)交換和系統(tǒng)開發(fā)中。本體研究使用XML 為本體開發(fā)語言構(gòu)建和模式庫。此外，已經(jīng)開發(fā)了許多基于XML 的本體編輯工具。兩種本體語言DAML+OIL 和OWL 描述如下。

DARPA 代理標記語言（DAML）。自2000 年以來，DAML（DARPA 代理標記語言）被開發(fā)為XML 和RDF的擴展。最近發(fā)布的DAML 加本體交換語言（OIL）為構(gòu)建本體和標記信息提供了一組豐富的構(gòu)造，使其機器可讀和可理解。

本體Web 語言（OWL）。OWL 是W3C 開發(fā)的最新的基于XML 的本體語言。OWL 繼承了DAML+OIL 的大部分特性，現(xiàn)在已成為正式標準。根據(jù)OWL 規(guī)范，該標準有三種表達能力越來越強的子語言，適用于不同級別的可用性：OWL Lite 設(shè)計用于分類層次結(jié)構(gòu)和直接的約束特征；OWL-DL支持在保持計算完整性和可判定性的同時希望獲得最大表現(xiàn)力的用戶；OWL-Full 對于具有最大表現(xiàn)力但沒有計算保證的推理系統(tǒng)具有有用的計算財產(chǎn)。

四、知識推理

知識推理是根據(jù)已有的知識的過程，通過已有的知識三元組構(gòu)建實體之間的關(guān)聯(lián)，對傳遞關(guān)系、對立關(guān)系等諸多有價值的實體關(guān)系進行推理，是檔案文獻本體的核心應(yīng)用之一，也是檔案文獻本體構(gòu)建的價值之一。

知識推理表示特定格式的信息系統(tǒng)的專業(yè)知識。描述邏輯（DL）是一個可描述的片段，由類、財產(chǎn)和表示屬性或類關(guān)系的邏輯符號組成。DL 已被包括OIL 和OWL在內(nèi)的各種本體開發(fā)方法廣泛用作表示格式。為了提高推理能力，本研究使用OWL-DL 作為知識推理。描述邏輯推理器可以計算所有命名概念的包容層次結(jié)構(gòu)。概念被分類為已定義或原始類。默認情況下，每個描述都是原始的，即至少有一組必要的條件。相反，如果類具有描述和充分條件，則定義該類?；惡鸵讯x類之間的區(qū)別在于，已定義類可以同樣雙向。在表達式C≡D 中，如果一個實例是概念D 的成員，那么它必須滿足概念C的成員。基元類中的實例不是同樣雙向的。以下DL 模型旨在幫助開發(fā)人員定義正確的邏輯表達式。

為了定義概念的詳細語義，DL 為精確描述應(yīng)用了屬性限制，例如，量詞、基數(shù)和賦值。

在定義檔案文獻的本體構(gòu)建概念時，上述模型有助于解決大多數(shù)情況。然而，一些例外情況，如不相交和不相關(guān)，需要進一步的支持補充。不相關(guān)的概念是不屬于彼此的概念，因此彼此沖突。賦予相關(guān)概念或個體雙向關(guān)系。例如，如果ChasValueD表示DL表達式，其中C 和D表示兩個類，則DL表達式需要由DisValueC給出。

五、示例

為保護和傳播中國檔案文獻，中國于1995 年成立了“世界記憶工程中國國家委員會”，并于2000 年創(chuàng)建了“中國檔案文獻記憶工程”項目。以國家檔案局形成《中國檔案文獻名錄》為依托，迄今共142(組)檔案文獻，并于2022 年3 月1 日開展第五批“中國檔案文獻”申報工作。中國檔案文獻具有記錄、證據(jù)、信息的工具價值，實施檔案文獻影響力提升工程，為中國國際傳播能力建設(shè)助力，為“構(gòu)筑世界記憶”拓展深層次內(nèi)涵價值。故本研究以此為實踐案例。

（一）數(shù)據(jù)獲取與預(yù)處理

1.資料搜集。與檔案相關(guān)的報刊和官方檔案網(wǎng)站，都有大量權(quán)威可靠的檔案文獻傳承知識，是很好的資料來源。為構(gòu)建《中國檔案文獻名錄》本體模型，用于對名錄中的文獻的相關(guān)實體進行提取，主要從兩個源頭進行數(shù)據(jù)采集：一是利用八爪魚工具，對中國、中國檔案全國檔案網(wǎng)站、省、市檔案文獻遺產(chǎn)事跡記述文字資料進行采集；二是利用OCR 技術(shù)，采集世界記憶中國官方網(wǎng)站圖片資料，獲取中國檔案文獻文本資料。選取“式樣雷圖檔”文獻遺存為典型案例，建構(gòu)“清代式樣雷圖檔”這一體例。收集CNKI“風格雷圖檔”高相關(guān)期刊論文，檢索有效論文76 篇，不包括建筑工程等類別。資料收集時間為2021 年10 月15 日，獲取檔案文獻文本凈資料1 份。

2.資料儲存。最終獲得檔案文獻文本資料《中國檔案文獻名錄》142 篇，檔案文獻事跡記述文本64 篇，相關(guān)期刊論文39 篇。《中國檔案文獻名錄》資料包括輯次、名稱、形成年代、數(shù)量、保存者、地址、郵編、申報人、文獻內(nèi)容、解說詞等9 個字段，以CSV 格式存放。檔案文獻事跡記述文本內(nèi)容主要包括，以機器學(xué)習可讀取的UTF-8 編碼TXT 形式存儲的形成的時間、地點、人物、事件以及社會自然環(huán)境等內(nèi)容。此外，挖掘提取的資料也要補正，主要人物的職務(wù)、機構(gòu)、事件、職務(wù)、著述等信息，尤其要注意補充。

3.資料預(yù)處理。所收集的資料異構(gòu)資料分析易受雜音影響，故資料清洗、去停用詞、中文分詞等預(yù)處理步驟應(yīng)包含在資料分析前：（1）資料清洗：對初始資料資料清洗，刪除與檔案文獻傳承無關(guān)的詞組或語句。（2）去停用詞：以停用詞庫集合表36 為基礎(chǔ)，降維文本集的特點向量。（3）中文分詞：常用詞典由于檔案文獻域內(nèi)詞語的特殊性，對所需的專業(yè)名詞難以識別，需要對域內(nèi)詞典進行重構(gòu)。從已收集處理的資料中篩選出“檔案文獻名錄”中的文獻內(nèi)容和評介文本資料共142 項，再通過ROSTCM社會化網(wǎng)絡(luò)分析軟件篩選高頻詞、增補近似詞等方法，整理成《檔案文獻領(lǐng)域辭典》。

經(jīng)過對上述資料的清理、遣詞斷句、漢語分詞等預(yù)處理操作，最終形成檔案文獻的完整語料庫。數(shù)據(jù)的實體提取和基于語料庫的本體構(gòu)建。

（二）檔案文獻本體構(gòu)建

1.分析核心概念對象

以“檔案文獻名錄”的概念對象及其相互關(guān)系，按照領(lǐng)域本體對抽取的核心實體進行分類、劃分等級。而特定日期、物品種類、事件等類別則受限于命名實體辨識、關(guān)鍵詞提取等技術(shù)，主要依賴于手工抽取。按頻次降序排列地理位置、責任者、民族、時期、語言等。增加和補充檔案文獻領(lǐng)域的核心概念對象是一個不斷豐富和擴展的過程，在此后的工作中，作者將繼續(xù)收集檔案文獻資料，完善補充檔案文獻中的概念名詞的類別和描述，并對我國檔案文獻名錄項目內(nèi)容的本體概念圖，在相關(guān)文獻專家的指導(dǎo)下進行整理。

2.構(gòu)建應(yīng)用本體

利用Protege 5.5.0 本體開發(fā)工具，在分析中國檔案文獻名錄中檔案文獻的核心概念間的基礎(chǔ)上，構(gòu)建各概念的層級結(jié)構(gòu)和關(guān)聯(lián)關(guān)系，從而完成檔案文獻本體的構(gòu)建過程。某一中國檔案文獻項目的創(chuàng)建實例，是根據(jù)本體定義的核心類和對象和數(shù)據(jù)屬性等框架，精選而成的檔案文獻概念本體網(wǎng)絡(luò)(見圖2)。

圖2 檔案文獻本體模型部分內(nèi)容

《清代式樣雷圖檔》是清代雷氏家族參與設(shè)計繪制的故宮、頤和園、清東陵、清西陵等工程的圖樣和文字檔案資料的建筑歷史資料?！吨袊鴻n案文獻名錄本體模型展示與說明》選擇《清代式樣雷圖檔》作為研究案例。本體構(gòu)建“清代風格雷圖檔”語義組織概念模型，鏈接案例實體與本體之間的關(guān)系，實現(xiàn)對“清代風格雷圖檔”項目中實體、語義的內(nèi)在邏輯結(jié)構(gòu)及其實體以實體、屬性、關(guān)系等三元組的形式進行描述。在已建立的類目下增加相應(yīng)的例題，共有198 個屬性。

《清代樣式雷圖檔》應(yīng)用本體概念圖的形象化，圖譜中的結(jié)點是遺存本體的概念，結(jié)點間的有向線段是實體間的語義關(guān)系。該家八代、樣式該圖檔相關(guān)人物共同構(gòu)成有向的社會網(wǎng)絡(luò)圖，群體之間形成縱橫交錯的關(guān)系網(wǎng)絡(luò)，具體表現(xiàn)為師徒、父子、配偶等諸多關(guān)系，以及參與保護、任職等由保護文獻形成的關(guān)系。就具體事例而言，本體可檢索到的文獻項目名稱為《清代樣式雷圖檔》，有雷發(fā)達、雷金玉、雷聲徵等均為該遺產(chǎn)的主要人物姓名，而雷家璽正是秘密將圖檔運回家中并加以保存的父親雷景修，因此保存了大量式樣該圖檔。

（三）知識推理

本體推理的主要應(yīng)用：對于本體的建立者，推理的主要應(yīng)用是對建立的本體進行一致性檢驗。對于本體的使用者，推理的主要應(yīng)用是獲得本體中的知識和運用本體中的知識解決問題。

1.傳遞關(guān)系

對于關(guān)系R 和任意實體X、Y、Z，如果存在三元組(X、R、Y)和(Y、R、Z)，并由此推理得到(X、R、Z)，則關(guān)系傳遞關(guān)系。檔案文獻本體建設(shè)中，檔案文獻項目“包含”責任者條目，同時責任者條目“包含”主要人物，且通過經(jīng)驗可以判斷，檔案文獻中應(yīng)當“包含”主要人物（見圖4），那么“包含”關(guān)系為傳遞關(guān)系。在對檔案文獻遺產(chǎn)本體實例化時，僅構(gòu)建了檔案文獻項目與責任者條目、責任者條目與主要人物間的關(guān)聯(lián)，通過人為方式篩選其包含的主要人物并添加其關(guān)系較為耗費人力，且容易遺漏，因此可以由檔案文獻本體推理進行完善。

圖4 傳遞關(guān)系包含知識推理

在進行知識推理之前，只能通過作為中間節(jié)點的詞條進行檢索，且重復(fù)結(jié)果較多，查詢效率較低，所以通過語義web 規(guī)則語言(swrl)，定義推理規(guī)則sso：consistof(？X、？y_^so：consistof(？Y、？Z)->SSO：Consistof(？X、？z，進行知識知識推理后再次檢索，本體實例關(guān)系的完善、語義表達與知識檢索能力的加強等，都是通過知識推理追根溯源、不斷發(fā)現(xiàn)新的隱含關(guān)系、構(gòu)建更為完善的檔案文獻知識體系、助力檔案文獻傳承與保護的有效途徑。

2.對稱關(guān)系

對關(guān)系R 和任意實體X、Y，如果存在三元組(X、R、Y)，并由此推理出(Y、R、X)，則關(guān)系對稱關(guān)系。檔案文獻中常有多種字的異形之間是對稱關(guān)系，即A 的異形為B，則B 的異形為A。但現(xiàn)有的例題關(guān)系和錄入方式難以做到全面的知識關(guān)聯(lián)，所以凡是相關(guān)的異形，如果通過某一刊物或典籍檢索到主語為錄入的，都可以通過它查到；反過來說，檢索到的是“異形”的其他的異形就很難找到了。但該例中能全面檢索到的概率只有1/12，知識檢索的查全率較低，完善檔案文獻本體急需知識推理。通過SWRL 定義推理規(guī)則"SSO：SAMEWord (？X、？y)->sso：SameWord(？Y，是嗎？x，實現(xiàn)關(guān)系推理的“異形”。推理而來，方向相反，實現(xiàn)了對稱關(guān)系推理，完善了檔案文獻本體，提高了其知識檢索時的查全率。

3.互反關(guān)系

對于關(guān)系R1、R2 與任意實體X、Y，如果存在(X、R1、Y)，并由此推理得到(Y、R2、X)，反之，則關(guān)系R1 與R2 是相互對立的關(guān)系相似，但更為普遍，大多數(shù)關(guān)系反向關(guān)系，通過對互反關(guān)系的定義、推理，有效提高了檔案文獻本體語義檢索的查全率和查準率，同時也提高了檔案文獻本體語義檢索。

六、結(jié)束語

傳統(tǒng)方法可能只提供系統(tǒng)集成，而不是在知識層中推斷其內(nèi)容。也就是說，知識共享不僅涉及系統(tǒng)連接，還涉及知識推理機制的參與?？梢缘贸鲆韵屡c開發(fā)技術(shù)相關(guān)的經(jīng)驗結(jié)論。第一，形式概念分析（FCA）可以作為一種知識獲取方法，從專業(yè)知識中獲取概念和屬性。第二，OWL-DL 可以用作知識推理語言，提供形式化邏輯表達式來描述知識概念。因此，本研究表明文獻的本體構(gòu)建技術(shù)具有良好的知識構(gòu)建潛力，應(yīng)開展未來研究，以構(gòu)建相關(guān)文獻的本體構(gòu)建，并與其他文獻的本體構(gòu)建知識庫進一步合作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

檔案文獻的本體構(gòu)建與知識推理

一、研究的目的

二、本體的概念

三、本體的構(gòu)建

四、知識推理

五、示例