■譚碧云,王秀梅
(1.惠州市排水管理中心,廣東 惠州 516000;2.廣東藥科大學(xué),廣東 廣州 510006)
數(shù)字檔案項目已在臺灣國家自然科學(xué)博物館(NMNS)建立。該項目旨在設(shè)計各種自然科學(xué)領(lǐng)域,如動物學(xué)、植物學(xué)、地質(zhì)學(xué)和人類學(xué)。盡管可以使用查詢或通過元數(shù)據(jù)模式或超鏈接手動表示內(nèi)容,但這項研究認為,數(shù)字檔案是提供“知識”的一個有前途的模型。當前NMNS 的可用性只關(guān)注于提供明確的靜態(tài)信息。因此,當前的系統(tǒng)不足以支持高級知識工程,例如,知識推理過程。
數(shù)字博物館應(yīng)用信息技術(shù)建立在線服務(wù),用戶無需親自到場即可訪問。我們還要考慮當前信息系統(tǒng)面臨的一些挑戰(zhàn),以使公眾能夠重復(fù)使用和共享知識。本體是一種用于知識管理的方法,用于創(chuàng)建定義良好的知識庫。本體需要以系統(tǒng)的、細粒度的方式構(gòu)建,因為現(xiàn)實世界的認知和本體的概念結(jié)構(gòu)之間存在很大的差距,需要發(fā)展構(gòu)建。因此,本研究具有以下目標:設(shè)計一種有效識別本體概念結(jié)構(gòu)的方法以及設(shè)計使用基于邏輯的語言輔助知識推理的方法。為了實現(xiàn)這些目標,本研究檢查了現(xiàn)有的提取方法,調(diào)查了相應(yīng)的工具,并進行了必要的修改。本研究采用形式概念分析(FCA)來識別概念并確定其層次關(guān)系,簡化描述在本體中的應(yīng)用。此外,開發(fā)人員不需要太多的設(shè)計時間或數(shù)學(xué)技能應(yīng)用DL模型。
為了建立本體概念框架并發(fā)現(xiàn)概念之間的層次結(jié)構(gòu),本研究采用形式概念分析(FCA)方法。FCA 最初是一種基于詞匯和層次問題的數(shù)據(jù)分析方法,將元素分類為形式對象和形式屬性。正式對象和屬性的集合,以及它們之間的關(guān)系,形成了一個“正式上下文”。當對象和屬性中的關(guān)系不能增加時,這對關(guān)系是封閉的,并進一步稱為“形式概念”。概念格包括形式上下文的概念集合和概念之間的層次關(guān)系。
折線圖直觀地表示FCA 形式上下文。圖1 中的線圖由節(jié)點、線和所有對象的標簽(在節(jié)點下方表示)以及給定上下文的屬性(在節(jié)點上方表示)組成。折線圖描述了形式概念之間的依賴關(guān)系。形式概念可以定義為{(對象集),(屬性集)}。例如,形式概念{(G),(Herb)}被附加到{(天南星科),(草本,種子,喬木)}和{(槭樹科),(草本,蕨類)}節(jié)點之上的節(jié)點。在其超級節(jié)點之下的每個節(jié)點都表示一個“超級- 子”關(guān)系,即“is-a”層次概念集群。因此,F(xiàn)CA是一種確定概念之間穩(wěn)定依賴關(guān)系的有用技術(shù)。
圖1 FCA 分析的維管植物的一個例子
文獻的本體構(gòu)建早已被用來表達人類對信息的共同理解。Gruber 將本體定義為“概念化的規(guī)范”。概念化是一種抽象的、簡化的世界視圖。也就是說,文獻的本體構(gòu)建是對概念、屬性和關(guān)系的正式描述,這些概念、屬性與關(guān)系涉及建立對現(xiàn)實世界事件認知的共同理解。知識庫社區(qū)通過定義一組術(shù)語、話語和公理,采用文獻的本體構(gòu)建方法。因此,本體對于定義用于表示共享知識的通用詞匯表是有價值的。廣泛的共識是,采用基于文獻的本體構(gòu)建的系統(tǒng)的開發(fā)人員必須專注于特定的領(lǐng)域問題,并提供對單個概念的共同理解。然而,從現(xiàn)實世界中獲得認知,從而設(shè)計本體概念方面存在挑戰(zhàn)。
XML 技術(shù)最近被引入各種應(yīng)用領(lǐng)域的數(shù)據(jù)交換和系統(tǒng)開發(fā)中。本體研究使用XML 為本體開發(fā)語言構(gòu)建和模式庫。此外,已經(jīng)開發(fā)了許多基于XML 的本體編輯工具。兩種本體語言DAML+OIL 和OWL 描述如下。
DARPA 代理標記語言(DAML)。自2000 年以來,DAML(DARPA 代理標記語言)被開發(fā)為XML 和RDF的擴展。最近發(fā)布的DAML 加本體交換語言(OIL)為構(gòu)建本體和標記信息提供了一組豐富的構(gòu)造,使其機器可讀和可理解。
本體Web 語言(OWL)。OWL 是W3C 開發(fā)的最新的基于XML 的本體語言。OWL 繼承了DAML+OIL 的大部分特性,現(xiàn)在已成為正式標準。根據(jù)OWL 規(guī)范,該標準有三種表達能力越來越強的子語言,適用于不同級別的可用性:OWL Lite 設(shè)計用于分類層次結(jié)構(gòu)和直接的約束特征;OWL-DL支持在保持計算完整性和可判定性的同時希望獲得最大表現(xiàn)力的用戶;OWL-Full 對于具有最大表現(xiàn)力但沒有計算保證的推理系統(tǒng)具有有用的計算財產(chǎn)。
知識推理是根據(jù)已有的知識的過程,通過已有的知識三元組構(gòu)建實體之間的關(guān)聯(lián),對傳遞關(guān)系、對立關(guān)系等諸多有價值的實體關(guān)系進行推理,是檔案文獻本體的核心應(yīng)用之一,也是檔案文獻本體構(gòu)建的價值之一。
知識推理表示特定格式的信息系統(tǒng)的專業(yè)知識。描述邏輯(DL)是一個可描述的片段,由類、財產(chǎn)和表示屬性或類關(guān)系的邏輯符號組成。DL 已被包括OIL 和OWL在內(nèi)的各種本體開發(fā)方法廣泛用作表示格式。為了提高推理能力,本研究使用OWL-DL 作為知識推理。描述邏輯推理器可以計算所有命名概念的包容層次結(jié)構(gòu)。概念被分類為已定義或原始類。默認情況下,每個描述都是原始的,即至少有一組必要的條件。相反,如果類具有描述和充分條件,則定義該類?;惡鸵讯x類之間的區(qū)別在于,已定義類可以同樣雙向。在表達式C≡D 中,如果一個實例是概念D 的成員,那么它必須滿足概念C的成員。基元類中的實例不是同樣雙向的。以下DL 模型旨在幫助開發(fā)人員定義正確的邏輯表達式。
為了定義概念的詳細語義,DL 為精確描述應(yīng)用了屬性限制,例如,量詞、基數(shù)和賦值。
在定義檔案文獻的本體構(gòu)建概念時,上述模型有助于解決大多數(shù)情況。然而,一些例外情況,如不相交和不相關(guān),需要進一步的支持補充。不相關(guān)的概念是不屬于彼此的概念,因此彼此沖突。賦予相關(guān)概念或個體雙向關(guān)系。例如,如果ChasValueD表示DL表達式,其中C 和D表示兩個類,則DL表達式需要由DisValueC給出。
為保護和傳播中國檔案文獻,中國于1995 年成立了“世界記憶工程中國國家委員會”,并于2000 年創(chuàng)建了“中國檔案文獻記憶工程”項目。以國家檔案局形成《中國檔案文獻名錄》為依托,迄今共142(組)檔案文獻,并于2022 年3 月1 日開展第五批“中國檔案文獻”申報工作。中國檔案文獻具有記錄、證據(jù)、信息的工具價值,實施檔案文獻影響力提升工程,為中國國際傳播能力建設(shè)助力,為“構(gòu)筑世界記憶”拓展深層次內(nèi)涵價值。故本研究以此為實踐案例。
1.資料搜集。與檔案相關(guān)的報刊和官方檔案網(wǎng)站,都有大量權(quán)威可靠的檔案文獻傳承知識,是很好的資料來源。為構(gòu)建《中國檔案文獻名錄》本體模型,用于對名錄中的文獻的相關(guān)實體進行提取,主要從兩個源頭進行數(shù)據(jù)采集:一是利用八爪魚工具,對中國、中國檔案全國檔案網(wǎng)站、省、市檔案文獻遺產(chǎn)事跡記述文字資料進行采集;二是利用OCR 技術(shù),采集世界記憶中國官方網(wǎng)站圖片資料,獲取中國檔案文獻文本資料。選取“式樣雷圖檔”文獻遺存為典型案例,建構(gòu)“清代式樣雷圖檔”這一體例。收集CNKI“風格雷圖檔”高相關(guān)期刊論文,檢索有效論文76 篇,不包括建筑工程等類別。資料收集時間為2021 年10 月15 日,獲取檔案文獻文本凈資料1 份。
2.資料儲存。最終獲得檔案文獻文本資料《中國檔案文獻名錄》142 篇,檔案文獻事跡記述文本64 篇,相關(guān)期刊論文39 篇。《中國檔案文獻名錄》資料包括輯次、名稱、形成年代、數(shù)量、保存者、地址、郵編、申報人、文獻內(nèi)容、解說詞等9 個字段,以CSV 格式存放。檔案文獻事跡記述文本內(nèi)容主要包括,以機器學(xué)習可讀取的UTF-8 編碼TXT 形式存儲的形成的時間、地點、人物、事件以及社會自然環(huán)境等內(nèi)容。此外,挖掘提取的資料也要補正,主要人物的職務(wù)、機構(gòu)、事件、職務(wù)、著述等信息,尤其要注意補充。
3.資料預(yù)處理。所收集的資料異構(gòu)資料分析易受雜音影響,故資料清洗、去停用詞、中文分詞等預(yù)處理步驟應(yīng)包含在資料分析前:(1)資料清洗:對初始資料資料清洗,刪除與檔案文獻傳承無關(guān)的詞組或語句。(2)去停用詞:以停用詞庫集合表36 為基礎(chǔ),降維文本集的特點向量。(3)中文分詞:常用詞典由于檔案文獻域內(nèi)詞語的特殊性,對所需的專業(yè)名詞難以識別,需要對域內(nèi)詞典進行重構(gòu)。從已收集處理的資料中篩選出“檔案文獻名錄”中的文獻內(nèi)容和評介文本資料共142 項,再通過ROSTCM社會化網(wǎng)絡(luò)分析軟件篩選高頻詞、增補近似詞等方法,整理成《檔案文獻領(lǐng)域辭典》。
經(jīng)過對上述資料的清理、遣詞斷句、漢語分詞等預(yù)處理操作,最終形成檔案文獻的完整語料庫。數(shù)據(jù)的實體提取和基于語料庫的本體構(gòu)建。
1.分析核心概念對象
以“檔案文獻名錄”的概念對象及其相互關(guān)系,按照領(lǐng)域本體對抽取的核心實體進行分類、劃分等級。而特定日期、物品種類、事件等類別則受限于命名實體辨識、關(guān)鍵詞提取等技術(shù),主要依賴于手工抽取。按頻次降序排列地理位置、責任者、民族、時期、語言等。增加和補充檔案文獻領(lǐng)域的核心概念對象是一個不斷豐富和擴展的過程,在此后的工作中,作者將繼續(xù)收集檔案文獻資料,完善補充檔案文獻中的概念名詞的類別和描述,并對我國檔案文獻名錄項目內(nèi)容的本體概念圖,在相關(guān)文獻專家的指導(dǎo)下進行整理。
2.構(gòu)建應(yīng)用本體
利用Protege 5.5.0 本體開發(fā)工具,在分析中國檔案文獻名錄中檔案文獻的核心概念間的基礎(chǔ)上,構(gòu)建各概念的層級結(jié)構(gòu)和關(guān)聯(lián)關(guān)系,從而完成檔案文獻本體的構(gòu)建過程。某一中國檔案文獻項目的創(chuàng)建實例,是根據(jù)本體定義的核心類和對象和數(shù)據(jù)屬性等框架,精選而成的檔案文獻概念本體網(wǎng)絡(luò)(見圖2)。
圖2 檔案文獻本體模型部分內(nèi)容
《清代式樣雷圖檔》是清代雷氏家族參與設(shè)計繪制的故宮、頤和園、清東陵、清西陵等工程的圖樣和文字檔案資料的建筑歷史資料?!吨袊鴻n案文獻名錄本體模型展示與說明》選擇《清代式樣雷圖檔》作為研究案例。本體構(gòu)建“清代風格雷圖檔”語義組織概念模型,鏈接案例實體與本體之間的關(guān)系,實現(xiàn)對“清代風格雷圖檔”項目中實體、語義的內(nèi)在邏輯結(jié)構(gòu)及其實體以實體、屬性、關(guān)系等三元組的形式進行描述。在已建立的類目下增加相應(yīng)的例題,共有198 個屬性。
《清代樣式雷圖檔》應(yīng)用本體概念圖的形象化,圖譜中的結(jié)點是遺存本體的概念,結(jié)點間的有向線段是實體間的語義關(guān)系。該家八代、樣式該圖檔相關(guān)人物共同構(gòu)成有向的社會網(wǎng)絡(luò)圖,群體之間形成縱橫交錯的關(guān)系網(wǎng)絡(luò),具體表現(xiàn)為師徒、父子、配偶等諸多關(guān)系,以及參與保護、任職等由保護文獻形成的關(guān)系。就具體事例而言,本體可檢索到的文獻項目名稱為《清代樣式雷圖檔》,有雷發(fā)達、雷金玉、雷聲徵等均為該遺產(chǎn)的主要人物姓名,而雷家璽正是秘密將圖檔運回家中并加以保存的父親雷景修,因此保存了大量式樣該圖檔。
本體推理的主要應(yīng)用:對于本體的建立者,推理的主要應(yīng)用是對建立的本體進行一致性檢驗。對于本體的使用者,推理的主要應(yīng)用是獲得本體中的知識和運用本體中的知識解決問題。
1.傳遞關(guān)系
對于關(guān)系R 和任意實體X、Y、Z,如果存在三元組(X、R、Y)和(Y、R、Z),并由此推理得到(X、R、Z),則關(guān)系傳遞關(guān)系。檔案文獻本體建設(shè)中,檔案文獻項目“包含”責任者條目,同時責任者條目“包含”主要人物,且通過經(jīng)驗可以判斷,檔案文獻中應(yīng)當“包含”主要人物(見圖4),那么“包含”關(guān)系為傳遞關(guān)系。在對檔案文獻遺產(chǎn)本體實例化時,僅構(gòu)建了檔案文獻項目與責任者條目、責任者條目與主要人物間的關(guān)聯(lián),通過人為方式篩選其包含的主要人物并添加其關(guān)系較為耗費人力,且容易遺漏,因此可以由檔案文獻本體推理進行完善。
圖4 傳遞關(guān)系包含知識推理
在進行知識推理之前,只能通過作為中間節(jié)點的詞條進行檢索,且重復(fù)結(jié)果較多,查詢效率較低,所以通過語義web 規(guī)則語言(swrl),定義推理規(guī)則sso:consistof(?X、?y_^so:consistof(?Y、?Z)->SSO:Consistof(?X、?z,進行知識知識推理后再次檢索,本體實例關(guān)系的完善、語義表達與知識檢索能力的加強等,都是通過知識推理追根溯源、不斷發(fā)現(xiàn)新的隱含關(guān)系、構(gòu)建更為完善的檔案文獻知識體系、助力檔案文獻傳承與保護的有效途徑。
2.對稱關(guān)系
對關(guān)系R 和任意實體X、Y,如果存在三元組(X、R、Y),并由此推理出(Y、R、X),則關(guān)系對稱關(guān)系。檔案文獻中常有多種字的異形之間是對稱關(guān)系,即A 的異形為B,則B 的異形為A。但現(xiàn)有的例題關(guān)系和錄入方式難以做到全面的知識關(guān)聯(lián),所以凡是相關(guān)的異形,如果通過某一刊物或典籍檢索到主語為錄入的,都可以通過它查到;反過來說,檢索到的是“異形”的其他的異形就很難找到了。但該例中能全面檢索到的概率只有1/12,知識檢索的查全率較低,完善檔案文獻本體急需知識推理。通過SWRL 定義推理規(guī)則"SSO:SAMEWord (?X、?y)->sso:SameWord(?Y,是嗎?x,實現(xiàn)關(guān)系推理的“異形”。推理而來,方向相反,實現(xiàn)了對稱關(guān)系推理,完善了檔案文獻本體,提高了其知識檢索時的查全率。
3.互反關(guān)系
對于關(guān)系R1、R2 與任意實體X、Y,如果存在(X、R1、Y),并由此推理得到(Y、R2、X),反之,則關(guān)系R1 與R2 是相互對立的關(guān)系相似,但更為普遍,大多數(shù)關(guān)系反向關(guān)系,通過對互反關(guān)系的定義、推理,有效提高了檔案文獻本體語義檢索的查全率和查準率,同時也提高了檔案文獻本體語義檢索。
傳統(tǒng)方法可能只提供系統(tǒng)集成,而不是在知識層中推斷其內(nèi)容。也就是說,知識共享不僅涉及系統(tǒng)連接,還涉及知識推理機制的參與??梢缘贸鲆韵屡c開發(fā)技術(shù)相關(guān)的經(jīng)驗結(jié)論。第一,形式概念分析(FCA)可以作為一種知識獲取方法,從專業(yè)知識中獲取概念和屬性。第二,OWL-DL 可以用作知識推理語言,提供形式化邏輯表達式來描述知識概念。因此,本研究表明文獻的本體構(gòu)建技術(shù)具有良好的知識構(gòu)建潛力,應(yīng)開展未來研究,以構(gòu)建相關(guān)文獻的本體構(gòu)建,并與其他文獻的本體構(gòu)建知識庫進一步合作。