張星
摘 要:大型設(shè)備領(lǐng)域的維修案例大部分都是以文本的形式存儲(chǔ),而維修文本案例有自己的結(jié)構(gòu)特點(diǎn)。在本文中,我們建立起基于本體的大型設(shè)備維修文本案例模型,通過(guò)語(yǔ)義相似度算法,為大型設(shè)備維修文本案例檢索帶來(lái)了極大的便利。
關(guān)鍵詞:領(lǐng)域本體;文本信息;語(yǔ)義檢索模型
1 引言
隨著網(wǎng)絡(luò)時(shí)代的發(fā)展,網(wǎng)絡(luò)上的信息量越來(lái)越大,而且很多網(wǎng)絡(luò)信息都是以文本方式存儲(chǔ),同時(shí)也出現(xiàn)信息冗余現(xiàn)象。由于基于本體的檢索更加注重語(yǔ)義上的匹配,在充分考慮維修案例結(jié)構(gòu)特點(diǎn)的基礎(chǔ)上,利用本體對(duì)該領(lǐng)域知識(shí)進(jìn)行建模,能夠有效地提高信息檢索的查全率和查準(zhǔn)率。目前,對(duì)無(wú)結(jié)構(gòu)或者半結(jié)構(gòu)的文本信息的檢索研究的相對(duì)較少,因此,對(duì)基于本體的信息檢索研究顯得十分重要。
國(guó)外對(duì)于本體的研究處于領(lǐng)先地位,研究出了一系列本體的開發(fā)方法,例如骨架法、企業(yè)建模法、Methodology法等。國(guó)內(nèi)對(duì)本體的研究起步較晚,主要研究?jī)?nèi)容包括產(chǎn)品信息建模、虛擬企業(yè)建模、常識(shí)知識(shí)庫(kù)等。其中比較有影響的有中科院數(shù)學(xué)所陸汝鈴院士領(lǐng)導(dǎo)的常識(shí)知識(shí)的實(shí)用性研究[1]。宋峻峰提出的基于本體的信息檢索模型采用了描述邏輯作為構(gòu)造本體的本體語(yǔ)言,使用本體中定義的詞匯來(lái)標(biāo)記文檔,生成基于本體的文檔邏輯視圖和用戶信息需求邏輯視圖,從而可以實(shí)現(xiàn)語(yǔ)義層次的檢索,使檢索性能大大改善[2]。
在設(shè)備維修領(lǐng)域,半結(jié)構(gòu)化的文本非常常見。在設(shè)備維修工作中,故障是最核心的概念,而且,該領(lǐng)域在知識(shí)表達(dá)方面缺乏統(tǒng)一的知識(shí)模型,這樣很容易造成對(duì)同一個(gè)知識(shí)的描述存在不同的表達(dá)方式,這影響了相關(guān)人員對(duì)領(lǐng)域知識(shí)的理解。因此,針對(duì)目前大型設(shè)備領(lǐng)域?qū)收现R(shí)實(shí)際應(yīng)用方面的需求,并結(jié)合該領(lǐng)域知識(shí)的結(jié)構(gòu)特點(diǎn),本文首先對(duì)該領(lǐng)域的知識(shí)進(jìn)行本體建模,并在本體模型的基礎(chǔ)上建立基于語(yǔ)義的檢索模型。
2 基于領(lǐng)域本體的構(gòu)建
2.1 文本維修案例結(jié)構(gòu)的特點(diǎn)
文本案例是指以文本方式存在的文本案例。我們稱以文本方式存在的關(guān)于大型設(shè)備維修的案例為文本維修案例。由于該領(lǐng)域的文本維修案例的結(jié)構(gòu)和表達(dá)形式相對(duì)規(guī)范,因此文本維修案例是一種半結(jié)構(gòu)化的文本案例,簡(jiǎn)稱為文本維修案例。文本維修案例主要包括摘要、故障車輛的基本信息、故障現(xiàn)象、故障診斷過(guò)程、故障原因分析、故障解決方法等主要部分。
2.2 大型設(shè)備文本維修案例故障本體的構(gòu)建過(guò)程
第一步是明確領(lǐng)域本體的專業(yè)領(lǐng)域和范疇:設(shè)備故障本體的專業(yè)領(lǐng)域是設(shè)備在使用過(guò)程中出現(xiàn)的故障、情境等領(lǐng)域;用戶對(duì)象是設(shè)備領(lǐng)域的相關(guān)技術(shù)人員。構(gòu)建設(shè)備故障本體的目標(biāo)是利用本體的思想和描述語(yǔ)言組織故障領(lǐng)域知識(shí)。
第二步是領(lǐng)域信息的收集和分析:我們通過(guò)書本、網(wǎng)頁(yè)等知識(shí)來(lái)源獲取領(lǐng)域信息,經(jīng)過(guò)對(duì)領(lǐng)域信息的分析,得到該領(lǐng)域中的重要概念集及相關(guān)體系結(jié)構(gòu)關(guān)系。
第三步是確定核心概念:列出所有潛在的核心概念,經(jīng)過(guò)識(shí)別、分析和統(tǒng)計(jì),最終確定設(shè)備故障領(lǐng)域知識(shí)的核心概念,包括“摘要”、“故障件基本信息”、“故障現(xiàn)象”、“故障診斷”、“故障原因”、“故障解決方法”等。
第四步是建立概念層次結(jié)構(gòu):確定好設(shè)備故障本體的核心概念之后,再對(duì)這組核心概念進(jìn)行擴(kuò)展,建立起整個(gè)本體的概念模型。經(jīng)過(guò)對(duì)核心概念的層次體系結(jié)構(gòu)的擴(kuò)展,總結(jié)得出設(shè)備故障領(lǐng)域本體的概念層次模型。
第五步是定義概念和屬性:概念層次結(jié)構(gòu)建立起來(lái)之后,需要通過(guò)定義概念間的關(guān)系和屬性來(lái)將這些概念連接起來(lái)。概念的屬性一般分為兩種,一種用于描述概念自身的信息和結(jié)構(gòu),一種用于描述概念之間的關(guān)系,即數(shù)值屬性和對(duì)象屬性,同時(shí)也要定義屬性自身的性質(zhì)。
第六步是本體編碼:基于OWL本體描述語(yǔ)言應(yīng)用Protege本體開發(fā)工具對(duì)概念模型進(jìn)行形式化的編碼,以便在計(jì)算機(jī)上能夠理解。
第七步是實(shí)例化:故障領(lǐng)域本體借助Protege等本體構(gòu)建工具自動(dòng)生成符合OWL語(yǔ)法的庫(kù)文件,然后采用手工方式在本體構(gòu)建工具中進(jìn)行實(shí)例聲明、實(shí)例描述和關(guān)系關(guān)聯(lián)完成大量的本體概念實(shí)例化工作。
3 基于本體的文本案例檢索
故障知識(shí)的語(yǔ)義檢索,是在本體建模的基礎(chǔ)上實(shí)現(xiàn)基于設(shè)備故障領(lǐng)域概念的故障案例檢索。根據(jù)輸入的故障產(chǎn)品、故障現(xiàn)象、故障模式等檢索條件,應(yīng)用本體概念模型,語(yǔ)義檢索引擎將檢索條件映射到與其語(yǔ)義相關(guān)的概念上,應(yīng)用規(guī)范的概念和相似度匹配算法進(jìn)行檢索,得到一組具有不同相似度的故障案例集作為檢索的結(jié)果,從而可參考相似案例來(lái)解決當(dāng)前的故障問(wèn)題。本體映射采用XML映射配置技術(shù),將用戶查詢條件映射為本體描述結(jié)構(gòu)的三元組<概念,屬性,匹配值>,進(jìn)行查詢條件三元組與本體模型三元組的匹配及語(yǔ)義推理。
圖1故障知識(shí)語(yǔ)義檢索模型圖
語(yǔ)義檢索的核心在于如何正確的定義和量化概念之間的“語(yǔ)義相似度”。最近鄰法檢索策略是一種應(yīng)用較為廣泛的語(yǔ)義相似度算法?;舅枷胧菑亩嗑S度空間概念集中找出與目標(biāo)概念最近的概念,概念的每一個(gè)特征屬性即是一個(gè)維度。最近鄰法檢索的語(yǔ)義相似度函數(shù)如下:
(1)
表示概念A(yù)和概念B之間的相似度;為第i個(gè)特征屬性的權(quán)重,;n為檢索屬性的個(gè)數(shù);為第i個(gè)特征值的語(yǔ)義相似度函數(shù),反映了兩個(gè)特征概念之間的某種語(yǔ)義關(guān)系。根據(jù)概念詞匯的可替換度和詞義的符合程度,對(duì)應(yīng)的相似值也不同。其對(duì)應(yīng)的基于本體的文本案例檢索模型如下圖所示
圖2基于領(lǐng)域本體的語(yǔ)義檢索模型
4 結(jié)論
根據(jù)大型復(fù)雜設(shè)備文本維修案例這一領(lǐng)域中文本案例自己的結(jié)構(gòu)特點(diǎn),本文選擇使用基于本體的方式對(duì)該領(lǐng)域的文本案例進(jìn)行知識(shí)表示,將該領(lǐng)域中繁雜無(wú)序的知識(shí)以一定的結(jié)構(gòu)層次展現(xiàn)出來(lái),給該領(lǐng)域進(jìn)行信息的檢索帶來(lái)了極大的便利。同時(shí),針對(duì)文本信息的檢索,我們?cè)O(shè)計(jì)了一套適合該領(lǐng)域信息檢索的算法,最后本文給出了基于本體的文本案例信息的檢索模型。
參考文獻(xiàn)
1.中國(guó)科學(xué)院計(jì)算機(jī)技術(shù)研究所陸汝鈴院十研究方向及主要科研成果[EB/OL]
2.宋峻峰,張維明,肖一東,唐九陽(yáng).基于本體的信息檢索模型研究[J].南京人學(xué)學(xué)報(bào).Vol.41,No.2, 2005.191-195