關鍵詞:案例推理;文本詞頻;檢索模型
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2024)25-0011-05
0 引言
案例推理(Case-Based Reasoning, CBR) 技術(shù)起源于美國耶魯大學Roger Schank 于1982 年在其專著《Dynamic Memory》中的描述,是人工智能領域中較新興的一種重要的基于知識的問題求解和學習方法[1-10]。隨著人們對CBR研究的不斷深入,CBR的應用領域不斷拓寬,已涉及機器故障診斷、醫(yī)藥醫(yī)療診斷、企業(yè)咨詢決策、法律案例評估和天氣預報等多個領域。因此,程序設計者難以獲取并表達專業(yè)知識的問題日益突出,因此,對基于案例推理的通用案例檢索模型的需求不斷上升。
1 基于案例推理的通用案例檢索模型框架
通過對不同領域中引入案例推理技術(shù)進行案例檢索的比較,提出一個基于案例推理的共用案例檢索模型框架,如圖1所示。
在基于案例推理的通用案例檢索模型中,首先要對案例進行標準化描述,以特征向量的形式來映射各屬性,通過檢索來查找案例庫中與新問題案例最接近的匹配案例。如果找到相同或相似度在閾值范圍內(nèi)的案例,則可以直接重用舊案例的知識;否則,根據(jù)最相似的若干匹配案例重新修改評估方案,形成新案例,并將其保存進入案例庫。
2 基于案例推理的通用案例檢索模型關鍵技術(shù)
案例推理過程主要包括案例知識表示、案例檢索、案例重用/案例修改以及案例學習4個關鍵技術(shù)。
2.1 案例知識表示
隨著社會經(jīng)濟的發(fā)展、CBR研究的不斷深入以及數(shù)據(jù)量的急劇增加,CBR的應用領域越來越廣泛。但在使用CBR之前,首先要進行數(shù)據(jù)的清洗和整理。我國各行各業(yè)各個機構(gòu)都存有大量的可用數(shù)據(jù),但由于地方性差異,很多數(shù)據(jù)除了在時間aqNyNxllI03MFKOajguWkQ==和空間上分散外,還存在存儲結(jié)構(gòu)、評價內(nèi)容和屬性特征等方面的差異,因此很多數(shù)據(jù)很難在同一個平臺上進行比較。
在這里,筆者借助布爾型特征向量來進行案例知識的表示。由于不同領域的評估側(cè)重點不同,且數(shù)據(jù)大多為非結(jié)構(gòu)化數(shù)據(jù)。因此,首先建立一個屬性統(tǒng)計表,即將某些行業(yè)某些領域的評估指標進行整合,并分解為一些可選項。并建立如表1所示的屬性統(tǒng)計表。
假設在案例庫中,所有案例的診療方案經(jīng)過綜合并分解后,可得到n 條可選的布爾型解決方案。通過案例檢索,我們找到了與當前未知案例情況最相似的前50條相似案例,其相似案例與新案例的相似度及相似案例的解決方案如表3所示:
當新案例的所有解決方案采用率都計算出來,并經(jīng)過人工干預給出案例采用率的閾值后,新案例的解決方案即可確定。例如:經(jīng)過人工干預,設定解決方案采用率在95%以上的為必要解決方案,新案例解決方案采用率在80%~95%為可選解決方案,新案例解決方案采用率在60%~80%為參考解決方案等。即如果新案例的某個解決方案采用率大于等于95%,則直接作為新案例的解決方案;若該解決方案采用率在80%~95%,則作為新案例的推薦解決方案;若該解決方案采用率在60%~80%,則作為新案例的可選解決方案,而采用率小于60%的解決方案則不推薦給用戶使用。由此可以得到新案例的個性化輔助決策方案,對于推薦和可選方案,可以將采用率附在后面,為用戶決策提供參考。
2.4 案例學習
在案例個性化干預過程中,除了提供新案例的輔助決策方案之外,還可以用于擴充案例庫。如果在案例相似度檢索過程中,新案例與案例庫中的案例相似度均低于某個閾值(例如:相似度均低于95%) ,則新案例的輔助決策案經(jīng)過人工干預后可以作為案例庫的新案例被添加到案例庫中。通過這樣的不斷操作,逐步完善案例庫。當新的案例加入案例庫中時,整個案例庫的權(quán)重向量需要進行調(diào)整。權(quán)重向量中的每一個權(quán)重均是通過log(D/Di)計算得出。
3 方法測試
為了驗證本文所提出的基于案例推理的通用案例檢索模型的準確性,選用Visual Studio 2010作為開發(fā)平臺,C#為開發(fā)語言,案例保存在SQL Server 2010中,對方法的準確性進行簡單測試。
在測試過程中,模擬了1500條老年人健康評估案例,其中1300條為訓練案例,200條為測試案例。在測試中,我們首先根據(jù)調(diào)研來的案例建立了如下表4所示的老年人健康評估表。
隨后,我們根據(jù)訓練案例及相應的測評標準,在SQL Server 2010中建立了一個包含24個屬性(不包括診斷結(jié)果或結(jié)局方案屬性)、1300個元組的基本數(shù)據(jù)表,如圖1所示。
通過對屬性進行分類,建立了一個包含82個分類屬性的布爾型數(shù)據(jù)表,如圖2所示。
根據(jù)對分類屬性的統(tǒng)計結(jié)果(如圖3所示),我們可以計算出每個分類屬性的權(quán)重,如表5所示。
完成以上準備工作后,即可根據(jù)圖4所示的案例癥狀選項圖對新案例的癥狀進行描述。
描述后的案例將被表示為帶權(quán)向量,并與案例庫中的案例進行相似度檢索,檢索結(jié)果如圖5所示。
測試結(jié)果顯示,案例檢索的準確性在90%以上。
4 結(jié)束語
本文提出了一種基于案例推理的通用案例檢索模型,并介紹了推理過程中的幾個關鍵技術(shù)。該模型具有通用性,在應用過程中只需將案例屬性進行轉(zhuǎn)換,對應到模型中的相關屬性上即可進行案例推理。例如:在測試過程中,我們將健康指標對應為相應屬性,從而將該通用模型轉(zhuǎn)化為老年人健康評估模型。此外,該模型的建立方法簡單易懂,且實現(xiàn)較為簡單,經(jīng)過實驗驗證,具有較高的準確性。然而,此次測試僅單純驗證了方法的準確性,其在實際系統(tǒng)應用中的有效性尚待檢驗,并且在幾個關鍵技術(shù)上仍有一些問題需要解決。
首先,通過將各個案例整合并分解為一個個可選項的方法進行案例知識表示。這種知識表示方法簡單易行,適用于大多數(shù)可選項,但對于一些有參考數(shù)據(jù)的指標(例如數(shù)值型、文本型等),其適用性較差。
其次,在用特征向量表示知識時,由于所分解的多個可選項常常是一個指標中分解出來的,因此在同一案例中只能選擇一項,結(jié)果是所用的特征向量實際上是一個稀疏向量。此外,案例重用技術(shù)中提到的閾值t 也需要專業(yè)人士進行設定,這無疑增加了人工干預的程度。因此,在實際應用中,如何在保證有效性的基礎上通過稀疏矩陣的運算法則簡化現(xiàn)有算法,以及如何盡可能降低人工干預的程度以提高工作效率,都是今后的研究方向之一。
最后,算法應用過程中的有效性與案例庫的大小相關。然而,隨著案例庫的不斷擴張,案例相似度檢索將會變得越來越復雜。因此,提高算法效率也是今后研究的一個方向。