易 霞,李 晟,秦莉花,陳曉陽(yáng),王小云
(1.湖南中醫(yī)藥大學(xué)護(hù)理學(xué)院,湖南 長(zhǎng)沙410208;2.湖南中醫(yī)藥大學(xué)藥學(xué)院,湖南長(zhǎng)沙410208;3.廣州中醫(yī)藥大學(xué)第二臨床醫(yī)學(xué)院,廣東廣州510120)
運(yùn)用現(xiàn)代科學(xué)技術(shù)對(duì)中醫(yī)理論和實(shí)踐進(jìn)行科學(xué)闡釋是促進(jìn)中醫(yī)國(guó)際化、現(xiàn)代化的重要手段之一,而數(shù)字中醫(yī)藥是實(shí)現(xiàn)中醫(yī)藥技術(shù)飛躍發(fā)展的必由之路。數(shù)字中醫(yī)藥是利用數(shù)字化技術(shù)手段進(jìn)行中醫(yī)藥數(shù)據(jù)、信息和知識(shí)的獲取、存儲(chǔ)、處理,形成一個(gè)將中醫(yī)藥研究、臨床實(shí)踐集于一體的綜合中醫(yī)院數(shù)字系統(tǒng)。將數(shù)據(jù)挖掘技術(shù)引入中醫(yī)藥臨床研究,建立基于海量數(shù)據(jù)、以數(shù)據(jù)為導(dǎo)向的臨床研究工作模式,解決以個(gè)體化診療為特色的中醫(yī)臨床研究的技術(shù)瓶頸問(wèn)題,是中醫(yī)藥現(xiàn)代化的一大創(chuàng)舉。
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道但又有潛在的有用信息和知識(shí)的過(guò)程。其中貝葉斯分類是一種典型的基于統(tǒng)計(jì)分類方法,貝葉斯定理是貝葉斯學(xué)習(xí)方法的理論基礎(chǔ),它將事件的先驗(yàn)概率與后驗(yàn)概率巧妙地聯(lián)系起來(lái),利用先驗(yàn)信息和樣本數(shù)據(jù)信息確定事件的后驗(yàn)概率,可以預(yù)測(cè)事件發(fā)生的可能性。常用的貝葉斯分類方法為樸素貝葉斯和貝葉斯網(wǎng)絡(luò)。
樸素貝葉斯方法是貝葉斯分類器中最簡(jiǎn)單的一種。它假定一個(gè)屬性對(duì)給定類的影響?yīng)毩⑵渌麑傩裕@一假定稱作類條件獨(dú)立,即假定所有的屬性變量均是相互類條件獨(dú)立的[1]。相對(duì)于其他分類方法,樸素貝葉斯分類算法的最大特點(diǎn)是不需要搜索,只需簡(jiǎn)單地計(jì)算訓(xùn)練例中各個(gè)屬性值發(fā)生的頻率數(shù),就可以估計(jì)出每個(gè)屬性的概率估計(jì)值,因而樸素貝葉斯分類算法的效率特別高。
樸素貝葉斯分類算法用于兩類分類或者多類分類問(wèn)題,可用于離散型資料。采用樸素貝葉斯分類算法必須滿足以下2個(gè)條件:①要決策分類的類別數(shù)是一定的;②各類別總體的概率分布是已知的。利用信息增益算法進(jìn)行辨證屬性選擇,并分別采用樸素貝葉斯和強(qiáng)屬性集貝葉斯網(wǎng)絡(luò)算法建立中醫(yī)冠心病臨床證型診斷模型。試驗(yàn)結(jié)果表明:該分類算法在中醫(yī)冠心病臨床診斷模型中具有良好的分類性能,有助于提高臨床辨證能力及發(fā)現(xiàn)新的辨證要素[1]。
貝葉斯網(wǎng)絡(luò)(Bayesian Network)又稱為信念網(wǎng)絡(luò)、概率網(wǎng)絡(luò)或因果網(wǎng)絡(luò),是根據(jù)變量之間的依賴關(guān)系,使用圖論方法表示變量集合的聯(lián)合概率分布的圖形模型。該模型是一種表示概率關(guān)系的有向無(wú)環(huán)圖,表達(dá)多個(gè)變量的分布函數(shù)如何分解為單個(gè)變量的條件分布函數(shù)的乘積。貝葉斯網(wǎng)絡(luò)由兩部分組成:有向無(wú)環(huán)的網(wǎng)絡(luò)圖形和條件概率分布,主要由節(jié)點(diǎn)和弧來(lái)組成,其中每個(gè)節(jié)點(diǎn)代表一個(gè)隨機(jī)變量,并通過(guò)給定節(jié)點(diǎn)的條件概率與其父節(jié)點(diǎn)相關(guān),而每條弧代表一個(gè)概率依賴。在貝葉斯網(wǎng)絡(luò)中,定性信息主要通過(guò)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)表達(dá);而定量信息主要通過(guò)節(jié)點(diǎn)的聯(lián)合概率密度表示。貝葉斯網(wǎng)絡(luò)預(yù)測(cè)依據(jù)就是取后驗(yàn)概率最大的類別。貝葉斯網(wǎng)絡(luò)以直觀的圖型方法描述數(shù)據(jù)間的相互關(guān)系,用概率測(cè)度的權(quán)重表達(dá)多個(gè)變量間的時(shí)序關(guān)系、相關(guān)關(guān)系或因果關(guān)系等多種依賴關(guān)系。它可把概率推理和網(wǎng)絡(luò)結(jié)構(gòu)有效地結(jié)合起來(lái),概率推理可有效的利用統(tǒng)計(jì)知識(shí),而網(wǎng)絡(luò)結(jié)構(gòu)可以把專家的知識(shí)表達(dá)出來(lái)。因貝葉斯網(wǎng)絡(luò)提供了進(jìn)行知識(shí)表達(dá)、解釋、推理和預(yù)測(cè)等一個(gè)連貫的框架,已成功運(yùn)用于數(shù)據(jù)挖掘、醫(yī)療診斷等人工智能領(lǐng)域,成為此領(lǐng)域的研究熱點(diǎn)之一。
采用貝葉斯網(wǎng)絡(luò)算法對(duì)證候與證素間的相關(guān)關(guān)系、證素組合形成證名的規(guī)律進(jìn)行探討,結(jié)果表明:與中醫(yī)專家經(jīng)驗(yàn)有很高的吻合性[2]。通過(guò)將中醫(yī)體系中的916個(gè)證候、51項(xiàng)證素及其構(gòu)成的1 700條證名構(gòu)成中醫(yī)辨證貝葉斯網(wǎng)絡(luò)的節(jié)點(diǎn)集,初步建立中醫(yī)辨證數(shù)據(jù)庫(kù)。并通過(guò)網(wǎng)絡(luò)學(xué)習(xí),形成中醫(yī)辨證貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)及概率表。利用建立的貝葉斯網(wǎng)絡(luò)中醫(yī)辨證系統(tǒng)進(jìn)行數(shù)據(jù)計(jì)量分析、推理驗(yàn)證證候—證素—證名間的關(guān)系,其結(jié)果與中醫(yī)專家經(jīng)驗(yàn)有很高的吻合性。因此,貝葉斯網(wǎng)絡(luò)是對(duì)中醫(yī)辨證進(jìn)行信息挖掘處理的一種較好方法,可運(yùn)用于中醫(yī)人工智能辨證系統(tǒng)的建立[3]。
對(duì)各種分類方法的評(píng)估可根據(jù)以下幾條標(biāo)準(zhǔn)進(jìn)行:①預(yù)測(cè)準(zhǔn)確率,指模型能夠正確預(yù)測(cè)未知數(shù)據(jù)類別的能力;②速度,指構(gòu)造和使用模型時(shí)的計(jì)算效率;③魯棒性,指在數(shù)據(jù)帶有噪聲或有數(shù)據(jù)遺失的情況下,模型仍能進(jìn)行正確預(yù)測(cè)的能力;④可擴(kuò)展性,指對(duì)處理大量數(shù)據(jù)并構(gòu)造相應(yīng)有效模型的能力;⑤易理解性,指所獲模型提供的可理解程度[4];⑥K折交叉驗(yàn)證,為避免出現(xiàn)過(guò)擬合問(wèn)題,可采用K折交叉驗(yàn)證的方法測(cè)試貝葉斯的分類正確率,評(píng)價(jià)模型的精確率。K折交叉驗(yàn)證技術(shù)把數(shù)據(jù)集隨機(jī)分成大致相等的K份,取其中1份作為測(cè)試集,剩下的K-1份作訓(xùn)練集,循環(huán)K次,取K次測(cè)試的平均正確率作為試驗(yàn)正確率,這種技術(shù)能有效的降低手動(dòng)選取數(shù)據(jù)集和測(cè)試集的偏置。常用的有5折交叉驗(yàn)證和10折交叉驗(yàn)證。
①樸素貝葉斯分類算法可以與決策樹(shù)和神經(jīng)網(wǎng)絡(luò)分類算法相媲美。該算法能運(yùn)用到大型數(shù)據(jù)庫(kù)中,且方法簡(jiǎn)單、分類準(zhǔn)確率高、速度快。由于貝葉斯定理假設(shè)一個(gè)屬性值對(duì)給定類的影響?yīng)毩⒂谄渌麑傩缘闹?,而此假設(shè)在實(shí)際情況中經(jīng)常是不成立的,因此,其分類準(zhǔn)確率可能會(huì)下降。②樸素貝葉斯算法成立的前提是各屬性之間互相獨(dú)立,簡(jiǎn)化計(jì)算。當(dāng)假定成立時(shí),與其他分類算法相比,樸素貝葉斯分類是最精確的,否則可能較低。然而,其對(duì)屬性變量間的獨(dú)立性要求較強(qiáng),但實(shí)際上變量間的相互依賴情況是較為常見(jiàn)的,故在實(shí)際中較難得到滿足。為解決這個(gè)問(wèn)題,可使用貝葉斯信念網(wǎng)絡(luò)描述這種相互關(guān)聯(lián)的概率分布。該網(wǎng)絡(luò)能夠描述各屬性子集之間有條件的相互獨(dú)立,提供了一個(gè)圖形模型來(lái)描述其中的因果關(guān)系。貝葉斯分類在處理大規(guī)模數(shù)據(jù)庫(kù)時(shí),表現(xiàn)出較高的分類準(zhǔn)確性和運(yùn)算性能。另外,樸素貝葉斯算法沒(méi)有直接的分類規(guī)則輸出。③中醫(yī)辨證是中醫(yī)專家系統(tǒng)的核心,運(yùn)用貝葉斯網(wǎng)絡(luò)根據(jù)信息判定癥狀之間是否存在因果關(guān)系,然后利用貝葉斯網(wǎng)絡(luò)計(jì)算判定癥狀群的類別所屬,貝葉斯網(wǎng)絡(luò)的優(yōu)點(diǎn)在于把各個(gè)癥狀看作彼此相互聯(lián)系的整體。貝葉斯網(wǎng)絡(luò)模型可用于復(fù)雜多因果關(guān)系的分析。在中醫(yī)證候研究中,運(yùn)用此模型可以研究癥狀之間、癥狀與證素間復(fù)雜的因果關(guān)系,是對(duì)中醫(yī)辨證進(jìn)行信息挖掘處理的一種較好方法。但仍然存在以下缺點(diǎn):貝葉斯網(wǎng)絡(luò)是一種頻率算法,一些頻率低的癥狀,證素或者證名不能被納入計(jì)算,對(duì)癥狀等變量的描述只有“出現(xiàn)”“不出現(xiàn)”兩種狀態(tài),不能反映變量的輕、中、重程度[3]。臨床上有的癥狀對(duì)某證素的判斷是起否定作用的,如脈沉細(xì)就能降低證素陰虛的可能性,而貝葉斯網(wǎng)絡(luò)計(jì)算出的局部概率分布參數(shù)則無(wú)正負(fù)之分,勢(shì)必對(duì)辨證的結(jié)論產(chǎn)生負(fù)面影響。且仍不能全面體現(xiàn)中醫(yī)辨證的思維能力[2-3]。
中醫(yī)辨證具有極其復(fù)雜性、高度非線性,而貝葉斯網(wǎng)絡(luò)技術(shù)屬于思維科學(xué)、非線性科學(xué),具有整體性、動(dòng)態(tài)性、復(fù)雜性等特點(diǎn),能將比較模糊、不易掌握的中醫(yī)辨證理論,用可視的圖形、清晰的語(yǔ)義、精細(xì)的數(shù)據(jù)進(jìn)行描述,有助于對(duì)辨證的理解。
[1]孫亞男,寧士勇,魯明羽,等.貝葉斯分類算法在冠心病中醫(yī)臨床證型診斷中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2006,3(11):124 -166.
[2]黃碧群.中醫(yī)辨證的貝葉斯網(wǎng)絡(luò)運(yùn)算[J].中國(guó)中醫(yī)藥雜志,2006,51(8):237 -240.
[3]朱詠華,朱文鋒.基于貝葉斯網(wǎng)絡(luò)的中醫(yī)辨證系統(tǒng)[J].湖南大學(xué)學(xué)報(bào):自然科版,2006,33(8):123 -125.
[4]張海笑,徐小明.數(shù)據(jù)挖掘中分類方法的研究[J].山西電子技術(shù),2005,32(2):20 -21.