黃偉 肖厚波
摘要:本文簡(jiǎn)述了智能診病系統(tǒng)的發(fā)展,簡(jiǎn)單介紹了智能診病系統(tǒng),指出了它的一些局限性,并且介紹了Naive Bayesian算法的原理,提出了以該算法為基礎(chǔ)的改進(jìn)方案。
關(guān)鍵詞:智能診??;人工智能;專(zhuān)家系統(tǒng);知識(shí)庫(kù);推理機(jī);Naive Bayesian算法
中圖分類(lèi)號(hào):TH165.3 文獻(xiàn)識(shí)別碼:A 文章編號(hào):1001-828X(2017)009-0-01
一、智能診病系統(tǒng)的發(fā)展
人工智能是現(xiàn)今最尖端的技術(shù)之一,近三十年來(lái),人工智能發(fā)展迅速,在很多領(lǐng)域都得到了廣泛的應(yīng)用。專(zhuān)家系統(tǒng)是人工智能重要的一個(gè)分支,它通過(guò)一個(gè)或多個(gè)專(zhuān)家提供的專(zhuān)業(yè)領(lǐng)域知識(shí),模擬人類(lèi)專(zhuān)家解決那些需要專(zhuān)業(yè)領(lǐng)域知識(shí)才能完成的問(wèn)題。1965年,美國(guó)斯坦福大學(xué)研制出了DENRAL系統(tǒng),該系統(tǒng)具有豐富的化學(xué)知識(shí),能幫助化學(xué)家推斷出分子的結(jié)構(gòu)。DENRAL系統(tǒng)的完成標(biāo)志著專(zhuān)家系統(tǒng)的誕生。20世紀(jì)70年代初, NTERNIST系統(tǒng)在匹茲堡大學(xué)問(wèn)世,這是第一個(gè)用于醫(yī)療的內(nèi)科病診斷咨詢(xún)系統(tǒng)。同一時(shí)期,一款能夠幫助普通內(nèi)科醫(yī)生診治細(xì)菌感染性疾病的專(zhuān)家系統(tǒng)MYCIN也在斯坦福大學(xué)出世,這兩款專(zhuān)家系統(tǒng)的成功激發(fā)了智能診病系統(tǒng)的開(kāi)發(fā)熱潮,國(guó)內(nèi)外都開(kāi)始往這方面投入大量的人力物力。到21世紀(jì)初,智能診病系統(tǒng)已經(jīng)相對(duì)成熟。
二、智能診病系統(tǒng)
智能診病系統(tǒng)以基于規(guī)則的方式來(lái)構(gòu)建系統(tǒng),它主要將系統(tǒng)分為知識(shí)庫(kù)和推理機(jī)兩部分,知識(shí)庫(kù)中存儲(chǔ)著各種醫(yī)學(xué)知識(shí)的集合,包含從書(shū)本中知識(shí),以及醫(yī)學(xué)專(zhuān)家的知識(shí)和經(jīng)驗(yàn),而推理機(jī)根據(jù)用戶(hù)提供的有效信息,來(lái)決定所使用的推理規(guī)則,通過(guò)從知識(shí)庫(kù)中獲取的相關(guān)知識(shí)進(jìn)行推理判斷,從而得出最終的結(jié)論。推理分為精確推理和不精確推理,精確推理根據(jù)條件和結(jié)論之間的必然性,得出的結(jié)果是肯定的,不精確推理:在條件不足的情況下,得到的假設(shè)不能被完全證實(shí),這個(gè)時(shí)候?yàn)槊總€(gè)假設(shè)賦予一個(gè)權(quán)值來(lái)表明這個(gè)假設(shè)的可信度,通過(guò)這些假設(shè)進(jìn)行下一步推理,可能會(huì)得到多個(gè)不同的結(jié)論,以可信度最高的結(jié)論作為最終結(jié)論。
三、智能診病系統(tǒng)的缺點(diǎn)
難以得到足夠知識(shí)和規(guī)則填充知識(shí)庫(kù),智能診病系統(tǒng)做為基于規(guī)則的專(zhuān)家系統(tǒng),需要以大量知識(shí)和醫(yī)學(xué)專(zhuān)家規(guī)則作為基礎(chǔ),才能夠準(zhǔn)確地診斷病人的病情,這就需要大量的醫(yī)學(xué)專(zhuān)家和知識(shí)工程師的參與才能夠?qū)崿F(xiàn)。
缺乏學(xué)習(xí)能力,跟一般的基于規(guī)則的專(zhuān)家系統(tǒng)一樣,智能診病系統(tǒng)不具備從診病過(guò)程中提取經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)的能力,只會(huì)依循本來(lái)就存在的規(guī)則和知識(shí)進(jìn)行推理判斷,更新知識(shí)庫(kù),添加規(guī)則些工作仍然需要知識(shí)工程師來(lái)完成。
Naive Bayesian算法:
Na?ve Bayesian 算法能夠較好地對(duì)事物進(jìn)行分類(lèi),具有結(jié)構(gòu)簡(jiǎn)單,計(jì)算高效等特點(diǎn),是分類(lèi)算法中最經(jīng)典,最有影響力的算法之一。Na?ve Bayesian算法首先需要通過(guò)訓(xùn)練樣本計(jì)算出先驗(yàn)概率,在此基礎(chǔ)上,計(jì)算一個(gè)待分類(lèi)的后驗(yàn)概率。下面是Na?ve Bayesian 算法的定義,對(duì)于一個(gè)待分類(lèi)的事物x,設(shè):
1.x有{a1,a2,a3,……an}這樣一個(gè)屬性集,每個(gè)a都是x的一個(gè)特征屬性。
2.有{y1,y2,y3,……ym}這樣一個(gè)類(lèi)別集合,每個(gè)y代表一個(gè)類(lèi)別。
3.分別計(jì)算P(y1|x),P(y2|x),P(y3|x),…..,P(ym|x)的概率。
4.如果有P(yi|x) >= P(yj|x)(j屬于1~n),則事物x屬于類(lèi)型yk。
在這里,我們稱(chēng)P(yi|x)為后驗(yàn)概率,根據(jù)貝葉斯定理,P(yi|x) = P(x|yi)P(yi)/p(x)。
由于對(duì)于所有的后驗(yàn)概率,都需要除以P(x),所以在這里我們可以將P(x)忽略,只求出最大的P(x|yi)P(yi)即可。P(x|yi)P(yi) = P(a1|yi)P(a2|yi)P(a3|yi)…P(an|yi)P(yi),其中P(aj|yi)和P(yi)我們都需要通過(guò)樣本數(shù)據(jù)進(jìn)行計(jì)算:
1.設(shè)有樣本集{x1,x2,…xn},每個(gè)樣本有一個(gè)屬性集a其中包含若干屬性。
2.有{y1,y2,…ym}這樣一個(gè)類(lèi)別集合。
3.P(yi)為樣本中類(lèi)別yi的個(gè)數(shù)/樣本總數(shù)。
4.P(aj|yi)為樣本中類(lèi)別yi中含有aj屬性的個(gè)數(shù)/類(lèi)別中yi的個(gè)數(shù)。
通過(guò)Naive Bayesian算法對(duì)智能診病系統(tǒng)的改進(jìn):
由于知識(shí)庫(kù)中知識(shí)量和規(guī)則的限制,智能診病系統(tǒng)可能會(huì)出現(xiàn)無(wú)法準(zhǔn)確判斷用戶(hù)病情的狀況,通過(guò)Na?ve Bayesian算法可以有效地改善這一情況。一個(gè)人患病的原因會(huì)跟他平時(shí)的生活環(huán)境,生活習(xí)慣還有家族遺傳有很大的關(guān)系,由此,我們可以將生活環(huán)境,生活習(xí)慣和家族遺傳作為特征屬性,建立一個(gè)輔助診斷病情的Navie Bayesian分類(lèi)器。算法的訓(xùn)練樣本通過(guò)記錄每個(gè)精確推理確診的患者的生活環(huán)境,生活習(xí)慣,家族遺傳等屬性信息取得,通過(guò)不斷地增加訓(xùn)練樣本,Navie Bayesian分類(lèi)器的準(zhǔn)確性不斷提升,從而提升智能診斷系統(tǒng)的不精確推理能力。
參考文獻(xiàn):
[1]Liu H, Motoda H. Feature selection for knowledge discovery and data mining[M].Springer Science&Business Media, 2012.
[2]Pang-Ning Tan, Michael Steinbach, Vipin Kumar.數(shù)據(jù)挖掘?qū)д摚ㄖ形陌妫M].范明,范宏建,等,譯.北京:人民郵電出版社,2011:139-141.
作者簡(jiǎn)介:黃 偉(1981-),男,瑤族,湖南花垣人,講師,主要從事計(jì)算機(jī)科學(xué)研究。
肖厚波(1994-),男,漢族,湖南郴州人,本科在讀,主要從事軟件工程研究。
基金項(xiàng)目:吉首大學(xué)科研論文項(xiàng)目,項(xiàng)目編號(hào):JSU-CX-2015- 98。