王文相
【摘要】簡單介紹了貝葉斯公式和數(shù)據(jù)挖掘的相關(guān)概念,并舉例說明了貝葉斯公式在數(shù)據(jù)挖掘中的應(yīng)用.
【關(guān)鍵詞】貝葉斯公式;數(shù)據(jù)挖掘;條件概率;先驗(yàn)概率
數(shù)據(jù)挖掘是從現(xiàn)實(shí)生活中收集數(shù)據(jù),對實(shí)際問題進(jìn)行科學(xué)分析研究進(jìn)而解決,共分為三個部分,分別是數(shù)據(jù)收集部分、模型設(shè)計(jì)部分和問題解決部分.數(shù)據(jù)收集是通過查閱文獻(xiàn)資料、網(wǎng)絡(luò)搜索等途徑尋找解決問題所需要的各種原始數(shù)據(jù),進(jìn)而通過對原始數(shù)據(jù)內(nèi)容的甄別、過濾,獲取有效信息并最終運(yùn)用到自己設(shè)計(jì)的模型中.模型設(shè)計(jì)需要針對實(shí)際問題進(jìn)行建模,并利用已收集的數(shù)據(jù)進(jìn)行問題求解.可以利用已有的數(shù)學(xué)算法、數(shù)據(jù)挖掘技術(shù)或者設(shè)計(jì)新的方法來解決問題,其中可能需要一定程度的數(shù)學(xué)推導(dǎo)和計(jì)算機(jī)編程.數(shù)據(jù)挖掘通常通過數(shù)學(xué)、統(tǒng)計(jì)、在線分析處理、情報(bào)檢索分類等諸多方法來實(shí)現(xiàn)上述目標(biāo).
在貝葉斯法則中,每個名詞都有約定俗成的名稱:P(A)是A的先驗(yàn)概率或邊緣概率.P(A|B)是已知B發(fā)生后A的條件概率,也由于得自B的取值而被稱作A的后驗(yàn)概率.P(B|A)是已知A發(fā)生后B的條件概率,也由于得自A的取值而被稱作B的后驗(yàn)概率.P(B)是B的先驗(yàn)概率或邊緣概率,也作標(biāo)準(zhǔn)化常量.按這些術(shù)語,貝葉斯法則可表述為:后驗(yàn)概率=似然度×先驗(yàn)概率標(biāo)準(zhǔn)化常量.P(B|A)P(B)稱為可能性函數(shù),這是一個調(diào)整因子,使得預(yù)估概率更接近真實(shí)概率.所以,條件概率可以理解成這樣的式子:后驗(yàn)概率=先驗(yàn)概率×調(diào)整因子.
這就是貝葉斯推斷的含義.我們先預(yù)估一個“先驗(yàn)概率”,然后加入實(shí)驗(yàn)結(jié)果,看這個實(shí)驗(yàn)到底是增強(qiáng)還是削弱了“先驗(yàn)概率”,由此得到更接近事實(shí)的“后驗(yàn)概率”.在這里,如果“可能性函數(shù)”P(B|A)P(B)>1,意味著“先驗(yàn)概率”被增強(qiáng),事件A的發(fā)生的可能性變大;如果“可能性函數(shù)”=1,意味著B事件無助于判斷事件A的可能性;如果“可能性函數(shù)”<1,意味著“先驗(yàn)概率”被削弱,事件A的可能性變小.
貝葉斯公式看起來很簡單,但是在自然科學(xué)領(lǐng)域應(yīng)用范圍極其廣泛.同時理論本身蘊(yùn)含了深刻的思想.在大數(shù)據(jù)時代,從海量的數(shù)據(jù)中進(jìn)行數(shù)據(jù)挖掘進(jìn)而解決相關(guān)問題,貝葉斯公式也有著廣泛的應(yīng)用.比如,要設(shè)計(jì)一款疾病自我預(yù)診斷系統(tǒng),從自己身體的各種不舒適體征來判斷是否患有某種疾病,那么要從面對龐大的各種疾病數(shù)據(jù)中,尋找自己需要的數(shù)據(jù)并設(shè)計(jì)模型進(jìn)行判斷.下面我們以發(fā)燒為例,用貝葉斯公式建立簡單自我肺炎自我預(yù)診斷判斷系統(tǒng).
數(shù)據(jù)挖掘主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個步驟.首先,是數(shù)據(jù)準(zhǔn)備階段.數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以大眾可理解的方式將找出的規(guī)律表示出來.數(shù)據(jù)挖掘牽涉了大量的準(zhǔn)備工作與規(guī)劃工作,事實(shí)上許多專家都認(rèn)為整套數(shù)據(jù)挖掘的過程中,有80%的時間和精力是花費(fèi)在數(shù)據(jù)預(yù)處理階段,其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合,以及數(shù)據(jù)表的鏈接.可見,在進(jìn)行數(shù)據(jù)挖掘技術(shù)的分析之前,還有許多準(zhǔn)備工作要完成.
首先,要盡可能找到所有會引起發(fā)燒的疾病,這個難度比較大,不過現(xiàn)在計(jì)算機(jī)網(wǎng)絡(luò)發(fā)達(dá),使得大數(shù)據(jù)的處理成為可能.為了方便敘述,我們不妨把從網(wǎng)上查找到的有關(guān)發(fā)燒的資料以模型的方式簡單化處理,設(shè)所有引起發(fā)燒的疾病有A1,A2,A3,…,An種,并且這n種病相互之間是獨(dú)立的互不影響的.通過數(shù)據(jù)挖掘得知,n種疾病的發(fā)病率分別為P(A1),P(A2),P(A3),…,P(An),發(fā)燒表示為事件S,n種疾病發(fā)病時發(fā)燒的概率分別為P(S|A1),P(S|A2),P(S|A3),…,P(S|An),根據(jù)貝葉斯公式可知發(fā)燒是由A1疾病引起的概率為
同樣可以算出發(fā)燒是由其他疾病引起的概率,最可能的當(dāng)然就是概率最大的那個.僅僅有一個癥狀判斷疾病是不準(zhǔn)確的,對于其他癥狀,比如,咳嗽事件W,我們用同樣方法可以算出P(A1|W),根據(jù)P(S∪W)=P(S)+P(W)-P(SW)等相關(guān)公式,可以算出同時發(fā)燒咳嗽時患A1疾病的概率,當(dāng)多個癥狀同時計(jì)算時,顯著性一定會增大,判斷當(dāng)然也會更準(zhǔn)確.最后,還可以對判斷結(jié)果給出置信區(qū)間,做相關(guān)的假設(shè)檢驗(yàn),這里就不再一一累述.
【參考文獻(xiàn)】
[1]茆詩松.貝葉斯統(tǒng)計(jì)[M].北京:中國統(tǒng)計(jì)出版社,2012:18-54.
[2]祝東進(jìn),郭大偉.概率論與數(shù)理統(tǒng)計(jì)[M].北京:國防工業(yè)出版社,1996:132-178.
數(shù)學(xué)學(xué)習(xí)與研究2017年13期