国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

貝葉斯公式在數(shù)據(jù)挖掘中的應(yīng)用

2017-07-21 11:48王文相
關(guān)鍵詞:數(shù)據(jù)挖掘

王文相

【摘要】簡單介紹了貝葉斯公式和數(shù)據(jù)挖掘的相關(guān)概念,并舉例說明了貝葉斯公式在數(shù)據(jù)挖掘中的應(yīng)用.

【關(guān)鍵詞】貝葉斯公式;數(shù)據(jù)挖掘;條件概率;先驗(yàn)概率

數(shù)據(jù)挖掘是從現(xiàn)實(shí)生活中收集數(shù)據(jù),對實(shí)際問題進(jìn)行科學(xué)分析研究進(jìn)而解決,共分為三個部分,分別是數(shù)據(jù)收集部分、模型設(shè)計(jì)部分和問題解決部分.數(shù)據(jù)收集是通過查閱文獻(xiàn)資料、網(wǎng)絡(luò)搜索等途徑尋找解決問題所需要的各種原始數(shù)據(jù),進(jìn)而通過對原始數(shù)據(jù)內(nèi)容的甄別、過濾,獲取有效信息并最終運(yùn)用到自己設(shè)計(jì)的模型中.模型設(shè)計(jì)需要針對實(shí)際問題進(jìn)行建模,并利用已收集的數(shù)據(jù)進(jìn)行問題求解.可以利用已有的數(shù)學(xué)算法、數(shù)據(jù)挖掘技術(shù)或者設(shè)計(jì)新的方法來解決問題,其中可能需要一定程度的數(shù)學(xué)推導(dǎo)和計(jì)算機(jī)編程.數(shù)據(jù)挖掘通常通過數(shù)學(xué)、統(tǒng)計(jì)、在線分析處理、情報(bào)檢索分類等諸多方法來實(shí)現(xiàn)上述目標(biāo).

在貝葉斯法則中,每個名詞都有約定俗成的名稱:P(A)是A的先驗(yàn)概率或邊緣概率.P(A|B)是已知B發(fā)生后A的條件概率,也由于得自B的取值而被稱作A的后驗(yàn)概率.P(B|A)是已知A發(fā)生后B的條件概率,也由于得自A的取值而被稱作B的后驗(yàn)概率.P(B)是B的先驗(yàn)概率或邊緣概率,也作標(biāo)準(zhǔn)化常量.按這些術(shù)語,貝葉斯法則可表述為:后驗(yàn)概率=似然度×先驗(yàn)概率標(biāo)準(zhǔn)化常量.P(B|A)P(B)稱為可能性函數(shù),這是一個調(diào)整因子,使得預(yù)估概率更接近真實(shí)概率.所以,條件概率可以理解成這樣的式子:后驗(yàn)概率=先驗(yàn)概率×調(diào)整因子.

這就是貝葉斯推斷的含義.我們先預(yù)估一個“先驗(yàn)概率”,然后加入實(shí)驗(yàn)結(jié)果,看這個實(shí)驗(yàn)到底是增強(qiáng)還是削弱了“先驗(yàn)概率”,由此得到更接近事實(shí)的“后驗(yàn)概率”.在這里,如果“可能性函數(shù)”P(B|A)P(B)>1,意味著“先驗(yàn)概率”被增強(qiáng),事件A的發(fā)生的可能性變大;如果“可能性函數(shù)”=1,意味著B事件無助于判斷事件A的可能性;如果“可能性函數(shù)”<1,意味著“先驗(yàn)概率”被削弱,事件A的可能性變小.

貝葉斯公式看起來很簡單,但是在自然科學(xué)領(lǐng)域應(yīng)用范圍極其廣泛.同時理論本身蘊(yùn)含了深刻的思想.在大數(shù)據(jù)時代,從海量的數(shù)據(jù)中進(jìn)行數(shù)據(jù)挖掘進(jìn)而解決相關(guān)問題,貝葉斯公式也有著廣泛的應(yīng)用.比如,要設(shè)計(jì)一款疾病自我預(yù)診斷系統(tǒng),從自己身體的各種不舒適體征來判斷是否患有某種疾病,那么要從面對龐大的各種疾病數(shù)據(jù)中,尋找自己需要的數(shù)據(jù)并設(shè)計(jì)模型進(jìn)行判斷.下面我們以發(fā)燒為例,用貝葉斯公式建立簡單自我肺炎自我預(yù)診斷判斷系統(tǒng).

數(shù)據(jù)挖掘主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個步驟.首先,是數(shù)據(jù)準(zhǔn)備階段.數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以大眾可理解的方式將找出的規(guī)律表示出來.數(shù)據(jù)挖掘牽涉了大量的準(zhǔn)備工作與規(guī)劃工作,事實(shí)上許多專家都認(rèn)為整套數(shù)據(jù)挖掘的過程中,有80%的時間和精力是花費(fèi)在數(shù)據(jù)預(yù)處理階段,其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合,以及數(shù)據(jù)表的鏈接.可見,在進(jìn)行數(shù)據(jù)挖掘技術(shù)的分析之前,還有許多準(zhǔn)備工作要完成.

首先,要盡可能找到所有會引起發(fā)燒的疾病,這個難度比較大,不過現(xiàn)在計(jì)算機(jī)網(wǎng)絡(luò)發(fā)達(dá),使得大數(shù)據(jù)的處理成為可能.為了方便敘述,我們不妨把從網(wǎng)上查找到的有關(guān)發(fā)燒的資料以模型的方式簡單化處理,設(shè)所有引起發(fā)燒的疾病有A1,A2,A3,…,An種,并且這n種病相互之間是獨(dú)立的互不影響的.通過數(shù)據(jù)挖掘得知,n種疾病的發(fā)病率分別為P(A1),P(A2),P(A3),…,P(An),發(fā)燒表示為事件S,n種疾病發(fā)病時發(fā)燒的概率分別為P(S|A1),P(S|A2),P(S|A3),…,P(S|An),根據(jù)貝葉斯公式可知發(fā)燒是由A1疾病引起的概率為

同樣可以算出發(fā)燒是由其他疾病引起的概率,最可能的當(dāng)然就是概率最大的那個.僅僅有一個癥狀判斷疾病是不準(zhǔn)確的,對于其他癥狀,比如,咳嗽事件W,我們用同樣方法可以算出P(A1|W),根據(jù)P(S∪W)=P(S)+P(W)-P(SW)等相關(guān)公式,可以算出同時發(fā)燒咳嗽時患A1疾病的概率,當(dāng)多個癥狀同時計(jì)算時,顯著性一定會增大,判斷當(dāng)然也會更準(zhǔn)確.最后,還可以對判斷結(jié)果給出置信區(qū)間,做相關(guān)的假設(shè)檢驗(yàn),這里就不再一一累述.

【參考文獻(xiàn)】

[1]茆詩松.貝葉斯統(tǒng)計(jì)[M].北京:中國統(tǒng)計(jì)出版社,2012:18-54.

[2]祝東進(jìn),郭大偉.概率論與數(shù)理統(tǒng)計(jì)[M].北京:國防工業(yè)出版社,1996:132-178.

猜你喜歡
數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
高級數(shù)據(jù)挖掘與應(yīng)用國際學(xué)術(shù)會議
高級數(shù)據(jù)挖掘與應(yīng)用國際學(xué)術(shù)會議
贞丰县| 平邑县| 沙坪坝区| 封开县| 互助| 凤阳县| 革吉县| 高碑店市| 栾川县| 呈贡县| 伽师县| 呼和浩特市| 云南省| 府谷县| 汉中市| 夏河县| 罗定市| 南昌市| 榆社县| 镇巴县| 宣恩县| 高淳县| 墨脱县| 龙游县| 申扎县| 安远县| 安塞县| 黎川县| 叶城县| 靖江市| 昭觉县| 张家港市| 临沧市| 岚皋县| 房山区| 富阳市| 临湘市| 南川市| 武平县| 广德县| 和平区|