基于深K近鄰和樸素貝葉斯分類算法的腫瘤診斷

2020-12-08 02:12申淑逸

數(shù)碼設(shè)計(jì) 2020年16期

關(guān)鍵詞：機(jī)器學(xué)習(xí)深度學(xué)習(xí)

摘要：本文試圖將深k近鄰和樸素葉貝斯分類算法來解決腫瘤診斷的問題。腫瘤現(xiàn)在已經(jīng)成為我國乃至世界范圍內(nèi)的常見病和多發(fā)病，盡早診斷和治療對腫瘤患者的未來至關(guān)重要。異型性是腫瘤異常分化在形態(tài)上的表現(xiàn)。腫瘤細(xì)胞異型性小，與正常組織相似，分化和低惡性。腫瘤細(xì)胞異型性大，與正常組織相似度小，分化程度低，惡性程度高。區(qū)別這種異型性的大小是診斷腫瘤，確定其良性、惡性的主要組織學(xué)依據(jù)，但最大的問題在于準(zhǔn)確診斷存在困難。本文從概率的角度，結(jié)合深K近鄰與樸素貝葉斯分類算法開展研究，對盡可能準(zhǔn)確的診斷提出合理的算法。

關(guān)鍵詞：K最近鄰分類算法;樸素貝葉斯分類算法;深度學(xué)習(xí);機(jī)器學(xué)習(xí)

中圖分類號：TP391.41?? 文獻(xiàn)標(biāo)識碼：A?? 文章編號：1672-9129（2020）16-0067-01

1 深K最近鄰算法腫瘤診斷的原理

K最近鄰（Deep-k-Nearest Neighbor，DNN）分類算法是最簡單的機(jī)器學(xué)習(xí)算法之一。該方法的思路是：在特征空間中，如果一個(gè)樣本附近的k個(gè)最近樣本的大多數(shù)屬于某一個(gè)類別，則該樣本也屬于這個(gè)類別。

本文建立在深度神經(jīng)網(wǎng)絡(luò)上，索引為λ的層將前一層fλ-1的輸出作為其輸入，并應(yīng)用非線性變換來計(jì)算其自己的輸出fλ。這些非線性行為通過一組參數(shù)θλ來控制，這些θλ是每個(gè)層的特定參數(shù)，這些參數(shù)將給定層的神經(jīng)元鏈接到其前面的層的神經(jīng)元。因此，對于給定輸入x，神經(jīng)網(wǎng)絡(luò)f執(zhí)行以下計(jì)算以預(yù)測其類：

fθ，x=fl-1（θl-1，fl-2（θl-2，…f0（θ0，x）））

2 樸素貝葉斯分類算法原理

設(shè)w為腫瘤組織與正常組織異型性的特征向量，表示組織異型性數(shù)值大小是否達(dá)到惡性腫瘤的值，1表示異型性達(dá)到，0表示未達(dá)到。用ci表示腫瘤的類別，分為良性腫瘤和惡性腫瘤，1表示惡性腫瘤，0表示良性腫瘤，則核心公式如下：

pci|w=p（w|ci）p（ci）p（w）

由于對腫瘤組織與正常組織異型性的診斷需要對多個(gè)節(jié)點(diǎn)進(jìn)行測試，可以進(jìn)一步將w擴(kuò)展為多個(gè)屬性節(jié)點(diǎn)Xi，令每個(gè)屬性節(jié)點(diǎn)相互獨(dú)立，只與該節(jié)點(diǎn)的相應(yīng)組織C相關(guān)。那么各屬性節(jié)點(diǎn)與組織C的關(guān)系就可表示為一個(gè)離散隨機(jī)變量的有限集X1，X2，…，Xn，C，條件屬性值xi是屬性Xi的取值，條件屬性值ci是屬性C的取值，則本組織屬于ci類腫瘤的概率由貝葉斯定理可表示為：

pci|w=p（x1，x2，…，xn|ci）p（ci）p（x1，x2，…，xn）

3 基于K最近鄰算法和樸素貝葉斯分類算法的腫瘤診斷流程

DNN分類算法的主要思想是：首先算出待分類樣本與已知樣本之間的距離，進(jìn)而找到距離與待分類樣本數(shù)據(jù)最接近的K個(gè)樣本，再根據(jù)這些樣本所屬的類別來判斷待分類樣本數(shù)據(jù)類別的分類。因?yàn)橥瑫r(shí)使用多個(gè)參數(shù)值不同的DNN算法對待同一特征數(shù)據(jù)分類得到的結(jié)果相互獨(dú)立，符合樸素貝葉斯算法中所有屬性相互獨(dú)立的假設(shè)，所以結(jié)合樸素貝葉斯算法可以提高DNN分類的性能。

組合算法構(gòu)造算法步驟如下：

Step 1：設(shè)樣本集

D={（x11，x12，…，x1n，C1），（x21，x22，…，x2n，C2），…，（xm1，xm2，…，xmn，Cm）}為提取的組織C和該屬性的屬性節(jié)點(diǎn)特征向量的集合，其中Ci（i=1，2，…m）表示樣本類別，取值為c1，c2，…，cn。

Step 2：將樣本集D分為訓(xùn)練集Dtrain和測試集Dtext兩部分。

Step 3：分別對屬于Di的子樣本集進(jìn)行計(jì)算，計(jì)算出其中特征Xi=ai的概率，p=（Xi=ai|C=Ci）

Step4：計(jì)算訓(xùn)練集樣本數(shù)據(jù)和測試集樣本數(shù)據(jù)的距離，為測試集樣本數(shù)據(jù)選擇若干個(gè)與其距離最小的樣本，對每個(gè)測試樣本統(tǒng)計(jì)出最鄰近若干個(gè)樣本中大多數(shù)樣本所屬的分類。

Step5：針對測試集Dtext，得到C（C1，C2，…，Cn）對每個(gè)特征屬性計(jì)算所有劃分的概率PC=Ci|X=xtext=p（C=Ci）Πnj=1p（Xj=xtextj|C=Ci）。

4 結(jié)論

本文實(shí)現(xiàn)了將樸素貝葉斯分類算法合并到k深度近鄰算法之中，以便提高它的效率，提高診斷的準(zhǔn)確率，為抽象的據(jù)概率分類的算法整合出具體的步驟。雖然腫瘤診斷需要考慮的因素更加復(fù)雜，本文中形成的簡單系統(tǒng)總體上可能不如更加復(fù)雜的系統(tǒng)有效。盡管如此，考慮到明顯簡化而達(dá)成的算法，可以認(rèn)為這種簡化的系統(tǒng)是有效的。

參考文獻(xiàn)：

[1]李雙杰，張開翔，王士棟，王淑琴.基于加權(quán)K近鄰的特征選擇方法[J].天津師范大學(xué)學(xué)報(bào)（自然科學(xué)版），2020，40（02）：63-67.

[2]何偉. 基于樸素貝葉斯的文本分類算法研究[D].南京郵電大學(xué)，2018.

作者簡介：申淑逸（2000—），女，漢族，籍貫：山東臨沂，學(xué)歷：本科，單位：曲阜師范大學(xué)，計(jì)算機(jī)學(xué)院。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深K近鄰和樸素貝葉斯分類算法的腫瘤診斷