摘要:本文試圖將深k近鄰和樸素葉貝斯分類算法來解決腫瘤診斷的問題。腫瘤現(xiàn)在已經(jīng)成為我國乃至世界范圍內(nèi)的常見病和多發(fā)病,盡早診斷和治療對腫瘤患者的未來至關(guān)重要。異型性是腫瘤異常分化在形態(tài)上的表現(xiàn)。腫瘤細(xì)胞異型性小,與正常組織相似,分化和低惡性。腫瘤細(xì)胞異型性大,與正常組織相似度小,分化程度低,惡性程度高。區(qū)別這種異型性的大小是診斷腫瘤,確定其良性、惡性的主要組織學(xué)依據(jù),但最大的問題在于準(zhǔn)確診斷存在困難。本文從概率的角度,結(jié)合深K近鄰與樸素貝葉斯分類算法開展研究,對盡可能準(zhǔn)確的診斷提出合理的算法。
關(guān)鍵詞:K最近鄰分類算法;樸素貝葉斯分類算法;深度學(xué)習(xí);機(jī)器學(xué)習(xí)
中圖分類號:TP391.41?? 文獻(xiàn)標(biāo)識碼:A?? 文章編號:1672-9129(2020)16-0067-01
1 深K最近鄰算法腫瘤診斷的原理
K最近鄰(Deep-k-Nearest Neighbor,DNN)分類算法是最簡單的機(jī)器學(xué)習(xí)算法之一。該方法的思路是:在特征空間中,如果一個(gè)樣本附近的k個(gè)最近樣本的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。
本文建立在深度神經(jīng)網(wǎng)絡(luò)上,索引為λ的層將前一層fλ-1的輸出作為其輸入,并應(yīng)用非線性變換來計(jì)算其自己的輸出fλ。這些非線性行為通過一組參數(shù)θλ來控制,這些θλ是每個(gè)層的特定參數(shù),這些參數(shù)將給定層的神經(jīng)元鏈接到其前面的層的神經(jīng)元。因此,對于給定輸入x,神經(jīng)網(wǎng)絡(luò)f執(zhí)行以下計(jì)算以預(yù)測其類:
fθ,x=fl-1(θl-1,fl-2(θl-2,…f0(θ0,x)))
2 樸素貝葉斯分類算法原理
設(shè)w為腫瘤組織與正常組織異型性的特征向量,表示組織異型性數(shù)值大小是否達(dá)到惡性腫瘤的值,1表示異型性達(dá)到,0表示未達(dá)到。用ci表示腫瘤的類別,分為良性腫瘤和惡性腫瘤,1表示惡性腫瘤,0表示良性腫瘤,則核心公式如下:
pci|w=p(w|ci)p(ci)p(w)
由于對腫瘤組織與正常組織異型性的診斷需要對多個(gè)節(jié)點(diǎn)進(jìn)行測試,可以進(jìn)一步將w擴(kuò)展為多個(gè)屬性節(jié)點(diǎn)Xi,令每個(gè)屬性節(jié)點(diǎn)相互獨(dú)立,只與該節(jié)點(diǎn)的相應(yīng)組織C相關(guān)。那么各屬性節(jié)點(diǎn)與組織C的關(guān)系就可表示為一個(gè)離散隨機(jī)變量的有限集X1,X2,…,Xn,C,條件屬性值xi是屬性Xi的取值,條件屬性值ci是屬性C的取值,則本組織屬于ci類腫瘤的概率由貝葉斯定理可表示為:
pci|w=p(x1,x2,…,xn|ci)p(ci)p(x1,x2,…,xn)
3 基于K最近鄰算法和樸素貝葉斯分類算法的腫瘤診斷流程
DNN分類算法的主要思想是:首先算出待分類樣本與已知樣本之間的距離,進(jìn)而找到距離與待分類樣本數(shù)據(jù)最接近的K個(gè)樣本,再根據(jù)這些樣本所屬的類別來判斷待分類樣本數(shù)據(jù)類別的分類。因?yàn)橥瑫r(shí)使用多個(gè)參數(shù)值不同的DNN算法對待同一特征數(shù)據(jù)分類得到的結(jié)果相互獨(dú)立,符合樸素貝葉斯算法中所有屬性相互獨(dú)立的假設(shè),所以結(jié)合樸素貝葉斯算法可以提高DNN分類的性能。
組合算法構(gòu)造算法步驟如下:
Step 1:設(shè)樣本集
D={(x11,x12,…,x1n,C1),(x21,x22,…,x2n,C2),…,(xm1,xm2,…,xmn,Cm)}為提取的組織C和該屬性的屬性節(jié)點(diǎn)特征向量的集合,其中Ci(i=1,2,…m)表示樣本類別,取值為c1,c2,…,cn。
Step 2:將樣本集D分為訓(xùn)練集Dtrain和測試集Dtext兩部分。
Step 3:分別對屬于Di的子樣本集進(jìn)行計(jì)算,計(jì)算出其中特征Xi=ai的概率,p=(Xi=ai|C=Ci)
Step4:計(jì)算訓(xùn)練集樣本數(shù)據(jù)和測試集樣本數(shù)據(jù)的距離,為測試集樣本數(shù)據(jù)選擇若干個(gè)與其距離最小的樣本,對每個(gè)測試樣本統(tǒng)計(jì)出最鄰近若干個(gè)樣本中大多數(shù)樣本所屬的分類。
Step5:針對測試集Dtext,得到C(C1,C2,…,Cn)對每個(gè)特征屬性計(jì)算所有劃分的概率PC=Ci|X=xtext=p(C=Ci)Πnj=1p(Xj=xtextj|C=Ci)。
4 結(jié)論
本文實(shí)現(xiàn)了將樸素貝葉斯分類算法合并到k深度近鄰算法之中,以便提高它的效率,提高診斷的準(zhǔn)確率,為抽象的據(jù)概率分類的算法整合出具體的步驟。雖然腫瘤診斷需要考慮的因素更加復(fù)雜,本文中形成的簡單系統(tǒng)總體上可能不如更加復(fù)雜的系統(tǒng)有效。盡管如此,考慮到明顯簡化而達(dá)成的算法,可以認(rèn)為這種簡化的系統(tǒng)是有效的。
參考文獻(xiàn):
[1]李雙杰,張開翔,王士棟,王淑琴.基于加權(quán)K近鄰的特征選擇方法[J].天津師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,40(02):63-67.
[2]何偉. 基于樸素貝葉斯的文本分類算法研究[D].南京郵電大學(xué),2018.
作者簡介:申淑逸(2000—),女,漢族,籍貫:山東臨沂,學(xué)歷:本科,單位:曲阜師范大學(xué),計(jì)算機(jī)學(xué)院。