肖欽文
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
(1)甲狀腺疾病
人類甲狀腺是位于頸部甲狀軟骨下方,氣管兩旁,形似蝴蝶的腺體。對(duì)于脊椎動(dòng)物是非常重要的內(nèi)分泌器官。甲狀腺通過產(chǎn)生多種激素來影響身體的細(xì)胞核組織,以此調(diào)節(jié)人體的新陳代謝[2]。三碘甲狀腺原氨酸(Triiodothyronine,T3)和四碘甲狀腺原氨酸(Tetraiodo?thyronine,Thyroxine,T4)在產(chǎn)生蛋白質(zhì)和整體能量來調(diào)節(jié)體溫方面發(fā)揮非常重要的作用[3]。
甲狀腺功能減退(Hypothyroidism)和甲狀腺功能亢進(jìn)(Hyperthyroidism)是兩種與甲狀腺激素產(chǎn)生有關(guān)的兩種基本甲狀腺疾病類型。腺體產(chǎn)生的甲狀腺激素水平低于人體所需就會(huì)導(dǎo)致甲狀腺功能減退,患者的癥狀表現(xiàn)為感到極度疲勞、沮喪、健忘和體重增加[4]。嚴(yán)重情況會(huì)引起粘液性水腫昏迷甚至死亡。T3、T4激素分泌紊亂導(dǎo)致的甲狀腺功能減退肯呢個(gè)導(dǎo)致卵巢癌,卵巢癌患者的死亡率達(dá)54%,是最致命的婦科疾病。當(dāng)腺體分泌的甲狀腺激素水平過高就會(huì)導(dǎo)致甲狀腺功能那個(gè)亢進(jìn),也稱甲亢。甲亢會(huì)導(dǎo)致身體能量消耗速度過快,癥狀通常表現(xiàn)為煩躁不安、神經(jīng)質(zhì)、肌肉乏力、體重減輕、睡眠障礙和實(shí)力問題[5]。嚴(yán)重情況下會(huì)引起更復(fù)雜的問題,例如心肌病、骨質(zhì)疏松癥、心力衰竭和孕婦的幾種妊娠并發(fā)癥[1]。
目前國內(nèi)對(duì)于甲狀腺疾病的檢查途徑通常有血清甲狀腺激素測(cè)定(TT4、TT3、FT4、FT3)、血清促甲狀腺激素測(cè)定(TSH)、甲狀腺自身抗體測(cè)定、甲狀腺球蛋白測(cè)定、甲狀腺球蛋白測(cè)定、降鈣素測(cè)定、尿碘測(cè)定、TRH刺激測(cè)定、甲狀腺細(xì)針穿刺和細(xì)胞學(xué)檢查、甲狀腺核素檢查、甲狀腺正帶腦子發(fā)射斷層顯像(PET)、甲狀腺超聲檢查以及計(jì)算機(jī)X線斷層攝像(CT)和核磁共振顯像(MRI)。
一次甲狀腺超聲檢查的價(jià)格在120-200元人民幣,同時(shí)輔助的甲狀腺功能檢查根據(jù)不同醫(yī)生不同要求會(huì)檢查3項(xiàng)-7項(xiàng),價(jià)格通常為150-350元人民幣。被診斷為甲亢的患者每4-6周需要進(jìn)行一次復(fù)查,甲減患者在調(diào)整藥物劑量期間每個(gè)月需要復(fù)查一次,藥劑穩(wěn)定后每3-6個(gè)月需要復(fù)查一次。除了檢查費(fèi)用和頻率較高產(chǎn)生的經(jīng)濟(jì)成本之外,甲狀腺疾病的診斷效果在很大程度上還取決于醫(yī)生的水平。國內(nèi)在甲狀腺領(lǐng)域經(jīng)驗(yàn)豐富的醫(yī)生主要集中于大城市和三甲醫(yī)院,在較偏的地區(qū)無論是醫(yī)療人員還是設(shè)備都還有所欠缺。
目前,人工智能與醫(yī)學(xué)相結(jié)合的研究越來越多。一些研究者們正在研究有效的診斷系統(tǒng)輔助醫(yī)生對(duì)不同疾病進(jìn)行診斷,以及如何提高人工智能算法效果來提升診斷系統(tǒng)系統(tǒng)的工作效果的研究都得到了廣泛的關(guān)注并且在一些醫(yī)療機(jī)構(gòu)已經(jīng)正式工作了。浙江大學(xué)第一附屬醫(yī)院超聲科引進(jìn)了一套甲狀腺結(jié)節(jié)人工智能輔助診斷系統(tǒng)。近年來人工智能在醫(yī)療影像方面已經(jīng)取得了豐碩的科研成果,也越來越多的研究者關(guān)注到這個(gè)領(lǐng)域,將甲狀腺智能診斷的準(zhǔn)確度一再提高。但是甲狀腺檢測(cè)的時(shí)候每一次超聲的費(fèi)用和時(shí)間成本都較高,如何減少檢測(cè)的時(shí)間成本以及費(fèi)用成本都還沒有比較具體的研究。
(2)特征選擇
在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)中,訓(xùn)練數(shù)據(jù)通常包含許多冗余或無關(guān)的特征,因而移除這些特征并不會(huì)導(dǎo)致丟失信息。在本研究中采用的甲狀腺疾病數(shù)據(jù)集包含特征25個(gè)。特征選擇與特征提取有所不同。特征提取是從原有的數(shù)據(jù)集中通過原有的特征功能創(chuàng)造新的特征,而特征選擇只返回原有特征中的子集。其算法被認(rèn)為是搜索技術(shù)和評(píng)價(jià)指標(biāo)的結(jié)合,前者負(fù)責(zé)選出新的特征子集,后者負(fù)責(zé)為不同的特征子集打分,再通過比較得出最優(yōu)的特征子集。其好處有:簡化模型,使模型更易被用戶和研究人員理解和使用;縮短訓(xùn)練時(shí)間;降低方差等。
特征選擇方法根據(jù)特征選擇的形式分為三種方法:過濾法(Filter)、包裝法(Wrapper)、嵌入法(Embed?ded)。在此次實(shí)驗(yàn)中采用的是遞歸特征消除(Recur?sive Feature Elimination),屬于包裝法,其主要思想是反復(fù)構(gòu)建模型(如SVM或者回歸模型),然后選出最好(或最差)的特征,接著在剩余的特征上重復(fù)這個(gè)過程,直到所有的特征都遍歷到了。RFE的穩(wěn)定性很大程度上取決于在迭代的時(shí)候底層采用哪種模型。
圖1 進(jìn)行特征選擇部分代碼
實(shí)驗(yàn)流程分為三個(gè)階段,第一階段為實(shí)驗(yàn)準(zhǔn)備階段,在此階段中完成準(zhǔn)備數(shù)據(jù)集、編寫實(shí)現(xiàn)所需程序、設(shè)計(jì)實(shí)驗(yàn)方法三個(gè)工作。第二階段為實(shí)驗(yàn)階段,其中包括特征提取實(shí)驗(yàn)和人工神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練。第三階段為實(shí)驗(yàn)效果對(duì)比,與其他文獻(xiàn)中別人使用的方法進(jìn)行對(duì)比。
圖2 實(shí)驗(yàn)順序結(jié)構(gòu)
在實(shí)驗(yàn)中分別訓(xùn)練了3-18個(gè)特征的分類模型,并且通過其測(cè)試結(jié)果與原訓(xùn)練集訓(xùn)練的分類模型測(cè)試結(jié)果以及以往的一些診斷系統(tǒng)進(jìn)行對(duì)比。從有7個(gè)特征的數(shù)據(jù)子集開始,特征選擇模型篩選出來的子集中就含有比較多的原數(shù)據(jù)。且使用具有7個(gè)及以上的特征子集的數(shù)據(jù)集訓(xùn)練出來的模型中,與含有3-6個(gè)特征數(shù)量的數(shù)據(jù)集相比,其準(zhǔn)確率并沒有明顯的提高,甚至是出現(xiàn)下跌。在考慮到本研究的最初目的是為了通過減少數(shù)據(jù)集特征數(shù)量來訓(xùn)練出診斷模型能夠幫助患者減少經(jīng)濟(jì)時(shí)間成本,實(shí)驗(yàn)結(jié)果中只取3-6個(gè)特征數(shù)量的數(shù)據(jù)集作為所求特征集合且將其與以前的診斷系統(tǒng)和在不篩選的元數(shù)據(jù)集情況下進(jìn)行對(duì)比。
本研究中實(shí)驗(yàn)所使用的數(shù)據(jù)來自加州大學(xué)歐文分校(UCI)機(jī)器學(xué)習(xí)存儲(chǔ)庫的甲狀腺疾病數(shù)據(jù)集。此數(shù)據(jù)集在世界范圍內(nèi)的甲狀腺疾病診斷研究中普遍使用,以便實(shí)驗(yàn)結(jié)果與以前使用的診斷系統(tǒng)進(jìn)行比較。數(shù)據(jù)集包含3163條具有21個(gè)特征的記錄,其中每條記錄都顯示用于陽性或者陰性的結(jié)果類屬性[1]。表1列出了甲狀腺疾病數(shù)據(jù)集的部分特征列表以及每個(gè)特征的相應(yīng)值。
表1 甲狀腺疾病數(shù)據(jù)集特征及值
在此次實(shí)驗(yàn)中,為了驗(yàn)證之前提出的通過降低甲狀腺相關(guān)數(shù)據(jù)檢測(cè)的維度來降低患者在檢查治療過程中的經(jīng)濟(jì)成本。甲狀腺疾病數(shù)據(jù)集的處理有兩個(gè)階段。一、在數(shù)據(jù)集上使用遞歸式特征消除法(RFE)進(jìn)行特征選擇選擇訓(xùn)練。通過模型訓(xùn)練,選出來四個(gè)數(shù)據(jù)集,其維度分別為3-6。二、使用篩選出來的新的特征子集訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)(ANN)分類模型。在實(shí)驗(yàn)結(jié)果中,新的數(shù)據(jù)集訓(xùn)練的模型準(zhǔn)確度達(dá)到97.54%-99.12%。而未經(jīng)處理的原數(shù)據(jù)集訓(xùn)練的模型準(zhǔn)確率是98.13%,所以通過RFE選擇出來的特征子集進(jìn)行模型訓(xùn)練,再使用該模型進(jìn)行輔助診斷系統(tǒng)的開發(fā)。其所需要的特征數(shù)據(jù)要比現(xiàn)有的診斷模型數(shù)據(jù)量更少,因此患者在檢查階段需要檢查的指標(biāo)更少,從而能夠?qū)崿F(xiàn)保證準(zhǔn)確率的前提下降低經(jīng)濟(jì)成本。
表2選擇出來的特征子集
表3 不同特征數(shù)量模型的準(zhǔn)確率
圖3 其他診斷系統(tǒng)準(zhǔn)確度
本文中對(duì)甲狀腺疾病診斷過程中的特征維度最小化進(jìn)行了討論并且通過實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證其可能性。文章首先對(duì)甲狀腺疾病檢查和診斷過程進(jìn)行了介紹,隨后討論在整個(gè)過程中患者所承擔(dān)的經(jīng)濟(jì)成本和時(shí)間成本都比較高。接著提出了一種方法,先對(duì)甲狀腺疾病的數(shù)據(jù)集進(jìn)行降維,篩選出部分特征子集再進(jìn)行人工神經(jīng)網(wǎng)絡(luò)建模進(jìn)行分類訓(xùn)練。此方法分別篩選出特征數(shù)量為3-6的子集,通過對(duì)子集訓(xùn)練所得的模型與原數(shù)據(jù)集所得的模型進(jìn)行對(duì)比,發(fā)現(xiàn)當(dāng)特征數(shù)量為4-6的時(shí)候都要比原數(shù)據(jù)集訓(xùn)練的模型準(zhǔn)確度要高。所以證明能夠在保證準(zhǔn)確率的情況下減少特征的維度。所需要的特征數(shù)量減少,患者在進(jìn)行檢查的時(shí)候所需要的指標(biāo)也可以相應(yīng)減少,通過這種方式能夠有效降低患者就醫(yī)的經(jīng)濟(jì)成本。此方法不僅可以用在甲狀腺疾病的診斷中,在其他疾病的數(shù)據(jù)集中均可使用。
此次實(shí)驗(yàn)中沒有探討如果具體多少個(gè)特征的情況是最好的情況,所以在以后的研究中可以研究特征數(shù)量為多少的時(shí)候是最優(yōu)的情況。也可以研究如何對(duì)篩選出來的數(shù)據(jù)子集進(jìn)行處理,或者在分類階段進(jìn)行優(yōu)化,以達(dá)到模型準(zhǔn)確率的進(jìn)一步提升。同時(shí),研究將此方法應(yīng)用在其他疾病的數(shù)據(jù)集上也是一個(gè)有意義的方向。