劉尚輝 王 露 鄭德祿
甲狀腺結(jié)節(jié)是臨床常見的病癥,可由多種病因引起。甲狀腺結(jié)節(jié)可分為單發(fā)性結(jié)節(jié)和多發(fā)性結(jié)節(jié),結(jié)節(jié)的大小、位置、質(zhì)地、功能及其臨床意義各有不同。據(jù)流行病學(xué)資料統(tǒng)計(jì),可觸及的甲狀腺結(jié)節(jié)在成人中的患病率為4%~8%。尸檢病理學(xué)檢查發(fā)現(xiàn)的普通人群結(jié)節(jié)患病率為50%〔1〕。據(jù)有關(guān)研究發(fā)現(xiàn),甲狀腺結(jié)節(jié)的發(fā)病率與地域、性別以及年齡相關(guān),碘缺乏地區(qū)或碘攝入過多沿海地區(qū)的甲狀腺結(jié)節(jié)發(fā)病率較高。目前,甲狀腺結(jié)節(jié)的發(fā)病率逐年上升,結(jié)節(jié)的發(fā)生率隨年齡的增長而上升。
1.資料來源 甲狀腺結(jié)節(jié)資料來源于中國醫(yī)科大學(xué)附屬第一醫(yī)院病案室,采集2000~2009年間的甲狀腺結(jié)節(jié)病例數(shù)據(jù)信息。內(nèi)容包括相應(yīng)的各項(xiàng)相關(guān)指標(biāo),具體為患者住院號、性別、年齡、結(jié)節(jié)彩超檢查結(jié)果、ECT檢查結(jié)果、家族病史、既往病史、細(xì)針穿刺結(jié)果、FT3、FT4、TSH、TGAB、TPOAB、WBC 、中性粒細(xì)胞數(shù)、淋巴細(xì)胞數(shù)等。
2.?dāng)?shù)據(jù)處理 分析采集的原始數(shù)據(jù),利用數(shù)據(jù)挖掘?qū)I(yè)知識對目標(biāo)數(shù)據(jù)集中的“臟數(shù)據(jù)”進(jìn)行清洗,使數(shù)據(jù)記錄量和特征屬性的數(shù)量都得以精簡。再根據(jù)關(guān)聯(lián)分析特征屬性的要求將本分析的數(shù)據(jù)轉(zhuǎn)化為布爾型的二值數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理之后,所包含的主要特征如表1所示。
在本研究中,通過病人的疾病、年齡、性別、甲功系列等之間關(guān)系進(jìn)行數(shù)據(jù)挖掘,以期發(fā)現(xiàn)一些潛在、有意義的關(guān)聯(lián)規(guī)則。
1.關(guān)聯(lián)規(guī)則定義〔2〕關(guān)聯(lián)規(guī)則主要反應(yīng)了事物之間的關(guān)聯(lián)性。對反映同一事物的一條記錄而言,若其具有特征屬性A的同時(shí),也具有特征屬性B,則稱特征屬性A和B是關(guān)聯(lián)的,即A→B。這種關(guān)聯(lián)性僅表現(xiàn)為“共生現(xiàn)象”,即兩者同時(shí)存在,但并不一定表現(xiàn)兩者之間必然存在前后因果的關(guān)系。在醫(yī)學(xué)領(lǐng)域這種關(guān)聯(lián)現(xiàn)象也是存在的,如某種疾病可能同時(shí)表現(xiàn)出幾種相關(guān)聯(lián)的癥狀,臨床上的疾病鑒別診斷通常是以某些相關(guān)的檢驗(yàn)和檢測指標(biāo)為根據(jù)的,因此,關(guān)聯(lián)分析能為鑒別診斷提供依據(jù)。
表1 甲狀腺結(jié)節(jié)關(guān)聯(lián)分析的主要特征屬性
2.關(guān)聯(lián)規(guī)則的判定指標(biāo) 作為數(shù)據(jù)挖掘的方法之一,關(guān)聯(lián)規(guī)則的有效性也要進(jìn)行驗(yàn)證。該規(guī)則的質(zhì)量和重要性可以通過支持度和置信度做判斷,支持度指標(biāo)表達(dá)了某一關(guān)聯(lián)規(guī)則在總體中發(fā)生的概率,是關(guān)聯(lián)規(guī)則重要性的定性度量。置信度指標(biāo)表達(dá)了構(gòu)成關(guān)聯(lián)規(guī)則的一個(gè)特征屬性A發(fā)生時(shí),另一個(gè)特征屬性B的發(fā)生概率,反映了這兩個(gè)特征屬性之間關(guān)聯(lián)的強(qiáng)度。如果通過數(shù)據(jù)挖掘得出的某條規(guī)則同時(shí)滿足最小支持度和最小置信度則稱其為強(qiáng)關(guān)聯(lián)規(guī)則。
3.挖掘關(guān)聯(lián)規(guī)則的方法 關(guān)聯(lián)規(guī)則的挖掘方法通過統(tǒng)計(jì)軟件Clementine 11.1V來實(shí)現(xiàn),采用其中經(jīng)典算法Apriori建模,有效地實(shí)施了本關(guān)聯(lián)分析。主要是通過確定最小支持度和最小置信度這2個(gè)參數(shù)來產(chǎn)生規(guī)則的項(xiàng)集最大數(shù)目,該研究設(shè)定最小支持度為0.10,最小置信度為0.80。輸出結(jié)果中包含滿足要求的所有規(guī)則以及每條規(guī)則的支持度、置信度。
甲狀腺結(jié)節(jié)的發(fā)病與性別、年齡、甲狀腺功能系列、血常規(guī)系列檢驗(yàn)指標(biāo)的關(guān)系如表2所示。設(shè)置支持度為0.10,置信度為0.8后,共形成2780個(gè)強(qiáng)關(guān)聯(lián)規(guī)則,為了從這些規(guī)則中提取出有價(jià)值和感興趣的知識,本研究設(shè)計(jì)了一個(gè)模板,規(guī)定了規(guī)則的組成形式為:anything→RESULT=t,從而在強(qiáng)關(guān)聯(lián)規(guī)則中,再次選出右邊結(jié)果是RESULT=t,即結(jié)果是“結(jié)節(jié)”的規(guī)則,最終得到215條規(guī)則。經(jīng)過臨床免疫科專家解釋及檢驗(yàn)所產(chǎn)生的規(guī)則結(jié)果表明:①甲狀腺結(jié)節(jié)的發(fā)病與性別、年齡關(guān)系密切,且40歲以上女性發(fā)病幾率高,特別是60歲以上女性出現(xiàn)結(jié)節(jié)的概率更大。②甲狀腺功能系列(FT3、FT4、TSH)不論正常或異常均可出現(xiàn)結(jié)節(jié)癥狀,且以甲功正常的支持度與置信度更高。③甲狀腺抗體(TGAB、TPAB)不論正?;虍惓>沙鲰?xiàng)結(jié)節(jié)癥狀,且以抗體正常的支持度與置信度更高。④血常規(guī)中粒細(xì)胞、白細(xì)胞總數(shù)正常情況下出現(xiàn)結(jié)節(jié)都有統(tǒng)計(jì)學(xué)意義。
表2 Apriori算法所形成的關(guān)聯(lián)規(guī)則
本研究中為了進(jìn)一步探討年齡與結(jié)節(jié)的關(guān)系,我們對Apriori算法模型做了新的設(shè)置,通過設(shè)置特征屬性彩超檢查結(jié)果有無結(jié)節(jié)為分析的輸出項(xiàng),其他屬性為輸入項(xiàng),且最大前置項(xiàng)數(shù)為1,得到甲狀腺結(jié)節(jié)與年齡的關(guān)系為40歲以上女性出現(xiàn)甲狀腺結(jié)節(jié)成逐年上升趨勢,這從置信度可以明顯看出來,0.96(60歲)>0.89(50歲)>0.76(40歲),40歲以下沒有統(tǒng)計(jì)學(xué)意義。本研究中性別及年齡與甲狀腺結(jié)節(jié)關(guān)系的結(jié)論與國內(nèi)外報(bào)道基本一致〔3,4〕。
通過上述分析可見,關(guān)聯(lián)規(guī)則挖掘能夠帶給我們一些有價(jià)值的信息,而這些信息用傳統(tǒng)的數(shù)據(jù)分析方法很難發(fā)現(xiàn)。在進(jìn)行關(guān)聯(lián)規(guī)則分析時(shí),要防止產(chǎn)生數(shù)量過多的,且包含過多冗余信息的規(guī)則,我們采用“模板”來規(guī)定出需要的關(guān)聯(lián)規(guī)則形式,以此來精簡所產(chǎn)生的關(guān)聯(lián)規(guī)則數(shù)量。本研究實(shí)現(xiàn)了從10年積累的大量數(shù)據(jù)中發(fā)現(xiàn)了與甲狀腺結(jié)節(jié)相關(guān)的模式和規(guī)則,以幫助人們加深對甲狀腺疾病的理解和重視。
隨著我國衛(wèi)生事業(yè)改革的不斷深入,醫(yī)院信息化建設(shè)的不斷完成,充分利用電子病歷系統(tǒng)中寶貴的臨床醫(yī)學(xué)信息資源,建立臨床診療信息采集平臺(tái),進(jìn)而開展數(shù)據(jù)挖掘是大有可為的〔5〕。今后我們將更好地利用豐富的電子病例資源,挖掘和揭示出更多有價(jià)值的知識,以期能夠更好地為醫(yī)療衛(wèi)生服務(wù)。
1.羅斌鈺,趙詠桔.甲狀腺結(jié)節(jié)的超聲診斷.國際內(nèi)分泌代謝雜志,2008,5:297-298.
2.章魯,龔著琳,等.生物醫(yī)學(xué)數(shù)據(jù)挖掘.上??茖W(xué)技術(shù)出版社,2008,2.
3.馮尚勇,劉超,等.江蘇高淳、楚州地區(qū)社區(qū)人群甲狀腺結(jié)節(jié)流行特征研究.南京醫(yī)科大學(xué)學(xué)報(bào),2006,8:717-719.
4.Cooper DS,Doherty GM,Haugen BR,et al.Management guidelines for patients with thyroid nodules and differentiated thyroid cancer.Thyroid,2006,16(2):1-33.
5.胡鏡清,劉保延,王永炎.中醫(yī)臨床個(gè)體化診療信息特征與數(shù)據(jù)挖掘技術(shù)應(yīng)用分析.世界科學(xué)技術(shù):中醫(yī)藥現(xiàn)代化,2004,1:14-16.