国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機器學習算法和生物信息學技術(shù)構(gòu)建的肺癌與肺結(jié)核鑒別診斷模型及其初步評價

2023-03-03 07:11夏文俊于斐胡鵬遠張曉旭張燕包亮亮毛宏凱瑪依沙達肯曹明芹
山東醫(yī)藥 2023年5期
關(guān)鍵詞:診斷模型肺結(jié)核準確率

夏文俊,于斐,胡鵬遠,張曉旭,張燕,包亮亮,毛宏凱,瑪依沙·達肯,曹明芹

新疆醫(yī)科大學公共衛(wèi)生學院,烏魯木齊 830011

肺癌是世界范圍內(nèi)高發(fā)的惡性腫瘤,據(jù)統(tǒng)計,全球每年約有220萬新發(fā)肺癌病例,179萬人死于肺癌[1]。結(jié)核病是一種由結(jié)核分枝桿菌引起的以呼吸系統(tǒng)為主的慢性傳染病,以肺部感染為主,??衫奂岸嗵幤鞴偌敖M織[2]。在臨床中,肺癌患者早期癥狀不明顯,易與肺結(jié)核等其他肺部疾病混淆,常導致許多肺癌患者確診時已為中晚期,錯過了最佳治療時機[3-4]。因此,早期鑒別診斷肺癌與具有相似臨床癥狀和放射學特征的肺結(jié)核患者,對于提高肺癌患者的生存率、結(jié)核病患者治愈率和降低整體疾病負擔是十分必要的。2022年3月—10月,本研究通過生物信息信息學方法篩選肺癌與肺結(jié)核的差異表達基因(DEGs),并利用機器學習算法構(gòu)建肺癌與肺結(jié)核的鑒別診斷模型,以期為早期肺癌與肺結(jié)核患者的診斷提供理論依據(jù)。

1 資料與方法

1.1 肺癌與肺結(jié)核DEGs篩選 以lung cancer、tuberculosis等關(guān)鍵詞對GEO公共數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)進行檢索,按照以下標準進行篩選:①數(shù)據(jù)集需具有肺癌和肺結(jié)核患者樣本;②微陣列數(shù)據(jù);③符合美國食品藥品監(jiān)督管理局(FDA)要求的權(quán)威機構(gòu)檢測。篩選獲得GSE42834數(shù)據(jù)集,其中包含35例肺結(jié)核樣本,16例肺癌樣本,共20 912個基因。運用R軟件limma包的經(jīng)驗貝葉斯聯(lián)合線性模型篩選GSE42834數(shù)據(jù)集中肺癌與肺結(jié)核DEGs。為了避免可能因線性分析而造成的假陽性結(jié)果,使用Benjamin and Hochberg(BH)法將P值調(diào)整為錯誤發(fā)現(xiàn)率(FDR)。篩選條件為FDR<0.05且|log2FC|>1.5。

1.2 肺癌與肺結(jié)核DEGs的GO生物過程與KEGG作用通路分析 運用R軟件clusterProfiler包對GSE42834數(shù)據(jù)集中肺癌與肺結(jié)核DEGs進行GO生物過程及KEGG作用通路富集分析,篩選排名前20的GO生物過程及KEGG作用通路富集結(jié)果,以P<0.05為差異有統(tǒng)計學意義。

1.3 肺癌與肺結(jié)核核心DEGs篩選 將獲得的前100個肺癌與肺結(jié)核DEGs輸入STRING工具(https://string-db.org),物種選擇Human,置信度選擇medium confidence(0.4),構(gòu)建蛋白—蛋白相互作用網(wǎng)絡(PPI)。運用Cytoscape軟件進行PPI網(wǎng)絡的圖形化,使用CytoHubba插件篩選連接度前10的基因作為肺癌與肺結(jié)核核心DEGs。采用t檢驗分析核心DEGs在肺癌與肺結(jié)核患者的表達情況。

1.4 肺癌與肺結(jié)核鑒別診斷模型構(gòu)建及評價 將篩選出的肺癌與肺結(jié)核核心DEGs輸入R軟件caret包,使用留一交叉驗證法(LOOCV)結(jié)合8種機器學習算法構(gòu)建肺癌與肺結(jié)核的鑒別診斷模型,包括支持向量機(SVM)、自適應提升算法(AdaBoost)、C5.0決策樹(C5.0)、隨機森林(RF)、樸素貝葉斯(NB)、神經(jīng)網(wǎng)絡(NN)、線性判別分析(LDA)及邏輯回歸(LR)模型,篩選模型的最優(yōu)參數(shù)。使用Bootstrap法對模型進行內(nèi)部驗證,采用準確率、Kappa值、敏感度及特異度來初步評價鑒別診斷模型的診斷準確度。

2 結(jié)果

2.1 肺癌與肺結(jié)核DEGs篩選結(jié)果 GSE42834數(shù)據(jù)集中共篩選出肺癌與肺結(jié)核DEGs 325個,包含205個上調(diào)基因和120個下調(diào)基因。見OSID碼圖1。

2.2 肺癌與肺結(jié)核DEGs的GO生物過程與KEGG作用通路分析結(jié)果 GO生物過程分析結(jié)果顯示,肺癌與肺結(jié)核DEGs主要富集的生物過程為對病毒的反應、對病毒的防御反應、干擾素γ(HFN-Y)反應等;KEGG作用通路分析結(jié)果顯示,肺癌與肺結(jié)核DEGs主要富集的作用通路為甲型流感、EB病毒感染、抗原處理和呈遞等。見OSID碼圖2。

2.3 肺癌與肺結(jié)核核心DEGs篩選結(jié)果 PPI網(wǎng)絡中顯示200個節(jié)點,516個邊緣(OSID碼圖3)。利用CytoHubba插件獲得具有最高連通性的前10個核心DEGs,分別為STAT1、CXCL10、MX1、ISG15、IFIH1、OASL、IFIT3、GBP1、IFI44和 IFIT1(OSID 碼圖4)。經(jīng)驗證,10個關(guān)鍵基因在肺癌患者中的表達水平均低于肺結(jié)核患者(P均<0.05)。見OSID碼圖5。

2.4 肺癌與肺結(jié)核鑒別診斷模型構(gòu)建及評價結(jié)果 將10個肺癌與肺結(jié)核核心DEGs納入8種算法建立肺癌與肺結(jié)核鑒別診斷模型,模型的最優(yōu)參數(shù)見表1。內(nèi)部驗證結(jié)果顯示,所有鑒別診斷模型準確率、Kappa值、靈敏度及特異度均較高,其中Ada-Boost、RF、NN和LR準確率為1.000。見表2。

表1 肺癌與肺結(jié)核鑒別診斷模型的最優(yōu)參數(shù)

表2 肺癌與肺結(jié)核鑒別診斷模型評價結(jié)果

3 討論

肺癌與肺結(jié)核均屬于呼吸系統(tǒng)常見疾病,且肺結(jié)核是肺癌發(fā)病的危險因素之一[5]。目前,臨床中對肺癌與肺結(jié)核患者的鑒別診斷方法主要是穿刺活檢和影像學檢查。肺部穿刺活檢屬于侵入性檢查,且需要檢查者具有較高的操作水平才能保證結(jié)果的準確性[6];影像學檢查常用于肺部空洞形成后,無法對肺癌與結(jié)核病進行早期的篩查與診斷。因此,探索有效且切實可行的診斷生物標志物及鑒別診斷模型對區(qū)分早期肺癌與肺結(jié)核患者具有重要意義。

本研究通過GSE42834數(shù)據(jù)集中肺癌與肺結(jié)核患者的轉(zhuǎn)錄特征來識別肺癌和肺結(jié)核的DEGs,共獲得325個DEGs。GO生物過程和KEGG作用通路分析顯示,這些DEGs主要富集于病毒反應、病毒防御反應、IFN-γ反應等生物學過程,涉及甲型流感、EB病毒感染、抗原處理和呈遞等作用通路。通過構(gòu)建PPI網(wǎng)絡獲得了肺癌與肺結(jié)核核心DEGs,分別為STAT1、CXCL10、MX1、ISG15、IFIH1、OASL、IFIT3、GBP1、IFI44和IFIT1。

STAT1是STAT蛋白家族的成員,具有激活IFN/STAT1通路和抗結(jié)核分枝桿菌的作用。IFN/STAT1通路是介導腫瘤細胞與宿主微環(huán)境成分之間的典型信號通路,通過激活IFN-γ發(fā)揮其抗腫瘤活性[7]。如果STAT1低表達可能抑制IFN-γ激活,從而促進腫瘤細胞的遷移和侵襲[8];YI等[9]研究發(fā)現(xiàn),人體內(nèi)高水平的磷酸化STAT1可以產(chǎn)生抗結(jié)核作用,提示STAT1可能是鑒別診斷肺癌與肺結(jié)核患者的重要標志物之一。CXCL10屬于CXC趨化因子,與CXCR3受體結(jié)合后可以促進單核細胞和淋巴細胞聚集到病變部位,從而發(fā)揮細胞免疫作用。有研究發(fā)現(xiàn),肺癌患者KDM4C基因的異常高表達會導致CXCL10啟動子區(qū)域活化的組蛋白H3K36me3富集,從而抑制CXCL10的表達[10];FAN等[11]研究發(fā)現(xiàn),活動性肺結(jié)核患者CXCL10水平顯著增高,CXCL10是結(jié)核病的重要標志物之一。這提示CXCL10在肺癌與肺結(jié)核中均異常表達,可能在肺癌與肺結(jié)核的鑒別診斷中發(fā)揮重要作用。GBP1是GTP酶超家族的成員,在正常細胞中具有抗增殖作用,在炎癥條件下可抑制早期血管生成。GBP1的表達具有高度背景依賴性,低表達時會促進肺癌細胞的增殖與轉(zhuǎn)移[12];高表達時會抑制Caspase-3的激活,導致巨噬細胞凋亡減少,促進分枝桿菌在細胞內(nèi)的生存和感染的建立[13]。因此,GBP1也可能是鑒別肺癌與肺結(jié)核患者的重要標志物。MX1、ISG15、IFIH1、OASL、IFIT3、IFI44、IFIT1均是IFN響應基因靶標,具有誘導IFN反應、產(chǎn)生免疫調(diào)節(jié)因子和炎癥細胞因子的作用。該類基因高度表達可能意味著IFN先天反應的激活,因此具有區(qū)分肺結(jié)核與肺癌的潛力。

近年來,機器學習結(jié)合生物信息學方法憑借其較高的準確率,在疾病診斷研究中得到越來越多的應用。HAMMAD等[14]通過基因表達數(shù)據(jù)庫建立結(jié)直腸癌診斷模型;NING等[15]通過10個miRNA使用SVM算法建立前列腺癌診斷模型。本研究基于10個肺癌與肺結(jié)核核心DEGs,應用多種機器學習算法構(gòu)建肺癌與肺結(jié)核的鑒別診斷模型,內(nèi)部驗證結(jié)果發(fā)現(xiàn)均具有較高的準確性,所有診斷模型的準確率均大于0.900且Kappa值、靈敏度及特異度均較高,其中AdaBoost、RF、NN和LR的準確率為1.000,提示模型具備較好的診斷分類能力。

綜上所述,本研究通過機器學習算法結(jié)合生物信息學方法建立了8個肺癌與肺結(jié)核早期鑒別診斷模型,其中AdaBoost、RF、NN和LR準確性較高,可為肺癌與肺結(jié)核的早期鑒別診斷提供參考。但如果將這些關(guān)鍵基因應用于臨床實踐中,還需要在更多的外部獨立數(shù)據(jù)集進行驗證。在下一步研究中,我們將引入新的肺癌與肺結(jié)核患者進行模型效果的外部評價,并對核心基因在肺癌與肺結(jié)核中的生物學功能與機制做進一步研究。

猜你喜歡
診斷模型肺結(jié)核準確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
CD4細胞計數(shù)聯(lián)合IGRA預測AIDS/Ⅲ型TB影像診斷模型分析
高速公路車牌識別標識站準確率驗證法
愛情是一場肺結(jié)核,熱戀則是一場感冒
72例肺結(jié)核合并糖尿病的臨床護理
蒙西醫(yī)結(jié)合治療肺結(jié)核進展
疣狀皮膚結(jié)核合并繼發(fā)型肺結(jié)核1例
對于電站鍋爐燃燒經(jīng)濟性診斷模型的研究