潘彬 張晉福 王國棟 余覓 張維 黃飛 李小燕 何杰 孫建
1成都醫(yī)學院臨床醫(yī)學院第一附屬醫(yī)院呼吸與危重癥醫(yī)學科 610500;2牟平區(qū)中醫(yī)醫(yī)院病理科,煙臺 264100;3成都醫(yī)學院臨床醫(yī)學院第一附屬醫(yī)院病理科 610500
結節(jié)病是一種由免疫反應介導的系統(tǒng)性疾病,非干酪性壞死性肉芽腫是其主要病理特征,但目前尚不清楚具體發(fā)病原因[1]。結節(jié)病患者的發(fā)病年齡較為年輕,以20~40歲居多,主要累及肺部,可出現(xiàn)雙側肺門淋巴結腫大,肺部彌漫性浸潤改變等影像學特征[2-3]。曾有研究結果表明結節(jié)病是由環(huán)境、遺傳、感染等諸多因素共同作用而引起的異常免疫反應,但其發(fā)病機制可能與CD4+T 細胞的激活,趨化因子驅動活化的T 細胞向肺部聚集有關[4]。陳鳳芳等[5]研究表明固有免疫和適應性免疫系統(tǒng)都參與了結節(jié)病的發(fā)病過程,Ⅱ期結節(jié)病患者的血清中血管緊張素轉化酶、白細胞介素2 受體(interleukin-2R,IL-2R)及腫瘤壞死因子α 等免疫相關的炎癥因子相較于正常對照組均有升高。Miyata等[6]認為血清IL-2R 的濃度高低與經氣管鏡超聲引導針吸活檢術 (endobronchial ultrasound guided tranbronchial needle aspiration,EBUSTBNA)確診的結節(jié)病分期密切相關,但研究樣本量小,有待進一步確定。由于結節(jié)病所涉及到的免疫機制較多,且部分患者無典型的臨床表現(xiàn),個體病程也長短不一[7];同時,臨床也缺乏可靠的分子診斷標志物,因此早期診斷出結節(jié)病變得十分困難,容易出現(xiàn)漏診及誤診的現(xiàn)象。
近年來,隨著生物信息分析學、轉錄組學、基因組學等多組學生物技術的發(fā)展,國內外已經建立了多個公共數(shù)據庫如GEO,ICGC,TCGA 等,數(shù)據庫中包含了疾病相關的臨床標本資料、基因芯片表達、基因突變等信息[8]。同時,R 軟件的開發(fā)為大數(shù)據的提取、分析和數(shù)據的具象化提供了開源的編程平臺,現(xiàn)已經廣泛運用于生物信息學分析[9]。本研究通過R 軟件分析GEO 數(shù)據庫中結節(jié)病相關的基因芯片數(shù)據,篩選結節(jié)病患者外周血與正常對照組外周血差異的核心基因,并加以實驗驗證,以期為結節(jié)病的診斷和治療尋找新的靶標。
1.1 數(shù)據下載 通過GEO 數(shù)據下載結節(jié)病患者外周血的表達譜數(shù)據。GSE18781 數(shù)據集[10]基于GPL570平臺,包括25例健康對照組外周血樣本和12例結節(jié)病患者外周血樣本;GSE34608 數(shù)據集[11]基于GPL6480平臺,包括18 例健康對照組外周血樣本和18例結節(jié)病患者外周血樣本。
1.2 數(shù)據預處理及差異基因的鑒定 采用R 軟件的affy包讀取GSE18781和GSE34608兩個數(shù)據集的原始數(shù)據,通過RMA 算法進行原始數(shù)據的校正和標準化處理。然后用Perl軟件將GPL570 和GPL6480平臺所對應的基因注釋文件將前兩個數(shù)據集中的探針矩陣進行注釋,接著使用SVA 包去除批次效應后,將兩個數(shù)據集進行合并。使用分位數(shù)-分位數(shù)圖(Q-Q 圖)展示去除批次效應后的效果,PCA 主成分分析圖展示樣本間校正效果。使用R 軟件中l(wèi)imma包進行合并數(shù)據集的差異基因分析,以校正后P值<0.05,|log2FC|>1 作為閾值。而差異基因的熱圖則通過pheatmap 包繪制。
1.3 GO 和KEGG 通路富集分析 GO 包括細胞組 分 (cellcomponents, CC ) 分 子 功 能(molecularfunction, MF )、 生 物 學 過 程(biologicalprocess,BP)共3個方面。京都基因和基因組百科全書(KEGG)富集分析是從分子水平上分析生物系統(tǒng)高層次功能,多個信號通路均涵蓋其中。為進一步分析差異基因的功能,對本研究中篩選出的差異基因采用R 軟件中的clusterprofile包進行GO 富集分析和KEGG 通路富集分析,若P<0.05則表明該富集分析結果有統(tǒng)計學意義。
1.4 診斷生物標志物的篩選 利用LASSOlogistic回歸和隨機森林兩種算法降維并篩選差異基因,兩種算法所篩選出的基因取交集,將交集的基因作為結節(jié)病的分子診斷標志物,通過ROC 曲線對其診斷效能進行評價。利用glmnet包完成LASSO-logistic回歸算法,使用10折交叉驗證來確定最小λ值,當λ最小時,所對應的基因即被篩選出來。隨機森林算法是機器學習的一種方法,本質是一種裝袋集成算法 (bagging),該算法采取bagging抽樣技術從原始訓練集中進行抽樣,然后對抽取樣本構建多個相互獨立的評估器,評估器會把每個差異基因作為一個變量,根據每個變量的權重生成一個變量重要性值 (variableimportance,VIMP),根據值的大小確定基因分辨結節(jié)病的重要性[12]。采用Random Forest包實施隨機森林算法設定閾值VIMP>0.01的基因被篩選出來。兩種算法篩選出的基因取交集。
1.5 診斷生物標志物的評估 ROC分析作為一種評價診斷準確度的常用方法,其特點是可把敏感度和特異度結合起來。本研究通過Medcalc軟件繪制出ROC曲線以評估篩選出的基因的診斷效能,進而確定結節(jié)病的生物標志物。
1.6 生信分析結果的實驗驗證
1.6.1 標本來源 選取成都醫(yī)學院第一附屬醫(yī)院2017年7月至2020年10月收治的肺結節(jié)病患者50例作為結節(jié)病組,50例肺結節(jié)病患者均無肺外結節(jié),選取在同一時期進行體檢的50例健康志愿者作為對照組,2組一般臨床資料見表1。結節(jié)病組中肺結節(jié)病0期7例,Ⅰ期23例,Ⅱ期15例,Ⅲ期5例,將0期和Ⅰ期合并為A 組,將Ⅱ期與Ⅲ期合并為B 組,對照組為C 組。分別抽取3組人群的外周血2 ml,采樣后的靜脈血液離心后,取適量上清液置于-80 ℃冰箱保存,將所有患者的血清收集齊后一次性檢測。本研究通過本院倫理委員會審批 (2021CYFYIRB-BA-14-01),所有患者及其家屬均知情同意并簽署知情同意書。
表1 2組一般資料比較
1.6.2 觀察指標 采用雙抗體夾心酶聯(lián)免疫吸附測定 (enzyme-linked immunosorbent assay,ELISA)法檢測病例組及對照組血清SPOCK2 水平。試劑盒采用上海酶聯(lián)生物科技有限公司生產的,生產編號為TMl060212,并通過Medcalc軟件通過繪制ROC曲線對SPOCK2基因診斷肺結節(jié)病的效能進行驗證。
1.7 統(tǒng)計學分析 聯(lián)合使用R 軟件及Medcal軟件進行統(tǒng)計學分析。正態(tài)分布的計量資料數(shù)據以±s表示。多組比較采用單因素方差分析,兩兩比較采用Bonferroni法,P<0.05為差異有統(tǒng)計學意義。
2.1 數(shù)據預處理及差異基因的鑒定 GSE18781和GSE34608 2組數(shù)據集基于表達矩陣數(shù)據去除批次間差異后的效果如Q-Q 圖所示 (圖1),其結果表明樣本分位數(shù)點的連線近似于一條直線,提示2組樣本之間的批次差異已經去除。2組數(shù)據集合并且標準化之后以主成分分析圖PCA 展現(xiàn) (圖2),結果顯示2組數(shù)據集合并并標準化后樣本聚類更加顯著,表明樣本來源可靠。數(shù)據預處理后,R 軟件根據設定的閾值從合并的數(shù)據集中提取出了761個差異基因。差異基因的熱圖,見圖3。
圖1 GSE18781和GSE34608 2組數(shù)據集去除批次效應后的Q-Q 圖
圖2 PCA 聚類圖,紅色代表對照組血清樣本,綠色代表結節(jié)病組血清樣本
圖3 差異基因表達的熱圖
2.2 功能和通路富集分析 GO 分析的結果表明,差異基因顯著富集在T 細胞激活,淋巴細胞的激活,淋巴細胞的分化等生物學過程 (BP);細胞成分(CC)方面主要有免疫突觸、特異性顆粒、遠端軸突等;分子功能 (MF)方面主要有DNA 結合轉錄抑制因子的激活,GTP 酶的激活,核苷酸三磷酸調節(jié)器的激活等 (圖4)。依據KEGG 通路富集分析結果得知,差異基因主要富集于T 細胞受體通路,原發(fā)性免疫缺陷,NF-κB,m TOR 等信號通路(圖5)。
圖4 GO 富集通路
圖5 KEGG 通路富集圖
2.3 診斷生物標志物的選擇 當λ最小值為0.004時最優(yōu)的模型構建成功,經LASSO-logistic回歸算法篩選出15個可作為結節(jié)病的診斷標志物 (圖6),它們分別為SPOCK2,ENGASE,SPOUT1,CLIC2,MAN1B1,HEMGN,P2RY14,PPDPF,CD274, CD8A, LRRN3, PEX6, BATF2,DOCK4,C1QA。隨機森林算法提示當隨機森林生成了200個不同的樹時,隨機森林構建的模型誤差最小(圖7A)。當樹的個數(shù)等于200,構建模型生成每個基因的變量重要性的值 (圖7B),結果顯示變量重要性值>0.01的基因有SPOCK2,DND1,SRRT。兩種算法取交集篩選出SPOCK2為最終的診斷生物標志物(圖8)。
圖6 LASSO 建模示意圖 A:回歸系數(shù)分布的剖面圖;B:采用10折交叉驗證選擇最小λ值
圖7 隨機森林圖 A:樹數(shù)為200個時模型的誤差;B:模型計算出的基因變量重要性值
圖8 LASSO 回歸模型和隨機森林算法篩選出的基因
2.4 SPOCK2作為診斷結節(jié)病生物標志物的評估合并的芯片數(shù)據集中顯示SPOCK2在對照組中表達量低于結節(jié)病組 (P<0.05),見圖9A,ROC曲 線 提 示 AUC=0.985 (95%CI:0.924 ~1.000),特異度=0.9,敏感度=1,見圖9B,說明SPOCK2有較強的識別結節(jié)病的能力。
圖9 A 為SPOCK2 在GSE18781 和GSE34608 合 并 數(shù) 據集中對照組和結節(jié)病組表達的差異;B為SPOCK2診斷結節(jié)病的ROC曲線
2.5 實驗驗證生物信息分析結果 ELISA 檢測顯示,肺結節(jié)病A 組外周血SPOCK2 濃度為(3.24±0.18)μg/L,肺結節(jié)病B 組外周血SPOCK2濃度為 (5.03±0.12)μg/L,均明顯低于健康對照組 (9.31±0.59)μg/L,差異有統(tǒng)計學意義(F=37.360,P<0.05),見圖10 A,肺結節(jié)病A 組患者血清SPOCK2蛋白濃度明顯低于B組(P<0.05)。對A 組肺結節(jié)病和B 組肺結節(jié)病分 別 繪 制ROC 曲 線 (A 組:AUC=0.836(95%CI:0.736~0.909)特異度=91.30%,敏感度=76.47%;B 組:AUC=0.681 (95%CI:0.567~0.780)特異度=79.55%,敏感度=55.56%),見圖10B,10C,說明SPOCK2蛋白濃度對0~Ⅰ期肺結節(jié)病有較強的識別能力。
圖10 A 肺結節(jié)病患者外周血中SPOCK2蛋白濃度測定結果,A 組為0-Ⅰ期,B組為Ⅱ~Ⅲ期,C組為對照組;10B為SPOCK2診斷0~Ⅰ期肺結節(jié)病的效能在臨床樣本中的驗證結果;10C為SPOCK2診斷Ⅱ~Ⅲ期肺結節(jié)病的效能在臨床樣本中的驗證結果。a P <0.05
近年來,隨著臨床醫(yī)生對結節(jié)病認識的不斷提高以及檢查技術的不斷更新,結節(jié)病逐漸受到研究者的重視[13]。結節(jié)病是一種復雜的免疫性疾病,其發(fā)病率在不同人群間有著明顯差別,發(fā)病率較高的是非洲人群,主要受累器官為皮膚,而亞洲人群相對較低,但超過90%的結節(jié)病都會累及肺臟[14]。雖然部分肺結節(jié)病患者有一定的自愈趨勢,但中青年人發(fā)病居多,個體差異較大,10%~30%患者病程可能轉為慢性病程并出現(xiàn)肺功能進行性損害,終末期甚至可出現(xiàn)嚴重肺纖維化和呼吸衰竭[15-16]。結節(jié)病患者胸部CT 的典型表現(xiàn)為雙側肺門、縱隔淋巴結增大,密度均勻,邊界清晰,呈土豆樣;以及肺部浸潤并多呈現(xiàn)網格狀、結節(jié)狀或者片狀的陰影[17]。正電子發(fā)射斷層 positron emission tomography,PET)/X 線計算機斷層 (computer tomography,CT)組合系統(tǒng)可提示累及多器官的不典型結節(jié)病的病灶定位區(qū)域[18],但其價格昂貴;目前臨床主要借助影像學改變和超聲引導下經支氣管 鏡 針 吸 活 檢 術 (transbronchial needle aspiration,TBNA)后的病理組織檢查診斷肺結節(jié)病[19];但肺結節(jié)病的影像學改變也缺乏特異性,不典型的肺結節(jié)病與其他肺間質性肺疾病鑒別難度較大,而EBUS-TBNA 活檢在基層醫(yī)院難以開展,因此尋找肺結節(jié)病相關分子標志物,對于早期干預肺結節(jié)病具有重要的臨床意義。
本研究采用生物信息學方法分析發(fā)現(xiàn),在43例結節(jié)病和30例健康對照組外周血樣本的基因表達譜之間存在顯著的差異,這些表達上具有差異的基因參與了多種生物學過程和功能,如免疫反應、炎癥反應、GTP酶的活性等。隨機森林和LASSO回歸兩種算法篩選出核心基因為SPOCK2,ROC曲線提示AUC 值為0.985,提示SPOCK2具有一定的鑒別結節(jié)病的能力。為了進一步驗證生物信息分析的結果,本研究收集了50例肺結節(jié)病患者和50例健康對照組外周血清樣本進行實驗驗證,根據肺結節(jié)病分期不同進行分析,ELISA 結果顯示0~Ⅰ期肺結節(jié)病患者及Ⅱ~Ⅲ期肺結節(jié)病患者外周血樣本中的SPOCK2均低于健康對照組,且血清SPOCK2蛋白濃度對0~Ⅰ期肺結節(jié)病有較強的識別能力,與生物信息分析結果一致。上述現(xiàn)象提示SPOCK2可能在結節(jié)病的發(fā)病機制中發(fā)揮著保護作用。SPOCK2 也稱之為或睪丸蛋白聚糖(testican-2),是骨黏連蛋白(osteonectin)家族的細胞外基質鈣黏連蛋白,包含有硫酸軟骨素和硫酸乙酰肝素兩個側鏈,編碼424個氨基酸的糖蛋白,由信號肽、卵泡抑素樣結構域、鈣離子結合結構域、甲狀腺球蛋白樣結構域和兩個黏多糖附著位點的C端區(qū)域組成[20]。SPOCK2最初是從人腦組織中的cDNA 文庫中成功克隆出來的,隨著研究的逐漸深入,SPOCK2 在肺、腎、前列腺、腎上腺及卵泡等組織中均可檢測到,有研究發(fā)現(xiàn)SPOCK2與人乳腺癌、前列腺癌、結腸癌的發(fā)病也存在密切的相關性[21-22],說明SPOCK2 具有廣泛的生物學功能。陳濤等[23]研究表明SPOCK2與基質金屬蛋白酶16 (matrix metalloproteinase 16,MMP-16)存在著協(xié)同作用,共同促進肺泡和肺血管的形成,在肺的發(fā)育中發(fā)揮著重要作用,同時在高氧刺激時對肺組織起保護作用。Ahn等[24]研究表明過表達SPOCK2質粒轉染的肺泡上皮細胞可有效阻止病毒附著和防止病毒進一步進入宿主細胞,其中唾液酸N-聚糖和硫酸乙酰肝素共價連接在SPOCK2核心蛋白上是抗病毒活性的關鍵。
因為流感病毒的神經氨酸酶作用于裂解SPOCK2的唾液酸化部分,從而SPOCK2阻止了病毒的進一步擴散。對一項關于結節(jié)病病因的研究指出,結節(jié)病的發(fā)生可能與人體長期暴露于微生物氣溶膠環(huán)境中密切相關,這些微生物包括結核分枝桿菌、病毒、真菌等病原微生物。病原微生物的感染可能是結節(jié)病發(fā)展進程的啟動因素,激活了結節(jié)病的免疫機制[25],這一現(xiàn)象與本研究生信分析所得出的結節(jié)病差異基因富集在多個免疫相關生物學功能的結果一致。由此推測,SPOCK2 的下調可以減弱肺泡上皮細胞對于病原微生物的抵抗能力,從而增加肺組織感染病原微生物的機會,導致了肺內異常免疫功能的激活,增加了患肺結節(jié)病的風險。隨著病情的進展,免疫反應的增強,SPOCK2可能對肺泡上皮細胞抵御病原微生物的調控能力也逐漸增強,因此本研究中Ⅱ~Ⅲ期肺結節(jié)病患者血清SPOCK2的濃度高于0~Ⅰ期肺結節(jié)病,但具體機制需進一步實驗證實。
本研究采用多種生物信息學及機器學習方法處理了基因芯片表達譜的數(shù)據并進行了分析,但仍有一些不足之處:(1)雖然合并了2個GEO 數(shù)據集的數(shù)據,但是因為結節(jié)病發(fā)病率相對較低,公共數(shù)據中可下載的芯片較少,可能對結果造成一定偏倚;(2)合并的兩個GEO 數(shù)據集均只是籠統(tǒng)的說明標本來源于結節(jié)病,原始數(shù)據中未標明是具體哪個器官或者系統(tǒng)的結節(jié)病,而臨床驗證的標本均采用肺結節(jié)病,不同部位的結節(jié)病的可能有所差異;(3)肺結核與肺結節(jié)病是臨床需要鑒別的病理表現(xiàn)為肉芽腫性疾病的兩種主要疾病,本課題組因實驗條件的限制,未收集到肺結核及縱隔淋巴結結核患者血清樣本,無法分析SPOCK2在肺結核和肺結節(jié)病中的差異,因此本研究的結論還需要進一步進行完善和探討。
綜上所述,本研究通過合并兩個GEO 數(shù)據集的基因芯片表達譜,采用多種生物信息學分析方法篩選及臨床驗證得到的結節(jié)病差異基因SPOCK2,可作為鑒別肺結節(jié)病的分子標志物,為肺結節(jié)病的發(fā)病機制和靶向治療提供一定的理論基礎。
利益沖突 所有作者均聲明不存在利益沖突