謝文倩,莊穎,劉智威,張戀戀,袁沛怡,龔浩
惠州學(xué)院生命科學(xué)學(xué)院,廣東 惠州 516007
乳腺癌是女性最常見的惡性腫瘤,對(duì)多個(gè)國(guó)家和多種腫瘤的發(fā)病率和病死率進(jìn)行評(píng)估發(fā)現(xiàn),2018 年新發(fā)惡性腫瘤1810 萬(wàn)例,其中乳腺癌占比11.6%,病死960 萬(wàn)例,其中乳腺癌占比6.6%[1]。2020 年全球癌癥統(tǒng)計(jì)數(shù)據(jù)顯示,女性新發(fā)乳腺癌860 萬(wàn)例,占所有惡性腫瘤新發(fā)病例的24.2%,因乳腺癌病死420 萬(wàn)例,占所有惡性腫瘤死亡病例的15.0%[2]。乳腺癌按照分子類型分為Basal-like 型、人表皮生長(zhǎng)因子受體2(human epidermal growth factor receptor 2,HER2)過(guò)表達(dá)型、Luminal A 型和Lumimal B 型四種。三陰性乳腺癌(triple negative breast cancer,TNBC)指雌激素受體、孕激素受體及HER2 均陰性表達(dá)的乳腺癌。TNBC 的生長(zhǎng)與雌激素有關(guān),雌激素的水平升高以及雌激素受體的分布、質(zhì)和量的異常均有可能促進(jìn)乳腺癌的發(fā)展。TNBC 常見癥狀包括乳房脹痛、刺痛,乳腺腫塊、疼痛、糜爛或皮膚凹陷,腋窩淋巴結(jié)腫大等[3-4]。TNBC的轉(zhuǎn)移方式傾向于通過(guò)血行轉(zhuǎn)移至內(nèi)臟,包括肺、肝等器官,Ⅲ期TNBC 患者更傾向于骨轉(zhuǎn)移,是一種比較難治的乳腺癌亞型。
臨床常采用新輔助化療(neoadjuvant chemotherapy,NAC)來(lái)縮小腫瘤大小和殺死部分不可見的腫瘤轉(zhuǎn)移細(xì)胞,通常被用于局部治療前。NAC預(yù)后一般分為病理學(xué)完全緩解(pathologic complete response,pCR)和殘留病灶兩種,pCR 與更好的臨床預(yù)后緊密相關(guān)。與其他分子類型腫瘤相比,TNBC 患者接受NAC 具有更大的可能性獲得pCR,但其不良反應(yīng)導(dǎo)致腫瘤轉(zhuǎn)移的風(fēng)險(xiǎn)也是其他分子類型的2 倍左右。因此,根據(jù)患者的臨床特征和一些分子分型結(jié)果對(duì)NAC 的療效進(jìn)行提前預(yù)測(cè)尤為重要,但部分常用的臨床指標(biāo)和分子分型均不能很好地對(duì)NAC 的療效進(jìn)行準(zhǔn)確預(yù)測(cè)。目前有研究利用一些影像學(xué)檢查、miRNA 表達(dá)量檢測(cè)等方法對(duì)預(yù)測(cè)價(jià)值進(jìn)行了探索[1],但這些方法都有一定的局限性,不能在臨床大規(guī)模使用。基因表達(dá)水平經(jīng)常被用來(lái)輔助制訂患者個(gè)性化的治療方法,如美國(guó)國(guó)立綜合癌癥網(wǎng)絡(luò)(National Comprehensive Cancer Network,NCCN)指南推薦采用21個(gè)基因檢測(cè)結(jié)果來(lái)指導(dǎo)乳腺癌患者采用化療還是內(nèi)分泌治療。因此,本研究擬通過(guò)構(gòu)建基于基因表達(dá)量的NAC 療效預(yù)測(cè)模型,旨在為NAC 在TNBC 中的應(yīng)用提供參考。
目前,采用分子數(shù)據(jù)對(duì)疾病進(jìn)行分類的預(yù)測(cè)模型有很多種,常見的包括監(jiān)督式或非監(jiān)督式的機(jī)器學(xué)習(xí)算法,一些較復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)算法在一些場(chǎng)景中也有使用[5]。這些算法各有優(yōu)劣也有不同的應(yīng)用場(chǎng)景,為找出最好的TNBC 患者NAC療效的預(yù)測(cè)方法,本研究選取7 種常規(guī)的機(jī)器學(xué)習(xí)算法和深度神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比測(cè)試,旨在尋找最合適的分類方法,現(xiàn)報(bào)道如下。
通過(guò)基因表達(dá)綜合(Gene Expression Omnibus,GEO)數(shù)據(jù)庫(kù)的公共數(shù)據(jù)集(GSE163882)(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE-163882)采集基因表達(dá)數(shù)據(jù)和患者病歷資料。該數(shù)據(jù)集包括222 例TNBC 患者的轉(zhuǎn)錄數(shù)據(jù)和相關(guān)臨床特征,其中1 例患者由于預(yù)后結(jié)果缺失被剔除,本研究共收集221 例TNBC 患者的相關(guān)病歷資料。此前研究分別利用免疫指標(biāo)和篩選的免疫相關(guān)指標(biāo)得到預(yù)測(cè)TNBC 患者NAC 療效的準(zhǔn)確率最高為76.9%和75.2%[6]。
從GEO 數(shù)據(jù)庫(kù)的公共數(shù)據(jù)集(GSE163882)中下載的原始基因表達(dá)量數(shù)據(jù)表中共有60 279 個(gè)人類基因不同轉(zhuǎn)錄本的原始表達(dá)量數(shù)據(jù)。由于轉(zhuǎn)錄本在不同個(gè)體中的表達(dá)量存在差異,一些基因在研究群體中表達(dá)的不是很多,缺失率大。首先將缺失率﹥70%和預(yù)后表型缺失的樣本剔除,共剩余221 個(gè)樣本的19 451 個(gè)基因表達(dá)量數(shù)據(jù)。隨后采用U檢驗(yàn)檢測(cè)pCR 和殘留病灶中基因表達(dá)量的差異,以P﹤0.01 作為篩選標(biāo)準(zhǔn)過(guò)濾掉兩組表達(dá)量差異不大的基因,篩選后剩余527 個(gè)基因表達(dá)量數(shù)據(jù)。最后采用單因素方差分析根據(jù)pCR 和殘留病灶分為兩組,計(jì)算兩組表達(dá)量的差異,計(jì)算P值,通過(guò)計(jì)算所有527 個(gè)基因相關(guān)性的P值,以兩個(gè)位點(diǎn)相關(guān)性P﹤1.0×10-16作為篩選標(biāo)準(zhǔn),保留方差差異較大的位點(diǎn),最后篩選得到46 個(gè)基因,用這些基因構(gòu)建預(yù)測(cè)模型。為驗(yàn)證不同特征數(shù)構(gòu)建模型的差異,本研究采用最小絕對(duì)收縮和選擇算子交叉驗(yàn)證法計(jì)算每個(gè)特征值的重要性并排序,選取5 種不同的特征數(shù)(分別為10、14、24、34、46 個(gè)基因)構(gòu)建預(yù)測(cè)TNBC 患者NAC 療效的模型并進(jìn)行驗(yàn)證。
采用Python 3.96 的sklearn 1.1.2 模塊中7 種不同機(jī)器學(xué)習(xí)算法[線性判別分析(linear discriminant analysis,LDA)[2]、線性回歸(linear regression,LN)[7-8]、貝葉斯(navie bayes,NB)[9-12]、決策樹(decision tree,DT)[13-15]、支持向量機(jī)(support vector machine,SVM)[16]、隨機(jī)森林(random forest,RF)[17-22]、K 最鄰近節(jié)點(diǎn)算法(K-nearest neighbor,KNN)]預(yù)測(cè)TNBC 患者的NAC 療效,包括準(zhǔn)確度、曲線下面積(area under the curve,AUC)和F1 度量值3 個(gè)指標(biāo)。221 個(gè)樣本被隨機(jī)分為訓(xùn)練集(n=131)、測(cè)試集(n=40)和驗(yàn)證集(n=40),所有的模型參數(shù)和結(jié)果均采用20 次重復(fù)計(jì)算后取平均值作為最后的結(jié)果。采用Python 的Tensorflow 2.9.1 軟件包中的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行后續(xù)優(yōu)化,采用grid search 方法對(duì)單次訓(xùn)練模型樣本數(shù)、訓(xùn)練步長(zhǎng)數(shù)、神經(jīng)網(wǎng)絡(luò)層數(shù)、每層神經(jīng)節(jié)點(diǎn)數(shù)進(jìn)行優(yōu)化。
不同機(jī)器學(xué)習(xí)算法在TNBC 患者NAC 療效預(yù)測(cè)時(shí)大部分預(yù)測(cè)效果一般,但也有在不同指標(biāo)上表型突出的算法。在準(zhǔn)確度這個(gè)指標(biāo)上,LDA 算法在46 個(gè)特征數(shù)構(gòu)建的模型的測(cè)試集和驗(yàn)證集上(測(cè)試集0.850、驗(yàn)證集0.829)整體優(yōu)于其他6 種算法;雖然LN 算法在34 個(gè)特征數(shù)構(gòu)建的預(yù)測(cè)模型的驗(yàn)證集的準(zhǔn)確度和LDA 相似,但在測(cè)試集時(shí)差別較大(測(cè)試集0.825、驗(yàn)證集0.830);整體來(lái)看,不同模型達(dá)到最優(yōu)準(zhǔn)確度時(shí)所用的數(shù)據(jù)集不一樣,但與其他4 個(gè)(10、14、24 和34 個(gè))特征數(shù)構(gòu)建的預(yù)測(cè)模型相比,46 個(gè)特征數(shù)構(gòu)建的預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確度最高(圖1A)。在AUC 這個(gè)指標(biāo)上,RF 和LDA 測(cè)試集的結(jié)果接近,但驗(yàn)證集上差別較大;整體來(lái)看,46 個(gè)特征數(shù)構(gòu)建的LDA 模型預(yù)測(cè)TNBC患者NAC 療效的AUC 最大(測(cè)試集0.750、驗(yàn)證集0.747)(圖1B)。在F1 度量值這個(gè)指標(biāo)上,LDA 算法的預(yù)測(cè)價(jià)值依然比較好,但RF 算法(測(cè)試集0.919、驗(yàn)證集0.894)在46 個(gè)特征數(shù)構(gòu)建的預(yù)測(cè)模型表現(xiàn)比LDA(測(cè)試集0.856、驗(yàn)證集0.843)效果好;RF 算法在34 個(gè)特征數(shù)構(gòu)建的預(yù)測(cè)模型(測(cè)試集0.923、驗(yàn)證集0.900)比46 個(gè)特征數(shù)構(gòu)建的預(yù)測(cè)模型的結(jié)果更好(圖1C)。綜合3 個(gè)指標(biāo)來(lái)看,RF算法在F1 度量值上優(yōu)于LDA 算法,但LDA 算法在準(zhǔn)確度和AUC 上有一定優(yōu)勢(shì)(圖1D)。(表1)
表1 7 種機(jī)器學(xué)習(xí)算法對(duì)NAC 療效的預(yù)測(cè)效果評(píng)價(jià)指標(biāo)
圖1 7種不同機(jī)器學(xué)習(xí)算法對(duì)TNBC患者NAC療效的預(yù)測(cè)價(jià)值
神經(jīng)網(wǎng)絡(luò)很強(qiáng)大的地方在于其完美的擬合能力,此外,神經(jīng)網(wǎng)絡(luò)包含的隱藏層中的隱藏結(jié)點(diǎn),使神經(jīng)網(wǎng)絡(luò)的表達(dá)能力十分強(qiáng)大,同時(shí),神經(jīng)網(wǎng)絡(luò)出現(xiàn)了自編碼,可以無(wú)監(jiān)督地學(xué)習(xí)數(shù)據(jù)的特征,尤其是圖片等抽象的特征,對(duì)于后續(xù)的分類、檢測(cè)、分割等提供了很好的特征支持。在一定程度上,傳統(tǒng)的特征提取方法可以為神經(jīng)網(wǎng)絡(luò)特征的學(xué)習(xí)提供參考方案。深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化分為兩步[23]:①參數(shù)batch size 和step 的優(yōu)化;②對(duì)神經(jīng)網(wǎng)絡(luò)的層數(shù)和每層節(jié)點(diǎn)數(shù)的優(yōu)化。對(duì)參數(shù)batch size 和step 進(jìn)行優(yōu)化,根據(jù)合并平均準(zhǔn)確率、合并最大準(zhǔn)確率、測(cè)試集平均準(zhǔn)確率、測(cè)試集最大準(zhǔn)確率、驗(yàn)證集平均準(zhǔn)確率、驗(yàn)證集最大準(zhǔn)確率6 個(gè)指標(biāo)進(jìn)行排序,選取前3 名的batch size 分別為130、80、140,而step 選取20 000、10 000、15 000,最后通過(guò)對(duì)測(cè)試集和驗(yàn)證集得到的結(jié)果求取平均值,發(fā)現(xiàn)130 的batch size 和20 000 的step 綜合起來(lái)表現(xiàn)效果最好(表2)。驗(yàn)證batch size 和step 后,對(duì)兩層的神經(jīng)網(wǎng)絡(luò)及節(jié)點(diǎn)進(jìn)行優(yōu)化,首先對(duì)兩層神經(jīng)網(wǎng)絡(luò)優(yōu)化后的節(jié)點(diǎn)進(jìn)行排序打分,當(dāng)每個(gè)指標(biāo)排第一時(shí),多個(gè)指標(biāo)的總和得到1 個(gè)數(shù)值,這個(gè)數(shù)值越小,證明準(zhǔn)確率越高。測(cè)試集中,第1 層神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)為50時(shí)、第2 層神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)為10 時(shí)的準(zhǔn)確率最高,為90.00%;驗(yàn)證集中,第1 層神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)為100 時(shí)、第2 層神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)為10 時(shí)的準(zhǔn)確率最高,為85.00%;將測(cè)試集的數(shù)據(jù)和驗(yàn)證集的數(shù)據(jù)進(jìn)行合并后,第1 層神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)為45 時(shí),第2 層神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)為30 時(shí)的準(zhǔn)確率最高,為86.25%(表3)。以上4 個(gè)參數(shù)的優(yōu)化結(jié)果顯示,batch size為130、step 為20 000、隱藏層層數(shù)為2 時(shí)的測(cè)試集和驗(yàn)證集預(yù)測(cè)TNBC 患者NAC 療效的準(zhǔn)確率最高,測(cè)試集為90.00%,驗(yàn)證集為85.00%,二者合并后為86.25%(圖2)。
表2 batch size 和step 分?jǐn)?shù)評(píng)估
表3 3 種數(shù)據(jù)集的最高準(zhǔn)確率所在的節(jié)點(diǎn)數(shù)
圖2 兩層隱藏層神經(jīng)網(wǎng)絡(luò)參數(shù)的平均值優(yōu)化結(jié)果
乳腺癌是對(duì)全球女性威脅最大的惡性腫瘤,其中TNBC 指雌激素受體、孕激素受體及HER2 均不表達(dá)的乳腺癌。與其他類型的乳腺癌相比,TNBC的治療手段較少,預(yù)后較差[24]。目前,TNBC 無(wú)明確的治療標(biāo)準(zhǔn),憑檢測(cè)報(bào)告和醫(yī)師的經(jīng)驗(yàn),診斷準(zhǔn)確度不高。傳統(tǒng)的機(jī)器學(xué)習(xí)算法對(duì)腫瘤各個(gè)時(shí)期的預(yù)測(cè)已有良好的結(jié)果,結(jié)合深度神經(jīng)網(wǎng)絡(luò)能夠提高預(yù)測(cè)的準(zhǔn)確度。本研究基于傳統(tǒng)機(jī)器學(xué)習(xí)算法,結(jié)合深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化對(duì)TNBC 患者NAC的療效進(jìn)行預(yù)測(cè),取得了一定成果。
首先7 種不同的機(jī)器學(xué)習(xí)算法在基于不同的基因表達(dá)量構(gòu)建的數(shù)據(jù)集中的表現(xiàn)有一定差異,但差異沒(méi)有很大。同一種算法利用相同基因表達(dá)量數(shù)據(jù)集時(shí)在測(cè)試集和驗(yàn)證集上基本差別不是很大。整體來(lái)看,46 個(gè)基因構(gòu)建的數(shù)據(jù)集預(yù)測(cè)效果較好,雖然在一些指標(biāo)上其他基因數(shù)構(gòu)建的模型預(yù)測(cè)效果更好。然而采用遞歸特征消除算法(recursive feature elimination,RFE)計(jì)算時(shí)發(fā)現(xiàn),21~27個(gè)特征數(shù)構(gòu)建的預(yù)測(cè)模型的AUC 最高,這也表明不同的機(jī)器學(xué)習(xí)算法適用于不同的特征數(shù)集合。研究顯示,RF 算法在很多基本模型預(yù)測(cè)時(shí)被證實(shí)優(yōu)于LDA 等簡(jiǎn)單算法模型[25]。本研究顯示,LDA算法在準(zhǔn)確度和AUC 方面都優(yōu)于RF 算法,推測(cè)這可能與本研究納入的樣本量少、RF 模型的訓(xùn)練樣本不足有關(guān)。事實(shí)上不同機(jī)器學(xué)習(xí)算法對(duì)訓(xùn)練要求的樣本不一樣,真實(shí)訓(xùn)練的樣本數(shù)目也會(huì)對(duì)算法準(zhǔn)確性造成一定影響,導(dǎo)致其可能由于訓(xùn)練樣本不足而不能發(fā)揮模型的作用。因此,這也提示臨床選擇模型時(shí)沒(méi)有最好的預(yù)測(cè)模型,只有最適合該數(shù)據(jù)集的模型,后期可以通過(guò)多中心聯(lián)合來(lái)增加樣本量,以提高各個(gè)模型的分類準(zhǔn)確率。
深度神經(jīng)網(wǎng)絡(luò)是一個(gè)適用范圍很廣的模型,在臨床的疾病分類模型上也有很多應(yīng)用,本研究通過(guò)深度神經(jīng)網(wǎng)絡(luò)對(duì)不同參數(shù)進(jìn)行簡(jiǎn)單優(yōu)化后,對(duì)比前面的7 種簡(jiǎn)單機(jī)器學(xué)習(xí)模型,其在測(cè)試集和驗(yàn)證集的準(zhǔn)確率上均有一定的提高,準(zhǔn)確率優(yōu)于LDA 模型。但本研究深度神經(jīng)網(wǎng)絡(luò)模型在一些節(jié)點(diǎn)組合上出現(xiàn)測(cè)試集準(zhǔn)確率明顯大于驗(yàn)證集的結(jié)果,這可能是因?yàn)楸狙芯坑?xùn)練樣本不足造成局部模型過(guò)度擬合的現(xiàn)象[26]。因此,提高樣本量應(yīng)該會(huì)大幅提高深度神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率。
乳腺癌的21 個(gè)免疫相關(guān)基因構(gòu)建的模型已經(jīng)被NCCN 指南推薦用于乳腺癌化療和內(nèi)分泌治療的選擇上,這表明基于基因表達(dá)量構(gòu)建的模型有一定的穩(wěn)健性。除了用于乳腺癌治療,熒光定量聚合酶鏈反應(yīng)(polymerase chain reaction,PCR)檢測(cè)基因表達(dá)量用于輔助其他臨床治療也已經(jīng)有大量的應(yīng)用。這也證實(shí)本研究提出的基于46 個(gè)基因構(gòu)建的模型也具有一定的可操作性。由于樣本量的限制,本研究沒(méi)能更好地縮小模型構(gòu)建需要的基因數(shù)目,導(dǎo)致需要檢測(cè)的基因還很多,但后期隨著樣本量的增加應(yīng)該會(huì)減少需要檢測(cè)的基因數(shù)目。
綜上所述,基于基因表達(dá)數(shù)目構(gòu)建的模型具有預(yù)測(cè)TNBC 患者NAC 療效的作用,可為后期的病情預(yù)測(cè)提供參考依據(jù)。