王瀚苑,趙之瀅,宮婷婷,趙玉虹,吳琪俊
婦科惡性腫瘤之一的卵巢癌(ovarian cancer,OC)對(duì)女性健康存在嚴(yán)重威脅,在2019年全美女性癌癥死亡病例中排名第五[1]。但因其早期臨床癥狀不明顯且無(wú)特異性,多數(shù)患者在晚期才被診斷。OC患者預(yù)后差,五年生存率僅為43%[2-3]?,F(xiàn)階段,OC臨床治療方案通常取決于癌癥類(lèi)型和進(jìn)展階段[4],所以早期診斷和判斷腫瘤分型非常重要。影像學(xué)特征和癌胚抗原125(CA-125)水平是最常使用的兩種方法,但在OC臨床診斷時(shí)缺乏特異性[5]。研究人員期望通過(guò)分析多組學(xué)信息、綜合各項(xiàng)臨床指標(biāo)、深度挖掘影像信息等手段,研究出準(zhǔn)確、快捷、無(wú)創(chuàng)的方法,幫助臨床醫(yī)生診斷OC,為患者提供個(gè)性化治療方案,從而改善患者預(yù)后。
機(jī)器學(xué)習(xí)(maohine learning,ML)是一門(mén)研究計(jì)算機(jī)從海量數(shù)據(jù)中學(xué)習(xí)的學(xué)科,是統(tǒng)計(jì)學(xué)與計(jì)算機(jī)學(xué)交叉融合的產(chǎn)物,按照學(xué)習(xí)方式可分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。
近年來(lái),研究人員著眼于將機(jī)器學(xué)習(xí)技術(shù)與基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)、放射組學(xué)等相結(jié)合,期望為OC的臨床診斷治療提供新思路。本文將對(duì)機(jī)器學(xué)習(xí)在OC診斷和預(yù)后中的應(yīng)用作一綜述,見(jiàn)表1。
表1 機(jī)器學(xué)習(xí)在卵巢癌多個(gè)方面的應(yīng)用Table 1 Application of machine learning in diagnosis,relapse and prognosis of ovarian cancer
常見(jiàn)的機(jī)器學(xué)習(xí)方法有貝葉斯分類(lèi)(na?ve bayes)、隨機(jī)森林(random forests,RF)、決策樹(shù)(decision trees)、k均值聚類(lèi)(clustering with k-means)、支持向量機(jī)(support vector machines,SVM)和神經(jīng)網(wǎng)絡(luò)(neural networks,NN)。SVM是最經(jīng)典的監(jiān)督學(xué)習(xí)算法之一,可在有限的訓(xùn)練樣本中管理多維數(shù)據(jù)并進(jìn)行多類(lèi)別分類(lèi)[6]。RF屬于無(wú)監(jiān)督學(xué)習(xí),通過(guò)隨機(jī)抽樣和減小方差降低異常值對(duì)結(jié)果的影響。NN由神經(jīng)元組成,利用獲取的數(shù)據(jù)特性解決復(fù)雜任務(wù),其中模糊神經(jīng)網(wǎng)絡(luò)(fuzzy neural network,FNN)能夠自動(dòng)生成直觀的模糊規(guī)則,避免了傳統(tǒng)統(tǒng)計(jì)學(xué)運(yùn)算中的“黑匣子”問(wèn)題;人工神經(jīng)網(wǎng)絡(luò)(artificial neuronal network,ANN)最大的優(yōu)勢(shì)是通過(guò)迭代提高模型性能;卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)能夠發(fā)掘出肉眼無(wú)法識(shí)別的圖像細(xì)節(jié),更適用于圖像和語(yǔ)音的識(shí)別、分割工作。然而當(dāng)神經(jīng)網(wǎng)絡(luò)過(guò)于復(fù)雜時(shí)需引入深度學(xué)習(xí)(deep learning,DL)改善性能,通過(guò)編碼器網(wǎng)絡(luò)進(jìn)行信息轉(zhuǎn)換和重建,利用較少的特征包含大量信息,以此來(lái)消除冗雜信息。
目前,機(jī)器學(xué)習(xí)在OC診斷研究中的運(yùn)用文獻(xiàn)僅兩篇。2005年,Tan等[7]對(duì)OC的DNA微陣列基因表達(dá)數(shù)據(jù)集進(jìn)行研究,結(jié)果顯示FNN表現(xiàn)出訓(xùn)練速度快、規(guī)則生成簡(jiǎn)單、準(zhǔn)確度高的特點(diǎn),尤其能夠生成模糊規(guī)則以支持其推理過(guò)程,因此可以潛在性地降低用藥錯(cuò)誤,減少?gòu)拇髷?shù)據(jù)中獲取信息造成的時(shí)間損耗。2009年Amonkar等[8]采用RF來(lái)進(jìn)行建模,用于區(qū)分研究對(duì)象患卵巢癌的可能,模型初步測(cè)試結(jié)果為敏感度91.3%,特異性88.5%。但因?yàn)闇y(cè)試集來(lái)源一致,研究?jī)H針對(duì)上皮性卵巢癌患者,故該模型初步評(píng)估的結(jié)果可能過(guò)于樂(lè)觀。
將機(jī)器學(xué)習(xí)應(yīng)用于卵巢癌臨床診斷的這兩項(xiàng)研究時(shí)間較早,在訓(xùn)練過(guò)程中體現(xiàn)出算法的優(yōu)越性能,但是由于研究對(duì)象數(shù)量少且較單一,不具有代表性,故無(wú)法進(jìn)一步應(yīng)用于臨床,未來(lái)需要更多的試驗(yàn)驗(yàn)證。
目前,關(guān)于機(jī)器學(xué)習(xí)在區(qū)分OC組織學(xué)亞型分類(lèi)中的研究有3篇,均在2016年以后。2016年BenTaieb等[9]運(yùn)用SVM對(duì)組織進(jìn)行分類(lèi),分類(lèi)精度達(dá)到95.0%。研究結(jié)果提示分類(lèi)器對(duì)OC亞型的自動(dòng)分析可能為臨床醫(yī)生的診斷提供有價(jià)值的意見(jiàn)。同年,Park等[10]基于DNA微陣列技術(shù),首次針對(duì)卵巢癌細(xì)胞構(gòu)建多分類(lèi)診斷模型,對(duì)3種SVM方法和3種非SVM方法進(jìn)行測(cè)試,結(jié)果顯示該模型對(duì)OC的分類(lèi)診斷可能幫助醫(yī)生減少因初次減瘤手術(shù)不成功導(dǎo)致的二次手術(shù),減少了對(duì)冰凍切片診斷的依賴,還提高了漿液性交界性卵巢腫瘤整體診斷的準(zhǔn)確性,但由于可使用標(biāo)本量少、基因芯片與PCR分析相對(duì)表達(dá)量有差異、所有納入病例均未進(jìn)行冰凍切片分析等局限性,無(wú)法證實(shí)該模型可以在臨床實(shí)踐中使用。2019年Klein等[11]應(yīng)用5種機(jī)器算法共同完成了對(duì)上皮性卵巢癌(epithelial ovarian cancer,EOC)組織的亞型區(qū)分,研究結(jié)果初步表明基質(zhì)輔助激光解析/電離(matrix-assisted laser desorption/ionization,MALDI)成像數(shù)據(jù)結(jié)合機(jī)器學(xué)習(xí)可以作為EOC亞型組織學(xué)評(píng)估的一個(gè)補(bǔ)充診斷工具,但該研究使用的是單一的腫瘤組織微陣列,未來(lái)的研究需要在更大的隊(duì)列基礎(chǔ)上調(diào)查哪些技術(shù)變量可能對(duì)分類(lèi)穩(wěn)健性產(chǎn)生影響。
OC組織分型的本質(zhì)是對(duì)已確診的OC進(jìn)行多類(lèi)別分類(lèi),已有的三項(xiàng)研究主要采用了善于分類(lèi)的SVM、NN及其衍生算法,各項(xiàng)研究結(jié)果均表現(xiàn)出良好的分類(lèi)性能,但是對(duì)模型分類(lèi)的穩(wěn)健性、廣泛性和準(zhǔn)確性仍存在質(zhì)疑,未來(lái)需要在大數(shù)據(jù)研究中進(jìn)行驗(yàn)證。
當(dāng)前,機(jī)器學(xué)習(xí)在OC復(fù)發(fā)預(yù)測(cè)中的研究有6篇,集中于2018年和2019年。機(jī)器學(xué)習(xí)在OC預(yù)后方面的相關(guān)研究有3篇,分別發(fā)表于2015、2016和2018年。
在一項(xiàng)前瞻性研究中,Zhang等[12]利用35例EOC患者細(xì)胞減滅手術(shù)前后的標(biāo)本進(jìn)行代謝圖譜
分析,創(chuàng)建SVM模型用于預(yù)測(cè)EOC復(fù)發(fā)。研究結(jié)果表明機(jī)器學(xué)習(xí)方法與代謝組學(xué)結(jié)合用于預(yù)測(cè)EOC復(fù)發(fā)前景良好,但需要大型隊(duì)列來(lái)驗(yàn)證該結(jié)論。Zhou等[13]建立了一個(gè)由39個(gè)基因組成的SVM分類(lèi)器預(yù)測(cè)OC的復(fù)發(fā),分類(lèi)器僅使用39個(gè)基因且預(yù)測(cè)精度高,與基因測(cè)序相比更經(jīng)濟(jì)有效,然而需要對(duì)未復(fù)發(fā)和復(fù)發(fā)的OC患者獨(dú)立隊(duì)列進(jìn)一步開(kāi)展研究,以驗(yàn)證該研究的結(jié)果。Shinagare等[14]采用SVM模型預(yù)測(cè)OC的腹部復(fù)發(fā),結(jié)果表明CA125的變化可能有助于優(yōu)化腹盆腔CT在OC患者中的應(yīng)用,但需要在更大規(guī)模的研究中證實(shí)。Cheng等[15]通過(guò)識(shí)別出的16個(gè)子網(wǎng)節(jié)點(diǎn)基因構(gòu)建了一個(gè)RF分類(lèi)器,用于預(yù)測(cè)OC的復(fù)發(fā)情況,研究結(jié)果提示這些子網(wǎng)節(jié)點(diǎn)在預(yù)測(cè)OC預(yù)后中具有重要意義。但考慮到RF分類(lèi)器的預(yù)測(cè)精度受樣本量差異、平臺(tái)差異和數(shù)據(jù)異質(zhì)性的影響,模型的預(yù)測(cè)能力受到患者數(shù)量少和分析方法限制,且研究只進(jìn)行了生物信息學(xué)分析,沒(méi)有直接的實(shí)驗(yàn)驗(yàn)證,因此需要進(jìn)一步的分析來(lái)驗(yàn)證結(jié)果。Dong等[16]篩選出最優(yōu)miRNA集合(包含19個(gè)miRNA)構(gòu)建SVM分類(lèi)器,結(jié)果顯示基于19個(gè)miRNA的SVM分類(lèi)器可以準(zhǔn)確地判斷OC樣本的復(fù)發(fā)類(lèi)型,但由于可利用的重復(fù)信息樣本量很小且缺乏驗(yàn)證實(shí)驗(yàn),SVM分類(lèi)器的準(zhǔn)確性在OC患者中的臨床應(yīng)用價(jià)值有待進(jìn)一步檢驗(yàn)。Wang等[17]提取高級(jí)別漿液性卵巢癌(high-grade serous ovarian cancer,HGSOC)的預(yù)后生物標(biāo)志物作為DL特征,然后結(jié)合DL特征和Cox比例風(fēng)險(xiǎn)(Cox proportional hazards,CPH)回歸建立DL-CPH模型來(lái)預(yù)測(cè)患者的復(fù)發(fā)風(fēng)險(xiǎn)和3年復(fù)發(fā)概率,研究結(jié)果表明DL可以從CT影像中提取與HGSOC復(fù)發(fā)相關(guān)的新的預(yù)后生物標(biāo)志物且預(yù)后價(jià)值高于臨床特征,未來(lái)可以進(jìn)一步結(jié)合患者的遺傳圖譜從基因水平解釋DL特征,同時(shí)需要進(jìn)一步探索DL-CPH模型與CPH模型的更優(yōu)結(jié)合。
基于病理切片、血清學(xué)結(jié)果、miRNA、CT影像等信息的OC復(fù)發(fā)預(yù)測(cè)結(jié)果較理想,尤其是SVM和DL模型表現(xiàn)良好,但各項(xiàng)研究仍存在局限性,未來(lái)可以考慮從研究對(duì)象數(shù)量、預(yù)測(cè)信息種類(lèi)、算法模型等方面進(jìn)行改進(jìn)和探索。
2015年Enshaei等[18]構(gòu)建了一個(gè)人工智能(artificial intelligence,AI)模型,并與Logistic回歸等傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行比較。結(jié)果顯示AI模型與傳統(tǒng)統(tǒng)計(jì)模型相比預(yù)測(cè)存活率的準(zhǔn)確度更高,更重要的是在未來(lái)隨著數(shù)據(jù)集數(shù)量和相關(guān)性的提高,AI模型的性能會(huì)大大提升。Sun等[19]開(kāi)發(fā)了一個(gè)SVM化療耐藥分類(lèi)器來(lái)預(yù)測(cè)HGSOC患者的化療反應(yīng),結(jié)果表明SVM分類(lèi)器能更好地預(yù)測(cè)患者的化療反應(yīng)、無(wú)進(jìn)展生存(progression-free survival,PFS)和總生存(overall survival,OS)情況。但沒(méi)有在全基因組中分析,可能會(huì)存在某些相關(guān)分子生物標(biāo)志物無(wú)法納入模型,因此需要利用更多的前瞻性多中心樣本來(lái)驗(yàn)證分類(lèi)器預(yù)測(cè)結(jié)果,未來(lái)有可能幫助針對(duì)潛在的化療耐藥患者做出更好的臨床決策來(lái)改善預(yù)后。2018年Bogani等[20]利用ANN評(píng)估不同因素對(duì)二次細(xì)胞減滅術(shù)的影響,最主要的影響因素有無(wú)病間隔、僅腹膜后復(fù)發(fā)、初次手術(shù)后殘余病變和FIGO分期,影響總生存率的最重要因素是無(wú)病間隔。然而該研究采用的是單中心回顧性研究設(shè)計(jì),故研究結(jié)果不能運(yùn)用到整體卵巢癌患者中。
此外有研究顯示機(jī)器學(xué)習(xí)被運(yùn)用于卵巢癌預(yù)后影響因素的篩選,2016年Wang等[21]運(yùn)用馬爾可夫聚類(lèi)和主成分分析識(shí)別出與卵巢癌預(yù)后有關(guān)的14個(gè)基因網(wǎng)絡(luò)模塊。2019年Lu等[22]利用機(jī)器學(xué)習(xí),從4類(lèi)放射性描述特征中推導(dǎo)出原發(fā)性卵巢腫瘤預(yù)后相關(guān)的非侵入性匯總統(tǒng)計(jì)量。
研究人員在構(gòu)建OC預(yù)后模型時(shí),不僅需要對(duì)患者生存情況進(jìn)行預(yù)測(cè)和評(píng)估,更重要的是能夠篩選出可能影響OC預(yù)后的因素,進(jìn)一步幫助醫(yī)生采取更好的臨床決策,提升潛在化療耐藥患者的預(yù)后情況。在現(xiàn)有的研究基礎(chǔ)上,未來(lái)需要結(jié)合多方面信息進(jìn)行多中心研究,以期早日將模型應(yīng)用于臨床造福患者。
各類(lèi)機(jī)器學(xué)習(xí)模型在OC診斷及預(yù)后研究中的表現(xiàn)明顯優(yōu)于傳統(tǒng)統(tǒng)計(jì)模型,但同樣存在許多局限性。第一,納入樣本量小,樣本來(lái)源單一,限制了異質(zhì)性人群的適用性;第二,OC分型較多,每種亞型的發(fā)病機(jī)制、分子變化、臨床行為、化療敏感度和預(yù)后均不同,針對(duì)某種單一亞型建立的模型預(yù)測(cè)能力受到限制,難以推廣;第三,回顧性研究設(shè)計(jì)存在信息偏倚;第四,無(wú)法對(duì)未發(fā)表的影響因素進(jìn)行分析;第五,不同機(jī)器學(xué)習(xí)模型均存在優(yōu)缺點(diǎn),僅利用單一模型存在無(wú)法規(guī)避的算法缺陷。
總的來(lái)說(shuō),機(jī)器學(xué)習(xí)在OC臨床診斷和預(yù)后方面的研究均表現(xiàn)出較強(qiáng)的預(yù)測(cè)能力,其前景良好,為臨床治療提供新的思路,但目前無(wú)法推廣至臨床,仍面臨數(shù)據(jù)的可及性、模型魯棒性和泛化性、結(jié)果的可解釋性等挑戰(zhàn)[23],未來(lái)需要大規(guī)模的前瞻性研究對(duì)各類(lèi)模型的結(jié)果進(jìn)行測(cè)試和驗(yàn)證。