羅純龍,趙屹
1.中國科學(xué)院計算技術(shù)研究所泛在計算系統(tǒng)研究中心,北京 100080;2.中國科學(xué)院大學(xué),北京 100049
染色體是遺傳物質(zhì)的載體,是細(xì)胞核中最重要的組成部分。因此,研究染色體成為科研人員在細(xì)胞水平上認(rèn)識遺傳規(guī)律的橋梁。染色體核型分析技術(shù)恰好是一種基于視覺特征的研究染色體的細(xì)胞遺傳學(xué)分析技術(shù),并廣泛應(yīng)用于各個領(lǐng)域。林娟等人(2020)研究發(fā)現(xiàn)染色體核型分析有益于為慢性粒細(xì)胞白血病(chronic myelogenous leukemia,CML)的診斷、病情發(fā)展和預(yù)后提供重要信息。鄭國兵等人(2020)通過分析180 例產(chǎn)婦產(chǎn)前診斷情況,認(rèn)為染色體核型分析是一種有效的產(chǎn)前診斷方法,能夠有效降低新生兒出生缺陷發(fā)生風(fēng)險。此外,竇笑菊(2012)展望了染色體核型分析對植物學(xué)研究的推動和促進(jìn)。
健康人群分裂中期細(xì)胞中一般包含22 對常染色體和1 對性染色體,共計46 條染色體。核型分析技術(shù)將采集的細(xì)胞經(jīng)培養(yǎng)、制片和染色后,通過高倍光學(xué)顯微鏡獲取細(xì)胞分裂中期圖像,如圖1(a)所示。然后,各種基于數(shù)字圖像處理的計算機(jī)輔助分析系統(tǒng)(如CytoVision、Ikaros 和ASI HiBand)(Xiao等,2020)輔助細(xì)胞遺傳學(xué)家人工完成染色體計數(shù)、分離粘連和重疊的染色體等。最終根據(jù)染色體形態(tài)結(jié)構(gòu)特征將所有染色體按照人類細(xì)胞遺傳學(xué)國際命名體制(international system for human cytogenetic nomenclature,ISCN)進(jìn)行排列,形成核型圖像,如圖1(b)所示。
圖1 中期圖像以及核型圖像Fig.1 Metaphase image and karyotype image((a)metaphase image;(b)karyotype image)
隨著人們不斷拓展染色體核型分析應(yīng)用領(lǐng)域,特別是在產(chǎn)前診斷中的廣泛應(yīng)用,核型分析需求日益上漲。但是,傳統(tǒng)染色體核型分析過程冗長乏味且耗時。以染色體計數(shù)任務(wù)為例,一位經(jīng)驗(yàn)豐富的細(xì)胞遺傳學(xué)家按規(guī)范計數(shù)一位病人的所有染色體約需15 min(Xiao 等,2020)。這給高質(zhì)量、高效率的染色體核型分析帶來挑戰(zhàn)。一種可行的解決方案是采用染色體核型自動化分析,在關(guān)鍵且耗時的分析步驟中以自動化方法代替人工分析,細(xì)胞遺傳學(xué)家僅需校驗(yàn)自動化分析結(jié)果,出具診斷報告。染色體核型自動化分析不僅可以極大地提高核型分析效率,減輕人員負(fù)擔(dān),同時還能保持核型分析結(jié)果的一致性,避免人為因素導(dǎo)致的性能波動,便于核型分析技術(shù)進(jìn)一步推廣。
染色體核型自動化分析方法早期主要利用傳統(tǒng)數(shù)字圖像處理方法和機(jī)器學(xué)習(xí)方法(Abid 和Hamami,2018;Lin 等,2020b),例如基于數(shù)字圖像處理的染色體計數(shù)方法、基于染色體中軸特征的多層感知機(jī)分類模型以及一些基于閾值和幾何特征的染色體分割方法等。但是,一方面染色體非剛性結(jié)構(gòu)特點(diǎn)導(dǎo)致其極易彎曲變形和粘連重疊;另一方面實(shí)驗(yàn)環(huán)境操作手法等不可控因素導(dǎo)致染色體成像質(zhì)量、形態(tài)結(jié)構(gòu)和條帶水平等方面差異較大。這使得人工提取的形態(tài)特征和基于閾值和規(guī)則的方法泛化能力較弱,性能較差,難以應(yīng)對復(fù)雜多變的臨床場景,輔助作用有限。此外,其他任務(wù)如異常生成等問題傳統(tǒng)方法難以解決。深度學(xué)習(xí)技術(shù)憑借其數(shù)據(jù)驅(qū)動特點(diǎn)和強(qiáng)大的學(xué)習(xí)能力在計算機(jī)視覺特別是醫(yī)學(xué)影像處理領(lǐng)域得到快速發(fā)展。由于該技術(shù)可以從大規(guī)模形態(tài)結(jié)構(gòu)各異的染色體數(shù)據(jù)中自動學(xué)習(xí)與任務(wù)相關(guān)的特征而無需人工干預(yù),基于深度學(xué)習(xí)的染色體核型自動分析方法表現(xiàn)出明顯優(yōu)于傳統(tǒng)方法的性能和泛化能力,已成為研究熱點(diǎn)。但是,盡管基于深度學(xué)習(xí)的染色體核型自動化分析方法研究已經(jīng)取得了一定成果,相關(guān)綜述性工作依然存在不足:
1)國內(nèi)一些與染色體核型分析相關(guān)的綜述性工作存在缺陷。陳少潔等人(2021)僅討論了基于深度學(xué)習(xí)的染色體分割研究工作。邱俊瑋和孫頻捷(2021)則僅選擇了少數(shù)熱點(diǎn)方向的工作進(jìn)行論述,缺乏對基于深度學(xué)習(xí)的染色體核型自動分析工作的全面討論。
2)染色體核型分析任務(wù)與臨床緊密結(jié)合,因此方法會受到任務(wù)目標(biāo)、數(shù)據(jù)量和數(shù)據(jù)標(biāo)注等多方因素限制,復(fù)雜多變類型眾多,需要梳理研究方法類型,理清研究脈絡(luò)。
3)深度學(xué)習(xí)模型在自然圖像領(lǐng)域的飛速發(fā)展導(dǎo)致當(dāng)前研究工作多集中于染色體分割和分類任務(wù),其余分析任務(wù)尚未引起廣泛關(guān)注,需要以綜述的形式詳細(xì)介紹其他染色體核型分析任務(wù)和可行的解決方案。
本文系統(tǒng)性地梳理了近10 年基于深度學(xué)習(xí)的染色體核型自動化分析關(guān)鍵任務(wù)問題范式、算法研究現(xiàn)狀、尚需解決的難點(diǎn)挑戰(zhàn),最終提出了后續(xù)發(fā)展方向。主要包括:1)闡述了經(jīng)典目標(biāo)檢測方法及提出的基于框檢測的染色體計數(shù)方法;2)從語義分割范式和實(shí)例分割范式兩個方面出發(fā)描述了染色體分割方法;3)強(qiáng)調(diào)了染色體簇分類的必要性,綜述了基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的染色體簇分類方法并強(qiáng)調(diào)了統(tǒng)一簇類別標(biāo)準(zhǔn)的重要性;4)從染色體預(yù)處理任務(wù)出發(fā),分別歸納了細(xì)胞分裂中期圖像降噪和染色體矯直兩種預(yù)處理任務(wù)的可行解決方案;5)歸納整理了基于簡單 CNN 結(jié)構(gòu)、經(jīng)典 CNN 結(jié)構(gòu)、特征對比、圖像預(yù)處理、全局和局部特征融合和復(fù)雜策略的 6 種染色體分類方法;6)針對染色體異常梳理了與異常發(fā)現(xiàn)和異常生成任務(wù)相關(guān)的深度學(xué)習(xí)方法;7)收集整理了公開可獲取的染色體核型分析相關(guān)數(shù)據(jù)集;8)簡單總結(jié)了6 種染色體核型分析任務(wù)的算法研究成果,還討論了當(dāng)前的研究熱點(diǎn)以及亟待解決的問題,提出了染色體核型自動化分析領(lǐng)域未來可能的發(fā)展方向,為讀者提供參考和幫助。
染色體異常中有一類是染色體數(shù)目異常。如李靜等人(2020)所報告的21-三體綜合征就是一種因存在3條21號染色體而造成生長發(fā)育遲緩的染色體數(shù)目異常。所以,染色體計數(shù)往往是人染色體核型分析的第一步。盡管可以通過完整的核型分析達(dá)到染色體計數(shù)目的,但為了避免誤差累積和過度消耗計算資源,仍然需要獨(dú)立的自動化染色體計數(shù)方法。已有的基于深度學(xué)習(xí)的染色體計數(shù)方法主要將其轉(zhuǎn)化為目標(biāo)檢測任務(wù),需要從細(xì)胞分裂中期圖像中預(yù)測全部染色體,如圖2所示。
圖2 基于框檢測的染色體計數(shù)方法預(yù)測結(jié)果Fig.2 Prediction results of chromosome counting algorithm based on bounding boxes detection
Xiao等人(2019)首先發(fā)現(xiàn)了染色體計數(shù)任務(wù)存在的兩個難點(diǎn):1)自相似性問題(self-similarity problem),即染色體的一部分或頭尾相接的兩條染色體被識別為一條染色體;2)嚴(yán)重重疊的染色體簇會對基于交并比(intersection over union,IoU)度量的后處理目標(biāo)檢測模型產(chǎn)生干擾。
為了解決以上兩個問題,基于Faster R-CNN(faster region-based convolutional network)(Ren 等,2017)框架(如圖3 所示),Xiao 等人(2019)提出了DeepACE 模型。該模型首先優(yōu)化了第1 階段正負(fù)錨框(anchor)采樣方法。根據(jù)存在自相似性問題的假陽性目標(biāo)對應(yīng)的錨框分布規(guī)律將負(fù)例錨框(negative anchors)細(xì)分為難負(fù)例錨框(hard negative anchors)和簡單負(fù)例錨框(easy negative anchors)。隨后通過分層采樣維持樣本平衡,即難負(fù)例錨框采樣(hard negative anchors sampling,HNAS)方法。對于嚴(yán)重重疊導(dǎo)致的問題,DeepACE 模型總結(jié)染色體幾何分布規(guī)律設(shè)計了5種模板掩碼(template mask),并結(jié)合弱監(jiān)督模板模塊(weakly-supervised template module)和基于距離的損失函數(shù)為每個候選提議(candidate proposal)提取了模板特征(template feature)。這些模板特征將與交并比度量一起在新的特征引導(dǎo)的非極大值抑制(feature-guided non-maximum suppression,F(xiàn)eature-guided NMS)后處理方法中發(fā)揮作用,盡可能保留不同模板特征代表的染色體實(shí)例,避免假陰性結(jié)果。
圖3 Faster R-CNN模型結(jié)構(gòu)(Ren等,2017)Fig.3 The architecture of Faster R-CNN(Ren et al.,2017)
但是,DeepACE 方法并沒有考慮到嚴(yán)重遮擋和重疊對染色體定位造成的影響,因此提出了升級版DeepACEv2(Xiao 等,2020)。除優(yōu)化特征提取網(wǎng)絡(luò)為ResNet(residual network)(He 等,2016;Lin 等,2017),DeepACEv2 還簡化了模板模塊(template module),并設(shè)計了嵌入引導(dǎo)的非極大值抑制(embedding-guided NMS)方法替代原有后處理過程。最后,相比Wang等人(2018)提出的排斥損失(repulsion loss),DeepACEv2 為了避免懲罰重疊染色體的固有區(qū)域,提出了對不精確定位更加敏感的截斷歸一化排斥損失函數(shù)(truncated normalized repulsion loss,TNRL)來緩解嚴(yán)重的類內(nèi)重疊導(dǎo)致的定位精度下降問題。為了進(jìn)一步提高模型的推理速度,Kang等人(2022)將輕量級網(wǎng)絡(luò)MobileNetv3(Howard 等,2019)作為Faster R-CNN 框架的特征提取網(wǎng)絡(luò),以實(shí)現(xiàn)推理加速。
綜上所述,現(xiàn)有方法均將染色體計數(shù)轉(zhuǎn)化為目標(biāo)檢測任務(wù)。計數(shù)任務(wù)往往缺乏染色體類別信息,導(dǎo)致模型對染色體長度和條帶模式不敏感,容易造成自相似性問題;另一方面,重疊的染色體對預(yù)測軸對稱邊界框造成干擾。此外,兩階段目標(biāo)檢測模型的推理加速也是研究人員重點(diǎn)關(guān)注的方向?,F(xiàn)有方法一方面從檢測網(wǎng)絡(luò)出發(fā),在錨框采樣方法、檢測頭結(jié)構(gòu)、后處理過程和邊界框回歸損失函數(shù)等方面針對染色體形態(tài)結(jié)構(gòu)特征進(jìn)行優(yōu)化,取得了較好的效果;另一方面則從特征提取網(wǎng)絡(luò)出發(fā),通過替換輕量級骨干網(wǎng)絡(luò)實(shí)現(xiàn)模型推理加速。但是,非剛性的染色體導(dǎo)致人工設(shè)計的模板尚不能完全包含所有可能的染色體形態(tài)。嚴(yán)重重疊染色體之間的干擾即使通過唯一標(biāo)識的特征予以緩解,但不可避免的低檢測分?jǐn)?shù)仍無法滿足臨床高置信度檢測要求。下一階段,研究人員一方面可以嘗試引入旋轉(zhuǎn)矩形框標(biāo)注,通過預(yù)測旋轉(zhuǎn)邊界框,規(guī)避軸對稱矩形框中存在的干擾問題,但需要重點(diǎn)關(guān)注染色體多向性導(dǎo)致的角度預(yù)測挑戰(zhàn);另一方面,基于關(guān)鍵點(diǎn)的染色體計數(shù)方法也有較大的潛力。通過預(yù)測具有重要語義信息的關(guān)鍵點(diǎn)如著絲粒和兩側(cè)端點(diǎn)等,也可以實(shí)現(xiàn)染色體計數(shù)目的。染色體計數(shù)方法的簡要總結(jié)如表1所示。
表1 染色體計數(shù)方法簡要總結(jié)Tabel 1 A brief summary of the chromosome counting methods
染色體異常中另一類是染色體結(jié)構(gòu)異常,從細(xì)胞分裂中期圖像中分割出完整獨(dú)立的染色體實(shí)例是核型分析中重要的一步。但是,因?yàn)榉莿傂匀旧w容易彎曲變形,細(xì)胞分裂中期圖像中經(jīng)常出現(xiàn)染色體粘連或重疊的現(xiàn)象,這成為染色體分割任務(wù)面臨的重大挑戰(zhàn)。為了完成染色體分割任務(wù),已有的基于深度學(xué)習(xí)的方法根據(jù)可以簡單劃分為基于實(shí)例分割和基于語義分割的染色體分割方法,如圖4 所示。前者需要精確識別每條染色體實(shí)例,所以基于Mask R-CNN(He 等,2017)的模型被該類方法廣泛采用。后者僅需識別同類像素,所以研究人員提出了許多基于U-Net(Ronneberger 等,2015)及其變種的染色體分割方法。
圖4 基于實(shí)例分割和語義分割的染色體分割Fig.4 Illustration of chromosome segmentation based on instance segmentation and semantic segmentation((a)chromosome segmentaiton based on instance segmentation;(b)chromosome segmentation based on semantic segmentation)
Hu 等人(2017)提出了基于U-Net(Ronneberger等,2015)的染色體分割模型。該方法將染色體重疊區(qū)域單獨(dú)作為一個類別,形成了背景、染色體1 非重疊區(qū)域、染色體2非重疊區(qū)域和染色體重疊區(qū)域4類分割任務(wù)。該方法考慮到染色體圖像大小和染色體數(shù)目與形態(tài)都較為單一,因此減少了模型深度,避免網(wǎng)絡(luò)過擬合,提高染色體分割性能。最后將模型預(yù)測的非重疊區(qū)域和重疊區(qū)域組合形成完整染色體。該方法首次嘗試引入深度學(xué)習(xí)解決染色體分割問題,相對非深度學(xué)習(xí)方法適用范圍更廣。Saleh 等人(2019)同樣提出了基于U-Net 的染色體分割模型解決兩兩重疊染色體的分割問題。受到訓(xùn)練數(shù)據(jù)規(guī)模限制,模型改進(jìn)了U-Net 架構(gòu),相比原始架構(gòu)減少了層數(shù)和通道數(shù)以避免模型過擬合。此外,還引入測試時增強(qiáng)策略(test time augmentation,TTA)(Wang等,2019)來對重疊染色體圖像進(jìn)行數(shù)據(jù)增強(qiáng),擴(kuò)大訓(xùn)練數(shù)據(jù)多樣性,進(jìn)一步緩解過擬合問題,提高模型性能。但是,不同類別的染色體大小迥異,導(dǎo)致固定的感受野無法適配染色體大小,而直接裁剪或縮放存在信息丟失的風(fēng)險。所以,Wang 等人(2021b)提出了一種基于U-Net 架構(gòu)的自適應(yīng)感受野多尺度網(wǎng)絡(luò)(adaptive receptive field multi-scale network,ARMS Net)。ARMS Net 應(yīng)用殘差路徑(residual path)模塊取代了原始U-Net 框架中的跳躍連接,充分利用編碼器模塊中丟失的空間信息來補(bǔ)償編碼器和解碼器之間的語義差距。ARMS Net 還提出了自適應(yīng)多空洞卷積(adaptive multi atrous convolution,AMAC)和自適應(yīng)相同步長池化(adaptive same stride pooling,ASSP)組成自適應(yīng)多尺度特征提取器,實(shí)現(xiàn)自適應(yīng)提取融合多尺度特征。對于像素級分類任務(wù)中存在的不平衡問題,ARMS Net對正負(fù)樣本的倍數(shù)進(jìn)行平滑處理當(dāng)作損失權(quán)重。Mei 等人(2022)則從另一角度思考,提出了對抗性多尺度特征學(xué)習(xí)(adversarial multiscale feature learning,AMFL)框架來提高重疊染色體分割的準(zhǔn)確性和適應(yīng)性。AMFL 將重疊染色體圖像分割轉(zhuǎn)化為圖像到圖像的翻譯(image-to-image translation)任務(wù),通過條件生成對抗網(wǎng)絡(luò)(conditional generative adversarial network,cGAN)(Isola 等,2017)來懲罰生成的類別決策圖和源圖像之間的差異,推動生成器為分割任務(wù)生成更高置信度的決策結(jié)果。AMFL 選擇UNet++(Zhou 等,2020)網(wǎng)絡(luò)作為cGAN 的生成器,通過結(jié)構(gòu)中不同深度的密集跳躍連接完成多尺度特征融合,滿足不同尺度目標(biāo)分割需要。最后,AMFL 將Lovasz-softmax(Berman 等,2018)作為分割損失實(shí)現(xiàn)更高分割性能。Song 等人(2022a)則提出了一種稱為Compact Seg-UNet 的新型卷積神經(jīng)網(wǎng)絡(luò)。模型以SegNet(Badrinarayanan等,2017)為主體框架,不僅移除數(shù)個卷積層以減少過擬合風(fēng)險,還融入了U-Net 的跳躍連接以期彌補(bǔ)下采樣丟失的信息。編碼器中的最大池化層會保留池化索引(pooling indices),幫助解碼器中的上采樣算子更好地恢復(fù)特征圖尺寸。
但是,以上方法僅能解決兩條染色體重疊的問題,當(dāng)面對3 條或更多染色體重疊時需要新的方法。面對這一挑戰(zhàn),Cao 等人(2020)提出了兩階段ChromSeg(chromosome segmentation)模型。模型的第1 階段將UNet++框架擴(kuò)展為雙分支輸出框架,利用淺層和相鄰的空間特征將背景與染色體實(shí)例分離開來,同時聚合多層次語義特征來預(yù)測交叉重疊區(qū)域。在兩個分支中,ChromSeg 模型應(yīng)用混合權(quán)重焦點(diǎn)損失(mixed-weight focal loss,MWF)來平衡正負(fù)樣本訓(xùn)練。模型第2 階段應(yīng)用交叉分區(qū)算法(crossingpartition algorithm)從候選交叉重疊區(qū)域中提取染色體實(shí)例。該算法以重疊區(qū)域?yàn)橹行模ㄟ^延長到非重疊區(qū)域中心的射線尋找到對應(yīng)的另一塊非重疊區(qū)域,得到完整的染色體實(shí)例。但是,ChromSeg 方法除了交叉重疊區(qū)域預(yù)測錯誤和非重疊區(qū)域配對錯誤外,最大的不足是僅能解決有限場景的區(qū)域匹配,無法解決多個重疊區(qū)域緊密聚集導(dǎo)致的匹配錯誤。為了彌補(bǔ)這一缺陷,Liu 等人(2022b)嘗試應(yīng)用啟發(fā)式算法從數(shù)學(xué)和幾何的角度來改進(jìn)匹配過程。該研究提出了兩點(diǎn)假設(shè),一是重疊區(qū)域?qū)?yīng)的非重疊區(qū)域數(shù)量最多為4 個;二是正確匹配的非重疊區(qū)域的中心坐標(biāo)連線的交點(diǎn)與重疊區(qū)域的中心坐標(biāo)的歐氏距離更近。基于以上兩點(diǎn)假設(shè),在UNet++分割出重疊區(qū)域與非重疊區(qū)域后,該研究使用Removeredundant 算法通過比較歐氏距離過濾掉不屬于當(dāng)前重疊區(qū)域的非重疊區(qū)域,最終得到匹配正確的染色體實(shí)例。
遺憾的是,以上方法均需要將完整的染色體分區(qū)域預(yù)測,致使拼接時可能因?yàn)榉指罹鹊膯栴}出現(xiàn)空洞等瑕疵。Bai 等人(2020)希望過濾掉細(xì)胞核等雜質(zhì)后,專注于預(yù)測完整的染色體。所以,該研究提出了一種基于YOLOv3(you only look once v3)(Redmon 和Farhadi,2018)和U-Net 優(yōu)化組合的染色體分割方法。首先利用U-Net 去除細(xì)胞分裂中期圖像中的細(xì)胞核等雜質(zhì),然后應(yīng)用YOLOv3 模型完成染色體檢測并沿邊界框裁剪得到染色體切片。由于切片中可能存在重疊或粘連的染色體片段,所以再次應(yīng)用U-Net 模型分割切片,得到無需拼接的染色體實(shí)例。
相較于基于語義分割的染色體分割方法,基于實(shí)例分割的染色體分割方法對于輸入數(shù)據(jù)的限制更小。林成創(chuàng)等人(2020)認(rèn)為臨床任務(wù)中遇到的復(fù)雜染色體簇存在多條染色體同時粘連和重疊的現(xiàn)象,因此基于路徑增強(qiáng)網(wǎng)絡(luò)(path aggregation network,PANet)(Liu 等,2018)模型,提出了數(shù)量統(tǒng)計分割路徑增強(qiáng)網(wǎng)絡(luò)(amount segmentation PANet,AS-PANet)模型完成重疊染色體簇實(shí)例分割。AS-PANet 除繼承原有預(yù)測分支外,還接入了染色體簇實(shí)例數(shù)目預(yù)測分支,將其作為額外的監(jiān)督信號提高分割性能。但是,由于訓(xùn)練數(shù)據(jù)量較少,分割性能仍有提升空間。Huang 等人(2022)針對這一問題,設(shè)計了一個染色體實(shí)例標(biāo)注數(shù)據(jù)集增強(qiáng)算法(chromosome instance labeled dataset augmentation,CILA)來提升模型的泛化性能。因?yàn)槿旧w是非剛性目標(biāo),染色體簇的形態(tài)和方向具有多樣性,所以CILA 通過隨機(jī)翻轉(zhuǎn)和隨機(jī)平移旋轉(zhuǎn)擴(kuò)增成多個角度的樣本供Mask R-CNN(He 等,2017)模型訓(xùn)練,緩解小數(shù)據(jù)集中方向偏好造成的泛化誤差。
但是,為了盡可能實(shí)現(xiàn)染色體自動化分割,需要設(shè)計將細(xì)胞分裂中期圖像作為原始輸入的方法。Huang 等人(2021)認(rèn)為盡管染色體豐富的形變使得基于幾何的方法難以大規(guī)模應(yīng)用,但深度學(xué)習(xí)所需要的大規(guī)模高質(zhì)量數(shù)據(jù)集也會提高成本,因此提出了一種新的結(jié)合幾何特征和Mask R-CNN 的染色體分割方法。該方法首先應(yīng)用基于幾何連通性的等值輪廓查找算法(iso-valued contour finding algorithm)將細(xì)胞分裂中期圖像劃分為僅包含染色體實(shí)例和染色體簇的切片(splices),然后提取染色體切片的11個幾何特征,利用邏輯回歸算法找到所有的染色體簇切片,最后利用Mask R-CNN模型分割染色體簇得到染色體實(shí)例。所以,這一方法僅需標(biāo)注染色體簇,大幅降低數(shù)據(jù)標(biāo)注要求和成本。Pijackova等人(2022)選擇應(yīng)用U-Net 模型去除細(xì)胞分裂中期圖像中的細(xì)胞核和雜質(zhì),完成圖像降噪。然后應(yīng)用Otsu 閾值算法和骨架方法提取候選目標(biāo)的中軸之后,即可通過計算端點(diǎn)數(shù)目確定候選目標(biāo)是染色體實(shí)例還是染色體簇。對于染色體簇,Pijackova 等人(2022)進(jìn)一步利用Mask R-CNN 完成染色體簇分割,并借助TTA技術(shù)減少模型預(yù)測的假陰性和假陽性結(jié)果。然而,同樣是幾何特征結(jié)合Mask R-CNN 的染色體分割方法,Chang 等人(2021)則先行通過Mask R-CNN 模型分割出染色體實(shí)例和染色體簇,對于后者,再通過凸包法和最小包圍矩形(minimum bounding rectangle,MBR)來判斷真假染色體簇,最后通過交叉點(diǎn)完成染色體簇分割。但是實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),首尾相連的染色體簇仍會對這一方法造成挑戰(zhàn)。
以上方法結(jié)合幾何特征和深度學(xué)習(xí),雖然實(shí)現(xiàn)了從細(xì)胞分裂中期圖像分割染色體實(shí)例的目的,但是多階段非端到端的方式流程復(fù)雜,容易積累誤差。因此,馮濤等人(2020)嘗試將染色體方向信息融入模型中,設(shè)計了基于Mask R-CNN 的端到端染色體實(shí)例分割方法Mask Oriented R-CNN。方法在原有的3 個分支的基礎(chǔ)上新增了預(yù)測有向邊界框(oriented bounding box,OBB)的分支,以更緊密的邊界框完成染色體精確定位。針對有向邊界框,提出了新的角度加權(quán)交并比(angle-weighted intersectionover-union,AwIoU)度量來代替IoU 度量。在掩碼分支中,還實(shí)現(xiàn)了有向卷積通路(oriented convolutional path,OCP)結(jié)構(gòu),使得不同朝向的染色體實(shí)例可以在不同的卷積路徑上進(jìn)行訓(xùn)練,減少了染色體之間粘連重疊對掩碼預(yù)測的干擾。除了方向信息,Wang等人(2021c)還嘗試加入染色體端點(diǎn)信息作為監(jiān)督信號,提出了增強(qiáng)旋轉(zhuǎn)Mask R-CNN(enhanced rotated Mask R-CNN)模型,利用多種監(jiān)督信息來提高模型性能。該論文認(rèn)為,狹長的染色體可以通過兩側(cè)端點(diǎn)完成大致定位,因此該模型在引入旋轉(zhuǎn)邊界框檢測分支的基礎(chǔ)上,還引入了一個端點(diǎn)檢測分支,通過端點(diǎn)檢測任務(wù)為染色體定位提供更豐富的信息。Liu等人(2022a)觀察到實(shí)例分割模型一般分類置信度較高但分割性能較差,提出了基于回歸修正(regression correction)的染色體實(shí)例分割網(wǎng)絡(luò)。該方法在不額外增加分支的情況下,利用邊界框回歸損失得到與定位精度強(qiáng)相關(guān)的回歸置信度,同時還預(yù)測與分割精度相關(guān)的分割掩碼交并比,兩者進(jìn)一步修正分類置信度。其次,該研究還提出了更符合染色體空間分布規(guī)律的基于實(shí)例掩碼交并比的NMS 算法代替基于邊界框交并比的NMS 算法。最后,基于回歸修正的染色體實(shí)例分割網(wǎng)絡(luò)還設(shè)計了K-交并比損失(K-IoU loss)函數(shù),通過分割面積賦予不同權(quán)重,提高模型對錯誤分割的敏感性。
綜上所述,粘連重疊的染色體始終是染色體分割任務(wù)首先需要解決的難題。與自然圖像分割任務(wù)不同的是,染色體分割任務(wù)需要將重疊區(qū)域同時分配給所有關(guān)聯(lián)染色體。所以,現(xiàn)有染色體分割工作均重點(diǎn)關(guān)注重疊區(qū)域或降低染色體重疊對分割模型性能的影響。已有工作可以簡單分為基于語義分割的染色體分割模型和基于實(shí)例分割的染色體分割模型。
基于語義分割的方法一般需要先將圖像像素分為背景、染色體重疊區(qū)域和染色體非重疊區(qū)域,然后將不同區(qū)域組裝成完整染色體。但是這類方法面臨如下主要難點(diǎn):1)需要精確區(qū)分染色體重疊區(qū)域和非重疊區(qū)域;2)需要解決不同尺度染色體對語義分割模型的影響;3)需要正確配對染色體重疊區(qū)域和非重疊區(qū)域,重點(diǎn)是多條染色體重疊情況。針對這些難點(diǎn)問題,研究人員優(yōu)化了U-Net 模型結(jié)構(gòu)、提出了多尺度特征融合框架和模塊、設(shè)計并優(yōu)化了基于幾何的匹配算法。但是,因?yàn)閿?shù)據(jù)標(biāo)注和算法特點(diǎn),需要將完整染色體分區(qū)域預(yù)測拼接,容易造成空洞等瑕疵。
基于實(shí)例分割的方法會直接識別每條染色體所在區(qū)域并完成像素分類,但是這類方法面臨的主要問題是染色體多邊形標(biāo)注數(shù)據(jù)不足。相當(dāng)一部分研究工作將目標(biāo)直接指向重疊染色體分割或提前通過幾何方法從中期圖像中分離出重疊染色體減少數(shù)據(jù)標(biāo)注需求,再通過設(shè)計新的數(shù)據(jù)擴(kuò)增方法、增加額外監(jiān)督信號等方法優(yōu)化基于實(shí)例分割的方法。但這種多階段方法容易累積誤差,所以另一部分研究人員直接在細(xì)胞分裂中期圖像中完成端到端的染色體分割,并對經(jīng)典的Mask R-CNN模型結(jié)構(gòu)做出了大量優(yōu)化,設(shè)計了基于方向信息的方法、端點(diǎn)信息監(jiān)督的方法和回歸修正方法等,提出了一批新的預(yù)測分支、交并比度量方法和損失函數(shù)。但是,缺乏類型豐富的高質(zhì)量分割標(biāo)注數(shù)據(jù)仍是制約性能進(jìn)一步提升的重要因素。
接下來,為分割模型替換性能更加強(qiáng)勁的骨干網(wǎng)絡(luò)、基于領(lǐng)域知識引入更多輔助監(jiān)督信號、通過傳統(tǒng)幾何方法降低問題求解難度,甚至利用自監(jiān)督學(xué)習(xí)范式降低對于高質(zhì)量分割標(biāo)注數(shù)據(jù)的需求都是染色體分割領(lǐng)域可以進(jìn)一步深入的研究方向。染色體分割方法的簡要總結(jié)如表2所示。
表2 染色體分割方法簡要總結(jié)Tabel 2 A brief summary of the chromosome segmentation methods
正如第2 節(jié)所討論的,相當(dāng)一部分染色體分割算法應(yīng)用范圍有限,僅能完成特定類型的染色體簇分割任務(wù)。所以,判斷染色體簇類型并選擇合適的分割算法是自動化染色體核型分析重要環(huán)節(jié)。當(dāng)前,針對染色體簇分類的研究工作較少,對于簇的類別定義也存在差異。
一種染色體簇標(biāo)注規(guī)則是依據(jù)染色體簇中重疊的染色體數(shù)目賦予不同標(biāo)簽。例如Somasundaram(2019)將染色體簇類別劃分為touching、one overlapping、two overlapping 和multiple overlapping 共4 種類別,然后提出了一個基于卷積神經(jīng)網(wǎng)絡(luò)的兩階段分類方法。第1 階段由新設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)完成染色體簇分類;第2 階段更進(jìn)一步通過形態(tài)學(xué)操作識別切割線來得到染色體實(shí)例,并訓(xùn)練了結(jié)構(gòu)與第1階段相同的分類網(wǎng)絡(luò)完成正?!惓H旧w分類任務(wù)。
但是,這一染色體簇標(biāo)記規(guī)則忽略了復(fù)雜染色體簇中可能混合了粘連染色體和重疊染色體。因此,Lin 等人(2021)將染色體簇類別劃分為instance、touching、overlapping 和touching-overlapping 共4 種類別。模型在ResNeXt 模型(Xie 等,2017)基礎(chǔ)上設(shè)計了9 層的神經(jīng)網(wǎng)絡(luò)代替原有的輸出層。新的輸出層在接收到骨干網(wǎng)絡(luò)輸出的特征圖后,首先由平均池化層和最大池化層組成的混合池化層提取全局特征和局部特征。這些特征經(jīng)過平滑層(flatten layer)變形后輸入到由若干線性層(linear layer)、修正線性單元(rectified linear unit,ReLU)、批歸一化(batch normalization,BN)層和dropout 層組成的神經(jīng)網(wǎng)絡(luò)得到預(yù)測結(jié)果,以此來提高模型泛化能力。此外,該研究不僅將弱監(jiān)督學(xué)習(xí)(weakly-supervised learning,WSL)預(yù)訓(xùn)練權(quán)重(Mahajan等,2018)作為初始權(quán)重,還通過整合One cycle leanring(Smith,2018)和Discriminative learning rate(You 等,2017)兩種訓(xùn)練策略實(shí)現(xiàn)模型參數(shù)微調(diào),在較短的時間內(nèi)使模型收斂至較高水平。
綜上所述,染色體簇分類是完成自動化核型分析的關(guān)鍵步驟,但染色體簇分類任務(wù)還處于早期階段,尚未引起大規(guī)模關(guān)注。當(dāng)前染色體簇分類任務(wù)面臨的主要問題是沒有統(tǒng)一的染色體簇類別定義和大規(guī)模高質(zhì)量的數(shù)據(jù)集,這些因素制約了染色體簇分類任務(wù)的高速發(fā)展?,F(xiàn)有方法主要從分類模型結(jié)構(gòu)出發(fā),無論是設(shè)計輕量級專有模型還是引入超大規(guī)模自然圖像數(shù)據(jù)集預(yù)訓(xùn)練權(quán)重都是為了在小規(guī)模染色體簇數(shù)據(jù)集上盡可能提高模型性能。但是,輕量級模型可能無法應(yīng)對臨床中復(fù)雜染色體簇樣本,而自然圖像與染色體圖像之間也存在領(lǐng)域差異。所以,接下來可以從數(shù)據(jù)出發(fā),除了大量收集并標(biāo)注高質(zhì)量染色體簇數(shù)據(jù),還可以設(shè)計新的圖像合成方法,包括圖像線性插值法、基于生成式對抗網(wǎng)絡(luò)方法和基于擴(kuò)散模型方法等。在模型結(jié)構(gòu)優(yōu)化方面,由于辨別染色體簇類別的關(guān)鍵是粘連和重疊區(qū)域,所以模型顯式提取關(guān)鍵區(qū)域特征進(jìn)行細(xì)粒度分類或基于注意力機(jī)制自適應(yīng)提取類別關(guān)鍵特征都是可以進(jìn)一步研究的方案。染色體簇分類方法的簡要總結(jié)如表3所示。
表3 染色體簇分類方法簡要總結(jié)Tabel 3 A brief summary of the chromosome cluster classification methods
染色體核型分析圖像中不可避免地存在諸如細(xì)胞組織和污染雜質(zhì)等噪聲,這些噪聲可能對小尺寸染色體產(chǎn)生干擾,因此針對細(xì)胞分裂中期圖像的基于語義分割的降噪方法進(jìn)入研究人員的視野。其次,染色體由于其非剛性特點(diǎn),容易彎曲變形,對核型分析和后續(xù)疾病診斷造成障礙,所以一部分研究人員也設(shè)計了基于生成式對抗網(wǎng)絡(luò)和基于運(yùn)動補(bǔ)償方法的染色體矯直方法。
Altinsoy 等人(2019)計劃將所有G 顯帶染色體所在區(qū)域作為同一類別區(qū)域分割來實(shí)現(xiàn)細(xì)胞分裂中期圖像降噪,提出了一種基于U-Net 的語義分割網(wǎng)絡(luò)。但是受限于數(shù)據(jù)規(guī)模,該方法不僅減少了通道數(shù)量,還添加dropout 層進(jìn)一步加強(qiáng)模型泛化性能。然而,這種端到端深度學(xué)習(xí)模型是單通道輸出,對于預(yù)測結(jié)果中錯誤保留的非染色體區(qū)域無法進(jìn)行修正。所以,Altinsoy 等人(2022)提出了一個由分割網(wǎng)絡(luò)和分類網(wǎng)絡(luò)組成的級聯(lián)神經(jīng)網(wǎng)絡(luò)架構(gòu)來完成降噪任務(wù)。該方法第1 步提出了新的分割網(wǎng)絡(luò),它融合了U-Net 模型“編碼器—解碼器”對稱架構(gòu)、加法前ReLU(ReLU before addition)殘差單元和預(yù)激活(preactivation)殘差單元,提高了模型正則化能力且更易于訓(xùn)練優(yōu)化。新的分割網(wǎng)絡(luò)細(xì)分為3 種語義類別輸出,分別是背景預(yù)測掩碼、染色體區(qū)域預(yù)測掩碼和非染色體區(qū)域預(yù)測掩碼。在第2 步中,該方法會對染色體和非染色體預(yù)測圖進(jìn)行二值化和形態(tài)學(xué)開運(yùn)算,得到染色體或非染色體目標(biāo)。這些目標(biāo)的對象面積(object area)、凸面積(convex area)、染色體預(yù)測圖上的平均像素值(average pixel value on chromosome prediciton map)和非染色體預(yù)測圖上的平均像素值(average pixel value on non-chromosome prediction map)4 種特征將被輸入到由全連接層組成的分類網(wǎng)絡(luò)中,去除非染色體目標(biāo)。
使用幾何方法矯直染色體時會存在輸出邊緣參差不齊或條帶不連續(xù)的情況,這不利于后續(xù)分析。所以,Song 等人(2021)嘗試應(yīng)用圖像—圖像翻譯的新框架,輸入染色體的拉直骨架來生成具有無間斷條帶和更多細(xì)節(jié)的矯直染色體,并利用學(xué)習(xí)感知圖像塊相似度(learned perceptual image patch similarity,LPIPS)來度量差異。具體來說,該研究基于pix2pix 模型(Isola 等,2017)為每個彎曲的染色體都訓(xùn)練了一個單獨(dú)的“圖像—圖像”翻譯模型。該方法首先為每條染色體提取棍狀骨架(stick backbone),并對每條染色體和其棍狀骨架進(jìn)行數(shù)據(jù)擴(kuò)增形成一個數(shù)據(jù)集。模型將U-Net模型作為pix2pix 框架的生成器,預(yù)測的染色體將與骨架配對作為“假”樣本,而真實(shí)染色體與骨架配對則作為“真”樣本。對抗訓(xùn)練將使得生成器U-Net 網(wǎng)絡(luò)獲得棍狀骨架與染色體實(shí)例之間的映射關(guān)系,預(yù)測得到更真實(shí)的染色體。但是這一方法需要為每個染色體實(shí)例訓(xùn)練一個圖像翻譯模型,計算量大且所需時間較長。Song 等人(2022b)提出了ViT-Patch GAN(vision transformerbased patch GAN)方法,一種基于cGAN(Mirza 和Osindero,2014)的框架將染色體矯直任務(wù)轉(zhuǎn)化為運(yùn)動變換任務(wù)(motion transformation task)。該方法將基于主成分分析的運(yùn)動估計模型(pca-based motion estimation model,PMEM)(Siarohin 等,2021)作 為cGAN 的生成器。但是受限于矯直染色體數(shù)據(jù)集規(guī)模較小,PMEM 模型會生成不準(zhǔn)確的矯直結(jié)果。與此同時,源圖像和生成圖像存在較大差異,傳統(tǒng)判別器所用的卷積算子的遠(yuǎn)距離建模能力較弱,因此提出了ViT-Patch(Dosovitskiy 等,2021)判別器,通過對抗訓(xùn)練,輸出的特征既包含染色體局部語義內(nèi)容也含有整個染色體的之間的聯(lián)系。最后,為了防止測試階段的結(jié)果失真,ViT-Patch GAN 應(yīng)用了SLmatching(size learned perceptual image patch similarity matching)(Zhang 等,2018a)方案來從數(shù)據(jù)集中選擇相似大小和形狀的圖像。
綜上所述,染色體預(yù)處理方面主要由細(xì)胞分裂中期圖像降噪和染色體矯直兩個任務(wù)組成。對于降噪任務(wù),面臨的主要難點(diǎn)是如何正確識別細(xì)胞組織和雜質(zhì)。已有的方法會將染色體區(qū)域作為整體,通過語義分割模型進(jìn)行分離,或更進(jìn)一步通過額外的分類模型去除錯誤的非染色體區(qū)域,在降低像素?fù)p失的同時減少噪聲。但是標(biāo)注數(shù)據(jù)集規(guī)模小,復(fù)雜多變的細(xì)胞組織和雜質(zhì)及其與染色體的相似性仍是后續(xù)染色體降噪方法需要重點(diǎn)關(guān)注的問題。大量來自臨床分析中間結(jié)果的人工降噪圖像是天然的標(biāo)簽。一方面可以借助生成式對抗模型,將語義分割模型作為生成器,通過判別器識別分割降噪圖像和人工降噪圖像;另一方面可以將細(xì)胞組織和雜質(zhì)作為特殊的數(shù)據(jù)變換,利用自監(jiān)督學(xué)習(xí)范式使得語義分割模型的編碼器部分對此類數(shù)據(jù)變換脫敏,從而達(dá)到降噪效果。
染色體矯直任務(wù)所面臨的挑戰(zhàn)在于如何形成邊緣平滑、條帶連續(xù)的拉直的染色體。已有的方法突破了常規(guī)的通過彎曲點(diǎn)剪切拼接的方法,提出了基于生成式對抗網(wǎng)絡(luò)和基于運(yùn)動補(bǔ)償?shù)娜旧w矯直方法,對于后者還引入了ViT模型增強(qiáng)遠(yuǎn)距離建模能力。但是這些方法在面對臨床應(yīng)用時,還無法證明合成染色體是否滿足臨床需求。所以未來需要同細(xì)胞遺傳學(xué)家合作,通過人工分析診斷原始染色體和矯直染色體來驗(yàn)證合成矯直方法是否會對疾病診斷產(chǎn)生干擾。染色體預(yù)處理方法的簡要總結(jié)如表4所示。
表4 染色體預(yù)處理方法簡要總結(jié)Tabel 4 A brief summary of the chromosome preprocessing methods
為了出具臨床報告,細(xì)胞遺傳學(xué)家需要參照ISCN 識別每條染色體并根據(jù)模板出具核型圖和診斷結(jié)果,所以確定染色體類別是核型分析過程中極為重要的一環(huán)。然而,Lejeune 等人(1960)研究發(fā)現(xiàn)某些染色體之間視覺特征更相似,不同類染色體差異較??;另一方面,由于染色制片時的環(huán)境制劑等不同,條帶水平(分辨率)也不同,同類染色體差異較大。這些問題對染色體分類任務(wù)造成挑戰(zhàn)。
由于染色體分類數(shù)據(jù)集一般較小,一些研究工作嘗試簡化染色體分類網(wǎng)絡(luò)結(jié)構(gòu)。Sharma 等人(2017)首次提出了基于深度學(xué)習(xí)的染色體實(shí)例分類方法,嘗試以眾包(crowdsourcing)的形式從細(xì)胞分裂中期圖像中分割并矯直染色體實(shí)例。如圖5(a)所示,這些經(jīng)過預(yù)處理的圖像將由新設(shè)計的簡單卷積神經(jīng)網(wǎng)絡(luò)分類。該網(wǎng)絡(luò)由4 個包含卷積核、ReLU、dropout層和最大池化層的卷積模塊以及兩個全連接層和一個24 維的歸一化指數(shù)函數(shù)(softmax)層組成。Zhang 等人(2018b)將卷積模塊數(shù)目降低至2 個但增加了卷積層通道數(shù)來擴(kuò)充模型的表達(dá)能力。如圖5(b)所示,模型將第1 個卷積核大小設(shè)置為5 × 5,用來快速降低特征圖分辨率,幫助減少參數(shù)并加速收斂。Hu 等人(2019)提出了一個由3 個卷積模塊組成的CNN 網(wǎng)絡(luò),不同之處在于每個模塊中的第2 個卷積核的大小均為5 × 5。如圖5(c)所示,該方法同樣在實(shí)驗(yàn)中發(fā)現(xiàn)Y 染色體數(shù)據(jù)不平衡導(dǎo)致的性能下降問題。Menaka 和Vaidyanathan(2022)提出了Chromenet 來完成染色體分類任務(wù)。如圖5(d)所示,該網(wǎng)絡(luò)統(tǒng)一應(yīng)用3 × 3 卷積核,并在每個卷積核后首次引入批次歸一化層。此外,Chromenet 模型僅將dropout 層插入最后的全連接層中,緩解密集連接導(dǎo)致的過擬合問題。Chromenet結(jié)構(gòu)簡單參數(shù)量少,但難以進(jìn)一步提高染色體分類模型性能和泛化能力。
圖5 基于簡單CNN結(jié)構(gòu)的分類網(wǎng)絡(luò)架構(gòu)Fig.5 Structure of classification network based on simple CNN((a)Sharma et al.(2017);(b)Zhang et al.(2018);(c)Hu et al.(2019);(d)Chromenet)
Lin 等人(2020a)提出基于聚合殘差架構(gòu)(aggregated residual architecture)的染色體分類網(wǎng)絡(luò)MixNet。該模型選擇將ResNeXt 作為骨干網(wǎng)絡(luò)并將自適應(yīng)網(wǎng)絡(luò)頭(adaptive network header)作為分類器。為了加速收斂,MixNet 選擇先訓(xùn)練自適應(yīng)網(wǎng)絡(luò)頭,再對模型整體微調(diào)。Wang 等人(2021a)認(rèn)為如果染色體數(shù)據(jù)來源單一將會弱化模型泛化性能,所以提出了LseNet 網(wǎng)絡(luò)評估模型在混合數(shù)據(jù)集上性能。LseNet 網(wǎng)絡(luò)集ResNet(He 等,2016)和SENet(squeeze-and-excitation networks)(Hu 等,2018)于一身,在ResNet50 網(wǎng)絡(luò)中間數(shù)層中加入了Lse 模塊(leaky squeeze-and-excitation block)。而為了進(jìn)一步增強(qiáng)模型判別能力,除交叉熵?fù)p失外,模型還應(yīng)用了中心損失(center loss)來聚攏類內(nèi)特征。Sharma 等人(2018)則提出了殘差卷積循環(huán)注意力神經(jīng)網(wǎng)絡(luò)(residual convolutional recurrent attention neural network,Res-CRANN)來完成染色體分類任務(wù)。模型首先利用ResNet50 提取染色體實(shí)例特征,隨后將高為G、寬為H、通道數(shù)為K的特征圖沿著通道維度連接形成數(shù)量為G、特征維度為H×K的特征序列。然后,Res-CRANN 利用長短期記憶網(wǎng)絡(luò)(long-short term memory network,LSTM)建模染色體條帶之間的長距離依賴關(guān)系。但是,由于序列長度較長,Res-CRANN 還采用了注意力機(jī)制使得分類模型更關(guān)注特征序列中與類別相關(guān)的感興趣區(qū)域,預(yù)測結(jié)果也更加準(zhǔn)確。
Swati 等人(2017)選擇首先矯直彎曲的染色體,但不同的是該研究采用了基于中軸提取及眾包的矯直(straightening via medial axis extraction and crowdsourcing,SMAC)和基于投影向量的矯直(straightening via projection vectors,SPV)兩種方法。接著,設(shè)計了孿生網(wǎng)絡(luò)(siamese network)架構(gòu),通過能量函數(shù)度量兩個分支輸入的低維特征之間的歐氏距離,使得同類樣本在特征空間中的低維映射足夠接近,不同類別樣本距離更遠(yuǎn)。最后,這些樣本的低維映射向量將由一個兩層前饋神經(jīng)網(wǎng)絡(luò)確定具體類別。Wang 等人(2020)受到基于孿生網(wǎng)絡(luò)的染色體分類方法的啟發(fā),提出了基于特征距離度量的染色體分類模型。該研究首先在ResNet50 的骨干網(wǎng)絡(luò)后擴(kuò)展了一個由全連接層、ReLU 和dropout 層組成的擴(kuò)展塊(extened block),并在訓(xùn)練中采用交叉熵?fù)p失函數(shù)和中心損失函數(shù),增強(qiáng)模型判別能力。其次,該方法還將驗(yàn)證集中數(shù)據(jù)特征匯總形成24 類對應(yīng)的標(biāo)簽特征向量(label feature vector,LFV),然后應(yīng)用基于豪斯多夫距離的標(biāo)簽再分配策略(label redistribution strategy,LRd),通過兩輪計算縮小標(biāo)簽空間,預(yù)測最終結(jié)果。但是該方法中LFV 來自驗(yàn)證集,性能受制于驗(yàn)證集質(zhì)量。除了孿生網(wǎng)絡(luò)的方式,Gajjar等人(2022)還嘗試通過三元組損失(triplet loss),利用較少的數(shù)據(jù)訓(xùn)練相似性模型。該研究提出了兩種方案,分別是離線三元組損失(offline triplet loss)和在線三元組損失(online triplet loss)?;跉W氏距離的三元組損失將約束網(wǎng)絡(luò)使得錨與正例盡量靠近而遠(yuǎn)離負(fù)例,而訓(xùn)練得到的高維嵌入將通過多層感知機(jī)或K最近鄰分類算法完成染色體分類。
Swati 等人(2018)認(rèn)為缺乏高分辨率染色體實(shí)例圖像是制約染色體分類性能的關(guān)鍵問題,因此提出了Super-Xception 模型,通過卷積超分辨率層將低分辨率圖像轉(zhuǎn)換為高分辨率圖像,然后由Xception(Chollet,2017)分類網(wǎng)絡(luò)判斷染色體類別。其中,卷積超分辨率層由3 個卷積—修正線性單元層組成,該模塊將雙三次插值到一定大小的低分辨率圖像作為輸入,然后學(xué)習(xí)低分辨率圖像到高分辨率與低分辨率圖像差值的映射。卷積超分辨率層的輸出加上插值后的低分辨率圖像形成了超分辨率圖像,最后由Xception 分類網(wǎng)絡(luò)判斷類別。Ding 等人(2019)通過閾值處理和形態(tài)學(xué)操作的方法得到間距分散的染色體,在識別染色體輪廓后完成染色體分割。但是考慮到成像質(zhì)量不穩(wěn)定,該研究還加入了基于染色體核型圖像頻率特征的對比度增強(qiáng)方法,通過維納濾波器(wiener filter)和低通濾波器(low pass filter)等方法放大高頻分量,增強(qiáng)染色體條帶特征并抑制噪聲。最后,該研究應(yīng)用Faster R-CNN 模型在染色體實(shí)例圖像上完成檢測和分類任務(wù)。Liu 等人(2022c)同樣發(fā)現(xiàn)低分辨率圖像會使染色體更加難以區(qū)分,所以提出了SRAS-Net用于低分辨率染色體分類。該方法首先通過自注意力負(fù)反饋網(wǎng)絡(luò)(selfattention negative feedback network,SRAFBN)對圖像映射空間進(jìn)行約束并選擇圖像中的關(guān)鍵信息進(jìn)行重建,得到高分辨率染色體圖像。然后提出的圖像自適應(yīng)模塊(image adaptive module)將統(tǒng)一低分辨率和高分辨率圖像以滿足下游網(wǎng)絡(luò)遷移學(xué)習(xí)要求。最后SRAS-Net使用 SMOTE(synthetic minority oversampling technique)(Chawla 等,2002)算法通過與最近鄰樣本插值的方式合成新樣本,緩解了分類網(wǎng)絡(luò)訓(xùn)練時面臨的性染色體數(shù)據(jù)不平衡問題。Lin 等人(2022)認(rèn)為染色體實(shí)例圖像來源復(fù)雜大小不一,且大規(guī)模標(biāo)注存在難度,所以提出了染色體數(shù)據(jù)擴(kuò)增法(chromosome data augmentation,CDA)和圖像自適應(yīng)接口(image adaptive interface,IAI)幫助基 于Inception-ResNet(Szegedy 等,2016)的CIR-Net(chromosome based on inception-ResNet)模型完成染色體分類任務(wù)?;诜律渥儞Q的CDA 方法通過旋轉(zhuǎn)矩陣和平移向量實(shí)現(xiàn)染色體的隨機(jī)旋轉(zhuǎn)和平移變換。IAI 模塊則是一個2 維卷積層,將根據(jù)不同尺寸的染色體實(shí)例圖像選擇不同的方法使其統(tǒng)一,再利用Inception-ResNet完成分類。
已有方法均從染色體實(shí)例全局特征出發(fā),極少有顯式學(xué)習(xí)局部特征的方法,所以Qin 等人(2019)提出了由全局尺度網(wǎng)絡(luò)(global-scale network,G-Net)和局部尺度網(wǎng)絡(luò)(local-scale network,L-Net)組成的Varifocal-Net。其中G-Net負(fù)責(zé)提取染色體粗粒度全局特征并采用varifocal 機(jī)制精確的找到重點(diǎn)區(qū)域,然后用L-Net 提取重點(diǎn)區(qū)域作為細(xì)粒度局部特征。最后Varifocal-Net 融合兩種特征再輸入多層感知機(jī)來預(yù)測染色體的類別和極性,最后采用調(diào)度策略根據(jù)領(lǐng)域知識調(diào)整預(yù)測結(jié)果。這一方法利用局部細(xì)節(jié)特征彌補(bǔ)了粗粒度全局特征的缺點(diǎn),對局部細(xì)節(jié)不同的同類染色體更魯棒,泛化能力更強(qiáng)。但是因?yàn)閅染色體數(shù)據(jù)不平衡,對其辨別能力較差。Wei等人(2022)同樣注意到綜合考慮全局信息和局部信息的重要性,提出了三階段的輸入感知和概率預(yù)測卷積神經(jīng)網(wǎng)絡(luò)(input-aware and probabilistic prediction convolutional neural network,IAPP-CNN)。輸入感知模塊(input-aware module)通過注意力機(jī)制,將原始圖像擴(kuò)展為全局尺度圖像(global image)、物體尺度圖像(object image)和部分尺度圖像(part image)。3 個獨(dú)立的CNN 特征提取器將提取3 個尺度圖像的特征,然后通過概率預(yù)測模塊(probabilistic prediction)分別預(yù)測它們的類別概率分布。這些結(jié)果可以作為各個分支的置信度再通過加權(quán)的方式輸出最終預(yù)測結(jié)果。
Xiao 和Luo(2021)認(rèn)為現(xiàn)有染色體分類需要高質(zhì)量的人工分割染色體實(shí)例數(shù)據(jù)集,因此選擇從細(xì)胞分裂中期圖像中直接預(yù)測染色體類別,提出了基于Faster R-CNN 的染色體檢測方法DeepACC,將類別預(yù)測分支改造為孿生網(wǎng)絡(luò)結(jié)構(gòu),其中間隔分支(margin branch)引入了加性角度間隔損失(additive angular margin loss),在擴(kuò)大類間距離的同時縮小類內(nèi)距離。而推斷分支(inference branch)則與間隔分支共享大部分參數(shù),同時啟發(fā)式地選擇間隔分支中預(yù)測置信度最高的樣本特征作為推斷分支的最后一層分類器權(quán)重,進(jìn)一步縮小了類內(nèi)距離。此外還設(shè)計了組內(nèi)鄰接損失(group inner-adjacency loss)函數(shù),重點(diǎn)懲罰組內(nèi)誤分類現(xiàn)象,進(jìn)一步擴(kuò)大類間距離。然而DeepACC 模型無法得到染色體實(shí)例,所以需要進(jìn)一步處理。Zhang 等人(2021)提出了一種交錯和多任務(wù)網(wǎng)絡(luò)(interleaved and multi-task network)方法來完成染色體分類和染色體矯直任務(wù)。第1 階段提出了基于HRNet(Sun等,2019)的信息交錯網(wǎng)絡(luò)來提取多分辨率的特征;在第2 階段分辨率最高的特征圖被用來定位染色體起始點(diǎn)、終止點(diǎn)和彎曲點(diǎn)。余下的特征圖融合后則分別用來預(yù)測染色體類別和極性。而預(yù)測的染色體彎曲點(diǎn)將被用來實(shí)現(xiàn)染色體矯直。但是因?yàn)榻Y(jié)構(gòu)復(fù)雜的染色體數(shù)量較少,導(dǎo)致該方法對于結(jié)構(gòu)復(fù)雜染色體的關(guān)鍵點(diǎn)定位能力下降。Al-Kharraz 等人(2021)則想通過集成學(xué)習(xí)的方式來提高染色體分類能力。該研究通過微調(diào)多個預(yù)先訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型來完成染色體分類任務(wù),并在集成學(xué)習(xí)框架中利用平均投票對結(jié)果進(jìn)行組合。
綜上所述,染色體分類任務(wù)在染色體自動化核型相關(guān)領(lǐng)域中得到了最廣泛的關(guān)注。研究人員重點(diǎn)需要解決兩個方面的問題:1)染色體圖像存在的固有缺陷,包括低分辨率下不同類別染色體相似性以及數(shù)據(jù)集中性染色體不平衡問題;2)由于實(shí)驗(yàn)手法、條帶水平等因素導(dǎo)致的同一類別染色體之間視覺特征差異較大。
基于簡單CNN 結(jié)構(gòu)的分類方法為染色體分類任務(wù)定制了專門的輕量級分類網(wǎng)絡(luò),并不斷引入深度學(xué)習(xí)領(lǐng)域最新研究結(jié)論來提高性能。但基于經(jīng)典CNN 結(jié)構(gòu)的方法也備受關(guān)注,研究人員通過分析染色體數(shù)據(jù)特點(diǎn)優(yōu)化創(chuàng)新經(jīng)典分類模型?;谔卣鲗Ρ鹊姆诸惙椒▌t一般通過孿生網(wǎng)絡(luò)或三元網(wǎng)絡(luò)架構(gòu)提取特征,然后利用度量學(xué)習(xí)得到判別能力較強(qiáng)的特征分布,最后再通過簡單分類器和分類方法完成分類。基于圖像預(yù)處理的分類方法則會嘗試在輸入分類模型前生成高分辨率圖像、增強(qiáng)染色體條帶特征、擴(kuò)增染色體數(shù)據(jù)和統(tǒng)一染色體尺寸來提高分類性能。但是僅提取全局特征可能無法發(fā)現(xiàn)不同類別染色體之間的細(xì)微差異,所以基于全局和局部特征融合的方法會利用獨(dú)立的分支分別提取染色體的全局特征和局部特征,再融合預(yù)測染色體類別。最后,研究人員還考慮從細(xì)胞分裂中期圖像中直接完成染色體分類,或通過多分辨率特征圖在完成染色體分類的基礎(chǔ)上同時實(shí)現(xiàn)染色體極性預(yù)測和矯直,再或通過集成學(xué)習(xí)的方式提升分類性能,這些方法可以統(tǒng)稱為基于復(fù)雜策略的分類方法。
展望未來,基于Transformer 的圖像分類模型因其長距離建模能力而備受關(guān)注,染色體的條帶模式天然具備序列形式,所以基于Transformer 的分類網(wǎng)絡(luò)在染色體分類領(lǐng)域也大有可為,但是大規(guī)模高質(zhì)量染色體分類數(shù)據(jù)集是此類方法成功的前提。與此同時,細(xì)胞遺傳學(xué)家對于染色體形態(tài)結(jié)構(gòu)特別是條帶模式進(jìn)行了長時間的研究,積累了寶貴的領(lǐng)域知識如染色體的標(biāo)準(zhǔn)模板等,所以未來也可以充分利用標(biāo)準(zhǔn)模板通過對比學(xué)習(xí)或度量學(xué)習(xí)的方式來減少數(shù)據(jù)量需求,提高分類性能。染色體分類方法的簡要總結(jié)如表5所示。
表5 染色體分類方法簡要總結(jié)Tabel 5 A brief summary of the chromosome classification methods
染色體數(shù)目異??梢酝ㄟ^染色體計數(shù)方法精準(zhǔn)發(fā)現(xiàn),但是染色體結(jié)構(gòu)異常種類繁多,仍需要經(jīng)驗(yàn)豐富的細(xì)胞遺傳學(xué)家認(rèn)真識別。已有的與染色體異常相關(guān)的任務(wù)主要包括異常發(fā)現(xiàn)和異常生成,接下來將分開討論。
Yan 等人(2019)將目光對準(zhǔn)了與慢性粒細(xì)胞白血病(CML)相關(guān)的染色體平衡易位異常t(9;22)。該異常因僅與第9 號和第22 號染色體相關(guān),所以收集了與之相關(guān)的正常和異常數(shù)據(jù)并訓(xùn)練ResNet網(wǎng)絡(luò)加以識別,實(shí)現(xiàn)了檢測染色體特定異常的功能。Li等人(2020)嘗試發(fā)現(xiàn)染色體結(jié)構(gòu)異常中的像素級差異,因此提出了基于異常檢測和染色體分類的有監(jiān)督多任務(wù)學(xué)習(xí)模型CS-GANomaly(classificationenhanced GANomaly)。該方法基于cGAN架構(gòu),將異常檢測網(wǎng)絡(luò)作為判別器,而染色體分類網(wǎng)絡(luò)將與判
別器共享底層參數(shù),綜合兩個預(yù)測結(jié)果即可完成染色體異常檢測任務(wù)。其中,染色體分類網(wǎng)絡(luò)除了常規(guī)的24 類外,還將預(yù)測異常類,其中包括了所有異常染色體。如此,通過多任務(wù)訓(xùn)練就可以將異常檢測任務(wù)轉(zhuǎn)變?yōu)楸O(jiān)督學(xué)習(xí)過程。通過聯(lián)合訓(xùn)練,不僅學(xué)習(xí)了各類染色體正常樣本的特征,還學(xué)習(xí)得到每個類別的正常樣本和異常樣本在高維特征空間的分布,使得模型對異常更敏感。
盡管可以從臨床收集染色體異常數(shù)據(jù),但是由于遺傳性疾病較為罕見,很難構(gòu)建較大的染色體結(jié)構(gòu)異常數(shù)據(jù)集,所以有相關(guān)工作探索通過生成對抗網(wǎng)絡(luò)合成染色體結(jié)構(gòu)異常數(shù)據(jù)集。Uzolas 等人(2022)運(yùn)用二維染色體條帶分割掩碼對pix2pix 圖像翻譯網(wǎng)絡(luò)進(jìn)行調(diào)整,使得模型能夠按照用戶定義的條帶模式合成真實(shí)染色體和具有結(jié)構(gòu)類型異常的染色體。該方法首先在染色體密度曲線上應(yīng)用非線性濾波器(non-linear filter)得到染色體的條帶模式和條帶分割掩碼,將其作為pix2pix 模型的源域,然后進(jìn)行圖像翻譯即可得到外觀真實(shí)的染色體。為了模仿異常的染色體,該研究基于Perlin 噪聲隨機(jī)生成Perlin 條帶和異常的條帶分割掩碼,再通過正常樣本訓(xùn)練好的生成器就可以合成異常染色體。
綜上所述,目前研究人員主要研究染色體異常發(fā)現(xiàn)和染色體異常生成。兩類問題面臨的共同難點(diǎn)是復(fù)雜多變的異常情況,缺失、倒位以及染色體之間的羅氏易位和平衡易位等均會產(chǎn)生異常染色體。針對這一問題,研究人員一方面通過縮小異常情況范圍,收集專門數(shù)據(jù)并通過經(jīng)典模型分類;另一方面,通過生成式對抗網(wǎng)絡(luò)機(jī)制,共享異常檢測網(wǎng)絡(luò)和染色體分類網(wǎng)絡(luò),從而使得模型也能以監(jiān)督學(xué)習(xí)的方法找到正常和異常染色體特征的分布規(guī)律。而為了彌補(bǔ)異常染色體數(shù)據(jù)的不足,研究人員也提出通過圖像翻譯的方式,在找到真實(shí)條帶模式與真實(shí)染色體圖像映射關(guān)系后,可以通過人工異常條帶合成異常染色體。
染色體異常發(fā)生機(jī)制預(yù)示著針對染色體整體設(shè)計的網(wǎng)絡(luò)可能無法有效應(yīng)對染色體微結(jié)構(gòu)變化。而且現(xiàn)有方法無法識別異常的具體類型,出具符合規(guī)范的異常診斷結(jié)果。未來研究人員可能需要嘗試細(xì)化至條帶級(banding level)染色體微結(jié)構(gòu)特征,通過圖神經(jīng)網(wǎng)絡(luò)等具有關(guān)系推理能力的神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)染色體和染色體之間微結(jié)構(gòu)關(guān)系變化,完成異常診斷任務(wù)。染色體異常方法的簡要總結(jié)如表6所示。
表6 染色體異常方法簡要總結(jié)Tabel 6 A brief summary of the chromosome anomaly methods
高質(zhì)量標(biāo)注數(shù)據(jù)是基于深度學(xué)習(xí)的染色體核型自動分析算法的性能保障?,F(xiàn)有方法所使用的數(shù)據(jù)大多來自合作醫(yī)療機(jī)構(gòu),由于隱私限制通常無法公開獲取。但仍有少量工作使用公開數(shù)據(jù)集或選擇開放所使用的脫敏臨床數(shù)據(jù),現(xiàn)總結(jié)如下:
1)Overlapping chromosome 數(shù)據(jù)集(https:∕∕ www.kaggle.com∕datasets∕jeanpat∕overlapping-chromosomes)。如圖6 所示,該數(shù)據(jù)集屬于半合成重疊染色體數(shù)據(jù)集,用于染色體分割任務(wù)。該數(shù)據(jù)集將DAPI(4′,6-diamidino-2-phenylindole)染色的染色體圖像和Cy3(cyanine3)熒光端粒探針圖像相結(jié)合形成灰度染色體,然后兩兩重疊,生成13 434 幅大小為94 × 93 像素的重疊染色體圖像,其中像素被標(biāo)記為“背景”、“1號染色體非重疊區(qū)域”、“2 號染色體非重疊區(qū)域”和“染色體重疊區(qū)域”4個類別。
圖6 Overlapping chromosome 數(shù)據(jù)集Fig.6 Overlapping chromosome dataset
2)ChromSeg 數(shù)據(jù)集(http:∕∕www.bio8.cs.hku.hk∕bibm∕)。該數(shù)據(jù)集采集了345幅大小為256 × 256像素的交叉重疊染色體圖像,用于染色體分割任務(wù)。其中包括230 幅訓(xùn)練集圖像和115 幅測試集圖像。如圖7 所示,專家們手動標(biāo)注了“交叉重疊區(qū)域”和“染色體前景”兩個類別。
圖7 ChromSeg 數(shù)據(jù)集Fig.7 ChromSeg dataset
3)Clinical chromosome instance segmentation 數(shù)據(jù)集(https:∕∕github.com∕CloudDataLab∕ Overlapping-ChromosomeInstanceSegmentation)。該數(shù)據(jù)集是重疊和粘連染色體簇實(shí)例分割數(shù)據(jù)集。作者從廣東省婦幼保健院采集了1 655個脫敏染色體簇圖像,總計4 766 個染色體實(shí)例,由專家利用LabelMe 工具箱進(jìn)行實(shí)例分割標(biāo)注。數(shù)據(jù)集以8∶1∶1 的比例被劃分為訓(xùn)練集(1 324)、驗(yàn)證集(165)和測試集(166)。
4)Chromosome cluster types identification數(shù)據(jù)集(https:∕∕github.com∕ChengchuangLin∕Chromosome-ClusterIdentification)。該數(shù)據(jù)集從廣東省婦幼保健院收集了6 592個大小為224 × 224像素的脫敏染色體簇圖像,用于染色體簇分類任務(wù)。如圖8 所示,根據(jù)染色體實(shí)例之間的交集和連通性,人工標(biāo)注依次為“實(shí)例”、“粘連”、“重疊”和“粘連—重疊”4種類型。
圖8 Chromosome cluster types identification 數(shù)據(jù)集Fig.8 Chromosome cluster types identification dataset
5)BioImLab classification 數(shù)據(jù)集(http:∕∕bioimlab.dei.unipd.it∕Chromosome%20Data%20Set% 204Class.htm)。如圖9 所示,該數(shù)據(jù)集由專業(yè)的細(xì)胞遺傳學(xué)家從119個正常和異常細(xì)胞中人工分割得到5 474幅單條Q顯帶染色體圖像并進(jìn)行分類標(biāo)注。所有染色體均根據(jù)ISCN規(guī)則進(jìn)行旋轉(zhuǎn)使其處于極化狀態(tài)。
圖9 BioImLab classification 數(shù)據(jù)集,2號染色體Fig.9 BioImLab classification dataset,chromosome 2
6)Chromosome-images 數(shù)據(jù)集(https:∕∕github.com∕Xi-Hu∕Chromosome-Images)。該數(shù)據(jù)集屬于染色體分類數(shù)據(jù)集,利用主動輪廓模型(active contour model)從91 個核型圖中分割得到4 184 幅G 顯帶單條染色體圖像,并通過擴(kuò)展背景統(tǒng)一大小為100 ×220 像素。其中9 號和20 號染色體181 條,X 染色體152條,Y染色體30條,其余各號染色體均為182條。如圖10為3號染色體示例。
圖10 Chromosome-images數(shù)據(jù)集,3號染色體Fig.10 Chromosome-images dataset,chromosome 3
7)CIR-Net 數(shù)據(jù)集(https:∕∕github.com∕Cloud-DataLab∕CIR-Net)。該數(shù)據(jù)集從廣東省婦幼保健院收集了32 個男性和33 個女性脫敏核型圖并人工分離出總計2 990 幅G 顯帶單條染色體圖像用于評估染色體分類模型性能。其中1—22 號染色體各有130幅,X染色體總計98幅,Y染色體32幅。圖11為CIR-Net數(shù)據(jù)集4號染色體示例。
圖11 CIR-Net數(shù)據(jù)集,4號染色體Fig.11 CIR-Net dataset,chromosome 4
以上整理了7 個公開可獲取數(shù)據(jù)集,分布在染色體分割、染色體簇分類和染色體實(shí)例分類領(lǐng)域??梢园l(fā)現(xiàn),染色體相關(guān)數(shù)據(jù)集規(guī)模均不大,難以支撐復(fù)雜模型取得較好效果。其次,現(xiàn)在尚無針對其他分析任務(wù)的公開可獲取數(shù)據(jù)集。綜上所述,應(yīng)該廣泛支持和激勵研究人員大規(guī)模收集并高質(zhì)量標(biāo)注各個染色體分析任務(wù)所需數(shù)據(jù),經(jīng)過脫敏處理后使其公開可獲取,以支持染色體核型自動分析算法快速向前發(fā)展。
基于深度學(xué)習(xí)的染色體核型自動化分析方法借助其數(shù)據(jù)驅(qū)動特點(diǎn)和強(qiáng)大的學(xué)習(xí)能力在許多復(fù)雜的染色體核型分析任務(wù)上都取得了長足進(jìn)步。本文收集了大量基于深度學(xué)習(xí)的染色體核型自動分析方法,分別面向染色體計數(shù)任務(wù)、染色體分割任務(wù)、染色體簇分類任務(wù)、染色體預(yù)處理任務(wù)、染色體分類任務(wù)和染色體異常分析任務(wù)。盡管這些方法針對染色體任務(wù)和數(shù)據(jù)特點(diǎn)進(jìn)行了性能優(yōu)化,但仍存在一些不足。本文分析上述研究工作趨勢,并提出了未來發(fā)展方向。
針對染色體計數(shù)任務(wù),已有方法主要通過目標(biāo)檢測框架解決,而需要解決的問題也主要是自相似性問題和染色體粘連重疊帶來的錯誤去冗余和定位不精確等問題。另外也有研究工作思考如何加速染色體計數(shù)模型推理速度,使其更貼近臨床場景。
針對染色體分割任務(wù),已有方法大致可以分為語義分割模型和實(shí)例分割模型,但前者僅能解決兩條或多條染色體重疊形成的染色體簇的分割問題,后者雖然基本能實(shí)現(xiàn)自動化染色體分割,但仍需要標(biāo)注關(guān)鍵點(diǎn)等額外監(jiān)督信息。
針對染色體簇分類任務(wù),已有方法大致會根據(jù)不同的標(biāo)準(zhǔn)將染色體簇進(jìn)行劃分,一種是根據(jù)重疊染色體的數(shù)目進(jìn)行劃分,另一種則是根據(jù)粘連和重疊染色體的相互關(guān)系進(jìn)行劃分。但是從模型角度觀察,目前研究工作乏善可陳,仍有很大的創(chuàng)新空間。
針對染色體預(yù)處理任務(wù),已有方法主要解決細(xì)胞分裂中期圖像降噪和染色體矯直兩項(xiàng)預(yù)處理任務(wù)。其中細(xì)胞分裂中期圖像降噪任務(wù)被轉(zhuǎn)化為分割任務(wù),需要將染色體所屬區(qū)域與背景和圖像中存在的雜質(zhì)分開。而已有的染色體矯直方法均依賴于生成式對抗網(wǎng)絡(luò)通過圖像翻譯或運(yùn)動變換將彎曲染色體矯直。但是生成的染色體能否被用于后續(xù)核型分析和臨床診斷仍需更多臨床實(shí)驗(yàn)證明。
針對染色體分類任務(wù),得益于基于深度學(xué)習(xí)的圖像分類網(wǎng)絡(luò)的蓬勃發(fā)展,染色體分類相關(guān)工作也在核型分析相關(guān)任務(wù)中得到了最多的關(guān)注和發(fā)展。已有方法不管是簡單的CNN 方法還是采用復(fù)雜策略加以解決,都需要針對性地解決染色體分類任務(wù)中存在的數(shù)據(jù)量不足、低且不一致的分辨率和同類染色體形態(tài)差異較大但不同類別染色體相似程度高等問題。
針對染色體異常分析任務(wù),雖然臨床專家高度關(guān)注,但目前提出的工作僅能通過CNN 檢測特定的染色體異常,或通過生成式對抗網(wǎng)絡(luò)框架簡單判斷是否存在異常,以及通過神經(jīng)網(wǎng)絡(luò)人工合成異常染色體。其主要原因在于染色體結(jié)構(gòu)異常復(fù)雜多變,且難以大規(guī)模收集并標(biāo)注異常數(shù)據(jù)集,因此還需要持續(xù)關(guān)注和進(jìn)一步研究。
本文在總結(jié)分析每個染色體核型分析任務(wù)相關(guān)工作的基礎(chǔ)上,針對尚需繼續(xù)研究的難點(diǎn)挑戰(zhàn)給出了許多具體可行的研究方向。接下來將從染色體核型分析整體出發(fā),給出該領(lǐng)域未來發(fā)展方向。
1)目前基于深度學(xué)習(xí)的染色體核型分析工作主要集中在染色體分割和染色體分類兩個任務(wù)上,這與深度學(xué)習(xí)在自然圖像領(lǐng)域的發(fā)展趨勢一致。但是,諸如染色體計數(shù)、染色體簇分類、染色體預(yù)處理以及染色體異常分析等任務(wù)由于沒有清晰明確的問題定義,也缺乏公開可獲取的數(shù)據(jù),導(dǎo)致這些重要任務(wù)尚未被研究人員廣泛關(guān)注。所以通過本文歸納整理的相關(guān)工作和數(shù)據(jù),有希望引起更多研究人員關(guān)注。
2)本文認(rèn)為至關(guān)重要的核型診斷任務(wù)目前尚未引起關(guān)注。核型診斷任務(wù)需要從核型圖中發(fā)現(xiàn)明確的異常并給出符合規(guī)范的診斷結(jié)果。因?yàn)槿旧w結(jié)構(gòu)異常種類紛繁復(fù)雜,因此無法簡單地從染色體實(shí)例級別(instance level)的分析入手,而需要細(xì)化至染色體微結(jié)構(gòu),即條帶級別(banding level)分析。為了得到符合規(guī)范的診斷結(jié)果,還需要結(jié)合領(lǐng)域知識通過圖神經(jīng)網(wǎng)絡(luò)等具有推理能力的方法,分析染色體微結(jié)構(gòu)之間的復(fù)雜關(guān)系(如易位、倒位等)。
3)眾所周知,深度學(xué)習(xí)方法需要大規(guī)模高質(zhì)量的標(biāo)注數(shù)據(jù),但完成染色體數(shù)據(jù)標(biāo)注需要經(jīng)驗(yàn)豐富的醫(yī)學(xué)專家,限制了數(shù)據(jù)標(biāo)注規(guī)模。而現(xiàn)在廣泛應(yīng)用的大規(guī)模自然圖像數(shù)據(jù)集(如ImageNet等)與染色體也存在明顯的語義鴻溝。現(xiàn)階段染色體核型分析過程中將人工產(chǎn)生許多中間分析結(jié)果,同時還有長期積累的領(lǐng)域知識作為輔助監(jiān)督信號。所以,可以考慮采用半監(jiān)督學(xué)習(xí)(semi-supervised learning)、弱監(jiān)督學(xué)習(xí)(weakly-supervised learning)和自監(jiān)督學(xué)習(xí)(self-supervised learning)方法,在大量無標(biāo)注或弱標(biāo)注數(shù)據(jù)中學(xué)習(xí)染色體特征分布,再通過小規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù)微調(diào)來適配各個下游任務(wù),避免過高的標(biāo)注成本。
4)人工合成數(shù)據(jù)是應(yīng)對數(shù)據(jù)匱乏的重要手段,在染色體核型分析領(lǐng)域更可以發(fā)揮重要作用。從方法角度,生成式對抗網(wǎng)絡(luò)和擴(kuò)散模型等現(xiàn)階段廣泛應(yīng)用的生成模型都可以用來進(jìn)一步探索染色體數(shù)據(jù)合成。從應(yīng)用角度,生成模型可以在矯直彎曲染色體和合成結(jié)構(gòu)異常染色體方面發(fā)揮重要作用。但值得注意的是,染色體圖像合成不同于自然圖像合成,錯誤合成數(shù)據(jù)有可能導(dǎo)致嚴(yán)重醫(yī)療事故,造成嚴(yán)重后果。因此與臨床專家合作設(shè)計流程清晰完備的驗(yàn)證方法也是未來需要重點(diǎn)關(guān)注的方向。
5)基于多模態(tài)醫(yī)學(xué)數(shù)據(jù)的分析方法在醫(yī)學(xué)影像分析領(lǐng)域被廣泛應(yīng)用。在多模態(tài)染色體核型分析領(lǐng)域,可以選擇不同成像原理的圖像,例如G顯帶染色體和熒光原位雜交染色體圖像相結(jié)合;也可以選擇不同模態(tài)數(shù)據(jù),例如染色體圖像和核型診斷報告相結(jié)合;更可以選擇不同實(shí)驗(yàn)數(shù)據(jù),例如染色體圖像和基因測序數(shù)據(jù)相結(jié)合等。通過不同模態(tài)數(shù)據(jù)組合,可以進(jìn)一步拓展染色體核型分析應(yīng)用邊界,更好地滿足臨床需求。
本文對基于深度學(xué)習(xí)的染色體核型自動化分析方法進(jìn)行了比較全面的綜述。染色體核型分析應(yīng)用前景廣闊,需求日益上漲,因此染色體核型自動化分析方法成為研究熱點(diǎn)。但是傳統(tǒng)的自動化方法在面對形態(tài)結(jié)構(gòu)復(fù)雜、成像質(zhì)量波動較大的染色體目標(biāo)時,性能和泛化能力都不足以應(yīng)對復(fù)雜的臨床需求。因此具有強(qiáng)大學(xué)習(xí)能力和數(shù)據(jù)驅(qū)動特點(diǎn)的深度學(xué)習(xí)方法成為實(shí)現(xiàn)染色體核型自動化分析的新熱點(diǎn),性能和泛化能力都有了較大進(jìn)步。本文系統(tǒng)總結(jié)了染色體計數(shù)、染色體分割、染色體簇分類、染色體預(yù)處理、染色體分類和染色體異常分析等6 大染色體核型自動化分析任務(wù)。具體來說歸納了任務(wù)解決框架,闡述了已有解決方案,說明了還未解決的難點(diǎn)挑戰(zhàn)并最終為每項(xiàng)任務(wù)提出了具體可行的發(fā)展方向。數(shù)據(jù)是深度學(xué)習(xí)方法的性能保障,但大多數(shù)染色體核型分析相關(guān)工作所使用的數(shù)據(jù)主要來源于合作醫(yī)療機(jī)構(gòu)。本文還收集整理了7 個公開可獲取的染色體核型分析相關(guān)數(shù)據(jù)集,供研究人員進(jìn)一步開發(fā)高性能算法。最后,從染色體核型自動化分析整體出發(fā),提出了5個未來可能的發(fā)展方向。
綜上所述,基于深度學(xué)習(xí)的染色體核型分析方法逐漸成為自動化核型分析的主流。但該領(lǐng)域與臨床緊密結(jié)合,不僅需要繼續(xù)在模型方法上研究探索,還需要與醫(yī)學(xué)專家緊密協(xié)作。通過在臨床實(shí)踐中廣泛應(yīng)用和評價,研究人員可以從中發(fā)現(xiàn)新的問題加以抽象并提出新的解決方案。所以,基于深度學(xué)習(xí)的染色體核型自動化分析方法仍有極大的發(fā)展空間。