邱俊瑋,孫頻捷
(1.四川大學(xué)計算機學(xué)院,成都610065;2.上海政法學(xué)院,上海200000)
染色體核型分析是細胞遺傳學(xué)中具有重要意義的研究方法之一,廣泛應(yīng)用于疾病診斷、腫瘤研究等方面。傳統(tǒng)的核型分析方法主要依賴于人工分析,費力費時,且分析結(jié)果的準確度與專家的經(jīng)驗豐富度直接相關(guān)。近年來,隨著深度學(xué)習(xí)在醫(yī)學(xué)研究領(lǐng)域的廣泛應(yīng)用,使用深度學(xué)習(xí)的方法自動化的完成核型分析成為學(xué)者們廣泛關(guān)注的方向之一。核型分析的任務(wù)目標是對染色體進行檢測和分類。該任務(wù)的核心難點是,染色體表現(xiàn)出多種復(fù)雜的姿態(tài),如邊緣粘連、重疊、覆蓋和扭曲等。這對正確檢測和分類染色體造成了較大的干擾。Hu 等人[1]首次將分割網(wǎng)絡(luò)用到了重疊染色體分割問題中。N.Xie 等人提出使用基于卷機神經(jīng)網(wǎng)絡(luò)Mask R-CNN[2]應(yīng)用于核型分析任務(wù),并構(gòu)建了一套完整的自動化分析流(Statistical Karyotype Analysis Using CNN and Geometric Optimization)[3]。該方法提高了染色體粘連、重疊等復(fù)雜場景下染色體的檢測準確度,此后,出現(xiàn)了更多使用卷積神經(jīng)網(wǎng)絡(luò)進行染色體核型分析的方法并取得了優(yōu)秀的成果,這進一步說明了卷積神經(jīng)網(wǎng)絡(luò)在染色體核型分析任務(wù)中的有效性和探索價值。
如圖1 所示,染色體核心分析的主要任務(wù)是,在中期染色體的圖像中,依據(jù)染色體的尺度、著絲點位置、長短臂比例等特征,對染色體進行檢測和分類。完整的核型分析通??梢园▋蓚€子任務(wù),即染色體檢測任務(wù)和染色體分類任務(wù)。Sharma 等人最早將CNN 的方法應(yīng)用到染色體檢測和分類[4],常用的基于CNN 的染色體檢測方法包括FCN[5]、U-Net[6]等。染色體分類是一個已經(jīng)被廣泛研究問題,早期的學(xué)者們主要依靠染色體的幾何信息進行分類,如Ritter 等人[7]。Jindal 等人則在研究中將CNN 的方法用于染色體分類任務(wù)[8],并取得了優(yōu)秀的成果。
圖1 染色體核型分析任務(wù)目標
N.Xie 等人提出了一種使用卷積網(wǎng)絡(luò)和幾何優(yōu)化進行核型分析的方法。該方法使用Mask R-CNN 網(wǎng)絡(luò)進行染色體檢測,并針對彎曲程度嚴重的染色體提出了一種優(yōu)化方法,使用融合了全局信息的分類網(wǎng)絡(luò)對染色體進行分類,流程如圖2 所示。
圖2 基于卷積神經(jīng)網(wǎng)絡(luò)和幾何優(yōu)化的核型分析流程
Mask R-CNN 網(wǎng)絡(luò)通過RPN(Region Proposal Net?work)的方法提取可能存在染色體的候選區(qū)域。RPN是Ren 等人在Faster R-CNN 網(wǎng)絡(luò)中提出的貢獻[9]。這一網(wǎng)絡(luò)通常與特征提取網(wǎng)絡(luò)結(jié)合使用,以特征提取網(wǎng)路的特征圖作為輸入。在特征圖(feature map)的每個像素點位,依據(jù)不同尺度或高寬比提出多個候選區(qū)域(anchor box),再將候選區(qū)域映射回原圖,與原圖中的物體邊界框計算IOU,將重疊度較高的候選框計為正樣本,重疊度較低的記為負樣本,并訓(xùn)練一個Softmax 分類器,用于在預(yù)測時對將候選區(qū)域分類。然后對正樣本邊界框進行回歸訓(xùn)練,用于計算正樣本邊界框微調(diào)偏移量。這樣預(yù)測為正樣本,且經(jīng)過微調(diào)的候選區(qū)域被稱為proposal,最后對proposal 進行Pooling 操作,獲得對應(yīng)的feature map,方便送入后續(xù)網(wǎng)絡(luò)進行處理。這一方法的使用實現(xiàn)了從圖像中檢測和分離染色體。
由于染色體常在圖像中呈現(xiàn)出高度扭曲的姿態(tài),而染色體的扭曲姿態(tài)會增加分類難度,對后續(xù)提取染色體特征造成干擾。因此該方法設(shè)計了基于中線的幾何優(yōu)化方法,將扭曲的染色體“拉直”。首先通過提取的三角形找到染色體中軸線,距離中軸線垂直距離最遠的點必然為染色體的扭曲點。接著依據(jù)扭曲點和中軸線端點將染色體切分出兩個最小邊界框,記為Bboxl和Bboxh。如下所示,其中I表示一張染色體圖像,Pcut表示扭曲點,Plow和Phigh分別表示染色體的兩個端點。在依據(jù)Bboxl和Bboxh中圖像的斜率,將圖像旋轉(zhuǎn),得到拉直的染色體。
染色體分類網(wǎng)絡(luò)接收三個輸入,分別是原始圖片,提取的染色體局部圖片和拉直后的染色體局部圖片。提取原始圖片中的全局特征和局部圖片中的局部特征,取得了優(yōu)秀的核型分析結(jié)果。
染色體計數(shù)是核型分析的子任務(wù)之一,Xiao 等人[10]提出了一種針染色體計數(shù)方法,流程如圖3 所示。選取ResNet-101 作為骨干網(wǎng)絡(luò),并改進了區(qū)域提?。≧PN)時候選區(qū)域的選取方式,從特征圖抽取區(qū)域時選取了包含易錯誤染色體(如粘連染色體)的候選區(qū)域作為負樣本參與訓(xùn)練,增強了RPN 網(wǎng)絡(luò)的效果。在處理候選區(qū)域時,提出了用于區(qū)分粘連染色體和重疊染色體的embedding 分支,通過一個模版模塊獲取每一個候選區(qū)域的嵌入值,據(jù)此判斷染色體更接近哪種類型。
圖3 基于深度神經(jīng)網(wǎng)絡(luò)的染色體計數(shù)流程
RPN 網(wǎng)絡(luò)在訓(xùn)練時,默認將IOU>0.7 的區(qū)域是做包含前景物體,作為正樣本,IOU<0.3 的區(qū)域作為背景區(qū)域負樣本,部分包含粘連和重疊染色體的候選區(qū)域IOU 在0.5-0.7 之間,容易被丟棄不做訓(xùn)練,這會導(dǎo)致RPN 網(wǎng)絡(luò)的準確性降低。該方法將IOU 在0.5-0.7 之間的樣本作為強負樣本,IOU 在0-0.3 之間的樣本作為弱負樣本,增強了對粘連和重疊染色體的檢測。
為了提高對重疊和粘連染色體的判別準確度,提出了使用模版模塊。染色體通??梢员粴w納于五種模式:對角線模式、反對角線模式、橫向模式、縱向模式和環(huán)狀模式。因此以這五種模式作為模版,當候選區(qū)域中染色體重疊或粘連時,可以通過模版模塊來進行抽取。物種模版的定義如下所示。其中TD,TTD,TH,TV,TC分別代表對角線模式,反對角線模式,橫向模式,縱向模式和環(huán)形模式。IDrow{0,1,2,3,4,5,6} 和IDcol{0,1,2,3,4,5,6} 代表模版對應(yīng)的像素位置,xrow=IDrow-3,ycol=IDcol-3。
該部分損失函數(shù)定義如下所示,Lpull計算的是屬于同一個Ground Truth 區(qū)域的候選區(qū)域的embedding 之間的損失。其中Ngt表示ground truth 區(qū)域的數(shù)量,表示屬于某一個ground truth 的候選區(qū)域的數(shù)量,表示屬于第j 個ground truth 的第i 個候選區(qū)域的嵌入值。
林成創(chuàng)等人針對染色體核型分析任務(wù)中染色體重疊的難點,提出了一種基于增強路徑算法的模型[11],其流程如圖4 所示??紤]到核型分析任務(wù)即需要高層特征中的語義信息,有需要底層特征中的位置信息,而在特征提取網(wǎng)絡(luò)中,位置信息需要經(jīng)過很多層卷積操作才能到達高層,對原始信息會存在缺失。因此在特征提取模塊之后增加了路徑增強模塊,低層特征在路徑增強模塊中經(jīng)過較少的卷積層到達高層,位置信息保存較為完整。FPN 網(wǎng)絡(luò)(Feature Pyramid Network)接收從高到低的語義信息,路徑增強模塊則接受從低到高的位置信息。
圖4 基于路徑增強網(wǎng)絡(luò)的核型分析流程
此外,采用了多任務(wù)訓(xùn)練的方式。由于染色體分類的準確度在一定程度上受到染色體分割準確度的影響,因此使用了類似于Mask R-CNN 中多個頭部分枝的做法,將核型分析任務(wù)所需要的染色體分割,染色體分類,染色體計數(shù),染色體檢測任務(wù)以多任務(wù)的方式添加到了輸出層,同時對多個任務(wù)進行訓(xùn)練。其中類別和邊框預(yù)測分枝用來檢測染色體,染色體條數(shù)分枝用來做染色體計數(shù),實例掩碼分枝用來做染色體分割。多任務(wù)之間互相監(jiān)督,提升任務(wù)的準確度。
近年來,越來越多的學(xué)者開始關(guān)注基于深度卷機網(wǎng)絡(luò)的核型分析方法。傳統(tǒng)的基于幾何方法和預(yù)處理的核型分析任務(wù),在復(fù)雜圖像族的分割以及扭曲染色體的分類方面表現(xiàn)較差,染色體圖像中的重疊染色體、交叉染色體是核型分析任務(wù)重的關(guān)鍵難點。得益于卷積神經(jīng)網(wǎng)絡(luò)在檢測領(lǐng)域和分類領(lǐng)域的發(fā)展,為解決上述難點提供了一種新的方法,采用卷積神經(jīng)網(wǎng)絡(luò)進行核型分析方法開始收到相關(guān)學(xué)者的關(guān)注?,F(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的核型分析方法可以分為三步,且通常采用two-stage 的網(wǎng)絡(luò)使用基于區(qū)域提取的方式來進行的分析:先提取圖像特征,再使用RPN 網(wǎng)絡(luò)通過圖像特征提出可能包含染色體實例的候選區(qū)域,最后在輸出層完成分類或計數(shù)任務(wù)。而通過以上介紹可以發(fā)現(xiàn),采用卷積神經(jīng)網(wǎng)絡(luò)進行核型分析的方法受到了廣泛關(guān)注,且在現(xiàn)有的論文中表現(xiàn)良好,值得進一步的研究和探索。