焦玉宏,校景中,譚 穎
(1.西南民族大學計算機系統(tǒng)國家民委重點實驗室,四川 成都 610041;2.西南民族大學計算機科學與工程學院,四川 成都 610041; 3.成都東軟學院計算機與軟件學院,四川 成都 611844)
精神分裂癥(Schizophrenia,SZ)是一種病因未明且致殘性較高的疾病,多發(fā)于青壯年時期,全世界大約有1%的人口受該疾病的影響[1].根據世界衛(wèi)生組織報告,目前全球估計有超過2 100萬人受到此類精神疾病的影響,并發(fā)現該疾病的死亡率較普通人群高出2~3倍[2].然而,由于癥狀的復雜性以及醫(yī)生診斷的主觀性,可能會出現漏診和誤診等情況.因此,精神分裂癥的早期診斷仍是一個富有挑戰(zhàn)性的問題[3].
磁共振成像(Magnetic Resonance Imaging,MRI)作為一種非侵入性腦成像技術使得客觀分析精神分裂癥成為可能.sMRI因其具有良好的軟組織分辨力和多方位任意切層能力而被廣泛應用[4-6].研究表明,與健康對照(healthy control,HC)相比,精神分裂癥的發(fā)病機制可能與大腦的結構組織的病變有關[7].然而,醫(yī)生難以直接通過肉眼觀察出精神分裂癥患者早期細微的影像異常,并對患者進行精準的治療.深度學習能夠從神經影像中挖掘出人眼難以直接發(fā)現的成像信息,用于輔助臨床醫(yī)生對SZ的診斷.近年來,深度學習在腦疾病輔助診斷中得到了廣泛應用,例如卷積神經網絡(Convolutional Neural Networks,CNN)[8]、稠密網絡[9]以及殘差網絡[10]等.然而,基于傳統(tǒng)卷積神經網的方法在特征提取時僅僅關注了神經影像的局部特征,而忽略了全局特征.為了克服上述局限性,本研究提出了一種自適應非對稱卷積神經網絡.該模型能夠自適應地確定特征圖像素之間的連接關系,從而切換局部和全局推理來處理內部特征表示.此外,本文還引入了非對稱卷積塊,在不增加額外參數的情況下增強特征表示能力,從而提高模型的分類性能.
深度學習在圖像識別、自然語言處理等領域取得了令人矚目的成績.近年來,深度學習模型在醫(yī)學圖像分析中取得了較大的突破.Ulloa等人[11]設計了一個10層的多層感知機(Multilayer Perceptron,MLP)模型,并基于sMRI數據驗證了該方法對SZ分類的有效性.Hong等人[25]提出了一種多圖譜多層感知機算法,該方法由多個MLP模塊組成,不同圖譜提取的形態(tài)特征將由不同的MLP模塊進行分類,最終通過投票決策分類結果.然而,由于MIP隱藏層的每個神經元都被賦予了一個權重,因此MLP網絡的參數通常異常龐大,在訓練階段容易過擬合.為了緩解該問題,Hu等[13]人設計不同的CNN框架對精神分裂癥患者進行分類,并取得了優(yōu)于MLP模型的分類結果.Zhou等人[14]和Oh[15]等人利用多站點的sMRI數據構建了網絡模型,獲得了比單個站點更好的分類準確率.Yagis等人[16]基于sMRI提出了一個深度3D CNN模型用于阿爾茲海默癥患者分類,獲得了73.4%的分類準確率.
盡管CNN已被證明明顯優(yōu)于MLP,但由于CNN只從局部鄰域像素中提取信息,各層內部的卷積運算不具有全局推理能力.因此,依賴于局部推理的卷積運算可能會導致腦部疾病分類模型的性能次優(yōu).為了解決CNN中的局部性問題,近幾年許多研究被提出并取得了可喜的成果[17-18].自適應連接神經網絡[19]繼承了MLP和CNN的優(yōu)點,可以動態(tài)地捕捉全局和局部依賴關系.人的大腦是一個整體,病變的區(qū)域與整體也是密不可分的,但是現有研究大多是利用局部特征來構建分類模型,忽略了全局信息的重要性.受自適應連接網絡的啟發(fā),在本文提出了一種新的網絡框架以更好地捕獲特征信息,用于精神分裂癥患者的結構磁共振圖像分類.
本研究使用了兩個公開數據集來評估模型的性能:新墨西哥大學生物醫(yī)學研究中心數據集 (Center for Biomedical Research Excellence,COBRE)和加利福尼亞大學洛杉磯分校數據集(the University of California Los Angeles,UCLA).
COBRE數據集共包括148名被試,除去數據信息缺失的兩個樣本,本實驗使用其中的146個數據,包括患者72名、健康對照74名.UCLA數據集共包括50名患者和130名健康對照,排除數據信息缺失的5個數據,現共有175個被試.所有受試者均采用3T Siemens Trio掃描儀來采集全腦圖像,數據排除了具有神經系統(tǒng)疾病,使用過精神藥物,重大精神疾病或多動癥的病史,以及當前的情緒或焦慮障礙的受試者.所有參與者都按照相關組織機構審查委員會批準的程序給予了書面知情同意.表1顯示了COBRE和UCLA數據集的人口統(tǒng)計學和臨床信息.
表1 數據集的人口統(tǒng)計Table 1 Demographics of the datasets
本實驗使用二維切片作為訓練數據,因此需要對三維結構像MRI進行預處理,并對三維MRI的軸向面、矢狀面和冠狀面進行切片.實驗使用MATLAB中的SPM12工具包對圖像進行預處理.預處理過程主要包括以下幾個步驟:1)以前連合-后連合的中點為原點建立三維坐標,得到可進行后續(xù)操作的標準腦圖譜.2)去除頭皮、顱骨等組織.3)將圖像配準到蒙特利爾神經病學研究所標準模板中,進行偏置場矯正.4)采用高斯核函數進行平滑化處理提高信噪比.
神經網絡模型的訓練往往需要大量的數據,模型的準確率會受到數據集的影響,當數據集中包含過多的無用數據或噪聲時可能會降低模型的性能.通過磁共振掃描儀得到的結構磁共振圖像具有多個切片,并且在數據預處理時發(fā)現,前幾個切片幾乎不包含任何信息,這表明sMRI掃描的單個切片中信息水平的差異也可能對模型的整體精度產生影響.因此,如何選取信息價值較高的切片,構建一個更適合精神分裂癥分類的數據集是研究的重點之一.為了克服上述限制并保證更高的分類精度,我們使用了一種包括數據組合和基于熵的切片選擇方法的數據選擇方案,對數據進行增強.
通過先驗研究可以發(fā)現熵值較高的切片有更多的腦組織面積和特征,而熵值較低的切片大多位于掃描的邊緣位置,具有更多的噪聲.因此,本研究中采用像素的概率密度函數來計算圖像的熵值,并基于該值來表示每個圖像所包含的信息.單個圖像的熵值計算如所示:
(1)
Hk表示第k個切片的熵,pi,k是第k個切片中第i個像素強度出現的概率值.在圖1中展示了根據熵值對不同平面的切片數量統(tǒng)計.
(a)健康被試的橫截面切片數量統(tǒng)計
(b)SZ的橫截面切片數量統(tǒng)計
(c)健康被試的冠狀面切片數量統(tǒng)計
(d)SZ的冠狀面的切片數量統(tǒng)計
(e)健康被試的矢狀面切片數量統(tǒng)計
(f)SZ的矢狀面切片數量統(tǒng)計
根據圖1可知,無論哪個方向的切片,熵值接近于0的切片占據了較高比例.如果將全部的切片用來訓練會影響模型的性能.先驗研究表明,當選擇熵值較大的切片訓練時,模型會取得較優(yōu)的分類性能[20].因此,為了提高模型的分類性能,依據文獻[20]的實驗結論,本工作選取每個方向中熵值大于5的切片作為訓練集.具體選擇切片數據的方法為:
Q=[(H1,H2,...,HSn)>5].
(2)
其中Q是基于熵值選擇的信息量較大的切片集合,Sn是每個sMRI圖像的整體切片數.
在本研究中,我們提出了一種新穎的自適應非對稱卷積網絡用于精神分裂癥的輔助診斷研究.該模塊融合了非對稱卷積和自適應連接的優(yōu)勢,可以代替標準的卷積層從而構建自適應非對稱神經網絡(AACNet).該方法的主要框架如圖2所示.首先對數據進行預處理操作.其次,基于圖像熵的方法對數據進行篩選,保留富含特征信息的圖像用于下游任務.最后基于自適應非對稱網絡進行特征提取,并將特征投影到分類目標空間用于最終的分類任務.該方法能夠緩解CNN中的全局信息丟失的問題,同時增強了局部信息的特征表達,可為計算機輔助診斷精神分裂癥提供一定的支撐.
圖2 自適應非對稱網絡用于精神分裂癥分類的主要流程框架Fig.2 The main process framework of adaptive asymmetric network for schizophrenia classification
2.3.1 自適應特征選擇
自適應連接神經網絡主要從兩個方面改進了傳統(tǒng)的卷積神經網絡,它繼承了MLP和CNN的優(yōu)點,并且彌補了卷積神經網絡只能從局部鄰域像素提取特征的不足,通過自適應地確定特征節(jié)點之間的連接,能夠靈活地切換全局和局部推理,為神經網絡的改進提供了新思路.
假設給定一個輸入信號X.自適應連接可以自動搜索該節(jié)點與其他節(jié)點的最佳連接方式,其相應的傳播公式如下:
(3)
其中yi表示輸出信號的第i個輸出節(jié)點,j是與第i個節(jié)點相關的一些可能節(jié)點的索引.uij,vij和wij分別指三個不同集合的第i個和第j個節(jié)點之間的可學習權重.
2.3.2 非對稱卷積網絡
非對稱卷積網絡[21]是一種增強標準卷積層的方法,該網絡可以通過構造一個包含三個平行層的非對稱卷積塊替換原始的d×d卷積核,這三個平行層分別包括d×d,1×d和d×1核,并將其輸出進行求和以表示豐富的特征空間.為了在不增加額外參數的同時增強特征的表達能力,在本工作中引入了非對稱卷積塊以增強圖像的主干特征,同時提升模型對圖像反轉和旋轉的魯棒性.具體如圖3所示.
圖3 非對稱卷積塊Fig.3 Asymmetric convolution block
對于傳統(tǒng)的CNN,設X為一個輸入圖像數據,xi,yi分別是輸入數據和輸出的一個像素,其中i,j∈[1,H×W].那么一般的3×3卷積可以表示為:
(4)
其中S是包含與給定的第i個節(jié)點有交互作用的節(jié)點的集合,vij為節(jié)點之間的連接權重.而對于非對稱卷積來說,可以利用卷積的可加性將方框核在相應的位置相加,從而得到一個與傳統(tǒng)卷積相同的等效核.因此在非對稱卷積網絡中,可以將其卷積表示為如下形式:
(5)
其中vij,pij和qij為不同卷積核的權重.
2.3.3 自適應非對稱卷積
受非對稱卷積和自適應連接的啟發(fā),本研究設計了一個新的網絡模塊,用于自適應地捕捉圖像的局部特征和全局特征,同時凸顯特征圖的主干信息,增強特征的表示能力.自適應非對稱卷積塊的網絡結構如圖4所示,其傳播公式可表示為:
(6)
α,β和γ分別對應每一種模式的重要程度.uij,vij,pij,qij和wij表示不同集合的第i個和第j個節(jié)點之間的可學習權重.AACNet通過自適應學習α,β和γ,在不同的推理模式之間的切換.且滿足:
α+β+γ=1,α,β,γ∈(0,1].
(7)
(8)
α是以λα為控制參數的softmax函數計算獲得的,該函數可以通過標準反向傳播來學習.類似地,β和γ分別通過使用另一個參數來定義,通過學習權重參數從而達到自適應連接的效果.
圖4 自適應非對稱卷積塊Fig.4 Adaptive asymmetric convolution block
本研究在COBRE和UCLA兩個數據集上對模型的性能進行了評估,并將其與較為先進的方法進行比較.實驗將每個數據集的80%設為訓練集,20%設為測試集.為了保證公平性,所有模型設置相同的學習率和批處理大小,并使用準確性(Accuracy,ACC)、靈敏度(Sensitivity,SEN)、特異性(Specificity,SPE)、精確度(Precision,PRE)和F1分數作為評估指標.具體公式如下所示:
(9)
(10)
(11)
(12)
(13)
真正例(True Positive,TP)表示正確識別為精神分裂癥患者的數量;假正例(False Positive,FP)表示錯誤識別成精神分裂癥患者的數量;真反例(True Negative,TN)表示正確識別為健康被試的數量;假反例(False Negative,FN)表示錯誤識別為健康被試的數量.
本實驗中,基準模型選用的是具有代表性的ResNet18,在此基礎上加入本文提出的非對稱卷積塊.不同截面的切片可以提供不同的特征信息,本研究將不同切面作為模型的輸入對模型進行了探討,結果如表2所示.
在COBRE數據中分別對三種平面的數據進行訓練及測試.如表2顯示,在橫截面數據集中,本文所提方法得到了93.22%的準確率,靈敏度、特異性、精確度和F1分數分別為94.43%,94.51%,93.62%和93.00%.與橫截面相比,在矢狀面方向上準確率提高了0.19%.在冠狀面的數據集中準確率更高,達到94.08%.通過實驗結果可以發(fā)現,在精神分裂癥的患者中,相比于橫截面和矢狀面數據,冠狀面的數據可能包含了更多的病變區(qū)域.最后,我們在三種平面組合的數據集上評估了模型的性能,獲得了95.77%的分類準確率,與單一的數據集相比,準確率約提升2%,且具有更高的靈敏度、特異性、精確度和F1分數,均比單一平面高出2%~3%,如圖5(a)所示.這表明對多種截面特征進行融合可以實現特征互補的優(yōu)勢.
如圖5(b)所示,在UCLA的數據中,冠狀面的數據同樣獲得了較高的準確率,這與上述在COBRE數據集中得出的結論一致,使得我們確信冠狀面包含更多的特征信息.此外,與單個平面數據相比,三個截面融合的數據集仍然具有更高的準確率,達到了96.99%的分類準確率,比單個平面高出2%~3%.靈敏度、特異性、精確度和F1分數高達96.81%,97.39%,93.17%和94.31%,均高于采用單個截面作為數據的分類性能.這再次驗證了使用各個平面的組合數據可以提高模型的分類性能的結論.
圖5 不同方向切片在AACNet上的分類結果比較Fig.5 Comparison of classification results of slices in different directions on AACNet
根據上述實驗得出的結論,組合的數據會提高模型的準確率,因此在后續(xù)的實驗中均采用組合數據作為模型的輸入.為了驗證所提方法每個模塊的有效性,本文設置了一系列消融實驗,實驗結果如表3和表4所示,其中AC-ResNet18表示在ResNet18上引入非對稱卷積操作的網絡模型,AS-ResNet18表示基于自適應特征選擇的網絡模型.為了直觀分析每個模塊的性能,圖6展示了不同模塊下的分類性能.
表3 COBRE數據集上的比較結果Table 3 Comparison of results on the COBRE dataset
表3展示了在COBRE數據集上的消融研究.實驗結果表明,單獨引入非對稱卷積或者自適應連接網絡均會提升模型的性能,與基準模型相比,其準確率分別提升了0.7%和1.5%,但在其他指標上卻提升不大,有些還略低于基準模型.但通過實驗分析可以發(fā)現,本文提出的模型展現出了較大的優(yōu)勢,不僅準確率比基準提高了2.37%,靈敏度、特異性、精確度和F1分數也分別提高了1.66%,1.9%,2.86%和2.64%.
表4 UCLA數據集上的比較結果Table 4 Comparison of results on the UCLA dataset
表4展示了在UCLA的數據集上消融研究結果.與基準模型相比,AC-ResNet18和AS-ResNet18在各評價指標上都取得了提升,其中準確率分別比基準模型提高了1%和1.22%.AACNet在此數據集上的表現依然良好,準確性、靈敏度、特異性、精確度和F1分數分別比基準提高了2.58%,2.44%,1.67%,3.75和4.04%,且準確率比單獨使用一種改進的方法提升了1.5%左右.總體分析,本文所提方法在識別SZ方面具有一定的優(yōu)越性,獲得這種性能的主要原因是所提方法可以從數據集中提取有效的特征.
圖6 對于模型結構進行消融研究的實驗結果Fig.6 Experimental results of ablation studies on model structures
為了驗證所提方法的有效性,本文將提出的模型與其他幾種具有代表性的模型進行比較,分別為ShuffleNet[22],MobileNetV3[23]和GoogLeNet[24].實驗結果如表5所示.從實驗結果可以看出,本文所提模型在兩個數據集上均取得了較好的分類性能.與傳統(tǒng)方法相比,在COBRE數據集上提升了2.99%~6.13%的分類準確率,在UCLA數據集上提升了3.03%~6.58%的分類準確率.從圖7可以發(fā)現,AACNet-18的收斂速度最快,且模型的穩(wěn)定性更好.
表5 與其他現有模型比較的分類準確率Table 5 Comparison of classification accuracy with other existing models
圖7 不同方法的準確性比較Fig.7 Comparison of the accuracy of different methods
在本研究中,我們提出了一種新穎的自適應非對稱網絡用來區(qū)分精神分裂癥患者和健康被試,并在不同的切片數據集中驗證我們模型的性能.首先,利用圖像熵的方法選取合適的閾值,構建更能表征磁共振圖像特征的數據集.然后,提出一種自適應非對稱神經網絡用于自動捕獲圖像的局部特征和全局特征,增強特征表征能力.我們在COBRE和UCLA兩個數據集上評估了AACNet模型的性能,分別獲得了95.77 %和96.99 %的分類準確率.實驗結果表明,相比于傳統(tǒng)卷積網絡,引入非對稱卷積塊和采用自適應特征提取方式均可以提升模型的性能.為了進一步提升疾病的診斷性能和病灶區(qū)域的探索,在未來,我們將考慮多種模態(tài)數據的融合以及發(fā)展模型的可解釋性去探尋精神分裂癥的生物標志物.