陳吉,劉曉榮,楊佳雯,陳冶秋,王誠,歐夢媛,吳嘉儀,俞尤嘉,李開,陳鵬,陳峰
1.南京醫(yī)科大學法醫(yī)學系,江蘇 南京 211166;2.南京市公安局水上分局,江蘇 南京 210036
硅藻檢驗是溺死診斷的重要手段[1]。通過對水中尸體進行硅藻檢驗,可判斷其死亡原因,并可推斷入水地點[2-4]。硅藻檢驗方法有消化法、化學元素法、分子生物學檢驗法等,其中強酸消化-光學顯微鏡檢驗法因操作簡單、設(shè)備要求低,是基層法醫(yī)學鑒定實踐中常用的硅藻檢驗方法,但是此方法具有雜質(zhì)消化不全、離心損失大、檢出率低、開放操作易污染等問題[5]。
近年來興起的微波消解-真空抽濾-掃描電子顯微鏡法[6]因具有雜質(zhì)消化完全、操作污染少、硅藻富集率高、陽性檢出率高等優(yōu)勢,已在部分公安檢案中開展應(yīng)用。然而掃描電子顯微鏡產(chǎn)生的圖像數(shù)據(jù)量龐大,不含硅藻的陰性圖像多,人工從上千甚至上萬張圖像中精確識別硅藻需要耗費大量的時間和精力。硅藻電子顯微鏡圖像的快速、準確自動化識別已成為一個亟待解決的問題。
隨著人工智能技術(shù)的不斷發(fā)展,基于深度學習進行圖像識別已在多領(lǐng)域應(yīng)用,與人工識別相比顯著提升了識別速度并可取得與人工識別相當?shù)臏蚀_率[7-9]。深度學習是模擬人腦信號傳導機制構(gòu)建人工神經(jīng)網(wǎng)絡(luò),通過大量數(shù)據(jù)訓練提取數(shù)據(jù)特征,從而完成從特征到目標任務(wù)的映射。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是深度學習中的一種重要模型,特點是利用多層卷積運算實現(xiàn)特征提取、降維和結(jié)果預(yù)測,已廣泛應(yīng)用于計算機視覺領(lǐng)域。
目前已有相關(guān)研究涉及人工智能硅藻圖像自動識別[10-12],但識別模型較少,識別速度和性能均有待提升。為更好地解決硅藻電子顯微鏡圖像識別問題,提高識別速度和自動識別性能,本研究基于深度學習CNN 中的YOLOv3 模型開展硅藻電子顯微鏡圖像自動化識別模型的構(gòu)建,并在實際硅藻檢驗案例中進行應(yīng)用,探討該模型的優(yōu)勢和可待改進之處。
本研究使用的所有硅藻電子顯微鏡圖像均由南京市公安局水上分局刑事警察大隊提供,圖像通過微波消解-真空抽濾-掃描電子顯微鏡法采集于長江流域溺死者的肺、肝、腎組織。圖像采集設(shè)備為Phenom XL G2 臺式掃描電子顯微鏡、DiatomScope 軟件(荷蘭PhenomWorld 公司),設(shè)置掃描半徑8.0 mm(涵蓋整個樣本區(qū)域)、放大倍數(shù)1 500×、圖像分辨率1 024×1024,形成的每個視場大小為0.176mm×0.176mm,完整掃描一個樣本所有視場生成的圖片總數(shù)為6 392 張。
本研究在上述所有樣本采集圖像中選取25 000張經(jīng)2 名法醫(yī)病理學專家肉眼確認含完整硅藻數(shù)量大于1 的硅藻電子顯微鏡圖像,作為建立數(shù)據(jù)集所使用的樣本圖像集。同時選取樣本圖像集以外8例溺死者的肺、肝、腎組織的106 272 張硅藻電子顯微鏡圖像,以檢驗?zāi)P蛯嶋H應(yīng)用效果。
本研究僅對南京市公安局水上分局刑事警察大隊提供的相關(guān)硅藻電子顯微鏡圖像進行處理和使用,符合醫(yī)學倫理學相關(guān)條款規(guī)定。
由硅藻檢驗經(jīng)驗豐富的2名法醫(yī)病理學專家使用LabelImg v1.4.3 軟件(Tzutalin 開發(fā);http://tzutalin.github.io/labelImg/)共同對樣本圖像集中的硅藻進行標注(標注時所有完整硅藻和碎片硅藻均視為硅藻)。為了讓模型達到更好的訓練效果,將標注所得圖像數(shù)據(jù)進行歸一化處理,另外使用旋轉(zhuǎn)、平移、縮放、裁剪、變形等方式進行數(shù)據(jù)增強,從而擴大訓練圖像樣本量。
選取CNN 中的YOLOv3 模型作為識別模型的基礎(chǔ)。YOLOv3 模型是一種使用“端對端”方式訓練的單階段目標檢測模型[13-15](圖1)。輸入的圖像經(jīng)過全卷積網(wǎng)絡(luò)(Darknet-53)進行特征提取和特征融合后,輸出3 種依據(jù)不同張量劃分的特征圖[15],特征圖中涉及目標對象的每一個網(wǎng)格根據(jù)模型先前有監(jiān)督學習的訓練結(jié)果預(yù)測存在對象的3 個邊界框的相應(yīng)信息,包括位置和大?。ㄖ行淖鴺?、框的寬度和高度)、置信度以及對象類別數(shù)。對于同一個目標對象對應(yīng)的各邊界框按照各自的置信度進行排序,以置信度最高的邊界框作為該目標對象所在的位置。以識別硅藻電子顯微鏡圖像為例,模型將待識別的圖像轉(zhuǎn)化為416×416 個網(wǎng)格,經(jīng)過特征提取后輸出包括13×13、26×26、52×52 這3 種張量的特征圖。特征圖中涉及硅藻的每一個網(wǎng)格將預(yù)測3 個可能存在硅藻的邊界框,所有邊界框中置信度最高者為該硅藻在所屬圖像中的位置,該置信度即為模型預(yù)測邊界框內(nèi)對象為硅藻的可能性。
圖1 YOLOv3 模型原理示意圖Fig.1 The schematic diagram of the YOLOv3 model
模型識別時可設(shè)置不同的閾值,該閾值是模型最終判定是否為目標對象的置信度標準,若識別對象置信度高于該閾值,則判定該對象為目標對象硅藻,并顯示相應(yīng)的邊界框和置信度,閾值越高,識別結(jié)果是真正硅藻的可能性越大。
以7∶2∶1 的比例將1.2 節(jié)中構(gòu)建的數(shù)據(jù)集樣本劃分為訓練集、驗證集和測試集,基于python 3.6.8 進行YOLOv3 框架搭建和模型訓練。設(shè)置初始學習率為5×10-4,最小學習率為5×10-7;每次訓練批次大小為2;每迭代200 次評估1 次訓練總損失值——總損失值是對象類別、置信度、邊界框中心坐標以及邊界框?qū)捄透? 項數(shù)值損失值的總和,體現(xiàn)模型誤差大小。最后根據(jù)模型收斂情況和損失值的最低值確定模型最終訓練的迭代次數(shù)。
根據(jù)訓練模型在驗證集、測試集上的查準率(precision rate,PR)和召回率(recall rate,RR)和各閾值下的F1 分數(shù)實時評價模型訓練效果(閾值取值范圍為0~1,以0.05 遞增)。PR是指在所有被預(yù)測為正例(即模型檢測的目標對象)的樣本中,實際為正例的樣本比例;RR是指所有實際為正例的樣本中,被預(yù)測為正例的樣本比例;F1 分數(shù)是PR和RR的加權(quán)平均,體現(xiàn)了模型在各閾值下的識別效能。最后結(jié)合模型在不同閾值下的RR和PR計算平均精度均值(mean average precision,mAP)評價模型性能。公式如下:
式中,TP為真陽性,即模型預(yù)測為硅藻而實際也為硅藻的數(shù)量;FP為假陽性,即模型預(yù)測為硅藻而實際非硅藻的數(shù)量;FN為假陰性,即模型預(yù)測為非硅藻而實際為硅藻的數(shù)量;AP為平均精度,即模型在每個閾值下的PR的加權(quán)平均值,權(quán)重為RR的增加值,平均精度相當于某一類別PR-RR曲線(P-R曲線)下的面積,k為總類別數(shù)。
由公式可得,當RR越高,模型識別硅藻的敏感性越高;當PR越高,模型識別硅藻的假陽性率越低,模型特異性越高;當mAP越高時,模型檢測性能越好。
從1.1 節(jié)中選取的8例溺死者的肺、肝、腎組織的106 272 張硅藻電子顯微鏡圖像用于測試該模型的實際應(yīng)用效果。其中,肝、腎組織樣本由于含硅藻數(shù)量較少(整個樣本中可少至個位數(shù)),需要對完整掃描整個樣本所得的所有電子顯微鏡圖像進行人工識別,因此本研究對每例肝、腎組織樣本掃描所得的6 392 張圖像進行識別研究;肺組織樣本由于含硅藻數(shù)量較多(整個樣本中可達幾千至幾萬個),在實際檢案中通常在6 392 個視場中隨機選取200~300 個視場掃描圖像進行人工識別,在本研究中為了更好地探究模型識別肺組織硅藻的RR和PR,對每例肺組織樣本掃描所得的500 張電子顯微鏡圖像進行識別研究。
該識別模型的運行流程如圖2 所示,使用者只需選擇硅藻電子顯微鏡圖像所在的文件夾,并設(shè)置篩選閾值,模型會將識別出硅藻置信度大于閾值的目標對象框出并顯示相應(yīng)的置信度,有目標對象和沒有目標對象的圖像將被分別存放至相應(yīng)的文件夾。
圖2 硅藻電子顯微鏡圖像識別模型運行流程圖Fig.2 The flow chart of the diatom identification model of scanning electron microscope images
由于隨著閾值設(shè)定的改變,模型的RR和PR會相應(yīng)地改變,通常設(shè)定的閾值越高,RR越低、PR越高。為了確定能夠使模型取得最佳性能的閾值大小,選取0.4、0.6、0.8 3 種閾值進行識別效果評價。每例樣本的硅藻電子顯微鏡圖像分別接受2 名法醫(yī)病理學專家的肉眼確認和該識別模型的自動識別,記錄識別速度和識別結(jié)果,并將人工識別和模型識別的結(jié)果相對比,計算模型識別在實際應(yīng)用中的RR和PR。
模型識別將完整硅藻和碎片硅藻統(tǒng)一識別為硅藻,實際應(yīng)用中人工統(tǒng)計時需要將兩者區(qū)分開。對于碎片硅藻的識別,采用如下規(guī)則:面積大于50%的不完整硅藻視為完整硅藻,面積小于50%的不完整硅藻視為碎片硅藻,完整硅藻和碎片硅藻分2 類計數(shù)。由于模型識別出的假陽性硅藻無法判斷是對于完整硅藻還是碎片硅藻的假陽性,故分別計算完整硅藻、碎片硅藻和總體PR時將所有假陽性硅藻數(shù)包括在內(nèi)。
人工識別和模型識別所得的硅藻陽性圖像數(shù)、不同組織中不同閾值下模型識別的RR、PR和F1 分數(shù)用均數(shù)±標準差()表示,采用SPSS 22.0軟件(美國IBM公司)進行t檢驗,檢驗水準α=0.05。
圖3 為訓練過程中總損失值的收斂曲線。圖中隨著迭代次數(shù)增加,模型迅速收斂并將損失值保持在0.2 以下,當?shù)螖?shù)為128 600 次(即紅線標注處)時總損失值達到最低,以此作為模型的最大迭代次數(shù)以取得理想的訓練效果。
圖3 模型訓練的收斂曲線Fig.3 Convergence curve of model training
訓練完成后的模型在驗證集和測試集上各閾值的RR、PR及F1 分數(shù)見表1。模型在驗證集和測試集的mAP分別為94.8%和94.3%;各閾值下的平均RR分別為81.2%和81.5%。
表1 各閾值下識別模型的RR、PR 和F1 分數(shù)Tab.1 The precision rate,recall rate and F1 score of the identification model under different thresholds
2.2.1 識別速度和硅藻陽性圖像檢出量
對于每例肝、腎組織樣本的硅藻電子顯微鏡圖像,人工對6 392 張圖像逐一識別,需要花大于3 h,而使用該模型約15 min 內(nèi)完成,且不同的設(shè)定閾值下所用的識別時間相同,每個樣本模型識別和人工復核的時間總和不超過20 min,圖像識別速度可達0.143 s/張,所用時間是人工識別的1/9。人工識別每例肝、腎組織樣本6 392 張電子顯微鏡圖像檢出的硅藻陽性圖像(即含有硅藻的圖像)均值分別為(4.3±1.7)、(9.0±8.6)張,模型在0.4、0.6 和0.8 閾值下檢出肝組織硅藻陽性圖像均值分別為(269.4±197.8)、(218.5±165.9)、(110.4±85.6)張,檢出腎組織硅藻陽性圖像均值分別為(289.8±103.8)、(202.6±60.3)、(117.0±29.4)張,t檢驗顯示與人工識別檢出圖像數(shù)之間差異均有統(tǒng)計學意義(P<0.05)。
對于肺組織硅藻電子顯微鏡圖像,模型對每張圖像的識別速度與肝、腎組織相同。人工識別每例肺組織樣本的500 張電子顯微鏡圖像檢出的硅藻陽性圖像均值為(368.5±176.5)張。模型在0.4、0.6 和0.8 閾值下檢出硅藻陽性圖像均值分別為(355.5±179.2)、(330.4±176.9)、(310.0±188.2)張,t檢驗顯示與人工識別檢出圖像數(shù)之間差異均無統(tǒng)計學意義(P>0.05)。
2.2.2 不同閾值下模型的檢測效能
從表2 可見,在0.4 閾值下,8例案例各組織的大部分硅藻(包括碎片硅藻)都能被正確檢出,并且肝、腎組織的硅藻RR達到了100%。隨著閾值的增加,硅藻RR在各組織均有所下降。從圖4 可見,當閾值從0.4 上升至0.6 時,相同視野識別出的硅藻個數(shù)下降。
圖4 設(shè)定不同閾值時肺組織的硅藻識別結(jié)果Fig.4 Diatom identification results under different thresholds
表2 不同組織中不同閾值下模型識別的RR、PR 和F1 分數(shù)Tab.2 The recall rate,precision rate,and F1 score of the identification model under different thresholds in different tissues (n=8,)
表2 不同組織中不同閾值下模型識別的RR、PR 和F1 分數(shù)Tab.2 The recall rate,precision rate,and F1 score of the identification model under different thresholds in different tissues (n=8,)
在各閾值下,肺組織的PR均較高;肝、腎組織的PR均較低,假陽性率高。隨著閾值的增加,PR在各組織呈上升趨勢。
從各組織各閾值的RR均值和PR均值綜合計算所得的F1 分數(shù)來看,肺組織高于肝、腎組織,模型在肺組織的F1 分數(shù)隨著閾值升高而降低,在肝、腎組織的F1 分數(shù)隨著閾值升高而升高。
硅藻檢驗是目前溺死診斷的金標準。近年來快速發(fā)展的微波消解-真空抽濾-掃描電子顯微鏡法有著一系列的優(yōu)勢:微波消解使雜質(zhì)消化得更為徹底,真空抽濾技術(shù)提高了硅藻的富集率,電子顯微鏡的高放大倍數(shù)使硅藻圖像分辨率大大提高,更利于分辨硅藻和進行種屬分類,然而電子顯微鏡圖像數(shù)量龐大、陰性圖像多、人工識別耗時耗力。
為解決硅藻電子顯微鏡圖像識別問題,本研究訓練了一個基于深度學習YOLOv3 模型的識別模型。YOLO 是REDMON 等[13]于2016 年提出的一個單階段目標檢測模型,該模型將目標檢測變?yōu)橐粋€回歸問題,比起傳統(tǒng)的二階段目標檢測算法的先定位再分類,YOLO 僅經(jīng)過一個CNN 就能實現(xiàn)多個目標的定位和識別,大大提升了識別速度,其檢測速度是R-CNN的1 000 倍、Fast R-CNN 的100 倍[9]。早期的YOLO 和YOLOv2 在識別精度上與二階段檢測器相比稍顯不足[14],而2018 年推出的YOLOv3 大幅度提高了檢測的精度,并且在準確率相當?shù)那闆r下其檢測速度是其他模型的3~4 倍[15]。此外,該模型將圖像作為整體輸入特征提取網(wǎng)絡(luò)進行訓練,能夠?qū)W習到背景與目標對象之間的更多信息,更適于復雜背景下小物體的目標檢測。
本研究顯示,該模型在驗證集和測試集上取得了94%以上的mAP和81%以上的平均RR,具有良好的性能。實際應(yīng)用中,在識別速度方面,該模型識別硅藻電子顯微鏡圖像的速度可達0.143 s/張,與人工識別相比顯著縮短了識別時間。在識別所用圖像數(shù)量和硅藻陽性圖像檢出量方面,肝、腎組織樣本由于硅藻數(shù)量少,需對所有掃描電子顯微鏡圖像進行識別,識別模型檢出的硅藻陽性圖像數(shù)為300 張以下,顯著減少了需要人工復核的可能存在硅藻的圖像數(shù);對于肺組織,人工識別和模型識別硅藻陽性圖像檢出量差異無統(tǒng)計學意義,但由于各樣本硅藻含量不同,不同案例肺組織檢出硅藻陽性圖像數(shù)有較大差異,因此識別肺組織硅藻所用圖像數(shù)量需要根據(jù)樣本實際硅藻含量決定,若樣本硅藻含量較少,則需要識別更多的圖片。
在識別RR方面,模型在0.4 的識別閾值下各組織的硅藻RR均較高,隨著識別閾值的增加,各組織的硅藻RR均有所下降。在識別PR方面,模型在0.4 的識別閾值下肺組織硅藻PR均值達87.8%,肝、腎組織PR均值不到5%,這可能是由于肝、腎組織實際含硅藻數(shù)量少,模型預(yù)測出的假陽性硅藻數(shù)量多,導致計算出的PR數(shù)值偏低。隨著閾值的增加,各組織硅藻PR均有所升高。
從F1 分數(shù)看,模型在肺組織的識別效能顯著高于肝、腎組織,這可能是由于肝、腎組織硅藻含量較少,而肺組織硅藻含量較多,使得模型訓練時所用的硅藻樣本圖像大多來自肺組織,導致模型識別肝、腎組織時預(yù)測的假陽性硅藻多,使模型在肝、腎組織的查準率低、綜合識別效能低。F1 分數(shù)顯示,模型在肺組織的識別效能隨著閾值增高而降低,結(jié)合RR和PR的變化來看,這可能是由于隨著閾值的升高,肺組織的PR較高,無太多上升空間,而肺組織RR下降明顯,使總體識別效能下降;模型在肝、腎組織的識別效能則隨著閾值增高而升高,這可能是由于肝、腎組織每張圖像上的硅藻數(shù)量少,模型預(yù)測每個目標對象的置信度都較高,所以適當提高閾值對真正硅藻的RR影響較小,并且能降低假陽性率,提高PR,取得更好的識別效能。
綜合以上應(yīng)用效果,筆者認為,目前該模型應(yīng)用達到最佳效果需要注意以下幾點:(1)對于肺組織硅藻電子顯微鏡圖像識別,應(yīng)選擇較低的閾值(如0.4),在此閾值下硅藻RR和PR都能保持在較高水平。(2)對于肝、腎組織硅藻電子顯微鏡圖像識別,應(yīng)選擇中高閾值(如0.6、0.8),以在保持高RR的基礎(chǔ)上提高PR,取得更好的識別效能。(3)若肝、腎組織樣本硅藻含量極低,為避免漏檢,識別閾值設(shè)置為0.4較為適宜。
本研究構(gòu)建的模型能夠快速識別硅藻電子顯微鏡圖像并在0.4 閾值時取得各器官較高的硅藻RR和肺組織較高的硅藻PR,對于碎片硅藻也能很好地檢出。人工識別和模型識別肺組織硅藻陽性圖像檢出量差異無統(tǒng)計學意義,結(jié)合RR及PR可知,模型對于肺組織硅藻的泛化能力較好。雖然模型在肝、腎組織的硅藻PR不高,但由于肝、腎組織硅藻含量較低,電子顯微鏡圖像大多為無硅藻的圖片,模型能夠在盡量不遺漏肝、腎組織所有真正硅藻的情況下大量減少需要人工復核的圖片數(shù)量,使人工識別量從6 392 張降至300 張以下,很大程度上節(jié)省了識別時間。
然而,該模型也存在一些不足,值得改進:(1)該模型對于肝、腎組織的PR不高,雖然已大大減少了待識別的圖像數(shù)量但仍需要硅藻檢驗經(jīng)驗豐富的專家進行復核。這與模型訓練使用的樣本圖像集中肺組織圖像較多有關(guān),后續(xù)將加入大量肝、腎圖像樣本,使模型提高該類組織的PR,降低假陽性率,使沒有硅藻檢驗經(jīng)驗的人員也能使用該模型進行識別。(2)目前該模型僅支持硅藻檢出,并不支持硅藻種屬分類識別。后期也將在訓練圖像集中增加硅藻種屬類別標簽進行訓練,嘗試利用該模型進行硅藻種屬自動識別研究。
近年來,利用數(shù)字化方法識別硅藻越來越受人們關(guān)注,有多項研究已涉及基于深度學習的硅藻圖像識別。ZHOU 等[10]基于GoogLeNet 模型建立了強酸消化-光學顯微鏡檢驗法的硅藻自動識別模型,模型受試者操作特征(receiver operator characteristic,ROC)曲線的曲線下面積(area under the curve,AUC)達0.982,并在實際案例應(yīng)用中取得了92.45%的總體PR[11]。YU 等[12]利用RetinaNet 模型實現(xiàn)了硅藻電子顯微鏡圖像的自動識別,模型在0.5 閾值下的PR為0.82、RR為0.88。在實際應(yīng)用中,YOLOv3 模型識別能夠達到較高的RR,并大幅降低了需要人工復核的硅藻陽性圖像數(shù)量,對于肺、肝、腎組織的完整硅藻和碎片硅藻都能有效檢出,在微波消解-真空抽濾-掃描電子顯微鏡法檢案中具有應(yīng)用可行性。
目前利用深度學習模型進行硅藻種屬識別的研究也在不斷進行[16-19],相信未來基于深度學習模型進行硅藻識別與分類的研究將會更加成熟與完善,該技術(shù)將逐漸應(yīng)用于法醫(yī)學實踐中提升硅藻檢驗的效率。
綜上所述,本研究基于深度學習中的YOLOv3 模型構(gòu)建了一個硅藻電子顯微鏡圖像識別模型,模型在訓練階段取得了良好的性能,并在實際案例應(yīng)用中展現(xiàn)了可行性。該模型能以極快的速度進行識別,并在一定的閾值下取得良好的硅藻RR和肺組織硅藻PR,顯著降低了人工識別硅藻的工作量。未來計劃進一步提高模型在肝、腎組織中的硅藻PR,完善硅藻種屬識別功能,擴展該模型的應(yīng)用前景。