【作 者】吳沈冠,鄧艷軍,張燁菲,邵李煥,趙治棟
1 杭州電子科技大學(xué) 通信工程學(xué)院,杭州市,310018
2 杭州電子科技大學(xué) 電子信息學(xué)院,杭州市,310018
在臨床實(shí)踐中,通常將妊娠期滿28周但不足37周時(shí)出生的新生兒稱為早產(chǎn)兒。早產(chǎn)兒在胎齡、體重、身體各器官發(fā)育成熟度上都低于正常的新生兒,將來(lái)極有可能出現(xiàn)支氣管肺發(fā)育不良、早產(chǎn)性視網(wǎng)膜病變等嚴(yán)重的不良預(yù)后。根據(jù)世界衛(wèi)生組織的報(bào)告,每年至少有1500萬(wàn)早產(chǎn)兒出生,我國(guó)每年新生兒約2000多萬(wàn)名,其中約10%為早產(chǎn)兒[1]。子宮的收縮是分娩發(fā)動(dòng)的重要特征之一,隨著妊娠的推進(jìn),胎兒逐漸成熟,子宮壁的張力隨著宮腔容積的增大而不斷增強(qiáng)。宮縮活動(dòng)隨著分娩期的臨近,從不規(guī)律、低強(qiáng)度逐漸趨向于規(guī)律和高強(qiáng)度。因此對(duì)孕婦宮縮狀況進(jìn)行實(shí)時(shí)有效地監(jiān)測(cè)對(duì)實(shí)現(xiàn)胎兒早產(chǎn)預(yù)測(cè)具有重大的臨床意義。
目前臨床主要使用的子宮收縮活動(dòng)監(jiān)測(cè)技術(shù)是子宮內(nèi)壓力導(dǎo)管法(intrauterine pressure catheter,IUPC)和分娩壓力描記法(tocodynamometer,TOCO)。IUPC在安全性方面略有不足,容易對(duì)胎兒造成傷害,更有可能帶來(lái)嚴(yán)重的相關(guān)并發(fā)癥,比如胎盤(pán)或子宮壁穿孔。TOCO法檢測(cè)結(jié)果易受各方面的影響,如TOCO探頭的放置位置和皮下脂肪厚度;此外,宮內(nèi)胎兒運(yùn)動(dòng)、母親呼吸、探頭綁縛的松緊程度以及產(chǎn)婦的身體質(zhì)量指數(shù)(body mass index,BMI)等也會(huì)影響檢測(cè)結(jié)果的準(zhǔn)確性。
子宮肌電(electrohysterography,EHG)信號(hào)法通過(guò)采集孕婦腹部的子宮肌電信號(hào),能夠無(wú)創(chuàng)地監(jiān)測(cè)子宮收縮活動(dòng),具有高準(zhǔn)確性和非侵入性的特點(diǎn),彌補(bǔ)了目前子宮收縮活動(dòng)監(jiān)測(cè)技術(shù)的不足。THIJSSEN等[2]在使用者和孕婦兩個(gè)角度對(duì)三種子宮收縮監(jiān)測(cè)方法的優(yōu)劣及偏好程度做了調(diào)查與統(tǒng)計(jì),也證實(shí)了EHG方法比TOCO法和IUPC法更受歡迎。
國(guó)內(nèi)外許多學(xué)者從不同角度分析了EHG,提出了許多分類算法。對(duì)EHG信號(hào)進(jìn)行線性特征分析(時(shí)域和頻域)是最常見(jiàn)的分析方法:FELE-ZORZ等[3]使用頻域分析方法對(duì)EHG進(jìn)行了研究,分析了其功率譜密度、中值頻率以及自相關(guān)過(guò)零點(diǎn)等線性特征值。FERGUS等[4]從濾波后的EHG信號(hào)中提取峰值頻率、中值頻率、均方根和樣本熵等特征對(duì)EHG信號(hào)進(jìn)行了分類。而后SABRY-RIZK等[5]驗(yàn)證了EHG信號(hào)的非線性動(dòng)力學(xué)特性,HASSAN等[6]將時(shí)間可逆性作為非線性特征參數(shù)用于識(shí)別產(chǎn)婦的生產(chǎn)狀態(tài)。無(wú)論是基于線性特征分析還是非線性特征分析,這些算法是否具有較好的分類準(zhǔn)確性往往依賴于手動(dòng)提取的特征能否較好地反映母體的宮縮狀況,因此具有較大的不穩(wěn)定性。
深度學(xué)習(xí)技術(shù)能夠進(jìn)行特征的自學(xué)習(xí),對(duì)復(fù)雜模型也具有較強(qiáng)的擬合能力,能夠大大提升訓(xùn)練效果,并且具有強(qiáng)大的圖像處理技術(shù),近年來(lái)在生物醫(yī)學(xué)方面得到廣泛運(yùn)用。王瑩[7]和PENG[8]等學(xué)者分別于2018年和2019年提出了基于卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)的EHG胎兒早產(chǎn)估計(jì)模型,并取得了理想的預(yù)測(cè)效果。
我們提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的早產(chǎn)預(yù)測(cè)算法,主要工作與創(chuàng)新點(diǎn)體現(xiàn)在以下方面:①對(duì)EHG信號(hào)的預(yù)處理,將信號(hào)進(jìn)行截取并通過(guò)格拉姆角差域(Gramian angular difference field,GADF)圖來(lái)分析不同時(shí)間點(diǎn)的時(shí)間相關(guān)性,將一維的時(shí)間信號(hào)轉(zhuǎn)換為二維圖像;②將預(yù)處理完的信號(hào)作為輸入層,構(gòu)建基于遷移學(xué)習(xí)的AlexNet模型,有效識(shí)別早產(chǎn),輔助臨床診斷。
本研究使用的數(shù)據(jù)來(lái)源于1997年至2005年在盧布爾雅那大學(xué)醫(yī)學(xué)中心婦產(chǎn)科獲得的足月-早產(chǎn)EHG數(shù)據(jù)庫(kù)(TPEHGDB)[3]。此數(shù)據(jù)庫(kù)記錄了近1300位孕婦在妊娠的第22周或第32周檢測(cè)到的EHG信號(hào),并從中篩選出300組EHG信號(hào)作為樣本,包括262組足月產(chǎn)記錄和38組早產(chǎn)記錄,采樣頻率為20 Hz。在38份早產(chǎn)記錄中,有19份記錄是在妊娠第26周前獲得的,另外19份記錄是在妊娠第26周內(nèi)或第26周后獲得的。圖1展示了來(lái)自該數(shù)據(jù)庫(kù)的一組足月EHG信號(hào)和早產(chǎn)EHG信號(hào)。
圖1 足月胎兒和早產(chǎn)胎兒的EHG信號(hào)Fig.1 EHG signal from term fetus and preterm fetus
為了盡可能地減少樣本不均衡對(duì)預(yù)測(cè)性能造成的負(fù)面影響,我們選取了來(lái)自76位孕婦的38組足月產(chǎn)樣本和38組早產(chǎn)樣本作為訓(xùn)練集,再隨機(jī)從未經(jīng)訓(xùn)練的剩余樣本中選取76組樣本作為驗(yàn)證集,考慮到訓(xùn)練集早產(chǎn)樣本信號(hào)在妊娠第26周前和妊娠第26周內(nèi)或之后采集的兩種采集時(shí)間,因此也保證了訓(xùn)練集、測(cè)試集、驗(yàn)證集樣本在采集時(shí)間方面的均衡性,即采集于妊娠第26周前的樣本數(shù)量和妊娠第26周內(nèi)或之后的樣本數(shù)量各占樣本總量的50%。
由于子宮肌電信號(hào)具有非平穩(wěn)、非線性的特點(diǎn),將其一維時(shí)間序列直接作為輸入層不易于分析其復(fù)雜的生理特性以及蘊(yùn)含的信息,而GADF能通過(guò)半徑來(lái)保持序列點(diǎn)與點(diǎn)、段與段之間的時(shí)間依賴性,并且能利用格拉姆矩陣的主對(duì)角線從深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到高層次特征中重建時(shí)間序列。因此我們通過(guò)GADF方法將一維時(shí)間序列轉(zhuǎn)換到極坐標(biāo)系統(tǒng),進(jìn)而分析不同時(shí)間點(diǎn)的時(shí)間相關(guān)性。
1.2.1 縮放
通過(guò)式(1)對(duì)數(shù)據(jù)進(jìn)行(-1,1)的標(biāo)準(zhǔn)化,其中X表示一段一維EHG信號(hào),xi表示時(shí)間序列上第i個(gè)點(diǎn)的值。
1.2.2 坐標(biāo)轉(zhuǎn)換
通過(guò)式(2)將已經(jīng)標(biāo)準(zhǔn)化的信號(hào)轉(zhuǎn)換到極坐標(biāo)系統(tǒng),其中將時(shí)間序列對(duì)應(yīng)的值作為余弦?jiàn)A角,時(shí)間戳作為半徑。該信號(hào)的長(zhǎng)度為N,在本實(shí)驗(yàn)中,為了與臨床輔助診斷相結(jié)合,采用的信號(hào)長(zhǎng)度統(tǒng)一為18000點(diǎn),即15 min的采樣時(shí)長(zhǎng)。
1.2.3 格拉姆角差域(GADF)
在經(jīng)過(guò)第一步的數(shù)據(jù)標(biāo)準(zhǔn)化后,的值應(yīng)在[-1,1],因此θi的范圍在[0,π]。通過(guò)式(3)求得GADF的值。
1.2.4 PAA取參
經(jīng)上述變換可知,已知一段長(zhǎng)度為n的時(shí)間序列數(shù)據(jù),在經(jīng)過(guò)GADF變換后將得到一個(gè)大小為[n,n]的矩陣,在數(shù)據(jù)量較多的情況下,過(guò)大的n值將大大影響變換的效率。因此考慮使用分段聚合近似(piecewise aggregate approximation,PAA)的方法適當(dāng)減小矩陣大小。本實(shí)驗(yàn)將一段EHG信號(hào)分為不同的m段。過(guò)大的m值不利于提升效率,同時(shí)也使得段與段的關(guān)聯(lián)性區(qū)別性不大,過(guò)小的m值雖然有助于提升效率,但是會(huì)使得過(guò)多的信息被壓縮,不利于特征的提取,影響分類準(zhǔn)確性。因此我們采取了兩種不同的參數(shù)選取方法進(jìn)行對(duì)比:
(1)等比法取參,初始維度為9000,每次除以2,即4500、2250、1125、560、280、140、70、35,每組數(shù)據(jù)生成9張圖片。圖2所示為等比法采取參數(shù)生產(chǎn)的一組足月產(chǎn)樣本圖片和早產(chǎn)樣本圖片。
圖2 足月與早產(chǎn)胎兒的GADF等比法Fig.2 Equal ratio method of GADF signal from term and preterm fetus
(2)等差法取參,初始維度為11000,以200為差值向下遞減,共計(jì)取26個(gè)參數(shù),直至6000。圖3所示為等差法取參生成的一組足月產(chǎn)圖片和一組早產(chǎn)樣本圖片。
圖3 足月與早產(chǎn)胎兒的GADF等差法Fig.3 Equal difference method of GADF signal from term and preterm fetus
1.2.5 輸入層
將上述生成的所有GADF圖片進(jìn)行像素調(diào)節(jié)至224像素×224像素×3像素,滿足卷積神經(jīng)網(wǎng)絡(luò)輸入層的大小需求。
1.3.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)由于其在視知覺(jué)機(jī)制方面的仿生特性,可以有效地進(jìn)行監(jiān)督學(xué)習(xí)或無(wú)監(jiān)督學(xué)習(xí),在機(jī)器視覺(jué)、自然語(yǔ)言處理、智慧醫(yī)療、計(jì)算機(jī)圖像處理等各個(gè)領(lǐng)域都有非常成功的應(yīng)用。其卷積核參數(shù)共享和稀疏連接特性能夠以較小的計(jì)算量滿足對(duì)像素等格點(diǎn)化特征的學(xué)習(xí)。常見(jiàn)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖4所示,包括輸入層、卷積層、激勵(lì)函數(shù)層、池化層、全連接層和輸出層。
圖4 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)Fig.4 Basic structure of convolutional neural network
1.3.2 AlexNet模型與遷移學(xué)習(xí)
AlexNet于2012年首次被Hiltion團(tuán)隊(duì)提出,并在ImageNet LSVRC-2012目標(biāo)識(shí)別中取得了錯(cuò)誤率為15.3%的性能,遠(yuǎn)遠(yuǎn)優(yōu)于第二名26.2%的錯(cuò)誤率,獲得了該比賽的冠軍。其主要優(yōu)勢(shì)在于把CNN的基本原理進(jìn)一步應(yīng)用到了更深層次的網(wǎng)絡(luò)中,并使用了Relu函數(shù)作為CNN的激活函數(shù),解決了使用Sigmoid作為激活函數(shù)時(shí)深層網(wǎng)絡(luò)存在梯度彌散的問(wèn)題。同時(shí)在訓(xùn)練中為了能夠有效地防止過(guò)擬合,使用了Dropout操作,隨機(jī)忽略了一部分神經(jīng)元。
深度學(xué)習(xí)技術(shù)的不斷發(fā)展,遷移學(xué)習(xí)的思想被提出,即將一個(gè)已經(jīng)在大數(shù)據(jù)樣本中訓(xùn)練完成的模型重新運(yùn)用到一個(gè)新的任務(wù)中的機(jī)器學(xué)習(xí)方法,相對(duì)于自己搭建網(wǎng)絡(luò),遷移學(xué)習(xí)使得初始網(wǎng)絡(luò)具有更好的性能,并提升了訓(xùn)練速度。常見(jiàn)的遷移學(xué)習(xí)方法有以下三種形式:①凍結(jié)全部的卷積層,只針對(duì)當(dāng)前任務(wù)設(shè)計(jì)的全連接層進(jìn)行訓(xùn)練;②計(jì)算出最終的特征向量后,利用傳統(tǒng)機(jī)器學(xué)習(xí)分類器比如SVM進(jìn)行分類;③凍結(jié)部分卷積層或者不凍結(jié)任何網(wǎng)絡(luò)層,對(duì)剩下的網(wǎng)絡(luò)進(jìn)行新任務(wù)的訓(xùn)練。
綜上所述,我們提出了基于AlexNet的卷積神經(jīng)網(wǎng)絡(luò)模型,以1.2節(jié)中的GADF圖作為輸入層,采用上述第三種遷移學(xué)習(xí)方法對(duì)模型進(jìn)行調(diào)優(yōu),實(shí)現(xiàn)基于EHG信號(hào)的早產(chǎn)識(shí)別。
基于AlexNet的卷積神經(jīng)網(wǎng)絡(luò)模型使用TPEHGDB的76組數(shù)據(jù)作為樣本空間,76組未經(jīng)訓(xùn)練的EHG數(shù)據(jù)作為驗(yàn)證集驗(yàn)證,結(jié)合準(zhǔn)確率(accuracy,Acc)和F1評(píng)分作為評(píng)估模型的性能指標(biāo)。學(xué)習(xí)率是網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵參數(shù),過(guò)低的學(xué)習(xí)率會(huì)導(dǎo)致訓(xùn)練進(jìn)度緩慢,過(guò)高的學(xué)習(xí)率會(huì)使損失函數(shù)不易收斂,因此,我們以76位孕婦的38組足月產(chǎn)樣本和38組早產(chǎn)樣本作為訓(xùn)練集,結(jié)合準(zhǔn)確率指標(biāo),評(píng)估了不同學(xué)習(xí)率參數(shù)下的性能變化情況,得到結(jié)果如圖5所示。
圖5 不同學(xué)習(xí)率下準(zhǔn)確率對(duì)比Fig.5 Accuracy comparsion chart under different learning rates
隨著學(xué)習(xí)率的增加,模型分類準(zhǔn)確率逐漸提高,在學(xué)習(xí)率為0.0005時(shí)達(dá)到峰值,學(xué)習(xí)率繼續(xù)增加,發(fā)現(xiàn)模型分類準(zhǔn)確率開(kāi)始降低。因此,學(xué)習(xí)率過(guò)大或者過(guò)小都會(huì)影響模型的分性能,我們最終設(shè)置初始學(xué)習(xí)率為5×10-4,此時(shí)模型具有良好的分類性能。
綜上,設(shè)定訓(xùn)練參數(shù)如下:初始學(xué)習(xí)率為5×10-4,迭代次數(shù)為400次,優(yōu)化器選擇動(dòng)量梯度隨機(jī)下降優(yōu)化器(stochastic gradient descent with momentum,SGDM),在驗(yàn)證集上得到的準(zhǔn)確率為94.37%,F(xiàn)1值為97.11%。
我們就GADF參數(shù)選擇和遷移學(xué)習(xí)方法兩個(gè)方面做了對(duì)比,對(duì)等比法和等差法得到的GADF數(shù)據(jù)集都進(jìn)行了訓(xùn)練調(diào)參。最后得到如表1所示的實(shí)驗(yàn)結(jié)果。
表1 AlexNet的實(shí)驗(yàn)結(jié)果(%)Tab.1 Experimental results of AlexNet
實(shí)驗(yàn)結(jié)果表明,等差法取參數(shù)并凍結(jié)部分卷積層的模型具有較好的分類性能。分析原因,在選取分段聚合近似參數(shù)m時(shí),考慮到效率問(wèn)題,參數(shù)m不易過(guò)大,等比法取參和等差法取參都很好地避免了效率問(wèn)題,但是等比法后幾個(gè)參數(shù)相比初始維度而言太小,使得信號(hào)在不斷壓縮的同時(shí)也丟失了很大一部分的重要信息,不利于卷積神經(jīng)網(wǎng)絡(luò)的特征自學(xué)習(xí),從而對(duì)分類的準(zhǔn)確率產(chǎn)生了較多的負(fù)面影響。而等差法選取的參數(shù)與初始維度差距不大,都在一個(gè)量級(jí)上,保留較多信號(hào)信息的同時(shí)也能在段與段之間存在一定的差異性,因此在訓(xùn)練集和測(cè)試集上都達(dá)到了較好的分類效果,在76組樣本組成的驗(yàn)證集上也達(dá)到了94.38%的準(zhǔn)確率。
同時(shí),將實(shí)驗(yàn)所得結(jié)果與近年來(lái)其他研究方法做了對(duì)比,如表2所示。我們所采用的GADF+AlexNet遷移學(xué)習(xí)方法相對(duì)于其他方法具有較高的準(zhǔn)確率和較好的臨產(chǎn)輔助診斷作用。
表2 不同胎兒早產(chǎn)輔助預(yù)測(cè)算法的對(duì)比Tab.2 Comparison of different algorithms
EHG信號(hào)能有效反映圍產(chǎn)期孕婦子宮收縮活動(dòng),實(shí)現(xiàn)無(wú)創(chuàng)并有效的孕婦分娩狀態(tài)評(píng)估,有利于胎兒早產(chǎn)的及時(shí)發(fā)現(xiàn),對(duì)胎兒早產(chǎn)的預(yù)測(cè)具有重大的臨床意義。使用格拉姆角差域圖將一維時(shí)間信號(hào)轉(zhuǎn)換為二維圖片,采取等比法和等差法兩種參數(shù)選取方法進(jìn)行對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)等差法選取參數(shù)相較于等比法具有更好的性能,將此作為輸入層構(gòu)建了基于AlexNet的EHG胎兒早產(chǎn)識(shí)別算法,對(duì)臨床診斷胎兒早產(chǎn)起到一定的輔助診斷作用。其中結(jié)合遷移學(xué)習(xí)技術(shù),對(duì)已經(jīng)進(jìn)行過(guò)大樣本訓(xùn)練的AlexNet模型進(jìn)行遷移,避免了深度學(xué)習(xí)需要借助大樣本數(shù)據(jù)進(jìn)行特征自學(xué)習(xí)的弊端,解決了樣本不充分的問(wèn)題。為了提高效率但又不影響模型整體的性能,在輸入層構(gòu)建的同時(shí)采取了兩種不同的參數(shù)選取方法,在一定程度上避免了有效信息的過(guò)量丟失。
在未來(lái)的研究中,一方面我們將關(guān)注小樣本EHG數(shù)據(jù)的增強(qiáng)問(wèn)題,從根源上解決數(shù)據(jù)不平衡不充分的問(wèn)題;另一方面,考慮到EHG信號(hào)對(duì)應(yīng)有宮縮段和非宮縮段,在選取輸入層樣本時(shí)將盡可能選取包含更多宮縮段的EHG信號(hào),構(gòu)建更好的卷積神經(jīng)網(wǎng)絡(luò)輸入層。