国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于變長時間間隔LSTM方法的胎兒異常體重預(yù)測①

2020-03-18 07:54張碩彥吳英飛袁貞明胡文勝
關(guān)鍵詞:間隔胎兒孕婦

張碩彥,吳英飛,袁貞明,盧 莎,胡文勝

1(杭州師范大學(xué) 杭州國際服務(wù)工程學(xué)院,杭州 311121)

2(杭州市婦產(chǎn)科醫(yī)院,杭州 310008)

1 介紹

預(yù)測胎兒體重是產(chǎn)前監(jiān)護(hù)的重要內(nèi)容,是醫(yī)生對孕婦進(jìn)行臨床處理的重要依據(jù).近年來研究顯示,低體重兒的存活率和扛感染能力相對低下[1],并且與低智商有密切聯(lián)系[2].而巨大兒則會引起胎兒宮內(nèi)窘迫、新生兒窒息、肩難產(chǎn)[3,4]等.產(chǎn)前預(yù)測胎兒體重,對于避免新生兒體重異常,恰當(dāng)選擇分娩方式具有重要意義.孕婦的產(chǎn)前體檢記錄屬于特殊的電子病歷.圍產(chǎn)醫(yī)學(xué)規(guī)定的產(chǎn)前體檢、孕婦個人的健康狀況和高危妊娠的隨訪等使得孕婦的體檢次數(shù)和體檢時間間隔各不相同.因而造成了體檢事件在妊娠時間上的不均勻時間間隔分布.圖1 是孕婦產(chǎn)前體檢示意圖.矩形表示妊娠起點(diǎn),3 個圓點(diǎn)表示孕婦的前3 次產(chǎn)前體檢記錄,倒三角表示分娩.以上事件以時間順序在數(shù)軸上從左往右排列,事件之間的距離大小表示時間間隔的長短.妊娠時間用ΔTk表示,相鄰兩次體檢之間的時間間隔用 Δtk表示(k=1,2,3,···,N).孕婦每次體檢的時間間隔不僅與妊娠時間有關(guān),而且與相鄰兩次體檢之間的時間間隔有密切聯(lián)系.傳統(tǒng)的RNN 和LSTM 模型默認(rèn)序列之間是相等時間間隔的,以序列的先后順序表示時間信息,在模型層面并沒有時間概念,難以充分有效地表征數(shù)據(jù)不均勻時間間隔的關(guān)系.基于以上,本研究從模型層面出發(fā),將妊娠時間 ΔT和間隔時間 Δt做嵌入表示,在LSTM 模型中的“遺忘門”和“記憶門”分別增添“時間門”,模型以“時間門控”的方式控制“狀態(tài)”信息,間接表征不均勻時間間隔信息.文章安排如下:第1 部分介紹,闡明胎兒體重預(yù)測的意義和孕婦的體檢事件分布特點(diǎn),第2 部分相關(guān)工作,闡述目前胎兒體重預(yù)測任務(wù)的主流方法和不足,以及深度學(xué)習(xí)在電子病歷中的應(yīng)用.第3 部分是任務(wù)定義和模型介紹,第4 部分是數(shù)據(jù)預(yù)處理和實(shí)驗(yàn)設(shè)計,第5 部分是實(shí)驗(yàn)結(jié)果和討論,最后部分是結(jié)論.

圖1 孕婦產(chǎn)前體檢記錄分布示意圖

2 相關(guān)工作

在臨床工作中,產(chǎn)科醫(yī)生經(jīng)常采用宮高腹圍測量法[5-8]和超聲測量法[9,10]估算胎兒體重.兩者根據(jù)孕婦的檢查數(shù)據(jù)為參數(shù),通過公式來估計胎兒體重.宮高腹圍法簡單快捷無副作用,孕婦可在家中自行測量.超聲法則以其更精確的優(yōu)點(diǎn)成為目前應(yīng)用最廣泛的方法.但是,這兩種方法均存在不同的弊端.首先,由于產(chǎn)科工作的特殊性,在一些緊急情況下不能及時為孕婦完成超聲檢查,此時使用宮高腹圍法便成為一個很好的選擇.超聲法是目前較為準(zhǔn)確的測量方法,但是,多次做超聲檢查是否有副作用存在爭議,一般情況下,孕婦產(chǎn)前的超聲檢查僅為3-4 次.除以上兩種公式估算方法外,機(jī)器學(xué)習(xí)方法也可以將孕婦的宮高、腹圍,胎兒的雙頂徑、頭圍、腹圍、股骨長等數(shù)據(jù)為參數(shù)預(yù)測胎兒體重,在刁曉娣等的研究中[11],使用人工神經(jīng)網(wǎng)絡(luò)預(yù)測胎兒體重,Xu ZP 等[12]在人工神經(jīng)網(wǎng)絡(luò)中添加了正則化條件來預(yù)測胎兒體重.雖然,機(jī)器學(xué)習(xí)方法已應(yīng)用到胎兒體重預(yù)測任務(wù)中,但是其方法大多為人工神經(jīng)網(wǎng)絡(luò),不同的研究雖對人工神經(jīng)網(wǎng)絡(luò)有不同的修改,但其本質(zhì)仍舊是MLP(多層感知機(jī)).無論是宮高腹圍法、超聲測量法還是經(jīng)典機(jī)器學(xué)習(xí)方法,僅取孕婦分娩前一周內(nèi)的數(shù)據(jù)作為估算或預(yù)測參數(shù),而忽略了孕婦在多次體檢記錄中反映出來的變化.其次,在胎兒體重預(yù)測的研究中,尚未將孕婦的高危妊娠和疾病信息考慮進(jìn)去.因此,此類研究不具有普適性.

3 變長時間間隔LSTM 模型

孕婦在孕周時間上的體檢統(tǒng)計分布如圖2 所示,橫軸表示妊娠周,深色的小矩形表示孕婦在對應(yīng)的妊娠周做了體檢,每一橫行表示孕婦體檢周的一種統(tǒng)計分布,縱軸表示每一種統(tǒng)計分布的人數(shù).例如,孕婦a 的體檢時間周是序列[16,20,24,28,30,32,34,35,36,37,38,39],序列中的每一項(xiàng)是做體檢的妊娠周,這串序列為一種體檢周統(tǒng)計分布,假設(shè)孕婦b 與孕婦a 的體檢時間周完全一致,即,孕婦b 的體檢妊娠周也為[16,20,24,28,30,32,34,35,36,37,38,39],那么,符合該統(tǒng)計分布的孕婦的數(shù)量加1,反映在圖2 中是最上方的第一橫行,橫坐標(biāo)為[16,20,24,28,30,32,34,35,36,37,38,39]處是深色矩形.每一橫行在左邊對應(yīng)的縱坐標(biāo)上的數(shù)值是體檢的妊娠周完全符合該統(tǒng)計分布的孕婦人數(shù),即,體檢孕周是[16,20,24,28,30,32,34,35,36,37,38,39]統(tǒng)計分布的孕婦共有21 人.10 473 個孕婦共有9480 種統(tǒng)計分布.按照每種分布的孕婦人數(shù)降序排列,圖2 繪制了人數(shù)最多的前30 種統(tǒng)計分布.根據(jù)圖2 可知,在9480 種體檢統(tǒng)計分布中,人數(shù)最多的僅有21 人,由于大部分孕婦的體檢周的分布差異巨大,因此,孕婦的體檢記錄在妊娠周時間上無法對齊,需要在傳統(tǒng)的LSTM 中引入時間信息.

圖2 孕婦體檢周統(tǒng)計分布圖(前30 種統(tǒng)計分布)

本文用P={p1,p2,···,pi,···,pN}表示孕婦集合,用R={r1,r2,···,ri,···,rN} 表示孕婦體檢記錄集合.N表示孕婦總?cè)藬?shù),i表示第i個孕婦,孕婦pi對應(yīng)的體檢記錄為ri.每一個孕婦的體檢記錄和體檢時間表示為Mi:=其中,和分別表示第i個孕婦的第k次體檢的記錄和時間,l表示體檢次數(shù).根據(jù)當(dāng)前的妊娠時間Δ和距上次體檢的間隔時間Δ的計算方式分別如式(1),式(2):

本文的目標(biāo)是根據(jù)Mi,輸出胎兒出生體重的預(yù)測值.在標(biāo)準(zhǔn)的RNN 和LSTM 中,第k個時間步的輸入是xk=其中,⊕ 表示做向量拼接.在變長時間間隔LSTM 中,第k個時間步的輸入是xk,由于孕婦第一次體檢無間隔時間 Δt,故令

變長時間間隔LSTM 模型即為Variable Time Interval-LSTM(VTI-LSTM).標(biāo)準(zhǔn)的LSTM 模型的表達(dá)式[13]如式(3)-式(7):

LSTM 模型結(jié)構(gòu)如圖3(a)所示.我們將妊娠時間ΔT和間隔時間Δt做嵌入表征[14],如式(8),式(9):

然后,本文分別向Standard LSTM 模型的“輸入門”和“遺忘門”中以時間門控的方式引入妊娠時間ΔT和間隔時間Δt,即,將式(5)換為式(10):

對于式(10)中(1-T2k)項(xiàng),時間間隔的嵌入表征T2k越小,模型對過去事件的“遺忘”越少.而T1k則表示某次體檢的妊娠時間對該次輸入的“記憶”的多少.VTI-LSTM 模型結(jié)構(gòu)如圖3(b)所示,左上角分別是兩個“時間門”時間門1 和時間門2,時間門1 的輸入是xk和ΔTk,時間門2 的輸入是xk和Δtk.

4 實(shí)驗(yàn)和數(shù)據(jù)

4.1 特征篩選

研究表明,胎兒體重不僅與孕婦的宮高[15]、腹圍[16]相關(guān),而且與身高體重[17,18]、胎次[19]、年齡、糖尿病[20]等因素有關(guān).本研究中,本文選取孕婦的宮高腹圍和高危因素等方便獲取的參數(shù)作為模型的輸入特征.根據(jù)數(shù)據(jù)中的特征,計算各項(xiàng)特征與胎兒體重的皮爾森相關(guān)系數(shù)和P值.皮爾森相關(guān)系數(shù)計算公式如式(11).

圖3 兩個LSTM 模型圖

其中,xi和yi分別是兩個變量的數(shù)據(jù)項(xiàng),和分別是兩個變量的平均值,N是樣本總數(shù).sx和sy分別是兩個變量的標(biāo)準(zhǔn)差.P值即為原假設(shè)H0:ρ =0,備擇假設(shè)H1:ρ ≠0的t分布雙邊檢驗(yàn).P值計算公式如式(12),式(13):

其中,T服從n-2 自由度的t分布,Pvalue即為P值.計算結(jié)果如表1 所示,保留3 位有效數(shù)字.我們選擇P值低于0.05 的特征,包含妊娠周、年齡、身高、體重、宮高、腹圍、胎次、早產(chǎn)史、胎盤異常、胎位不正、胎膜早破、糖尿病、輔助生殖、多胎共14 個特征.其中,妊娠周、年齡、身高、體重、宮高、腹圍、胎次屬于數(shù)值型數(shù)據(jù),早產(chǎn)史、胎盤異常、胎位不正、胎膜早破、糖尿病、輔助生殖、多胎屬于類別型數(shù)據(jù).

表1 相關(guān)性分析結(jié)果

4.2 數(shù)據(jù)預(yù)處理

將胎兒體重以小于2500 g、在2500 g 和4000 g之間、大于4000 g 為標(biāo)準(zhǔn)分別劃分為低體重兒、正常體重兒、巨大兒,如表2 所示,可以看出,低體重兒和巨大兒樣本量與正常體重兒數(shù)量差距較大,因此在分類任務(wù)的訓(xùn)練集中,將低體重兒和巨大兒樣本做過采樣處理,在總體的回歸任務(wù)上不做過采樣處理.為避免數(shù)據(jù)中不同的量綱對模型造成影響,本文采用歸一化的方式處理數(shù)值型數(shù)據(jù).繪制胎兒體重分布圖,如圖4所示,橫坐標(biāo)表示胎兒體重,縱坐標(biāo)表示與該體重對應(yīng)的胎兒數(shù)量.根據(jù)橫坐標(biāo)間距和樣本數(shù)量,將樣本劃分為3 段,分別用倒三角、圓點(diǎn)、正三角表示.觀察可得,胎兒體重大多集中在中間圓點(diǎn)的區(qū)域,兩邊倒三角和正三角區(qū)域則較為稀疏,并且胎兒體重在橫坐標(biāo)上跨度較大,使用常規(guī)的歸一化方法必然導(dǎo)致中間區(qū)域大量樣本的歸一化結(jié)果差異非常小,導(dǎo)致模型表現(xiàn)較差.因此,我們采用分段縮放的方法,犧牲小樣本上橫坐標(biāo)的間距,放大大量樣本的橫坐標(biāo)間距.倒三角樣本點(diǎn)、圓樣本點(diǎn)、正三角樣本點(diǎn)分布的橫坐標(biāo)區(qū)間分別記為I1、I2、I3,區(qū)間內(nèi)胎兒體重數(shù)值種類的數(shù)量分別記為C1、C2、C3,則各區(qū)間的密度分別記為式(14)~式(16),

表2 胎兒體重分類

圖4 胎兒體重分布圖

在區(qū)間I1 上,對樣本進(jìn)行一次線性歸一化,如式(17):

將I1new、I2new、I3new合并為一個大區(qū)間,記為Itotal,再對Itotal做一次類似式(14)的線性歸一化計算.

經(jīng)過上述分段縮放和歸一化計算,最終,數(shù)值類型數(shù)據(jù)的間隔相對均勻,且保留了各子區(qū)間內(nèi)的線性關(guān)系,可提升模型效果.我們對身高、體重、宮高、腹圍、胎兒體重5 個數(shù)值型數(shù)據(jù)做了上述計算,其他數(shù)值型數(shù)據(jù)分布較為均勻,僅做簡單的線性歸一化.對于類別型數(shù)據(jù),本文采用one-hot 的編碼方式,當(dāng)某一孕婦的體檢記錄包含多種類別型數(shù)據(jù),那么與該孕婦對應(yīng)的類別信息為multi-hot 向量.

孕婦的體檢次數(shù)如圖5 所示,橫坐標(biāo)表示孕婦體檢次數(shù),縱坐標(biāo)表示孕婦人數(shù).最少體檢次數(shù)為1 次,最多體檢次數(shù)為24 次,孕婦的體檢記錄是一個變長序列.對于時序模型,需要將孕婦的體檢記錄做填充.上面提到的特征篩選中,孕婦的一次體檢記錄共有14 維.本文用1×14 的0 向量將孕婦的體檢記錄填充至24 次,0 向量不參與模型計算.因此,10 473 個孕婦的122 462條體檢記錄轉(zhuǎn)化為一個三維矩陣,第一維度表示最大體檢次數(shù),第二維度表示每條體檢記錄的特征數(shù)量,第三維度表示孕婦總?cè)藬?shù).

4.3 實(shí)驗(yàn)設(shè)置

本文將產(chǎn)前的體檢記錄作為模型的輸入,胎兒出生體重作為預(yù)測目標(biāo),10 473 個孕婦的最后一次體檢記錄與分娩時間在同一周內(nèi).實(shí)驗(yàn)分為公式法和機(jī)器學(xué)習(xí)方法2 部分.公式法是選取4 個不同的胎兒體重估算公式[5-8]作為對照,4 個估算公式如式(21)~式(24),分別對應(yīng)公式法1~公式法4.其中,BW是胎兒的出生體重(單位為g),FH是宮高(單位為cm),AG是腹圍(單位為cm).

機(jī)器學(xué)習(xí)方法采用GBDT、MLP、SVR、RNN、LSTM、VTI-LSTM 等6 種模型,損失函數(shù)采用二次代價函數(shù),如式(25):

其中,yi和分別是預(yù)測值和真實(shí)值.N是訓(xùn)練集中孕婦總?cè)藬?shù).為直觀展示預(yù)測誤差,我們采用平均相對誤差如式(26):

其中,yj是 預(yù)測值,是真實(shí)值.M是測試集中孕婦總?cè)藬?shù).在實(shí)際臨床工作中,我們更關(guān)注異常體重胎兒,僅以回歸任務(wù)的相對誤差作為預(yù)測結(jié)果顯然是不夠的,因此,實(shí)驗(yàn)分為兩個任務(wù):

(1)對低體重兒、正常體重兒、巨大兒的分類.分類按照表2 劃分為3 類,我們從低體重兒、正常體重兒、巨大兒中各抽取50 個作為分類任務(wù)的測試集,根據(jù)分類預(yù)測結(jié)果計算各類體重的MRE 并繪制混淆矩陣.由于胎兒體重的各類樣本數(shù)量不平衡,因此需要對訓(xùn)練集中的低體重兒和巨大兒做過采樣處理.

(2)計算總體上的回歸誤差,訓(xùn)練集不做過采樣處理,總體回歸的測試集保持?jǐn)?shù)據(jù)中原始的各類體重兒的比例.訓(xùn)練集和測試集按照10:1 劃分.

圖5 孕婦體檢次數(shù)分布圖

5 實(shí)驗(yàn)結(jié)果和討論

胎兒體重預(yù)測結(jié)果的平均相對誤差如表3 所示.其中,實(shí)驗(yàn)結(jié)果的前3 列是分類任務(wù)在低體重兒、正常體重兒、巨大兒的預(yù)測上的MRE.第4 列是總體回歸任務(wù)的誤差,也即,前3 列的機(jī)器學(xué)習(xí)方法中,對訓(xùn)練集中的小樣本做了過采樣處理,第4 列的機(jī)器學(xué)習(xí)方法中,對訓(xùn)練集中的小樣本沒有做過采樣處理,保留原始數(shù)據(jù)中各類樣本的比例.公式法無訓(xùn)練集,直接在測試集上計算即可.總體來看4 個公式法預(yù)測的結(jié)果弱于機(jī)器學(xué)習(xí)方法.式(21)、式(24)方法包含宮高腹圍兩個參數(shù),式(22)僅有宮高參數(shù),式(23)僅有一個腹圍參數(shù),所以,式(23)法容易受到孕婦腹部脂肪的干擾,結(jié)果較差,式(22)相對式(23)較好,但弱于式(21)和式(24).式(21)的預(yù)測結(jié)果偏向于正常體重兒,在所有的方法中取得最小的正常體重兒預(yù)測結(jié)果誤差.GBDT、MLP、SVR 等3 種經(jīng)典的機(jī)器學(xué)習(xí)模型的預(yù)測結(jié)果并無較大差異.RNN、LSTM、VTI-LSTM 等3 種時序模型方法中,LSTM 結(jié)果僅次于VTI-LSTM,RNN 結(jié)果較差,說明僅使用簡單的遞歸循環(huán)難以學(xué)習(xí)到孕婦多次體檢的變化.VTI-LSTM 在低體重兒和巨大兒MRE 上取得最好的預(yù)測結(jié)果,而在正常體重兒MRE 上弱于式(21).

由于在分類任務(wù)中,我們對小樣本做了過采樣處理,所以導(dǎo)致機(jī)器學(xué)習(xí)模型犧牲正常體重兒的結(jié)果,偏向低體重兒和巨大兒.觀察第4 列的結(jié)果,不做小樣本過采樣處理的總體回歸誤差仍舊是VTI-LSTM 效果最好,根據(jù)表2 的統(tǒng)計結(jié)果,占據(jù)樣本大多數(shù)的正常體重兒的體重范圍是2500~4000 g,區(qū)間跨度并不大,所以導(dǎo)致機(jī)器學(xué)習(xí)模型的總體MRE 結(jié)果相差較小.由于我們采用的是MRE 作為誤差度量的方式,根據(jù)圖4 可以看出,低體重兒的多樣性比巨大兒豐富,并且低體重兒計算MRE 公式的分母較小,所以在所有的方法中,低體重兒的MRE 高于巨大兒.

表3 測試集中胎兒體重預(yù)測的平均相對誤差MRE(%)

分類預(yù)測結(jié)果的混淆矩陣如圖6 所示.縱坐標(biāo)表示真實(shí)類別,橫坐標(biāo)表示預(yù)測類別.L表示低體重兒(low birth-weight infant),N表示正常體重兒(normal birth-weight infant),M表示巨大兒(macrosomia).公式法1、公式法2、公式法4 中,將大部分樣本分類到正常體重中,僅使用腹圍作為預(yù)測參數(shù)的公式法3 則傾向于將樣本分類到巨大兒中,預(yù)測結(jié)果受到了孕婦腹部脂肪的影響.GBDT、MLP、SVR 三者中,MLP 結(jié)果相對較差,GBDT 和SVR 無明顯差異.RNN 的分類結(jié)果與公式法接近,LSTM 和VTI-LSTM 明顯優(yōu)于其他方法,LSTM 與VTI-LST 相比,LSTM 偏向于分類到正常體重兒中,VTI-LSTM 則在低體重兒和巨大兒的分類中取得最好的結(jié)果,說明不均勻離散時間在“輸入門”和“遺忘門”上的嵌入表征起到了很大的作用.上述的方法和模型中,無論是哪一種,對低體重兒和巨大兒的分類仍舊是一個挑戰(zhàn).根據(jù)表2 中的數(shù)據(jù),低體重兒和巨大兒分別僅占新生兒總數(shù)的3.41%和3.27%,各類樣本比例失衡,雖然在訓(xùn)練集中我們采取了對小樣本過采樣的預(yù)處理方式,但仍舊難以避免小樣本數(shù)據(jù)缺乏多樣性的問題.另外,體重低于2 000 g 的低體重兒和體重高于4 500 g 的巨大兒分別占低體重兒和巨大兒較小的比例,導(dǎo)致低體重兒、正常體重兒、巨大兒的分類間隔較小.對比低體重兒和巨大兒的分類,低體重兒的分類結(jié)果明顯優(yōu)于巨大兒.原因有如下兩點(diǎn):第一,在我們的特征中,包含孕周信息,分娩低體重兒的孕婦的妊娠時間普遍少于正常的妊娠時長.第二,由于現(xiàn)代社會生活水平普遍較高,胎兒體重偏大,在孕36 周時,許多胎兒已經(jīng)發(fā)育成熟,且體重在正常范圍內(nèi),這類胎兒和足月兒相比會提前1-2 周分娩,增加了模型識別巨大兒的難度.

圖6 測試集上預(yù)測結(jié)果的混淆矩陣

6 結(jié)論

本研究在胎兒體重預(yù)測任務(wù)上分別使用了4 種公式法和3 種經(jīng)典的機(jī)器學(xué)習(xí)方法以及3 種時序模型方法.其中,本研究提出的VTI-LSTM 模型在低體重兒和巨大兒的分類預(yù)測中取得了較好的結(jié)果并在總體的誤差回歸上取得最小的MRE.傳統(tǒng)的公式法弱于經(jīng)典的機(jī)器學(xué)習(xí)模型和時序模型.而時序模型中的LSTM 可以學(xué)習(xí)到孕婦每次體檢的變化以及胎兒的生長速率,預(yù)測結(jié)果有大幅提升.VTI-LSTM 將每次體檢的時間間隔和體檢的妊娠時間在模型層面上表征,模型可以學(xué)習(xí)到孕婦體檢記錄的不均勻時間間隔,又在LSTM 的基礎(chǔ)上得到提升.綜上,本研究可為醫(yī)生和孕婦判斷胎兒生長發(fā)育提供一個相對準(zhǔn)確的參考.

猜你喜歡
間隔胎兒孕婦
產(chǎn)前超聲診斷胎兒雙主動弓1例
孕婦睡眠質(zhì)量的研究進(jìn)展
胎兒三維超聲科普知識
妊娠劇吐如何進(jìn)行飲食及心理護(hù)理
間隔之謎
這些孕婦任性有理
上樓梯的學(xué)問
頭夾球接力
警惕孕婦缺乏維生素B6
預(yù)測胎兒缺陷的新方法