于 敏,劉楚陽,宋 暉,李 琛,王曉婷,文 華
(1.西安交通大學醫(yī)院,陜西 西安 710049;2.西安交通大學數學與統計學院,陜西 西安 710049;3.西安市婦幼保健院,陜西 西安 710002;4.西安市第四醫(yī)院,陜西 西安 710004)
出生缺陷是指胚胎由于遺傳原因或者物理、化學、生物等環(huán)境原因或二者的交互作用所引起的先天性異常[1-2]。目前,關于出生缺陷的研究主要集中在出生缺陷危險因素及流行病學特征方面,而出生缺陷預測類研究較少。為了解西安市圍產兒神經管缺陷(neural tube defects,NTDs)率的動態(tài)變化趨勢,本研究對NTDs率進行了預測,以評估NTDs未來的流行趨勢與風險。數學模型預測是運用科學的統計方法對連續(xù)的歷史數據進行未來值定量預測。準確地預測可以為出生缺陷防治策略提供依據,使資源和效率得到優(yōu)化,對出生缺陷人群的預防有指導意義。
本研究依托國家出生缺陷監(jiān)測系統,自2003年開始,收集2003年至2015年期間在西安市各級開設產科的醫(yī)療保健機構出生的孕28周至生后7天的所有圍產兒的出生缺陷監(jiān)測資料,從中得到每年西安市確診圍產兒NTDs的發(fā)生情況;對出生7天內發(fā)現但不能確診者,跟蹤至確診時填報。
一般而言,脊柱裂合并腦積水或脊柱裂合并腦膨出不需要分別計入,僅計為脊柱裂。排除隱性脊柱裂、脊柱裂合并無腦畸形者、骶尾部畸胎瘤的情況后,可通過體格檢查、超聲診斷及X線檢查進行診斷。
西安市各級開設產科的醫(yī)療保健機構均全面開展監(jiān)測工作,監(jiān)測人員全部為婦產科或兒(新生兒)科醫(yī)師,每發(fā)現1例NTDs圍產期患兒需要填報1張《出生缺陷兒登記卡》。在監(jiān)測前及監(jiān)測過程中,每年對監(jiān)測人員需進行統一培訓。
缺陷兒出生情況、診斷結果、產婦情況、產婦孕早期情況、異常生育史、缺陷兒史、家族史、近親婚配史等。出生缺陷診斷結果分為23類常見出生缺陷和其他類型。
本研究對所有出生缺陷卡均進行復核,主要核對:①當卡上登記有多種出生缺陷時是否為綜合征;②是否重復計算出生缺陷兒;③診斷為“其他”類型的出生缺陷及其詳細描述是否可以確認歸屬于常見23類常見出生缺陷中;④是否為不需報《出生缺陷兒登記卡》的異常體征或單純正常變異;⑤母親居住地、診斷時間、診斷依據、患兒出生孕周/出生時間/年齡、妊娠結局等關鍵變量是否在監(jiān)測方案界定的范圍內等。
自回歸移動平均模型(autoregressive integrated moving average model,ARIMA)的基本思想是:將預測對象隨時間推移而形成的數據序列視為一個隨機序列,用一定的數學模型近似描述這個序列。這個模型一旦被識別后就可以從時間序列的過去值及現在值預測未來值。該模型目前廣泛應用于數據分析領域,尤其是針對時間序列上具有依存性和擾動性的數據分析。ARIMA模型分為簡單季節(jié)性和乘積季節(jié)性兩種模型。ARIMA模型將非平穩(wěn)的時間序列進行平穩(wěn)化后,通過成熟的統計測算建立優(yōu)化的模型和準確的參數,擬合模型無限接近平穩(wěn)的時間序列,同時使誤差最小。結合對應的數學模型和數據,對連續(xù)變化數據的時間序列走向及趨勢進行分析和預判。簡化的建模策略主要由模型識別、模型擬合和模型診斷構成。ARIMA模型包含:AR(自回歸過程)、MA(移動平均過程)、ARMA(自回歸移動平均過程)環(huán)節(jié)。
灰色數據是數據序列中的部分信息已知,部分信息未知,同時數據序列內各因素間的關系不確定。灰色模型是針對灰色系統,通過鑒別系統因素之間的發(fā)展趨勢預測相異程度,并進行關聯度分析,同時對原始數據進行生成處理以尋找灰色系統變動的規(guī)律,形成有較強規(guī)律性的數據序列組合,然后通過建立相應的微分方程數學模型,對事物未來發(fā)展趨勢的狀況進行預測?;疑P瓦M行數據預測的步驟主要有原始數據預處理、建立預測模型和模型檢驗。
采用Excel軟件進行數據錄入,并對出生缺陷數據按年統計匯總。使用R 3.5.1軟件進行ARIMA模型預測;使用Matlab 7.0軟件進行灰色模型預測。
整理2003年至2015年西安市出生缺陷發(fā)生情況的資料,根據其NTDs發(fā)生率建立數學模型,通過建立的數學模型對2016年至2018年西安市圍生兒NTDs發(fā)生情況進行預測。
2003年至2015年共監(jiān)測圍產兒1 236 937例,確診出生缺陷兒10 619例,確診NTDs共1 241例,見表1。
表1 2003年至2015年西安市圍產兒出生缺陷及NTDs率
2.2.1讀入數據并繪制時間序列圖
結合原始數據的時間序列,在此基礎上繪制時間序列圖,觀察其隨時間變化或季節(jié)變化的趨勢。2003年至2015年西安市圍生兒NTDs率的時間序列顯示呈逐年降低趨勢,見圖1。
圖1 2003年至2015年西安市圍生兒NTDs率
2.2.2繪制自相關函數圖與偏自相關函數圖
如果時間序列是非平穩(wěn)的,則其存在向上或向下的趨勢,就需要對非平穩(wěn)的時間序列進行平穩(wěn)化處理,直到該時間序列的均值和方差趨向于常數,則可以保證序列內部性質穩(wěn)定[3]。差分是保證時間序列平穩(wěn)的數學變換方法。平穩(wěn)的時間序列的差分仍然是平穩(wěn)的,但是過度差分會對序列帶來不必要的相關性并使建模過程復雜化。為了避免過度差分,計算時應依次仔細查看各個差分并遵循簡潔性的原則。利用時間序列圖和自相關圖均可以對時間序列的平穩(wěn)性進行判斷[4]。繪制自相關函數(autocorrelation function,ACF)圖,可知時間序列非平穩(wěn),需要進行差分,見圖2。繪制偏自相關函數(partial autocorrelation function,PACF)圖,發(fā)現偏自相關函數一階截尾,因此進行一階差分,見圖3。原始時間序列經過一階差分后形成時間序列S1,使用時間序列S1繪制時間序列圖,可見時間序列S1無明顯隨時間波動趨勢,見圖4。
圖2 2003年至2015年西安市圍生兒NTDs率自相關函數圖
圖3 2003年至2015年西安市圍生兒NTDs率偏自相關函數圖
圖4 一階差分后S1序列時間序列圖
2.2.3差分后時間序列繪制自相關函數圖和偏自相關函數圖
對差分后的時間序列S1繪制自相關函數圖,見圖5。對差分后的時間序列S1繪制偏自相關函數圖,見圖6。
圖5 一階差分后S1序列自相關函數圖
圖6 一階差分后S1序列偏自相關函數圖
2.2.4時間序列模型的識別規(guī)則
總體策略遵照“Box-Jenkins方法”識別時間序列模型。首先確定合理的但為嘗試性的p、d、q值,然后估計模型中的Φ、θ、σt,嚴格審查得到的擬合模型,檢驗該模型的擬合充分性。通過模型參數,獲得參數的檢驗結果。獲得模型殘差檢驗、模型擬合優(yōu)度等指標后,按照如下模型選取原則,選擇最佳模型。首先判斷自相關函數ACF和偏自相關函數PACF是否都在95%的可信區(qū)間內,如果ACF和PACF都是拖尾的,則選擇ARMA(p,q)模型;如果ACF拖尾,但是PACF截尾,則選擇AR(p)模型;若ACF截尾,但是PACF拖尾則選擇MA(q)模型。通過觀察圖5和圖6發(fā)現,自相關函數圖中自相關系數拖尾,偏自相關函數圖中偏自相關系數拖尾,其均落在2倍標準差范圍內,且不是一致趨向于零,所以對原時間序列擬合ARMA(p,q)模型。
2.2.5進行Box-Ljung檢驗并繪制Q-Q圖
通過進行Box-Ljung檢驗,發(fā)現X-squared=0.071 189,df=1,P=0.789 6。如果P>0.05說明殘差為白噪聲,差異無統計學意義,可選擇通過擬合優(yōu)度檢驗的適宜模型,進行下一步的模型預測。本研究所用ARIMA(0,1,0)模型通過擬合優(yōu)度檢驗且殘差為白噪聲。
Q-Q圖和Box-Ljung檢驗的結果顯示,殘差符合正態(tài)性假設且不相關,則認為模型擬合數據比較充分,可以用來進行下一步預測,見圖7。
圖7 ARIMA模型的Q-Q圖結果
2.2.6 對2016年至2018年西安市圍生兒NTDs率的預測
依據模型進行計算,預測2016年至2018年西安市圍產兒NTDs率分別為0.17‰、0.16‰和0.16‰,見圖8。
注:藍色線條表示預測值。
依據2003年至2015年西安市圍產兒NTDs發(fā)生率建立灰色模型,預測2016年至2018年西安市圍產兒NTDs率。
X(0)(k)={26.26,22.89,21.34,17.73,12.79,12.22,13.14,10.11,10,9.02,3.33,2.7,1.8}
弱化算子之后的灰色數據:
X(1)(k)={12.563 846,11.422 5,10.38,9.284,8.345 556,7.79,7.157 143,6.16,5.37,4.212 5,2.61,2.25,1.8}
通過Matlab 7.0軟件計算GM(1,1)參數估計值:發(fā)展系數a=0.132 802,灰色作用量u=14.574 517。
平均相對誤差=16.202 976%,詳見表2。
相對精度=83.797 024%
X(k+1)=-97.181 993exp(-0.132 802×k)+109.745 839
表2 灰色預測模型模擬值、殘差及相對誤差
灰色模型后驗差比值檢驗:
C值=0.721 47/7.756 711=0.093
后驗差比值C值屬于[<0.35],GM(1,1)模型預測精度等級為:好。
灰色模型預測2016年至2018年西安市圍產兒NTDs率為0.25‰、0.22‰、0.19‰。
通過與實際值比較發(fā)現,ARIMA模型與灰色模型準確度都很高,ARIMA模型的殘差平方和為0.015 2,灰色模型的殘差平方和為0.009 8,見表3。
表3 ARIMA模型與灰色模型預測值與實際值的比較結果
NTDs是目前能夠采取措施有效預防的少數出生缺陷之一[5-9]。為了控制NTDs的發(fā)生,我國采取了多種措施,如計劃懷孕宣傳、增補葉酸預防NTDs項目、健康教育、遺傳咨詢、產前超聲、血清學篩查等,綜合措施成效顯著,NTDs率連年下降。西安市從2009年第四季度開始在全市范圍內針對孕前和早孕期婦女免費增補葉酸[10]。NTDs平均發(fā)生率由2003年的2.23‰下降到2012年的0.90‰,然后下降到2015年的0.18‰。全國圍產兒NTDs率從1987年的2.74‰下降到2011年的0.45‰,2000年至2011年期間,下降幅度超過60%。西安市的下降趨勢和全國趨勢一致,也與文獻報道[5]相關研究結果一致。本研究應用ARIMA模型和灰色模型對2016年至2018年西安市圍產兒NTDs率進行了預測,以明確NTDs未來的流行趨勢,其均發(fā)現NTDs率穩(wěn)定在低發(fā)生率水平。
本研究將ARIMA模型預測值、灰色模型預測值與實際值進行比較發(fā)現,這兩種模型預測值與實際值間的殘差平方和均較低,可靠性均較高。有研究發(fā)現ARIMA模型和灰色模型應用于短期及中期預測效果較好[3]。今經過對ARIMA模型研究及與其他數學模型比較發(fā)現,其在擬合動態(tài)數據方面具有明顯優(yōu)勢[11-12]。近年來,由于NTDs率呈現明顯的逐年下降趨勢,因此用ARIMA模型對NTDs率進行預測具有很強的必要性和現實意義,對進一步降低NTDs率提供了信息支持。本研究歷經2003年至2015年,統計年限長,且樣本量巨大,共監(jiān)測圍產兒1 236 937例,出生缺陷兒10 619例,大樣本和監(jiān)測時長使數學模型預測更加可靠,結果更可信。
出生缺陷的危險因素包括環(huán)境因素和遺傳因素等,一般預測模型往往很難納入所有的危險因素,但是作為時間序列研究之一的ARIMA模型綜合了長期趨勢、季節(jié)因素和隨機誤差因素等,通過差分實現數據序列的平穩(wěn),具有不受數據類型限制的優(yōu)點,是一種短期預測效果很好的預測模型[13]?;疑P途哂袕娀阕?、弱化算子、均值生成、級比生成、累加生成、累減生成等多種運算模式對數據進行預處理,使數據本身的規(guī)律能夠得到顯化,具有運算簡便、可靠性較高的優(yōu)點。
出生缺陷主要是由遺傳因素和環(huán)境因素共同作用所致[14]。一級預防是控制出生缺陷的根本策略,防控出生缺陷重點應放在一級干預措施[15]。因此,應加強孕早期保健指導,如加強營養(yǎng)、小劑量葉酸補充、吸煙干預、用藥指導、疾病預防、遺傳咨詢干預、避免接觸致畸物質等,督促其接受系統的孕產期保健服務,對預防和減少出生缺陷的發(fā)生具有重要意義。葉酸、鐵等營養(yǎng)素的補充可以降低多種出生缺陷的風險,因此,積極探索各種主要出生缺陷的一級預防措施是目前面臨的重要任務。