盧相月, 王延年, 李全忠
(1. 鄭州大學人民醫(yī)院/河南省人民醫(yī)院 內(nèi)分泌科, 河南 鄭州, 450003;2. 鄭州大學 信息工程學院, 河南 鄭州, 450001)
2型糖尿病(T2DM)是糖尿病的主要類型,臨床發(fā)病率較高[1-2]。T2DM引起的慢性并發(fā)癥不僅會對患者的預(yù)后及生活質(zhì)量造成嚴重影響,而且會給社會帶來巨大的經(jīng)濟負擔[3]。為了更好地控制T2DM病情,眾多學者[4-7]提出預(yù)測血糖。鄧聚龍教授[8]提出了GM(1, 1)模型,該模型通過對處于白色信息(完全已知)和黑色信息(完全未知)之間的灰色信息(部分已知、部分未知)建立灰色微分方程來揭示其變化規(guī)律和未來趨勢,在小樣本、信息獲取量少的數(shù)據(jù)分析中具有優(yōu)勢。本研究評價了GM(1, 1)模型在血糖預(yù)測中的性能,分析該模型對不同范圍血糖數(shù)據(jù)的預(yù)測能力,現(xiàn)報告如下。
收集2018年1—2月在河南省人民醫(yī)院內(nèi)分泌科住院的50例T2DM患者作為研究對象,其中男28例,女22例。納入標準: 符合1999年世界衛(wèi)生組織T2DM診斷標準者; 佩戴美國美敦力公司(Medtronic, Inc)生產(chǎn)的動態(tài)血糖監(jiān)測系統(tǒng)(CGMS)者。排除標準: 佩戴CGMS未滿72 h者或?qū)崪y血糖序列有斷點者; 過敏體質(zhì)或有膠帶過敏史者; 妊娠期糖尿病患者; 傳染性疾病患者; 有嚴重糖尿病急慢性并發(fā)癥者或病情危重者。
1.2.1 數(shù)據(jù)采集: 所有受試者均佩戴美國美敦力公司(Medtronic, Inc)生產(chǎn)的CGMS, 該血糖儀每10 s接收1次信號,儲存每5 min的血糖平均值,連續(xù)監(jiān)測72 h, 可得到864個血糖值。
1.2.2 建立GM(1, 1)模型: GM(1, 1)模型是灰色預(yù)測模型的基本模型之一,表達式為一階方程、單變量。該模型在Matlab 2018軟件環(huán)境下編碼和運行,得到未來5、15、30 min的血糖值。具體建模步驟[9]為:
實測血糖序列記為X(0), 對其先進行對數(shù)變換得到Y(jié)(0), 后一階累加生成得到序列Y(1), 則
得到相應(yīng)的白化微分方程,其中a為發(fā)展系數(shù),b為灰色作用量,表示為
應(yīng)用最小二乘法求出發(fā)展系數(shù)a, 灰色作用量b, 則
逆對數(shù)變換獲得原始血糖數(shù)據(jù)的預(yù)測序列,則
采用新陳代謝算法得到血糖預(yù)測值,其原理是預(yù)測x(0)(20)時,剔除離x(0)(20)最遠的數(shù)據(jù)x(0)(1), 添加離x(0)(20)最近的血糖數(shù)據(jù)x(0)(19), 即以x(0)(20)~x(0)(19)為訓練集。預(yù)測x(0)(21)時,剔除離x(0)(21)最遠的數(shù)據(jù)x(0)(2), 添加離x(0)(21)最近的血糖數(shù)據(jù)x(0)(20), 即以x(0)(3)~x(0)(20)為訓練集。簡而言之,始終保持18個血糖數(shù)據(jù)的訓練集,不斷更新操作。
1.2.4 劃分不同血糖范圍: 劃分血糖的不同范圍時,從模型的角度出發(fā),將預(yù)測效率較高時的血糖范圍(目標血糖范圍)作為分組標準。應(yīng)用隨機數(shù)字表法抽取20例患者納入對照組,其余30例患者納入實驗組。對照組患者的數(shù)據(jù)用于推導(dǎo)分組標準,實驗組患者的數(shù)據(jù)用于統(tǒng)計驗證。應(yīng)用Excel 2016計算對照組所有患者預(yù)測時長為5、15、30 min時的MAE。篩選血糖范圍時要求連續(xù)性,不能定義為單個或少量數(shù)據(jù)??紤]到GM(1, 1)模型是以18個連續(xù)原始血糖作為訓練集進行預(yù)測,因此要求處于目標血糖范圍內(nèi)的血糖數(shù)據(jù)至少連續(xù)18個且絕對誤差均小于該預(yù)測時長的MAE。記錄符合要求的血糖范圍,求合集得到最終的目標血糖范圍(記為a~b)。
1.2.5 分析GM(1, 1)模型對不同范圍血糖的預(yù)測能力: 因1例患者連續(xù)72 h的血糖往往波動比較大,很難確保均屬于某一血糖范圍,故將實驗組30例患者的血糖視為1個實驗單元。以對照組篩選得到的目標血糖范圍將實測血糖數(shù)據(jù)分為A組(b)。預(yù)測時長為5 min時的分組記為A1、B1、C1, 預(yù)測時長為15 min時的分組記為A2、B2、C2, 預(yù)測時長為30 min時的分組記為A3、B3、C3。對不同血糖組的實測值和預(yù)測值進行Pearson相關(guān)性分析評價擬合度,并應(yīng)用非參數(shù)檢驗(多個獨立樣本的K-W單因素方差分析)對各組間絕對誤差中位數(shù)的差異進行統(tǒng)計學分析。
本研究共納入T2DM患者50例,患者佩戴CGMS的時間至少為72 h, 且血糖序列均完整連續(xù)。2組年齡、病程、性別構(gòu)成、體質(zhì)量指數(shù)(BMI)、糖化血紅蛋白(HbA1c)比較,差異均無統(tǒng)計學意義(P>0.05)。見表1。
表1 2組T2DM患者一般資料比較
以患者甲為例,不同預(yù)測時長的血糖預(yù)測結(jié)果見圖1。所有患者實測值與預(yù)測值的誤差分析見表2,預(yù)測誤差隨著預(yù)測時間的延長不斷增大。
表2 不同預(yù)測時長實測值與預(yù)測值的誤差分析
圖1 患者甲不同預(yù)測時長的血糖預(yù)測結(jié)果
對照組預(yù)測時長為5、15、30min時的MAE分別為0.46、0.67、0.98。為明確絕對誤差與實測血糖的變化趨勢,以患者乙為例,繪制預(yù)測時長為5 min時的趨勢圖(見圖2), 然后按照絕對誤差降序排列繪圖(見圖3)。二者對比后發(fā)現(xiàn)絕對誤差與實測血糖變化趨勢基本一致,血糖較低且平穩(wěn)時預(yù)測誤差小,但在打亂血糖序列的時間變化后,發(fā)現(xiàn)規(guī)律消失。預(yù)測時長為15、30 min時仍有相同情況,進一步證實在篩選血糖范圍時要求連續(xù)性。通過篩選得到患者乙預(yù)測時長為5 min時符合要求的血糖范圍有6段,求合集得到3.4~7.0、7.8~8.8、9.3~10.4 mmol/L, 應(yīng)用同樣的方法得到預(yù)測時長為15、30 min時的目標血糖范圍,見表3。對照組20例患者的結(jié)果表明,預(yù)測時長為5、15、30 min時,目標血糖范圍分別為3.4~11.5、3.3~11.4、3.2~11.4 mmol/L, 見表4。
圖2 患者乙預(yù)測時長為5 min時實測血糖與預(yù)測誤差趨勢圖
圖3 患者乙預(yù)測時長為5 min時降序排列后實測血糖與預(yù)測誤差趨勢圖
表3 患者乙不同預(yù)測時長的目標血糖范圍與最大絕對誤差
表4 對照組患者不同預(yù)測時長的目標血糖范圍與最大絕對誤差
預(yù)測時長為5、15、30 min時分別得到25 380、25 320及25 230對實測血糖值與預(yù)測血糖值。不同預(yù)測時長的絕對誤差近似正態(tài)分布(P>0.05), 相關(guān)性分析表明,不同預(yù)測時長時, B組的r值均最大(P<0.01), C組r值次之, A組r值最小,見表5。為進一步明確各組間MAE的差異,進行單因素方差分析,發(fā)現(xiàn)方差不齊(P<0.05), 故采用非參數(shù)檢驗進行分析。結(jié)果表明,每2組之間的絕對誤差中位數(shù)比較,差異有統(tǒng)計學意義(P<0.01), 其中A組的預(yù)測誤差最小, B組次之, C組最大,見表6。因此,預(yù)測時長為5、15、30 min時, GM(1, 1)模型分別對處于3.4~11.5、3.3~11.4、3.2~11.4 mmol/L血糖的預(yù)測擬合度最好且預(yù)測誤差較小。
表5 不同預(yù)測時長、不同血糖范圍的相關(guān)性分析及MAE結(jié)果
表6 不同預(yù)測時長、不同血糖范圍的非參數(shù)檢驗
為實現(xiàn)糖尿病患者智能化控制血糖以及更好地改善預(yù)后,人工胰腺(AP)概念被提出,現(xiàn)AP已被允許使用于臨床[10-12]。多項研究表明AP或閉環(huán)胰島素泵應(yīng)用于不同類型糖尿病中均相對安全,其中一項研究[13]證實了AP治療1型糖尿病(T1DM)患者的有效性和安全性。1例首次懷孕時使用胰島素皮下治療而第2次懷孕時使用AP治療的糖尿病患者案例[14]發(fā)現(xiàn), AP可使血糖管理更容易。另一項針對住院T2DM患者的研究[15]發(fā)現(xiàn),閉環(huán)胰島素泵輸注組的目標范圍血糖比例明顯高于常規(guī)胰島素皮下輸注組。雖然AP目前仍存在倫理[16]、傳感器性能[17]等方面問題,但其對糖尿病患者的益處可能更多。在構(gòu)建閉環(huán)裝置時,血糖的控制算法是不可缺少的一環(huán)[18],但也帶來了重大挑戰(zhàn),尤其是在不規(guī)律的食物攝入、運動和各種自發(fā)活動下使用機器學習算法實現(xiàn)血糖預(yù)測。
在CGMS越來越成熟的基礎(chǔ)上,學者們致力于探索不同模型在血糖預(yù)測中的應(yīng)用效果。一種是基于生理學的模型[19](葡萄糖-胰島素代謝模型和葡萄糖吸收模型),由于需要考慮詳細的生理過程,建模復(fù)雜耗時,存在操作困難的問題。另一種是數(shù)據(jù)驅(qū)動模型[20],其基于血糖數(shù)據(jù)的數(shù)學定律建立模型,操作更容易,且預(yù)測精度良好?;疑A(yù)測模型通過模糊數(shù)學處理灰色信息逐漸發(fā)現(xiàn)系統(tǒng)中的未知信息,具有較少的訓練集即可實現(xiàn)高精度的優(yōu)勢[8],且建模步驟簡單易操作,這也是本研究選擇該模型的原因?;疑A(yù)測模型應(yīng)用于血糖預(yù)測中對糖尿病患者具有重要價值,當預(yù)測得知患者即將發(fā)生低血糖時,可提示患者補充糖分; 當預(yù)測得到的血糖值偏高時,可指導(dǎo)臨床醫(yī)生調(diào)整胰島素用量以維持患者血糖穩(wěn)定。
GM(1, 1)模型是灰色預(yù)測理論中應(yīng)用最廣泛的動態(tài)預(yù)測模型之一,其本質(zhì)屬于指數(shù)預(yù)測模型,因此其預(yù)測精度與數(shù)據(jù)序列的平滑程度以及被預(yù)測對象的躍遷變化規(guī)律密切相關(guān)。GM(1, 1)模型的核心是通過灰色微分擬合方法建立離散擬合方程,但該方程是近似微分方程,因此很難保證模型的固有誤差必然是無窮小的。為了減少由建模方法缺陷而導(dǎo)致的固有誤差,本研究對傳統(tǒng)的GM(1, 1)模型進行了改進。首先是數(shù)據(jù)的預(yù)處理,即對實測血糖序列取對數(shù),這樣可以提高數(shù)據(jù)的平滑度。其次,利用最小二乘法求解GM(1, 1)模型的參數(shù),從而提高擬合方程與待擬合方程之間的近似性。再者,為了延長預(yù)測時間,預(yù)測的序列被橫向延長1步、3步和6步獲得不同的預(yù)測時間。最終, GM(1, 1)模型通過揭示血糖中蘊含的數(shù)學規(guī)律,擬合下一時刻的血糖值。根據(jù)實驗結(jié)果, GM(1, 1)模型應(yīng)用于血糖預(yù)測時,預(yù)測時間越短,預(yù)測性能越好,預(yù)測時間延至30 min時,平均絕對誤差達到1.01,仍可接受,這也證實了GM(1, 1)模型對血糖的短期預(yù)測是有效且準確的。
既往血糖預(yù)測模型的應(yīng)用研究多局限于比較不同模型的精確度[6-9]、某一模型的性能評估[4-5, 10],并未對某一確定模型對不同范圍血糖的預(yù)測能力行進一步討論。另外團隊前期工作發(fā)現(xiàn), GM(1, 1)模型對處于3.9~10.0 mmol/L的血糖預(yù)測擬合度較好(r=0.85,P<0.01),但其是根據(jù)動態(tài)血糖監(jiān)測儀設(shè)定的血糖水平直接進行分組分析,并未從模型角度去細化評價GM(1, 1)模型對哪一范圍血糖具有最佳的預(yù)測效果。因此,本研究根據(jù)篩選得到的血糖范圍進行分組,增強了血糖范圍與模型的適配度,旨在為將模型更精確地應(yīng)用于臨床提供一定參考。
Pearson相關(guān)性分析及非參數(shù)檢驗結(jié)果表明, GM(1, 1)模型對不同范圍血糖的預(yù)測能力是有差異的。以預(yù)測時長5 min的結(jié)果為例,從預(yù)測擬合度來看, GM(1, 1)模型對處于3.4~11.5 mmol/L范圍血糖的預(yù)測效果最好,其次是>11.5 mmol/L的血糖,對<3.4 mmol/L的血糖預(yù)測效果最差。灰色預(yù)測模型對時間序列(如血糖序列)進行預(yù)測時,拋去模型的固有誤差,數(shù)據(jù)的隨機波動是影響預(yù)測的主要因素[11],即當被預(yù)測對象越平滑、隨機性越弱,其預(yù)測效果越好。臨床患者真實發(fā)生的低血糖事件較少,且低血糖持續(xù)時間短,同樣高血糖的發(fā)生常伴隨著機體自身調(diào)節(jié)或臨床治療措施所致的短期內(nèi)血糖下降,這也造成高血糖的時間比例相對較少,而在高血糖與低血糖發(fā)生前后的數(shù)據(jù)均被納入目標血糖組。因此,從數(shù)據(jù)的連續(xù)性、平滑度來說,處于目標血糖范圍的數(shù)據(jù)的連續(xù)性最好且隨機變化的值較少,高血糖組次之,低血糖組最差,這就合理解釋了GM(1, 1)模型在目標血糖范圍表現(xiàn)出的最佳預(yù)測擬合性。從預(yù)測誤差來看,預(yù)測時長為5 min時, GM(1, 1)模型對<3.4 mmol/L的血糖預(yù)測誤差最小,處于3.4~11.5 mmol/L范圍的血糖次之, >11.5 mmol/L的血糖誤差最大。MAE主要反映預(yù)測值與實際值之間的差距,取決于二者差值的絕對值大小。高血糖發(fā)生后往往有血糖的下降,由于GM(1, 1)模型是基于前18個訓練集的數(shù)據(jù)進行預(yù)測的,包含高血糖極值的訓練集得到的預(yù)測值往往會偏高,而所對應(yīng)的真實值已存在一定程度下降,二者之間的絕對誤差較大,這可能是高血糖組預(yù)測誤差最大的主要原因。而低血糖組由于可變化范圍窄、波動幅度小,預(yù)測值與實測值之間的差值最小??傊?,本研究通過對不同預(yù)測時長的血糖范圍求合集,得出GM(1, 1)模型對處于3.4~11.4 mmol/L的血糖數(shù)據(jù)預(yù)測更有效。
如果某預(yù)測模型對不同范圍的血糖都表現(xiàn)出良好的預(yù)測性能,則其更具有臨床適用性。在眾多血糖預(yù)測模型中合理選擇模型以實現(xiàn)精準預(yù)測血糖,對于延緩糖尿病并發(fā)癥的發(fā)生與發(fā)展有著重要意義。GM(1, 1)模型可通過對少量、雜亂、不確定信息的數(shù)據(jù)建立灰色微分方程,描述事物進一步的發(fā)展規(guī)律。本研究結(jié)果顯示, GM(1, 1)模型能有效預(yù)測血糖,其預(yù)測特點是對3.4~11.4 mmol/L范圍的血糖數(shù)據(jù)預(yù)測效果最好,這不僅提示了該模型進行血糖預(yù)測時的建議適用范圍,也提示在對發(fā)生高血糖較多的波動性血糖序列進行預(yù)測時,將該模型與其他模型組合預(yù)測可能會使預(yù)測值更準確。然而,GM(1, 1)模型仍然存在對偏高血糖、極低血糖預(yù)測效果不佳的局限,這也是臨床研究人員未來面臨的新挑戰(zhàn)。