国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于強(qiáng)化學(xué)習(xí)的1型糖尿病胰島素給藥策略研究

2023-10-18 07:06:51焦?jié)奢x解柏森孫福權(quán)
計算機(jī)應(yīng)用研究 2023年9期
關(guān)鍵詞:模擬器低血糖胰島素

焦?jié)奢x 解柏森 孫福權(quán)

摘 要:1型糖尿?。═1D)患者需要通過外源性胰島素的輸送將血糖(BG)維持在治療范圍內(nèi)。目前,已有的幾種基于模型預(yù)測控制和強(qiáng)化學(xué)習(xí)(RL)的胰島素給藥算法存在樣本效率差、獎勵機(jī)制過于簡單、血糖調(diào)控效果不佳等問題。為此提出了一種基于強(qiáng)化學(xué)習(xí)的帶有指導(dǎo)網(wǎng)絡(luò)的胰島素給藥策略(insulin administration strategy with guided network,IASGN),針對給藥策略安全性能和快速性的特點(diǎn),引入累積情節(jié)獎勵和分類經(jīng)驗回放方法,按照不同的重要性采樣權(quán)重增加了精英樣本池,并基于精英樣本池訓(xùn)練給藥指導(dǎo)網(wǎng)絡(luò),對策略網(wǎng)絡(luò)進(jìn)行動作指導(dǎo),改進(jìn)了獎勵機(jī)制,在FDA批準(zhǔn)的UVA/Padova T1D模擬器中驗證了該方法的性能。結(jié)果顯示,該方法TIR(time in range)達(dá)到了98.21%,TBR(time below range)接近于0,CVGA中所有患者均處于A+B區(qū)的安全范圍,可以使患者血糖長期處于正常范圍內(nèi),避免了低血糖的風(fēng)險,在與基準(zhǔn)方法對比中也獲得了更好的表現(xiàn)。

關(guān)鍵詞:強(qiáng)化學(xué)習(xí); 1型糖尿病治療; 胰島素給藥策略; 精英樣本池; 指導(dǎo)網(wǎng)絡(luò)

中圖分類號:TP391?? 文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2023)09-031-2765-05

doi:10.19734/j.issn.1001-3695.2023.02.0052

Study on insulin administration strategy of type 1 diabetesbased on reinforcement learning

Jiao Zehui1, Xie Baisen1, Sun Fuquan2

(1.College of Information Science & Engineering, North Eastern University, Shenyang 110000, China; 2.College of Mathematics & Statistics, North Eastern University at Qinhuangdao, Qinhuangdao Hebei 066000, China)

Abstract:Type 1 diabetes(T1D) patients need to maintain blood glucose(BG) within the treatment range through the delivery of exogenous insulin. At present, several existing insulin administration algorithms based on model predictive control and reinforcement learning(RL) have problems such as poor sample efficiency, overly simple reward mechanisms, and poor blood glucose regulation effects. This paper proposed an IASGN strategy based on reinforcement learning. Aiming at the characteristics of safety and rapidity of the administration strategy,it introduced cumulative plot rewards and classified experience playback me-thods, increased elite sample pool according to different importance sampling weights, trained the administration guidance network based on the elite sample pool to guide the action of the strategy network, and improved the reward mechanism. It verified the performance of the proposed method in the FDA approved UVA/Padova T1D simulator. The results show that the TIR of the proposed method reaches 98.21%, and the TBR is close to 0. All patients in CVGA are within the safe range of A+B zone, which can keep their blood sugar within the normal range for a long time and avoid the risk of hypoglycemia. Compared with the benchmark methods, it also achieved better performance.

Key words:reinforcement learning; treatment of type 1 diabetes; insulin administration; elite sample pool; guidance network

0 引言

糖尿病是當(dāng)前備受關(guān)注的一項疾病,糖尿病患者血糖水平的調(diào)節(jié)對其健康管理有著重要的作用。

根據(jù)國際糖尿病聯(lián)盟(IDF)2021年發(fā)布的《全球糖尿病地圖(第十版)》[1]顯示,全球成年人(20~79歲)中有5.37億(10.5%)糖尿病患者,糖尿病總?cè)藬?shù)預(yù)計到2030年將增至6.43億(11.3%)。其中1型糖尿?。═1D)約占8.5%,T1D患者由于體內(nèi)缺乏胰島素,需要長期的血糖自我監(jiān)測和外源性胰島素給藥[2]。所以,胰島素給藥策略能否有效控制好血糖水平[3],已成為1型糖尿病治療的關(guān)鍵所在。目前1型糖尿病的治療以胰島素注射為主,主要根據(jù)患者的癥狀,結(jié)合性別、年齡、身高、體重等因素確定藥物的種類和使用劑量,仍處于傳統(tǒng)的遵守醫(yī)囑情況,具有較強(qiáng)的經(jīng)驗性。而不同患者間一般存在較大的特異性,給藥劑量過多或過少,可能會導(dǎo)致治療無明顯效果,造成醫(yī)療浪費(fèi),甚至?xí):颊叩纳踩?。近些年來,胰島素泵[4]作為一種可以持續(xù)快速注入胰島素來控制血糖的工具得到了廣泛應(yīng)用,避免了多次皮下注射胰島素的困擾,但仍不能實(shí)現(xiàn)胰島素給藥的精確控制,而能提供最佳胰島素劑量的自動化系統(tǒng)備受關(guān)注。體外人工胰腺(artificial pancreas,AP)[5]是一種閉環(huán)胰島素輸送系統(tǒng),用于自動控制T1D患者的血糖水平,AP包括連續(xù)血糖監(jiān)測器(continuous glucose monitor,CGM)[6]、連續(xù)胰島素泵和用于估計最佳胰島素劑量的控制算法。研究的算法包括比例積分控制(PID)[7]、模型預(yù)測控制(MPC)[8]和強(qiáng)化學(xué)習(xí)算法[9],尤其是強(qiáng)化學(xué)習(xí)得到了廣泛的關(guān)注。

強(qiáng)化學(xué)習(xí)這一通過智能體和環(huán)境交互獲取最大獎勵值的學(xué)習(xí)范式具備強(qiáng)大的表征能力,可以用來處理復(fù)雜的決策問題,已經(jīng)被擴(kuò)展到各種控制的實(shí)際應(yīng)用場景中。隨著人工智能和大數(shù)據(jù)的興起,強(qiáng)化學(xué)習(xí)在棋盤游戲[10]、交通信號燈控制[11]、自動駕駛[12]等方面都取得了不錯的效果。然而,在胰島素給藥問題中,藥物用于探索真實(shí)環(huán)境(即臨床人類患者)可能會造成危險。幸運(yùn)的是,一些糖尿病代謝模擬器已被設(shè)計用于在虛擬患者中進(jìn)行臨床研究,如被FDA認(rèn)可的UVA/Padova T1D代謝模擬器(T1DMS)[13],它可以為強(qiáng)化學(xué)習(xí)提供理想的環(huán)境,幫助檢查控制算法的性能,評估受試者對藥物治療的反應(yīng)。特別是,使用模擬器[14~18]設(shè)計了RL方法用于胰島素輸送,智能體可以輕松地與患者進(jìn)行電子交互,通過大量交互學(xué)習(xí)獲取胰島素給藥的最優(yōu)策略,從而控制糖尿病患者的血糖水平,但存在訓(xùn)練時間過長、樣本效率低下、獎勵函數(shù)過于簡單、低血糖情況難以避免等問題,血糖調(diào)控效果仍然有較大的提升空間。

本文引入情節(jié)累積獎勵和分類經(jīng)驗回放的方法,增加精英樣本池,提升了樣本效率和給藥策略的訓(xùn)練速度;在獎勵函數(shù)中引入entity-to-box distance方法[19],促進(jìn)最大化范圍內(nèi)的時間(TIR)和最小化低血糖,有助于強(qiáng)化學(xué)習(xí)模型快速學(xué)習(xí)和策略收斂;增加了給藥動作的指導(dǎo)網(wǎng)絡(luò),提升了血糖調(diào)節(jié)的效果,TIR達(dá)到了98.21%,TBR為0,滿足關(guān)鍵的低血糖安全約束問題,有效避免了低血糖的發(fā)生。

1 背景及相關(guān)工作

1.1 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種學(xué)習(xí)方法,它與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)相并列,但不依賴于大量的標(biāo)簽數(shù)據(jù),無須給出正確的策略作為監(jiān)督信息,是一種從環(huán)境狀態(tài)映射到動作,進(jìn)行試錯學(xué)習(xí)的范式,在與環(huán)境的交互中通過回報不斷調(diào)整策略,從而訓(xùn)練出一個最優(yōu)的策略,目的是使智能體的累積獎勵值最大。強(qiáng)化學(xué)習(xí)可以處理具有采樣、評估和延遲反饋的順序決策問題,并且經(jīng)過訓(xùn)練對于不同狀態(tài)能自適應(yīng)地采取最優(yōu)的動作。強(qiáng)化學(xué)習(xí)的一般過程如圖1所示。

1.2 相關(guān)工作

自個性化醫(yī)療、精準(zhǔn)醫(yī)療的概念提出以來,關(guān)于糖尿病精準(zhǔn)給藥的研究[20]層出不窮。Garg等人[21]采用PID作為混合閉環(huán)血糖系統(tǒng)控制算法,但存在難以控制餐后的低血糖和高血糖的問題;Hovorka等人[22]使用模型預(yù)測控制(model predictive control,MPC)與機(jī)器學(xué)習(xí)相結(jié)合的方法,利用血糖預(yù)測的非線性模型和自適應(yīng)技術(shù),通過對患者血糖的預(yù)測及藥物劑量的優(yōu)化實(shí)現(xiàn)胰島素給藥的個性化調(diào)整。與PID和MPC方法相比, RL方法可以更多地從患者的自身數(shù)據(jù)中學(xué)習(xí),并產(chǎn)生更安全的策略。Ribba等人[23]借鑒強(qiáng)化學(xué)習(xí)的閉環(huán)控制模式,提出了一組用于生成給藥行為的馬爾可夫決策方法,模型通過人體的積極或消極反饋來指導(dǎo)馬爾可夫決策模型學(xué)習(xí)給藥行為和人體狀態(tài)之間的最佳映射,根據(jù)映射制定下一時刻的給藥方案。Yasini等人[24]利用Q-Learning算法進(jìn)行了給藥決策任務(wù)的初步探索,證實(shí)了此閉環(huán)控制體系能夠?qū)崿F(xiàn)胰島素劑量的精確計算和管理。Sun等人[16]提出一種用于血糖調(diào)控的雙模式自適應(yīng)基礎(chǔ)胰島素RL模型,可提供個性化的自適應(yīng)胰島素方案來控制血糖。Fox等人[25]在血糖調(diào)控中嘗試使用具有離散作用空間的深度Q網(wǎng)絡(luò)和具有連續(xù)作用空間的軟演員—批評家方法。然而,在Sun和Fox等人的工作中,他們使用RL算法生成了全天的總體基礎(chǔ)胰島素率,這意味著無法及時對血糖的突然變化作出反應(yīng)。Lim等人[26]在早期采用比例—積分—微分(PID)控制指導(dǎo)行為者—批評家網(wǎng)絡(luò)來確定胰島素劑量,并引入了帶有懸浮和額外胰島素劑量的自適應(yīng)安全機(jī)制,利用隨機(jī)森林回歸和雙注意力網(wǎng)絡(luò)進(jìn)行葡萄糖預(yù)測和狀態(tài)變量的擴(kuò)展,從可解釋性方面對血糖控制問題進(jìn)行了延展。Zhu等人[27]通過一個兩步的學(xué)習(xí)框架,在通用特征基礎(chǔ)上進(jìn)行了個性化DQN訓(xùn)練,對單、雙激素給藥策略可以起到更好的血糖調(diào)控效果。Yu等人[28]對葡萄糖—胰島素的控制系統(tǒng)模塊化處理提出了因果耦合機(jī)制,探索了分工合作和競爭的關(guān)系,引入分層強(qiáng)化學(xué)習(xí)進(jìn)行血糖調(diào)控。但現(xiàn)有的研究很少關(guān)注RL中的獎勵函數(shù),通過胰島素給藥來進(jìn)行血糖控制的安全性探索不足,給藥策略訓(xùn)練緩慢,同時血糖調(diào)控效果仍有較大提升的空間。

2 基于強(qiáng)化學(xué)習(xí)的胰島素給藥方法

2.1 問題描述

T1D的閉環(huán)胰島素給藥任務(wù)可以用一個馬爾可夫決策過程(Markov decision process,MDP)來描述,用一個五元組〈S,P,A,R,γ〉進(jìn)行定義,其中狀態(tài)S是糖尿病患者的生理狀態(tài),為包括血糖濃度(BG)在內(nèi)的13維特征的連續(xù)狀態(tài);動作A為基礎(chǔ)胰島素的給藥動作和劑量;狀態(tài)轉(zhuǎn)移函數(shù)P(s′,s,a)表示由于給藥動作a的選擇,從當(dāng)前血糖狀態(tài)s轉(zhuǎn)移到下一血糖狀態(tài)s′的概率;r(s,a,s′) 表示在當(dāng)前血糖狀態(tài)s采取給藥動作a轉(zhuǎn)移到下一狀態(tài)s′的瞬時獎勵;0<γ<1 是對未來獎勵的折扣因子,γ越大,表示未來獎勵對當(dāng)前狀態(tài)動作選擇的影響越大。智能體在一定時間內(nèi)與糖尿病患者環(huán)境交互,控制系統(tǒng)通過傳感器設(shè)備感知s,并采取給藥動作a輸送胰島素劑量,T1D患者的生理狀態(tài)過渡到s′,根據(jù)血糖變化評估并返回獎勵r。π(a|s,θ)表示參數(shù)為θ的給藥策略,表示在給定生理狀態(tài)s的條件下采取給藥動作a的條件概率密度,目標(biāo)是最大化累積獎勵R(s,a),并得到一個最優(yōu)的給藥策略π*。一個動作價值函數(shù)為

3 實(shí)驗

3.1 UVA/Padova T1DM模擬器

T1DMS也被稱為UVA/Padova Type 1糖尿病代謝模擬器,最早在2009年基于MATLAB環(huán)境提出,用于糖尿病人體生理建模。2014年進(jìn)行了首次更新,2018年再次更新后,開發(fā)團(tuán)隊公布了該模擬器基于Python語言的架構(gòu)。在研究1型糖尿病的治療策略背景之下,美國食品與藥品管理局(FDA)正式通過了該模型的認(rèn)證,批準(zhǔn)其作為臨床實(shí)驗的方案之一。除速效胰島素外,T1DMS支持長效胰島素或口服藥物的模擬,這為糖尿病患者代謝實(shí)驗引入了更多使用不同治療方法的可能性,因此該模擬器在近些年的研究中得到了廣泛使用。

3.2 實(shí)驗設(shè)置

T1DMS模擬器為智能體探索和學(xué)習(xí)策略提供了一個交互式環(huán)境。本文也選用此模擬器用做強(qiáng)化學(xué)習(xí)的真實(shí)環(huán)境進(jìn)行實(shí)驗,并對其提供的10名成年 T1D虛擬受試者進(jìn)行模擬,以評估所提出的深度強(qiáng)化學(xué)習(xí)框架的性能。在實(shí)驗中,考慮一天三餐,即早餐06:00(70 g),午餐11:00(110 g),晚餐18:00(90 g)。進(jìn)食量的大小由飯菜所含的CHO含量來計算,用餐時間限制為15 min。碳水化合物的用量誤差估計為-30%~+10%,且均勻分布,膳食吸收的變化量設(shè)置為30%,碳水化合物的變化量設(shè)置為10%,胰島素敏感度設(shè)置為20%,在模擬器的配置文件中生成。

3.3 性能指標(biāo)

為了衡量血糖調(diào)控的表現(xiàn),本文使用一組在AP臨床實(shí)驗中常用的指標(biāo)[29]。血糖管理系統(tǒng)的主要目標(biāo)是將血糖水平維持在目標(biāo)范圍內(nèi),并將低血糖發(fā)生的概率降至最低。因此,[70,180] mg/dL的時間范圍百分比(TIR)是一個直觀的指標(biāo),它表明受試者的BG水平處于正常血糖區(qū)的時間。相應(yīng)地,低于范圍的時間(time below range,TBR)(BG<70 mg/dL)和高于范圍的時間(time above range,TAR)(BG>180 mg/dL)分別代表低血糖和高血糖的時間。此外,控制變異性網(wǎng)格分析(control variability grid analysis,CVGA)[30]是一項評價一組病人在同一天的血糖調(diào)控性能非常有效的性能指標(biāo)。它通過在一個有9個區(qū)域的網(wǎng)格上繪制極端(最小/最大)BG值來可視化血糖結(jié)果,每個病人代表一個點(diǎn),每個點(diǎn)的X坐標(biāo)代表最小血糖值,Y坐標(biāo)代表最大血糖值。CVGA分為5個區(qū)域,分別為A、B、C、D、E區(qū)域,其中A區(qū)域為最安全的區(qū)域,E為最危險的區(qū)域,A+B區(qū)的點(diǎn)代表AP系統(tǒng)的最佳血糖調(diào)控效果,該方法已廣泛用于在血糖控制研究和臨床實(shí)驗中比較不同算法的有效性。

3.4 對比方法

為驗證本文提出的基于強(qiáng)化學(xué)習(xí)的帶指導(dǎo)網(wǎng)絡(luò)的糖尿病胰島素給藥策略(IASGN)性能,將與如下方法進(jìn)行比較:

a)低葡萄糖胰島素懸浮液方法(low glucose suspend,LGS)[31]。LGS系統(tǒng)已經(jīng)被證明可以通過暫?;A(chǔ)胰島素的給藥劑量來降低糖尿病患者低血糖的風(fēng)險。

b)標(biāo)準(zhǔn)劑量計算器(standard bolus calculator,SBC) [32]。它是一種根據(jù)患者當(dāng)前及目標(biāo)血糖值等條件計算胰島素注入劑量來調(diào)控血糖的方法。

c)深度強(qiáng)化學(xué)習(xí)控制方法(deep reinforcement learning,DRL)。將深度強(qiáng)化學(xué)習(xí)算法應(yīng)用于糖尿病患者胰島素給藥策略來控制患者血糖,目前諸如SAC(soft actor critic) [33]強(qiáng)化學(xué)習(xí)算法也在該領(lǐng)域有了一定應(yīng)用。Zhu等人[27] 所提出雙激素DRL-DH模型和Yu等人[28]提出的因果耦合機(jī)制CCMs模型也將作為對比方法。

3.5 實(shí)驗結(jié)果

通過對不同算法的給藥模型60天的訓(xùn)練,并進(jìn)行為期3天(4 320 min)的測試,結(jié)果均用均值和標(biāo)準(zhǔn)差表示。圖3展示了患者8在訓(xùn)練過程中最高、最低血糖值的收斂情況。表1展示了不同算法在T1DMS模擬器中所提供的10名患者血糖控制的性能指標(biāo)情況。如圖3所示,8號患者的最高、最低血糖值在訓(xùn)練的第3天就進(jìn)入正常范圍內(nèi),并在第10天開始趨于穩(wěn)定,表明患者全天的血糖濃度值BG均處于[70,180]mg/dL的正常范圍內(nèi),策略的收斂速度較快。

總體看來,DRL的算法在胰島素給藥任務(wù)中展現(xiàn)出較LGS和SBC更好的血糖調(diào)控性能,TIR指標(biāo)更占優(yōu)勢。可見將強(qiáng)化學(xué)習(xí)算法應(yīng)用于糖尿病患者的給藥和血糖控制任務(wù)有著很強(qiáng)的適用性和發(fā)展前景。相較于DRL中表現(xiàn)優(yōu)秀的SAC算法和當(dāng)期領(lǐng)域內(nèi)的DRL-DH算法和CCMs算法,本文所提出的IASGN算法TIR達(dá)到了98.21%,TBR接近0,TAR也更小,極大地避免了低血糖的發(fā)生,而SAC的TIR為87.39%,DRL-DH為85.75%,CCMs為96.30,仍低于IASGN的TIR值,說明本文算法表現(xiàn)出更優(yōu)秀的性能。圖4展示了T1DMS模擬器所提供的10名患者選用本文IASGN算法在4 320 min內(nèi)的血糖濃度變化曲線。持續(xù)高于180 mg/dL被認(rèn)為是高血糖,持續(xù)小于70 mg/dL被認(rèn)為是低血糖,70和180對應(yīng)的閾值以虛線標(biāo)出。由圖4可見,在4 320 min的測試時間內(nèi),10名患者均未出現(xiàn)低血糖的情況,個別患者有短暫越過180 mg/dL的情況,但總體上各個患者的血糖均控制在正常范圍。

在4 320 min的測試期內(nèi),對于采用本文方法的患者血糖情況進(jìn)行了控制變異性網(wǎng)格分析。圖5為10名患者序列中的CVGA圖。

由CVGA圖中可見,在本文方法的閉環(huán)控制下,A+B區(qū)的百分率為100%,其中70%對應(yīng)于A區(qū),30%對應(yīng)于B區(qū),實(shí)現(xiàn)了對AP系統(tǒng)最佳的血糖調(diào)控效果。

4 結(jié)束語

本文驗證了強(qiáng)化學(xué)習(xí)應(yīng)用于糖尿病患者的血糖控制任務(wù)的適用性和延展性,并針對胰島素給藥和血糖調(diào)控安全性的特點(diǎn),提出了一種基于強(qiáng)化學(xué)習(xí)帶有指導(dǎo)網(wǎng)絡(luò)的胰島素給藥策略。在T1DMS模擬器中測試了其性能,表明本文方法能夠滿足關(guān)鍵的低血糖安全約束問題,可以使受試患者血糖長期維持在正常范圍內(nèi),避免了低血糖或者高血糖癥狀的出現(xiàn),保證了患者的安全,且在與其他基準(zhǔn)方法的對比中表現(xiàn)出了更佳的性能,TIR值達(dá)到98.21%,TBR值接近0,有助于糖尿病給藥治療與強(qiáng)化學(xué)習(xí)等人工智能技術(shù)的結(jié)合與發(fā)展。

雖然T1DMS模擬器是基于生理學(xué)的,但其本身的局限性與臨床環(huán)境的不確定性限制了BG控制方法的進(jìn)一步改進(jìn)。盡管本文采取了精英樣本池和離線的訓(xùn)練方法,但訓(xùn)練效率仍然有待提高。近年來,一些基于模型的DRL和離線DRL在提高樣本效率方面取得飛速發(fā)展。因此,在今后的工作中,本文將考慮對個體的藥代動力學(xué)和藥效學(xué)(PK/PD)特性進(jìn)行建模,并改進(jìn)基于模型的RL和離線RL的BG控制方法。

參考文獻(xiàn):

[1]Sun Hong, Saeedi P, Karuranga S, et al. IDF diabetes atlas:global, regional and country-level diabetes prevalence estimates for 2021 and projections for 2045[J]. Diabetes Research and Clinical Practice, 2022,183: 109119.

[2]Zimmet P Z, Magliano D J, Herman W H, et al. Diabetes: a 21st century challenge[J]. The Lancet Diabetes & Endocrinology, 2014,2(1): 56-64.

[3]寧芳芳. 胰島素不同給藥方式對糖尿病患者血糖控制效果的影響[J]. 中國醫(yī)藥指南, 2021,19(5): 63-64. (Ning Fangfang. Effect of different insulin administration methods on blood glucose control in patients with diabetes mellitus[J]. Guide of China Medicine, 2021,19(5): 63-64.)

[4]Pickup J C. Insulin-pump therapy for type 1 diabetes mellitus[J]. New England Journal of Medicine, 2012,366(17): 1616-1624.

[5]Kovatchev B. A century of diabetes technology: signals, models, and artificial pancreas control[J]. Trends in Endocrinology & Metabolism, 2019,30(7): 432-444.

[6]Klonoff D C. Continuous glucose monitoring: roadmap for 21st century diabetes therapy[J]. Diabetes Care, 2005,28(5): 1231-1239.

[7]Chee F, Fernando T L, Savkin A V, et al. Expert PID control system for blood glucose control in critically ill patients[J]. IEEE Trans on Information Technology in Biomedicine, 2003,7(4): 419-425.

[8]Hovorka R, Canonico V, Chassin L J, et al. Nonlinear model predictive control of glucose concentration in subjects with type 1 diabetes[J]. Physiological Measurement, 2004,25(4): 905-920.

[9]Li Yuxi. Deep reinforcement learning: an overview[EB/OL]. (2018-11-26). https://arxiv.org/abs/1701.07274.

[10]Granter S R, Beck A H, Papke Jr D J. AlphaGo, deep learning, and the future of the human microscopist[J]. Archives of Pathology & Laboratory Medicine, 2017,141(5): 619-621.

[11]Yu Bingquan, Guo Jinqiu, Zhao Qinpei, et al. Smarter and safer traffic signal controlling via deep reinforcement learning[C]//Proc of the 29th ACM International Conference on Information & Knowledge Management. New York: ACM Press, 2020: 3345-3348.

[12]Pan Xinlei, You Yurong, Wang Ziyan, et al. Virtual to real reinforcement learning for autonomous driving[EB/OL]. (2017-09-26). https://arxiv.org/abs/1704.03952.

[13]Man C D, Micheletto F, Lyu Dayu, et al. The UVA/PADOVA type 1 diabetes simulator: new features[J]. Journal of Diabetes Science and Technology, 2014,8(1): 26-34.

[14]Lee S, Kim J, Park S W, et al. Toward a fully automated artificial pancreas system using a bioinspired reinforcement learning design: in silico validation[J]. IEEE Journal of Biomedical and Health Informatics, 2020,25 (2): 536-546.

[15]Daskalaki E, Diem P, Mougiakakou S G. An actor-critic based controller for glucose regulation in type 1 diabetes[J]. Computer Me-thods and Programs in Biomedicine, 2013,109(2): 116-125.

[16]Sun Qingnan , Jankovic M V, Budzinski J, et al. A dual mode adaptive basal-bolus advisor based on reinforcement learning[J]. IEEE Journal of Biomedical and Health Informatics, 2018,23(6): 2633-2641.

[17]Li Kezhi, Liu Chengyuan, Zhu Taiyu, et al. GluNet: a deep lear-ning framework for accurate glucose forecasting[J]. IEEE Journal of Biomedical and Health Informatics, 2019,24(2): 414-423.

[18]Daskalaki E, Diem P, Mougiakakou S G. Personalized tuning of a reinforcement learning control algorithm for glucose regulation[C]//Proc of the 35th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Piscataway, NJ: IEEE Press, 2013: 3487-3490.

[19]Ren Hongyu,Hu Weihua,Leskovec J. Query2box:reasoning over know-ledge graphs in vector space using box embeddings[EB/OL]. (2020-02-29). https://arxiv.org/abs/2002.05969.

[20]趙冰, 麻淳博, 孫冰冰, 等. 智能胰島素遞送系統(tǒng)用于糖尿病治療的研究進(jìn)展[J]. 中國生物工程雜志, 2022,42(5): 81-90. (Zhao Bing, Ma Chunbo, Sun Bingbing, et al. Research progress of intelligent insulin delivery system for diabetes treatment[J]. China Biotechnology, 2022,42(5): 81-90.)

[21]Garg S K, Weinzimer S A, Tamborlane W V, et al. Glucose outcomes with the in-home use of a hybrid closed-loop insulin delivery system in adolescents and adults with type 1 diabetes[J]. Diabetes Technology & Therapeutics, 2017,19(3): 155-163.

[22]Hovorka R, Allen J M, Elleri D, et al. Manual closed-loop insulin delivery in children and adolescents with type 1 diabetes: a phase 2 randomised crossover trial[J]. The Lancet, 2010, 375(9716): 743-751.

[23]Ribba B, Dudal S, Lavé T, et al. Model-informed artificial intel-ligence: reinforcement learning for precision dosing[J]. Clinical Pharmacology & Therapeutics, 2020,107(4): 853-857.

[24]Yasini S, Naghibi-Sistani M, Karimpour A. Agent-based simulation for blood glucose control in diabetic patients[J]. International Journal of Applied Science, Engineering and Technology, 2009,5(1): 40-49.

[25]Fox I, Lee J, Pop-Busui R, et al. Deep reinforcement learning for closed-loop blood glucose control[EB/OL]. (2020-09-18). https://arxiv.org/abs/2009.09051.

[26]Lim M H, Lee W H, Jeon B, et al. A blood glucose control framework based on reinforcement learning with safety and interpretability: in silico validation[J]. IEEE Access, 2021, 9: 105756-105775.

[27]Zhu Taiyu, Li Kezhi, Herrero P, et al. Basal glucose control in type 1 diabetes using deep reinforcement learning: an in silico validation[J]. IEEE Journal of Biomedical and Health Informatics, 2020, 25(4): 1223-1232.

[28]Yu Xuehui, Guan Yi, Yu Xinmiao, et al. Causal coupled mechanisms: a control method with cooperation and competition for complex system[C]//Proc of IEEE International Conference on Bioinformatics and Biomedicine. Piscataway, NJ: IEEE Press, 2022: 2556-2563.

[29]Maahs D M, Buckingham B A, Castle J R, et al. Outcome measures for artificial pancreas clinical trials: a consensus report[J]. Diabetes Care, 2016, 39(7): 1175-1179.

[30]Magni L, Raimondo D M, Man C D, et al. Evaluating the efficacy of closed-loop glucose regulation via control-variability grid analysis[J]. Journal of Diabetes Science and Technology, 2008, 2(4): 630-635.

[31]Liu Chengyuan , Avari P, Leal Y, et al. A modular safety system for an insulin dose recommender: a feasibility study[J]. Journal of Diabetes Science and Technology, 2020,14(1): 87-96.

[32]Schmidt S, Nrgaard K. Bolus calculators[J]. Journal of Diabetes Science and Technology, 2014, 8(5): 1035-1041.

[33]Haarnoja T, Zhou A, Abbeel P, et al. Soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor[C]//Proc of the 35th International Conference on Machine Lear-ning. 2018: 1861-1870.

收稿日期:2023-02-23;修回日期:2023-04-12? 基金項目:國家重點(diǎn)研發(fā)計劃資助項目(2018YFB1402800)

作者簡介:焦?jié)奢x(1998-),男,山西晉城人,碩士研究生,主要研究方向為強(qiáng)化學(xué)習(xí)、大數(shù)據(jù)分析;解柏森(1998-),男,遼寧沈陽人,碩士研究生,主要研究方向為深度學(xué)習(xí)、大數(shù)據(jù)分析;孫福權(quán)(1964-),男(通信作者),遼寧錦州人,教授,碩導(dǎo),博士,主要研究方向為電子商務(wù)與大數(shù)據(jù)分析(404893391@qq.com).

猜你喜歡
模擬器低血糖胰島素
了不起的安檢模擬器
盲盒模擬器
劃船模擬器
自己如何注射胰島素
低血糖的5個真相,你都知道了嗎?
飲食保健(2019年2期)2019-01-17 05:35:44
糖尿病患者當(dāng)心酒后低血糖
婦女之友(2016年11期)2017-01-20 20:02:31
糖尿病反復(fù)低血糖與認(rèn)知功能障礙的研究
門冬胰島素30聯(lián)合二甲雙胍治療老年初診2型糖尿病療效觀察
糖尿病的胰島素治療
動態(tài)飛行模擬器及其發(fā)展概述
新密市| 南澳县| 武鸣县| 长沙县| 东莞市| 林州市| 兰州市| 普宁市| 稷山县| 广昌县| 翁源县| 砚山县| 阿克苏市| 宜兴市| 桐城市| 新安县| 鲁甸县| 泸西县| 上林县| 万安县| 东平县| 巴东县| 金湖县| 依安县| 河北省| 泌阳县| 文成县| 哈巴河县| 呈贡县| 阳泉市| 浦北县| 利辛县| 海南省| 观塘区| 新绛县| 济源市| 文昌市| 黑水县| 鹤山市| 全州县| 龙岩市|