拜亞萌,劉云朋,孟軍霞
(焦作大學(xué)信息工程學(xué)院,河南 焦作 454000)
傳染病風(fēng)險評估的基本原理是通過多時空節(jié)點觸發(fā)與多學(xué)科渠道監(jiān)測暴發(fā)流行情況、病因、風(fēng)險、過程及驅(qū)動因素的多源數(shù)據(jù)構(gòu)建運行敏感特異、分期度量的評估預(yù)警模型,從監(jiān)測數(shù)據(jù)中發(fā)現(xiàn)、識別異常情況,預(yù)測大規(guī)模傳染病爆發(fā)的概率[1],實現(xiàn)對突發(fā)性傳染病的監(jiān)測、預(yù)警及響應(yīng)為一體的創(chuàng)新技術(shù)體系。
對傳染病風(fēng)險預(yù)警關(guān)鍵在于對系統(tǒng)性風(fēng)險的綜合評估,而系統(tǒng)性風(fēng)險則是多維度數(shù)據(jù)的風(fēng)險之和,如果系統(tǒng)性風(fēng)險過高,超過設(shè)定的預(yù)警值,則自動觸發(fā)報警機制,并輔助專業(yè)機構(gòu)做出高效管理及精準(zhǔn)研判[2]。本研究構(gòu)建的傳染病風(fēng)險評估模型以共享數(shù)據(jù)平臺獲取的多源信息為基礎(chǔ),制定數(shù)據(jù)-資源-應(yīng)用相融合的風(fēng)險研判及決策模式,為智能化決策提供重要支撐。
為解決傳染病疫情風(fēng)險的動態(tài)性及不確定性,動態(tài)捕捉網(wǎng)絡(luò)中的異常情況,以醫(yī)療類、社會類、病原類等三類信息為節(jié)點,以三者之間的相似性為邊,設(shè)計了一種基于復(fù)雜網(wǎng)絡(luò)的傳染病風(fēng)險評估預(yù)警模型,網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。通過衡量多元數(shù)據(jù)之間的相關(guān)性,計算各節(jié)點和邊的權(quán)重,構(gòu)建基于復(fù)雜網(wǎng)絡(luò)建模的風(fēng)險評估算法,完成對突發(fā)公共事件系統(tǒng)性風(fēng)險的評估預(yù)警。與傳統(tǒng)的時空評估模型相比,復(fù)雜網(wǎng)絡(luò)評估模型可從網(wǎng)絡(luò)視角對確診病例之間構(gòu)建聯(lián)系,從而對新發(fā)傳染病傳播進(jìn)行精確預(yù)警。
圖1 傳染病風(fēng)險網(wǎng)絡(luò)Fig.1 Infectious disease risk network
節(jié)點信息表示。醫(yī)療資源信息是指與醫(yī)療機構(gòu)、醫(yī)護(hù)人員等相關(guān)的資源信息,包括醫(yī)院數(shù)量、床位數(shù)、醫(yī)護(hù)人員數(shù)量等。在傳染病疫情中,醫(yī)療資源信息的可用性及充足性是至關(guān)重要的,因此將醫(yī)療資源信息作為風(fēng)險評估網(wǎng)絡(luò)的第一個節(jié)點。病例個人信息是指與患者相關(guān)的個人身份信息,通過對病例個人信息(如職業(yè)、年齡、性別、所在地等)的收集及分析,了解疫情的傳播范圍及趨勢,為制定應(yīng)急預(yù)案提供依據(jù),因此將病例個人信息作為風(fēng)險評估網(wǎng)絡(luò)的第二個節(jié)點。病理特征信息是指與疾病相關(guān)的生物學(xué)特征,包括病原體類型、病毒傳播途徑、患者感染程度等,通過對病理特征信息的收集及分析,了解疾病的嚴(yán)重程度及發(fā)展趨勢,為制定應(yīng)急預(yù)案提供依據(jù),因此將病理特征信息作為風(fēng)險評估網(wǎng)絡(luò)的第三個節(jié)點。
邊的表示。相似邊分為實線和虛線兩種類型,其中病例之間產(chǎn)生的相關(guān)聯(lián)系用實線表示,病例與醫(yī)療資源、病例與病理特征之間產(chǎn)生的相關(guān)聯(lián)系用虛線表示。其中,實線的相似邊主要包括個人特征之間、病例與醫(yī)療資源、病例與病理特征的相似度,虛線的相似邊主要包括不同患者的病理特征與歷史傳染病所體現(xiàn)的病理特征之間的風(fēng)險系數(shù)相似度,其中患者病理特征主要包括所使用的醫(yī)療資源、所在地區(qū)等相關(guān)信息。以圖1的網(wǎng)絡(luò)為例,病例個人信息表示為c1、c2、c3,病例個人所表現(xiàn)出的病理特征分別為f1、f2、f3,共同使用的醫(yī)療資源分別為r1、r2、r3。
節(jié)點權(quán)重計算。定義醫(yī)療資源集合R={r1,r2,…,rn}、病例集合C={c1,c2,…,cn}、病例特征集合F={f1,f2,…,fn}。設(shè)定病例患者ci具有f1、f3兩個病理特征,則定義其病理特征集合為Fci={1,0,1,0,…,0},其與歷史數(shù)據(jù)中傳染病病理特征之間的相似性為ωfi。設(shè)定病例患者ci在治療過程中使用了r1、r2兩種醫(yī)療資源,則定義其醫(yī)療資源集合為Rci={1,1,0,0,…,0},權(quán)重為其與傳染病的相關(guān)度及占據(jù)率的乘積ωri。通過上述定義得到病例患者ci的節(jié)點權(quán)重Dci=ρ·RciωR·FciωF,該節(jié)點權(quán)重為病例個體所使用的醫(yī)療資源風(fēng)險和具有的病理特征系統(tǒng)風(fēng)險,其中ρ為病例個體歸一化處理后的風(fēng)險系數(shù)。
邊的權(quán)重計算。邊的權(quán)重表示不同病例患者之間個人特征之間的相似度,定義為Cij,由此可知,病例ci與病理特征fi之間的相似度定義為Fci·iωfi,病例ci與醫(yī)療資源ri之間的相似度定義為Rci·iriωri。
相似性計算。在構(gòu)建風(fēng)險評估網(wǎng)絡(luò)后,需對每個節(jié)點之間的相似性進(jìn)行計算。使用皮爾遜相關(guān)系數(shù)方法來計算不同節(jié)點之間的相似性指數(shù),根據(jù)相似性指數(shù)的大小確定每個節(jié)點之間的關(guān)聯(lián)程度,并將其作為邊的權(quán)重。系統(tǒng)整體相似度定義為Sij,即Sij=ρ·Cij·RciωR·FciωR。
在實際應(yīng)用中,可將以上3個節(jié)點的信息輸入到風(fēng)險評估網(wǎng)絡(luò)中,通過計算相似性指數(shù)和優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)來預(yù)測傳染病疫情的風(fēng)險等級級傳播路徑。例如,如果某個地區(qū)的醫(yī)療資源信息與其他地區(qū)相比存在較大差異,該地區(qū)可能成為疫情爆發(fā)的重點區(qū)域;如果某個地區(qū)的病例個人信息與其他地區(qū)相比存在較大的共性,該地區(qū)可能成為疫情擴(kuò)散的主要方向。通過這種方式可提前預(yù)測疫情的發(fā)展趨勢及影響范圍,及時采取相應(yīng)的防控措施。
為保護(hù)患者數(shù)據(jù)的所有權(quán)和隱私權(quán),降低數(shù)據(jù)泄露風(fēng)險,采用分布式聯(lián)邦學(xué)習(xí)框架(Federated Learning,以下簡稱FL)技術(shù)完成風(fēng)險評估模型訓(xùn)練。FL是一種分布式機器學(xué)習(xí)框架,主要特點是確保用戶隱私,在不共享原始數(shù)據(jù)的前提下通過參數(shù)交互完成協(xié)同訓(xùn)練,生成全局模型,可有效保護(hù)數(shù)據(jù)隱私[3]?;贔L的學(xué)習(xí)框架在無需交換原始隱私數(shù)據(jù)的前提下聚合訓(xùn)練數(shù)據(jù),實現(xiàn)了全局模型訓(xùn)練,因此設(shè)計了一個基于區(qū)塊鏈信譽值評估的聯(lián)邦學(xué)習(xí)框架來訓(xùn)練風(fēng)險評估模型,該訓(xùn)練框架包括基礎(chǔ)設(shè)施層與區(qū)塊鏈應(yīng)用層,風(fēng)險預(yù)警模型聯(lián)邦學(xué)習(xí)訓(xùn)練框架。
2.1.1 基礎(chǔ)設(shè)施層
基礎(chǔ)設(shè)施層采用環(huán)狀與星狀混合的具有以太網(wǎng)拓?fù)浣Y(jié)構(gòu)的移動網(wǎng)絡(luò),該網(wǎng)絡(luò)包括數(shù)據(jù)訓(xùn)練管理中心、數(shù)據(jù)使用者及多個醫(yī)療機構(gòu)組成。其中,數(shù)據(jù)使用者包括醫(yī)療機構(gòu)、政府機構(gòu)、疾控中心、保險機構(gòu)等相關(guān)實體部門,該移動網(wǎng)絡(luò)包括了各類移動網(wǎng)絡(luò)設(shè)備(如通信基站、路由器、無線AP點等)。
移動網(wǎng)絡(luò)設(shè)備利用本地數(shù)據(jù)訓(xùn)練本地數(shù)據(jù)模型,通過在本地進(jìn)行數(shù)據(jù)訓(xùn)練,充分利用本地資源,實現(xiàn)實時、高效的模型訓(xùn)練及推理。本地數(shù)據(jù)訓(xùn)練具有一定的隱私保護(hù)優(yōu)勢,因為敏感數(shù)據(jù)可在本地設(shè)備上進(jìn)行處理,不必傳輸?shù)皆贫嘶蚱渌胤?。本地?xùn)練還可降低網(wǎng)絡(luò)延遲及數(shù)據(jù)傳輸量,節(jié)省通信資源及能耗。
端節(jié)點主要指處于移動網(wǎng)絡(luò)邊緣的各類基礎(chǔ)通信設(shè)備,存儲海量的患者數(shù)據(jù),包括個人隱私數(shù)據(jù),這類數(shù)據(jù)會上傳至中心服務(wù)器,不僅降低了患者隱私數(shù)據(jù)的泄露風(fēng)險,也實現(xiàn)了海量醫(yī)療數(shù)據(jù)的分布式存儲,有效降低了中心式存儲壓力。充分利用FL計算框架的特點,端節(jié)點僅需為本地風(fēng)險評估模型提供訓(xùn)練數(shù)據(jù)及測試數(shù)據(jù),通過下載、計算、迭代、上傳全局參數(shù),即可完成對風(fēng)險評估模型的學(xué)習(xí)優(yōu)化。
邊節(jié)點主要完成端節(jié)點與數(shù)據(jù)訓(xùn)練管理中心之間的數(shù)據(jù)傳輸及訪問控制,邊節(jié)點網(wǎng)絡(luò)設(shè)備具有較強的計算能力及通信能力,可實現(xiàn)分布訓(xùn)練任務(wù)、傳輸模型參數(shù)等功能,還要針對不同的任務(wù)需求完成符合條件的端節(jié)點篩選及訓(xùn)練監(jiān)督功能。在本訓(xùn)練框架中,邊節(jié)點被設(shè)計用于完成上述任務(wù),在聯(lián)邦學(xué)習(xí)任務(wù)中,首要任務(wù)是完成通信中繼,為端節(jié)點和管理中心提供穩(wěn)定的傳輸信道,訓(xùn)練管理中心充當(dāng)中央聚合器,聚合本地模型以形成全局模型,與參與節(jié)點相互傳輸模型參數(shù),以更新全局評估模型。邊節(jié)點負(fù)責(zé)端節(jié)點篩選,接收管理中心發(fā)布的任務(wù),利用其內(nèi)置智能合約機制選擇滿足條件的端節(jié)點,接收端節(jié)點訓(xùn)練后的模型參數(shù),通過聚合計算后更新全局模型,通知端節(jié)點下載更新優(yōu)化后的模型參數(shù)。
2.1.2 區(qū)塊鏈應(yīng)用層
通過計算各個訓(xùn)練節(jié)點聲譽值的方式完成對區(qū)塊鏈各參與節(jié)點的選擇、獎勵、評估。由于區(qū)塊鏈本身具有公開透明的天然技術(shù)特性,該層將節(jié)點的聲譽值存儲在聲譽區(qū)塊鏈的數(shù)據(jù)塊中,即使發(fā)生糾紛或惡意破壞,存儲在數(shù)據(jù)區(qū)塊中的聲譽值仍是永久且公開的證據(jù)。構(gòu)建的區(qū)塊鏈存儲參與節(jié)點的綜合聲譽值包括數(shù)據(jù)請求者對于參與醫(yī)院的直接聲譽意見和其他數(shù)據(jù)請求者的間接聲譽意見之和,通過區(qū)塊鏈賬本交易及綜合聲譽值評估實現(xiàn)了對積極貢獻(xiàn)的參與節(jié)點進(jìn)行激勵。通過區(qū)塊鏈技術(shù),聲譽值可被安全地存儲及驗證,能充分獎勵那些積極參與聯(lián)邦學(xué)習(xí)的醫(yī)院,從而構(gòu)建一個可信、公正的基于區(qū)塊鏈聲譽值評估的聯(lián)邦學(xué)習(xí)生態(tài)系統(tǒng)。
(1)
(2)
其中,E是其他數(shù)據(jù)請求者的集合,ky表示其他數(shù)據(jù)請求者間接聲譽值的權(quán)重因子,權(quán)重因子計算公式如式(3)所示:
(3)
綜合聲譽值。為保證訓(xùn)練網(wǎng)絡(luò)的公平性,防止惡意數(shù)據(jù)請求者的破壞,將為數(shù)據(jù)請求者提供最終的聲譽值,綜合聲譽值計算公式如式(4)所示:
(4)
邊緣節(jié)點ei對醫(yī)院nj的最終聲譽綜合值計算如式(5)所示:
(5)
對候選醫(yī)院的綜合聲譽值進(jìn)行計算比較,邊緣節(jié)點ei可選擇聲譽值較高的候選醫(yī)院作為模型訓(xùn)練的礦工節(jié)點,將計算后的綜合聲譽值上傳到區(qū)塊鏈,為其他邊緣節(jié)點或其他數(shù)據(jù)使用者選擇使用。
設(shè)計的基于區(qū)塊鏈信譽值評估的聯(lián)邦學(xué)習(xí)框架在不交換各自隱私數(shù)據(jù)的前提下通過鏈下聚合學(xué)習(xí)方式共享數(shù)據(jù)模型,不同參與節(jié)點計算本地風(fēng)險評估模型后上傳到區(qū)塊鏈,共同訓(xùn)練得到統(tǒng)一共享的風(fēng)險評估全局模型,通過數(shù)據(jù)管理中心統(tǒng)一調(diào)度,對訓(xùn)練模型全局參數(shù)實現(xiàn)迭代,從而完成風(fēng)險評估預(yù)警模型的優(yōu)化學(xué)習(xí)?;诼曌u區(qū)塊鏈的聯(lián)邦學(xué)習(xí)過程步驟如下:
步驟1:任務(wù)發(fā)布和合約創(chuàng)建。各類數(shù)據(jù)使用者利用智能合約機制創(chuàng)建合約條款,內(nèi)容包括數(shù)據(jù)大小、數(shù)據(jù)類型、最低聲譽值要求、任務(wù)截止時間、獎勵情況等。利用合約內(nèi)置cycles機制,將請求任務(wù)上傳至指定范圍內(nèi)的邊緣節(jié)點。邊緣節(jié)點接收到任務(wù)發(fā)布請求后,解析合約內(nèi)容,并將滿足條件的礦工節(jié)點發(fā)布合約內(nèi)容。礦工節(jié)點接收到計算任務(wù)后,通過本地模型進(jìn)行計算任務(wù),將是否參與任務(wù)情況進(jìn)行反饋。
步驟2:核對聲譽值和上傳核對結(jié)果。邊緣節(jié)點收到參與反饋后,對參與任務(wù)的候選礦工節(jié)點進(jìn)行監(jiān)督,使用雙重主觀邏輯模型對礦工節(jié)點的計算能力進(jìn)行評估,結(jié)合已交互邊緣節(jié)點的意見,對參與節(jié)點的間接聲譽值進(jìn)行評估,若其值與區(qū)塊中存儲的聲譽值一致,則將完成任務(wù)后的獎勵上傳至聯(lián)盟鏈區(qū)塊,更新參與節(jié)點的綜合聲譽值,為下一次評估參與節(jié)點的間接聲譽意見提供參考。
步驟3:選擇候選醫(yī)院并執(zhí)行聯(lián)邦學(xué)習(xí)任務(wù)。數(shù)據(jù)使用者接收到邊緣節(jié)點返回的計算任務(wù)后,結(jié)合合約要求及資源信息,選擇合適的醫(yī)院子集來執(zhí)行聯(lián)邦學(xué)習(xí)算法,并對本次任務(wù)的參與節(jié)點進(jìn)行質(zhì)量評估,為邊緣節(jié)點后續(xù)選擇候選礦工節(jié)點提供意見,確保局部數(shù)據(jù)模型的評估精確度及數(shù)據(jù)質(zhì)量。
仿真實驗采用TensorFlow 1.10.0軟件完成對基于聲譽區(qū)塊鏈的聯(lián)邦學(xué)習(xí)框架的性能評估,對比方案分別是基于Fedavg算法的聯(lián)邦學(xué)習(xí)方案[4]、基于FedProx算法的聯(lián)邦學(xué)習(xí)方案[5]。選用MNIST數(shù)字分類數(shù)據(jù)集,其中選取5000個訓(xùn)練實例作為訓(xùn)練集,選取1000個測試實例作為測試集。
采用基于聲譽值的聯(lián)邦學(xué)習(xí)方案,圖2描述了不同的醫(yī)院聲譽值評分機制變化情況,分別對3種不同的聲譽評分方案進(jìn)行比較,即本研究提出的聲譽值方案,基于提供服務(wù)節(jié)點不確定性的聲譽值方案1,基于任務(wù)發(fā)布者相似性的聲譽值方案2。從圖2可知,前6次訓(xùn)練迭代過程中,所有參與節(jié)點表現(xiàn)良好,參與醫(yī)院均獲得較高的聲譽值,無法甄別出惡意節(jié)點。在后續(xù)的8次訓(xùn)練過程中,由于惡意節(jié)點的不當(dāng)行為,所有方案的聲譽值均出現(xiàn)下降趨勢,本研究所提方案下降趨勢最為明顯。在最后的6次訓(xùn)練過程中,3種方案的整體聲譽值又隨之增加,但包含有惡意節(jié)點的方案1和方案2增加幅度要明顯高于本方案,表明本方案可提供更為穩(wěn)定的聲譽變化機制。從最后6次交互訓(xùn)練中可知,雖然惡意節(jié)點參與訓(xùn)練,但對本方案的聲譽值評分影響不明顯,但方案1和方案2的平均聲譽值仍處于較高值,無法在短時間內(nèi)檢測出惡意節(jié)點的存在,由此可知本研究所提模型方案在風(fēng)險評估性能上相對更好。
圖2 不同聲譽值評分機制的比較Fig.2 Comparison of different reputation scoring mechanisms
以復(fù)雜網(wǎng)絡(luò)理論為基礎(chǔ),從網(wǎng)絡(luò)視角對確診病例之間構(gòu)建聯(lián)系,設(shè)計了基于復(fù)雜網(wǎng)絡(luò)的傳染病風(fēng)險評估模型,對新發(fā)傳染病疫情進(jìn)行風(fēng)險監(jiān)測預(yù)警。設(shè)計了基于聲譽區(qū)塊鏈的聯(lián)邦學(xué)習(xí)框架,在確保隱私數(shù)據(jù)不泄露的情況下提高聯(lián)邦學(xué)習(xí)算法的效率及信息計算的時效性,進(jìn)一步提高了風(fēng)險評估模型的精確度。提出的風(fēng)險評估模型通過復(fù)雜網(wǎng)絡(luò)建模及智能合約機制,脫離依賴靜態(tài)歷史數(shù)據(jù)或經(jīng)驗案例的被動預(yù)案方式,達(dá)到了降低強中心化管理帶來的責(zé)任風(fēng)險,完善了傳染病預(yù)測理論體系,有效提升了預(yù)警管理效率。