肖麗 鄧星月 顏楨羿 王金全 羅掬月 溫川飆
摘要:目的:旨在對電子病歷不同隱私等級的數(shù)據(jù)進(jìn)行保護(hù),解決醫(yī)院與患者雙方身份認(rèn)證的難點(diǎn),達(dá)到對電子病歷數(shù)據(jù)全方位防護(hù)的目的,并結(jié)合現(xiàn)狀對電子病歷信息的進(jìn)行分類,論述數(shù)據(jù)的不同隱私等級;過程及方法:解析針對不同隱私等級電子病歷數(shù)據(jù)的簽名設(shè)計(jì),深入剖析電子病歷的轉(zhuǎn)碼方式,最終闡述利用區(qū)塊鏈技術(shù)將用戶雙方(醫(yī)院與患者)產(chǎn)生“交易”的每一個(gè)節(jié)點(diǎn)全部上鏈。結(jié)論:提出了基于區(qū)塊鏈數(shù)據(jù)保護(hù)機(jī)制的電子病歷設(shè)計(jì),保與電子病歷相關(guān)的每一個(gè)環(huán)節(jié)的安全,為用戶的身份認(rèn)證加上了一道防御鎖。
關(guān)鍵詞:隱私;區(qū)塊鏈;信息上鏈;電子病歷;數(shù)據(jù)
中圖分類號(hào):TP311? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)14-0245-04
Abstract :Objective:To protect the data of different privacy levels of electronic medical records, solve the difficulty of identity authentication between hospitals and patients, and achieve the purpose of all-round protection of electronic medical records data.This paper analyzes the signature design of electronic medical records data with different privacy levels,Process and Methods: deeply analyzes the transcoding mode of electronic medical records, and finally expounds the use of? Blockchain technology to connect all the nodes of the "transaction" between users (hospitals and patients).Conclusion: the design of electronic medical records based on Blockchain data protection mechanism is proposed, which guarantees the security of every link related to electronic medical records and adds a defensive lock for user's identity authentication.
Key words: privacy; block chain; information chain; electronic medical records; data
隨著區(qū)塊鏈技術(shù)的發(fā)展以及人們對個(gè)人隱私信息的重視,隱私數(shù)據(jù)保護(hù)顯得尤為重要。數(shù)據(jù)的價(jià)值日益增長,各類數(shù)據(jù)的交易也層出不窮;例如某些研究機(jī)構(gòu)或者公司需要對購買一些真實(shí)有效的數(shù)據(jù)信息投入到其研究的某一領(lǐng)域去時(shí),其本身能夠采集到的數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,所以購買數(shù)據(jù)成了一個(gè)必要之路。根據(jù)相關(guān)法律規(guī)定,如要實(shí)現(xiàn)科學(xué)研究,需要對其中的隱私信息進(jìn)行隱匿。電子病歷相較于其他數(shù)據(jù)記錄了更多的多個(gè)人隱私數(shù)據(jù),并且這類隱私往往牽涉甚多,對其隱私數(shù)據(jù)進(jìn)行完全防護(hù)是十分有必要的,而在電子病歷中可公開信息只要能保證其不可篡改便既可以使得數(shù)據(jù)買賣交易的正常進(jìn)行,又能達(dá)到保護(hù)隱私的目的。
1 區(qū)塊鏈的發(fā)展
隨著區(qū)塊鏈相關(guān)技術(shù)的不斷成熟,區(qū)塊鏈所蘊(yùn)含的商業(yè)價(jià)值不斷被發(fā)掘。習(xí)近平主席于2018年5月28日舉行的中國科學(xué)院和中國工程院兩院大會(huì)中明確指出:“以人工智能、量子信息、移動(dòng)通信、物聯(lián)網(wǎng)、區(qū)塊鏈為代表的新一代信息技術(shù)加速突破應(yīng)用……世界正在進(jìn)入以信息產(chǎn)業(yè)為主導(dǎo)的經(jīng)濟(jì)發(fā)展時(shí)期?!盵1]。根據(jù)中國知網(wǎng)顯示,2017年區(qū)塊鏈相關(guān)文獻(xiàn)共計(jì)1630篇,2018年達(dá)到3870篇,2019年第一季度已有832篇相關(guān)文獻(xiàn)。區(qū)塊鏈技術(shù)去中心化和去信任化的特性,令以往醫(yī)療電子病歷溯源與傳輸難題得以解決,目前深圳市衛(wèi)健委與平安國際智慧城市科技股份有限公司就醫(yī)療衛(wèi)生行業(yè)的數(shù)據(jù)管理服務(wù)(囊括區(qū)塊鏈服務(wù))達(dá)成合作協(xié)議,MIT研發(fā)的基于以太坊的電子病例的系統(tǒng)—MedRec業(yè)已成熟。然而,區(qū)塊鏈數(shù)據(jù)儲(chǔ)存不同于傳統(tǒng)SQL數(shù)據(jù)庫,醫(yī)療電子病歷若儲(chǔ)存于區(qū)塊鏈中,需要就數(shù)據(jù)可讀性、檢索能力以及隱私保護(hù)進(jìn)行改良,目前對于針對區(qū)塊鏈儲(chǔ)存設(shè)計(jì)的電子病歷模型研究尚未普及,探討和建設(shè)相關(guān)電子病歷模型具有開拓性意義。
2區(qū)塊鏈電子病歷模型
電子病歷與區(qū)塊鏈隸屬兩個(gè)不同的技術(shù)方,兩者的相互運(yùn)用——電子病歷在區(qū)塊鏈上進(jìn)行分布式儲(chǔ)存,需滿足一定的兼容條件,即可讀性、匿名性、可檢索性三大特性。
2.1 可讀性
電子病歷的可讀性主要體現(xiàn)在其對十六進(jìn)制的接受能力。區(qū)塊鏈技術(shù)始于比特幣,至今多數(shù)公有鏈延續(xù)比特幣對十六進(jìn)制數(shù)據(jù)的讀寫能力。一份電子病歷若有上鏈需求,則需要對數(shù)據(jù)進(jìn)行轉(zhuǎn)碼。而相對于計(jì)算機(jī)常用的二進(jìn)制,十六進(jìn)制更為簡潔,則選擇十六進(jìn)制轉(zhuǎn)碼是必然的。SHANGPING WANG 等基于區(qū)塊鏈技術(shù),搭建了分布式存儲(chǔ)系統(tǒng)中細(xì)粒度訪問控制的數(shù)據(jù)共享框架[2-3]。針對圖片數(shù)據(jù)轉(zhuǎn)碼經(jīng)十六進(jìn)制轉(zhuǎn)碼后數(shù)據(jù)量將會(huì)隨圖片質(zhì)量及大小呈不同幅度增長的問題——這對網(wǎng)絡(luò)帶寬和驗(yàn)證節(jié)點(diǎn)具有較高要求,后文將提出基于分布式儲(chǔ)存縮減實(shí)際數(shù)據(jù)的解決方案。
使用十六進(jìn)制轉(zhuǎn)碼的大前提是電子病歷對十六進(jìn)制的可讀性,除此以外,不同醫(yī)院終端的電子病歷格式不盡相同,文件修改成本較高,但統(tǒng)一醫(yī)療病歷格式將有助于數(shù)據(jù)轉(zhuǎn)碼后閱讀與自動(dòng)審閱。
2.2 匿名性
在評價(jià)系統(tǒng)中,在其他方面成為評價(jià)者的被評價(jià)者,就有成為惡意攻擊者的可能,從而使評價(jià)失去客觀性[4],與評價(jià)系統(tǒng)相似,區(qū)塊鏈的匿名也是將交易雙方身份進(jìn)行半匿名操作,并且每一次“交易地址”均為新地址——無法通過地址來追溯某一特定評價(jià)人,但區(qū)塊鏈技術(shù)能夠依靠密碼學(xué)和分布式算法在不借助于任何可信第三方機(jī)構(gòu)的情況下用數(shù)學(xué)方法使參與者達(dá)成共識(shí)[5]。再者,患者的病歷信息屬于隱私范疇,非醫(yī)療機(jī)構(gòu)與醫(yī)療機(jī)構(gòu)也需要在獲得患者或相應(yīng)政府機(jī)關(guān)許可才可進(jìn)行查閱;為防止病毒或間諜軟件利用醫(yī)患對電子病歷數(shù)據(jù)的調(diào)用過程獲取患者的隱私信息,交易匿名也成為必然。由于區(qū)塊鏈隸屬于中心化網(wǎng)絡(luò),網(wǎng)絡(luò)內(nèi)節(jié)點(diǎn)擁有相似權(quán)力,為保證不必要的隱私泄露,有必要對其中數(shù)據(jù)進(jìn)行加密——即數(shù)據(jù)進(jìn)行偽裝達(dá)到數(shù)據(jù)匿名的目的。加密方式有諸多選擇,不論是使用非對稱加密的ecdsa算法,或者對稱加密的AES算法,均有良好的加密解密能力。根據(jù)實(shí)際情況常利用兩種加密方式混用進(jìn)行設(shè)計(jì)。
各類電子病歷信息上鏈多以交易形式發(fā)送,對于網(wǎng)絡(luò)而言,交易的匿名性最為重要——此項(xiàng)涉及用戶的信息私有性問題,上文所提到的交易匿名設(shè)計(jì)隸屬于區(qū)塊鏈平臺(tái)設(shè)計(jì),本文暫不進(jìn)行討論。
2.3 可檢索性
電子病歷除了用作記錄患者就診信息外,也是流行病學(xué)研究與臨床試驗(yàn)研究的重要數(shù)據(jù)來源。上鏈信息若單一強(qiáng)調(diào)匿名性將喪失研究助力作用。簡單設(shè)計(jì)上,一份病歷可帶上數(shù)個(gè)標(biāo)簽,對于標(biāo)簽進(jìn)行關(guān)鍵詞檢索將能迅速定位某一病歷,既能方便患者院方定位就診經(jīng)歷,也可對流行病學(xué)和臨床試驗(yàn)提供良好的數(shù)據(jù)資料,當(dāng)然在其發(fā)揮其可檢索性時(shí),也需利用上述兩點(diǎn)對隱私數(shù)據(jù)進(jìn)行適當(dāng)隱匿。上述如圖1:區(qū)塊鏈電子病歷模型。
3 區(qū)塊鏈電子病歷模型
電子病歷數(shù)據(jù)在經(jīng)過收集后,需要對其中的數(shù)據(jù)進(jìn)行分類處理。由于區(qū)塊鏈網(wǎng)絡(luò)中的全節(jié)點(diǎn)有遍歷所有區(qū)塊數(shù)據(jù)的能力,病歷數(shù)據(jù)不經(jīng)分類處理直接上傳到區(qū)塊鏈網(wǎng)絡(luò)中勢必會(huì)引起諸多隱私問題。但如若將病歷數(shù)據(jù)完全加密,加密后的數(shù)據(jù)將不能滿足檢索與統(tǒng)計(jì)的需求。為此將病歷數(shù)據(jù)中隱私部分與公開部分進(jìn)行分離,可以在不造成隱私泄露問題的同時(shí),滿足對病歷數(shù)據(jù)的檢索與分析需求。
3.1非隱私數(shù)據(jù)
根據(jù)《電子病歷基本規(guī)范》第十一條規(guī)定電子病歷系統(tǒng)應(yīng)當(dāng)建立個(gè)人信息庫包括姓名、性別、出生日期、民族、婚姻狀況、職業(yè)、工作單位、住址、有效身份證件號(hào)碼、社會(huì)保障號(hào)碼或醫(yī)療保險(xiǎn)號(hào)碼、聯(lián)系電話等,其中姓氏、性別等屬于非隱私數(shù)據(jù),非隱私數(shù)據(jù)是指他人獲取的信息從各個(gè)角度而言對信息擁有者無影響,信息獲取者也無法從此類信息中得知特定的一人。舉例來說,在不經(jīng)過患者途徑而由醫(yī)療機(jī)構(gòu)直接通過合法數(shù)據(jù)買賣交易的情況下,電子病歷中的病種、治療方法、姓氏以及性別等可以同時(shí)提供給另一交易方,這些數(shù)據(jù)信息整合在一起是無法特指某一個(gè)人的,因此稱此類信息為非隱私數(shù)據(jù)。從患者角度來看,上述數(shù)據(jù)依然能被稱為隱私數(shù)據(jù),但隱私數(shù)據(jù)會(huì)不同程度地受到公共利益的影響而成為非隱私數(shù)據(jù)。
3.2隱私數(shù)據(jù)
在某種程度上,未公開的電子病歷信息均可稱為隱私數(shù)據(jù),此類數(shù)據(jù)是個(gè)人不愿公開,且不愿被他人知曉的信息。電子病歷上的數(shù)據(jù)大多屬于個(gè)人信息,而個(gè)人信息大多是隱私數(shù)據(jù),是與公共利益無關(guān)的一類,并且當(dāng)其死亡之時(shí)也不可隨意泄露?!?018年政務(wù)公開工作要點(diǎn)》提出對于其他涉及個(gè)人隱私的政府信息公開時(shí),要標(biāo)識(shí)化處理,選擇恰當(dāng)?shù)姆绞胶头秶鶾6],據(jù)此便可得到隱私信息需要標(biāo)識(shí)化處理這一數(shù)據(jù)保護(hù)設(shè)計(jì)點(diǎn)。
4分類數(shù)據(jù)加密
電子病歷數(shù)據(jù)隱私內(nèi)容與公開內(nèi)容各有不同的隱私需求,根據(jù)隱私需求的不同,需對電子病歷數(shù)據(jù)進(jìn)行差異化處理。
4.1 可公開文本數(shù)據(jù)處理
此類數(shù)據(jù)在信息泄露問題上基本可忽略,只需將其格式標(biāo)準(zhǔn)化再做簡單處理即可。以太坊支持在交易中帶入十六進(jìn)制數(shù)據(jù),并可以通過區(qū)塊瀏覽器將十六進(jìn)制信息轉(zhuǎn)UTF-8格式來顯示交易附屬信息。以太坊的此種設(shè)計(jì)被諸多區(qū)塊鏈產(chǎn)品所借鑒,如今支持智能合約的公有鏈均可通過此種方式將數(shù)據(jù)寫入?yún)^(qū)塊鏈中。對于病歷數(shù)據(jù)的處理以以太坊為例,對記錄的病歷信息中非敏感信息(例如姓名、病種、治療方法等)以UTF_8方式編碼,對于不支持該編碼方式編碼的數(shù)據(jù)則進(jìn)行十六進(jìn)制轉(zhuǎn)換。上述信息在刪除冗余后,統(tǒng)一進(jìn)行十六進(jìn)制轉(zhuǎn)換,并利用hash算法對數(shù)據(jù)進(jìn)行操作,與斯坦福的pwdhash(即將用戶的密碼替換為密碼和網(wǎng)站域結(jié)合在一起的散列,雖然用戶只記住一個(gè)密鑰,但每個(gè)站點(diǎn)收到的密鑰都是唯一的[7])不同,我們以SHA-256算法(SHA256(SHA256(version+prev-hash+merkle-root+ntime+nbits+X)) 4.2 隱私文本數(shù)據(jù)處理 與可公開文本數(shù)據(jù)不同的是,該類數(shù)據(jù)涉及個(gè)人隱私權(quán)限,其有必要先進(jìn)行加密處理后再做其他處理。該類數(shù)據(jù)以UTF-8編碼后轉(zhuǎn)為二進(jìn)制,進(jìn)行一次AES加密(通過干流水段對輪函數(shù)進(jìn)行劃分,流水段不同選擇的并行密碼是不同的,將多個(gè)輪函數(shù)同時(shí)運(yùn)行,可以使輪函數(shù)更加快速地執(zhí)行)[11],其中分布式AES加密方式通過使用切片算法對大數(shù)據(jù)文件進(jìn)行分割,得到能夠獨(dú)立執(zhí)行AES加密算法的數(shù)據(jù)分片[12],且加密密鑰由信息上傳者所擁有。加密后的信息則在十六進(jìn)制轉(zhuǎn)碼后做好上鏈準(zhǔn)備。由于該信息已進(jìn)行至少一次AES加密,則只需保證加密密鑰不被泄露。數(shù)據(jù)上鏈后,其他用戶想要窺得數(shù)據(jù)內(nèi)容將具有很高難度。如需提高加密程度,可選用匿名性更高的零知識(shí)證明加密法。 4.3 圖片數(shù)據(jù)處理 對于病歷信息中的圖片數(shù)據(jù),由于目前公鏈中沒有超文本傳輸協(xié)議相關(guān)設(shè)計(jì),不支持對圖片數(shù)據(jù)進(jìn)行編碼后傳輸。故現(xiàn)階段可采用尋址儲(chǔ)存方式作為替代選項(xiàng)。目前已有完善的開源尋址儲(chǔ)存項(xiàng)目如IPFS、MaidSafe等。在上述技術(shù)的基礎(chǔ)上,通過加入節(jié)點(diǎn)準(zhǔn)入證明構(gòu)建聯(lián)盟鏈,構(gòu)建分布式流媒體節(jié)點(diǎn)——通過一致性哈希重新設(shè)計(jì)了數(shù)據(jù)并行和模型分片方案,使系統(tǒng)能夠適應(yīng)數(shù)據(jù)流環(huán)境和集群計(jì)算能力的動(dòng)態(tài)變化[13-15],如此便可簡便地搭建一個(gè)受監(jiān)管的尋址儲(chǔ)存網(wǎng)絡(luò)。將圖片上傳至尋址儲(chǔ)存網(wǎng)絡(luò)后將返還定位該文件的唯一哈希值,此哈希值可經(jīng)過十六進(jìn)制轉(zhuǎn)碼后發(fā)送至區(qū)塊鏈中,如圖片數(shù)據(jù)涉及敏感數(shù)據(jù),可對上鏈哈希值進(jìn)行一次加密計(jì)算,增強(qiáng)數(shù)據(jù)的匿名性。 5電子病歷“交易”上鏈 通過對病歷采集數(shù)據(jù)的三方面處理,所有的病歷數(shù)據(jù)已轉(zhuǎn)碼為十六進(jìn)制以符合以太坊數(shù)據(jù)格式。轉(zhuǎn)碼電子病歷在保持原有內(nèi)容結(jié)構(gòu)的基礎(chǔ)上,以交易附屬信息形式附于交易中,當(dāng)用戶完成此筆交易,經(jīng)過足夠多的區(qū)塊確認(rèn)后,病歷數(shù)據(jù)即完成上鏈。用戶若需查詢某一具體病歷數(shù)據(jù),可通過兩種方式。一是以交易哈希進(jìn)行定位,查詢某一具體的病歷數(shù)據(jù);二是通過對全區(qū)塊數(shù)據(jù)中某一關(guān)鍵詞的十六進(jìn)制進(jìn)行檢索。后者亦可在病歷數(shù)據(jù)規(guī)范的前提下完成對含有某一關(guān)鍵詞的病歷數(shù)據(jù)的檢索。對于上鏈數(shù)據(jù)如需進(jìn)行下載,逆向進(jìn)行轉(zhuǎn)碼與加密過程即可還原電子病歷。 6 結(jié)束語 本文提出身份信息半匿名的電子病歷以適應(yīng)區(qū)塊鏈分布式存儲(chǔ),且還需具有可讀性以及可檢索性的電子病歷在區(qū)塊鏈分布式存儲(chǔ)上有實(shí)際價(jià)值。文中隱私數(shù)據(jù)保護(hù)機(jī)制針對不同層次的信息進(jìn)行差異劃分,并采用不同加密等級的方式加密,在對加密后數(shù)據(jù)十六進(jìn)制轉(zhuǎn)碼后均進(jìn)行上鏈準(zhǔn)備,最終當(dāng)足夠數(shù)量的區(qū)塊得以確認(rèn)則將完成上鏈。最后,對于目前區(qū)塊鏈在電子病歷上的應(yīng)用問題,還需從用戶實(shí)際需求出發(fā),以便尋找各類實(shí)際應(yīng)用問題。 參考文獻(xiàn): [1] 張銀平.對區(qū)塊鏈的幾點(diǎn)認(rèn)識(shí)[J].求知,2018(10):42-43. [2] Wang S P, Zhang Y L. A blockchain-based framework for data sharing with fine-grained access control in decentralized storage systems[J].IEEE Access,2018,6:38437-38450. [3] 琚春華,鄒江波,傅小康.融入?yún)^(qū)塊鏈技術(shù)的大數(shù)據(jù)征信平臺(tái)的設(shè)計(jì)與應(yīng)用研究[J].計(jì)算機(jī)科學(xué),2018,45(S2):522-526,552. [4] 郭瑤.區(qū)塊鏈理念高職教學(xué)評價(jià)學(xué)徒制改革策略[J].中國管理信息化,2019,22(3):219-221. [5] MORRIS D Z.Leaderless,blockchain-based venture capital? fund raises $100 Million,andcounting[J/OL].Fortune,2016(5):1-5.http://fortune.com/2016/05/15/leaderless-blockchain-vc-fund. [6] 湯琪.國務(wù)院要求保護(hù)個(gè)人隱私指令下達(dá)后,多地政府網(wǎng)站仍有泄露[N].澎湃新聞,2018-05-06. [7] Llewellyn-Jones, David Rymer, Graham Matthew.PwdHash:ABruteforce Attack on Client-side Password Hashing[J].Lecture Notes in Computer Science,2017. [8] 高杰.SHA256加密算法在比特幣中的關(guān)鍵作用研究[J].納稅,2017(28):142. [9] 冷迪.一種基于哈希散列技術(shù)進(jìn)行文件對象存儲(chǔ)和檢索的方法——海量文件系統(tǒng)數(shù)據(jù)訪問和檢索性能加速研究[J].中國新通信,2018,20(23):106-107. [10] Bustio-Martínez L,Letras-Luna M,Cumplido R,et al.Using hashing and lexicographic order for Frequent Itemsets Mining on data streams[J].Journal of Parallel and Distributed Computing,2019,125:58-71. [11] 張舜標(biāo).基于密碼流處理器的AES算法軟件流水實(shí)現(xiàn)[J].信息技術(shù)與信息化,2018(6):54-56. [12] 廖建飛,莫太平,黃進(jìn)財(cái).數(shù)據(jù)分塊并行優(yōu)化的分布式AES加密算法[J].科技通報(bào),2017,33(5):102-105. [13] 叢義昊.基于數(shù)據(jù)流的分布式實(shí)時(shí)推薦算法的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2018. [14] 戴卓臣,陸江東.面向數(shù)據(jù)加密的多核多線程并行研究[J].電子設(shè)計(jì)工程,2018,26(8):183-187. [15] 汪曙光,蘇亮亮,王琨,等.基于多比特量化的哈希方法[J].傳感器與微系統(tǒng),2018,37(12):5-8. 【通聯(lián)編輯:王力】