国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

電子病歷歷史數(shù)據(jù)的提取及在醫(yī)學臨床教學中的應用

2019-10-21 06:46李憶昕張穎王鈺瑩葛笑翁蘇湘
中國信息技術(shù)教育 2019年16期
關(guān)鍵詞:電子病歷

李憶昕 張穎 王鈺瑩 葛笑 翁蘇湘

摘要:電子病歷歷史數(shù)據(jù)結(jié)構(gòu)化程度較差,管理上“重藏輕用”的現(xiàn)象比較明顯,致使大量的病歷數(shù)據(jù)處于沉睡狀態(tài)中。本文通過Python爬蟲技術(shù)對電子病歷歷史數(shù)據(jù)進行爬取,再對數(shù)據(jù)進行抽取、篩選和結(jié)構(gòu)化存儲。電子病歷數(shù)據(jù)最后以.xml標準化格式保存,并結(jié)合虛擬教學平臺進行醫(yī)學臨床教學應用。將電子病歷數(shù)據(jù)中有價值的潛在信息發(fā)掘出來,豐富臨床醫(yī)學專業(yè)教學資源,并為科學研究提供基礎(chǔ)。

關(guān)鍵詞:電子病歷;Python爬蟲;醫(yī)學臨床教學

前言

電子病歷(Electronic MedicalRecord,EMR)是基于特定系統(tǒng),提供完整準確的醫(yī)療過程中的數(shù)據(jù),它是用以替代紙張病歷的基于計算機的病人記錄。電子病歷采用電子設(shè)備(如診療卡、計算機等)對病人的醫(yī)療記錄進行存儲、傳輸、管理,對病人信息及醫(yī)療過程進行數(shù)字化。我國EMR檔案的研究與應用起步較晚,但發(fā)展十分迅速。衛(wèi)生部頒發(fā)了《電子病歷系統(tǒng)功能規(guī)范》《電子病歷基本規(guī)范》等規(guī)范法規(guī)。這些重要法規(guī),規(guī)范了電子病歷的建設(shè)、存儲和使用等活動,為電子病歷的發(fā)展奠定了基礎(chǔ)。

標準化電子病歷的建設(shè)現(xiàn)在已經(jīng)成為業(yè)內(nèi)共識,但結(jié)構(gòu)化EMR系統(tǒng)仍處于發(fā)展階段,尚未有成熟的建設(shè)標準和規(guī)范?,F(xiàn)行的EMR系統(tǒng)大多數(shù)為了適應醫(yī)院HIS系統(tǒng)應用和檔案電子化管理,電子病歷數(shù)據(jù)現(xiàn)多采用非結(jié)構(gòu)化或半結(jié)構(gòu)化形式存儲。EMR內(nèi)容以自由文檔為主,一定程度上滿足了病歷內(nèi)容自由描述的需求,但是EMR管理上“重藏輕用”的現(xiàn)象比較明顯,致使大量的病歷數(shù)據(jù)處于沉睡狀態(tài)中。醫(yī)學是十分重視實踐的學科,醫(yī)學生的成長離不開大量的臨床實踐,激活“沉睡”中的電子病歷并使之服務于醫(yī)學生的培養(yǎng)具有十分重要的意義。本研究針對糖尿病這一典型慢性病EMR數(shù)據(jù)進行提取挖掘,將其運用于臨床教學實踐,以期為今后進行更廣泛的EMR歷史數(shù)據(jù)研究打下堅實的基礎(chǔ)。

基于Python爬蟲技術(shù)的EMR數(shù)據(jù)獲取

作為檔案的一種形式,各醫(yī)療機構(gòu)對EMR的管理都有嚴格規(guī)定,因此EMR數(shù)據(jù)的獲取不可能用常規(guī)的數(shù)據(jù)接口或數(shù)據(jù)移植方法來實現(xiàn)。EMR數(shù)據(jù)的展現(xiàn)形式一般都是文檔或超文本,如果要激活這些數(shù)據(jù)就必須研究一種靈活高效的數(shù)據(jù)抽取技術(shù)并將這些數(shù)據(jù)以結(jié)構(gòu)化的方式進行存儲。

Python是一種開源的面向?qū)ο蟮慕忉屝?、多范式腳本語言。Python兼容性高、優(yōu)雅簡約且功能強大,是當前非常受歡迎的一種編程語言。尤其是Python具有極其強大的數(shù)據(jù)處理、數(shù)據(jù)統(tǒng)計和處理能力,使得越來越多的人使用Python進行Web數(shù)據(jù)挖掘及統(tǒng)計分析。相較于C++、Java等語言,Python在網(wǎng)絡爬蟲應用中接口也更簡單。

醫(yī)院的各類信息系統(tǒng)中每天都會產(chǎn)生大量的電子病歷數(shù)據(jù),而這些數(shù)據(jù)往往是靜態(tài)的,即只要獲取到HTML中的內(nèi)容就可以得到電子病歷的有用信息。Python提供了廣泛的標準函數(shù)庫,同時又有眾多支持Python的第三方庫,可以獲取到網(wǎng)絡上的數(shù)據(jù)。本研究通過某三甲醫(yī)院內(nèi)部網(wǎng)絡進行EMR數(shù)據(jù)的Python爬取及結(jié)構(gòu)化。

網(wǎng)絡數(shù)據(jù)獲取分為兩個階段:第一階段是抓取,第二階段是解析。抓取常采用urlib內(nèi)建模塊中的request功能、Request第三方庫或者使用Scrapy開源爬蟲框架等。對于大型爬蟲項目,往往采用Scrapy或者自開發(fā)爬蟲。Requests被稱作是唯一一個“非轉(zhuǎn)基因”的PythonHTTP客戶端庫,簡單實用而友好,支持get、put、post等7種請求方式,同時支持headers、cookms等的傳遞,SSL證書驗證,HTTP(S)代理等。引人Requests庫可以用簡易的代碼完成復雜網(wǎng)頁信息爬取。對于電子病歷數(shù)據(jù),其獲取速度要求不高,本方法采用了Request第三方庫。

數(shù)據(jù)抓取的過程為:發(fā)送請求是客戶饑發(fā)送—個請求(Requcst)給服務器;②獲取口向應內(nèi)容,服務器返回一個響應(Response)。在得到了響應內(nèi)容后就需要對數(shù)據(jù)進行解析。當前流行的解析方式有BeautifulSoup庫和re(正則表達式)模塊。本文采用了兩者結(jié)合的方式進行網(wǎng)頁解析。HTML格式EMR文本抓取結(jié)果如圖1所示。

Beautifl Soup是網(wǎng)頁抓取數(shù)據(jù)的重要的Python的第三方庫,目前已經(jīng)被移植到bs4中,它簡單易用,具有處理不規(guī)范標記,處理導航、搜索、修改分析樹等功能,十分高效。選擇合適的解析器對文件進行分析,可提高網(wǎng)頁解析速度,本文采用LXML解析器進行解析,而后便可將超文本數(shù)據(jù)轉(zhuǎn)換成樹形結(jié)構(gòu),節(jié)點為Python對象。使用get_text()方法可以得到正文數(shù)據(jù)(如圖2)。

非結(jié)構(gòu)化病歷的數(shù)據(jù)抽取

數(shù)據(jù)經(jīng)過爬蟲抓取后的HTML數(shù)據(jù)文件,還不能作為有用的信息進行存儲和利用,需要進行進一步的篩選及數(shù)據(jù)抽取。

(1)數(shù)據(jù)文件預處理。本次實驗環(huán)境中,網(wǎng)絡爬取的數(shù)據(jù)無法根據(jù)HTML的title進行分類,因此網(wǎng)絡抓取的數(shù)據(jù)需要根據(jù)提取數(shù)據(jù)內(nèi)容進行分類。網(wǎng)絡抓取的數(shù)據(jù)主要為半結(jié)構(gòu)化文本,首先需要對主要數(shù)據(jù)進行篩選以取得所需主要信息。對獲取到的EMR數(shù)據(jù),如入院記錄、檢查報告、檢測記錄、病程記錄、出院記錄等,采用截取關(guān)鍵信息的方法,查找文本標題關(guān)鍵字字符串作為分類的依據(jù)。對不符合關(guān)鍵信息的無采集價值文件,如《告知書》或空數(shù)據(jù)文件則直接丟棄,合棄無效數(shù)據(jù)。

(2)特征提取。正則表達式是一種特殊的字符串模式,可以靈活地處理文本工具,用于字符串匹配,是特征提取的一種有效方式。正則表達式可以用規(guī)定的字符規(guī)則組成“規(guī)則字符串”,進行字符匹配模式,通過字符匹配可以方便地匹配數(shù)字、字符串等需要的數(shù)據(jù)。本研究采用正則表達式來處理獲取到的合格數(shù)據(jù)文件,將爬取的數(shù)據(jù)快速分段,再使用關(guān)鍵詞匹配進行分類。EMR信息提取時會過濾掉病人隱私信息等敏感字段,僅以“住院ID號”為特征區(qū)分病人,提取“生日”“性別”“職業(yè)”等自然信息和“主述”“現(xiàn)病史”“既往病史”“家族病史”“體格檢查”“病程記錄”等相關(guān)診療信息。

病歷數(shù)據(jù)的XML格式化及教學應用

XML是一種元標記語言,由于它是純文本格式,因此它可以對挖掘數(shù)據(jù)進行描述并存儲。而且,XML需要交換的數(shù)據(jù)采用標準進行表示與組織,系統(tǒng)只需在數(shù)據(jù)的內(nèi)部格式與數(shù)據(jù)標準之間進行映射,極大地降低了數(shù)據(jù)集成的復雜度。HTML格式EMR文本內(nèi)容如圖3所示。經(jīng)轉(zhuǎn)換后的XML文本內(nèi)容如圖4所示。

本研究與筆者之前的“基于Flash+XML技術(shù)的臨床虛擬教學平臺”相結(jié)合,將EMR歷史真實數(shù)據(jù)轉(zhuǎn)化為平臺可用的標準XML文本,為虛擬教學平臺提供了大量真實病歷數(shù)據(jù),使虛擬教學平臺的服務能力得到了極大的提升。經(jīng)過篩選,平臺新增合格教學標準糖尿病病歷12個,豐富了平臺的教學資源。新教學病歷擬經(jīng)專業(yè)指導教師進行流程設(shè)計及醫(yī)學術(shù)語規(guī)范后,更新至虛擬教學平臺,正式為臨床及護理專業(yè)學生提供教學服務。

總結(jié)與展望

本文研究的主要內(nèi)容有:Python爬蟲對EMR病歷數(shù)據(jù)的爬取技術(shù)與方法研究;EMR歷史數(shù)據(jù)結(jié)構(gòu)化存儲方法的研究。EMR歷史數(shù)據(jù)結(jié)合虛擬仿真實驗教學平臺為醫(yī)學臨床教學提供服務。

將EMR數(shù)據(jù)中潛在的有價值的信息發(fā)掘出來,既可以為醫(yī)學臨床教學提供更多更好的真實數(shù)據(jù),也可以更好地服務住院患者,分析出院患者;以及跟蹤重復入院患者,為提高以患者為中心的醫(yī)療服務水平作出貢獻,為提高醫(yī)院的整體實力從技術(shù)上提供支撐。糖尿病作為一種常見的慢性疾病,其臨床癥狀及治療方法相對成型,EMR數(shù)據(jù)規(guī)律性相對較強,因此,將其作為研究對象可從中找到EMR歷史數(shù)據(jù)結(jié)構(gòu)化方法并加以利用。今后,筆者還將以此為研究基礎(chǔ),對其他科室EMR歷史數(shù)據(jù)進行深入研究,喚醒沉睡的數(shù)據(jù),為醫(yī)學教學及醫(yī)療服務提供參考。

猜你喜歡
電子病歷
云計算平臺下的電子病歷系統(tǒng)安全管理
CA認證在醫(yī)院電子病歷數(shù)字簽名中的應用研究
電子病歷保全與認證研究
現(xiàn)階段電子病歷問題的探討及改革
基于HDFS的分布式區(qū)域電子病歷存儲策略
環(huán)節(jié)質(zhì)控對電子病歷質(zhì)量影響的效果分析
住院電子病歷在我院的應用和推廣
電子病歷臨床信息系統(tǒng)的解決方案
阜宁县| 桐城市| 盱眙县| 于田县| 舟曲县| 滦南县| 武胜县| 瑞金市| 长治市| 南木林县| 罗甸县| 漠河县| 玛多县| 屯昌县| 根河市| 新野县| 喀什市| 平泉县| 宿州市| 阳春市| 永仁县| 自贡市| 宾阳县| 仙桃市| 上蔡县| 开封县| 新泰市| 高青县| 莆田市| 全椒县| 肃宁县| 车致| 洪江市| 上犹县| 高尔夫| 连州市| 沧源| 宁阳县| 秭归县| 云安县| 秦安县|