国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合數(shù)據分析算法的臨床科研平臺研究

2023-07-06 06:18:09林志剛
中國信息化 2023年6期
關鍵詞:聚類病例樣本

林志剛

一、引言

在各級各類醫(yī)療機構中,科研水平已成為衡量其發(fā)展程度的重要依據。近年來,人工智能、大數(shù)據等信息技術的蓬勃發(fā)展對醫(yī)療領域的科研模式產生了深遠影響。國家先后出臺了《“健康中國2030”規(guī)劃綱要》《關于促進和規(guī)范健康醫(yī)療大數(shù)據應用發(fā)展的指導意見》《關于印發(fā)國家健康醫(yī)療大數(shù)據標準、安全和服務管理辦法(試行)的通知》等政策文件,鼓勵推進醫(yī)療大數(shù)據的開放共享、深度挖掘和醫(yī)學科研應用,造福于民。醫(yī)療領域的科研需要精確的實驗方法設計,更需要大量的實驗樣本、高質量的實驗數(shù)據、及時的數(shù)據分析結果。人工智能、大數(shù)據等信息技術為醫(yī)療領域的科研注入了新的技術活力,使實驗設計更具有針對性和前瞻性,樣本收集更快捷高效,數(shù)據分析結果更準確直觀。

從學科建設和醫(yī)院的長期發(fā)展來看,基于臨床大數(shù)據的專科、專病科研是未來的發(fā)展趨勢。許多醫(yī)院已在這些方面進行了有益的嘗試,例如,上海市兒童醫(yī)院以兒童專科為特色,搭建了醫(yī)療大數(shù)據平臺。首都醫(yī)科大學附屬北京天壇醫(yī)院立足醫(yī)院特色,建設了神經腦血管病專科大數(shù)據科研平臺,自2017年部署實施后,應用效果良好。廈門大學附屬第一醫(yī)院建立了??婆R床科研管理平臺,提高了臨床數(shù)據的科研利用率。

借鑒相關醫(yī)院的成功經驗,我院基于已有的臨床信息系統(tǒng),建設了大數(shù)據智能平臺,在科研平臺上融入高效的數(shù)據分析算法和工具,進一步增強了臨床科研平臺的功能。本文重點介紹臨床科研平臺的架構、科研平臺的數(shù)據采集和數(shù)據分析功能,并以“2型糖尿病人頸動脈斑塊形成的危險因素”的臨床科研案例進行說明,而科研項目的全過程管理不在本文進行討論。

二、臨床科研平臺的架構

打通各個信息子系統(tǒng)的障礙,構建共享的數(shù)據平臺是我院構建臨床科研平臺的重要任務。我院構建的臨床科研平臺整體架構如圖1所示,根據實際的業(yè)務分布,整體平臺由5個層次構成,各層的內容如下:

(1)數(shù)據層主要由臨床信息子系統(tǒng)及其他信息系統(tǒng)構成。臨床數(shù)據囊括了醫(yī)院信息系統(tǒng)(Hospital Information System, HIS)、病案系統(tǒng)(Electronic Medical Record, EMR)、實驗室(檢驗科)信息系統(tǒng)(Laboratory Information System, LIS)、放射信息管理系統(tǒng)(Radiology Information System, R I S )、醫(yī)學影像存檔與通訊系統(tǒng)(Picture Archiving and Communication Systems, PACS)等的數(shù)據;其他數(shù)據包括生物信息、病例報告表單(Case Report Form)等信息系統(tǒng)的數(shù)據。

(2)安全認證層利用技術手段來保障數(shù)據的安全,主要采用了諸如身份認證、受限數(shù)據訪問、數(shù)據留痕、數(shù)據日志技術。

(3)大數(shù)據采集與存儲采用Hadoop平臺技術,經過對初始數(shù)據層的數(shù)據脫敏和預處理后,進行醫(yī)院全維度數(shù)據采集。

(4)部署層主要采用SaaS(Software as a Service,SaaS,軟件即服務)架構,實現(xiàn)數(shù)據統(tǒng)計、報表、評價模型等業(yè)務邏輯的處理,將主要應用以WEB的方式提供給應用層的用戶。

(5)應用層根據臨床科研的實際需求,重點實現(xiàn)了病例分析、數(shù)據洞察、樣本搜索、CRF管理、患者隨訪、科研項目管理、數(shù)據補錄等功能。

三、科研平臺的臨床病例采集功能

傳統(tǒng)的臨床科研往往需要從各個子系統(tǒng)中逐個抽取病例樣本進行手動管理,效率較低且出錯率高,臨床醫(yī)生可以直接獲得的臨床數(shù)據質量普遍較低,這直接影響醫(yī)院臨床科研人員產出的水平;同時,由于臨床病例數(shù)量大、噪聲多,這些問題集中到基于臨床病例的科研中,導致廣大科研人員對第一手病例的分布特征缺乏直觀認識,科學假設從提出到驗證周期長。

本平臺利用高效的數(shù)據采集算法,能極大地降低假設到實驗驗證的困難,滿足人工智能和數(shù)據挖掘技術應用于臨床科研的需求,有效提高科研效率。以臨床科研中分析“2型糖尿病人頸動脈斑塊形成的危險因素”為例,在納排研究對象時,如圖2所示,采用的納入標準為:年齡介于40到70歲,體質指數(shù)(BMI)介于20到28,診斷名稱包含“2型糖尿病”,設置時限后,科研平臺自動采集到1351名患者,1475例病例。同時,如圖3所示,設置排除標準為:患有患有腫瘤、糖尿病急性代謝紊亂綜合征、肝臟疾病、資料不完整的病人,進行病例篩除。

在搜集到科研病例后,科研人員可以預覽或導出病例數(shù)據。在本平臺中,可以利用納排的病例創(chuàng)建單獨的“2型糖尿病人頸動脈斑塊形成的危險因素”科研項目,設置病例與科研項目的對應關系,設置團隊成員后可以共享科研項目數(shù)據,展開研究。

根據搜集到的科研病例,可以根據需求設置指標,從病例中抽取相關數(shù)據,例如,可以在“2型糖尿病人頸動脈斑塊形成的危險因素”的科研項目中收集病人的年齡、性別、身高、體重、血壓、丙氨酸氨基轉移酶、同型半胱氨酸、尿酸、糖化血紅蛋白等指標,進行研究。

四、科研平臺的數(shù)據分析功能

基于收集的科研病例和數(shù)據指標,在本平臺可以進行數(shù)據分析,初步驗證科學假設。本平臺的數(shù)據分析算法主要包括特征描述、類別分析、回歸分析、知識圖譜分析等。

(一)數(shù)據特征描述

在特征描述中,本平臺提供了數(shù)據分析的平均性指標,包括算術平均數(shù)、中位數(shù)、眾數(shù)、四分位數(shù),還包括簡單調和平均數(shù)、加權調和平均數(shù)、幾何平均數(shù)等指標。特征描述也包括諸如極差、平均差、標準差、四分位間距、標準差系數(shù)等離散性指標,還包括數(shù)據形態(tài)分布的指標,如原始數(shù)據服從正態(tài)分布情況下的偏度系數(shù)、峰度系數(shù)等。在用戶選定需要計算的數(shù)據屬性或特征指標后,本平臺可以直接利用平臺算法按用戶要求計算指定的數(shù)據特征。

基于平均性指標和離散性指標還可以進行數(shù)據標準化,本平臺提供了極差標準化、Z-Score標準化、歸一化等算法。

在特征描述中,基于本平臺的數(shù)據分析算法還可以利用可視化工具,繪制不同特征值的散點圖、折線圖、面積圖,演示數(shù)據特征;或利用異質性指標、集中性指標等進行探索性的復雜數(shù)據分析,其中的異質性指標包括Gini指標、熵指標等。在特征描述中,還包括二元數(shù)據的協(xié)方差、 Pearson系數(shù)、Spearman系數(shù)、多元數(shù)據的方差-協(xié)方差矩陣等測定指標。

(二)類別分析

類別分析包括聚類算法和分類算法,聚類算法主要根據病例樣本的選定屬性或特征,將病例樣本劃分為有意義的類或簇。本平臺集成了K均值聚類算法、層次聚類算法、密度聚類算法等??蒲腥藛T根據選定的屬性或特征,可以選用不同的聚類算法對病例進行劃分,并用圖示方法展示,方便科研人員反復調整參數(shù)取得滿意結果。聚類算法不必要使用樣本病例的標記,是根據選定屬性或特征的自然聚集。而分類算法則要根據已有樣本病例所屬不同類別的標記結果,預測未知病例樣本的所屬類別或標記。本平臺的分類算法包括決策樹算法、貝葉斯算法、SVM算法、KNN算法等。

(三)回歸分析

本平臺主要利用回歸分析算法幫助科研人員在臨床數(shù)據用一個或多個屬性值(自變量)去解釋另一個屬性值(因變量)。一般來說,臨床病例的樣本具有多維特征,本平臺的回歸分析主要提供單因素和多因素回歸分析算法,在多因素回歸分析算法中,進一步包括多因素線性回歸算法、多因素Logistic回歸算法等。以“2型糖尿病人頸動脈斑塊形成的危險因素”科研項目為例,在本平臺的單因素邏輯回歸和多因素邏輯回歸方法中,能提供詳細的結果說明,并提供回歸模型診斷和可視化結果。

(四)知識圖譜分析

知識圖譜能對領域知識進行顯性化的沉淀和關聯(lián),在搜索到的科研病例中,本平臺通過自然語言切分技術處理歷史診斷數(shù)據中的專業(yè)術語,并利用深度學習技術構建領域本體;關聯(lián)病歷記錄中的結構化數(shù)據,利用共現(xiàn)分析技術、模式匹配技術、統(tǒng)計機器學習技術進行屬性抽??;通過相似度挖掘、聚類等方法進行知識整合和關系屬性鏈接。通過知識圖譜的可視化展示,能給科研人員更清晰的關聯(lián)知識表達,為后續(xù)的研究方向和數(shù)據分析角度提供有力工具。圖4展示了動脈粥樣硬化在ICD10詞表中利用多個下位詞構建的知識圖譜。

五、科研平臺的其他特點與優(yōu)勢

(一)標準化程度高

我院的臨床科研平臺基于醫(yī)療行業(yè)標準,采用的行業(yè)標準既考慮國際標準的領先性,也與醫(yī)院實際數(shù)據情況相結合,確立了醫(yī)院標準化的數(shù)據管理規(guī)范,并提供相應的標準化組件功能實現(xiàn)標準化管理服務(比如數(shù)據標準化、術語服務標準化)。這些都節(jié)約了醫(yī)院持續(xù)發(fā)展的成本,簡化了持續(xù)發(fā)展的復雜性,使復雜的醫(yī)療數(shù)據管理和整合成本有效降低、改善了數(shù)據整體的利用效率。

(二)平臺支持了既有業(yè)務的需求,也兼顧了未來的增長性需求

在我院臨床科研平臺的建設中,充分發(fā)揮已有系統(tǒng)的功能,利用現(xiàn)有的數(shù)據庫,通過平臺提供數(shù)據集成和業(yè)務價值的增值,不僅保存了業(yè)務系統(tǒng)的原有歷史數(shù)據,而且滿足了接入和管理未來數(shù)據增長的需求。平臺采用了模塊化的設計,便于醫(yī)療服務業(yè)務的變化和擴展,提供了豐富的開發(fā)環(huán)境,支持多種應用的開發(fā),能夠實現(xiàn)跨平臺數(shù)據庫間的數(shù)據管理,提供了用戶應用層的組件支持。

(三)注重頂層設計,強化安全設計

我院臨床科研平臺的建設從醫(yī)院的現(xiàn)實需求出發(fā),統(tǒng)一規(guī)劃、統(tǒng)一設計。平臺架構采用了整體化的設計理念,可以覆蓋業(yè)務系統(tǒng)數(shù)據的完整接入,并可進行逐一的數(shù)據校驗服務以及對歷史數(shù)據的關聯(lián)性存儲,還可以按需擴展并支撐第三方系統(tǒng)的數(shù)據利用。平臺也進行了全面的安全性設計,防止對數(shù)據的非法訪問、破壞和泄露。由于平臺將管理醫(yī)院全部數(shù)據,平臺架構提供了嚴謹和完善的安全和隱私管理策略及服務。

六、結語

我院通過對接臨床信息子系統(tǒng),建成了融合數(shù)據分析算法的臨床科研平臺。依據醫(yī)院實際的業(yè)務需求,平臺提取了臨床信息子系統(tǒng)數(shù)據和生物樣本數(shù)據(脫敏后的數(shù)據),實現(xiàn)了病例分析、樣本搜索、CRF管理等功能;并提供了特征描述、類別分析、回歸分析、主成分分析、知識圖譜分析等數(shù)據分析算法和工具;由此,實現(xiàn)了臨床信息子系統(tǒng)和生物樣本庫的數(shù)據共享,集成了數(shù)據分析算法,滿足了臨床科研的數(shù)據處理需求。

作者單位:福建醫(yī)科大學附屬第一醫(yī)院信息中心

猜你喜歡
聚類病例樣本
用樣本估計總體復習點撥
“病例”和“病歷”
推動醫(yī)改的“直銷樣本”
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
隨機微分方程的樣本Lyapunov二次型估計
一例犬中毒急診病例的診治
村企共贏的樣本
基于改進的遺傳算法的模糊聚類算法
一種層次初始的聚類個數(shù)自適應的聚類方法研究
妊娠期甲亢合并胎兒甲狀腺腫大一例報告
尼玛县| 牟定县| 宜宾县| 南宁市| 安图县| 酉阳| 岳阳市| 卓资县| 永川市| 定西市| 宽甸| 侯马市| 淄博市| 黄梅县| 孝感市| 兖州市| 正宁县| 建水县| 武定县| 丰都县| 那坡县| 驻马店市| 进贤县| 肥西县| 白河县| 宣汉县| 建平县| 剑川县| 东山县| 清苑县| 大邑县| 东乌珠穆沁旗| 衡阳县| 伊通| 青田县| 丹巴县| 瓦房店市| 荣成市| 漠河县| 南投县| 军事|