国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

運(yùn)用人工智能技術(shù)進(jìn)行肺功能數(shù)據(jù)庫(kù)構(gòu)建并輔助診斷實(shí)踐

2022-08-30 06:16傅唯佳湯梁峰葉成杰黃健雋袁媛劉麗娟黃劍峰李小玲王立波張曉波國(guó)家兒童醫(yī)學(xué)中心復(fù)旦大學(xué)附屬兒科醫(yī)院上海201102
中國(guó)醫(yī)療器械信息 2022年14期
關(guān)鍵詞:結(jié)構(gòu)化準(zhǔn)確性解析

傅唯佳 湯梁峰 葉成杰 黃健雋 袁媛 劉麗娟 黃劍峰 李小玲 王立波 張曉波 國(guó)家兒童醫(yī)學(xué)中心 復(fù)旦大學(xué)附屬兒科醫(yī)院 ( 上海 201102)

內(nèi)容提要: 目的:針對(duì)以圖片形式存儲(chǔ)的歷史肺功能報(bào)告,運(yùn)用人工智能技術(shù)提取其中的數(shù)據(jù)并進(jìn)行結(jié)構(gòu)化處理,并運(yùn)用數(shù)據(jù)嘗試進(jìn)行輔助診斷,實(shí)現(xiàn)高質(zhì)量的數(shù)據(jù)儲(chǔ)存和運(yùn)用。方法:運(yùn)用目標(biāo)光學(xué)字符識(shí)別(OCR)結(jié)合自然語(yǔ)言處理(NLP)技術(shù),對(duì)圖片形式的歷史肺功能報(bào)告文件進(jìn)行解析,提取其中的數(shù)據(jù)并完成結(jié)構(gòu)化轉(zhuǎn)換,構(gòu)建肺功能報(bào)告數(shù)據(jù)庫(kù)。同時(shí)依據(jù)兒童肺功能診斷原理,構(gòu)建肺功能輔助診斷系統(tǒng)。運(yùn)用抽樣比對(duì)的方法,對(duì)所構(gòu)建的數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)提取準(zhǔn)確性、輔助診斷準(zhǔn)確性分別進(jìn)行評(píng)價(jià)。結(jié)果:構(gòu)建了歷史肺功能報(bào)告的數(shù)據(jù)轉(zhuǎn)換模型,并建立了結(jié)構(gòu)化數(shù)據(jù)庫(kù)。對(duì)數(shù)據(jù)提取質(zhì)量進(jìn)行了評(píng)價(jià),通過(guò)模型的改進(jìn),數(shù)據(jù)提取準(zhǔn)確性提升到100%。運(yùn)用提取的數(shù)據(jù),在診斷原則下,開(kāi)發(fā)肺功能輔助診斷系統(tǒng),該系統(tǒng)的準(zhǔn)確性達(dá)到91.5%。結(jié)論:基于人工智能技術(shù)能完成對(duì)肺功能歷史報(bào)告的處理,構(gòu)建了高質(zhì)量的數(shù)據(jù)庫(kù)和運(yùn)用。這一方法有助于對(duì)大量歷史文件進(jìn)行結(jié)構(gòu)化處理以便充分發(fā)揮數(shù)據(jù)的作用,并后續(xù)開(kāi)發(fā)臨床決策支持等應(yīng)用。

肺功能檢查是運(yùn)用儀器通過(guò)檢測(cè)受檢者呼吸過(guò)程中的氣流參數(shù)進(jìn)行呼吸功能的評(píng)價(jià)[1],是描述呼吸功能的一種重要方法,牽涉呼吸力學(xué)、流體力學(xué)和熱力學(xué)等,檢查過(guò)程中產(chǎn)生大量的客觀定量數(shù)據(jù),經(jīng)過(guò)一定的測(cè)試和計(jì)算后,判斷患者的呼吸系統(tǒng)臨床問(wèn)題[2]。肺功能測(cè)定中產(chǎn)生的大量數(shù)據(jù)具有顯著的臨床和科研價(jià)值。在醫(yī)療信息化發(fā)展的早期,為了快速實(shí)現(xiàn)無(wú)紙化,以及大部分型號(hào)肺功能儀聯(lián)機(jī)功能的限制,肺功能報(bào)告的無(wú)紙化多數(shù)以翻拍儀器輸出的報(bào)告圖片的形式進(jìn)行。這種存儲(chǔ)方式支持了無(wú)紙化調(diào)閱,但計(jì)算機(jī)無(wú)法直接識(shí)別其中的數(shù)據(jù),極大地限制了對(duì)其中所包含的臨床數(shù)據(jù)的高效再運(yùn)用。正如本院大量以圖片形式存儲(chǔ)了肺功能歷史報(bào)告,其中有意義的參數(shù)無(wú)法實(shí)現(xiàn)計(jì)算機(jī)識(shí)別和運(yùn)用。

人工智能技術(shù)(Artificial Intelligence,AI)作為運(yùn)用計(jì)算機(jī)技術(shù)模擬和延伸人類智能的一門新興學(xué)科[3],開(kāi)始廣泛應(yīng)用于醫(yī)療衛(wèi)生中的數(shù)據(jù)治理和輔助診斷領(lǐng)域。針對(duì)本院肺功能報(bào)告歷史數(shù)據(jù)的特點(diǎn),我們嘗試運(yùn)用AI技術(shù),對(duì)圖片形式存儲(chǔ)的肺功能報(bào)告進(jìn)行解析,實(shí)現(xiàn)報(bào)告數(shù)據(jù)結(jié)構(gòu)化,并用高度結(jié)構(gòu)化的數(shù)據(jù)開(kāi)發(fā)輔助診斷功能。本文介紹這一數(shù)據(jù)轉(zhuǎn)換的實(shí)現(xiàn)過(guò)程、效果,以及在研發(fā)肺功能輔助診斷工具中的運(yùn)用。

1.資料與方法

以復(fù)旦大學(xué)附屬兒科醫(yī)院的歷史肺功能報(bào)告的存儲(chǔ)文件為資料來(lái)源,通過(guò)目標(biāo)光學(xué)字符識(shí)別(Optical Character Recognition,OCR)結(jié)合自然語(yǔ)言處理(Natural Language Processing,NLP)技術(shù),對(duì)圖片格式的報(bào)告中的文字內(nèi)容進(jìn)行分析,提取其中的數(shù)據(jù)并完成結(jié)構(gòu)化轉(zhuǎn)換,構(gòu)建高質(zhì)量數(shù)據(jù)庫(kù);同時(shí),驗(yàn)證數(shù)據(jù)提取的準(zhǔn)確性并進(jìn)行針對(duì)性優(yōu)化和提升;嘗試依據(jù)兒童肺功能診斷原理,將提取的數(shù)據(jù)用于肺功能輔助診斷。

1.1 主要技術(shù)

1.1.1 光學(xué)字符識(shí)別(OCR)技術(shù)。通過(guò)OCR技術(shù)可以從視頻、圖像中提取出其中的文字信息,目前該技術(shù)已經(jīng)廣泛地應(yīng)用在了圖像檢索、視頻摘要等各個(gè)方面[4]該技術(shù)夠批量處理大量報(bào)告,根據(jù)圖片內(nèi)容識(shí)別數(shù)據(jù)并進(jìn)行判斷。OCR技術(shù)的工作流程包含了圖片輸入預(yù)處理、版面分析、字符切割、特征提取、字符識(shí)別、矯正后處理、結(jié)果輸出(圖1)。

圖1.OCR結(jié)合NLP技術(shù)處理圖片內(nèi)文字并結(jié)構(gòu)化存儲(chǔ)的技術(shù)過(guò)程

1.1.2 自然語(yǔ)言處理(NLP)技術(shù)。自然語(yǔ)言處理(NLP)則能利用計(jì)算機(jī)技術(shù)把日常書(shū)寫或交流的語(yǔ)言或文字信息進(jìn)行定量化、結(jié)構(gòu)化,目的是轉(zhuǎn)化構(gòu)建人與計(jì)算機(jī)之間能夠共同使用的結(jié)構(gòu)化語(yǔ)言[5]。自然語(yǔ)言處理技術(shù)在OCR識(shí)別后的工作流程包括了對(duì)OCR提取的結(jié)果進(jìn)行進(jìn)一步識(shí)別和校驗(yàn),根據(jù)自然語(yǔ)言特性,對(duì)數(shù)據(jù)進(jìn)行修正,提升數(shù)據(jù)的準(zhǔn)確性。

1.1.3 OCR技術(shù)結(jié)合NLP技術(shù)的應(yīng)用。程序完成了OCR技術(shù)和NLP技術(shù)的結(jié)合,運(yùn)用采用平均閾值法對(duì)肺功能報(bào)告圖片預(yù)處理,借助于開(kāi)源引擎Tesseract進(jìn)行頁(yè)面版式分析、直線和單詞檢測(cè)、單詞識(shí)別、字符分類,最終通過(guò)字符類型修正及建立醫(yī)學(xué)詞典保證解析結(jié)果準(zhǔn)確性,使肺功能報(bào)告內(nèi)容識(shí)別率得到保證,報(bào)告數(shù)據(jù)存儲(chǔ)到PostgreSQL數(shù)據(jù)庫(kù)中。根據(jù)此邏輯開(kāi)發(fā)的本院肺功能報(bào)告數(shù)據(jù)采集系統(tǒng)使用OCR技術(shù)識(shí)別及NLP技術(shù)轉(zhuǎn)換,以歷史圖片格式的報(bào)告為原始資料,對(duì)報(bào)告中的數(shù)據(jù)進(jìn)行了識(shí)別提取、結(jié)構(gòu)化處理并展現(xiàn)(圖2)。

圖2.OCR結(jié)合NLP技術(shù)實(shí)現(xiàn)肺功能報(bào)告數(shù)據(jù)結(jié)構(gòu)化示意圖

1.2 運(yùn)用數(shù)據(jù)建立肺功能輔助報(bào)告程序

基于人工智能的數(shù)據(jù)提取構(gòu)建高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)庫(kù),在臨床進(jìn)行了數(shù)據(jù)運(yùn)用的實(shí)踐。依據(jù)兒童肺功能診斷原理,在專科醫(yī)師的協(xié)助下,構(gòu)建肺功能輔助診斷功能。以規(guī)定的參數(shù)判斷邏輯和原則,由程序根據(jù)數(shù)據(jù)進(jìn)行運(yùn)算,得出相應(yīng)肺功能的報(bào)告結(jié)論,該結(jié)論可以供肺功能診斷醫(yī)師參考。

1.3 數(shù)據(jù)采集和輔助決策的準(zhǔn)確性評(píng)價(jià)

以原始報(bào)告所載明的數(shù)據(jù)為金標(biāo)準(zhǔn),采用橫斷面調(diào)查,抽樣一個(gè)月的全量肺功能報(bào)告,對(duì)程序基于OCR聯(lián)合NLP技術(shù)獲取的數(shù)據(jù)進(jìn)行比對(duì),評(píng)價(jià)數(shù)據(jù)提取的準(zhǔn)確性。每份肺功能報(bào)告采集的變量數(shù)在17~47個(gè)之間,即每個(gè)檢測(cè)項(xiàng)目不同的Act、Best、Pre、Best/Pre等指標(biāo),準(zhǔn)確率定義為:原始報(bào)告比對(duì)解析無(wú)誤的變量數(shù)量/總變量數(shù)。由此計(jì)算全體變量的解析準(zhǔn)確率。通過(guò)準(zhǔn)確性評(píng)價(jià),針對(duì)性分析數(shù)據(jù)采集不準(zhǔn)確的原因,通過(guò)改善OCR和NLP的模型布置,并增加校驗(yàn)機(jī)制逐步提升準(zhǔn)確性,并通過(guò)重復(fù)評(píng)價(jià)進(jìn)行驗(yàn)證。同樣的,以原始肺功能報(bào)告結(jié)論為參考標(biāo)準(zhǔn),全量選取一個(gè)月的肺功能報(bào)告分析所獲數(shù)據(jù),根據(jù)程序規(guī)則運(yùn)算所得輔助結(jié)論,由小兒呼吸科??漆t(yī)師進(jìn)行人工比對(duì),評(píng)價(jià)程序進(jìn)行肺功能輔助報(bào)告支持的結(jié)論的準(zhǔn)確性。

2.結(jié)果

2.1 建立了高度結(jié)構(gòu)化的歷史肺功能檢查數(shù)據(jù)庫(kù)

通過(guò)OCR聯(lián)合NLP的數(shù)據(jù)治理模型,將歷史肺功能報(bào)告的圖片形式轉(zhuǎn)換成為了結(jié)構(gòu)式報(bào)告(圖3)。對(duì)本院2015年12月~2021年7月,共計(jì)41534份歷史肺功能報(bào)告數(shù)據(jù)完成了轉(zhuǎn)換和數(shù)據(jù)提取,其中常規(guī)通氣22259份、氣道阻力17413份、潮氣肺功能1862份。建成了高度結(jié)構(gòu)化的歷史肺功能檢查報(bào)告數(shù)據(jù)庫(kù)。

圖3.歷史肺功能報(bào)告的圖片形式轉(zhuǎn)換成為了結(jié)構(gòu)式報(bào)告

3.2 數(shù)據(jù)提取準(zhǔn)確性的提升和驗(yàn)證

首次常規(guī)布置完成程序,隨機(jī)抽取不同時(shí)期報(bào)告共29份,進(jìn)行數(shù)據(jù)解析結(jié)果的準(zhǔn)確性驗(yàn)證,解析準(zhǔn)確率為70%。為了改善低下的準(zhǔn)確率,對(duì)解析錯(cuò)誤的原因進(jìn)行了分析發(fā)現(xiàn),由于肺功能報(bào)告的復(fù)雜性,常常會(huì)有多語(yǔ)言的混合,主要包括中文、英文字符和數(shù)字,在識(shí)別的過(guò)程中常常會(huì)出現(xiàn)錯(cuò)誤。比如英文字母“0”常被識(shí)別成數(shù)字“0”;數(shù)字“l(fā)”很容易被誤認(rèn)為英文字母“l(fā)”;單個(gè)中文漢字會(huì)被識(shí)別成多個(gè)字符。這種情況對(duì)識(shí)別的準(zhǔn)確性造成了負(fù)面影響。

為了提升準(zhǔn)確性,對(duì)程序進(jìn)行了多方面改進(jìn)。首先根據(jù)肺功能報(bào)告的特點(diǎn)規(guī)定了不同變量的取值類型和值域,顯著提升了糾錯(cuò)能力,比如數(shù)值結(jié)果中近似英文字母“l(fā)”識(shí)別為數(shù)字“l(fā)”;負(fù)數(shù)數(shù)值結(jié)果中首位數(shù)值識(shí)別為為符號(hào)“-”。同時(shí),增加校驗(yàn)邏輯,如肺功能報(bào)告中Best為Act1-Act5中的最大值;對(duì)程序轉(zhuǎn)換的best/pre和分別轉(zhuǎn)換的best和pre值進(jìn)行比對(duì)校驗(yàn),并根據(jù)取值區(qū)間進(jìn)行比對(duì),此類內(nèi)部校驗(yàn)顯著增加了數(shù)據(jù)提取的準(zhǔn)確性。

經(jīng)過(guò)多種方法改進(jìn)的數(shù)據(jù)模型,再次驗(yàn)證準(zhǔn)確性,抽取了2021年7月的全部肺功能報(bào)告47份,共計(jì)1461個(gè)變量,再次比對(duì),解析準(zhǔn)確率已經(jīng)達(dá)到100%。

3.3 構(gòu)建了有效的肺功能輔助報(bào)告工具

運(yùn)用小兒呼吸專科醫(yī)師根據(jù)文獻(xiàn)和指南給出的肺功能結(jié)論規(guī)則(圖四),程序以嵌入規(guī)則的形式構(gòu)建了對(duì)上述解析數(shù)據(jù)的運(yùn)用案例。抽取2021年7月所有肺功能報(bào)告47份,通過(guò)??漆t(yī)師比對(duì),程序的肺功能報(bào)告輔助決策支持準(zhǔn)確率達(dá)91.5%。

圖4.肺功能報(bào)告輔助決策支持規(guī)則示意圖

4.討論

肺功能測(cè)定對(duì)于判斷呼吸系統(tǒng)疾病尤其是在喘息性疾病的診斷、鑒別診斷、治療及預(yù)后評(píng)估方面均有重要意義[6]。復(fù)旦大學(xué)附屬兒科醫(yī)院在國(guó)內(nèi)較早開(kāi)展小兒肺功能診斷,在哮喘防治、長(zhǎng)期隨訪中發(fā)揮了巨大作用。然而,由于早期設(shè)備和條件限制,大量的肺功能報(bào)告僅以圖片的形式存儲(chǔ)在服務(wù)器,大量歷史數(shù)據(jù)的回顧性分析需要耗費(fèi)大量的人力物力。為了充分運(yùn)用歷史數(shù)據(jù),發(fā)揮臨床數(shù)據(jù)的價(jià)值,本院率先針對(duì)此類圖片形式存儲(chǔ)的數(shù)據(jù),運(yùn)用人工智能技術(shù)進(jìn)行了大規(guī)模處理和利用的研究。

醫(yī)療文書(shū)的儲(chǔ)存形式分為結(jié)構(gòu)化儲(chǔ)存和非結(jié)構(gòu)化儲(chǔ)存。非結(jié)構(gòu)化數(shù)據(jù)往往為整段自由文本甚至圖片等不可編輯格式,運(yùn)用的常規(guī)方式需要人工逐份查閱報(bào)告,并進(jìn)行轉(zhuǎn)抄處理,極不適用于大規(guī)模的數(shù)據(jù)研究。而結(jié)構(gòu)化儲(chǔ)存的報(bào)告具有明確的邏輯,使用標(biāo)準(zhǔn)語(yǔ)匯、具有標(biāo)準(zhǔn)組織結(jié)構(gòu),其內(nèi)容也有清晰的規(guī)定。結(jié)構(gòu)化數(shù)據(jù)以規(guī)定形式變量?jī)?chǔ)存在數(shù)據(jù)表中,信息完整、準(zhǔn)確,更易于解讀和回顧對(duì)比[7-8],屬于高可用數(shù)據(jù),能高效地為計(jì)算機(jī)語(yǔ)言識(shí)別,直接運(yùn)用。

我們的實(shí)踐表明,OCR配合NLP的模式能有效應(yīng)用于此類非結(jié)構(gòu)化圖片文件的數(shù)據(jù)提取和處理,但也需要進(jìn)行針對(duì)性的準(zhǔn)確性評(píng)價(jià)和糾正,深入地分析程序解析中存在的問(wèn)題,個(gè)性化地根據(jù)圖片文件的特點(diǎn)、報(bào)告中的變量類型和值域等進(jìn)行校正規(guī)則的布置和優(yōu)化,能達(dá)到比較滿意的效果,實(shí)現(xiàn)數(shù)據(jù)的高度結(jié)構(gòu)化和高可用。

研究表明[9],臨床工作中執(zhí)行的很多診斷標(biāo)準(zhǔn)如TNM分期、實(shí)體腫瘤的療效評(píng)價(jià)標(biāo)準(zhǔn)(response evaluation criteria in solid tumors,RECIST)等,其內(nèi)在學(xué)術(shù)邏輯可以設(shè)定在結(jié)構(gòu)式報(bào)告的軟件邏輯中,可自動(dòng)提取數(shù)據(jù)并做出判斷。基于此,本院肺功能報(bào)告決策支持目前以常規(guī)通氣報(bào)告為例,提取兒童肺功能系列指南[2]規(guī)則,實(shí)現(xiàn)結(jié)論的生成,有望在未來(lái)為肺功能報(bào)告醫(yī)師的工作提供輔助。

在醫(yī)療數(shù)據(jù)治理的過(guò)程中,本方法為歷史數(shù)據(jù)的新運(yùn)用提供了一種數(shù)據(jù)治理的思路。當(dāng)然,具體圖片文件的分析受到像素、對(duì)比度、圖片畸變、字體等多因素的影響,而且不同的報(bào)告類型也有非常個(gè)性化的特點(diǎn),需要醫(yī)院數(shù)據(jù)管理部門根據(jù)臨床醫(yī)師的需求出發(fā),深化和臨床的合作,讓歷史數(shù)據(jù)重新煥發(fā)活力。本文對(duì)此數(shù)據(jù)在臨床決策支持的運(yùn)用也僅做了粗淺的嘗試,提示通過(guò)數(shù)據(jù)治理,一定還能深入挖掘臨床歷史數(shù)據(jù)的價(jià)值,為臨床研究提供更大支撐。

5.結(jié)論

基于人工智能的數(shù)據(jù)治理方法,通過(guò)對(duì)圖片儲(chǔ)存的歷史肺功能報(bào)告進(jìn)行數(shù)據(jù)的解析運(yùn)用,構(gòu)建了高度結(jié)構(gòu)化的數(shù)據(jù)庫(kù),能有效支持回顧性數(shù)據(jù)的臨床研究,并進(jìn)一步運(yùn)用在輔助診斷等決策支持場(chǎng)景,以便充分發(fā)揮歷史數(shù)據(jù)的價(jià)值。

猜你喜歡
結(jié)構(gòu)化準(zhǔn)確性解析
CT診斷中心型肺癌的準(zhǔn)確性及MRI補(bǔ)充診斷的意義
三角函數(shù)解析式中ω的幾種求法
淺談如何提高建筑安裝工程預(yù)算的準(zhǔn)確性
改進(jìn)的非結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)動(dòng)態(tài)搜索算法
深度學(xué)習(xí)的單元結(jié)構(gòu)化教學(xué)實(shí)踐與思考
理解語(yǔ)境與名句的關(guān)系,提高默寫的準(zhǔn)確性
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
左顧右盼 瞻前顧后 融會(huì)貫通——基于數(shù)學(xué)結(jié)構(gòu)化的深度學(xué)習(xí)
睡夢(mèng)解析儀
電競(jìng)初解析