傅唯佳 湯梁峰 葉成杰 黃健雋 袁媛 劉麗娟 黃劍峰 李小玲 王立波 張曉波 國(guó)家兒童醫(yī)學(xué)中心 復(fù)旦大學(xué)附屬兒科醫(yī)院 ( 上海 201102)
內(nèi)容提要: 目的:針對(duì)以圖片形式存儲(chǔ)的歷史肺功能報(bào)告,運(yùn)用人工智能技術(shù)提取其中的數(shù)據(jù)并進(jìn)行結(jié)構(gòu)化處理,并運(yùn)用數(shù)據(jù)嘗試進(jìn)行輔助診斷,實(shí)現(xiàn)高質(zhì)量的數(shù)據(jù)儲(chǔ)存和運(yùn)用。方法:運(yùn)用目標(biāo)光學(xué)字符識(shí)別(OCR)結(jié)合自然語(yǔ)言處理(NLP)技術(shù),對(duì)圖片形式的歷史肺功能報(bào)告文件進(jìn)行解析,提取其中的數(shù)據(jù)并完成結(jié)構(gòu)化轉(zhuǎn)換,構(gòu)建肺功能報(bào)告數(shù)據(jù)庫(kù)。同時(shí)依據(jù)兒童肺功能診斷原理,構(gòu)建肺功能輔助診斷系統(tǒng)。運(yùn)用抽樣比對(duì)的方法,對(duì)所構(gòu)建的數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)提取準(zhǔn)確性、輔助診斷準(zhǔn)確性分別進(jìn)行評(píng)價(jià)。結(jié)果:構(gòu)建了歷史肺功能報(bào)告的數(shù)據(jù)轉(zhuǎn)換模型,并建立了結(jié)構(gòu)化數(shù)據(jù)庫(kù)。對(duì)數(shù)據(jù)提取質(zhì)量進(jìn)行了評(píng)價(jià),通過(guò)模型的改進(jìn),數(shù)據(jù)提取準(zhǔn)確性提升到100%。運(yùn)用提取的數(shù)據(jù),在診斷原則下,開(kāi)發(fā)肺功能輔助診斷系統(tǒng),該系統(tǒng)的準(zhǔn)確性達(dá)到91.5%。結(jié)論:基于人工智能技術(shù)能完成對(duì)肺功能歷史報(bào)告的處理,構(gòu)建了高質(zhì)量的數(shù)據(jù)庫(kù)和運(yùn)用。這一方法有助于對(duì)大量歷史文件進(jìn)行結(jié)構(gòu)化處理以便充分發(fā)揮數(shù)據(jù)的作用,并后續(xù)開(kāi)發(fā)臨床決策支持等應(yīng)用。
肺功能檢查是運(yùn)用儀器通過(guò)檢測(cè)受檢者呼吸過(guò)程中的氣流參數(shù)進(jìn)行呼吸功能的評(píng)價(jià)[1],是描述呼吸功能的一種重要方法,牽涉呼吸力學(xué)、流體力學(xué)和熱力學(xué)等,檢查過(guò)程中產(chǎn)生大量的客觀定量數(shù)據(jù),經(jīng)過(guò)一定的測(cè)試和計(jì)算后,判斷患者的呼吸系統(tǒng)臨床問(wèn)題[2]。肺功能測(cè)定中產(chǎn)生的大量數(shù)據(jù)具有顯著的臨床和科研價(jià)值。在醫(yī)療信息化發(fā)展的早期,為了快速實(shí)現(xiàn)無(wú)紙化,以及大部分型號(hào)肺功能儀聯(lián)機(jī)功能的限制,肺功能報(bào)告的無(wú)紙化多數(shù)以翻拍儀器輸出的報(bào)告圖片的形式進(jìn)行。這種存儲(chǔ)方式支持了無(wú)紙化調(diào)閱,但計(jì)算機(jī)無(wú)法直接識(shí)別其中的數(shù)據(jù),極大地限制了對(duì)其中所包含的臨床數(shù)據(jù)的高效再運(yùn)用。正如本院大量以圖片形式存儲(chǔ)了肺功能歷史報(bào)告,其中有意義的參數(shù)無(wú)法實(shí)現(xiàn)計(jì)算機(jī)識(shí)別和運(yùn)用。
人工智能技術(shù)(Artificial Intelligence,AI)作為運(yùn)用計(jì)算機(jī)技術(shù)模擬和延伸人類智能的一門新興學(xué)科[3],開(kāi)始廣泛應(yīng)用于醫(yī)療衛(wèi)生中的數(shù)據(jù)治理和輔助診斷領(lǐng)域。針對(duì)本院肺功能報(bào)告歷史數(shù)據(jù)的特點(diǎn),我們嘗試運(yùn)用AI技術(shù),對(duì)圖片形式存儲(chǔ)的肺功能報(bào)告進(jìn)行解析,實(shí)現(xiàn)報(bào)告數(shù)據(jù)結(jié)構(gòu)化,并用高度結(jié)構(gòu)化的數(shù)據(jù)開(kāi)發(fā)輔助診斷功能。本文介紹這一數(shù)據(jù)轉(zhuǎn)換的實(shí)現(xiàn)過(guò)程、效果,以及在研發(fā)肺功能輔助診斷工具中的運(yùn)用。
以復(fù)旦大學(xué)附屬兒科醫(yī)院的歷史肺功能報(bào)告的存儲(chǔ)文件為資料來(lái)源,通過(guò)目標(biāo)光學(xué)字符識(shí)別(Optical Character Recognition,OCR)結(jié)合自然語(yǔ)言處理(Natural Language Processing,NLP)技術(shù),對(duì)圖片格式的報(bào)告中的文字內(nèi)容進(jìn)行分析,提取其中的數(shù)據(jù)并完成結(jié)構(gòu)化轉(zhuǎn)換,構(gòu)建高質(zhì)量數(shù)據(jù)庫(kù);同時(shí),驗(yàn)證數(shù)據(jù)提取的準(zhǔn)確性并進(jìn)行針對(duì)性優(yōu)化和提升;嘗試依據(jù)兒童肺功能診斷原理,將提取的數(shù)據(jù)用于肺功能輔助診斷。
1.1.1 光學(xué)字符識(shí)別(OCR)技術(shù)。通過(guò)OCR技術(shù)可以從視頻、圖像中提取出其中的文字信息,目前該技術(shù)已經(jīng)廣泛地應(yīng)用在了圖像檢索、視頻摘要等各個(gè)方面[4]該技術(shù)夠批量處理大量報(bào)告,根據(jù)圖片內(nèi)容識(shí)別數(shù)據(jù)并進(jìn)行判斷。OCR技術(shù)的工作流程包含了圖片輸入預(yù)處理、版面分析、字符切割、特征提取、字符識(shí)別、矯正后處理、結(jié)果輸出(圖1)。
圖1.OCR結(jié)合NLP技術(shù)處理圖片內(nèi)文字并結(jié)構(gòu)化存儲(chǔ)的技術(shù)過(guò)程
1.1.2 自然語(yǔ)言處理(NLP)技術(shù)。自然語(yǔ)言處理(NLP)則能利用計(jì)算機(jī)技術(shù)把日常書(shū)寫或交流的語(yǔ)言或文字信息進(jìn)行定量化、結(jié)構(gòu)化,目的是轉(zhuǎn)化構(gòu)建人與計(jì)算機(jī)之間能夠共同使用的結(jié)構(gòu)化語(yǔ)言[5]。自然語(yǔ)言處理技術(shù)在OCR識(shí)別后的工作流程包括了對(duì)OCR提取的結(jié)果進(jìn)行進(jìn)一步識(shí)別和校驗(yàn),根據(jù)自然語(yǔ)言特性,對(duì)數(shù)據(jù)進(jìn)行修正,提升數(shù)據(jù)的準(zhǔn)確性。
1.1.3 OCR技術(shù)結(jié)合NLP技術(shù)的應(yīng)用。程序完成了OCR技術(shù)和NLP技術(shù)的結(jié)合,運(yùn)用采用平均閾值法對(duì)肺功能報(bào)告圖片預(yù)處理,借助于開(kāi)源引擎Tesseract進(jìn)行頁(yè)面版式分析、直線和單詞檢測(cè)、單詞識(shí)別、字符分類,最終通過(guò)字符類型修正及建立醫(yī)學(xué)詞典保證解析結(jié)果準(zhǔn)確性,使肺功能報(bào)告內(nèi)容識(shí)別率得到保證,報(bào)告數(shù)據(jù)存儲(chǔ)到PostgreSQL數(shù)據(jù)庫(kù)中。根據(jù)此邏輯開(kāi)發(fā)的本院肺功能報(bào)告數(shù)據(jù)采集系統(tǒng)使用OCR技術(shù)識(shí)別及NLP技術(shù)轉(zhuǎn)換,以歷史圖片格式的報(bào)告為原始資料,對(duì)報(bào)告中的數(shù)據(jù)進(jìn)行了識(shí)別提取、結(jié)構(gòu)化處理并展現(xiàn)(圖2)。
圖2.OCR結(jié)合NLP技術(shù)實(shí)現(xiàn)肺功能報(bào)告數(shù)據(jù)結(jié)構(gòu)化示意圖
基于人工智能的數(shù)據(jù)提取構(gòu)建高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)庫(kù),在臨床進(jìn)行了數(shù)據(jù)運(yùn)用的實(shí)踐。依據(jù)兒童肺功能診斷原理,在專科醫(yī)師的協(xié)助下,構(gòu)建肺功能輔助診斷功能。以規(guī)定的參數(shù)判斷邏輯和原則,由程序根據(jù)數(shù)據(jù)進(jìn)行運(yùn)算,得出相應(yīng)肺功能的報(bào)告結(jié)論,該結(jié)論可以供肺功能診斷醫(yī)師參考。
以原始報(bào)告所載明的數(shù)據(jù)為金標(biāo)準(zhǔn),采用橫斷面調(diào)查,抽樣一個(gè)月的全量肺功能報(bào)告,對(duì)程序基于OCR聯(lián)合NLP技術(shù)獲取的數(shù)據(jù)進(jìn)行比對(duì),評(píng)價(jià)數(shù)據(jù)提取的準(zhǔn)確性。每份肺功能報(bào)告采集的變量數(shù)在17~47個(gè)之間,即每個(gè)檢測(cè)項(xiàng)目不同的Act、Best、Pre、Best/Pre等指標(biāo),準(zhǔn)確率定義為:原始報(bào)告比對(duì)解析無(wú)誤的變量數(shù)量/總變量數(shù)。由此計(jì)算全體變量的解析準(zhǔn)確率。通過(guò)準(zhǔn)確性評(píng)價(jià),針對(duì)性分析數(shù)據(jù)采集不準(zhǔn)確的原因,通過(guò)改善OCR和NLP的模型布置,并增加校驗(yàn)機(jī)制逐步提升準(zhǔn)確性,并通過(guò)重復(fù)評(píng)價(jià)進(jìn)行驗(yàn)證。同樣的,以原始肺功能報(bào)告結(jié)論為參考標(biāo)準(zhǔn),全量選取一個(gè)月的肺功能報(bào)告分析所獲數(shù)據(jù),根據(jù)程序規(guī)則運(yùn)算所得輔助結(jié)論,由小兒呼吸科??漆t(yī)師進(jìn)行人工比對(duì),評(píng)價(jià)程序進(jìn)行肺功能輔助報(bào)告支持的結(jié)論的準(zhǔn)確性。
通過(guò)OCR聯(lián)合NLP的數(shù)據(jù)治理模型,將歷史肺功能報(bào)告的圖片形式轉(zhuǎn)換成為了結(jié)構(gòu)式報(bào)告(圖3)。對(duì)本院2015年12月~2021年7月,共計(jì)41534份歷史肺功能報(bào)告數(shù)據(jù)完成了轉(zhuǎn)換和數(shù)據(jù)提取,其中常規(guī)通氣22259份、氣道阻力17413份、潮氣肺功能1862份。建成了高度結(jié)構(gòu)化的歷史肺功能檢查報(bào)告數(shù)據(jù)庫(kù)。
圖3.歷史肺功能報(bào)告的圖片形式轉(zhuǎn)換成為了結(jié)構(gòu)式報(bào)告
首次常規(guī)布置完成程序,隨機(jī)抽取不同時(shí)期報(bào)告共29份,進(jìn)行數(shù)據(jù)解析結(jié)果的準(zhǔn)確性驗(yàn)證,解析準(zhǔn)確率為70%。為了改善低下的準(zhǔn)確率,對(duì)解析錯(cuò)誤的原因進(jìn)行了分析發(fā)現(xiàn),由于肺功能報(bào)告的復(fù)雜性,常常會(huì)有多語(yǔ)言的混合,主要包括中文、英文字符和數(shù)字,在識(shí)別的過(guò)程中常常會(huì)出現(xiàn)錯(cuò)誤。比如英文字母“0”常被識(shí)別成數(shù)字“0”;數(shù)字“l(fā)”很容易被誤認(rèn)為英文字母“l(fā)”;單個(gè)中文漢字會(huì)被識(shí)別成多個(gè)字符。這種情況對(duì)識(shí)別的準(zhǔn)確性造成了負(fù)面影響。
為了提升準(zhǔn)確性,對(duì)程序進(jìn)行了多方面改進(jìn)。首先根據(jù)肺功能報(bào)告的特點(diǎn)規(guī)定了不同變量的取值類型和值域,顯著提升了糾錯(cuò)能力,比如數(shù)值結(jié)果中近似英文字母“l(fā)”識(shí)別為數(shù)字“l(fā)”;負(fù)數(shù)數(shù)值結(jié)果中首位數(shù)值識(shí)別為為符號(hào)“-”。同時(shí),增加校驗(yàn)邏輯,如肺功能報(bào)告中Best為Act1-Act5中的最大值;對(duì)程序轉(zhuǎn)換的best/pre和分別轉(zhuǎn)換的best和pre值進(jìn)行比對(duì)校驗(yàn),并根據(jù)取值區(qū)間進(jìn)行比對(duì),此類內(nèi)部校驗(yàn)顯著增加了數(shù)據(jù)提取的準(zhǔn)確性。
經(jīng)過(guò)多種方法改進(jìn)的數(shù)據(jù)模型,再次驗(yàn)證準(zhǔn)確性,抽取了2021年7月的全部肺功能報(bào)告47份,共計(jì)1461個(gè)變量,再次比對(duì),解析準(zhǔn)確率已經(jīng)達(dá)到100%。
運(yùn)用小兒呼吸專科醫(yī)師根據(jù)文獻(xiàn)和指南給出的肺功能結(jié)論規(guī)則(圖四),程序以嵌入規(guī)則的形式構(gòu)建了對(duì)上述解析數(shù)據(jù)的運(yùn)用案例。抽取2021年7月所有肺功能報(bào)告47份,通過(guò)??漆t(yī)師比對(duì),程序的肺功能報(bào)告輔助決策支持準(zhǔn)確率達(dá)91.5%。
圖4.肺功能報(bào)告輔助決策支持規(guī)則示意圖
肺功能測(cè)定對(duì)于判斷呼吸系統(tǒng)疾病尤其是在喘息性疾病的診斷、鑒別診斷、治療及預(yù)后評(píng)估方面均有重要意義[6]。復(fù)旦大學(xué)附屬兒科醫(yī)院在國(guó)內(nèi)較早開(kāi)展小兒肺功能診斷,在哮喘防治、長(zhǎng)期隨訪中發(fā)揮了巨大作用。然而,由于早期設(shè)備和條件限制,大量的肺功能報(bào)告僅以圖片的形式存儲(chǔ)在服務(wù)器,大量歷史數(shù)據(jù)的回顧性分析需要耗費(fèi)大量的人力物力。為了充分運(yùn)用歷史數(shù)據(jù),發(fā)揮臨床數(shù)據(jù)的價(jià)值,本院率先針對(duì)此類圖片形式存儲(chǔ)的數(shù)據(jù),運(yùn)用人工智能技術(shù)進(jìn)行了大規(guī)模處理和利用的研究。
醫(yī)療文書(shū)的儲(chǔ)存形式分為結(jié)構(gòu)化儲(chǔ)存和非結(jié)構(gòu)化儲(chǔ)存。非結(jié)構(gòu)化數(shù)據(jù)往往為整段自由文本甚至圖片等不可編輯格式,運(yùn)用的常規(guī)方式需要人工逐份查閱報(bào)告,并進(jìn)行轉(zhuǎn)抄處理,極不適用于大規(guī)模的數(shù)據(jù)研究。而結(jié)構(gòu)化儲(chǔ)存的報(bào)告具有明確的邏輯,使用標(biāo)準(zhǔn)語(yǔ)匯、具有標(biāo)準(zhǔn)組織結(jié)構(gòu),其內(nèi)容也有清晰的規(guī)定。結(jié)構(gòu)化數(shù)據(jù)以規(guī)定形式變量?jī)?chǔ)存在數(shù)據(jù)表中,信息完整、準(zhǔn)確,更易于解讀和回顧對(duì)比[7-8],屬于高可用數(shù)據(jù),能高效地為計(jì)算機(jī)語(yǔ)言識(shí)別,直接運(yùn)用。
我們的實(shí)踐表明,OCR配合NLP的模式能有效應(yīng)用于此類非結(jié)構(gòu)化圖片文件的數(shù)據(jù)提取和處理,但也需要進(jìn)行針對(duì)性的準(zhǔn)確性評(píng)價(jià)和糾正,深入地分析程序解析中存在的問(wèn)題,個(gè)性化地根據(jù)圖片文件的特點(diǎn)、報(bào)告中的變量類型和值域等進(jìn)行校正規(guī)則的布置和優(yōu)化,能達(dá)到比較滿意的效果,實(shí)現(xiàn)數(shù)據(jù)的高度結(jié)構(gòu)化和高可用。
研究表明[9],臨床工作中執(zhí)行的很多診斷標(biāo)準(zhǔn)如TNM分期、實(shí)體腫瘤的療效評(píng)價(jià)標(biāo)準(zhǔn)(response evaluation criteria in solid tumors,RECIST)等,其內(nèi)在學(xué)術(shù)邏輯可以設(shè)定在結(jié)構(gòu)式報(bào)告的軟件邏輯中,可自動(dòng)提取數(shù)據(jù)并做出判斷。基于此,本院肺功能報(bào)告決策支持目前以常規(guī)通氣報(bào)告為例,提取兒童肺功能系列指南[2]規(guī)則,實(shí)現(xiàn)結(jié)論的生成,有望在未來(lái)為肺功能報(bào)告醫(yī)師的工作提供輔助。
在醫(yī)療數(shù)據(jù)治理的過(guò)程中,本方法為歷史數(shù)據(jù)的新運(yùn)用提供了一種數(shù)據(jù)治理的思路。當(dāng)然,具體圖片文件的分析受到像素、對(duì)比度、圖片畸變、字體等多因素的影響,而且不同的報(bào)告類型也有非常個(gè)性化的特點(diǎn),需要醫(yī)院數(shù)據(jù)管理部門根據(jù)臨床醫(yī)師的需求出發(fā),深化和臨床的合作,讓歷史數(shù)據(jù)重新煥發(fā)活力。本文對(duì)此數(shù)據(jù)在臨床決策支持的運(yùn)用也僅做了粗淺的嘗試,提示通過(guò)數(shù)據(jù)治理,一定還能深入挖掘臨床歷史數(shù)據(jù)的價(jià)值,為臨床研究提供更大支撐。
基于人工智能的數(shù)據(jù)治理方法,通過(guò)對(duì)圖片儲(chǔ)存的歷史肺功能報(bào)告進(jìn)行數(shù)據(jù)的解析運(yùn)用,構(gòu)建了高度結(jié)構(gòu)化的數(shù)據(jù)庫(kù),能有效支持回顧性數(shù)據(jù)的臨床研究,并進(jìn)一步運(yùn)用在輔助診斷等決策支持場(chǎng)景,以便充分發(fā)揮歷史數(shù)據(jù)的價(jià)值。