国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

可計(jì)算醫(yī)學(xué)知識的基本概念與實(shí)現(xiàn)路徑

2021-11-25 09:32:08孔桂蘭李鵬飛白永梅張路霞
情報(bào)學(xué)報(bào) 2021年11期
關(guān)鍵詞:醫(yī)學(xué)知識三元組結(jié)構(gòu)化

杜 建,孔桂蘭,李鵬飛,2,白永梅,張路霞

(1.北京大學(xué)健康醫(yī)療大數(shù)據(jù)國家研究院,北京 100191;2.北京大學(xué)信息技術(shù)高等研究院,杭州 226019)

1 引言

如何從數(shù)據(jù)中生成知識(data to knowledge,D2K)是情報(bào)學(xué)和數(shù)據(jù)科學(xué)的重要研究內(nèi)容,也是解決大數(shù)據(jù)時代信息超載的關(guān)鍵[1-2]。當(dāng)前,各國高度重視科技創(chuàng)新,由此產(chǎn)出的科學(xué)出版物及其相關(guān)數(shù)據(jù)將持續(xù)快速增長?,F(xiàn)代科學(xué)的特點(diǎn)是科學(xué)文獻(xiàn)呈指數(shù)級增長,但出版量的增長并未反映科學(xué)認(rèn)知領(lǐng)域的擴(kuò)大,例如,新出現(xiàn)的科學(xué)概念(論文標(biāo)題中識別出的新短語)數(shù)量呈線性增長[3-4]。受此啟發(fā),我們認(rèn)為,海量的科學(xué)出版物僅是數(shù)據(jù)或信息,而其中涉及的“知識單元”對于開展知識發(fā)現(xiàn)、加快知識轉(zhuǎn)化、促進(jìn)知識驅(qū)動的管理決策則具有更重要意義。我國情報(bào)學(xué)學(xué)者馬費(fèi)成教授曾指出,從物理層次的文獻(xiàn)單元向認(rèn)知層次的知識單元轉(zhuǎn)換是情報(bào)學(xué)取得突破性發(fā)展需要解決的關(guān)鍵問題[5]。但究竟如何表示知識單元一直沒有得到解決[6]。知識通常以文字、符號和圖片的形式呈現(xiàn),并通過書籍、期刊和論文的形式進(jìn)行傳播。一個人想要理解、總結(jié)以及運(yùn)用這些知識,則需要親自閱讀這些書籍、期刊和論文,這是一個緩慢而費(fèi)力的過程。為了保持知識更新,需要從海量數(shù)據(jù)和信息中抽取、剝離出知識單元,并建立適宜的表示模型;同時,為促進(jìn)知識轉(zhuǎn)化,需要搭建知識和實(shí)踐之間的橋梁,構(gòu)建兩者之間的交互機(jī)制,促進(jìn)知識驅(qū)動或知識指導(dǎo)的實(shí)踐。

上述觀點(diǎn)在醫(yī)學(xué)領(lǐng)域尤為明顯和迫切。醫(yī)學(xué)知識從發(fā)現(xiàn)到實(shí)際應(yīng)用,平均有17年的時滯。為何轉(zhuǎn)化時滯如此之長,一個重要原因是目前的醫(yī)學(xué)知識多表現(xiàn)為線性的文本(如醫(yī)學(xué)文獻(xiàn)、臨床指南等)和碎片化的模型(如疾病風(fēng)險(xiǎn)評估模型等)。為了加速醫(yī)學(xué)知識向臨床應(yīng)用的轉(zhuǎn)化,美國密歇根大學(xué)提出了“推進(jìn)可計(jì)算生物醫(yī)學(xué)知識”(mobilizing computable biomedical knowledge,MCBK)的理 念和行動,在美國、英國、澳大利亞、中國等引起了廣泛關(guān)注[7],已連續(xù)3年召開年會,共同推動第二次知識革命[8]。其核心思想包括3個重要環(huán)節(jié)。一是將目前人讀的知識格式轉(zhuǎn)化為機(jī)器可執(zhí)行的格式,開發(fā)輔助臨床決策的應(yīng)用產(chǎn)品,實(shí)現(xiàn)“從數(shù)據(jù)到知識”;二是將知識對象存儲在知識管理平臺上,供臨床醫(yī)護(hù)人員在實(shí)踐中實(shí)時調(diào)用,實(shí)現(xiàn)廣泛共享和利用,實(shí)現(xiàn)“從知識到實(shí)踐”;三是在知識驅(qū)動的臨床實(shí)踐中產(chǎn)生新的數(shù)據(jù),實(shí)現(xiàn)“從實(shí)踐再到數(shù)據(jù)”,進(jìn)而循環(huán)往復(fù)又形成新的知識。最終實(shí)現(xiàn)“從數(shù)據(jù)到知識,從知識到實(shí)踐,從實(shí)踐再到數(shù)據(jù)”的循環(huán),促進(jìn)學(xué)習(xí)型健康醫(yī)療體系的建立。

目前,在“數(shù)據(jù)-知識-實(shí)踐”周期中,從數(shù)據(jù)到知識,是科學(xué)共同體開展科學(xué)發(fā)現(xiàn)的過程;而從知識到實(shí)踐的進(jìn)程緩慢,可計(jì)算知識是實(shí)現(xiàn)“從知識到實(shí)踐”的重要技術(shù)手段。以醫(yī)學(xué)領(lǐng)域?yàn)槔?,通過革新醫(yī)學(xué)知識的呈現(xiàn)和管理方式(從“人讀”到“機(jī)器讀”,從“圖書館存儲”到“可計(jì)算知識管理平臺存儲”),并構(gòu)建知識應(yīng)用的標(biāo)準(zhǔn)模式,有望促成整個健康醫(yī)療體系的變革。本文在國際相關(guān)研究和實(shí)踐基礎(chǔ)上,結(jié)合我們的理解,引入和闡述可計(jì)算醫(yī)學(xué)知識的基本概念、主要類型、表示模型和管理平臺等,以期為學(xué)術(shù)界開展醫(yī)學(xué)知識可計(jì)算引入跨學(xué)科研究思路,也為我國建立學(xué)習(xí)型健康醫(yī)療體系提供方法基礎(chǔ)和實(shí)現(xiàn)路徑。

2 可計(jì)算醫(yī)學(xué)知識的基本概念

根據(jù)能否清晰表述和有效轉(zhuǎn)移,可以把知識分為顯性知識(explicit knowledge)和隱性知識(tac‐it knowledge)。醫(yī)學(xué)知識,是經(jīng)過醫(yī)學(xué)實(shí)踐證實(shí)、科學(xué)分析或嚴(yán)謹(jǐn)研討過程后形成的結(jié)果或論斷,對特定的臨床專業(yè)或疾病人群具有重要指導(dǎo)意義,可界定為經(jīng)過科學(xué)實(shí)驗(yàn)/試驗(yàn)并經(jīng)同行評議后已發(fā)表或已被醫(yī)學(xué)界接受的結(jié)果、主張或認(rèn)知。由于醫(yī)學(xué)(特別是現(xiàn)代醫(yī)學(xué))有嚴(yán)格的培養(yǎng)標(biāo)準(zhǔn)和教育體系,醫(yī)學(xué)知識主要以顯性知識為主,即可以被記錄下來,并被他人直接加以使用的知識[9]。醫(yī)學(xué)研究產(chǎn)出的醫(yī)學(xué)文獻(xiàn)和臨床指南成為醫(yī)學(xué)知識的主要載體。然而,大多數(shù)已發(fā)表的電子文獻(xiàn)停留于人類可理解的自然語言表示模式,即非結(jié)構(gòu)化的格式(一般以PDF文檔格式存儲),機(jī)器無法理解與計(jì)算,導(dǎo)致大量隱含在醫(yī)學(xué)文獻(xiàn)中的知識主張、可在實(shí)踐中應(yīng)用的模型或規(guī)則不能得到有效管理與利用。

以“‘computable knowledge’AND‘biomedical OR medical’”為核心關(guān)鍵詞,通過系統(tǒng)的文獻(xiàn)檢索與分析歸納,這一概念從字面上主要有兩種表述,“可計(jì)算的醫(yī)學(xué)知識”(computable medial knowledge)和“醫(yī)學(xué)知識的可計(jì)算化”(making medical knowl‐edge computable)。前者側(cè)重實(shí)現(xiàn)的結(jié)果,后者側(cè)重實(shí)現(xiàn)的過程。從本質(zhì)上來看,兩者表達(dá)的意思是相同的。我們認(rèn)為,可計(jì)算醫(yī)學(xué)知識的基本概念包括兩個方面,一是知識的表示形式可計(jì)算化,二是知識在實(shí)踐中“可執(zhí)行”,兩者缺一不可。

2.1 知識的表示形式可計(jì)算化

表示形式主要有兩類:一是從非結(jié)構(gòu)化數(shù)據(jù)中生成知識單元(knowledge unit),表示為從自由文本中抽取的“主語-謂語-賓語”語義三元組(subjectpredicate-object,SPO triple)[10-11];二是從結(jié)構(gòu)化數(shù)據(jù)中生成可計(jì)算的知識對象(computable knowledge objects),表示為從醫(yī)療大數(shù)據(jù)中生成的疾病預(yù)測模型,以及疾病診斷規(guī)則、計(jì)算機(jī)化的臨床指南等[7,12]。

美國密歇根大學(xué)MCBK主要側(cè)重于后者,包括兩方面。一是構(gòu)建可計(jì)算的各類知識對象,通過計(jì)算機(jī)程序?qū)Ω黝愔R進(jìn)行編程封裝,形成計(jì)算機(jī)能處理的知識對象。一個知識對象包括知識載體、與用戶交互的界面,以及有關(guān)知識的詳細(xì)說明3個部分。二是在一個大的知識管理平臺上實(shí)現(xiàn)對知識對象的共享和利用。例如,在統(tǒng)一的標(biāo)準(zhǔn)下類似Apple的APP Store提供各類APP應(yīng)用的下載和使用,醫(yī)生、患者、公眾等都能夠直接使用這些知識對象。

以“動脈粥樣硬化性心血管疾病預(yù)測的中國模型”為例進(jìn)行說明,作者不僅發(fā)表了學(xué)術(shù)論文(人讀的格式,如文字、圖片和公式)[13];在此基礎(chǔ)上還開發(fā)了可公開使用的網(wǎng)頁版計(jì)算器(web-based calculator)①http://cvdrisk.com.cn和手機(jī)APP程序,把疾病預(yù)測模型以機(jī)器可執(zhí)行的格式存儲并供用戶使用。

根據(jù)健康人或患者輸入的年齡、總膽固醇、高密度脂蛋白膽固醇、糖尿病等綜合指標(biāo)數(shù)據(jù),可計(jì)算出10年后個人ASCVD(arteriosclerotic cardiovas‐cular disease,動脈硬化性心血管疾?。┑陌l(fā)病風(fēng)險(xiǎn)?;诰W(wǎng)頁版計(jì)算器和手機(jī)APP程序這樣的機(jī)器可執(zhí)行的知識對象,用戶通過“填寫-計(jì)算-預(yù)測”產(chǎn)生了大量新的數(shù)據(jù),這些新的數(shù)據(jù)可進(jìn)一步幫助改進(jìn)預(yù)測模型的準(zhǔn)確性,進(jìn)而又形成了性能更佳的預(yù)測模型(即“新知識”)。最終,實(shí)現(xiàn)了“從數(shù)據(jù)到知識、從知識到實(shí)踐,從實(shí)踐再到數(shù)據(jù)”的循環(huán)。然而,目前,這樣的疾病預(yù)測模型散落于醫(yī)學(xué)科研機(jī)構(gòu)或醫(yī)療機(jī)構(gòu)中科研人員自建的網(wǎng)站,無法對于用戶實(shí)現(xiàn)“一站式獲取和大規(guī)模使用”。MCBK的目標(biāo)就是要建立規(guī)范統(tǒng)一的、標(biāo)準(zhǔn)化的知識對象存儲和共享平臺。

2.2 知識在實(shí)踐中“可執(zhí)行”

除了上述介紹的源自結(jié)構(gòu)化數(shù)據(jù)的疾病預(yù)測模型作為可直接調(diào)用和運(yùn)行(即“可執(zhí)行”)的知識對象外,來源于非結(jié)構(gòu)化文本的知識圖譜通常也作為計(jì)算機(jī)系統(tǒng)中用來形式化表示知識的一種工具[14]。知識圖譜在臨床實(shí)踐中的價值主要體現(xiàn)為在將知識圖譜和基于真實(shí)世界數(shù)據(jù)的電子病歷的結(jié)合應(yīng)用上。目前,將醫(yī)學(xué)知識圖譜與電子病歷相結(jié)合(即促使醫(yī)學(xué)知識“可執(zhí)行”)是醫(yī)學(xué)知識圖譜應(yīng)用的前沿研究課題。這樣的結(jié)合為臨床醫(yī)護(hù)人員帶來的益處主要包含3個方面:一是方便查詢醫(yī)學(xué)領(lǐng)域知識;二是邏輯化呈現(xiàn)患者數(shù)據(jù)和信息;三是輔助臨床決策,從而幫助提高診斷效率和準(zhǔn)確率。

使用知識圖譜可以提升從文獻(xiàn)或大量臨床數(shù)據(jù)中檢索信息、查詢知識的能力。例如,利用大型開放式知識庫(如Wikipedia和SemMedDB)提供的有關(guān)每種疾病及其相關(guān)癥狀、檢查和治療的知識圖譜,將電子病歷中提取的與診斷相關(guān)的信息與之進(jìn)行比對,可提高臨床診斷的效率[15]。采用結(jié)構(gòu)化圖譜方式取代傳統(tǒng)的敘述性文本對患者病情進(jìn)行描述,可改進(jìn)復(fù)雜患者數(shù)據(jù)或個人健康信息的表示和呈現(xiàn),減輕醫(yī)生的信息負(fù)擔(dān)和認(rèn)知負(fù)擔(dān)。在臨床診療過程中,可通過將人讀的、自然語言描述的醫(yī)學(xué)證據(jù)和臨床指南轉(zhuǎn)化為機(jī)器可讀、可理解的知識圖譜,把已有的知識通過知識圖譜工具提供給臨床以作為診療決策的重要參考[16]。醫(yī)學(xué)知識圖譜與先進(jìn)的知識圖譜推理方法的結(jié)合可以極大地減輕臨床醫(yī)生的診斷壓力,減少誤診率并提高診斷效率。由于醫(yī)學(xué)的系統(tǒng)性,目前的醫(yī)學(xué)知識圖譜主要面向?qū)2?,未來需要更為完整和?zhǔn)確的全科醫(yī)學(xué)知識圖譜,并需要不斷改進(jìn)知識圖譜推理算法,以期更好地與臨床決策支持相結(jié)合[17]。

此外,與MCBK側(cè)重“醫(yī)學(xué)知識的表示形式可計(jì)算化,即從人讀的論文轉(zhuǎn)化為機(jī)器可執(zhí)行的程序”不同,有學(xué)者提出醫(yī)學(xué)證據(jù)合成(evidence synthesis)也需要引入可計(jì)算化的思路,以減輕人工負(fù)荷。根據(jù)統(tǒng)計(jì),目前全球每天要進(jìn)行75項(xiàng)臨床試驗(yàn)和11項(xiàng)系統(tǒng)綜述,如何跟上海量醫(yī)學(xué)證據(jù)的發(fā)展,并將其轉(zhuǎn)化為臨床實(shí)踐是一個迫切需要解決的科學(xué)問題[18]。系統(tǒng)綜述和meta分析已被公認(rèn)為是客觀評價和合成針對某一特定問題的研究證據(jù)的最佳手段,通常被視作最高級別的證據(jù)。2020年,醫(yī)學(xué)信息學(xué)領(lǐng)域的學(xué)者發(fā)表了“可計(jì)算的證據(jù)合成”(comput‐able evidence synthesis)的概念,提出了直接利用結(jié)構(gòu)化數(shù)據(jù)促進(jìn)醫(yī)學(xué)證據(jù)合成的觀點(diǎn)[19]。

在臨床試驗(yàn)過程中,有關(guān)試驗(yàn)設(shè)計(jì)和實(shí)施的信息通常與試驗(yàn)結(jié)果一起以期刊文章的形式發(fā)布。因此,當(dāng)前的醫(yī)學(xué)證據(jù)合成主要依賴于人工檢索書目數(shù)據(jù)庫并閱讀、篩選證據(jù),導(dǎo)致數(shù)據(jù)不夠完整,且?guī)в幸欢ǔ潭鹊钠?,如已發(fā)表文章多為陽性結(jié)果。關(guān)于試驗(yàn)涉及的臨床問題和干預(yù)措施的詳細(xì)信息,可通過在試驗(yàn)注冊時預(yù)先指定的數(shù)據(jù)元素獲取,使得數(shù)據(jù)結(jié)果能夠以標(biāo)準(zhǔn)化、結(jié)構(gòu)化的格式呈現(xiàn)。臨床試驗(yàn)注冊平臺所提供的結(jié)構(gòu)化結(jié)果數(shù)據(jù)更具有及時性、完整性和易獲取的特點(diǎn),且可以實(shí)現(xiàn)數(shù)據(jù)的自動更新和計(jì)算機(jī)可解釋。

因此,現(xiàn)在應(yīng)該重新反思證據(jù)合成的基本原理。隨著獲取不同形式的可計(jì)算試驗(yàn)數(shù)據(jù)成為可能,將有助于系統(tǒng)綜述從耗時的試驗(yàn)結(jié)果出版物篩選模式轉(zhuǎn)為主動積極的臨床試驗(yàn)監(jiān)測模式,從證據(jù)積累模式轉(zhuǎn)變?yōu)樽C據(jù)優(yōu)先級排序的模式。與此概念相對應(yīng),2020年8月,可計(jì)算化出版(computable publishing)組織成立,通過開發(fā)臨床試驗(yàn)結(jié)果報(bào)告器(clinical trials reporter)等工具,支持基于標(biāo)準(zhǔn)的、機(jī)器可解釋的公共知識表達(dá),尤其是與健康醫(yī)療和科學(xué)證據(jù)有關(guān)的公共知識[20]。

3 可計(jì)算醫(yī)學(xué)知識的前端表示模型

基于美國密歇根大學(xué)對可計(jì)算醫(yī)學(xué)知識的定義,只有通過計(jì)算機(jī)編程封裝知識對象之后,才能實(shí)現(xiàn)可計(jì)算,從這個角度來看,可計(jì)算醫(yī)學(xué)知識的最終表示方式都是程序代碼。然而,本節(jié)重點(diǎn)闡述如何表示封裝之前的可計(jì)算醫(yī)學(xué)知識,即可計(jì)算醫(yī)學(xué)知識的前端表示模型。

3.1 醫(yī)學(xué)規(guī)則與診療知識庫

在醫(yī)學(xué)教科書、醫(yī)學(xué)文獻(xiàn)中出現(xiàn)的大多醫(yī)學(xué)知識,均是以傳統(tǒng)IF(前件)-THEN(后果)規(guī)則的格式進(jìn)行表示。以發(fā)燒為例,醫(yī)學(xué)知識中的診斷規(guī)則通常表示如下:如果患者體溫超過38℃,那么該患者處于發(fā)燒狀態(tài)。傳統(tǒng)的醫(yī)學(xué)規(guī)則包含前件和后果,前件為臨床的某種病癥,后果為某種特定的疾病、治療方案、或者結(jié)局等。在臨床實(shí)踐中,大多數(shù)醫(yī)護(hù)人員的疾病診斷及治療均是依賴現(xiàn)有醫(yī)學(xué)知識中累積的各種規(guī)則。把針對特定疾病的診療規(guī)則進(jìn)行歸納、整理,最終形成該種疾病的診療知識庫。

隨著計(jì)算機(jī)技術(shù)的發(fā)展,計(jì)算機(jī)存儲和計(jì)算能力已經(jīng)遠(yuǎn)超人腦的記憶思維能力,把傳統(tǒng)IF-THEN診療規(guī)則或者診療知識庫電子化、結(jié)構(gòu)化,就形成了計(jì)算機(jī)能夠存儲并理解的計(jì)算機(jī)化醫(yī)學(xué)規(guī)則或者知識庫。在文獻(xiàn)和醫(yī)學(xué)實(shí)踐中,基于專家系統(tǒng)方式實(shí)現(xiàn)的臨床決策支持系統(tǒng),就是依賴于這樣的醫(yī)學(xué)規(guī)則和知識庫。

3.2 數(shù)據(jù)驅(qū)動的疾病預(yù)測模型

傳統(tǒng)醫(yī)學(xué)實(shí)踐中,醫(yī)護(hù)人員是依據(jù)權(quán)威的醫(yī)學(xué)知識或者自身經(jīng)驗(yàn)進(jìn)行臨床疾病診斷、治療以及疾病管理決策,因此,不同醫(yī)療機(jī)構(gòu)以及醫(yī)護(hù)人員的醫(yī)療服務(wù)水平和患者的預(yù)后與醫(yī)護(hù)人員自身的醫(yī)療背景以及經(jīng)驗(yàn)具有很大關(guān)聯(lián),差異性非常大。在計(jì)算機(jī)與信息技術(shù)高度發(fā)達(dá)、大數(shù)據(jù)與人工智能已經(jīng)深度融入醫(yī)學(xué)領(lǐng)域的當(dāng)今時代,臨床的診療及疾病管理決策已經(jīng)不單單是依靠現(xiàn)有領(lǐng)域知識和專家自身經(jīng)驗(yàn),基于傳統(tǒng)醫(yī)學(xué)研究臨床試驗(yàn)中所收集的數(shù)據(jù)以及真實(shí)醫(yī)療實(shí)踐中累積的醫(yī)療大數(shù)據(jù)進(jìn)行分析、挖掘,找出疾病的規(guī)律和特征,構(gòu)建疾病發(fā)生、發(fā)展以及患者預(yù)后的預(yù)測模型,將輔助醫(yī)護(hù)人員進(jìn)行有效的、優(yōu)化的臨床決策。

數(shù)據(jù)驅(qū)動的疾病發(fā)生、發(fā)展及患者預(yù)后的預(yù)測模型,其輸入變量一般是患者的人口學(xué)信息、臨床病癥以及實(shí)驗(yàn)室檢查檢驗(yàn)的結(jié)果,其輸出變量一般是某種疾病或并發(fā)癥發(fā)生、某種預(yù)后發(fā)生的概率。將數(shù)據(jù)驅(qū)動的疾病預(yù)測模型進(jìn)行系統(tǒng)實(shí)現(xiàn),并有效嵌入或者集成到日常的醫(yī)療服務(wù)工作流程中,就形成了一個自動化、智能的臨床決策支持工具,以輔助臨床醫(yī)護(hù)人員進(jìn)行各種診療決策。一般來講,數(shù)據(jù)驅(qū)動的疾病預(yù)測工具應(yīng)與基于知識的決策支持工具融合使用,一是拓展了現(xiàn)有領(lǐng)域知識和專家經(jīng)驗(yàn),二是彌補(bǔ)了基于局部真實(shí)世界醫(yī)療大數(shù)據(jù)或者臨床試驗(yàn)數(shù)據(jù)進(jìn)行疾病建模帶來的局限性。

3.3 語義三元組:細(xì)粒度表示醫(yī)學(xué)知識主張

大量的生物醫(yī)學(xué)知識隱藏在自由文本中,自然語言處理技術(shù)對實(shí)體(如疾病、藥物、基因、蛋白質(zhì)等)和關(guān)系(如疾病治療、蛋白質(zhì)/藥物相互作用和藥物不良反應(yīng)事件)的抽取,有助于支撐生物醫(yī)學(xué)知識管理和發(fā)現(xiàn)等應(yīng)用,促進(jìn)臨床醫(yī)生和實(shí)驗(yàn)室科研人員更有效地獲取信息和生成新知識??捎?jì)算知識應(yīng)是結(jié)構(gòu)化的知識,從格式上可由計(jì)算機(jī)程序讀取。一種簡單的、可計(jì)算的知識表示是語義三元組。語義三元組由兩個概念組成,這兩個概念通過某些謂語(即動詞)相互關(guān)聯(lián),如“導(dǎo)致(causes)”和“治療(treats)”。如“布洛芬-引起-胃腸道出血”就是這樣一種語義三元組。語義三元組被稱為“思想的原子”,既可以具象地表示某一命題或主張,又具有不可再分性。例如,可以將藥物知識表示為三元組[21],以從PubMed文獻(xiàn)中抽取的三元組作為基準(zhǔn),將從FDA(Food and Drug Administration,美國食品藥品監(jiān)督管理局)藥物說明書中抽取的三元組與之對比,可識別新的且文獻(xiàn)中未報(bào)道過的醫(yī)學(xué)知識[22];將電子病歷文本中的知識元表示為語義三元組,開展電子病歷潛在知識發(fā)現(xiàn)研究[23]。基于“以三元組為知識單元,以不確定性為知識語境”的知識計(jì)算模型,開展矛盾性、沖突性知識發(fā)現(xiàn)[24]。

在醫(yī)學(xué)領(lǐng)域,語義三元組抽取已具有較為成熟的技術(shù),其中,以美國國立醫(yī)學(xué)圖書館的“科學(xué)知識語義表示”項(xiàng)目開發(fā)的SemRep工具和SemMed‐DB知識庫為典型代表。SemRep是Semantic Repre‐sentation的簡稱,是一個基于規(guī)則的自然語言處理工具。以一體化醫(yī)學(xué)語言系統(tǒng)(unified medical lan‐guage system,UMLS)中標(biāo)準(zhǔn)化的醫(yī)學(xué)概念、概念類型(如藥物、疾病)和概念之間的語義關(guān)系(如治療)為基礎(chǔ),從自然語言文本中抽取“主語-謂語-賓語”三元組。最新版UMLS收錄約380萬個概念、127種概念類型和54種語義關(guān)系。SemMedDB知識庫存儲基于SemRep工具,抽取PubMed文獻(xiàn)標(biāo)題和摘要形成的三元組以及其來源語句[25]。該庫每年發(fā)布一次,且不斷改進(jìn),包括對SemRep工具提取的錯誤概念和關(guān)系進(jìn)行糾正。SemRep和SemMedDB支持了多種臨床決策和轉(zhuǎn)化應(yīng)用,包括醫(yī)療診斷、藥物再利用、基于文獻(xiàn)的發(fā)現(xiàn)和假設(shè)生成,有助于改善健康結(jié)局。目前,SemRep工具正在被重新設(shè)計(jì),以提高其整體性能。SemRep和SemMedDB實(shí)現(xiàn)了大規(guī)模知識單元的抽取和存儲,是一個基礎(chǔ)庫,并且可進(jìn)行二次開發(fā)。例如,英國學(xué)者最近開發(fā)了MELODI Presto系統(tǒng)①http://melodi-presto.mrcieu.ac.uk,該系統(tǒng)提供基于Web網(wǎng)頁查詢SemMedDB中的三元組及其背后的支持語句[26]。

3.4 納米出版模型(nanopublication)

近年來,生物語義學(xué)(biosemantics)領(lǐng)域的進(jìn)展為細(xì)粒度表示醫(yī)學(xué)知識對象提供了啟示和借鑒,以荷蘭萊頓大學(xué)生物語義學(xué)專家Barend Mons教授及其團(tuán)隊(duì)提出的納米出版模型為典型代表[27-28]。該模型并非專指納米領(lǐng)域,而是指借鑒納米之義,具有科學(xué)意義的、機(jī)器可讀的、最小的知識單元。納米出版物模型解決了由于科學(xué)論文和數(shù)據(jù)集的不斷增長而導(dǎo)致檢索、分析知識單元以及將科學(xué)結(jié)果與基礎(chǔ)數(shù)據(jù)聯(lián)系起來日益困難的問題,實(shí)現(xiàn)了將人讀的知識轉(zhuǎn)化為機(jī)器可讀的知識。

基本結(jié)構(gòu)包括三部分:①主張(assertion),即主-謂-賓三元組表示的科學(xué)論斷;②出處信息(provenance),表示提出主張或創(chuàng)建了事實(shí)性素材(如數(shù)據(jù)、圖表等)的作者、機(jī)構(gòu)、時間和地點(diǎn)等;③出版信息(publication Information),關(guān)于一個納米出版物本身的元數(shù)據(jù),包括納米出版物的創(chuàng)建者、創(chuàng)建日期和版本等。這三個組件缺一不可,保證了信息完整性,并能有效提升科研信息的復(fù)用可能。這三個部分的內(nèi)容均使用RDF格式進(jìn)行描述,保證了機(jī)器可理解和可操作。

目前主要有三種進(jìn)行中的應(yīng)用。一是科研工作者自行將個人研究成果發(fā)布為納米出版物(存儲于平臺http://nanopub.org/wordpress/);二是將已有關(guān)系型數(shù)據(jù)庫(如基因-疾病關(guān)聯(lián)知識庫DisGeNet)以納米出版物形式發(fā)布[29];三是支持目標(biāo)導(dǎo)向的大型項(xiàng)目,如藥物發(fā)現(xiàn)語義平臺Open PHACTS(Open Pharmaceutical Triple Store)項(xiàng)目[30],是一個存儲和計(jì)算藥學(xué)概念三元組的倉儲?;诩{米出版模型,建立試驗(yàn)數(shù)據(jù)和科學(xué)結(jié)論的規(guī)范語義描述本體,并在大規(guī)模生物醫(yī)藥文獻(xiàn)集上構(gòu)建了藥學(xué)知識單元形成的網(wǎng)絡(luò),即知識圖譜。納米出版模型尚未在臨床醫(yī)學(xué)領(lǐng)域廣泛應(yīng)用,這也是我們計(jì)劃研究的主要內(nèi)容。

如果以納米出版模型作為知識單元,構(gòu)建知識單元的引用關(guān)系反映的知識演化,那么需要解決的問題是如何像科學(xué)論文那樣,構(gòu)建納米出版物的引用格式。2019年,有學(xué)者提出了可對單個納米出版物進(jìn)行引用的納米引用格式(nanocitation),并設(shè)計(jì)了一個系統(tǒng)自動生成納米出版物的引文,解決了這一模型缺乏引文標(biāo)準(zhǔn)的問題,在此基礎(chǔ)上可以設(shè)計(jì)文獻(xiàn)計(jì)量學(xué)指標(biāo),開展知識單元這一細(xì)粒度層面的分析[31]。為了充分發(fā)揮并利用可計(jì)算醫(yī)學(xué)知識的優(yōu)勢,最終需要一種全新的方法讓所有知識在開始生成時便適合于計(jì)算[32]。例如,將傳統(tǒng)的人讀的科學(xué)出版物轉(zhuǎn)化為機(jī)器可讀的納米出版物,研究產(chǎn)出將不再僅僅是科學(xué)論文及相關(guān)的數(shù)據(jù)集,而是一組可計(jì)算格式的結(jié)果或主張,描述實(shí)驗(yàn)過程和結(jié)果的自然語言文本(即學(xué)術(shù)論文)僅作為供人類可讀并參考的一種形式,對其進(jìn)行處理后可產(chǎn)生更高階的信息,如系統(tǒng)綜述和臨床實(shí)踐指南。

3.5 knowlet模型:以知識子圖作為可編碼知識單元

提出納米出版模型的Barend Mons教授及其團(tuán)隊(duì)同時提出,把所有持相同論斷的納米出版物中共同出現(xiàn)的論斷聚合為一個“基本論斷”,以減少冗余[33]。將圍繞一個中心概念(central concept)、路徑長度為1的三元組之組合作為一個knowlet。我們認(rèn)為,knowlet是指知識圖譜中可以表示一個獨(dú)立知識單元的子圖,可將其譯為“知識子圖”。例如,圍繞“新冠”這一概念,作為起點(diǎn)或終點(diǎn)的所有關(guān)系,如癥狀、診斷、治療形成的三元組。隨著圍繞某一概念的論斷越來越多,與文本空間快速增長相比,知識子圖空間增長較小,例如,有大量的文本涉及的知識單元只有一個。知識子圖是一個獨(dú)立的數(shù)字對象和最小的知識單元,其本身可被發(fā)現(xiàn)、可訪問、可互操作以及可重用。

在上述5種醫(yī)學(xué)知識表示模型中,醫(yī)學(xué)診斷規(guī)則和數(shù)據(jù)驅(qū)動的疾病預(yù)測模型主要涉及結(jié)構(gòu)化數(shù)據(jù),以三元組為基礎(chǔ)的表示模型主要適用于非結(jié)構(gòu)化文本。實(shí)際上,規(guī)則也可以表示為三元組,例如,“心率”-“正常值”-“60~100次/分”就是“實(shí)體-屬性-值”表示的三元組;基于醫(yī)學(xué)數(shù)據(jù)、通過機(jī)器學(xué)習(xí)產(chǎn)生的決策樹,可以轉(zhuǎn)化為一系列的醫(yī)學(xué)規(guī)則,亦可理解為三元組的邏輯組合。知識圖譜的本質(zhì)是三元組因果關(guān)系圖譜,由“實(shí)體-屬性-值”或“實(shí)體-關(guān)系-實(shí)體”構(gòu)成。每個屬性-值對應(yīng)刻畫了實(shí)體的內(nèi)在特性;關(guān)系則連接兩個實(shí)體,刻畫了實(shí)體之間的外部關(guān)聯(lián)。

4 醫(yī)學(xué)知識“可執(zhí)行”的實(shí)現(xiàn)路徑

本文第2節(jié)提出了可計(jì)算醫(yī)學(xué)知識的兩個要素:一是可計(jì)算化的表示形式,二是機(jī)器可執(zhí)行。第3節(jié)和第4節(jié)分就分為圍繞上述兩個要素展開,其中,第3節(jié)是側(cè)重于知識對象封裝成軟件代碼之前如何表示的問題;而第4節(jié)側(cè)重于知識對象封裝成軟件代碼之后,如何提供服務(wù)的整個流程以及尚需要解決的問題。

北京大學(xué)健康醫(yī)療大數(shù)據(jù)國家研究院正在牽頭積極推動可計(jì)算醫(yī)學(xué)知識在中國的研究和實(shí)踐,并與該概念的提出者——密歇根大學(xué)學(xué)習(xí)型健康醫(yī)療體系研究中心Charles Friedman教授的團(tuán)隊(duì)保持著密切合作。Charles Friedman教授團(tuán)隊(duì)開發(fā)了一個用于可計(jì)算知識對象封裝、存儲、管理和調(diào)用的知識網(wǎng)格(knowledge grid,K-Grid)平臺①https://kgrid.org。目前已經(jīng)實(shí)現(xiàn)原型系統(tǒng),并在持續(xù)研發(fā)中。北京大學(xué)健康醫(yī)療大數(shù)據(jù)國家研究院、浙江省北大信息技術(shù)高等研究院智慧醫(yī)療研究中心正在中國進(jìn)行本地化開發(fā)與推廣。目前,該平臺中的知識對象主要來源于結(jié)構(gòu)化數(shù)據(jù),且以疾病預(yù)測模型為主。

上文介紹了荷蘭萊頓大學(xué)Barend Mons教授團(tuán)隊(duì)提出的納米出版模型與知識子圖模型,主要來源于非結(jié)構(gòu)化文本。我們嘗試將這類知識對象也能編程封裝之后,在K-Grid平臺上實(shí)現(xiàn)調(diào)用和執(zhí)行。因此,為了更充分和全面地在我國設(shè)計(jì)和發(fā)起可計(jì)算醫(yī)學(xué)知識的研發(fā)和實(shí)踐,我們整合了上述兩條路徑(圖1)。

圖1 可計(jì)算醫(yī)學(xué)知識的兩條實(shí)現(xiàn)路徑(分別針對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化文本)

知識生成與知識的可計(jì)算化處理是分開的、在不同階段進(jìn)行的。本文重點(diǎn)討論將生成后的知識(臨床指南、醫(yī)學(xué)文獻(xiàn)、本地實(shí)驗(yàn)/試驗(yàn)后的分析結(jié)果等)實(shí)現(xiàn)可計(jì)算化這階段。

一是數(shù)據(jù)挖掘,形成計(jì)算機(jī)可直接調(diào)用和執(zhí)行(如直接計(jì)算出疾病風(fēng)險(xiǎn)分值)的知識對象,用知識網(wǎng)格(K-Grid)管理,提供輔助診斷。例如,根據(jù)生化指標(biāo)判斷患者是否可診斷為慢性腎病合并貧血,根據(jù)若干指標(biāo)計(jì)算個人罹患肺癌風(fēng)險(xiǎn)分值等。數(shù)據(jù)挖掘產(chǎn)生的規(guī)則或者模型屬于知識表示模型(如人工神經(jīng)網(wǎng)絡(luò)、決策樹等),還沒有形成可計(jì)算知識對象,需要K-Grid平臺上的工具對規(guī)則或者模型進(jìn)行編程封裝之后,才能形成可計(jì)算知識對象;多種計(jì)算機(jī)語言(R或者Python)可供選擇進(jìn)行預(yù)測模型的封裝。雖然R開發(fā)環(huán)境挖掘出來的模型本身就是可執(zhí)行的,但是如果想通過K-Grid平臺進(jìn)行管理的話,還需要進(jìn)一步編程封裝。這與文本挖掘產(chǎn)生知識三元組是一個平行的過程。

二是文本挖掘,形成結(jié)構(gòu)化的三元組,并納入三元組背后的證據(jù)和數(shù)據(jù),計(jì)算出置信度,采用類似Neo4j圖數(shù)據(jù)庫來管理,實(shí)現(xiàn)知識單元的查詢和輸出。例如,根據(jù)目前最佳證據(jù),治療某種疾病的藥物清單,該藥物清單可按照置信度排序,提供治療方式的自動推薦。

總之,無論是路徑一提供的輔助診斷,還是路徑二提供的輔助治療,均為臨床決策支持的范疇。下文分別介紹了在兩條實(shí)施路徑中,我們已完成的內(nèi)容以及需要繼續(xù)研發(fā)的內(nèi)容。

4.1 路徑一:從結(jié)構(gòu)化數(shù)據(jù)中生成的可計(jì)算醫(yī)學(xué)知識

當(dāng)前,作為中國首個“推動醫(yī)學(xué)知識可計(jì)算行動”的網(wǎng)站①https://www.kgrid-china.net/,已完成平臺的設(shè)計(jì)與研發(fā)(圖2)。選擇慢性疾病作為切入點(diǎn),構(gòu)建了醫(yī)學(xué)知識模型與可計(jì)算編程規(guī)范。已建設(shè)醫(yī)學(xué)知識對象29個,多場景兼容應(yīng)用14個,全流程慢性腎臟疾?。╟hronic kidney disease,CKD)解決方案專題2個。為醫(yī)療機(jī)構(gòu)和醫(yī)學(xué)專家團(tuán)隊(duì)提供創(chuàng)建并管理醫(yī)學(xué)知識模型的平臺,讓知識提供者能便捷分享最新研究成果;提供通用的模型API(application programming inter‐face,應(yīng)用程序接口)接口,軟件工程師不需要掌握醫(yī)學(xué)知識即可對模型進(jìn)行組合與部署,研發(fā)符合定制化業(yè)務(wù)流程的應(yīng)用;患者可通過已有應(yīng)用進(jìn)行健康狀況自評與疾病風(fēng)險(xiǎn)預(yù)測,醫(yī)護(hù)人員可以使用應(yīng)用輔助診療與科研。通過與北京大學(xué)醫(yī)學(xué)部、北京大學(xué)第一醫(yī)院、密歇根大學(xué)等多家醫(yī)療機(jī)構(gòu)與國內(nèi)外院校開展深度合作,推動了學(xué)習(xí)型智慧健康體系在中國的落地發(fā)展。

其主要功能是把原先需要醫(yī)護(hù)人員、醫(yī)療領(lǐng)域決策者或者醫(yī)學(xué)科研人員認(rèn)真閱讀、深入理解才能具體掌握的醫(yī)學(xué)知識,轉(zhuǎn)變?yōu)榭捎?jì)算的醫(yī)學(xué)知識對象,以供各類醫(yī)學(xué)應(yīng)用大規(guī)模、并行、且實(shí)時地調(diào)用運(yùn)行。該平臺的核心組件主要包含知識對象、知識對象庫、知識對象激活器以及服務(wù)四個部分(圖2)。

圖2 K-Grid-China可計(jì)算醫(yī)學(xué)知識智能應(yīng)用平臺示意圖

(1)知識對象(knowledge objects)。知識對象是經(jīng)編程封裝的模塊化、計(jì)算機(jī)可識別、可處理執(zhí)行的知識模塊。其來源可以是臨床指南(guideline)、期刊文獻(xiàn)以及數(shù)據(jù)驅(qū)動的疾病預(yù)測模型等。知識對象包含程序語言所組成的核心知識載體(knowledge payload)、用于與外界溝通的知識對象元數(shù)據(jù)(meta‐data)、該知識對象部署及相關(guān)服務(wù)的詳細(xì)說明(spec‐ification)。

(2)知識對象庫(digital library)。知識對象庫用來儲存與管理知識對象。一個知識網(wǎng)格平臺可以包含多個知識對象庫,知識對象庫之間相互關(guān)聯(lián),知識對象庫的基礎(chǔ)為一個網(wǎng)絡(luò)服務(wù)器(web server),加上對象檢索服務(wù)。

(3)知識對象激活器(activators)。知識對象激活器是一個用來處理患者健康數(shù)據(jù)、激活并部署知識對象、利用知識對象來提供服務(wù)的工具。激活器提供可平行擴(kuò)展的工具來讓知識對象基于真實(shí)世界的患者數(shù)據(jù)進(jìn)行計(jì)算推理,并給出運(yùn)行結(jié)果。理想上激活器可以執(zhí)行以不同語言所編程封裝的知識載體,可將知識載體提供給其他應(yīng)用程序,也可讓某一知識載體本身提供服務(wù)。

(4)服務(wù)(services)。核心功能在于鏈接醫(yī)學(xué)應(yīng)用與知識對象,利用外界應(yīng)用的輸入數(shù)據(jù)激活相關(guān)的知識對象,并把運(yùn)行結(jié)果反饋給外界應(yīng)用。

知識網(wǎng)格平臺與各個來源不同、類型相異的醫(yī)學(xué)知識相比較,就如共同的橋梁和獨(dú)立的小船,知識網(wǎng)格平臺為各種醫(yī)學(xué)知識提供了一個通用的平臺工具,讓各類醫(yī)學(xué)知識能夠通過該平臺以一個通用的標(biāo)準(zhǔn)和模式為各類醫(yī)學(xué)應(yīng)用所調(diào)用,以期為學(xué)習(xí)型智慧健康醫(yī)療體系中知識到實(shí)踐一環(huán)提供基礎(chǔ)架構(gòu)。

在該路徑中,推進(jìn)可計(jì)算的醫(yī)學(xué)知識研發(fā)與應(yīng)用還面臨著若干挑戰(zhàn)。一是將可計(jì)算的知識對象,例如,疾病預(yù)測模型應(yīng)用于不同的電子病歷系統(tǒng)涉及的標(biāo)準(zhǔn)和互操作性問題;二是需要更好地追蹤和評估可計(jì)算醫(yī)學(xué)知識對患者診療結(jié)果的影響;三是如何將目前針對單一病種的可計(jì)算醫(yī)學(xué)知識實(shí)現(xiàn)方法和手段拓展到針對共病的醫(yī)學(xué)知識等[34]。

4.2 路徑二:從非結(jié)構(gòu)化文本中生成的可計(jì)算醫(yī)學(xué)知識

從文本信息中提取知識,開展知識計(jì)算一直是情報(bào)學(xué)的前沿問題,其核心在于找到合適的知識單元,即要解決什么是知識以及用什么來表示知識?,F(xiàn)有研究表明,受計(jì)算機(jī)科學(xué)領(lǐng)域啟發(fā),以“實(shí)體-關(guān)系-實(shí)體”和“概念-屬性-值”三元組作為知識計(jì)算單元,具有理論上的合理性以及數(shù)據(jù)實(shí)現(xiàn)的可行性[35]。數(shù)字時代,文本大數(shù)據(jù)中隱藏著大量醫(yī)學(xué)知識,去除醫(yī)學(xué)文本冗余部分并提取結(jié)構(gòu)化知識單元是解決信息超載問題、實(shí)現(xiàn)大規(guī)模知識計(jì)算的關(guān)鍵。但仍有兩個科學(xué)問題需要解決。一是如何既完整又最小化(不可再分)地表示一個獨(dú)立的醫(yī)學(xué)知識單元,即如何在三元組及其邏輯組合形成的知識圖譜中,找到一個最小子圖,作為可計(jì)算醫(yī)學(xué)知識的基本單元,對其利用計(jì)算機(jī)語言進(jìn)行編程實(shí)現(xiàn),通過計(jì)算機(jī)程序?qū)崿F(xiàn)與醫(yī)療數(shù)據(jù)之間的自動化對話;二是鑒于醫(yī)學(xué)知識的個體化和不確定性特征,需要明確醫(yī)學(xué)知識單元成立的依賴條件和證據(jù)來源,同時兼顧醫(yī)學(xué)知識表示的結(jié)構(gòu)化、完整性和不可再分性,才能將人讀的知識格式盡可能“無丟失”和“無冗余”地轉(zhuǎn)化為機(jī)器可讀且可執(zhí)行的知識格式。

以美國密歇根大學(xué)K-Grid原型為基礎(chǔ),參考荷蘭萊頓大學(xué)納米出版模型和知識子圖(knowlet)模型,本文提出從非結(jié)構(gòu)化文本中生成可計(jì)算醫(yī)學(xué)知識的語義表示模型(圖3)和主要實(shí)現(xiàn)路徑(圖4)。該模型兼顧醫(yī)學(xué)知識結(jié)構(gòu)化和可執(zhí)行兩個核心要點(diǎn),考慮將置信度作為醫(yī)學(xué)知識執(zhí)行和應(yīng)用的必要條件,以“可編碼知識單元+置信度+可追蹤的證據(jù)來源”為基本組件,每個組件均以資源描述框架(resource description framework,RDF)格式進(jìn)行描述。為實(shí)現(xiàn)知識之間的互操作,對每個可編碼知識單元分配一個可信任的統(tǒng)一資源標(biāo)識符。該模型將“知識單元”及其背后的數(shù)據(jù)和證據(jù)鏈接起來。

圖3 從非結(jié)構(gòu)化文本中生成的可計(jì)算醫(yī)學(xué)知識的語義表示模型

圖4 源于非結(jié)構(gòu)化文本的可計(jì)算醫(yī)學(xué)知識流程圖

該模型的關(guān)鍵要素主要包括三個方面。

(1)知識的結(jié)構(gòu)化問題。采用較為成熟的英文醫(yī)學(xué)自然語言處理工具和中英文醫(yī)學(xué)術(shù)語映射體系,解決中文醫(yī)學(xué)自然語言處理和三元組抽取問題,形成以主語-謂語-賓語三元組形式表示的結(jié)構(gòu)化主張。針對英文自然語言表述的醫(yī)學(xué)文獻(xiàn)、臨床指南、醫(yī)學(xué)百科和現(xiàn)有醫(yī)學(xué)知識庫等,利用一體化醫(yī)學(xué)語言系統(tǒng)(UMLS),優(yōu)化基于SemRep抽取的臨床相關(guān)“概念-關(guān)系-概念”三元組;對于召回率低的問題,考慮增加利用通用信息抽取工具,如OpenIE抽取“實(shí)體-屬性-值”三元組。同時,需要開展醫(yī)學(xué)證據(jù)、結(jié)局指標(biāo)與數(shù)值抽取,內(nèi)容包括臨床結(jié)局指標(biāo)(如有效率、應(yīng)答率等)、值及P-value。例如,從自然語言文本“2019年我國心血管疾病導(dǎo)致死亡人數(shù)約460萬,占全部死亡的43%”中可抽取出:①三元組:“心血管疾病-死亡占比-43%”;②依賴條件:中國人群;③證據(jù)來源:2019年全球疾病負(fù)擔(dān)報(bào)告(the global burden of disease study 2019,GBD 2019)。同時,探索基于臨床試驗(yàn)注冊平臺數(shù)據(jù)開展證據(jù)合成的方法研究,以美國Clinicaltrials.gov、中國臨床試驗(yàn)注冊平臺等為基礎(chǔ),利用其相對結(jié)構(gòu)化的數(shù)據(jù),自動生成“患者-干預(yù)-對照-結(jié)局”(popu‐lation-interventions-comparisons-outcomes,PICO),對于注冊平臺上未報(bào)告結(jié)果的試驗(yàn),通過計(jì)算機(jī)軟件工具獲取書目數(shù)據(jù)庫(如PubMed)或網(wǎng)絡(luò)(如權(quán)威會議報(bào)道)報(bào)告結(jié)果。

(2)知識的置信度問題。針對現(xiàn)有的臨床治療類知識圖譜中三元組因缺乏置信度(confidence score)導(dǎo)致在真實(shí)世界臨床決策難以落地的瓶頸,需要對醫(yī)學(xué)知識三元組的置信度水平進(jìn)行計(jì)算,但總體的置信度水平離不開每個證據(jù)的臨床結(jié)局。根據(jù)證據(jù)推理(evidential reasoning)理論,把不同的臨床證據(jù)的置信度進(jìn)行合成,可計(jì)算得到該三元組的綜合置信度得分。通過舍棄置信度較低的知識,或找到置信度較低知識的條件來保障知識圖譜中三元組的質(zhì)量。

(3)知識的臨床決策支持應(yīng)用?;谥形囊惑w化醫(yī)學(xué)語言系統(tǒng)(Chinese unified medical language system,CUMLS)[36]、國家衛(wèi)生健康委員會陸續(xù)發(fā)布的中文醫(yī)學(xué)術(shù)語表等,對構(gòu)建的醫(yī)學(xué)知識圖譜中各三元組中的概念和關(guān)系進(jìn)行中英文映射,轉(zhuǎn)化為中文醫(yī)學(xué)知識圖譜三元組。探索實(shí)現(xiàn)醫(yī)學(xué)知識“可執(zhí)行”的機(jī)制,將醫(yī)學(xué)知識圖譜的子圖作為知識單元進(jìn)行計(jì)算機(jī)語言編碼,并開發(fā)與真實(shí)世界電子病歷中數(shù)據(jù)對話的接口。基于帶有置信度的知識三元組,通過計(jì)算機(jī)編程封裝轉(zhuǎn)化為可計(jì)算知識對象以輔助臨床決策,如診斷預(yù)測、治療推薦等。通過在臨床工作流程中嵌入可計(jì)算知識對象、開發(fā)可計(jì)算知識和患者數(shù)據(jù)之間的對話機(jī)制,解決從知識到實(shí)踐,從實(shí)踐再到數(shù)據(jù)的循環(huán)式學(xué)習(xí),解決醫(yī)學(xué)知識圖譜在真實(shí)場景中落地應(yīng)用問題。

對于從非結(jié)構(gòu)化文本中抽取可計(jì)算醫(yī)學(xué)知識,結(jié)構(gòu)化和可執(zhí)行同樣是其兩個關(guān)鍵要素,也是兩個重要目標(biāo)。其中,結(jié)構(gòu)化是指從非結(jié)構(gòu)化醫(yī)學(xué)文本中生成結(jié)構(gòu)化的知識,并構(gòu)建適宜的表示和存儲模型,實(shí)現(xiàn)大規(guī)模存?。豢蓤?zhí)行是指能與電子病歷(EMR)數(shù)據(jù)進(jìn)行交互,并提供決策支持,實(shí)現(xiàn)大規(guī)模使用。在知識圖譜三元組的基礎(chǔ)上,提出增加通過證據(jù)推理融合計(jì)算總體置信度水平的思路,解決的知識應(yīng)用的關(guān)鍵瓶頸——不確定性。最終實(shí)現(xiàn)“從數(shù)據(jù)到知識、從知識到實(shí)踐、從實(shí)踐再到數(shù)據(jù)”的循環(huán)式學(xué)習(xí),促進(jìn)醫(yī)學(xué)知識快速服務(wù)于臨床實(shí)踐。

5 討論

5.1 可計(jì)算醫(yī)學(xué)知識的理論概念為深化情報(bào)學(xué)研究提供了新的范式

本文所討論的“可計(jì)算醫(yī)學(xué)知識”,均來源于醫(yī)學(xué)文獻(xiàn)、臨床指南等科學(xué)出版物,其中既涉及邏輯化的知識對象,又涉及結(jié)構(gòu)化的知識單元。對科學(xué)出版物的分析挖掘本身就是情報(bào)學(xué)的“看家本領(lǐng)”。但本文的研究重點(diǎn)并非對科學(xué)出版物外部屬性特征的分析挖掘,而是對其中蘊(yùn)含的知識單元或知識對象的分析挖掘,這也是促進(jìn)情報(bào)學(xué)向深層次發(fā)展的需要,正如我國情報(bào)學(xué)學(xué)者馬費(fèi)成教授曾指出,從物理層次的文獻(xiàn)單元向認(rèn)知層次的知識單元轉(zhuǎn)換是情報(bào)學(xué)取得突破性發(fā)展需要解決的關(guān)鍵問題。本文所涉內(nèi)容是通過醫(yī)學(xué)信息學(xué)或循證醫(yī)學(xué)的智能化實(shí)現(xiàn)技術(shù)作為手段或途徑,來討論如何把科學(xué)出版物中的知識主張或知識對象,以合適的形式抽取出來,并通過編程封裝,形成可計(jì)算的知識,即計(jì)算機(jī)可直接執(zhí)行的知識,以促進(jìn)知識的大規(guī)模應(yīng)用,打通“data to knowledge”(D2K)和“knowledge to practice”(K2P)的鴻溝。

從科學(xué)出版物中抽取出知識單元或知識對象的過程,本身也是一個信息處理和情報(bào)提取的過程。但是,到底什么是知識單元或知識對象,需要明確其定義并構(gòu)建合適的模型,即對“可計(jì)算化”進(jìn)行建模。本文提出的兩條實(shí)現(xiàn)路徑,實(shí)際上分別對應(yīng)了知識對象和知識單元。

受OMAHA白皮書《促進(jìn)醫(yī)學(xué)知識價值開發(fā):臨床指南的計(jì)算機(jī)化》(2019)[37]的啟發(fā),本文認(rèn)為,知識對象的抽取和封裝過程是基于知識的建模;知識單元的抽取和封裝過程是基于文檔的建模。前者側(cè)重知識的內(nèi)在邏輯,后者側(cè)重知識的表示形式。

(1)基于文檔的模型。以科學(xué)出版物文檔本身為中心,將其中以文本表示的知識主張(knowledge claims)轉(zhuǎn)換為計(jì)算機(jī)可以理解的文檔形式,例如,以三元組為主要形式的知識單元,強(qiáng)調(diào)知識主張的結(jié)構(gòu)化。這種模型結(jié)構(gòu)清晰、表示方法簡單易懂、不需要特殊執(zhí)行框架,可通過圖數(shù)據(jù)庫進(jìn)行存儲和查詢,即使不懂編程知識的用戶(如醫(yī)學(xué)研究者、醫(yī)生等)也可使用,其通用性較強(qiáng)。但由于其計(jì)算機(jī)化的程度只到文檔層面,就導(dǎo)致了其對科學(xué)出版物中知識主張及其背后的邏輯論證過程的解構(gòu)程度較淺,無法實(shí)現(xiàn)知識主張中復(fù)雜邏輯知識的表達(dá),因此,其在決策支持(如臨床輔助決策支持)層面的應(yīng)用較淺,復(fù)雜知識的表達(dá)還得依賴基于知識的模型。

(2)基于知識的模型。以科學(xué)出版物中的知識為核心,將其中的知識對象以規(guī)則、決策樹或者任務(wù)網(wǎng)絡(luò)的形式進(jìn)行邏輯的呈現(xiàn),強(qiáng)調(diào)知識的邏輯表示形式,采用專門的格式將知識表示為一種形式化、計(jì)算機(jī)可讀的形式,并且將不同知識融合形成一套知識庫,用于臨床輔助決策系統(tǒng),并強(qiáng)調(diào)與電子病歷系統(tǒng)的結(jié)合。同時,強(qiáng)調(diào)在不同機(jī)構(gòu)和不同執(zhí)行平臺間的知識共享,故標(biāo)準(zhǔn)化的醫(yī)學(xué)術(shù)語,如SNOMED CT(systematized nomenclature of medicine clinical terms)、UMLS和MeSH(medical subject head‐ings)應(yīng)用非常普遍。由于對醫(yī)學(xué)知識的解構(gòu)較深,這類模型普遍需要臨床的醫(yī)務(wù)工作者或者指南的撰寫者與編程人員一起開發(fā),才能更好地理解和表達(dá)醫(yī)學(xué)文獻(xiàn)與臨床指南中所包含的知識對象。

5.2 可計(jì)算醫(yī)學(xué)知識在促進(jìn)知識轉(zhuǎn)化、知識發(fā)現(xiàn)和循證決策中的應(yīng)用場景

本文結(jié)合與情報(bào)學(xué)密切相關(guān)的科學(xué)哲學(xué)、決策科學(xué)等以“知識”為關(guān)注對象的領(lǐng)域的最新觀點(diǎn)和進(jìn)展,從學(xué)科交叉的角度,討論可計(jì)算醫(yī)學(xué)知識在促進(jìn)知識轉(zhuǎn)化、知識發(fā)現(xiàn)和循證決策的可靠性方面的具體應(yīng)用場景。

(1)促進(jìn)從知識到實(shí)踐。目前,科學(xué)知識基本以文本格式發(fā)布,不利于用戶使用。科學(xué)出版物是知識載體,從中抽取知識單元或知識對象,并封裝成軟件代碼,這是可計(jì)算知識的基本概念和路徑。與其他學(xué)科領(lǐng)域相比,醫(yī)學(xué)領(lǐng)域和信息學(xué)的交叉研究(如醫(yī)學(xué)信息學(xué)、健康信息學(xué))的技術(shù)進(jìn)展較快,需求也更為迫切,尤其是醫(yī)療實(shí)踐需要跟上醫(yī)學(xué)知識的快速增長和更新,需要將醫(yī)學(xué)知識快速轉(zhuǎn)化為醫(yī)療實(shí)踐,而將人讀的醫(yī)學(xué)知識轉(zhuǎn)化為機(jī)器可讀、可執(zhí)行的醫(yī)學(xué)知識是促進(jìn)“知識到實(shí)踐”的有效途徑。

(2)面向知識發(fā)現(xiàn)的知識管理。將科學(xué)知識儲存在論文里,很難將所有的發(fā)現(xiàn)整合起來。學(xué)界認(rèn)為,以數(shù)據(jù)為中心的科學(xué)標(biāo)志著數(shù)據(jù)必須從論文限制中“解放”出來,并存儲在云端,以看到更大、更具全局性的畫面。理想情況下,所有的科學(xué)出版物都應(yīng)該是計(jì)算機(jī)可讀的,這樣計(jì)算機(jī)就可以檢測出人類無法識別的模式[38]。最近,挪威學(xué)者在《計(jì)算時代“可解釋的、可計(jì)算的、可管理的”的科學(xué)知識》一文中,提出將知識視為可計(jì)算對象的觀點(diǎn)[39],認(rèn)為計(jì)算賦能(可計(jì)算)的知識管理實(shí)踐提供了獲取新的一階科學(xué)知識的二階科學(xué)研究方法,并提出了兩個基本的知識概念:①知識被認(rèn)為是在已發(fā)表的科學(xué)文本中顯性表達(dá)的事實(shí)和信息;②知識被認(rèn)為是通過適當(dāng)?shù)呐缮鷶?shù)據(jù)(derived data)和元數(shù)據(jù)來實(shí)現(xiàn)計(jì)算的。他們將可計(jì)算的知識管理(computable knowledge management)定義為:在科學(xué)出版物(如PubMed)和知識庫(如GenBank)等一階知識的基礎(chǔ)上開展二階科學(xué)研究,生成新的一階知識的過程。本文認(rèn)為,這一概念與基于文獻(xiàn)的知識發(fā)現(xiàn)(literature-based discovery)是相似的,即把零散的、不相關(guān)的信息進(jìn)行整合,揭示出新的、有希望的、令人驚訝的研究方向,或者提供潛在的變革性或突破性的見解[40]。計(jì)算科學(xué)家以從文獻(xiàn)和數(shù)據(jù)庫中提取的知識為基礎(chǔ),對其進(jìn)行計(jì)算處理,從而挖掘出可以由實(shí)驗(yàn)科學(xué)家在實(shí)驗(yàn)中得到檢驗(yàn)的新假設(shè)。實(shí)驗(yàn)科學(xué)家和計(jì)算科學(xué)家之間的合作已成為科學(xué)知識發(fā)現(xiàn)的新趨勢。

目前,知識管理主要依賴于客觀認(rèn)識論,即將知識視為客觀的、物理的、可完全可解釋的,而忽視了知識的不完整性、不確定性程度及其上下文背景,如其依賴的條件。要真正實(shí)現(xiàn)從現(xiàn)有知識大數(shù)據(jù)中再次發(fā)現(xiàn)新的知識,就不應(yīng)僅關(guān)注結(jié)構(gòu)化的知識單元(knowledge unit),還要關(guān)注知識背景(knowl‐edge context)。以實(shí)踐為基礎(chǔ)的認(rèn)識論挑戰(zhàn)了科學(xué)知識可以完全解釋和編碼的假設(shè),其認(rèn)為開發(fā)知識管理工具以及據(jù)此做出決策和判斷需要考慮科學(xué)知識固有的模糊性、不確定性;而且科學(xué)知識是多維的,既有具體性又有抽象性,既有隱性又有顯性,既有集體性又有個體性,既有發(fā)展性又有靜態(tài)性。認(rèn)識到知識表達(dá)的多樣性、模糊性、不確定性和不一致性,才能更高效地發(fā)現(xiàn)新的知識。將知識的動態(tài)性、不確定性、具象化和爭議性納入計(jì)算過程,是確保知識發(fā)現(xiàn)的有效性和可靠性的關(guān)鍵因素。因此,本文在知識圖譜三元組的基礎(chǔ)上,提出增加通過證據(jù)推理融合計(jì)算總體置信度水平的思路,解決的知識應(yīng)用的關(guān)鍵瓶頸——不確定性,以打通知識和實(shí)踐之間的橋梁。

(3)循證決策。循證決策(evidence-based poli‐cy-making)是借鑒循證醫(yī)學(xué)而發(fā)展出來的一套決策理論,認(rèn)為政策和決策制定也應(yīng)吸收和使用最新的科學(xué)證據(jù),同時,將社會經(jīng)驗(yàn)和價值判斷結(jié)合起來,尤其是在突發(fā)事件中,做出最佳決策,如新冠肺炎疫情的防控和治療[41]。但在政策和實(shí)踐中執(zhí)行循證決策時,需要克服以下障礙[42]:①錯失機(jī)會窗。如果在需要制定關(guān)鍵決策時沒有所需要的證據(jù)(或沒有資源/基礎(chǔ)設(shè)施),那么就會失去循證干預(yù)的機(jī)會。②知識缺口與不確定性。③有爭議、無關(guān)的和相互矛盾的證據(jù),這時不清楚遵循哪一條路徑,會增加制定不正確或非循證決策的風(fēng)險(xiǎn)。而第二條和第三條障礙都涉及知識的不完備性和不確定性,促進(jìn)本文對DIKW(data,information,knowledge,wisdom)模型的再次理解,尤其是關(guān)于如何從知識到智慧這一環(huán)節(jié)。從數(shù)據(jù)到信息,再到知識,解釋的是“when/where/who/what”和“how/why”的問題。而從知識到智慧,解決的是“如何在不完備和不確定條件下中做出最佳決策”的問題。醫(yī)學(xué)知識的不完備性和不確定性是客觀存在的,是醫(yī)學(xué)決策經(jīng)常面臨的現(xiàn)實(shí)環(huán)境和需要考慮的重要因素。從情報(bào)學(xué)的角度對醫(yī)學(xué)知識不確定性進(jìn)行測度,通過可計(jì)算的知識實(shí)現(xiàn)路徑,及時挖掘出有爭議的和相互矛盾的科學(xué)證據(jù),可為循證決策提供重要的參考和依據(jù)。過去針對政府決策需求的情報(bào)學(xué)研究和服務(wù)可能多側(cè)重提供確定性的信息和知識,特別是已證實(shí)或證偽的并有大量依據(jù)來支持。而識別知識缺口并通過情報(bào)學(xué)研究,特別是基于文獻(xiàn)的知識發(fā)現(xiàn),彌補(bǔ)這些知識缺口,以及測度并甄別出不確定性的知識及其背后的原因和條件,對于循證決策至關(guān)重要。

6 結(jié)論

當(dāng)前,我國政府高度重視面向人民生命健康的科技創(chuàng)新,《健康中國2030規(guī)劃綱要》中提出,到2030年,大力加強(qiáng)國家臨床醫(yī)學(xué)研究中心和協(xié)同創(chuàng)新網(wǎng)絡(luò)建設(shè)。可以預(yù)計(jì),與我國人民生命健康相關(guān)的本土醫(yī)學(xué)證據(jù)和知識將快速增長。目前,有關(guān)我國人群疾病與健康相關(guān)的醫(yī)學(xué)知識散落在電子病歷、電子健康檔案、醫(yī)學(xué)文獻(xiàn)報(bào)道、臨床實(shí)踐指南以及醫(yī)療機(jī)構(gòu)網(wǎng)站或自存儲庫中,需要人讀、人理解或人整合之后,才能形成臨床實(shí)踐中可直接大規(guī)模使用的知識。此外,我國為數(shù)不多的可計(jì)算知識生成和應(yīng)用實(shí)例(主要是臨床決策支持工具系統(tǒng))處于不同機(jī)構(gòu)各為所用、互不兼容、缺乏標(biāo)準(zhǔn)的狀態(tài),存在顯著的碎片化現(xiàn)象。同時,隨著我國對發(fā)展健康醫(yī)療大數(shù)據(jù)與醫(yī)療人工智能的重視和投入[43],以及公眾的健康意識逐步從單純的醫(yī)療服務(wù)提前到基于數(shù)字技術(shù)進(jìn)行個人健康管理,健康醫(yī)療數(shù)據(jù)在實(shí)踐中不斷積累。在海量知識和數(shù)據(jù)的背景下,通過可計(jì)算醫(yī)學(xué)知識的理念,將醫(yī)學(xué)研究產(chǎn)出的證據(jù)和知識及時轉(zhuǎn)化為臨床實(shí)踐,并搭建醫(yī)學(xué)知識和醫(yī)療實(shí)踐之間交互的“接口”和“橋梁”,形成“數(shù)據(jù)-知識-實(shí)踐-數(shù)據(jù)”的循環(huán)式學(xué)習(xí),從而提高醫(yī)學(xué)研究效率和醫(yī)療服務(wù)質(zhì)量,為我國建設(shè)學(xué)習(xí)型健康醫(yī)療體系提供方法學(xué)基礎(chǔ)和路徑參考。

總之,可計(jì)算知識強(qiáng)調(diào)將人讀的知識格式通過抽取和編程轉(zhuǎn)化為機(jī)器可執(zhí)行的知識格式,其是促進(jìn)將知識大規(guī)模應(yīng)用到實(shí)踐的重要手段,不僅為情報(bào)學(xué)領(lǐng)域開展知識計(jì)算或知識計(jì)量學(xué)研究提供了新范式,也為數(shù)字圖書館存儲和管理數(shù)字化知識對象提出了新需求。本文以醫(yī)學(xué)為例,詳細(xì)地闡述了可計(jì)算醫(yī)學(xué)知識的基本概念,并提出從結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化文本中生成和共享可計(jì)算醫(yī)學(xué)知識的兩條實(shí)現(xiàn)路徑,以期為國內(nèi)學(xué)術(shù)界開展醫(yī)學(xué)知識計(jì)算引入跨學(xué)科研究思路,并拓展其應(yīng)用實(shí)踐。

猜你喜歡
醫(yī)學(xué)知識三元組結(jié)構(gòu)化
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
特征標(biāo)三元組的本原誘導(dǎo)子
促進(jìn)知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
關(guān)于余撓三元組的periodic-模
思維導(dǎo)圖在醫(yī)學(xué)中的應(yīng)用
加強(qiáng)班級凝聚力建設(shè),激發(fā)學(xué)生學(xué)習(xí)的積極性
新環(huán)境下《解剖學(xué)》教學(xué)資源開發(fā)探討分析
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
衛(wèi)?;瘜W(xué)教學(xué)中滲透醫(yī)學(xué)知識的實(shí)踐
雅安市| 石阡县| 新河县| 宽城| 长沙市| 肥东县| 两当县| 新津县| 天长市| 姚安县| 兴化市| 安阳县| 南郑县| 平遥县| 全南县| 东兰县| 同心县| 阜阳市| 沧州市| 报价| 永川市| 阳春市| 石棉县| 肥西县| 女性| 钦州市| 萍乡市| 孟村| 开封市| 广宗县| 旺苍县| 唐河县| 澳门| 金湖县| 永新县| 蒲城县| 获嘉县| 陕西省| 堆龙德庆县| 依兰县| 满城县|