商 濤 程 瑤 陳祿明 鄧立宗 蔣太交-5
(1.全國科學(xué)技術(shù)名詞審定委員會,北京 100717;2.蘇州系統(tǒng)醫(yī)學(xué)研究所,江蘇蘇州 215123;3.中國醫(yī)學(xué)科學(xué)院系統(tǒng)醫(yī)學(xué)研究院,北京 100005;4.中國醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所/北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院,北京 100005;5.廣州實驗室,廣東廣州 510005)
以臨床電子病歷為代表的真實世界數(shù)據(jù)(real world data)蘊含了豐富的患者診療信息,若能對這些診療信息加以有效利用,將極大地推動我國醫(yī)療健康大數(shù)據(jù)應(yīng)用的發(fā)展[1]。然而,由于不同機構(gòu)、不同醫(yī)生的用語習(xí)慣不同,電子病歷中的診療信息存在著用語不規(guī)范、不統(tǒng)一的問題,這為醫(yī)療健康大數(shù)據(jù)的整合和利用帶來了極大的障礙[2]。為規(guī)范我國臨床醫(yī)學(xué)術(shù)語的使用,以國家衛(wèi)生健康委員會(簡稱“衛(wèi)健委”)、全國科學(xué)技術(shù)名詞審定委員會(簡稱“名詞委”)為代表的國家機構(gòu)頒布了一系列標準醫(yī)學(xué)術(shù)語①,引導(dǎo)中文醫(yī)學(xué)術(shù)語的規(guī)范表達,推動了我國醫(yī)學(xué)術(shù)語的標準化進程[3-4]。
調(diào)研已發(fā)布的標準醫(yī)學(xué)術(shù)語在真實世界數(shù)據(jù)中的使用情況是一項十分重要的工作[5]。這一工作通??梢詮膬煞矫嬲归_:一是調(diào)研真實世界數(shù)據(jù)使用標準醫(yī)學(xué)術(shù)語的情況;二是調(diào)研標準醫(yī)學(xué)術(shù)語對真實世界數(shù)據(jù)中所使用術(shù)語的覆蓋度。前者關(guān)注的是真實世界數(shù)據(jù)所使用醫(yī)學(xué)術(shù)語的標準化程度,后者關(guān)注的是標準醫(yī)學(xué)術(shù)語描述真實世界數(shù)據(jù)的完備程度。
國內(nèi)外學(xué)者均非常重視調(diào)研標準醫(yī)學(xué)術(shù)語在真實世界數(shù)據(jù)中的使用情況。例如,來自梅奧診所的研究者[5]從電子病歷中搜集了4996個描述臨床問題的醫(yī)學(xué)術(shù)語,發(fā)現(xiàn)國際衛(wèi)生術(shù)語標準制定組織制定的臨床醫(yī)學(xué)系統(tǒng)術(shù)語 (SNOMED-CT)能覆蓋其中92.3%的臨床問題術(shù)語。來自四川大學(xué)華西醫(yī)院的研究者[6]通過對比中文人類表型標準用語(CHPO)和從中文電子病歷中獲取的表型術(shù)語,發(fā)現(xiàn)電子病歷中使用的術(shù)語口語化、隨意化現(xiàn)象嚴重,同標準醫(yī)學(xué)術(shù)語集之間存在著巨大差異。中國醫(yī)學(xué)科學(xué)院的研究者[7]系統(tǒng)匯集了衛(wèi)健委、名詞委發(fā)布的857 193個標準醫(yī)學(xué)術(shù)語,并統(tǒng)計了標準醫(yī)學(xué)術(shù)語對實際使用于臨床指南、電子病歷中的69 865個醫(yī)學(xué)術(shù)語的覆蓋度,發(fā)現(xiàn)中文標準醫(yī)學(xué)術(shù)語資源對于常見術(shù)語的覆蓋度較高(74.3%),但對不常見術(shù)語的覆蓋度偏低(26.8%)。
名詞委歷來都很重視標準醫(yī)學(xué)術(shù)語的審定與應(yīng)用,不僅發(fā)布了呼吸病學(xué)、老年醫(yī)學(xué)等18個??频臉藴梳t(yī)學(xué)術(shù)語, 還發(fā)布了一系列??漆t(yī)學(xué)術(shù)語審定名詞與非規(guī)范名詞對照表[8]。然而,對于目前真實世界數(shù)據(jù)中對已發(fā)布的??茦藴梳t(yī)學(xué)術(shù)語的使用情況和??茦藴梳t(yī)學(xué)術(shù)語對真實世界數(shù)據(jù)中使用術(shù)語的覆蓋度尚缺少細致深入的研究。在本研究中,我們擬以名詞委2018年發(fā)布的《呼吸病學(xué)名詞》為切入點,調(diào)研《呼吸病學(xué)名詞》中有關(guān)疾病、體征、癥狀類標準醫(yī)學(xué)術(shù)語在電子病歷中的使用情況,以期充實和完善我國的呼吸病學(xué)標準醫(yī)學(xué)術(shù)語。
本研究的總體設(shè)計如圖1所示:首先,我們搜集并整理了名詞委《呼吸病學(xué)名詞》中疾病、體征或癥狀類標準醫(yī)學(xué)術(shù)語;隨后,我們通過匯集《呼吸病學(xué)名詞》《中文醫(yī)學(xué)主題詞表》(CMeSH,“萬方醫(yī)學(xué)網(wǎng)”發(fā)布)、“39健康網(wǎng)”等醫(yī)學(xué)健康網(wǎng)站收錄的同義詞資源,整理了與標準醫(yī)學(xué)術(shù)語存在同義關(guān)聯(lián)的非標準醫(yī)學(xué)術(shù)語;我們還通過術(shù)語挖掘的方法,從實際電子病歷語料中發(fā)掘了與標準醫(yī)學(xué)術(shù)語存在同義關(guān)聯(lián)的非標準醫(yī)學(xué)術(shù)語;最后,我們根據(jù)整理獲得的標準醫(yī)學(xué)術(shù)語和非標準醫(yī)學(xué)術(shù)語集,對它們在實際電子病歷語料中的使用情況展開調(diào)研。詳述如下。
圖1 整理呼吸病學(xué)標準醫(yī)學(xué)術(shù)語及其同義詞(非標準醫(yī)學(xué)術(shù)語)流程圖
首先,我們搜集并整理了名詞委2018年發(fā)布的《呼吸病學(xué)名詞》中547個疾病、體征或癥狀類標準醫(yī)學(xué)術(shù)語,其中,疾病類標準醫(yī)學(xué)術(shù)語數(shù)目為428個,體征或癥狀類標準醫(yī)學(xué)術(shù)語數(shù)目為119個。我們主要出于兩方面考慮疾病、體征或癥狀類的術(shù)語:首先,疾病、體征或癥狀是電子病歷中最重要的一類診療信息;其次,我們前期積累了大量的疾病、體征或癥狀類同義詞資源,可從中發(fā)掘出與標準醫(yī)學(xué)術(shù)語具有同義關(guān)聯(lián)的非標準醫(yī)學(xué)術(shù)語,進而展開更深入的分析。
為評估呼吸病學(xué)標準醫(yī)學(xué)術(shù)語在電子病歷數(shù)據(jù)中的使用情況,我們通過“愛愛醫(yī)”和“醫(yī)脈通”網(wǎng)站的典型病例欄目搜集并整理了5383份以呼吸系統(tǒng)疾病為主要診斷的中文電子病歷?!皭蹛坩t(yī)”和“醫(yī)脈通”的典型病例均來自不同醫(yī)院、不同醫(yī)生的臨床記錄,其中的醫(yī)學(xué)術(shù)語表達具有多樣性,因此非常適合作為本文的研究語料。
互聯(lián)網(wǎng)電子病歷資源網(wǎng)站所發(fā)布的電子病歷數(shù)據(jù)通常包含各個疾病種類。為了配合調(diào)研呼吸病學(xué)標準術(shù)語使用情況的目的,我們設(shè)計了如下規(guī)則對所獲的電子病歷數(shù)據(jù)進行篩選。
(1)對于如“愛愛醫(yī)”和“大專家”等帶有疾病診斷標簽的病歷資源,以呼吸病學(xué)名詞為種子詞,篩選診斷結(jié)果為呼吸病學(xué)相關(guān)疾病的電子病歷數(shù)據(jù)作為本研究所使用數(shù)據(jù)集的重要組成之一,共篩選出4321份電子病歷。
(2)對于“醫(yī)學(xué)慕課”和“醫(yī)脈通”等無任何標簽的病歷資源,以呼吸病學(xué)名詞為關(guān)鍵術(shù)語,篩選出病歷文本內(nèi)容中包含10個以上呼吸病學(xué)相關(guān)癥狀或疾病術(shù)語的電子病歷,共篩選出1063份電子病歷。由于這部分數(shù)據(jù)無確定的診斷標簽用于判斷其是否為呼吸病學(xué)相關(guān)病歷,我們采用人工的方法,確認了這1063份電子病歷數(shù)據(jù)均為呼吸病學(xué)相關(guān)數(shù)據(jù)。
在本研究中,我們將名詞委發(fā)布的《呼吸病學(xué)名詞》中的疾病、體征或癥狀類術(shù)語作為標準醫(yī)學(xué)術(shù)語,將標準醫(yī)學(xué)術(shù)語對應(yīng)的同義詞稱作非標準術(shù)語。我們通過以下三個渠道對標準醫(yī)學(xué)術(shù)語的同義詞進行了擴充:
(1)來自《呼吸病學(xué)名詞》的同義詞資源。在名詞委發(fā)布的《呼吸病學(xué)名詞》中,除了給出標準醫(yī)學(xué)術(shù)語(如“干性咳嗽”),還會給出標準醫(yī)學(xué)術(shù)語的同義詞(如“干咳”)。我們共搜集了114個疾病、體征或癥狀類標準醫(yī)學(xué)術(shù)語的同義詞。
(2)來自“萬方醫(yī)學(xué)網(wǎng)”發(fā)布的《中文醫(yī)學(xué)主題詞表》和醫(yī)學(xué)健康網(wǎng)站(“尋醫(yī)問藥”“39健康網(wǎng)”等)的同義詞資源?!吨形尼t(yī)學(xué)主題詞表》和“39健康網(wǎng)”“99健康網(wǎng)”等醫(yī)學(xué)健康網(wǎng)站同樣收錄了大量的醫(yī)學(xué)術(shù)語同義詞資源。通過這一系列術(shù)語資源,我們?yōu)閬碜浴逗粑W(xué)名詞》的標準醫(yī)學(xué)術(shù)語擴充了969個同義詞。
(3)通過運用自動術(shù)語挖掘和標準化映射技術(shù)發(fā)現(xiàn)的同義詞資源。近年來,以大規(guī)模語料為基礎(chǔ),進行術(shù)語挖掘或新詞發(fā)現(xiàn)的自然語言處理技術(shù)愈發(fā)成熟,以自動短語挖掘方法(AutoPhrase)[9]為例,它以維基百科中的高質(zhì)量詞條為種子詞條,采用基于詞性的詞分割方法,基于統(tǒng)計語言模型的詞語片段打分模型實現(xiàn)無監(jiān)督地面向大語料的術(shù)語挖掘。通過運用AutoPhrase并輔以人工判斷,我們從本研究整理的5383份呼吸系統(tǒng)疾病電子病歷中識別了3442條描述呼吸系統(tǒng)疾病、體征或癥狀的醫(yī)學(xué)術(shù)語。挖掘結(jié)果如表1所示。
表1 基于語料的術(shù)語自動挖掘所得呼吸病學(xué)術(shù)語示例
更進一步,我們運用百度翻譯、有道翻譯、騰訊翻譯君將中文醫(yī)學(xué)術(shù)語翻譯成英文,再借助MetaMap[10]將英文醫(yī)學(xué)術(shù)語映射到統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(UMLS)[11],獲取中文醫(yī)學(xué)術(shù)語在UMLS體系中的概念編碼。若兩個字面不同的中文醫(yī)學(xué)術(shù)語在UMLS體系中具有相同的概念編碼,那么它們就可判定為同義詞。例如,來自《呼吸病學(xué)名詞》中的標準醫(yī)學(xué)術(shù)語“肺念珠菌病”(pulmonary candidiasis)和從病歷中挖掘得到的術(shù)語“念珠菌肺炎”(candida pneumonia)具有相同的UMLS概念編碼“C0153251”。通過這種方法,我們?yōu)閬碜浴逗粑W(xué)名詞》的標準醫(yī)學(xué)術(shù)語擴充了522個同義詞。
除了通過UMLS對中文醫(yī)學(xué)術(shù)語進行同義關(guān)聯(lián)外,我們還通過計算中文術(shù)語間的字形相似度和語義相似度[12],尋求挖掘得到的非標準醫(yī)學(xué)術(shù)語和標準醫(yī)學(xué)術(shù)語之間是否存在同義關(guān)系。通過這種方法,結(jié)合多輪人工確認,我們?yōu)閬碜浴逗粑W(xué)名詞》的標準醫(yī)學(xué)術(shù)語擴充了273個同義詞。
最終,我們搜集并整理了與《呼吸病學(xué)名詞》中的547個疾病、體征或癥狀類標準醫(yī)學(xué)術(shù)語相關(guān)的同義詞或非標準醫(yī)學(xué)術(shù)語共1878個(表2)。
表2 基于不同來源整理的呼吸病學(xué)標準醫(yī)學(xué)術(shù)語的同義詞數(shù)量統(tǒng)計
我們首先調(diào)研了來自《呼吸病學(xué)名詞》中547個標準醫(yī)學(xué)術(shù)語和1878個非標準醫(yī)學(xué)術(shù)語在5383份呼吸系統(tǒng)電子病歷中的頻次分布情況。從圖2A可見,標準醫(yī)學(xué)術(shù)語和非標準醫(yī)學(xué)術(shù)語在本研究使用的電子病歷語料中分別出現(xiàn)了51 881次和26 386次。無論對于疾病類還是體征或癥狀類術(shù)語而言,標準醫(yī)學(xué)術(shù)語的出現(xiàn)頻次都高于非標準醫(yī)學(xué)術(shù)語。
圖2 呼吸病學(xué)標準醫(yī)學(xué)術(shù)語與非標準醫(yī)學(xué)術(shù)語在電子病歷中的分布統(tǒng)計
由于我們整理的非標準醫(yī)學(xué)術(shù)語都是標準醫(yī)學(xué)術(shù)語的同義詞,即對同一臨床概念的不同描述,因此我們還從概念層面分析了某一醫(yī)學(xué)概念在電子病歷語料中是否更傾向于使用標準醫(yī)學(xué)術(shù)語。我們首先篩選了242個具有同義詞且在電子病歷語料中出現(xiàn)10次以上的醫(yī)學(xué)概念。統(tǒng)計發(fā)現(xiàn),使用標準醫(yī)學(xué)術(shù)語的概念占比為52.89% (128/242),使用非標準醫(yī)學(xué)術(shù)語的概念占比為47.11% (114/242) (圖2B)。
我們進一步統(tǒng)計了同一醫(yī)學(xué)概念使用標準醫(yī)學(xué)術(shù)語占該概念總出現(xiàn)次數(shù)的比例分布,發(fā)現(xiàn)該分布呈U型,即完全使用標準醫(yī)學(xué)術(shù)語或完全使用非標準醫(yī)學(xué)術(shù)語的醫(yī)學(xué)概念出現(xiàn)較多(圖2C)。典型的例子是“盜汗”和“胸痛”,大部分病歷使用了標準醫(yī)學(xué)術(shù)語,而不是其同義詞“寢汗”和“胸部疼痛”。而對于“干性咳嗽”和“血性痰”,大部分病歷使用的是其同義詞,如“干咳”和“痰中帶血”。從圖2C也可以看出,電子病歷中對同一醫(yī)學(xué)概念的表達是多樣的,整體而言,術(shù)語標準化程度不高。
為調(diào)研標準醫(yī)學(xué)術(shù)語對電子病歷中使用醫(yī)學(xué)術(shù)語的覆蓋度,我們使用自動術(shù)語挖掘并輔以人工判斷的方法,從5383份呼吸系統(tǒng)電子病歷中挖掘出3442條描述呼吸系統(tǒng)疾病、體征或癥狀的醫(yī)學(xué)術(shù)語。
這3442條來自電子病歷中的醫(yī)學(xué)術(shù)語中,有289條可被來自《呼吸病學(xué)名詞》中標準醫(yī)學(xué)術(shù)語所覆蓋,有40條可被來自《呼吸病學(xué)名詞》的同義詞所覆蓋。在其余的醫(yī)學(xué)術(shù)語中:有173條可利用來自CMeSH和醫(yī)學(xué)健康網(wǎng)站的同義詞資源映射到《呼吸病學(xué)名詞》收錄的標準化醫(yī)學(xué)術(shù)語上;進一步,有522條通過基于UMLS標準化的方法映射到《呼吸病學(xué)名詞》收錄的標準化醫(yī)學(xué)術(shù)語上;此外,有273條可通過利用字形相似度和語義相似度相結(jié)合的術(shù)語映射方法映射到《呼吸病學(xué)名詞》收錄的標準化醫(yī)學(xué)術(shù)語上??傮w而言,《呼吸病學(xué)名詞》中的醫(yī)學(xué)概念對電子病歷中所使用的醫(yī)學(xué)術(shù)語的覆蓋度是37.68% (1297/3442) (表3)。
我們進一步分析了未被《呼吸病學(xué)名詞》收錄的非標準醫(yī)學(xué)術(shù)語的特征。通過語義關(guān)聯(lián)和字形關(guān)聯(lián)算法,推薦最為接近的標準醫(yī)學(xué)術(shù)語。通過對這些術(shù)語標準化映射的人工確認,我們發(fā)現(xiàn)這些術(shù)語往往是《呼吸病學(xué)名詞》收錄的標準醫(yī)學(xué)術(shù)語的子結(jié)點。如:“支氣管腺樣囊性癌”屬于“腺樣囊性癌”,“干酪樣肺炎”屬于“肺結(jié)核”等。從概念的角度來看,這些未被收錄的術(shù)語所表示的概念往往是《呼吸病學(xué)名詞》所收錄的術(shù)語概念的子概念,在臨床應(yīng)用中可進行更為精細的描述與表征。
表3 呼吸病學(xué)標準醫(yī)學(xué)術(shù)語及其同義詞對電子病歷中使用醫(yī)學(xué)術(shù)語的覆蓋度統(tǒng)計
在本研究中,我們調(diào)研了名詞委發(fā)布的呼吸病學(xué)標準醫(yī)學(xué)術(shù)語在電子病歷中的使用情況。盡管在呼吸疾病電子病歷中,標準醫(yī)學(xué)術(shù)語的使用頻次高于非標準醫(yī)學(xué)術(shù)語,但從概念層面上看,術(shù)語的標準化程度仍然不高,這也是當(dāng)前發(fā)展醫(yī)療健康大數(shù)據(jù)應(yīng)用面臨極大挑戰(zhàn)的重要原因之一[2]。
由于術(shù)語標準化程度不高,同一概念的臨床描述多種多樣,因此搜集標準醫(yī)學(xué)術(shù)語的同義詞成為標準術(shù)語集合未來發(fā)展的要點之一[6]。從本文的術(shù)語覆蓋度研究中可以看出,如果只考慮來自《呼吸病學(xué)名詞》中的術(shù)語,它在呼吸疾病電子病歷中所使用的術(shù)語的覆蓋度僅為9.56% (329/3442); 但當(dāng)通過利用現(xiàn)有中英文術(shù)語資源、術(shù)語挖掘和標準化映射方法擴充同義詞后,在呼吸疾病電子病歷中所使用的術(shù)語的覆蓋度可達37.68% (1297/3442)。由此可見,在臨床應(yīng)用中,同一概念下醫(yī)學(xué)術(shù)語的使用具有多樣性,在使用過程中不僅有標準術(shù)語集合所收錄的表達形式,同時也存在各種符合臨床使用習(xí)慣的同義詞表述形式。此外,在臨床實踐中,存在傾向于使用非標準醫(yī)學(xué)術(shù)語的概念,其占比為47.11% (114/242)。這說明部分標準術(shù)語集合所收錄的術(shù)語由于表述方式較復(fù)雜,或者不符合漢語、口語習(xí)慣等各種因素,臨床使用頻次較低。以上這些結(jié)果提示我們在未來的術(shù)語審定工作中,需要更充分地考慮不同渠道尤其是來自臨床實踐的同義詞資源,以提升標準醫(yī)學(xué)術(shù)語對臨床實踐的覆蓋度[7]。與此同時,標準術(shù)語所收錄的內(nèi)容需要更為貼近臨床實踐及中文醫(yī)學(xué)使用場景下的語言習(xí)慣,盡可能提升標準術(shù)語對臨床應(yīng)用術(shù)語的收錄水平,為統(tǒng)一臨床術(shù)語的使用提供可能。
從本研究對未被收錄的呼吸病學(xué)相關(guān)概念的分析情況來看,未被收錄的這些概念多為已收錄術(shù)語概念的子概念,用于表述更為精細的臨床實體和信息。因此在中文標準化術(shù)語的制定過程中,除需要更充分考慮臨床習(xí)慣用語的同時,也需要考慮收錄更為精細的臨床概念相關(guān)術(shù)語,并在此基礎(chǔ)之上構(gòu)建起更為系統(tǒng)的概念間的從屬、修飾關(guān)系,使得標準術(shù)語系統(tǒng)對臨床應(yīng)用場景形成更為全面的覆蓋,從而促進臨床實踐中術(shù)語的標準化。
本研究的一個不足之處是我們只考慮了呼吸病學(xué)疾病、體征或癥狀類術(shù)語,而未對手術(shù)、藥物等術(shù)語進行同樣系統(tǒng)而全面的調(diào)研,我們期望在未來的工作中彌補這一不足。同時,盡管本研究針對的是呼吸病學(xué)術(shù)語,但調(diào)研所使用的方法同樣適用于其他專科疾病術(shù)語。我們也期望在未來的工作中能進一步調(diào)研名詞委發(fā)布的其他??茦藴梳t(yī)學(xué)術(shù)語在真實世界數(shù)據(jù)中的使用情況,為推動我國的醫(yī)學(xué)術(shù)語標準化事業(yè)做出貢獻。
注釋
① 本文將全國科學(xué)技術(shù)名詞審定委員會審定、公布的醫(yī)學(xué)類規(guī)范名詞與其他國家機構(gòu)作為標準發(fā)布的醫(yī)學(xué)術(shù)語,統(tǒng)稱為“標準醫(yī)學(xué)術(shù)語”。