国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

癲癇臨床診療數(shù)據(jù)規(guī)范化研究

2021-04-22 05:32張妮楠曹馨宇林睿凡王斌史華新周洪偉謝琪
中國(guó)科技術(shù)語(yǔ) 2021年2期

張妮楠 曹馨宇 林睿凡 王斌 史華新 周洪偉 謝琪

摘 要:中醫(yī)常采用自然語(yǔ)言描述疾病癥狀,導(dǎo)致癥狀命名不統(tǒng)一,影響數(shù)據(jù)挖掘分析和臨床療效評(píng)價(jià)結(jié)果。該研究主要以中醫(yī)臨床專病診療數(shù)據(jù)為研究對(duì)象,示范性地探索和整理了臨床診療數(shù)據(jù)中術(shù)語(yǔ)該如何規(guī)范化的問(wèn)題,從語(yǔ)義分析的角度來(lái)規(guī)范化整理癥狀術(shù)語(yǔ),在首選術(shù)語(yǔ)制定過(guò)程中引入術(shù)語(yǔ)屬性和術(shù)語(yǔ)間關(guān)系的概念,解決了癥狀間多詞一義、多義一詞的問(wèn)題。參照ICD-11中文版整理了疾病診斷術(shù)語(yǔ);參照《中國(guó)藥典》規(guī)范了中藥藥名;按照“治愈”“好轉(zhuǎn)”“未愈”分類整理療效評(píng)價(jià)術(shù)語(yǔ)。最終整理獲得癥狀術(shù)語(yǔ)558條,其中首選術(shù)語(yǔ)164條,同義術(shù)語(yǔ)394條;診斷術(shù)語(yǔ)23條;療效評(píng)價(jià)術(shù)語(yǔ)21條,規(guī)范后的數(shù)據(jù)可用于數(shù)據(jù)挖掘分析。

關(guān)鍵詞:癲癇診療數(shù)據(jù);數(shù)據(jù)規(guī)范化;首選術(shù)語(yǔ);同義術(shù)語(yǔ);術(shù)語(yǔ)屬性

中圖分類號(hào):N04;R276文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.3969/j.issn.1673-8578.2021.02.006

Study on Standardization of Clinical Data of Epilepsy Diagnosis and Treatment//ZHANG Ninan, CAO Xinyu, LIU Ruifan, WANG Bin, SHI Huaxin, ZHOU Hongwei, XIE Qi

Abstract:Chinese medicine often uses natural language to describe the symptoms of the disease, which leads to inconsistent naming of the symptoms and affects the results of data mining analysis and clinical efficacy evaluation. Based on the diagnosis and treatment data of clinical special diseases of a famous Chinese medicine practitioner, this study explored on how to standardize the terminology in clinical diagnosis and treatment data. From the perspective of semantic analysis of standardization symptoms terms, we introduced the concept of the term properties and the relationships between terms in the process of establishing the preferred terms, and solved the problem of multi-word meaning and polysemy between symptoms. Also, we sorted out the disease diagnosis terms according to the ICD-11 Chinese version, standardized the names of traditional Chinese medicines according to Chinese Pharmacopoeia, and sorted the curative effect evaluation terms according to “cure”, “improvement”, and “unhealed”. We finally obtained 558 symptom terms, among which 164 were preferred terms, and obtained 394 synonymous terms, 23 diagnosis terms, 21 terms of efficacy evaluation. The standardized data can be used for data mining analysis.

Keywords: epilepsy diagnosis and treatment data; data standardization; preferred term; synonymous term; term properties

引言

開(kāi)展中醫(yī)真實(shí)世界研究,基于臨床診療工作積累的病案,進(jìn)行中醫(yī)藥個(gè)體化診療評(píng)價(jià)和分析,已經(jīng)成為中醫(yī)藥專家學(xué)術(shù)經(jīng)驗(yàn)傳承、臨床有效藥物挖掘的重要途徑。中醫(yī)真實(shí)世界數(shù)據(jù)也已成為中醫(yī)臨床評(píng)價(jià)和藥物監(jiān)管決策證據(jù)體構(gòu)成的重要來(lái)源。從臨床診療病案中獲得的真實(shí)世界數(shù)據(jù),要通過(guò)數(shù)據(jù)相關(guān)性和可靠性評(píng)估其適用性,而數(shù)據(jù)規(guī)范化的工作更是數(shù)據(jù)研究與利用的首要關(guān)鍵環(huán)節(jié),只有規(guī)范化的數(shù)據(jù),才能夠成為研究資料而發(fā)揮其應(yīng)有的研究?jī)r(jià)值。

中醫(yī)真實(shí)世界數(shù)據(jù)有幾個(gè)特點(diǎn):(1)非結(jié)構(gòu)化,即醫(yī)案數(shù)據(jù)主要來(lái)源于醫(yī)院電子信息系統(tǒng)存儲(chǔ)的門(mén)診或住院電子病歷、患者保留的門(mén)急診病歷手冊(cè),數(shù)據(jù)分布在主訴、現(xiàn)病史、既往史、刻下癥等段落,每段的文字,由醫(yī)生在診療過(guò)程中以自然語(yǔ)言書(shū)寫(xiě)而成,而不是從預(yù)設(shè)的字段中勾選,整體段落連貫,沒(méi)有字詞間的拆分結(jié)構(gòu)。(2)表達(dá)形式多樣。如痰熱相關(guān)證候術(shù)語(yǔ),有痰熱內(nèi)蘊(yùn)、痰熱蘊(yùn)結(jié)、痰熱壅盛、痰熱互結(jié)、痰熱互阻、痰熱內(nèi)生等15種之多。(3)中醫(yī)癥狀術(shù)語(yǔ)外延模糊、復(fù)合癥狀隨意組合而癥狀的量化程度不足,如納呆有納差、納少、食少、飲食減少、食欲不振等表達(dá),給數(shù)據(jù)的分析和利用帶來(lái)困難。這樣的問(wèn)題引起了關(guān)注,全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)先后審定發(fā)布了內(nèi)婦兒外等多個(gè)學(xué)科的《中醫(yī)藥學(xué)名詞》,給中醫(yī)藥學(xué)名詞以標(biāo)準(zhǔn)化的定義。黎敬波[1]等收集大量文獻(xiàn)和臨床病案,整理了常見(jiàn)癥狀術(shù)語(yǔ)2069條,分析了術(shù)語(yǔ)的使用習(xí)慣,并進(jìn)行了解釋和規(guī)范;張啟明等人[2]以古代及近現(xiàn)代名家的數(shù)百部醫(yī)案及著作為語(yǔ)料庫(kù)對(duì)中醫(yī)癥狀學(xué)進(jìn)行研究,得到了內(nèi)涵最小的癥狀399條,并按照五臟功能異常的臨床表現(xiàn)為分類框架,對(duì)癥狀術(shù)語(yǔ)進(jìn)行分類;王永炎等人[3]通過(guò)文獻(xiàn)普查方式得到癥狀術(shù)語(yǔ)100余條、中西醫(yī)疾病1500余種。

這些工作為中醫(yī)術(shù)語(yǔ)的規(guī)范化提供了較好的基礎(chǔ),但是規(guī)范化術(shù)語(yǔ)的臨床轉(zhuǎn)化應(yīng)用相對(duì)不足,尤其體現(xiàn)在專病研究中。某種確定的病種或病證,術(shù)語(yǔ)相對(duì)密集,在整體的術(shù)語(yǔ)體系中呈偏性分布。如癲癇,我們?cè)谘芯抗ぷ髦袊L試采用現(xiàn)有術(shù)語(yǔ)集與病歷數(shù)據(jù)集中的術(shù)語(yǔ)進(jìn)行比對(duì)和匹配,尚不能準(zhǔn)確、成簇、翔實(shí)地刻畫(huà)癲癇的臨床表現(xiàn)。余瀛鰲在充分的文獻(xiàn)循證與臨床實(shí)踐的基礎(chǔ)上,提出“審因—辨病—辨證”相結(jié)合的“中醫(yī)通治”理論,癲癇促效方是其代表性通治方,他認(rèn)為癲癇病理要素是痰、瘀,實(shí)多于虛。2014和2018年2篇博碩論文的主要結(jié)論也印證了這一觀點(diǎn)[4-5]。為了從真實(shí)世界數(shù)據(jù)中獲得依據(jù),進(jìn)一步分析余瀛鰲診治癲癇的通治方及其病證人群特點(diǎn)和證治規(guī)律,本研究以余瀛鰲多年診治癲癇的門(mén)診病歷作為研究資料,進(jìn)行系統(tǒng)的規(guī)范化整理,也為傳承中醫(yī)臨證經(jīng)驗(yàn)的數(shù)據(jù)整理工作提供參考。

1 構(gòu)建癲癇臨床診療數(shù)據(jù)語(yǔ)料庫(kù)

語(yǔ)料來(lái)源:就診于中國(guó)中醫(yī)科學(xué)院中醫(yī)門(mén)診部和鼓樓中醫(yī)院京城名醫(yī)館余瀛鰲教授門(mén)診近十年的癲癇患者臨床診療病例信息。共收集數(shù)據(jù)243診例、1219診次,其中50%的數(shù)據(jù)缺少一般人口學(xué)信息如年齡、性別、出生日期;69%的數(shù)據(jù)缺少診療信息如主訴、現(xiàn)病史、既往史。一般人口學(xué)信息和診療信息數(shù)據(jù)完整的有121診例、329診次。

語(yǔ)料庫(kù)構(gòu)建:對(duì)數(shù)據(jù)進(jìn)行去標(biāo)識(shí)處理,選取既往史、現(xiàn)病史、刻下癥、處方部分。以患者ID號(hào)為主索引,以逗號(hào)為分隔符,將345條病歷數(shù)據(jù)拆分成3029條語(yǔ)料數(shù)據(jù),例如:“患者近期5次發(fā)作癲癇,均于每日凌晨2—3點(diǎn)發(fā)作,易流口水”。在同一主索引下有3條數(shù)據(jù),分別為“患者近期5次發(fā)作癲癇”“均于每日凌晨2—3點(diǎn)發(fā)作”“易流口水”,完整地存入Excel,通過(guò)人工校對(duì),避免數(shù)據(jù)缺失或遺漏,保證數(shù)據(jù)的準(zhǔn)確性、完整性。

2 癲癇癥狀術(shù)語(yǔ)的規(guī)范化

癥狀術(shù)語(yǔ)是中醫(yī)審因辨治的基礎(chǔ),來(lái)源于真實(shí)診療環(huán)境,數(shù)量龐大而表達(dá)多樣,例如:記憶力下降、憶減、記憶力減退、憶差等,臨床中都是用來(lái)描述健忘這一癥狀。癥狀術(shù)語(yǔ)的規(guī)范化主要分為三步,分別為語(yǔ)料庫(kù)構(gòu)建、癥狀術(shù)語(yǔ)獲取、建立首選術(shù)語(yǔ)與同義術(shù)語(yǔ)的映射關(guān)系,詳見(jiàn)圖1。

2.1 獲取癥狀術(shù)語(yǔ)

癥狀術(shù)語(yǔ)的獲取有直接提取核心詞、復(fù)合癥狀詞拆分、語(yǔ)義分析提煉3種形式。對(duì)于不影響用藥判斷含癥狀屬性的術(shù)語(yǔ)特點(diǎn),可通過(guò)核心癥狀抽取,直接獲取癥狀術(shù)語(yǔ)。相比從標(biāo)準(zhǔn)中獲取癥狀術(shù)語(yǔ),基于臨床病歷中癥狀術(shù)語(yǔ)更加豐富多樣,涉及癥狀較復(fù)雜,多涉及癥狀屬性的描述,如疼痛性質(zhì)、程度、持續(xù)時(shí)間、加重緩解因素等,門(mén)診病歷數(shù)據(jù)不僅涉及癲癇的主癥、兼癥、伴隨癥狀,還涉及其他診斷,這些術(shù)語(yǔ)在概念和層次上較標(biāo)準(zhǔn)文件中術(shù)語(yǔ)復(fù)雜。本研究首先抽取詞條中的核心癥狀,從3029條語(yǔ)料中抽取核心癥狀1674條。例如“發(fā)作時(shí)突

然昏倒”是以時(shí)間狀語(yǔ)修飾核心癥狀,根據(jù)核心癥狀抽取法從中得到術(shù)語(yǔ)“突然昏倒”。

對(duì)于不影響用藥判斷的復(fù)合術(shù)語(yǔ),可采取復(fù)合癥狀術(shù)語(yǔ)拆分的方式。對(duì)于抽取的1674條核心癥狀術(shù)語(yǔ),去重后得到675條癥狀術(shù)語(yǔ),篩選出其中復(fù)合癥狀術(shù)語(yǔ)65條,復(fù)合癥狀多由兩個(gè)癥狀組成,臨床上這些癥狀多不同時(shí)出現(xiàn),拆分后既可以單獨(dú)統(tǒng)計(jì)癥狀—藥物的相關(guān)性,也可通過(guò)術(shù)語(yǔ)關(guān)系建立兩個(gè)癥狀同時(shí)出現(xiàn)的強(qiáng)關(guān)聯(lián)性再進(jìn)行挖掘分析,因此本研究對(duì)復(fù)合癥狀予以拆分。例如“口干渴”拆分成“口干”和“口渴”。

對(duì)于描述性無(wú)核心癥狀的術(shù)語(yǔ)特點(diǎn),需采用語(yǔ)義歸納間接獲取癥狀。語(yǔ)義歸納是指根據(jù)自然語(yǔ)言描述的內(nèi)容,來(lái)歸納所要表達(dá)的臨床癥狀。它是對(duì)癥狀的描述性解釋,也必將影響臨證加減和遣方用藥。語(yǔ)料具有敘述性的特點(diǎn),如“兩年前曾來(lái)就診”類似此類語(yǔ)料不包含癥狀術(shù)語(yǔ);再如“大便3~4日一行”雖為敘述性語(yǔ)料且沒(méi)有核心癥狀,但卻能從語(yǔ)義歸納提煉核心癥狀為“便秘”。本研究通過(guò)語(yǔ)義歸納得到癥狀術(shù)語(yǔ)5條。

2.2 確定首選術(shù)語(yǔ)

首選術(shù)語(yǔ)指當(dāng)一個(gè)概念出現(xiàn)正名和別名時(shí),根據(jù)臨床用語(yǔ)習(xí)慣或使用頻率,選其一為首選術(shù)語(yǔ),同義術(shù)語(yǔ)為與首選術(shù)語(yǔ)含義相同的其他術(shù)語(yǔ)。對(duì)于通過(guò)語(yǔ)義義類法獲得的204類術(shù)語(yǔ),按照首選術(shù)語(yǔ)的選取原則,選其一用于數(shù)據(jù)的挖掘分析。首選術(shù)語(yǔ)的制定應(yīng)當(dāng)滿足以下原則:(1)出處明確;(2)符合中醫(yī)藥表達(dá)習(xí)慣,當(dāng)出現(xiàn)現(xiàn)代表達(dá)與古語(yǔ)表達(dá)時(shí)以現(xiàn)代表達(dá)方式為首選;(3)語(yǔ)義完整;(4)語(yǔ)義單一;(5)滿足本次研究需要;(6)當(dāng)出處不明時(shí)應(yīng)同時(shí)滿足條件(2)(3)(4)。

本研究以全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)《術(shù)語(yǔ)工作原則與方法》《中醫(yī)藥學(xué)名詞審定原則與方法》為依據(jù),在遵循科技術(shù)語(yǔ)單義性、簡(jiǎn)明性、約定性的命名原則下,以《WHO西太平洋地區(qū)傳統(tǒng)醫(yī)學(xué)名詞術(shù)語(yǔ)國(guó)際標(biāo)準(zhǔn)》[6]《中醫(yī)藥學(xué)名詞》[7]《中醫(yī)藥常用名詞術(shù)語(yǔ)詞典》[8]《中醫(yī)大辭典》[9]《中醫(yī)癥狀鑒別診斷學(xué)》[10]《中醫(yī)臨床常見(jiàn)癥狀術(shù)語(yǔ)規(guī)范》[1]等為藍(lán)本,并前期從整理規(guī)范文件來(lái)構(gòu)建癲癇中醫(yī)癥狀術(shù)語(yǔ)詞典的基礎(chǔ)上進(jìn)行癲癇臨床診療癥狀術(shù)語(yǔ)規(guī)范化工作,在諸多同義表達(dá)中選擇有明確出處的術(shù)語(yǔ)作為標(biāo)準(zhǔn)術(shù)語(yǔ)。還有一類術(shù)語(yǔ)查閱了參考藍(lán)本和各個(gè)知識(shí)平臺(tái),如北京大學(xué)中國(guó)語(yǔ)言學(xué)研究中心語(yǔ)料庫(kù)、術(shù)語(yǔ)在線、wordnet等沒(méi)有收錄的術(shù)語(yǔ),則按照文獻(xiàn)等級(jí)、使用頻次、用語(yǔ)習(xí)慣等,選其一為首選術(shù)語(yǔ)。本研究共獲取癥狀首選術(shù)語(yǔ)164條。

首選術(shù)語(yǔ)用于數(shù)據(jù)挖掘分析時(shí)應(yīng)該根據(jù)挖掘需求來(lái)選擇術(shù)語(yǔ)層級(jí),例如《中醫(yī)藥學(xué)名詞》載錄的失眠(insomnia)指經(jīng)常性的睡眠減少,或不易入睡,或睡眠短淺而易醒,甚或徹夜不眠的表現(xiàn)。本研究根據(jù)其概念將失眠列為上位術(shù)語(yǔ),入睡難和醒后難入睡歸為下位術(shù)語(yǔ),在不同研究的數(shù)據(jù)分析階段則需要根據(jù)研究目的和數(shù)據(jù)特點(diǎn),選擇上位術(shù)語(yǔ)或下位術(shù)語(yǔ)作為首選術(shù)語(yǔ),本研究根據(jù)余瀛鰲臨證用藥特點(diǎn),選取上位術(shù)語(yǔ)為首選術(shù)語(yǔ)進(jìn)行數(shù)據(jù)挖掘,首選術(shù)語(yǔ)中涉及術(shù)語(yǔ)上下位關(guān)系的為16條(表1)。

上下位術(shù)語(yǔ)關(guān)系還涉及術(shù)語(yǔ)的屬性。按照首選術(shù)語(yǔ)的制定原則,本研究根據(jù)研究需要在選擇首選術(shù)語(yǔ)時(shí),去除癥狀屬性保留核心癥狀作為首選術(shù)語(yǔ),含有屬性的其他術(shù)語(yǔ)在本研究中暫且作為同義術(shù)語(yǔ),首選術(shù)語(yǔ)用于數(shù)據(jù)挖掘分析,涉及術(shù)語(yǔ)屬性類型有5種(表2)。