李 君 李曉東,△ 張 盼 毛樹松 李紫明 周亞娜,3,4 宋幸鈴 宋淑潔 陶軍秀
1.湖北中醫(yī)藥大學 (湖北 武漢, 430065) 2.湖北省中醫(yī)院肝病科、中醫(yī)肝腎研究及應用湖北省重點實驗室 3.湖北中醫(yī)藥大學附屬醫(yī)院 4.湖北省中醫(yī)藥研究院
隨著信息技術的快速發(fā)展,人類社會已經進入到大數據時代,數據技術不斷成熟,單純的數據分析已經不能滿足智慧化和智能化的需求,因而一種將“數據驅動”轉型為“知識驅動”的研究新模式應運而生。該研究模式要求:從數據中提取信息,并將信息作為知識點,將其“概念”(顯性因子)和“內涵屬性”(隱性因子)進行整合,實現對該“知識”的完整表達。這個將“數據”轉化為“知識”的過程即是數據知識化。以數據驅動的研究模式是以數據作為研究資源,對數據庫進行管理,并應用數據分析挖掘方法開展研究。而知識驅動模式則是以知識作為研究資源,以知識庫進行管理,并應用知識工程技術方法,對通過數據知識化所形成的完整知識,以結構化形式構建知識庫、知識模型和繪制知識圖譜等研究。
中醫(yī)藥在我國傳承發(fā)展幾千年,經過歷朝歷代的文化沉淀,具有豐富的生命力與知識價值。在信息技術的支持下,累計了海量的中醫(yī)臨床數據,如何從這些數據中挖掘中醫(yī)臨床的潛在規(guī)律和內在價值,高效凝練中醫(yī)藥的精華,是中醫(yī)臨床現代化發(fā)展的重要途徑。為此,我們團隊率先提出開展中醫(yī)臨床肝病大數據知識工程研究,與時俱進地將現代高新前沿科學技術應用于中醫(yī)臨床肝病研究,創(chuàng)建真實世界中醫(yī)臨床肝病研究的新模式和新途徑。
本研究是以中醫(yī)學理論和大數據認識論為指導,遵循中醫(yī)臨床自身發(fā)展規(guī)律,應用知識工程技術,探討“以知識關聯方法和關系模型揭示中醫(yī)臨床肝病診療的事實與規(guī)律”和“開展臨床循證研究對其驗證與優(yōu)化”相結合的中醫(yī)臨床肝病研究新模式[1]。數據知識化和知識庫構建是它的基礎工程,將中醫(yī)臨床肝病數據的知識化和肝病診療知識庫構建技術與方法作為主要研究目標和內容,其標準操作流程,包括數據規(guī)范化、數字化、結構化、知識化和知識建庫管理等過程。首先通過對數據的規(guī)范化、數字化和結構化構建中醫(yī)臨床肝病病例數據庫,進而以中醫(yī)臨床肝病知識屬性分類與代碼與基本知識編碼、臨床指南、臨床路徑、診斷療效等標準為標準依據,來完整表達中醫(yī)臨床肝病知識的內涵,實現中醫(yī)臨床肝病病例數據的屬性化知識重構[2],形成中醫(yī)臨床肝病病例知識庫,最終完成本研究目標任務要求。
當今,中醫(yī)藥事業(yè)受到國家與社會的高度重視,為中醫(yī)藥的創(chuàng)新發(fā)展提供了新機遇,2019年中共中央、國務院印發(fā)了《關于促進中醫(yī)藥傳承創(chuàng)新發(fā)展的意見》,明確提出要加快推進中醫(yī)藥科研和創(chuàng)新,中醫(yī)藥的傳承創(chuàng)新發(fā)展列入國家發(fā)展戰(zhàn)略,“傳承發(fā)展、守正創(chuàng)新”成為中醫(yī)藥發(fā)展的時代主題[3]。2021年習總書記在河南考察仲景祠時提到“我們要發(fā)展中醫(yī)藥,注重用現代科學解讀中醫(yī)藥學原理”,啟示我們要善于將中醫(yī)藥的發(fā)展與現代科學技術相結合,應用現代的高新技術與開創(chuàng)思維,為中醫(yī)藥的創(chuàng)新發(fā)展開拓新途徑、新方法。2023年國務院辦公廳印發(fā)了《中醫(yī)藥振興發(fā)展重大工程實施方案》,重點提出要加大“十四五”期間對中醫(yī)藥發(fā)展的支持和促進力度,著力推動中醫(yī)藥的振興發(fā)展。近年來國家政策對中醫(yī)藥的支持力度不斷加強,中醫(yī)藥順應時代發(fā)展變革的需要也逐漸顯現,探索中醫(yī)藥發(fā)展的新模式、新思路成為相關從業(yè)者的迫切需求。
隨著科學技術與大數據的發(fā)展,醫(yī)療領域涵蓋了各種組學數據、生物醫(yī)學數據、電子健康記錄數據等大量異構數據,醫(yī)學研究者利用計算機軟件對數據進行挖掘分析,揭示潛在的模式和新知識[6],基于這些研究主要采取了“數據驅動”模式,所得到的“知識”還是停留在概念(顯性因子)層面,因而此類“知識”的內涵深度和完整性等問題突出。
2015年吳信東教授團隊提出“大數據知識工程的概念,2022年陸汝鈐院士在文章中提到大數據知識工程的提出實際上是從大數據到大知識的一個轉折點”[4],為將大數據知識工程的技術方法運用于真實世界中醫(yī)臨床研究領域,解決“數據驅動”向“知識驅動”的模式轉換提供了理論和技術方法。在這種背景下,我們組織實施了中醫(yī)臨床肝病大數據知識工程研究,提出構建標準、方法和技術等三大體系[1],以實現從中醫(yī)臨床肝病數據中抽提信息,進行知識化處理,形成完整表達的中醫(yī)臨床肝病病例知識庫,為真實世界中醫(yī)臨床肝病研究,開展“證、治、效”知識建模和圖譜繪制提供高質量病例知識資源,在此過程中臨床肝病數據知識化是最為重要的基礎環(huán)節(jié)。其主要理論和方法學依據是“大數據知識工程學”,其主要目的是為“知識驅動”模式的真實世界中醫(yī)臨床肝病研究提供知識資源保障,以獲得高質量模型化的中醫(yī)臨床肝病診療知識,用以提高中醫(yī)臨床肝病醫(yī)療服務水平。
2.1 科學性 科學性是開展數據知識化的前提,要以中醫(yī)基礎理論為依據,遵循中醫(yī)臨床自身的發(fā)展規(guī)律,要以大數據世界觀為指導,采用知識工程技術方法開展中醫(yī)臨床數據知識化,保證其臨床病例知識的科學性。
2.2 規(guī)范性 規(guī)范性是開展數據知識化的質量保障,要嚴格遵照執(zhí)行國家相關標準與規(guī)范。需要制修訂標準時,按照國家頒布的基本原則與方法要求,采用統(tǒng)一的程序和工作規(guī)范組織實施。
2.3 實用性 實用性是數據知識化的重要原則,要將知識完整性表達和知識庫構建的需求作為數據知識化的目標,使所獲得的病例知識能用于知識的深度加工和滿足臨床研究的需要。
2.4 可擴展性 數據知識化要符合中醫(yī)臨床實際,要隨著臨床情況的變化和需要,對數據進行實時擴展和知識庫的動態(tài)維護。
3.1 標準操作流程圖 中醫(yī)臨床肝病數據知識化標準操作流程(SOP),主要包括數據治理和數據知識化兩個環(huán)節(jié),其具體操作流程,如下圖1所示。
圖1 中醫(yī)臨床肝病數據知識化標準操作流程
3.2 數據治理 中醫(yī)臨床肝病數據治理,主要包括對數據的采集、規(guī)范化、數字化和結構化等,以形成可供分析處理的病例數據庫為目標,為數據知識化提供重要的數據資源。具體說明如下:
3.2.1 采集中醫(yī)臨床肝病病例數據 從繁雜的中醫(yī)臨床肝病數據中采集病例數據,其中包括紙質病案、電子病歷、臨床記錄、隨訪記錄及臨床研究資料等多種類型的中醫(yī)臨床數據。
3.2.2 構建中醫(yī)臨床肝病病例數據庫 對采集到的中醫(yī)臨床肝病原始病例數據進行整理、清洗,保證數據的真實性、可用性,由于中醫(yī)理論自身的抽象性以及醫(yī)生承襲的中醫(yī)臨床術語稱謂不一致,導致中醫(yī)臨床肝病使用的術語形式多樣且靈活多變,術語名稱、解釋、辨證意義交錯,常見術語包含概念關系混淆不清,異名同義、同名異義等諸多問題,中醫(yī)臨床肝病病例術語需要有符合肝病科特色的規(guī)范化整理策略,根據國家名詞委頒布的《中醫(yī)藥學名詞》、《中醫(yī)臨床基本癥狀信息分類與代碼》(TCIATCM 020-2019)、中醫(yī)肝病臨床指南和診斷標準等諸多相關領域的規(guī)范性文件,規(guī)范病證、癥狀、舌象、脈象、體質、體征等診斷數據和中藥處方、針灸推拿等干預數據,將不規(guī)范的名詞術語進行規(guī)范化處理,使其符合中醫(yī)臨床肝病術語的統(tǒng)一要求。在數據規(guī)范化的基礎上對數據進行數字化處理,將各種形式的規(guī)范化數據進行分類整理,轉化為計算機電子文檔。再依據基本信息表、診斷信息表、干預信息表及療效信息表等四個信息分類采集表[1]設計中醫(yī)臨床病例數據庫,并將臨床肝病信息錄入建庫,形成中醫(yī)臨床肝病病例數據庫,實現其電子文檔的結構化。
3.3 數據知識化 中醫(yī)臨床肝病知識是由多個概念集合在一起,并且以它們之間的關系形成一個有機聯系的知識體系[7]。組織實施中醫(yī)臨床肝病大數據知識工程,首先需要對中醫(yī)臨床肝病病例數據中的概念(顯性知識因子)包括:病證、癥狀、舌象、脈象、體質、體征、中藥等進行知識化,將它們的隱性知識顯性化,實現其知識的完整表達。該過程的重點是制定《中醫(yī)臨床肝病診療知識屬性分類與代碼》標準和構建中醫(yī)臨床肝病病例知識庫,具體說明如下:
3.3.1 制定《中醫(yī)臨床肝病診療知識屬性分類與代碼》 根據中醫(yī)臨床肝病病例數據知識化的需要,制定《中醫(yī)臨床肝病診療知識屬性分類與代碼》,通過知識屬性分類代碼的關聯,將肝病病例數據的隱性知識顯性化,該標準制定步驟:
第一步,獲取中醫(yī)臨床肝病診療術語,依據來源主要參照現行標準、權威專著與臨床術語,現行標準包括《中醫(yī)病證分類與代碼》(GB/T 15657-2021)、《中醫(yī)舌象診斷信息分類與代碼》(T/CIATCM 010—2019)、《中醫(yī)脈象診斷信息分類與代碼》(TCIATCM 011-2019)、《中醫(yī)臨床基本癥狀信息分類與代碼》(TCIATCM 020-2019)等;權威專著包括《中醫(yī)診斷學》、《中藥學》、國家名詞委頒布的《中醫(yī)藥學名詞》系列、《中醫(yī)癥狀鑒別診斷學》、《中醫(yī)癥狀學研究》、《中醫(yī)臨床診療術語》等;臨床數據以數據治理階段建立的中醫(yī)臨床肝病病例數據庫為主。
第二步,征詢專家意見,確保術語來源的可靠性、權威性,然后對術語進行篩重,包括正名篩重、正名與別名篩重、語義篩重,明確含義完全相同的術語,參照權威來源確定術語正名,明確術語別名,解決術語異名同義、同名異義等問題。
第三步,梳理術語的概念關系,明確術語的上下位概念,通過對中醫(yī)臨床肝病診療術語定名、定義、定關系,歸納其屬性,以概念定義為主要抓手進行分類,將自上而下分類與自下而上聚類的方法相結合,上位概念自上而下進行劃分,最小的概念逐層聚類在上位概念下,直至兩種路徑的分類匯合,構建中醫(yī)臨床肝病診療知識的屬性分類與代碼。
3.3.2 構建中醫(yī)臨床肝病病例知識庫 中醫(yī)臨床肝病病例數據知識化的核心是通過中醫(yī)臨床肝病診療知識屬性分類與代碼實現中醫(yī)臨床肝病病例數據庫的知識屬性化重構,將中醫(yī)臨床肝病病例數據庫進行分類編碼,賦予肝病術語知識屬性,將中醫(yī)臨床肝病病例數據知識化,實現中醫(yī)臨床肝病病例隱性知識顯性化,完成知識的完整表達,形成中醫(yī)臨床肝病病例知識庫,為開展中醫(yī)臨床肝病大數據知識工程研究,構建中醫(yī)臨床肝病診療知識模型和繪制知識圖譜提供知識資源。
在中醫(yī)臨床診療活動中,癥狀為中醫(yī)臨床診斷的核心要素,蘊含著中醫(yī)辨證論治的科學內涵,現有的癥狀術語標準、癥狀術語集等不能實現非結構化的中醫(yī)臨床病例中癥狀知識的完整表達,中醫(yī)臨床癥狀包含了臨床肝病在內的諸多癥狀,現以中醫(yī)臨床病例中癥狀數據知識化為示例。
4.1 中醫(yī)臨床癥狀數據治理 在科研隱私保護相關規(guī)定下收集中醫(yī)臨床病例癥狀術語,對收集到的原始數據進行規(guī)范,參照權威專著(國家名詞委頒布的《中醫(yī)藥學名詞》、專著《中醫(yī)癥狀鑒別診斷學》、《中醫(yī)癥狀學研究》)、現行標準(《中醫(yī)臨床基本癥狀信息分類與代碼》(TCIATCM 020-2019))進行數據規(guī)范化處理,再通過數字化、結構化形成中醫(yī)臨床病例癥狀術語庫。
4.2 中醫(yī)臨床癥狀數據知識化
4.2.1 制定《中醫(yī)臨床基本癥狀知識屬性分類與代碼》征詢專家意見,確保術語來源的可靠性、權威性,將《中醫(yī)藥學名詞》、《中醫(yī)癥狀鑒別診斷學》、《中醫(yī)癥狀學研究》、《中醫(yī)臨床基本癥狀信息分類與代碼》(TCIATCM 020-2019)中的癥狀術語按照來源與順序進行整理,通過正名篩重、正名與別名篩重、語義篩重三步,獲取不重復的基本癥狀共計10 685個(詳見表1),例如:正名(癥狀術語的正式名稱),如《中醫(yī)藥學名詞》中“假神:俗稱‘回光返照’。重危病人突然出現精神、食欲等暫時‘好轉’的虛假表現?!?“假神”為正名,“回光返照”為別名。梳理術語的上下位概念關系,例如“疼痛”與“隱痛”,“疼痛”為上位概念,“隱痛”為“疼痛”的下位概念。通過以上的數據整理方式,形成中醫(yī)臨床病例癥狀術語庫。
表1 基本癥狀術語統(tǒng)計表
中醫(yī)臨床癥狀知識是以骨干癥狀作為顯性因子,以其內涵屬性作為隱性因子來完整表達,所以本研究依據中醫(yī)臨床實際需求,以骨干癥狀及其30個基本內涵屬性為癥狀知識屬性分類框架,完成《中醫(yī)臨床基本癥狀知識屬性分類與代碼》標準的制定。其知識屬性分類框架,如下圖2所示。
圖2 中醫(yī)臨床癥狀知識屬性分類框架圖
4.2.2 中醫(yī)臨床癥狀知識編碼 依據《中醫(yī)臨床基本癥狀知識屬性分類與代碼》構建中醫(yī)臨床癥狀知識庫,賦予癥狀術語屬性分類代碼,實現癥狀知識的完整表達,形成中醫(yī)臨床癥狀知識編碼庫,為中醫(yī)臨床診斷模型的構建提供規(guī)范的癥狀語料及其編碼。
5.1 變革中醫(yī)臨床肝病研究模式 基于中醫(yī)臨床肝病病例數據的規(guī)范化、數字化、結構化,得到病例數據庫,通過中醫(yī)臨床肝病數據知識化構建病例知識庫,將肝病數據加工成知識,重構中醫(yī)臨床肝病病例知識體系,基于中醫(yī)臨床肝病病例知識庫的研究,可以深化中醫(yī)臨床肝病知識的表達層次,挖掘中醫(yī)臨床肝病的知識內涵,基于知識層面的研究構建中醫(yī)肝病的精細化診斷模型、干預模型、評價模型,實現從數據驅動到知識驅動的轉變。
5.2 促進中醫(yī)臨床肝病診療智慧化 2019年國家衛(wèi)健委提出要推進醫(yī)院智慧化建設,其中電子病例的研究為重要組成部分,可以揭示真實世界中醫(yī)臨床診療數據中的“事實與規(guī)律”。中醫(yī)臨床肝病大數據知識工程平臺構建了從數據到知識的中醫(yī)臨床肝病知識庫,為中醫(yī)臨床肝病循證研究、智慧化運用等提供基礎知識資源,中醫(yī)臨床肝病的智慧化平臺建設要基于中醫(yī)臨床肝病知識庫,在智慧化平臺上開展中醫(yī)臨床肝病診療AI系統(tǒng)等成果開發(fā),助力中醫(yī)臨床肝病診療的高質量發(fā)展。
5.3 深化中醫(yī)臨床肝病學科內涵 中醫(yī)臨床肝病大數據知識工程的建設可以深化中醫(yī)臨床肝病的學科內涵,本學科已有基于數據時代的真實世界中醫(yī)肝病臨床研究體系,其內涵建設包括肝病研究型門診、臨床數據采集-處理-分析平臺、中醫(yī)臨床肝病數據庫等。在此基礎上,通過大數據知識工程的技術方法將現有的研究內容與體系深化到知識層面,例如將中醫(yī)臨床肝病數據庫中的病例數據進行知識化研究,精細化到數據的知識屬性,為真實世界中醫(yī)臨床肝病研究開創(chuàng)新方法和新途徑。