董興魯,曹克剛,高 穎
(北京中醫(yī)藥大學(xué)第一臨床醫(yī)學(xué)院,北京 100700)
真實世界下中風(fēng)病術(shù)語編碼研究方案初探*
董興魯,曹克剛,高 穎△
(北京中醫(yī)藥大學(xué)第一臨床醫(yī)學(xué)院,北京 100700)
通過對真實世界下中風(fēng)病術(shù)語進行研究,從標(biāo)準(zhǔn)化術(shù)語收集與分類整理、編碼規(guī)則制定、真實世界下術(shù)語的引入和完善機制的建立等角度,制定以真實世界下中風(fēng)病術(shù)語編碼的方案,以期為大數(shù)據(jù)時代的真實世界中風(fēng)病臨床科研信息一體化工作提供一座溝通真實世界下豐富術(shù)語與計算機儲存的標(biāo)準(zhǔn)化術(shù)語的橋梁,從而為有效地分析、利用數(shù)據(jù)提供幫助,促進真實世界下中醫(yī)臨床科研的發(fā)展。
真實世界;中風(fēng)病;術(shù)語編碼
數(shù)據(jù)作為中醫(yī)臨床科研的重要導(dǎo)向,是指引真實世界下中醫(yī)臨床科研方向的關(guān)鍵[1],而隨著信息技術(shù)的不斷發(fā)展和大數(shù)據(jù)時代的到來,臨床信息數(shù)據(jù)的獲取日益便捷[2],醫(yī)院信息系統(tǒng)(HIS)、電子病歷系統(tǒng)(EMR)、實驗室信息管理系統(tǒng)(LIS)、影像歸檔和通信系統(tǒng)(PACS)在臨床中廣泛應(yīng)用,為臨床科研信息共享和全面獲取真實世界下患者的信息提供了充分的技術(shù)支持。但大數(shù)據(jù)時代下真實世界中的豐富海量信息在為臨床決策提供有效數(shù)據(jù)支持的同時,也帶來了一個新的問題,即如何將真實世界中海量的非結(jié)構(gòu)化信息高效、規(guī)范、全面地利用,為中醫(yī)藥臨床科研服務(wù)。現(xiàn)在醫(yī)院主要通過結(jié)構(gòu)化的術(shù)語錄入以實現(xiàn)臨床信息的機構(gòu)化儲存[3]和為數(shù)據(jù)挖掘分析服務(wù),這就要求臨床醫(yī)生必須人工地將真實世界下的信息轉(zhuǎn)化為結(jié)構(gòu)化、標(biāo)準(zhǔn)化的術(shù)語,并進行錄入、儲存,這不但降低了臨床大夫工作的效率,還會出現(xiàn)數(shù)據(jù)清洗量大、挖掘困難等問題,同時在實際操作中也存在一定的質(zhì)控問題[4]。要解決這些問題的關(guān)鍵在于將真實世界中豐富多彩的中醫(yī)語言轉(zhuǎn)化為數(shù)據(jù)統(tǒng)計、挖掘分析所需的,機器能夠直接識別的標(biāo)準(zhǔn)化中醫(yī)術(shù)語,優(yōu)化錄入、存儲過程。
這一工作包括架構(gòu)術(shù)語分類,明確術(shù)語定義、內(nèi)涵和外延,創(chuàng)制適用于機器語言識讀術(shù)語編碼體系,編纂字典等多方面,其中術(shù)語編碼體系的創(chuàng)制對整個臨床科研系統(tǒng)尤為重要。為此,我們在“2012中醫(yī)藥行業(yè)科研專項《全國中醫(yī)醫(yī)療與臨床科研信息共享的推廣應(yīng)用研究》課題資助下,開始對真實世界下中風(fēng)病術(shù)語進行歸類、定位、分層、分級、編碼的工作,以期搭建一條溝通真實世界下豐富術(shù)語與計算機儲存的標(biāo)準(zhǔn)化術(shù)語的橋梁,從而為更有效地實現(xiàn)臨床科研信息共享和中醫(yī)大數(shù)據(jù)分析提供資源,從而促進真實世界下中醫(yī)臨床科研的發(fā)展,故就以下研究方案開展工作。
真實世界下的中風(fēng)病術(shù)語編碼體系是一個開放的編碼體系,因此其研制的關(guān)鍵在于體系框架的搭建,這個體系既要與現(xiàn)有的計算機體系對接良好,并考慮到未來信息集成平臺搭建的需要,因此要考慮到機器語言與自然語言的銜接情況,還要有豐富的內(nèi)涵和外延,從而在實現(xiàn)對真實世界下中風(fēng)病術(shù)語的兼容對應(yīng)的同時,實現(xiàn)自我完善的功能。因此,簡潔、穩(wěn)定且定位明確的編碼體系搭建是其工作的關(guān)鍵。我們選擇使用標(biāo)準(zhǔn)化的中風(fēng)病術(shù)語時,借助行業(yè)標(biāo)準(zhǔn)在《衛(wèi)生信息數(shù)據(jù)集分類與編碼規(guī)則》的編碼法則,對標(biāo)準(zhǔn)化術(shù)語進行編碼,從而搭建中風(fēng)病術(shù)語編碼體系框架。
2.1 標(biāo)準(zhǔn)化術(shù)語的收集與分類整理
標(biāo)準(zhǔn)化術(shù)語的收集主要有三個來源:一是基于既往完成的973國家重點基礎(chǔ)研究發(fā)展計劃“缺血性中風(fēng)病證結(jié)合的診斷標(biāo)準(zhǔn)與療效評價體系研究”的成果“中醫(yī)四診信息調(diào)查表”和“中風(fēng)病臨床信息采集規(guī)范”,將其中涉及的癥狀、體征、舌象、脈象、證候、治則、治法等術(shù)語內(nèi)容進行收集;二是基于古今中醫(yī)書籍,依靠專家指導(dǎo)提取、收集其中與中風(fēng)病相關(guān)的術(shù)語;三是基于西醫(yī)國際標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)中所附的術(shù)語集與中風(fēng)病相關(guān)內(nèi)容,收集中風(fēng)病標(biāo)準(zhǔn)化術(shù)語。
在完成上述工作后,通過專家論證會的形式,對收集到的標(biāo)準(zhǔn)化術(shù)語進行篩選整理,形成《中風(fēng)病標(biāo)準(zhǔn)化術(shù)語集》初稿,之后借助課題組專家?guī)熨Y源網(wǎng)絡(luò),使用專家問卷形式,從明確術(shù)語內(nèi)涵及外延、統(tǒng)一多詞一義和一詞多義的主從關(guān)系、屬于分級、刪減已淘汰或不適宜術(shù)語、增添遺漏術(shù)語及明確術(shù)語所屬分類和分類增刪的角度,廣泛征求全國各地中醫(yī)院、中醫(yī)學(xué)院的中風(fēng)病和術(shù)語學(xué)專家的意見,反復(fù)多輪,在取得共識后進入下一步工作。
2.2 編碼規(guī)則的制定
術(shù)語的編碼是計算機識別和定位術(shù)語的惟一憑借,術(shù)語編碼的優(yōu)劣將是整個系統(tǒng)能否在臨床科研信息共享系統(tǒng)中順利應(yīng)用的關(guān)鍵,為此我們選擇參照由衛(wèi)生部衛(wèi)生標(biāo)準(zhǔn)委員會衛(wèi)生信息標(biāo)準(zhǔn)委員會2009年頒布實施的《衛(wèi)生信息數(shù)據(jù)集分類與編碼規(guī)則》(后簡稱《規(guī)則》)[5],為中風(fēng)病術(shù)語編碼體系搭建編碼體系。
2.2.1 總體編碼位置結(jié)構(gòu)設(shè)定 基于《規(guī)則》中對各級類目的定義和分類碼位結(jié)構(gòu)的規(guī)定,將第1位定為不同的分類,依據(jù)上一步工作中專家統(tǒng)一的術(shù)語分類情況,按順序自A至Z依順序排列;第2位根據(jù)分類中子分類在01~99之間進行順序取值;第3位則是選取子分類中的上位術(shù)語自01~99中順序取值;第4位若是上位術(shù)語本身則為00,若為其下位術(shù)語則在01~99間順序取值;最后一位為同義詞,若為主詞則取00,若為同義詞在01~99間取值。
表1顯示,其中第1和第2、3位為術(shù)語一二級分類碼,這兩類分級條目來自之前進行的術(shù)語分類工作,而第4、5位的術(shù)語編碼是術(shù)語定位碼,主要用來明確同一術(shù)語內(nèi)涵范疇下的術(shù)語群中每個標(biāo)準(zhǔn)化術(shù)語內(nèi)涵在計算機系統(tǒng)中的讀取、編譯的實際位置。也就是說,這一步的主要目的是將真實世界下的內(nèi)涵確定而自然語言多樣術(shù)語群的信息編譯、轉(zhuǎn)化成機器語言,其分組方式和關(guān)聯(lián)產(chǎn)生是前瞻性的,故此步工作須在專家反復(fù)論證后,經(jīng)過實際臨床調(diào)研得出,保證準(zhǔn)確性和一致性的統(tǒng)一,在必要的時候可以考慮因時因地因人制宜的對真實世界下術(shù)語歸屬進行調(diào)整,但須保證的是術(shù)語內(nèi)涵和術(shù)語定位碼的穩(wěn)定一致;最后6、7位的分層碼和8、9位的同義術(shù)語碼則是真實世界下術(shù)語多樣化的體現(xiàn),既滿足了最終術(shù)語定位的準(zhǔn)確惟一,又實現(xiàn)術(shù)語間外延的關(guān)聯(lián)。
通過上述碼位設(shè)定,將術(shù)語本身的內(nèi)涵定位與外延關(guān)聯(lián)相結(jié)合,把數(shù)據(jù)挖掘分析所需的標(biāo)準(zhǔn)化術(shù)語與真實世界下海量術(shù)語的定位,從散亂隨機轉(zhuǎn)化為有序、關(guān)聯(lián),從復(fù)雜多向性轉(zhuǎn)化為線性,從而能符合機器語言,特別是常用的結(jié)構(gòu)化查詢語句(SQL)的要求[6],實現(xiàn)真實世界信息向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化。
表1 術(shù)語集主分類碼位結(jié)構(gòu)
圖1 術(shù)語編碼方案舉例
2.2.2 編碼方案及舉例 基于碼位設(shè)定的規(guī)則,我們擬就一個示例來說明具體的情況。圖1顯示,汗出情況是癥狀范疇中所采集問診信息中的一部分,而汗出作為一個內(nèi)涵豐富,可用于數(shù)據(jù)挖掘分析的標(biāo)準(zhǔn)化術(shù)語范疇,根據(jù)之前制定的分類方案,可將其分入癥狀下的問診中,給予1-5號碼位的對應(yīng)編碼如A0302。由于汗出是總述汗出情況這一內(nèi)涵的術(shù)語,故在分層碼和同義詞碼的位置上均應(yīng)給予00,最后汗出的編碼便是A03020000;對于自汗這一從歸屬于汗出范疇的術(shù)語,其分類碼和定位碼應(yīng)與汗出一致,而作為從屬于汗出的下位詞,在分層碼的碼位要予以提示如賦予01,又因為自汗本身是一個標(biāo)準(zhǔn)化的術(shù)語,也是“不因勞累活動,不因天熱及穿衣過暖和服用發(fā)散藥物等因素而自然出汗的表現(xiàn)”這一含義的標(biāo)準(zhǔn)化體現(xiàn)[7],故在同義詞碼處賦予00,最終編碼為A03020100;再論自汗出,這一從屬于自汗范疇的術(shù)語,與之同義的真實世界下的臨床術(shù)語,其分類碼、定位碼和分層碼自然都應(yīng)與自汗一致,而在同義詞碼上特異性定位,如賦予01的同義詞碼,最終編碼記為A03020101。
中風(fēng)病術(shù)語編碼體系框架僅是真實世界下中風(fēng)病術(shù)語研究所需的工具,其真正所需要完成的是借助大數(shù)據(jù)時代對術(shù)語提取、采集的便利,按照前瞻性、既定的規(guī)則將真實世界下的中風(fēng)病相關(guān)術(shù)語依據(jù)體系的要求一一納入、編碼及儲存。
3.1 納入標(biāo)準(zhǔn)與方式
雖然我們研究的對象是整個真實世界下的中風(fēng)病術(shù)語,但是基于臨床科研信息共享的思想,信息、數(shù)據(jù)轉(zhuǎn)化所需和優(yōu)化工作量、提升效率的角度,我們認(rèn)為應(yīng)制定一定的術(shù)語納入標(biāo)準(zhǔn),在臨床中所需的術(shù)語不被遺留的情況下,保證目前計算機和網(wǎng)絡(luò)帶寬環(huán)境中維持系統(tǒng)運行效率和降低術(shù)語關(guān)聯(lián)提取分析的難度,具體的納入范圍如下。
既往完成的《中風(fēng)病中醫(yī)術(shù)語集》中的全部術(shù)語;根據(jù)中風(fēng)病相關(guān)書籍文獻的檢索整理情況,納入其中的全部術(shù)語;根據(jù)各中風(fēng)病臨床研究基地的臨床科研信息共享系統(tǒng)中非結(jié)構(gòu)化錄入的內(nèi)容,根據(jù)專家意見,選擇出現(xiàn)頻率達到要求的術(shù)語。
圖2顯示,借助專家問卷的形式,收集臨床大夫所需的術(shù)語內(nèi)容,通過一致性檢驗,按照一定要求納入適合的術(shù)語。具體的納入方式及工作技術(shù)路線如下。
圖2 術(shù)語納入方式及工作技術(shù)路線
3.2 完善機制
真實世界下的術(shù)語研究是不是一成不變的,是需要隨時補充完善的,要做到這一點,關(guān)鍵在于建立一個完善的術(shù)語補充納入和剔除機制,從而保證整個術(shù)語體系能夠與時俱進地滿足臨床、科研的需求,并能防止大量冗余術(shù)語常年積存,影響術(shù)語體系效率。這個機制主要包括補充和剔除兩方面。
3.2.1 補充 每月對臨床科研信息共享系統(tǒng)中非結(jié)構(gòu)化術(shù)語進行分析整理和提取;每個季度對新增文獻進行匯總整理,將其中符合納入標(biāo)準(zhǔn)的術(shù)語進行編碼、納入。
3.2.2 剔除 借助臨床科研信息共享系統(tǒng),每年對系統(tǒng)前后臺術(shù)語的利用率進行統(tǒng)計分析,篩選出使用率低的條目(此項工作要求在共享系統(tǒng)全面應(yīng)用后進行,以避免誤刪、誤剔)。
除此之外,每年進行專家問卷與會議相結(jié)合的方式,對當(dāng)年增刪的術(shù)語進行審核,必要時對術(shù)語字典修訂再版。
隨著大數(shù)據(jù)時代的到來,新的技術(shù)革命再次開啟,信息的收集、轉(zhuǎn)化數(shù)據(jù)及數(shù)據(jù)儲存、挖掘、分析工作的方式和觀念需要轉(zhuǎn)變;大樣本量臨床數(shù)據(jù),特別是真實世界下中醫(yī)臨床數(shù)據(jù)的獲取會在臨床科研信息共享系統(tǒng)和信息集成平臺的幫助下變得日益簡單,從而更好地為臨床決策提供數(shù)據(jù)支持,而實現(xiàn)真實世界中自然語言與計算機定位識別所需的機器語言的統(tǒng)一和轉(zhuǎn)化為以上工作提供了重要幫助。
本研究以中風(fēng)病為出發(fā)點,通過探討真實世界下中風(fēng)病中醫(yī)臨床研究所需的術(shù)語收集整理規(guī)則,中風(fēng)病術(shù)語編碼體系形成、完善及字典編纂的工作方案,向大家展示一整套研究的流程,以期獲得同道的認(rèn)可,同時也希望能獲得更多的修改意見,最終能在一個相對成熟方案的指導(dǎo)下,完成這份真實世界下中風(fēng)病術(shù)語收集整理、編碼成典工作,從而為大數(shù)據(jù)時代醫(yī)院信息集成平臺和行業(yè)內(nèi)臨床科研信息共享平臺的建設(shè),中醫(yī)藥領(lǐng)域的數(shù)據(jù)庫建設(shè)和數(shù)據(jù)挖掘等研究工作的開展提供有切實作用的工具,從數(shù)據(jù)這一中醫(yī)臨床科研的導(dǎo)向入手,為中醫(yī)臨床科研的發(fā)展做出自己的貢獻。
[1]劉保延.真實世界的中醫(yī)臨床科研范式[J].中醫(yī)雜志,2013,6:451-455.
[2]蔡佳慧,張濤,宗文紅.醫(yī)療大數(shù)據(jù)面臨的挑戰(zhàn)及思考[J].中國衛(wèi)生信息管理雜志,2013,4:292-295.
[3]宋紅梅,劉保延,何麗云,等.基于中醫(yī)藥臨床科研一體化的數(shù)據(jù)挖掘需求與數(shù)據(jù)前處理方法[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2011,12:1323-1324.
[4]宋紅梅,劉保延,何麗云,等.電子病歷中醫(yī)科研數(shù)據(jù)采集過程中質(zhì)量問題及對策[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2011,9: 955-956.
[5]中華人民共和國衛(wèi)生部.25595——衛(wèi)生行業(yè)標(biāo)準(zhǔn).衛(wèi)生信息數(shù)據(jù)集分類與編碼規(guī)則[S].2009.
[6]袁俊娥.機器語言的主位結(jié)構(gòu)分析[J].科教導(dǎo)刊(中旬刊),2012,5:124-125.
[7]王永炎,梁菊生,朱建平.中醫(yī)藥學(xué)名詞[M].北京:2005.
R255.2
A
1006-3250(2015)04-0424-03
2015-01-15
中醫(yī)藥行業(yè)科研專項(201207001);北京中醫(yī)藥大學(xué)創(chuàng)新團隊項目(2011-CXTD-22)
△
高 穎,教授,主任醫(yī)師,博士研究生導(dǎo)師,從事神經(jīng)內(nèi)科的臨床與研究,Email:gaoying973@126.com。