葛斐林, 郭玉明, 牛 明, 趙 旭, 柏兆方, 王伽伯, 肖小河
1 中國人民解放軍總醫(yī)院第五醫(yī)學(xué)中心 肝病醫(yī)學(xué)部研究所/全軍中醫(yī)藥研究所, 北京 100039;2 北京中醫(yī)藥大學(xué) 中藥學(xué)院, 北京 100029
近年來,國務(wù)院先后發(fā)布了《“健康中國2030”規(guī)劃綱要》及《“十三五”國家藥品安全規(guī)劃》等醫(yī)藥衛(wèi)生相關(guān)文件,藥物安全性已經(jīng)越來越成為國家層面關(guān)注的重點[1-2]。隨著藥物不良反應(yīng)(adverse drug reactions,ADR)的報道逐年增多以及公眾健康意識的提高,藥物的安全性問題也越來越受到公眾廣泛關(guān)注[3-5]。
由于ADR事件發(fā)生率較低, 有限的病例數(shù)據(jù)難以為藥物安全性評價提供更多的證據(jù)。醫(yī)療大數(shù)據(jù)時代的到來,為藥物警戒與風(fēng)險防控帶來了極大的發(fā)展機(jī)遇[6-7]。然而,目前藥物警戒領(lǐng)域?qū)τ贏DR大數(shù)據(jù)的處理還處于探索階段。以ADR自發(fā)上報數(shù)據(jù)為例,數(shù)以百萬計的數(shù)據(jù)信息一方面提供了極為豐富的風(fēng)險信號;另一方面,由于數(shù)據(jù)本身規(guī)范性、完整性較差,給數(shù)據(jù)識別與評價造成了障礙??梢?,ADR大數(shù)據(jù)的信息資源尤為重要,而數(shù)據(jù)信息的高效識別和精準(zhǔn)分析則是安全性評價的關(guān)鍵。肝損傷相關(guān)ADR為臨床常見的藥物不良反應(yīng)之一, 嚴(yán)重者可致急性肝衰竭甚至死亡,其已成為藥物研發(fā)失敗、增加警示和撤市的重要原因, 受到醫(yī)藥界、制藥業(yè)、管理部門及公眾的高度重視[3,7]。因此,本研究以肝損傷相關(guān)ADR為例,嘗試從藥品不良反應(yīng)監(jiān)測系統(tǒng)(ADR-SRS)數(shù)據(jù)庫入手,在人工臨床再評價基礎(chǔ)上建立肝損傷相關(guān)ADR風(fēng)險識別規(guī)則,實現(xiàn)基于肝損傷相關(guān)ADR文本知識庫的大數(shù)據(jù)智能識別評價,以期為ADR大數(shù)據(jù)的智能識別提供方法參考,促進(jìn)藥品安全性評價與防控的積極推進(jìn)。
1.1 數(shù)據(jù)來源 本研究采用的文本數(shù)據(jù)來自2012年1月1日—2016年12月31日,ADR-SRS中標(biāo)記為“藥物性肝損傷”“藥源性肝損傷”“肝功能異?!薄案渭?xì)胞損害”“肝損害”“肝炎”“肝酶升高”“肝衰竭”“肝毒性作用”“肝功能損害”“黃疸”“肝硬化”“肝區(qū)不適”“藥物性肝病”等肝損傷相關(guān)的ADR數(shù)據(jù)。
1.2 文本數(shù)據(jù)的清洗與歸一化處理 通過剔除重復(fù)上報數(shù)據(jù)及其他無關(guān)數(shù)據(jù)后,共得到肝臟相關(guān)ADR數(shù)據(jù)55 388例。抽取ADR名稱、臨床癥狀、臨床指標(biāo)、藥物信息等關(guān)鍵字段,將關(guān)鍵字段的“非標(biāo)準(zhǔn)表述”映射到“標(biāo)準(zhǔn)表述”,提出關(guān)鍵字段的語義層級劃分,根據(jù)《藥物性肝損傷診治指南》[3]以及《中藥藥源性肝損傷臨床評價技術(shù)指導(dǎo)原則》[8],為ADR名稱、臨床癥狀、臨床指標(biāo)、藥物信息進(jìn)行包含同義、對義的語義層級構(gòu)建,建立同義、對義詞庫。
1.3 數(shù)據(jù)析取與人工再評價 隨機(jī)抽取5%共計4152份肝損傷相關(guān)ADR病例報告,由2名5年資以上的肝病??婆R床醫(yī)生分別進(jìn)行臨床再評價,參考WHO-UMC不良反應(yīng)因果關(guān)系評價標(biāo)準(zhǔn)[9]以及《藥物性肝損傷診治指南》[3],將肝損傷相關(guān)ADR再激發(fā)病例定義為“確定病例”,將ADR名稱與肝損傷無關(guān)及明顯非損肝藥物的病例定義為“否定病例”,其他病例為“疑似病例”。
1.4 智能識別規(guī)則的確定 依據(jù)人工再評價結(jié)果,分別提取不同分組中ADR風(fēng)險信號識別的關(guān)鍵要素信息,對提取到的ADR名稱、臨床癥狀、臨床指標(biāo)與肝損傷相關(guān)ADR因果評估進(jìn)行相關(guān)性分析,確定方法建立所需要的關(guān)鍵指標(biāo);通過2倍中位數(shù)及ROC曲線分析,進(jìn)行關(guān)鍵指標(biāo)、評分標(biāo)準(zhǔn)及閾值的確定,確定智能識別基本規(guī)則。
1.5 智能識別規(guī)則的交叉驗證 本研究中共有3組數(shù)據(jù)需要進(jìn)行交叉驗證,即“疑似病例”-“否定病例”,“確定病例”-“疑似病例”,“確定病例”-“否定病例”,以檢驗智能識別規(guī)則的識別穩(wěn)定性。比如“疑似病例”-“否定病例”的十折內(nèi)部交叉驗證,即分別將“疑似病例”與“否定病例”分成10份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測試數(shù)據(jù),進(jìn)行試驗。每次試驗都會得出相應(yīng)的正確率(或差錯率),10次結(jié)果正確率(或差錯率)的平均值作為對算法精度的估計。
2.1 同義、對義語義詞庫的建立 通過對肝損傷相關(guān)ADR關(guān)鍵字段的規(guī)范化處理,將ADR名稱,生化指標(biāo),臨床癥狀的同義、對義表述進(jìn)行歸一化處理。例如不良反應(yīng)名稱中的“肝功能異?!钡耐x表述包括肝功異常、肝功能受損、肝功能損害、肝功異常加重、肝功能變化、肝功能失調(diào),對義表述包括轉(zhuǎn)氨酶升高、轉(zhuǎn)氨酶異常、肝酶升高、肝酶異常、轉(zhuǎn)移酶高、轉(zhuǎn)氨酶升高;生化指標(biāo)中的“ALT”的同義表述包括GPT、丙氨酸氨基轉(zhuǎn)移酶、谷丙轉(zhuǎn)氨酶、谷氨酸-丙酮酸轉(zhuǎn)氨酶、丙氨酸氨基轉(zhuǎn)移酶、轉(zhuǎn)氨酶。
2.2 關(guān)鍵字段的熱圖分析 將析取后的關(guān)鍵字段進(jìn)行肝損傷相關(guān)ADR的熱圖分析發(fā)現(xiàn),ADR名稱、生化指標(biāo)、臨床癥狀在“確定病例”“疑似病例”“否定病例”分組中的區(qū)分度較好,因此將ADR名稱、生化指標(biāo)、臨床癥狀確定為肝損傷相關(guān)ADR智能識別關(guān)鍵要素(圖1~3)。
圖1 “確定病例”“疑似病例”“否定病例”的ADR名稱熱圖分析
2.3 關(guān)鍵指標(biāo)的確定及打分標(biāo)準(zhǔn) 通過2倍中位數(shù)確定關(guān)鍵指標(biāo)并評分,即ADR名稱、臨床癥狀、生化指標(biāo)中大于2倍中位數(shù)的數(shù)據(jù),K=K疑似+K確定,3項數(shù)據(jù)具備2項指標(biāo)的病例計3分,只有1項指標(biāo)計2分,無指標(biāo)計1分,即K疑似∩K確定=3分、K-K疑似∩K確定=2分、其他=1分。
通過打分,臨床癥狀中,納差、發(fā)熱、皮膚瘙癢等為3分;肝掌、肝區(qū)不適為2分;上腹部脹痛、尿黃、柏油樣便等為1分。生化指標(biāo)中,AST、ALT、GGT等為3分;AKP、PTs為2分;ChE、PTA、Alb等為1分。ADR名稱中,肝功能異常、肝細(xì)胞損害為3分;肝酶升高、轉(zhuǎn)氨酶升高為2分;肝損害、肝損傷、肝炎等為1分。
圖2 “確定病例”“疑似病例”“否定病例”的生化指標(biāo)熱圖分析
圖3 “確定病例”“疑似病例”“否定病例”的臨床癥狀熱圖分析
依據(jù)上述關(guān)鍵指標(biāo)打分標(biāo)準(zhǔn),確定肝損傷相關(guān)ADR評價識別公式為:總分(M)=癥狀分?jǐn)?shù)+指標(biāo)分?jǐn)?shù)+不良反應(yīng)名稱分?jǐn)?shù)。M≤5分:否定肝損傷,5分 2.4 評分閾值的確定 通過ROC曲線對肝損傷相關(guān)ADR的評價打分進(jìn)行閾值分析,發(fā)現(xiàn)“否定病例”與“疑似病例”“確定病例”在M=5分區(qū)分度最好(AUC=0.97),敏感度為99.57%,特異度為84.61%,“確定病例”與“疑似病例”“否定病例”在M=12分區(qū)分度最好(AUC=0.938),敏感度為87.93%,特異度為85.98%(圖4、5)。 圖4 “否定病例”與“疑似病例”“確定病例”肝損傷相關(guān)ADR診斷的ROC曲線 2.5 智能識別規(guī)則評分的分布及交叉驗證結(jié)果 采用內(nèi)部交叉驗證的方法對智能識別規(guī)則評分效能進(jìn)行評價,結(jié)果顯示:“疑似病例”-“否定病例”的交叉驗證結(jié)果為(R2X,R2Y,Q2)=(1,0.239,0.239),“確定病例”-“疑似病例”的交叉驗證結(jié)果為(R2X,R2Y,Q2)=(1,0.054,0.054),“確定病例”-“否定病例”的交叉驗證結(jié)果為(R2X,R2Y,Q2)=(1,0.334,0.334)。通過3組病例智能識別規(guī)則評分分布 (圖6),“確定病例”與“否定病例”,“疑似病例”與“否定病例”的區(qū)分較好,“肯定病例”“疑似病例”與三者的區(qū)分性較差。 圖5 “確定病例”與“否定病例”“疑似病例”肝損傷相關(guān)ADR診斷的ROC曲線 圖6 基于智能識別規(guī)則的“肯定病例”“疑似病例”“否定病例”的評分分布 本研究通過對肝損傷相關(guān)ADR大數(shù)據(jù)的規(guī)范化處理、相關(guān)性分析、關(guān)鍵指標(biāo)的確定及打分標(biāo)準(zhǔn)、評分閾值的確定,建立了一種基于文本知識庫的肝損傷相關(guān)ADR大數(shù)據(jù)智能識別新方法。交叉驗證結(jié)果顯示“疑似病例”-“否定病例”,“確定病例”-“否定病例”的區(qū)分效果較好,“確定病例”-“疑似病例”的區(qū)分效果較差。表明該方法識對于肝損傷相關(guān)ADR的“是”與“否”區(qū)別度較好,結(jié)果穩(wěn)定可靠,具有實際運(yùn)用的價值,可應(yīng)用于肝損傷相關(guān)ADR大數(shù)據(jù)風(fēng)險信號篩選與識別研究。 本研究以“文本數(shù)據(jù)的收集→文本數(shù)據(jù)的清洗與歸一化處理→指標(biāo)的相關(guān)性分析→關(guān)鍵指標(biāo)的確定→關(guān)鍵指標(biāo)的打分標(biāo)準(zhǔn)→評分閾值的確定→評分方法的交叉驗證”為基本研究思路,是基于ADR大數(shù)據(jù)探索建立的肝損傷相關(guān)ADR識別新方法。從未經(jīng)規(guī)范化處理的大量ADR數(shù)據(jù)中高效篩選出肝損傷相關(guān)ADR數(shù)據(jù),為肝損傷相關(guān)ADR風(fēng)險信號挖掘及相關(guān)藥物安全性評價提供了可靠的數(shù)據(jù)源。該方法的建立不僅很大程度上節(jié)省了識別評價大樣本ADR初篩的人力和時間,而且可以提高大樣本識別的準(zhǔn)確度。 目前藥物警戒領(lǐng)域?qū)τ贏DR大數(shù)據(jù)的處理仍處于探索階段,相關(guān)研究較少,還沒有形成一個相對完整的規(guī)范化流程。比如,有相關(guān)研究運(yùn)用聚類分析、神經(jīng)網(wǎng)絡(luò)等方法對ADR大數(shù)據(jù)進(jìn)行了智能識別評價,為ADR大數(shù)據(jù)的高效識別和精準(zhǔn)分析提供了可參考方案[10-13]。然而其仍存在缺乏與人工臨床再評價結(jié)合、數(shù)據(jù)規(guī)范化處理等問題,有一定局限性。而本研究在數(shù)據(jù)規(guī)范化處理的基礎(chǔ)上,以人工臨床再評價與智能識別相結(jié)合,嘗試構(gòu)建了一個ADR大數(shù)據(jù)智能識別的方法以及可參考的規(guī)范化流程。 本研究也存在局限性,由于ADR部分?jǐn)?shù)據(jù)缺失,在使用該方法智能識別的過程中可能存在偏倚,有待增加大樣本外部驗證,進(jìn)而完善該方法。同時,創(chuàng)建結(jié)構(gòu)化、規(guī)范化醫(yī)療大數(shù)據(jù)平臺,實現(xiàn)數(shù)據(jù)整合與共享將為ADR風(fēng)險防控與藥物警戒帶來更有力的契機(jī)。基于目前醫(yī)療大數(shù)據(jù)存在的問題,研究團(tuán)隊前期已經(jīng)創(chuàng)建了多源數(shù)據(jù)融合與共享共創(chuàng)于一體的藥源性肝損傷主動監(jiān)測與評價大數(shù)據(jù)平臺[14],以期為實現(xiàn)全民共享共治的藥物安全性評價與風(fēng)險防控提供有力的數(shù)據(jù)平臺和研究模式。結(jié)合本研究嘗試建立的醫(yī)療大數(shù)據(jù)智能識別方法,從而為醫(yī)療大數(shù)據(jù)的進(jìn)一步評價及處理提供便利,以期將醫(yī)療大數(shù)據(jù)的挑戰(zhàn)轉(zhuǎn)化為機(jī)遇,從而為醫(yī)療衛(wèi)生的大健康做出更大的貢獻(xiàn)。 利益沖突聲明:本研究不存在研究者、倫理委員會成員、受試者監(jiān)護(hù)人以及與公開研究成果有關(guān)的利益沖突,特此聲明。 作者貢獻(xiàn)聲明:葛斐林負(fù)責(zé)分析數(shù)據(jù),撰寫文章;牛明、趙旭、柏兆方負(fù)責(zé)整理數(shù)據(jù);肖小河負(fù)責(zé)論文的修改;郭玉明、王伽伯負(fù)責(zé)擬定論文思路,指導(dǎo)撰寫文章并最后定稿。3 討論