基于文本知識庫的肝損傷藥物不良反應(yīng)大數(shù)據(jù)智能識別研究

2022-03-18 12:06葛斐林郭玉明柏兆方王伽伯肖小河

臨床肝膽病雜志 2022年2期

葛斐林，郭玉明，牛明，趙旭，柏兆方，王伽伯，肖小河

1 中國人民解放軍總醫(yī)院第五醫(yī)學(xué)中心肝病醫(yī)學(xué)部研究所/全軍中醫(yī)藥研究所，北京 100039；2 北京中醫(yī)藥大學(xué) 中藥學(xué)院，北京 100029

近年來，國務(wù)院先后發(fā)布了《“健康中國2030”規(guī)劃綱要》及《“十三五”國家藥品安全規(guī)劃》等醫(yī)藥衛(wèi)生相關(guān)文件，藥物安全性已經(jīng)越來越成為國家層面關(guān)注的重點[1-2]。隨著藥物不良反應(yīng)(adverse drug reactions,ADR)的報道逐年增多以及公眾健康意識的提高，藥物的安全性問題也越來越受到公眾廣泛關(guān)注[3-5]。

由于ADR事件發(fā)生率較低, 有限的病例數(shù)據(jù)難以為藥物安全性評價提供更多的證據(jù)。醫(yī)療大數(shù)據(jù)時代的到來，為藥物警戒與風(fēng)險防控帶來了極大的發(fā)展機(jī)遇[6-7]。然而，目前藥物警戒領(lǐng)域?qū)τ贏DR大數(shù)據(jù)的處理還處于探索階段。以ADR自發(fā)上報數(shù)據(jù)為例，數(shù)以百萬計的數(shù)據(jù)信息一方面提供了極為豐富的風(fēng)險信號；另一方面，由于數(shù)據(jù)本身規(guī)范性、完整性較差，給數(shù)據(jù)識別與評價造成了障礙?？梢?，ADR大數(shù)據(jù)的信息資源尤為重要，而數(shù)據(jù)信息的高效識別和精準(zhǔn)分析則是安全性評價的關(guān)鍵。肝損傷相關(guān)ADR為臨床常見的藥物不良反應(yīng)之一, 嚴(yán)重者可致急性肝衰竭甚至死亡，其已成為藥物研發(fā)失敗、增加警示和撤市的重要原因, 受到醫(yī)藥界、制藥業(yè)、管理部門及公眾的高度重視[3,7]。因此，本研究以肝損傷相關(guān)ADR為例，嘗試從藥品不良反應(yīng)監(jiān)測系統(tǒng)(ADR-SRS)數(shù)據(jù)庫入手，在人工臨床再評價基礎(chǔ)上建立肝損傷相關(guān)ADR風(fēng)險識別規(guī)則，實現(xiàn)基于肝損傷相關(guān)ADR文本知識庫的大數(shù)據(jù)智能識別評價，以期為ADR大數(shù)據(jù)的智能識別提供方法參考，促進(jìn)藥品安全性評價與防控的積極推進(jìn)。

1 材料與方法

1.1 數(shù)據(jù)來源本研究采用的文本數(shù)據(jù)來自2012年1月1日—2016年12月31日，ADR-SRS中標(biāo)記為“藥物性肝損傷”“藥源性肝損傷”“肝功能異?！薄案渭?xì)胞損害”“肝損害”“肝炎”“肝酶升高”“肝衰竭”“肝毒性作用”“肝功能損害”“黃疸”“肝硬化”“肝區(qū)不適”“藥物性肝病”等肝損傷相關(guān)的ADR數(shù)據(jù)。

1.2 文本數(shù)據(jù)的清洗與歸一化處理通過剔除重復(fù)上報數(shù)據(jù)及其他無關(guān)數(shù)據(jù)后，共得到肝臟相關(guān)ADR數(shù)據(jù)55 388例。抽取ADR名稱、臨床癥狀、臨床指標(biāo)、藥物信息等關(guān)鍵字段，將關(guān)鍵字段的“非標(biāo)準(zhǔn)表述”映射到“標(biāo)準(zhǔn)表述”，提出關(guān)鍵字段的語義層級劃分，根據(jù)《藥物性肝損傷診治指南》[3]以及《中藥藥源性肝損傷臨床評價技術(shù)指導(dǎo)原則》[8]，為ADR名稱、臨床癥狀、臨床指標(biāo)、藥物信息進(jìn)行包含同義、對義的語義層級構(gòu)建，建立同義、對義詞庫。

1.3 數(shù)據(jù)析取與人工再評價隨機(jī)抽取5%共計4152份肝損傷相關(guān)ADR病例報告，由2名5年資以上的肝病?？婆R床醫(yī)生分別進(jìn)行臨床再評價，參考WHO-UMC不良反應(yīng)因果關(guān)系評價標(biāo)準(zhǔn)[9]以及《藥物性肝損傷診治指南》[3]，將肝損傷相關(guān)ADR再激發(fā)病例定義為“確定病例”，將ADR名稱與肝損傷無關(guān)及明顯非損肝藥物的病例定義為“否定病例”，其他病例為“疑似病例”。

1.4 智能識別規(guī)則的確定依據(jù)人工再評價結(jié)果，分別提取不同分組中ADR風(fēng)險信號識別的關(guān)鍵要素信息，對提取到的ADR名稱、臨床癥狀、臨床指標(biāo)與肝損傷相關(guān)ADR因果評估進(jìn)行相關(guān)性分析，確定方法建立所需要的關(guān)鍵指標(biāo)；通過2倍中位數(shù)及ROC曲線分析，進(jìn)行關(guān)鍵指標(biāo)、評分標(biāo)準(zhǔn)及閾值的確定，確定智能識別基本規(guī)則。

1.5 智能識別規(guī)則的交叉驗證本研究中共有3組數(shù)據(jù)需要進(jìn)行交叉驗證，即“疑似病例”-“否定病例”，“確定病例”-“疑似病例”，“確定病例”-“否定病例”，以檢驗智能識別規(guī)則的識別穩(wěn)定性。比如“疑似病例”-“否定病例”的十折內(nèi)部交叉驗證，即分別將“疑似病例”與“否定病例”分成10份，輪流將其中9份作為訓(xùn)練數(shù)據(jù)，1份作為測試數(shù)據(jù)，進(jìn)行試驗。每次試驗都會得出相應(yīng)的正確率(或差錯率)，10次結(jié)果正確率(或差錯率)的平均值作為對算法精度的估計。

2 結(jié)果

2.1 同義、對義語義詞庫的建立通過對肝損傷相關(guān)ADR關(guān)鍵字段的規(guī)范化處理，將ADR名稱，生化指標(biāo)，臨床癥狀的同義、對義表述進(jìn)行歸一化處理。例如不良反應(yīng)名稱中的“肝功能異?！钡耐x表述包括肝功異常、肝功能受損、肝功能損害、肝功異常加重、肝功能變化、肝功能失調(diào)，對義表述包括轉(zhuǎn)氨酶升高、轉(zhuǎn)氨酶異常、肝酶升高、肝酶異常、轉(zhuǎn)移酶高、轉(zhuǎn)氨酶升高；生化指標(biāo)中的“ALT”的同義表述包括GPT、丙氨酸氨基轉(zhuǎn)移酶、谷丙轉(zhuǎn)氨酶、谷氨酸-丙酮酸轉(zhuǎn)氨酶、丙氨酸氨基轉(zhuǎn)移酶、轉(zhuǎn)氨酶。

2.2 關(guān)鍵字段的熱圖分析將析取后的關(guān)鍵字段進(jìn)行肝損傷相關(guān)ADR的熱圖分析發(fā)現(xiàn)，ADR名稱、生化指標(biāo)、臨床癥狀在“確定病例”“疑似病例”“否定病例”分組中的區(qū)分度較好，因此將ADR名稱、生化指標(biāo)、臨床癥狀確定為肝損傷相關(guān)ADR智能識別關(guān)鍵要素(圖1～3)。

圖1 “確定病例”“疑似病例”“否定病例”的ADR名稱熱圖分析

2.3 關(guān)鍵指標(biāo)的確定及打分標(biāo)準(zhǔn) 通過2倍中位數(shù)確定關(guān)鍵指標(biāo)并評分，即ADR名稱、臨床癥狀、生化指標(biāo)中大于2倍中位數(shù)的數(shù)據(jù)，K=K疑似+K確定，3項數(shù)據(jù)具備2項指標(biāo)的病例計3分，只有1項指標(biāo)計2分，無指標(biāo)計1分，即K疑似∩K確定=3分、K-K疑似∩K確定=2分、其他=1分。

通過打分，臨床癥狀中，納差、發(fā)熱、皮膚瘙癢等為3分；肝掌、肝區(qū)不適為2分；上腹部脹痛、尿黃、柏油樣便等為1分。生化指標(biāo)中，AST、ALT、GGT等為3分；AKP、PTs為2分；ChE、PTA、Alb等為1分。ADR名稱中，肝功能異常、肝細(xì)胞損害為3分；肝酶升高、轉(zhuǎn)氨酶升高為2分；肝損害、肝損傷、肝炎等為1分。

圖2 “確定病例”“疑似病例”“否定病例”的生化指標(biāo)熱圖分析

圖3 “確定病例”“疑似病例”“否定病例”的臨床癥狀熱圖分析

依據(jù)上述關(guān)鍵指標(biāo)打分標(biāo)準(zhǔn)，確定肝損傷相關(guān)ADR評價識別公式為：總分(M)=癥狀分?jǐn)?shù)+指標(biāo)分?jǐn)?shù)+不良反應(yīng)名稱分?jǐn)?shù)。M≤5分：否定肝損傷，5分

2.4 評分閾值的確定通過ROC曲線對肝損傷相關(guān)ADR的評價打分進(jìn)行閾值分析，發(fā)現(xiàn)“否定病例”與“疑似病例”“確定病例”在M=5分區(qū)分度最好(AUC=0.97)，敏感度為99.57%，特異度為84.61%，“確定病例”與“疑似病例”“否定病例”在M=12分區(qū)分度最好(AUC=0.938)，敏感度為87.93%，特異度為85.98%(圖4、5)。

圖4 “否定病例”與“疑似病例”“確定病例”肝損傷相關(guān)ADR診斷的ROC曲線

2.5 智能識別規(guī)則評分的分布及交叉驗證結(jié)果采用內(nèi)部交叉驗證的方法對智能識別規(guī)則評分效能進(jìn)行評價，結(jié)果顯示：“疑似病例”-“否定病例”的交叉驗證結(jié)果為(R2X，R2Y，Q2)=(1，0.239,0.239)，“確定病例”-“疑似病例”的交叉驗證結(jié)果為(R2X，R2Y，Q2)=(1，0.054，0.054)，“確定病例”-“否定病例”的交叉驗證結(jié)果為(R2X，R2Y，Q2)=(1，0.334，0.334)。通過3組病例智能識別規(guī)則評分分布 (圖6)，“確定病例”與“否定病例”，“疑似病例”與“否定病例”的區(qū)分較好，“肯定病例”“疑似病例”與三者的區(qū)分性較差。

圖5 “確定病例”與“否定病例”“疑似病例”肝損傷相關(guān)ADR診斷的ROC曲線

圖6 基于智能識別規(guī)則的“肯定病例”“疑似病例”“否定病例”的評分分布

3 討論

本研究通過對肝損傷相關(guān)ADR大數(shù)據(jù)的規(guī)范化處理、相關(guān)性分析、關(guān)鍵指標(biāo)的確定及打分標(biāo)準(zhǔn)、評分閾值的確定，建立了一種基于文本知識庫的肝損傷相關(guān)ADR大數(shù)據(jù)智能識別新方法。交叉驗證結(jié)果顯示“疑似病例”-“否定病例”，“確定病例”-“否定病例”的區(qū)分效果較好，“確定病例”-“疑似病例”的區(qū)分效果較差。表明該方法識對于肝損傷相關(guān)ADR的“是”與“否”區(qū)別度較好，結(jié)果穩(wěn)定可靠，具有實際運(yùn)用的價值，可應(yīng)用于肝損傷相關(guān)ADR大數(shù)據(jù)風(fēng)險信號篩選與識別研究。

本研究以“文本數(shù)據(jù)的收集→文本數(shù)據(jù)的清洗與歸一化處理→指標(biāo)的相關(guān)性分析→關(guān)鍵指標(biāo)的確定→關(guān)鍵指標(biāo)的打分標(biāo)準(zhǔn)→評分閾值的確定→評分方法的交叉驗證”為基本研究思路，是基于ADR大數(shù)據(jù)探索建立的肝損傷相關(guān)ADR識別新方法。從未經(jīng)規(guī)范化處理的大量ADR數(shù)據(jù)中高效篩選出肝損傷相關(guān)ADR數(shù)據(jù)，為肝損傷相關(guān)ADR風(fēng)險信號挖掘及相關(guān)藥物安全性評價提供了可靠的數(shù)據(jù)源。該方法的建立不僅很大程度上節(jié)省了識別評價大樣本ADR初篩的人力和時間，而且可以提高大樣本識別的準(zhǔn)確度。

目前藥物警戒領(lǐng)域?qū)τ贏DR大數(shù)據(jù)的處理仍處于探索階段，相關(guān)研究較少，還沒有形成一個相對完整的規(guī)范化流程。比如，有相關(guān)研究運(yùn)用聚類分析、神經(jīng)網(wǎng)絡(luò)等方法對ADR大數(shù)據(jù)進(jìn)行了智能識別評價，為ADR大數(shù)據(jù)的高效識別和精準(zhǔn)分析提供了可參考方案[10-13]。然而其仍存在缺乏與人工臨床再評價結(jié)合、數(shù)據(jù)規(guī)范化處理等問題，有一定局限性。而本研究在數(shù)據(jù)規(guī)范化處理的基礎(chǔ)上，以人工臨床再評價與智能識別相結(jié)合，嘗試構(gòu)建了一個ADR大數(shù)據(jù)智能識別的方法以及可參考的規(guī)范化流程。

本研究也存在局限性，由于ADR部分?jǐn)?shù)據(jù)缺失，在使用該方法智能識別的過程中可能存在偏倚，有待增加大樣本外部驗證，進(jìn)而完善該方法。同時，創(chuàng)建結(jié)構(gòu)化、規(guī)范化醫(yī)療大數(shù)據(jù)平臺，實現(xiàn)數(shù)據(jù)整合與共享將為ADR風(fēng)險防控與藥物警戒帶來更有力的契機(jī)。基于目前醫(yī)療大數(shù)據(jù)存在的問題，研究團(tuán)隊前期已經(jīng)創(chuàng)建了多源數(shù)據(jù)融合與共享共創(chuàng)于一體的藥源性肝損傷主動監(jiān)測與評價大數(shù)據(jù)平臺[14]，以期為實現(xiàn)全民共享共治的藥物安全性評價與風(fēng)險防控提供有力的數(shù)據(jù)平臺和研究模式。結(jié)合本研究嘗試建立的醫(yī)療大數(shù)據(jù)智能識別方法，從而為醫(yī)療大數(shù)據(jù)的進(jìn)一步評價及處理提供便利，以期將醫(yī)療大數(shù)據(jù)的挑戰(zhàn)轉(zhuǎn)化為機(jī)遇，從而為醫(yī)療衛(wèi)生的大健康做出更大的貢獻(xiàn)。

利益沖突聲明:本研究不存在研究者、倫理委員會成員、受試者監(jiān)護(hù)人以及與公開研究成果有關(guān)的利益沖突，特此聲明。

作者貢獻(xiàn)聲明:葛斐林負(fù)責(zé)分析數(shù)據(jù)，撰寫文章；牛明、趙旭、柏兆方負(fù)責(zé)整理數(shù)據(jù)；肖小河負(fù)責(zé)論文的修改；郭玉明、王伽伯負(fù)責(zé)擬定論文思路，指導(dǎo)撰寫文章并最后定稿。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于文本知識庫的肝損傷藥物不良反應(yīng)大數(shù)據(jù)智能識別研究

1 材料與方法

2 結(jié)果

3 討論