,,
隨著科學(xué)研究進(jìn)入數(shù)據(jù)密集型范式,科學(xué)大數(shù)據(jù)不僅僅是科學(xué)研究的結(jié)果,也成為科學(xué)研究活動(dòng)的基礎(chǔ)和起點(diǎn)[1]。
為促進(jìn)臨床數(shù)據(jù)共享,WHO臨床試驗(yàn)注冊(cè)平臺(tái)于2015年8月發(fā)布了關(guān)于支持臨床試驗(yàn)數(shù)據(jù)共享的聲明,國(guó)際醫(yī)學(xué)期刊編輯委員會(huì)于2016 年1月20日發(fā)布了關(guān)于臨床試驗(yàn)數(shù)據(jù)共享的建議。中國(guó)臨床試驗(yàn)注冊(cè)中心亦決定從2016年3月14日起,要求公開(kāi)原始數(shù)據(jù)(包括原始記錄數(shù)據(jù)和研究計(jì)劃書(shū))共享計(jì)劃、數(shù)據(jù)保存和管理規(guī)劃、在知情同意書(shū)中加入公開(kāi)原始數(shù)據(jù)內(nèi)容[2],旨在進(jìn)一步推動(dòng)臨床試驗(yàn)透明化,履行醫(yī)學(xué)研究者的社會(huì)責(zé)任。
新藥研發(fā)具有復(fù)雜程度高、周期長(zhǎng)、投入高、成功率低等特點(diǎn),平均每5 000~10 000 個(gè)化學(xué)或生物分子中可篩選出250個(gè)先導(dǎo)化合物進(jìn)入臨床前研究階段,最終僅有1個(gè)能獲批上市。1種新藥從發(fā)現(xiàn)到成功上市通常需要10~15 年[3],平均投資13.95億美元[4]。
研發(fā)過(guò)程中,從藥物發(fā)現(xiàn)到新藥申請(qǐng),從臨床前試驗(yàn)到上市后的臨床效果評(píng)價(jià),無(wú)不建立在翔實(shí)而可靠的科學(xué)數(shù)據(jù)基礎(chǔ)上。有效的數(shù)據(jù)挖掘和模型開(kāi)發(fā)需要有代表性的、經(jīng)過(guò)處理的大數(shù)據(jù)集,但是以往按照嚴(yán)格的臨床試驗(yàn)指南產(chǎn)生的高質(zhì)量臨床前安全數(shù)據(jù)由于項(xiàng)目特點(diǎn)、知識(shí)產(chǎn)權(quán)保護(hù)或競(jìng)爭(zhēng)優(yōu)勢(shì)保護(hù)等原因而不會(huì)公開(kāi),僅有少量上市藥物的安全性數(shù)據(jù)有時(shí)會(huì)以概要的形式發(fā)布[5]。因此獲得并共享高質(zhì)量、高賦值的新藥研發(fā)數(shù)據(jù)存在較多障礙。而破解這一難題,是提高藥物研發(fā)效率的關(guān)鍵。為此,本文介紹并分析了歐洲制藥工業(yè)聯(lián)合會(huì)支持的2個(gè)藥理學(xué)、毒理學(xué)數(shù)據(jù)共享平臺(tái)的解決方案,為我國(guó)新藥研發(fā)數(shù)據(jù)共享平臺(tái)建設(shè)提供參考。
我國(guó)對(duì)新藥研發(fā)平臺(tái)建設(shè)高度重視,“十一五”期間啟動(dòng)了“重大新藥創(chuàng)制專項(xiàng)”,在全國(guó)范圍內(nèi)布局15 個(gè)“綜合性新藥研究開(kāi)發(fā)技術(shù)大平臺(tái)”,旨在全面提升我國(guó)的新藥創(chuàng)制能力[6]。如國(guó)家十一五“重大新藥創(chuàng)制”科技重大專項(xiàng)——“ 精神藥物新藥臨床評(píng)價(jià)研究技術(shù)平臺(tái)”獲得了2008-2020年的滾動(dòng)支持。目前該平臺(tái)建立了精神藥物臨床試驗(yàn)協(xié)作網(wǎng),由具有較高精神疾病診療和科研水平的單位自愿聯(lián)合組成學(xué)術(shù)團(tuán)體,實(shí)現(xiàn)了電子化數(shù)據(jù)管理并獲國(guó)際認(rèn)可[7]。但該平臺(tái)不直接涉及任何一項(xiàng)具體臨床試驗(yàn)的實(shí)施,只是一個(gè)純粹的學(xué)術(shù)協(xié)作網(wǎng)絡(luò)。
科技部于2003年將科學(xué)數(shù)據(jù)共享工程作為重大項(xiàng)目立項(xiàng),2010年國(guó)家人口與健康科學(xué)數(shù)據(jù)共享平臺(tái)面向社會(huì)開(kāi)放提供服務(wù)[8],目前該平臺(tái)已有20T的科學(xué)數(shù)據(jù)在線開(kāi)放。
其中,由中國(guó)醫(yī)學(xué)科學(xué)院藥物研究所負(fù)責(zé)的藥學(xué)科學(xué)數(shù)據(jù)中心,在國(guó)家科技基礎(chǔ)條件平臺(tái)項(xiàng)目的支持下,成為實(shí)質(zhì)上的國(guó)家藥物研發(fā)共享平臺(tái)[9]。
藥學(xué)科學(xué)數(shù)據(jù)中心作為國(guó)家人口與健康科學(xué)數(shù)據(jù)共享平臺(tái)的重要組成部分,目前提供數(shù)10個(gè)藥學(xué)數(shù)據(jù)庫(kù)的資源共享,包括藥物靶點(diǎn)數(shù)據(jù)庫(kù)、藥用天然提取物活性庫(kù)、中國(guó)天然產(chǎn)物化學(xué)成分庫(kù)、虛擬化合物庫(kù)、藥物分析方法數(shù)據(jù)庫(kù)、中藥及天然產(chǎn)物質(zhì)量控制庫(kù)等數(shù)據(jù)庫(kù)等藥物研發(fā)類數(shù)據(jù)庫(kù),以及藥物資源類數(shù)據(jù)庫(kù)、藥品使用類數(shù)據(jù)庫(kù)、藥事管理類數(shù)據(jù)庫(kù)等,為開(kāi)展“創(chuàng)新藥物研究”專題服務(wù)奠定了基礎(chǔ)。
為確保數(shù)據(jù)資源量,增強(qiáng)服務(wù)創(chuàng)新藥物研發(fā)的能力,平臺(tái)定期征集、整合數(shù)據(jù)實(shí)體,匯交到藥學(xué)數(shù)據(jù)中心進(jìn)行初篩、分類、標(biāo)識(shí),制作對(duì)應(yīng)元數(shù)據(jù)并在平臺(tái)門戶網(wǎng)站共享。
國(guó)家人口與健康科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)藥學(xué)數(shù)據(jù)中心主頁(yè)如圖1所示。
圖1國(guó)家人口與健康科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)藥學(xué)數(shù)據(jù)中心主頁(yè)
其中,“新藥研發(fā)動(dòng)態(tài)數(shù)據(jù)庫(kù)”“新藥動(dòng)態(tài)”信息定期發(fā)布?!靶滤幯邪l(fā)動(dòng)態(tài)數(shù)據(jù)庫(kù)”整合國(guó)外多個(gè)著名新藥研發(fā)數(shù)據(jù)庫(kù)中的信息,包括Thomson Integrity、CORTELLIS、Pharmaproject等藥物信息數(shù)據(jù)庫(kù),PubMED、Embase等文摘數(shù)據(jù)庫(kù),Elsevier Sciencedirect、Springer 等全文數(shù)據(jù)庫(kù),Thomson Innovation、Derwent Innovation Index等專利數(shù)據(jù)庫(kù);“新藥動(dòng)態(tài)”每月發(fā)布國(guó)外特別是美國(guó)FDA新審批的新分子實(shí)體藥物和生物制品藥物信息,總結(jié)歸納藥物的研發(fā)歷程,系統(tǒng)梳理藥物理化特性、合成路線、細(xì)胞試驗(yàn)信息、動(dòng)物試驗(yàn)信息、Ⅰ期、Ⅱ期、Ⅲ期臨床試驗(yàn)信息、審批上市信息,使國(guó)內(nèi)科研人員能及時(shí)了解國(guó)外藥物審批動(dòng)態(tài)及研發(fā)歷程。
可見(jiàn),當(dāng)前我國(guó)新藥研發(fā)知識(shí)服務(wù)都是源于各種數(shù)據(jù)庫(kù)中可直接利用的知識(shí)和信息,權(quán)威、可靠的藥物研發(fā)初始數(shù)據(jù)尚無(wú)共享利用渠道,尚未提供知識(shí)識(shí)別和知識(shí)推理服務(wù)[10],距離新藥研發(fā)數(shù)據(jù)多學(xué)科、多層次和多級(jí)別共享的目標(biāo)還有很大差距。從實(shí)踐結(jié)果看,近10年來(lái)各種基金資助的數(shù)據(jù)平臺(tái)很多,但達(dá)到預(yù)期目的并投入使用的寥寥無(wú)幾。
FDA 2000-2012年的回溯性綜述報(bào)告顯示,在藥物研發(fā)的所有階段,毒性相關(guān)的副作用一直是新的候選藥物夭折、影響新藥開(kāi)發(fā)的主要原因[11],因此需要在藥物研發(fā)的臨床前階段更早預(yù)測(cè)其安全性。各種預(yù)測(cè)模型的質(zhì)量在不斷改進(jìn),但預(yù)測(cè)的可靠性仍然有待提高,如心血管毒性很多要到大規(guī)模的Ⅲ期臨床試驗(yàn)才能發(fā)現(xiàn)。分析、探究之前失敗的原因有助于改進(jìn)新藥臨床開(kāi)發(fā)效率及其安全性[12]。
2010年,在創(chuàng)新藥物計(jì)劃的驅(qū)動(dòng)下 ,歐洲制藥工業(yè)協(xié)會(huì)聯(lián)合會(huì)(EFPIA)啟動(dòng)了eTOX項(xiàng)目,其全稱是“用于計(jì)算機(jī)毒性預(yù)測(cè)專家系統(tǒng)開(kāi)發(fā)的整合生物信息學(xué)和化學(xué)信息學(xué)方法 ”。由11所院校、6家中小企業(yè)和13個(gè)制藥公司組成公-私聯(lián)盟,共同建立了eTOXsys平臺(tái),包括數(shù)據(jù)庫(kù)整合和全部預(yù)測(cè)模型,旨在實(shí)現(xiàn)知識(shí)共享,為候選新藥的設(shè)計(jì)提供新的工具。其目標(biāo)是從論文或PDF文檔中提取和共享13家制藥公司毒理學(xué)研究部門產(chǎn)生的臨床前毒性研究數(shù)據(jù),并利用這些數(shù)據(jù)建立一個(gè)翔實(shí)的數(shù)據(jù)庫(kù),作為藥物研發(fā)參照數(shù)據(jù)源,即通過(guò)類似的結(jié)構(gòu)和/或效果比較早期評(píng)估候選藥物的潛在毒性,以及進(jìn)行預(yù)測(cè)模型訓(xùn)練。目前平臺(tái)提供13家制藥公司的逾4 000項(xiàng)研究,對(duì)應(yīng)1 400多個(gè)化合物。
eTOX數(shù)據(jù)庫(kù)除包括藥理學(xué)安全性、藥代動(dòng)力學(xué)、藥效學(xué)、藥物分布、生殖毒性和致癌性研究數(shù)據(jù)以及之前的各種毒物基因組學(xué)和毒理學(xué)項(xiàng)目外,還從文獻(xiàn)和公開(kāi)出版物中篩選可用于eTOX的數(shù)據(jù)、工具、方法或者討論。這些經(jīng)過(guò)篩選的數(shù)據(jù)存儲(chǔ)于eTOXlibrary,對(duì)公眾開(kāi)放[13-15]。其成功運(yùn)行有以下幾個(gè)原因。
eTOX臨床前研究數(shù)據(jù)共享的主要障礙之一是如何將參與項(xiàng)目的制藥公司數(shù)千個(gè)充分劑量毒性研究中的臨床前數(shù)據(jù)整合成公眾可以利用的數(shù)據(jù)源,以及從生物醫(yī)學(xué)文獻(xiàn)中進(jìn)行文本挖掘。2010年以前,這些專有信息都由每個(gè)制藥公司各自擁有。eTOX使這些信息轉(zhuǎn)化為機(jī)讀數(shù)據(jù),并且在保護(hù)知識(shí)產(chǎn)權(quán)和敏感信息保密的前提下,在聯(lián)盟內(nèi)共享。由每個(gè)公司確定所擁有數(shù)據(jù)的敏感性分級(jí)、是否提供給eTOX、數(shù)據(jù)是否需要保護(hù)、是否自由分享。
各參與機(jī)構(gòu)提供的數(shù)據(jù)按敏感性分為公開(kāi)、非保密、保密、非共享4級(jí)(表1)。
表1 eTOX項(xiàng)目的數(shù)據(jù)敏感性分級(jí)
傳統(tǒng)報(bào)告經(jīng)過(guò)公司內(nèi)部審查,由公司自己或者提交給合同研究組織(CRO)進(jìn)行數(shù)據(jù)提取。每個(gè)EFPIA伙伴都有權(quán)修訂CROs的工作,進(jìn)行質(zhì)量檢查,然后分別將文檔上傳給可靠的關(guān)系數(shù)據(jù)庫(kù)服務(wù)商。數(shù)據(jù)庫(kù)服務(wù)商收到數(shù)據(jù)后,把數(shù)據(jù)傳到內(nèi)部產(chǎn)品數(shù)據(jù)庫(kù),或者將保密信息存儲(chǔ)到獨(dú)立的數(shù)據(jù)庫(kù)。之后按照統(tǒng)一的數(shù)據(jù)納入標(biāo)準(zhǔn)和指導(dǎo)原則進(jìn)行質(zhì)量確認(rèn)和糾錯(cuò),保證不同公司數(shù)據(jù)格式的一致性。進(jìn)入eTOX數(shù)據(jù)庫(kù)后,確認(rèn)新的術(shù)語(yǔ)并加入該項(xiàng)目開(kāi)發(fā)的術(shù)語(yǔ)管理工具—人工處理優(yōu)選術(shù)語(yǔ)(術(shù)語(yǔ)盡量標(biāo)準(zhǔn)化以增加互操作性,確保整體統(tǒng)一)。
每個(gè)EFPIA伙伴需每月提交“報(bào)告跟蹤”工作表,每份報(bào)告都包括物質(zhì)ID號(hào)、報(bào)告ID號(hào)、信息質(zhì)量評(píng)估結(jié)果、報(bào)告進(jìn)入eTOX數(shù)據(jù)的提取過(guò)程、保密分級(jí)、上傳給CRO/Lhasa有限公司的時(shí)間、在數(shù)據(jù)庫(kù)的公開(kāi)時(shí)間等詳細(xì)信息。
為保護(hù)知識(shí)產(chǎn)權(quán),由私立非盈利性組織Lhasa公司維護(hù)保密性數(shù)據(jù),基于其信譽(yù)保證安全共享。eTOX數(shù)據(jù)庫(kù)模式由其開(kāi)發(fā),包含多個(gè)數(shù)據(jù)模塊:化學(xué)數(shù)據(jù)模塊如結(jié)構(gòu)、id、藥理學(xué)作用等,研究設(shè)計(jì)信息模塊如種系、族株、性別、劑量,毒物代謝動(dòng)力學(xué)模塊如劑量、Tmax、Cmax,一般毒性作用信息模塊如劑量、死亡率、體重,臨床化學(xué)發(fā)現(xiàn)模塊如劑量、臨床化學(xué)參數(shù),臨床血液學(xué)發(fā)現(xiàn)模塊如劑量、血液學(xué)參數(shù),組織病理學(xué)發(fā)現(xiàn)模塊如劑量、影響的器官、影響的動(dòng)物,ADME模塊如吸收、分別、CYP450 、代謝產(chǎn)物、排泄平衡和清除信息。
2.3.1 構(gòu)建統(tǒng)一的臨床前藥物發(fā)現(xiàn)標(biāo)準(zhǔn)本體
統(tǒng)一的本體是與其他數(shù)據(jù)庫(kù)實(shí)現(xiàn)互操作的基礎(chǔ)。eTOX參照國(guó)際統(tǒng)一命名法和診斷標(biāo)準(zhǔn)努力使其術(shù)語(yǔ)具有兼容性,將逐字術(shù)語(yǔ)轉(zhuǎn)換成聯(lián)合體使用的標(biāo)準(zhǔn)術(shù)語(yǔ)。迄今為止,共有800多萬(wàn)個(gè)自然術(shù)語(yǔ)被指定為優(yōu)選術(shù)語(yǔ),意味著eTOX 數(shù)據(jù)庫(kù)中97%的逐字術(shù)語(yǔ)已經(jīng)標(biāo)準(zhǔn)化。這項(xiàng)龐大的工作是獲得高質(zhì)量和可用數(shù)據(jù)的保證。
創(chuàng)建指南和數(shù)據(jù)處理工具,建立本體標(biāo)準(zhǔn),使eTOX數(shù)據(jù)庫(kù)內(nèi)容與OntoBrowser 工具的受控詞表相兼容。兼容映射和處理工作是允許對(duì)eTOX數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行高質(zhì)量交叉參照分析的必要條件。
具體做法是由一個(gè)本體管理核心團(tuán)隊(duì)負(fù)責(zé)分配不同的本體模塊,利用諾華公司開(kāi)發(fā)的基于網(wǎng)絡(luò)的本體管理工具OntoBrowser(開(kāi)放源代碼),處理代碼表和本體生成/映射/管理,對(duì)從傳統(tǒng)報(bào)告中提取的術(shù)語(yǔ)進(jìn)行綜合處理。進(jìn)入eTOX數(shù)據(jù)庫(kù)的新術(shù)語(yǔ)被轉(zhuǎn)入OntoBrowser工具,使其與本體映射,隨后由有審批權(quán)限的科學(xué)家檢查和確認(rèn)每個(gè)特別的映射,最后將優(yōu)選的詞匯整合進(jìn)eTOX數(shù)據(jù)庫(kù),因此用戶可以同時(shí)看到自然詞匯和優(yōu)選術(shù)語(yǔ)。
通用本體是eTOX 項(xiàng)目成功的關(guān)鍵,構(gòu)建了本領(lǐng)域稀缺的臨床前藥物發(fā)現(xiàn)標(biāo)準(zhǔn)本體。這些努力使共享的數(shù)據(jù)質(zhì)量可信、一致,進(jìn)而根據(jù)內(nèi)容產(chǎn)生可靠的、能夠交叉參照和開(kāi)放類似定量結(jié)構(gòu)-活性關(guān)系(QSAR)或其他預(yù)測(cè)模型。
2.3.2 提供以建模為目的的數(shù)據(jù)分析
eTOX數(shù)據(jù)庫(kù)的主要目的是通過(guò)數(shù)據(jù)分析建立預(yù)測(cè)藥物誘發(fā)毒性的計(jì)算機(jī)模型,允許進(jìn)行精確的結(jié)構(gòu)、亞結(jié)構(gòu)和結(jié)構(gòu)相似性檢索與挖掘。然而共享的毒理學(xué)研究數(shù)據(jù)最初并不是為產(chǎn)生預(yù)測(cè)模型而設(shè)計(jì)的,各種發(fā)現(xiàn)、觀察的數(shù)據(jù)集用于模型構(gòu)建有3個(gè)困難:一是對(duì)某些遺傳生物學(xué)性質(zhì)需要之前的觀察條件參照,如是否在非常高的劑量觀察的、動(dòng)物數(shù)量是否有意義、效果是否顯著不同于對(duì)照組、動(dòng)物是否瀕死等;二是不同劑量、不同動(dòng)物或不同的給藥途徑觀察到的性質(zhì)不能直接比較;三是大多數(shù)明顯的表型 (如膽汁郁積)可能有多個(gè)毒性機(jī)制,不能簡(jiǎn)單地被單個(gè)模型覆蓋。
2.3.3 建立數(shù)據(jù)預(yù)測(cè)系統(tǒng)eTOXsys
eTOXsys是整合各種工具、數(shù)據(jù)庫(kù)的網(wǎng)絡(luò)軟件平臺(tái),由分子網(wǎng)絡(luò)GmbH開(kāi)發(fā)。通過(guò)統(tǒng)一的用戶交互界面,允許用戶使用預(yù)測(cè)模型和數(shù)據(jù)庫(kù)進(jìn)行候選藥物危險(xiǎn)識(shí)別和風(fēng)險(xiǎn)評(píng)估。系統(tǒng)由4個(gè)主要部分組成,接受用戶關(guān)于毒理學(xué)終點(diǎn)預(yù)測(cè)查詢(由預(yù)測(cè)服務(wù)提供)和數(shù)據(jù)庫(kù)檢索(eTOX數(shù)據(jù)庫(kù)服務(wù)提供),收集來(lái)自web服務(wù)器的結(jié)果并反饋給終端用戶。
終端用戶可以對(duì)數(shù)據(jù)庫(kù)進(jìn)行查詢和結(jié)果預(yù)測(cè),并進(jìn)一步細(xì)化和分析。eTOXsys界面允許進(jìn)行基于化學(xué)的檢索和基于毒性的檢索。圖2顯示鹽酸丙咪嗪檢索結(jié)果的詳細(xì)信息。
2.3.4 決策支持與模型預(yù)測(cè)
為改善新藥發(fā)現(xiàn)中的決策支持,確保eTOX項(xiàng)目數(shù)據(jù)共享的價(jià)值,從EFPIA合作伙伴中收集了毒理學(xué)家和藥物化學(xué)家在其日常工作中面臨的共同決策,并列出潛在的假設(shè)驅(qū)動(dòng)(單一或多個(gè)參數(shù))對(duì)數(shù)據(jù)庫(kù)內(nèi)容的查詢。
圖2 藥物毒性數(shù)據(jù)詳細(xì)信息[13]
化合物毒理學(xué)相關(guān)性質(zhì)的計(jì)算機(jī)模型預(yù)測(cè)是eTOXsys的主要功能之一,即根據(jù)公開(kāi)的大量毒理學(xué)相關(guān)終點(diǎn)數(shù)據(jù)進(jìn)行建模。盡管當(dāng)前版本尚未包括用傳統(tǒng)報(bào)告數(shù)據(jù)產(chǎn)生的模型,但利用體內(nèi)數(shù)據(jù)的策略已被細(xì)化,eTOXsys的建模技術(shù)已經(jīng)用于根據(jù)公開(kāi)數(shù)據(jù)產(chǎn)生的大量的毒理學(xué)相關(guān)終點(diǎn)預(yù)測(cè)。圖3顯示eTOXsys毒性相關(guān)預(yù)測(cè)模型的請(qǐng)求結(jié)果??赡艿哪P鸵詫蛹?jí)樹(shù)的形式組織在一起。
圖3 eTOXsys毒性相關(guān)預(yù)測(cè)模型的請(qǐng)求結(jié)果[13]
近年來(lái),雖然新藥的批準(zhǔn)數(shù)量增加有限,但新藥研發(fā)數(shù)據(jù)的規(guī)模、維度和復(fù)雜性都在不斷增加,且存儲(chǔ)于不同的公共或?qū)S袛?shù)據(jù)庫(kù)中。不同數(shù)據(jù)源的有效關(guān)聯(lián)可以發(fā)現(xiàn)隱藏的關(guān)系并改進(jìn)研究策略,然而由于數(shù)據(jù)格式的差異、需要單獨(dú)的接口和查詢機(jī)制、不同資源描述符和標(biāo)識(shí)符之間缺乏一致性,以及缺少簡(jiǎn)單的關(guān)聯(lián)機(jī)制,使從這些異源性數(shù)據(jù)收集相關(guān)而全面的信息、挖掘知識(shí)變得更加復(fù)雜。
為解決這一難題,利用語(yǔ)義Web技術(shù)集成來(lái)自不同來(lái)源的數(shù)據(jù),構(gòu)建統(tǒng)一接口的平臺(tái),提供可訪問(wèn)的、結(jié)構(gòu)良好的數(shù)據(jù)和有用的分析,將使藥物發(fā)現(xiàn)研究者受益匪淺。
Open PHACTS是一個(gè)創(chuàng)新藥物知識(shí)管理項(xiàng)目,由歐洲制藥工業(yè)協(xié)會(huì)聯(lián)合會(huì)(EFPIA)、多所歐洲大學(xué)和中小企業(yè)合作完成(http://www.openphacts.org/consortium),聚焦于應(yīng)用語(yǔ)義Web技術(shù)獲得不同來(lái)源、不同類別的數(shù)據(jù),挖掘現(xiàn)有知識(shí)和在新藥發(fā)現(xiàn)中產(chǎn)生新的假設(shè)。通過(guò)整合各種公開(kāi)可用的生物分子、藥理學(xué)和物理化學(xué)數(shù)據(jù)源,Open PHACTS成為以有意義和可再現(xiàn)的方式響應(yīng)結(jié)構(gòu)化、定義良好的查詢的最新藥物發(fā)現(xiàn)平臺(tái),便于科學(xué)家訪問(wèn)和處理多源數(shù)據(jù),進(jìn)行藥物發(fā)現(xiàn)研究[16]。
圖4通過(guò)對(duì)多巴胺受體藥物發(fā)現(xiàn)項(xiàng)目的化學(xué)物質(zhì)的全面鑒定(A)、與疾病相關(guān)的抗表皮生長(zhǎng)因子受體(ErbB)信號(hào)傳導(dǎo)通路中所有靶標(biāo)活性化合物的鑒定(B)和評(píng)估維生素D代謝通路中的靶標(biāo)以輔助維生素新類似物的設(shè)計(jì)3個(gè)檢索案例,說(shuō)明 Open PHACTS如何在藥物發(fā)現(xiàn)過(guò)程中挖掘已有知識(shí)和發(fā)現(xiàn)新的假設(shè)。
圖4 Open PHACTS 平臺(tái)(橙色)可檢索的關(guān)聯(lián)數(shù)據(jù)庫(kù)及提供的信息(包括進(jìn)一步通過(guò)外部數(shù)據(jù)庫(kù)BLAST 進(jìn)行序列相似性檢索及訪問(wèn)專有數(shù)據(jù)庫(kù))[16]
在數(shù)據(jù)挖掘和模型預(yù)測(cè)中,數(shù)據(jù)質(zhì)量的重要性不言而喻,只有嚴(yán)謹(jǐn)準(zhǔn)確的數(shù)據(jù)才能進(jìn)行可靠的挖掘、產(chǎn)生有價(jià)值的結(jié)論和有效的預(yù)測(cè)。
臨床數(shù)據(jù)共享并非簡(jiǎn)單的行政命令就能解決,其中所涉及的知識(shí)產(chǎn)權(quán)問(wèn)題、數(shù)據(jù)質(zhì)量問(wèn)題、能否建立精確的受控詞表等問(wèn)題,是能否實(shí)現(xiàn)有效數(shù)據(jù)共享的關(guān)鍵。
本文介紹的2個(gè)制藥行業(yè)新藥研發(fā)數(shù)據(jù)共享的成功案例值得參考借鑒。
eTOX正在變成制藥領(lǐng)域獲取全身毒性報(bào)告的最大、最相關(guān)的臨床前數(shù)據(jù)庫(kù),可以預(yù)見(jiàn)未來(lái)該成果將被更廣泛地推廣和應(yīng)用。其建立的新藥研發(fā)數(shù)據(jù)共享機(jī)制和質(zhì)量控制模式值得我們參考。
迄今為止,我國(guó)各種數(shù)據(jù)平臺(tái)建設(shè)中的信息孤島現(xiàn)象仍未消除。近年來(lái),由國(guó)家、省、市、各部委資助的各種疾病大數(shù)據(jù)平臺(tái)、精準(zhǔn)醫(yī)學(xué)平臺(tái)紛紛上馬,但是多源異構(gòu)數(shù)據(jù)的質(zhì)量標(biāo)準(zhǔn)是否已經(jīng)建立并普及、平臺(tái)能否互聯(lián)互通仍然存疑;藥物研發(fā)數(shù)據(jù)資源的共享開(kāi)放、協(xié)同應(yīng)用通道仍未打通,統(tǒng)一歸口的藥物研發(fā)數(shù)據(jù)共享機(jī)制尚未建立;平臺(tái)研發(fā)、語(yǔ)義本體研究依然各行其是,人力物力投入巨大,但是達(dá)到預(yù)期目的、能夠投入使用的數(shù)據(jù)平臺(tái)卻寥寥無(wú)幾。
2016年,為規(guī)范和推動(dòng)健康醫(yī)療大數(shù)據(jù)融合共享、開(kāi)放應(yīng)用,消除信息孤島,國(guó)務(wù)院辦公廳發(fā)布了“關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見(jiàn)”,提出圍繞重大疾病臨床用藥研制、藥物產(chǎn)業(yè)化共性關(guān)鍵技術(shù)等需求,建立藥物副作用預(yù)測(cè)、創(chuàng)新藥物研發(fā)數(shù)據(jù)融合共享機(jī)制[17]。2018年3月17日,我國(guó)《科學(xué)數(shù)據(jù)管理》正式發(fā)布,明確加強(qiáng)科學(xué)數(shù)據(jù)全生命周期管理,按照“開(kāi)放為常態(tài)、不開(kāi)放為例外”的共享理念,把確保數(shù)據(jù)安全放在首要位置,突出科學(xué)數(shù)據(jù)共享利用。
在國(guó)家政策的保障和指導(dǎo)下,在執(zhí)行層面上,建議建立藥物研發(fā)平臺(tái)注冊(cè)制度,無(wú)論是國(guó)家級(jí)的資助平臺(tái)項(xiàng)目,還是省、地、市級(jí)的資助項(xiàng)目,凡獲得立項(xiàng)者,必須在國(guó)家統(tǒng)一的平臺(tái)注冊(cè),注冊(cè)內(nèi)容應(yīng)包括負(fù)責(zé)單位、負(fù)責(zé)人、參與單位、建設(shè)目標(biāo)、擬采用的技術(shù)標(biāo)準(zhǔn)、完成時(shí)間等,并定期匯報(bào)進(jìn)展和完成情況,不注冊(cè)者不予結(jié)項(xiàng),使全國(guó)上下的平臺(tái)研發(fā)處于統(tǒng)一標(biāo)準(zhǔn)和規(guī)范之下,避免重復(fù)、無(wú)序研究。在保護(hù)知識(shí)產(chǎn)權(quán)和敏感信息保密的前提下,制定醫(yī)藥數(shù)據(jù)的分類、分級(jí)標(biāo)準(zhǔn),消除行業(yè)的信息共享壁壘,建設(shè)互聯(lián)互通的藥物研發(fā)數(shù)據(jù)平臺(tái),促進(jìn)軍地健康醫(yī)療數(shù)據(jù)規(guī)范銜接、互通共享、協(xié)同應(yīng)用。
數(shù)據(jù)質(zhì)量是當(dāng)前我國(guó)藥物研發(fā)領(lǐng)域面臨的嚴(yán)峻問(wèn)題,沒(méi)有質(zhì)量保證的大數(shù)據(jù)就沒(méi)有利用價(jià)值。
2016年,國(guó)家食品藥品監(jiān)督局對(duì)藥物臨床試驗(yàn)數(shù)據(jù)的自查核查發(fā)現(xiàn),逾80%的新藥臨床數(shù)據(jù)涉假(造假行為包括修改或編造受試者信息、試驗(yàn)數(shù)據(jù)、試驗(yàn)記錄、試驗(yàn)藥物信息),以市場(chǎng)購(gòu)買藥品替代自行研制的試驗(yàn)用藥品,以其他方式使用虛假試驗(yàn)用藥品,隱瞞、棄用或以其他方式選擇性使用試驗(yàn)數(shù)據(jù),瞞報(bào)或漏報(bào)可能與臨床試驗(yàn)用藥相關(guān)的嚴(yán)重不良事件等,破壞了藥物臨床試驗(yàn)數(shù)據(jù)的真實(shí)性[18-19]。
2015年一項(xiàng)對(duì)我國(guó)公開(kāi)發(fā)表的新藥臨床藥動(dòng)學(xué)試驗(yàn)數(shù)據(jù)質(zhì)量的調(diào)查顯示,在同一藥物品種的生物等效性試驗(yàn)中,報(bào)道的藥動(dòng)學(xué)參數(shù)存在巨大差異,最大達(dá)到400倍之多[18]。
臨床試驗(yàn)是創(chuàng)新藥從基礎(chǔ)實(shí)驗(yàn)進(jìn)入人體研究的開(kāi)端,其結(jié)果直接關(guān)系到后續(xù)臨床試驗(yàn)的方案設(shè)計(jì)及安全性、有效性結(jié)論。據(jù)其得出的研究結(jié)論與生命健康息息相關(guān),因而臨床試驗(yàn)數(shù)據(jù)的準(zhǔn)確性至關(guān)重要。
現(xiàn)階段我國(guó)藥物研發(fā)的臨床試驗(yàn)數(shù)據(jù)存在質(zhì)量、誠(chéng)信和技術(shù)等不同層面的問(wèn)題,要開(kāi)展基于大數(shù)據(jù)的知識(shí)挖掘和模型預(yù)測(cè)、實(shí)現(xiàn)有效的數(shù)據(jù)共享,還任重道遠(yuǎn)。
國(guó)外的醫(yī)學(xué)數(shù)據(jù)質(zhì)量亦不樂(lè)觀。由于網(wǎng)絡(luò)普及,用戶可以多渠道獲取數(shù)據(jù)和集成信息,致使劣質(zhì)信息產(chǎn)生和傳播的風(fēng)險(xiǎn)達(dá)到空前的水平[20]。
臨床數(shù)據(jù)的爆炸性增長(zhǎng)伴生了大量的劣質(zhì)數(shù)據(jù)、垃圾數(shù)據(jù),嚴(yán)重降低了醫(yī)療大數(shù)據(jù)的價(jià)值密度。如果不加甄別地使用,將會(huì)導(dǎo)致源于數(shù)據(jù)的知識(shí)和決策的失誤。
2014年7月,面對(duì)越來(lái)越多的科學(xué)數(shù)據(jù)造假,本著對(duì)科學(xué)數(shù)據(jù)質(zhì)量的重視與負(fù)責(zé),《科學(xué)》雜志聘請(qǐng)了美國(guó)統(tǒng)計(jì)協(xié)會(huì)的7位科學(xué)家組成數(shù)據(jù)編輯委員會(huì),專門負(fù)責(zé)論文的數(shù)據(jù)審查工作,通過(guò)可重復(fù)試驗(yàn)和驗(yàn)證科學(xué)數(shù)據(jù)推進(jìn)科學(xué)進(jìn)步[21]。
臨床試驗(yàn)數(shù)據(jù)共享不但需要解決知識(shí)產(chǎn)權(quán)保護(hù)問(wèn)題、利益分配問(wèn)題、平臺(tái)建立問(wèn)題,還需要特別關(guān)注數(shù)據(jù)的質(zhì)量問(wèn)題。 因此我國(guó)必須加強(qiáng)數(shù)據(jù)監(jiān)管,加強(qiáng)學(xué)術(shù)誠(chéng)信建設(shè),有效提高和確保藥物研發(fā)數(shù)據(jù)的可靠性。
當(dāng)前我國(guó)為新藥研發(fā)提供的知識(shí)服務(wù)都是源于可直接利用的知識(shí)和信息,整合多個(gè)數(shù)據(jù)庫(kù),尚未進(jìn)行知識(shí)識(shí)別和知識(shí)推理[10]。
隨著人工智能的發(fā)展,藥物研發(fā)數(shù)據(jù)平臺(tái)建設(shè)應(yīng)向智能預(yù)測(cè)、知識(shí)推理發(fā)展,應(yīng)具備融合多源數(shù)據(jù)進(jìn)行藥物知識(shí)發(fā)現(xiàn)的能力,提高藥物知識(shí)發(fā)現(xiàn)的效率和成功率,縮短藥物研發(fā)周期,減少經(jīng)濟(jì)成本。
為實(shí)現(xiàn)新藥研發(fā)數(shù)據(jù)的有效共享,我國(guó)應(yīng)建立數(shù)據(jù)平臺(tái)研發(fā)注冊(cè)制度,避免重復(fù)、無(wú)序研究;以國(guó)家藥品數(shù)據(jù)中心為核心,建立藥物標(biāo)準(zhǔn)本體庫(kù);采取切實(shí)可行措施,加強(qiáng)數(shù)據(jù)質(zhì)量監(jiān)管;組織多學(xué)科合作,借助人工智能,融合多源異構(gòu)文本資源,研發(fā)具備知識(shí)預(yù)測(cè)和發(fā)現(xiàn)的藥學(xué)知識(shí)庫(kù),為我國(guó)新藥研發(fā)提供高效的解決方案。
中華醫(yī)學(xué)圖書(shū)情報(bào)雜志2018年7期