国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

近5年上市心血管新藥適應(yīng)證的關(guān)聯(lián)分析

2013-12-23 04:50:24趙鴻萍蔣宏民武小川中國藥科大學理學院信息管理與信息系統(tǒng)教研室江蘇南京210009
中國醫(yī)院藥學雜志 2013年23期
關(guān)鍵詞:項集新藥事務(wù)

趙鴻萍,蔣宏民,武小川 (中國藥科大學理學院信息管理與信息系統(tǒng)教研室,江蘇 南京210009)

《醫(yī)藥工業(yè)“十二五”發(fā)展規(guī)劃》明確指出:我國醫(yī)藥工業(yè)在2011-2015 年間發(fā)展的首要任務(wù)是增強新藥創(chuàng)制能力[1]。桑國衛(wèi)院士在題為“我國生物醫(yī)藥產(chǎn)業(yè)和創(chuàng)新藥物發(fā)展戰(zhàn)略”的報告中,指出現(xiàn)在重磅炸彈的藥物已經(jīng)不是引領(lǐng)新藥創(chuàng)制的唯一途徑了,藥物再定位已成為當前新藥研發(fā)的一個熱點方向和重要趨勢。藥物再定位即開發(fā)已有化合物新適應(yīng)證的研發(fā)策略,包括現(xiàn)有候選藥物的新適應(yīng)證,上市藥物的新適應(yīng)證,擱置藥物的適應(yīng)證,在發(fā)展中市場上市但未在發(fā)達國家上市等方向[2]。

鑒于此,論文以SQL Server 2008 R2為平臺,對檢索湯森路透Pharma獲取的近5年間上市的心血管新藥的適應(yīng)證信息進行關(guān)聯(lián)分析,期望挖掘出心血管藥物再定位的一些規(guī)律和出發(fā)點,為新藥創(chuàng)制提供借鑒與參考。

1 關(guān)聯(lián)分析

關(guān)聯(lián)分析即關(guān)聯(lián)規(guī)則挖掘,是數(shù)據(jù)挖掘中最活躍的研究方法之一,它從大量的數(shù)據(jù)中挖掘出有價值的、描述數(shù)據(jù)項之間相互聯(lián)系的有關(guān)知識。

1.1 關(guān)聯(lián)分析的概念 設(shè)I={i1,i2,…,im}為所有項目的集合,D 為事務(wù)數(shù)據(jù)庫。

若X?I是由若干項目構(gòu)成的集合,則稱X 為項集。如果項集X 中包含k 個項目,則稱為k-項集。如果事務(wù)數(shù)據(jù)庫D 中有s%的事務(wù)包含項集X,稱項集X 的支持度為s%,記為support(X)=s%。如果項集X 的支持度大于用戶給定的最小支持度閾值min_sup,則稱X 為頻繁項集,或稱大項集。

設(shè)X?I,Y?I是2個項集,且X∩Y=Φ。如果事務(wù)數(shù)據(jù)庫D 中有t%的事務(wù)包含X∪Y,則稱關(guān)聯(lián)規(guī)則X?Y 的支持度為t%,記為support(X?Y)=t%。事務(wù)數(shù)據(jù)庫D 中包含X∪Y 的事務(wù)數(shù)與僅包含X 的事務(wù)數(shù)的比值稱為關(guān)聯(lián)規(guī)則X?Y 的信任度,也稱置信度或可信度,記為confidence(X?Y),即:

支持度是對關(guān)聯(lián)規(guī)則重要性(或適用范圍)的衡量。可信度是對關(guān)聯(lián)規(guī)則的準確度的衡量。

1.2 SQL Server2008 R2 關(guān) 聯(lián) 分 析 的 算 法 SQL Server2008 R2關(guān)聯(lián)分析采用的是Microsoft的關(guān)聯(lián)規(guī)則算法,實質(zhì)是著名的Apriori算法的實現(xiàn)。Apriori算法的核心思想是采用逐層遞推的方法,首先掃描事務(wù)數(shù)據(jù)庫,產(chǎn)生1-頻繁項集L1;然后由aproiri_gen函數(shù)利用Lk-1中的成員連接、剪枝后,產(chǎn)生候選頻繁項集Ck,通過掃描事務(wù)數(shù)據(jù)庫計算每個候選頻繁項集的支持度,并與用戶給定的最小支持度閾值min_sup比較,大于min_sup 的項集并入頻繁項集Lk中,……如此循環(huán)往復,直到再也不能產(chǎn)生新的候選頻繁項集時結(jié)束,最后合并全部頻繁項集。

Apriori算法偽代碼如下:

輸入:事務(wù)數(shù)據(jù)庫D;最小支持度閾值min_sup。輸出:D 中的頻繁項集L。

2 近5年上市心血管新藥適應(yīng)證的關(guān)聯(lián)分析

關(guān)聯(lián)分析主要包括3個步驟,分別是數(shù)據(jù)采集、數(shù)據(jù)的清理轉(zhuǎn)換、建模及結(jié)果分析。

2.1 數(shù)據(jù)采集 為了保證結(jié)果的高可信度,論文主要通過檢索全球最大的專業(yè)信息服務(wù)提供商-湯森路透集團的Pharma數(shù)據(jù)庫采集信息,獲得了2008年1月1日-2012年3月20日近5年間研究的心血管藥物共計3 723個,導出后保存為RESULTS.XLS,如圖1所示。

圖1 檢索結(jié)果Fig 1 Results of search

2.2 數(shù)據(jù)清理轉(zhuǎn)換 數(shù)據(jù)的清理轉(zhuǎn)換主要通過Excel和編程完成,主要做了以下工作:(1)由于收集到的數(shù)據(jù)出現(xiàn)字段混亂、缺失值較多等問題,論文首先對數(shù)據(jù)進行了整理,將內(nèi)容按字段條理化,并進行了聚集分桶處理,得到結(jié)果見圖2:

圖2 整理后的數(shù)據(jù)Fig 2 The reorganized data

(2)從以上結(jié)果中篩選出已上市藥物,共計556個;

(3)對已上市藥物提取Drug name和Therapy Areas 2列數(shù)據(jù);

(4)將含有多個適應(yīng)證的記錄拆分,如將“Drug name1→適應(yīng)證B1,適應(yīng)證B2”拆分成“Drug name1→適應(yīng)證B1”和“Drug name1→適應(yīng)證B2”;

(5)Drug name字段內(nèi)容轉(zhuǎn)化為t1,t2,…,t556,分別表示第1 個藥物的研發(fā)事務(wù)、第2 個藥物的研發(fā)事務(wù),…,第556個藥物的研發(fā)事務(wù),得到事務(wù)記錄共計2 346條;

(6)使用Office 2007數(shù)據(jù)挖掘外接程序中的“清除數(shù)據(jù)”功能清除數(shù)據(jù)中的離群值。

清理轉(zhuǎn)換后的數(shù)據(jù)見圖3。

圖3 清理轉(zhuǎn)換后的數(shù)據(jù)Fig 3 The cleaned and converted data

2.3 建模及結(jié)果分析 將事務(wù)數(shù)據(jù)表導入SQL Server 2008 R2建立數(shù)據(jù)庫,然后利用SQL Server 2008 R2 Analysis Service建立關(guān)聯(lián)模型,設(shè)定最低支持事務(wù)數(shù)為10,得到頻繁項集見表1。

表1 適應(yīng)證頻繁項集Tab 1 Frequent item sets of indications

以上共計獲得8個2-項頻繁項集,由項集的內(nèi)容顯示:(心絞痛,高血壓)、(心力衰竭,高血壓)、(水腫,高血壓)、(充血性心力衰竭,高血壓)、(心肌梗死,心絞痛)、(心肌梗死,高血壓)、(細菌感染,細菌性皮膚感染)和(深部靜脈血栓,血栓栓塞)共計8項適應(yīng)證聯(lián)合開發(fā)是當前心血管新藥研發(fā)的重要方向。由于模型的最低支持事務(wù)數(shù)設(shè)為10,因此每一個頻繁項集中的適應(yīng)證,至少都有10個已上市新藥同時包括,例如第一個頻繁項集(心絞痛,高血壓),近5年新上市的藥物中至少10個藥同時用于心絞痛和高血壓的治療。由此可以得出結(jié)論:對于一些研發(fā)終止的新藥,特別是臨床Ⅱ期或Ⅲ期終止研發(fā)的藥物,如果是因為上述適應(yīng)證中的某一個適應(yīng)證藥效不濟的原因,后續(xù)研發(fā)可考慮對應(yīng)頻繁項集中的另一個適應(yīng)證進行藥物再定位研發(fā),這樣有助于降低藥物研發(fā)的成本,縮短新藥研發(fā)的進程。同時,對于其他一些已上市或上市多年的藥物,再定位研發(fā)應(yīng)優(yōu)先考慮相應(yīng)頻繁項集中的另一項適應(yīng)證。

進一步挖掘關(guān)聯(lián)規(guī)則的推薦模式,設(shè)定置信度閾值為40%,得到結(jié)果見表2。

以上共計獲得7個關(guān)聯(lián)規(guī)則,按置信度高低排序,依次是:細菌性皮膚感染?細菌感染、細菌感染?細菌性皮膚感染、深部靜脈血栓?血栓栓塞、水腫?高血壓、心絞痛?高血壓、心力衰竭?高血壓和充血性心力衰竭?高血壓。

以上7個關(guān)聯(lián)規(guī)則是置信度較高的7個推薦模式,在每個模式里,前項推薦后項,意思是治療前項疾病的藥物推薦用于治療后項疾病。由于模型的置信度閾值為40%,意味著治療前項疾病的新藥中,超過40%的新藥同時還適用于后項的疾病。如最后一個關(guān)聯(lián)規(guī)則:充血性心力衰竭?高血壓,其意義是在近5年新上市的治療充血性心力衰竭的新藥中,超過40%的藥物同時還用于高血壓的治療。因此,這些高置信度模式除對臨床用藥有一定借鑒價值外,主要為心血管藥物的再定位研發(fā)提供了參考,即用于前項疾病治療的藥物推薦用于后項疾病的再定位研發(fā)。

表2 關(guān)聯(lián)規(guī)則Tab 2 Association rules

3 結(jié)語

論 文 基 于2008年1 月1 日-2012 年3 月20 日 共 計5年間研究的心血管藥物3 723個,提取出556條已上市藥物數(shù)據(jù);通過數(shù)據(jù)清理及轉(zhuǎn)換,產(chǎn)生出2 346個事務(wù);在此基礎(chǔ)上建立關(guān)聯(lián)模型,共挖掘出頻繁項集8個,關(guān)聯(lián)規(guī)則7條,共計15條藥物再定位參考信息。文中頻繁項集和關(guān)聯(lián)規(guī)則的數(shù)量均可以通過調(diào)節(jié)閾值參數(shù)增加或減少,論文為了保證結(jié)果的高可信度,設(shè)定了較高閾值。

鑒于文中數(shù)據(jù)來源于權(quán)威的湯森路透的Pharma,而且基于已上市藥物信息進行挖掘,同時使用業(yè)界著名的數(shù)據(jù)挖掘工具SQL Server 2008 R2進行關(guān)聯(lián)分析,研究工作同時兼具數(shù)據(jù)權(quán)威、技術(shù)先進、可靠、結(jié)論可信度高的優(yōu)點,可以作為心血管藥物再定位研發(fā)的出發(fā)點或重要參考。

[1] 中華人民共和國工業(yè)和信息化部.醫(yī)藥工業(yè)“十二五”發(fā)展規(guī)劃.Available from:http://www.miit.gov.cn/n11293472/n11293832/n11293907/n11368223/n14439892.files/n14439806.pdf[Last accessed July 10,2013].

[2] 桑國衛(wèi).我國生物醫(yī)藥產(chǎn)業(yè)和創(chuàng)新藥物發(fā)展戰(zhàn)略.Available from:http://zt.cast.org.cn/n435777/n435799/n14383669/n14673797/14736866.html[Last accessed July 10,2013].

猜你喜歡
項集新藥事務(wù)
“事物”與“事務(wù)”
基于分布式事務(wù)的門架數(shù)據(jù)處理系統(tǒng)設(shè)計與實現(xiàn)
河湖事務(wù)
丙型肝炎治療新藥 Simeprevir
魯先平:一個新藥的14年
新藥來自何方
關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一種頻繁核心項集的快速挖掘算法
計算機工程(2014年6期)2014-02-28 01:26:12
SQLServer自治事務(wù)實現(xiàn)方案探析
兩部委擬鼓勵新藥研發(fā)
四子王旗| 同德县| 陕西省| 紫阳县| 余庆县| 凤阳县| 甘谷县| 浦江县| 伊吾县| 长葛市| 隆子县| 奈曼旗| 宜章县| 五指山市| 噶尔县| 阜康市| 手游| 营口市| 友谊县| 肇源县| 黄浦区| 高淳县| 山东| 永寿县| 微山县| 精河县| 武陟县| 中超| 凤山县| 勃利县| 清镇市| 清流县| 延边| 北票市| 瑞丽市| 抚顺市| 开阳县| 灵寿县| 曲周县| 青海省| 达日县|