李 新,杜 昕,馬長生
從生物樣本庫到開放數(shù)據(jù)庫
李 新,杜 昕,馬長生
生物樣本庫建設(shè)在國內(nèi)處于迅猛發(fā)展階段,然而如何有效地將生物樣本庫中已整合的資源優(yōu)勢轉(zhuǎn)化為科學(xué)優(yōu)勢,從而實現(xiàn)生物樣本庫建設(shè)的終極目標(biāo),在國內(nèi)還缺乏成熟機制。建立數(shù)據(jù)庫共享機制,是公益性生物樣本庫長期可持續(xù)發(fā)展的有效途徑。本文旨在通過對國際著名生物樣本庫(UK Biobank,英國生物樣本庫)和遺傳變異數(shù)據(jù)庫(HapMap數(shù)據(jù)庫,人類基因組單體型圖數(shù)據(jù)庫)的應(yīng)用情況介紹,闡述生物樣本庫持續(xù)推動科研項目進展、促進科研成果產(chǎn)生的意義。
生物樣本庫;數(shù)據(jù)庫;共享機制
生物樣本庫是進行轉(zhuǎn)化醫(yī)學(xué)研究的重要資源,正日益受到各國政府及科研單位的高度重視。生物樣本庫建設(shè)在國內(nèi)逐漸升溫,這也從一個側(cè)面體現(xiàn)出國內(nèi)對轉(zhuǎn)化醫(yī)學(xué)的高度重視。同時,生物樣本庫建設(shè)的興起與國內(nèi)科研經(jīng)費投入的持續(xù)增長密不可分??蒲薪?jīng)費的增長使得整體科研規(guī)模擴大,而樣本是大多數(shù)生物及醫(yī)學(xué)類基礎(chǔ)研究的根本,因此生物樣本庫建設(shè)對于推動我國科研事業(yè)的發(fā)展意義重大。國內(nèi)已出現(xiàn)一些生物樣本庫規(guī)范化建設(shè)方面的專著、系列培訓(xùn)和會議,對于我國生物樣本庫的建設(shè)起到了積極的推動作用,其中對生物樣本庫建設(shè)的規(guī)范化操作流程和樣本收集、儲存的技術(shù)問題都有大量涉及。本文僅探討生物樣本庫資源共享的意義和機制。
要探討生物樣本庫共享的意義,首先要回答生物樣本庫為何要共享這一問題。首先,當(dāng)前人類單基因遺傳病的解析已不再是難題,一個全面揭示所有復(fù)雜性疾病相關(guān)基因和人類遺傳機制的時代已經(jīng)來臨。通常對于復(fù)雜疾病的研究需要較大的樣本量才能獲得有意義的研究結(jié)果,單一醫(yī)院難以在短期內(nèi)完成全部所需樣本收集。2013年在Nature Genetics上發(fā)表的對于心率關(guān)聯(lián)位點的研究,共應(yīng)用了來自多個醫(yī)院和研究中心的181 171例個體的數(shù)據(jù),鑒定出14個與心率相關(guān)的新位點[1]。大型研究對于樣本的需求量和時效性已經(jīng)超出了單一醫(yī)院的能力。其次,生物樣本庫建設(shè)的終極目標(biāo)不是保存樣本,而是通過對其保存樣本的應(yīng)用,開展各類研究,并將研究結(jié)果最后轉(zhuǎn)化為可應(yīng)用的技術(shù)成果。雖然人類整體的生物、醫(yī)療數(shù)據(jù)量在增加,可以進行一些規(guī)律性分析,但對于每一個體而言只有一個大致的總體規(guī)律還遠遠不夠。要想實現(xiàn)個體化醫(yī)療,目前的信息和知識都還很匱乏,必須盡可能全面地收集每個患者的各種信息,包括臨床診斷、藥物反應(yīng)、長期臨床事件追蹤、基因組、表觀基因組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組等信息。在這些生物組學(xué)信息中,除了基因組信息比較恒定之外,其他組學(xué)信息都是高度可變的。所以,在某些基礎(chǔ)研究和臨床應(yīng)用中對同一樣本只收集1次信息肯定是不夠的,比如人體同一時刻不同組織中或同一組織不同生理階段下轉(zhuǎn)錄組就有較大差異。要收集這樣龐大的數(shù)據(jù)體系,僅通過生物樣本庫機構(gòu)本身的力量顯然是杯水車薪。因此,生物樣本庫必須通過樣本和數(shù)據(jù)共享,吸引更多、更有實力科研團體的合作,致力推進科研進展,才能加快解決轉(zhuǎn)化醫(yī)學(xué)中的關(guān)鍵問題,比如實現(xiàn)真正的個體化醫(yī)療。
要探討生物樣本庫共享的機制,就必然涉及什么是生物樣本庫共享的最佳方式這一問題。開放數(shù)據(jù)庫則是生物樣本庫實現(xiàn)共享的最有效途徑,也是生物樣本庫可持續(xù)發(fā)展的必備條件。大數(shù)據(jù)時代已經(jīng)到來,生物技術(shù)的迅速發(fā)展所產(chǎn)生海量數(shù)據(jù)必須通過規(guī)范化的數(shù)據(jù)庫來實現(xiàn)數(shù)據(jù)存儲與管理。只有建立了規(guī)范化的數(shù)據(jù)庫,將來才有可能對接到大型研究中,比如超大規(guī)模的分子流行病學(xué)研究計劃,從而為制定公共衛(wèi)生政策奠定基礎(chǔ)。一個樣本收集的信息量越豐富,這個樣本的潛在研究價值就越高。通過樣本共享和開放數(shù)據(jù)庫的應(yīng)用,提高樣本利用率,并將研究數(shù)據(jù)反饋給生物樣本庫,從而不斷豐富樣本的各類數(shù)據(jù),使之能夠應(yīng)用于更多有意義的研究。這是一個良性循環(huán)過程,其最終結(jié)果是通過加快對樣本的透徹研究,產(chǎn)生對樣本貢獻者及全人類有用的成果。這正符合轉(zhuǎn)化醫(yī)學(xué)“從實驗臺到病床旁”的目的。
通過對英國生物樣本庫(UK Biobank)、國際人類基因組單體型圖計劃協(xié)作組遺傳變異數(shù)據(jù)庫(HapMap數(shù)據(jù)庫)應(yīng)用情況介紹,闡述生物樣本庫持續(xù)推動科研項目進展、促進科研成果轉(zhuǎn)化的意義。3.1 UK Biobank UK Biobank是目前世界上已建成的規(guī)模最大的人類遺傳隊列生物樣本庫。UK Biobank在2006—2010年完成了全英國范圍50萬名志愿者樣本的收集,占英國總?cè)丝诘?%,入選的志愿者年齡40~69歲。收集了所有入選志愿者的血液、尿液和唾液樣本,經(jīng)過了系列基本檢測,并跟蹤記錄他們此后醫(yī)療檔案中的健康資料,最終建成一個國家級的健康資源庫。2013年3月,UK Biobank正式宣布將對全部樣本進行詳細的DNA分析。目前,UK Biobank已與Affymetrix公司合作完成了基因分型芯片的設(shè)計,并已在5萬份樣本中完成了基因分型實驗。UK Biobank希望通過開放這些資源,使之能夠持續(xù)用于研究,最終回答個體之間為何會產(chǎn)生疾病易感性差異這一關(guān)乎公共利益的重大問題。
所收集的信息都儲存在網(wǎng)絡(luò)上,免費對經(jīng)過科學(xué)和倫理批準(zhǔn)的世界范圍內(nèi)的研究人員開放。當(dāng)然,為了保護志愿者的隱私權(quán)益,在一定安全范圍內(nèi)會隱藏志愿者的個人信息。研究人員希望收集的大量信息能夠幫助闡明遺傳因素、生活方式及其相互作用對一些常見疾病,如心臟病、癌癥、糖尿病和癡呆等產(chǎn)生的影響。UK Biobank現(xiàn)已對研究者正式開放其數(shù)據(jù)資源[2],從2012年10月—2013年11月,在UK Biobank官網(wǎng)上列出的獲批研究有35項,廣泛涉及生物、醫(yī)藥領(lǐng)域各方向的研究。比如對抑郁癥和雙向情感障礙在英國發(fā)病率的分析[3]、對骨質(zhì)疏松的流行病學(xué)調(diào)查[4]。除了復(fù)雜疾病相關(guān)研究外,UK Biobank作為一個人口資源庫,還可用于對群體性狀的研究,比如對人類左右手握力特征的研究[5]。
UK Biobank對資源開放政策的一個原則是任何使用UK Biobank資源的研究其目的都是公益性的,都要將其研究產(chǎn)生的相關(guān)數(shù)據(jù)及分析結(jié)果回饋到UK Biobank,并繼續(xù)用于未來的研究。這一原則確保了資源庫的數(shù)據(jù)越來越豐富,可利用性越來越強,確保了資源庫的可持續(xù)發(fā)展。因此,UK Biobank認為使用資源就是對資源庫的投入。
3.2 HapMap數(shù)據(jù)庫 HapMap數(shù)據(jù)庫(http:/www. hapmap.org)是國際人類基因組單體型圖計劃(簡稱HapMap計劃)將所產(chǎn)生的全部數(shù)據(jù)對公眾免費開放的平臺[6]。HapMap計劃于2002年啟動,是一個多國參與的合作項目,旨在確定和編目人類遺傳的相似性和差異性。在2012年3月美國國家衛(wèi)生研究院(National Institutes of Health,NIH)宣布其千人基因組計劃的全部數(shù)據(jù)將免費對外開放之前,HapMap一直是世界上最大的人類基因變異數(shù)據(jù)庫,得到了廣泛應(yīng)用,尤其推動了人類復(fù)雜疾病遺傳因素的研究進入新的階段。
HapMap計劃初期收集了非裔、亞裔和歐裔的4個群體(共270份樣本),分別是尼日利亞伊巴丹市的約魯巴人、日本東京市的日本人、中國北京市的漢族人和人類多態(tài)性研究中心的樣本(祖籍是北歐或西歐的美國猶他州人)[7]。2007年已公布了包含310萬個單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)的第2代人類基因組單體型圖譜[8],2010年又增加至全球11個群體1 184份樣本的全基因組SNPs基因型數(shù)據(jù)和其中692份樣本的100 kb測序數(shù)據(jù)[9],進一步豐富了HapMap數(shù)據(jù)庫。HapMap計劃不僅通過其國際協(xié)作組本身產(chǎn)生數(shù)據(jù),同時大力鼓勵研究者發(fā)表對HapMap數(shù)據(jù)和其他研究計劃的數(shù)據(jù)相結(jié)合的文章,尤其是致力于尋找影響疾病或藥物應(yīng)答的基因;同樣鼓勵研究者使用HapMap數(shù)據(jù)來發(fā)表分析多態(tài)性、連鎖不平衡和相關(guān)數(shù)據(jù)的新方法。正是這種數(shù)據(jù)開放政策使HapMap成為應(yīng)用最為廣泛、最為深入的人類群體基因型數(shù)據(jù)庫。如同人類基因組計劃,HapMap計劃的完成是一個里程碑式的成就,從研究策略到分析與推算的多種方法,均代表了當(dāng)時最先進的科研水平,具有極高應(yīng)用性和創(chuàng)新性。在保證數(shù)據(jù)和相關(guān)研究工具全部免費開放的同時,HapMap計劃國際協(xié)作組還將本計劃采集的全球共11個群體樣本的DNA和培養(yǎng)細胞系樣本存放在美國國家人類基因組研究中心(NIH的一個分部),可供全球研究者申請使用。唯一遺憾的是,HapMap計劃采集的這些樣本都是一般意義上的健康、正常個體,沒有附帶表型信息或任何醫(yī)療信息。然而,這絲毫不妨礙HapMap數(shù)據(jù)庫作為一個人類群體遺傳資源數(shù)據(jù)庫對于遺傳多態(tài)性和基因組研究所產(chǎn)生的不可替代的重要意義,HapMap數(shù)據(jù)庫的奠基作用對于后續(xù)開展的系列全基因組規(guī)模研究的巨大推動大大超出預(yù)料。
中國是HapMap計劃的參與國,是其中唯一產(chǎn)生數(shù)據(jù)的發(fā)展中國家。我國參與這樣大型國際項目的經(jīng)驗有益于國內(nèi)今后建設(shè)類似HapMap的大型公益性科研項目及數(shù)據(jù)庫。
4.1 UK Biobank和HapMap數(shù)據(jù)庫建設(shè)中面臨的問題 UK Biobank和HapMap數(shù)據(jù)庫的公益性宗旨和在此宗旨下執(zhí)行生物實體樣本與數(shù)據(jù)共享或公開政策的成功案例,對國內(nèi)建設(shè)大型公益性生物樣本庫無疑有借鑒意義。任何大型項目的成功都是多方共同努力的結(jié)果,也都歷經(jīng)曲折。UK Biobank目前已獲得良好的公眾支持和信任,被看作是廣泛利用個體數(shù)據(jù)開展研究的典范[10]。但因涉及大量醫(yī)療信息,其數(shù)據(jù)安全、醫(yī)學(xué)倫理及公眾信任度曾引起UK Biobank參與的志愿者、公眾和科研工作者熱烈討論[11-13]。UK Biobank獲得了政府的廣泛支持,但也曾報道因?qū)嶋H操作困難重重而進展緩慢[14]。
與UK Biobank不同,HapMap計劃僅采集了入選志愿者的外周血樣本用于DNA變異分析,未收集表型和臨床信息,其相關(guān)的數(shù)據(jù)安全、倫理信息處理起來相對簡單,但是在HapMap計劃實施過程中卻面臨著其他方面的挑戰(zhàn)。為了與可能的基因或SNPs專利趕超時間,HapMap計劃國際協(xié)作組特別采取了根據(jù)項目進度隨時公布數(shù)據(jù)的策略,在HapMap計劃網(wǎng)站上將所有階段性數(shù)據(jù)即時發(fā)布供全球研究人員無償使用。最終HapMap數(shù)據(jù)庫的所有數(shù)據(jù),包括低頻和罕見SNPs、分型技術(shù)、算法與結(jié)果等,全部無償公布。這些舉措消除了人們對大規(guī)模疾病相關(guān)基因和位點的專利被私營集團控制的憂慮。最終受政府支持的公益項目以其無法超越的規(guī)模和速度迫使多個啟動更早的企業(yè)相關(guān)項目,特別是針對復(fù)雜性疾病的計劃放棄對于SNPs的專利嘗試。不止一個企業(yè)有償或無償?shù)貙?shù)據(jù)納入到HapMap計劃中,甚至從競爭者轉(zhuǎn)為重要參加者[15]。
4.2 我國生物樣本庫建設(shè)面臨的資源共享問題
目前我國的生物樣本庫建設(shè)尚處于起步階段,但迅速升溫,尤其是近幾年在各級政府、基金委員會相關(guān)資源庫建設(shè)專項的支持下出現(xiàn)了一大批生物樣本庫建設(shè)項目。政府對生物樣本庫的重視無疑是一件好事,原則上以國家經(jīng)費為主要投入來源的生物實體樣本庫及數(shù)據(jù)庫都應(yīng)遵守公益性原則,對參與者和研究者開放。在實際操作中,因多種原因樣本及數(shù)據(jù)的共享是一個棘手的問題,也是我國生物樣本庫建設(shè)與發(fā)展中亟待解決的問題。要真正解決這一問題,必然涉及國家科研經(jīng)費分配體制、經(jīng)費使用考核機制的改革。生物樣本庫的建設(shè)尤其需要長期資金支持,在目前追求的“短、頻、快”的科研氛圍中,如何平衡長期穩(wěn)定發(fā)展和當(dāng)下利益也是一個問題。
當(dāng)前,即使中國短期內(nèi)無法建成UK Biobank那樣的大型國家生物樣本庫,也希望從目前國內(nèi)正在起步階段的眾多生物樣本庫中能盡快出現(xiàn)一個公益性質(zhì)的、對樣本捐獻者和研究者公開的數(shù)據(jù)庫,無論是人口庫或疾病庫,無論初始規(guī)模大或小,對國內(nèi)研究者都是一件幸事。呼吁國內(nèi)分散的生物樣本庫和數(shù)據(jù)庫能夠聯(lián)合起來,建設(shè)成一個國人的大型健康資源庫。然而,當(dāng)下中國的樣本庫建設(shè),尤其是“生物樣本共享機制在中國錯綜復(fù)雜的利益糾葛里走的步履維艱”[16]。無論如何,在現(xiàn)階段而言,只要能物有所用,能真正用于公益性的科研項目就是好的生物樣本庫。
生命科學(xué)和醫(yī)學(xué)研究都離不開生物樣本,“生物銀行”既是“當(dāng)務(wù)之急”,又是“百年大計”[16]。希望我國目前已建立的生物樣本庫中的“所有”能夠真正成為國內(nèi)科研工作者的研究“所用”,并最終將研究結(jié)果進一步轉(zhuǎn)化為人類的福祉。
[1]den Hoed M,Eijgelsheim M,Esko T,et al.Identification of heart rate-associated loci and their effects on cardiac conduction and rhythm disorders[J].Nat Genet,2013,45 (6):621-631.
[2]Watts G.UK Biobank opens it data vaults to researchers [J].BMJ,2012,344:e2459.
[3]Smith DJ,Nicholl BI,Cullen B,et al.Prevalence and characteristics of probablemajor depression and bipolar disorder within UK biobank:cross-sectional study of 172,751 participants[J].PLoSOne,2013,8(11):e75362.
[4]Harvey NC,Matthews P,Collins R,et al.Osteoporosis epidemiology in UK Biobank:a unique opportunity for international researchers[J].Osteoporos Int,2013,24(12): 2903-2905.
[5]Spruit MA,Sillen MJ,Groenen MT,et al.New normative values for handgrip strength:results from the UK Biobank [J].J Am Med Dir Assoc,2013,14(10):775.e5-775. e11.
[6]Thorisson GA,Smith AV,Krishnan L,et al.The International HapMap ProjectWeb site[J].Genome Res,2005,15(11):1592-1593.
[7]International HapMap Consortium.The International Hap-Map Project[J].Nature,2003,426(6968):789-796.
[8]International HapMap Consortium,F(xiàn)razer KA,Ballinger DG,et al.A second generation human haplotypemap of over 3.1 million SNPs[J].Nature,2007,449(7164):851-861.
[9]International HapMap 3 Consortium,Altshuler DM,Gibbs RA,et al.Integrating common and rare genetic variation in diverse human populations[J].Nature,2010,467(7311): 52-58.
[10]Thornton H.The UK Biobank project:trust and altruism are alive and well.Amodel for achieving public support for research using personal data[J].Int JSurg,2009,7(6): 501-502.
[11]Sullivan FM,Pell JP,Sweetland M,et al.How could primary caremeet the informatics needs of UK Biobank?A Scottish proposal[J].Inform Prim Care,2003,11(3): 129-135.
[12]Tutton R,Kaye J,Hoeyer K.Governing UK Biobank:the importance of ensuring public trust[J].Trends Biotechnol,2004,22(6):284-285.
[13]Laurie G.Role of the UK Biobank Ethics and Governance Council[J].Lancet,2009,374(9702):1676.
[14]Watson J,Cyranoski D.Beset by practical hurdles,UK Biobank moves at sluggish pace[J].Nat Med,2005,11 (7):696.
[15]曾長青.HapMap五周年回顧[J].科學(xué)觀察,2010,5(6): 61-66.
[16]季加孚.生物樣本庫的能力建設(shè)與最佳實踐[M].北京:科學(xué)出版社,2013.
Resource sharing of biobank through public database
LIXin,DU Xin,MA Changsheng
(Department of Cardiology,Beijing Anzhen Hospital,Capital Medical University,Beijing 100029,China)
Biobank or bioreporsitory construction is fastly developing in China.There are various growing biobanks supported by Chinese government foundations recently.However,almost none of them is currently available to public.Resource sharing can accelerate scientific findings and is necessary for long-term sustainability of the biobank.A mature resource sharing mechanism in China is yet to be developed.In this article,we discussed the way and the advantages of resource sharing through examples of the UK Biobank and the International HapMap Project,to discuss biobank on the research progress of scientific research project promotion and research achievements.
Biobank;Database;Sharingmechanism
R197.38
A
2095-3097(2014)06-0327-04
10.3969/j.issn.2095-3097.2014.06.002
2014-01-10 本文編輯:徐海琴)
北京市科委科技項目(D131100005313007);科技部項目(2011ZX09307-001-09)
100029北京,首都醫(yī)科大學(xué)附屬北京安貞醫(yī)院心內(nèi)科(李 新,杜 昕,馬長生)
馬長生,E-mail:chshma@vip.sina.com