石林春+姚輝+謝麗芳+朱英杰+宋經(jīng)元+張輝+陳士林
[摘要]課題組聯(lián)合相關(guān)研究者開展動物藥材DNA條形碼分子鑒定研究,并結(jié)合分析GenBank序列,采用BLAST分析防錯、系統(tǒng)樹分析防錯和Barcoding Gap檢驗(yàn)防錯等方法核驗(yàn)序列的可靠性,構(gòu)建了中國動物藥材DNA條形碼數(shù)據(jù)庫。該庫由樣品數(shù)據(jù)庫、序列數(shù)據(jù)庫和文獻(xiàn)數(shù)據(jù)庫組成,包含800余種動物藥材和大量動物藥材混偽品及密切相關(guān)物種。中國動物藥材DNA條形碼數(shù)據(jù)庫可以通過中藥材DNA條形碼鑒定系統(tǒng)(www.tcmbarcode.cn)進(jìn)行網(wǎng)絡(luò)訪問并實(shí)現(xiàn)未知動物樣本的DNA條形碼鑒定。該研究首次構(gòu)建統(tǒng)一的中國動物藥材DNA條形碼數(shù)據(jù)庫,對動物藥材鑒定、資源可持續(xù)利用和瀕危物種保護(hù)均有重要意義。
[關(guān)鍵詞]動物藥材;數(shù)據(jù)庫;COI;鑒定
DNA條形碼技術(shù)是動物藥材鑒定的新工具[1],國家藥典委員會已討論通過在《中國藥典》增補(bǔ)本中列入中藥材DNA條形碼分子鑒定指導(dǎo)原則[2]。本課題組聯(lián)合相關(guān)研究者開展了大量的動物藥材DNA條形碼分子鑒定研究工作。鄢丹等對包含羚羊角、鹿角的傳統(tǒng)角類藥材進(jìn)行DNA條形碼研究[3],并以此為基礎(chǔ)提出了瀕危動物藥材的貿(mào)易監(jiān)控和替代品尋找策略[4]。張輝等對《中國藥典》45種動物藥材及其混偽品進(jìn)行DNA條形碼研究,結(jié)果表明45種動物藥材的正品來源與其混偽品均可相互區(qū)分[5]。崔麗娜等利用COI序列對金錢白花蛇及其常見混偽品進(jìn)行DNA條形碼鑒別研究,結(jié)果表明,金錢白花蛇COI序列可以明確地與混偽品區(qū)分開[6]。胡嶸等對海馬、海龍及其混偽品共14個(gè)種20份樣品的COI條形碼序列進(jìn)行研究,結(jié)果表明運(yùn)用COI序列能夠準(zhǔn)確鑒定海馬、海龍的基原動物及其混偽品[7]。此外,還開展了龜甲、鱉甲、鹿茸以及蛤殼等的DNA條形碼研究工作[8-11]。動物DNA條形碼分子鑒定研究工作的大量開展,為構(gòu)建中國動物藥材DNA條形碼數(shù)據(jù)庫奠定了基礎(chǔ)。
DNA條形碼數(shù)據(jù)庫不僅是存儲樣品信息和DNA條形碼序列的工具,而且是DNA條形碼研究和物種鑒定分析的生物信息學(xué)平臺,對推動DNA條形碼研究發(fā)展具有重要意義[12]。第一個(gè)國際DNA條形碼數(shù)據(jù)系統(tǒng)(BOLD)由國際生命條形碼聯(lián)盟(CBOL)于2007年建立[13]。此外,國際上還有多個(gè)針對特定動物類群的條形碼數(shù)據(jù)庫,如:Fish Barcode of Life Campaign (FISH-BOL,http://www.fishbol.org/),Lepidoptera Barcode of Life(http://lepbarcoding.org/),Mammalia Barcode of Life Campaign(http://www.mammaliabol.org/)。此外,邵鵬柱等初步構(gòu)建了傳統(tǒng)藥物DNA條形碼數(shù)據(jù)庫(http://137.189.42.34/mherbsdb/),包含1 661個(gè)物種,36 679條序列[14]。當(dāng)前,我國尚未構(gòu)建統(tǒng)一的動物藥材DNA條形碼數(shù)據(jù)庫,制約了DNA條形碼技術(shù)在動物藥材鑒定、資源可持續(xù)利用和瀕危物種保護(hù)中的進(jìn)一步應(yīng)用。
1 材料
中國動物藥材DNA條形碼數(shù)據(jù)庫中的序列來自于課題組聯(lián)合相關(guān)研究者所開展的動物藥材DNA條形碼分子鑒定研究及GenBank,包含800余種動物藥材和大量動物藥材混偽品及密切相關(guān)物種(表1)。
2 方法
對包含測序峰圖的樣品,根據(jù)Q值進(jìn)行單堿基和序列質(zhì)量檢測。對不包含測序峰圖的樣品,使用EMBOSS Transeq將核酸序列翻譯為蛋白序列,利用隱馬爾可夫模型(hidden Markov model,HMM)進(jìn)行COI條形碼區(qū)域核驗(yàn)[13]。采用BLAST分析防錯、系統(tǒng)樹分析防錯和Barcoding Gap檢驗(yàn)防錯等核驗(yàn)COI序列的可靠性[2],使用Muscle 3.8 進(jìn)行多序列比對[15],使用Paup 4.0進(jìn)行遺傳距離計(jì)算[16],使用MEGA 6.0構(gòu)建NJ(鄰接法)系統(tǒng)聚類樹[17]。使用BLAST方法進(jìn)行物種鑒定分析,使用MySQL進(jìn)行數(shù)據(jù)庫管理,通過MySQLdb連接MySQL數(shù)據(jù)庫。
3 結(jié)果與討論
3.1 數(shù)據(jù)庫構(gòu)成 中國動物藥材DNA條形碼數(shù)據(jù)庫由樣品數(shù)據(jù)庫、序列數(shù)據(jù)庫和文獻(xiàn)數(shù)據(jù)庫構(gòu)成。樣品數(shù)據(jù)庫包含完整的樣品采集和鑒定信息,即:樣品編號、分類信息、憑證信息、采集者、采集地、鑒定者、1張到數(shù)張樣品及生境照片等。從GenBank中下載GB格式文件,利用BioPython進(jìn)行解析。僅保留物種分類地位清晰,拉丁名不包含“sp.”,“spp.”等字符的Record。提取Record注釋中基因名稱為“COI”或“CO1”區(qū)域的序列,如Record來自于已發(fā)表的文獻(xiàn),收集該文獻(xiàn)的PubMed ID、題目、作者、期刊、摘要等信息構(gòu)成文獻(xiàn)數(shù)據(jù)庫。此外,文獻(xiàn)數(shù)據(jù)庫還包含本課題組聯(lián)合相關(guān)研究者所開展的動物藥材DNA條形碼分子鑒定研究文獻(xiàn)。中國動物藥材DNA條形碼數(shù)據(jù)庫包含2010年版《中國藥典》[18]和《中國藥用動物志》(第2版)[19]所載800余種動物藥材和大量動物藥材的混偽品和密切相關(guān)物種的COI序列。此外,中國動物藥材DNA條形碼數(shù)據(jù)庫還包含樣品采集、樣品處理、DNA提取、PCR 擴(kuò)增、測序、序列拼接及結(jié)果判定等的標(biāo)準(zhǔn)操作方法和技術(shù)流程(圖1)。
3.2 數(shù)據(jù)庫動態(tài)管理 中國動物藥材DNA條形碼數(shù)據(jù)庫每6個(gè)月更新1次。新增加樣品如包含測序峰圖,則依照中藥材DNA條形碼分子鑒定指導(dǎo)原則去除測序峰圖兩端的低質(zhì)量區(qū)域[2],即:以20 bp的窗口分別從序列5′端和3′端進(jìn)行滑動,如果窗口內(nèi)有多于2個(gè)堿基的Q值<20,則刪除1個(gè)堿基,窗口繼續(xù)滑動1個(gè)堿基;如果窗口內(nèi)堿基Q值小于20的數(shù)目≤2,窗口停止滑動。測序峰圖的剩余部分須≥300 bp,平均Q值≥30。拼接結(jié)果長度須大于500 bp,Q值小于20的堿基數(shù)須≤1%,平均Q值須≥40。新增加樣品如不包含測序峰圖,使用EMBOSS Transeq將新增加COI序列翻譯為蛋白序列,使用隱馬爾可夫模型進(jìn)行COI條形碼區(qū)域核驗(yàn),序列中COI條形碼區(qū)域的長度須≥500 bp,且Ns≤1%。最后將序列與已有參考數(shù)據(jù)庫進(jìn)行比對,去除可能的外源污染,例如螨蟲、人等的COI序列。endprint