謝留威,李春義,巴恒星※
(1.中國農(nóng)業(yè)科學院特產(chǎn)研究所吉林省特種經(jīng)濟動物分子生物學省部共建國家重點實驗室,吉林 長春130112;2.長春科技學院,吉林 長春130600)
通常情況下,每個哺乳動物細胞含有大約100個線粒體,每個線粒體有2~10個線粒體DNA(mtDNA)拷貝[1-3]。在沒有組蛋白保護的情況下,mtDNA是高度易變的,其突變率是核DNA的6~17倍[4]。突變在細胞線粒體內(nèi)累積,與野生型共存,稱為mtDNA異質(zhì)性。目前,mtDNA異質(zhì)性已成為線粒體遺傳疾病的研究熱點[5]。許多研究認為,發(fā)育、衰老和世代演進的高頻率mtDNA異質(zhì)性是人類遺傳疾病的核心[6-7]。
對于已知的mtDNA異質(zhì)性突變,基于幾種PCR方法可以確定樣本中的突變位點及其相對頻率[8-11]。然而,對于發(fā)現(xiàn)未知突變,大規(guī)模的高通量測序技術(shù)更適合。但最近研究報道顯示,mtDNA異質(zhì)性檢測正從掃描已知的有限數(shù)量突變轉(zhuǎn)變?yōu)槿€粒體基因組篩查[12-13]。
ABI SOLiD測序平臺使用短讀長(35~75 bp),通過一種顏色編碼框架(color space),測序不同堿基之間顏色信號。每一個測序堿基都依賴于2個連續(xù)的顏色編碼值,當短讀長與參考基因組比對后,如出現(xiàn)測序錯誤(即單色差異)就可以與正確的堿基變化區(qū)別分開,這為重測序研究提供了新的非常具有優(yōu)勢的判定方法。這種獨特的編碼方式具有前后堿基校對功能,使堿基測序準確率高達99.94%[14]。本研究通過對一只雄性梅花鹿血細胞全基因組SOLiD測序數(shù)據(jù)進行分析,檢測mtDNA基因組中異質(zhì)性突變,以期為充分利用SOLiD全基因組測序數(shù)據(jù)鑒定未知的mtDNA異質(zhì)性點變異提供基本生物信息分析框架。
利用ABI SOLiD測序平臺對一只雄性梅花鹿血細胞進行全基因組雙末端測序,讀段長度為50 bp。另外,從GenBank中下載與全基因組測序梅花鹿屬于同一亞種的mtDNA全長序列(登錄號:KX689229)作為SOLiD測序數(shù)據(jù)比對的線粒體參考序列。
低頻變異檢測需要高質(zhì)量的測序數(shù)據(jù),過濾掉包含未知堿基或平均質(zhì)量分數(shù)低于20的讀段。使用PerM v0.4軟件[15],選項設置為“-A-E-seed F4-V5-L400-e”,將高質(zhì)量的讀段與mtDNA參考序列進行比對。在許多真核生物中,mtDNA經(jīng)常被轉(zhuǎn)移到核基因組中,產(chǎn)生了核線粒體假基因序列(nuclear mitochondrial DNA segments,NUMTs)。不同大小NUMTs片段與mtDNA序列存在高度差異[16-17]。根據(jù)NUMTs高變異率的特點,排除包含大于5個不匹配顏色值,相當于2~3個不匹配堿基(相似度≥94%)的讀段。由于NUMTs平均長度為240 bp[18],SOLiD成對末端測序文庫的平均雙末端長度為831 bp(圖1),這可以在一定程度上減少NUMTs的影響,同時去掉單端映射讀段。最后,利用Samtools v1.2[19]中的mpileup工具和Bcftools v1.3.1軟件[20]聯(lián)合檢測mtDNA異質(zhì)性點變異,在Tablet v1.18軟件中對點變異可視化顯示。
圖1雙末端長度分布Fig.1 Insert size distribution
過濾低質(zhì)量數(shù)據(jù)后,共獲得410 662 782(38 Gb)成對短讀段,相當于全基因組測序深度約13(38 Gb/3 Gb)。大約0.035%的成對讀段比對到mtDNA參考序列,覆蓋率為99.62%,在2 265~2 329(65 bp)區(qū)域未被短讀段覆蓋(圖2)。線粒體基因組的平均測序深度約為892,一方面表明血細胞中mtDNA的拷貝數(shù)較高,另一方面表明部分源于NUMTs的讀段被比對。然而,動物中NUMTs的總量約為核基因組的0.1%。在梅花鹿基因組中,NUMTs的比例(0.035%)相對較低,表明高度可變的NUMTs讀段被排除掉,這進一步提高了鑒定mtDNA異質(zhì)性點突變的準確性。
圖2 mtDNA上2 265~2 329(65 bp)區(qū)域未被短讀段覆蓋Fig.2 mtDNA region 2 265-2 329(65 bp)uncovered by short reads
本研究共檢測到8個點突變(圖3),包括4種轉(zhuǎn)換和4種顛換(表1)。其中,5個點突變位于蛋白質(zhì)編碼基因(COX1、COX2、ND4和ND5),2個位于tRNASer,1個存在于12SrRNA中。為了驗證NUMTs讀段是否影響點突變的鑒定,通過檢索GenBank中18個梅花鹿線粒體全基因組中相應位點的變化,證實這8個點突變都存在于18個mtDNA基因組中(表1),表明它們是mtDNA特有的單核苷酸多態(tài)位點,而不是由NUMTs引入的。重要的是,C6180T、T7481A和A10909T這3個位點分別導致氨基酸的變化,即:絲氨酸(Ser)脯氨酸(Phe)→亮氨酸(Leu)→脯氨酸(Phe)、亮氨酸(Leu)→谷氨酰胺(Gln)。mtDNA異質(zhì)性點突變的選擇性壓力與組織特異性代謝率、細胞周期和生物能量需求有關(guān)[18],這暗示梅花鹿不同類型的血細胞可能承受不同的選擇壓力。
圖3 8個mtDNA異質(zhì)性點突變可視化比對Fig.3 Visual comparison of 8 mt DNA heteroplasmic point variations
目前,盡管SOLiD測序平臺已不常用,但其已產(chǎn)生大量原始基因組測序數(shù)據(jù),這些數(shù)據(jù)仍然具有較高的科學價值,特別是SOLiD平臺對測序堿基進行顏色編碼校對特性,在利用重測序進行點變異檢測方面具有固有優(yōu)勢。本研究通過生物信息學分析方法充分挖掘一只雄性梅花鹿血細胞全基因組SOLiD測序中短讀長數(shù)據(jù),在mtDNA基因組中鑒定了8個異質(zhì)性點突變,將為利用全基因組測序數(shù)據(jù)鑒定未知的mtDNA異質(zhì)性點變異提供一個基本分析框架。