李高原,王妍然,王 芳,余 佳
中國醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所 北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院 醫(yī)學(xué)分子生物學(xué)國家重點(diǎn)實(shí)驗(yàn)室,北京 100005
表觀轉(zhuǎn)錄組在細(xì)胞、發(fā)育和疾病過程中起到重要作用[1]。在古細(xì)菌、原核生物和真核生物中,被發(fā)現(xiàn)的核糖核苷修飾已有約170種[2]。RNA分子上多樣的修飾意味著充分的調(diào)控潛力,可能調(diào)節(jié)信使RNA(messenger RNA,mRNA)命運(yùn)。
N4-乙酰胞嘧啶修飾(N4-acetylcytidine,ac4C)是mRNA的一種修飾,有助于調(diào)節(jié)mRNA穩(wěn)定性,提高翻譯效率,在核糖體生物發(fā)生及癌等發(fā)生過程中扮演著重要角色[3-4]。N-乙酰基轉(zhuǎn)移酶10(N-acety-ltransferase 10,NAT10)是目前唯一已知的ac4C “writer”蛋白,同時(shí)具有乙酰轉(zhuǎn)移酶活性和RNA結(jié)合活性[5]。NAT10調(diào)節(jié)DNA損傷,癌細(xì)胞的脂肪酸代謝,促進(jìn)胃癌轉(zhuǎn)移,成骨分化,雄性精子發(fā)生等多種功能被揭示[6-10]。在造血發(fā)生、譜系分化及血液系統(tǒng)疾病發(fā)生發(fā)展過程中的作用仍有待研究。
運(yùn)用紫外交聯(lián)免疫沉淀測(cè)序技術(shù)(enhanced UV crosslinking, immunoprecipitation, and high-throughput sequencing,eCLIP-seq),得到人慢性髓蛋白血病細(xì)胞系K562中NAT10結(jié)合的轉(zhuǎn)錄本集合,并通過生物信息學(xué)分析進(jìn)行圖譜描繪,旨在為進(jìn)一步揭示NAT10在造血細(xì)胞中的功能和調(diào)控機(jī)制提供線索。
1.1.1 細(xì)胞:人慢性髓原白血病細(xì)胞系K562(中國醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所細(xì)胞資源中心)。
1.1.2 主要試劑:胎牛血清FBS和PBS(Hyclone公司);RPMI 1640 培養(yǎng)基、TURBOTMDNase、SuperScript Ⅲ、磁珠(Thermo Fisher Scientific公司);4%~12% Bis-Tris, 10-well, 1.0 mm小型蛋白質(zhì)凝膠、protein A beads(Invitrogen公司);特異性抗體(Abcam公司);裂解緩沖液(50 mmol/L Tris-HCl pH 7.4, 100 mmol/L NaCl, 1% NP-40, 0.1% SDS, 0.5% sodium deoxycholate and 1×protease inhibitor cocktail, Roche公司);Wash buffer(Tris-HCl, MgCl2, NaCl, ddH20);ExoSAP-IT(Affymetrix公司);測(cè)序(Novogene公司)
1.2.1 K562細(xì)胞的培養(yǎng):將K562細(xì)胞培養(yǎng)于含10%胎牛血清FBS的RPMI 1640培養(yǎng)基中,控制匯合度在30%左右,置于37 ℃、含5% CO2的細(xì)胞箱中。每隔2~3 d對(duì)其傳代。傳代時(shí)收集細(xì)胞懸液,輕輕吹打,混懸成單細(xì)胞懸液,離心后棄去培養(yǎng)基,用含F(xiàn)BS的新鮮1640培養(yǎng)重懸,以1∶3~1∶4的比例傳代。保證K562細(xì)胞處于良好的增殖狀態(tài)。
1.2.2 紫外交聯(lián)免疫沉淀的檢測(cè):首先收取新鮮的K562細(xì)胞,進(jìn)行離心,用3 mL冷PBS重懸,鋪于10 cm平皿中,在150 mJ和254 nm波長(zhǎng)下進(jìn)行紫外照射交聯(lián),穩(wěn)定蛋白與RNA的結(jié)合。然后將細(xì)胞制成單細(xì)胞沉淀,在液氮中快速冷凍,并在80 ℃保存。用裂解緩沖液裂解細(xì)胞沉淀,然后進(jìn)一步進(jìn)行核糖核酸酶A(ribonuclease A,RNase A)和脫氧核糖核酸酶Ⅰ(deoxyribonuclease Ⅰ,DNase Ⅰ)酶解處理,酶解產(chǎn)物與特異性抗體在4 ℃下孵育過夜,用于免疫沉淀,向制備好的抗原抗體混合物中投入40 μL protein A磁珠并孵育2 h后,用洗脫緩沖液洗滌抗原-抗體-磁珠復(fù)合物3次,用磁力架去除磁珠,在獲得的上清液中加入末端修復(fù)試劑和3′接頭進(jìn)行連接反應(yīng),使用4%~12% Bis-Tris蛋白凝膠進(jìn)行目的片段篩選,然后轉(zhuǎn)印到硝化纖維素膜上[11]。
1.2.3 建庫與測(cè)序:切割目的條帶區(qū)域(約200~300 nt),用溶膠緩沖液溶解釋放膠內(nèi)核酸,并使用蛋白酶K(NEB)處理去除與目的核酸交聯(lián)的蛋白質(zhì)。對(duì)提取的RNA樣品,使用SuperScript Ⅲ反轉(zhuǎn)錄,并用ExoSAP-IT處理以去除多余的寡核苷酸。然后將第二個(gè)DNA接頭(在5′末端包含5個(gè)(N5)或10個(gè)(N10)隨機(jī)堿基聚體(random-mer))連接到cDNA片段3′末端(T4 RNA連接酶,NEB),用磁珠純化連接產(chǎn)物后,進(jìn)去實(shí)時(shí)熒光定量核酸擴(kuò)增檢測(cè)系統(tǒng)(real-time quantitative PCR detecting system,qPCR)擴(kuò)增,通過瓊脂糖凝膠電泳篩選特異性擴(kuò)增的目的片段進(jìn)行測(cè)序[11]。對(duì)于上述cDNA文庫,使用Illumina NovaSeq PE150平臺(tái)進(jìn)行測(cè)序,其鏈特異性配對(duì)末端讀取長(zhǎng)度為150 bp,每個(gè)樣品下機(jī)原始數(shù)據(jù)raw data數(shù)據(jù)量均≥12 G。有兩個(gè)生物學(xué)重復(fù)。
1.2.4 測(cè)序數(shù)據(jù)下載與完整性檢驗(yàn):通過諾禾公司數(shù)據(jù)釋放平臺(tái)官方軟件下載數(shù)據(jù),并使用MD5值算法計(jì)算檢驗(yàn)數(shù)據(jù)完整性,經(jīng)檢驗(yàn),數(shù)據(jù)完整。
1.2.5 數(shù)據(jù)質(zhì)量控制:使用FastQC軟件對(duì)下機(jī)的原始測(cè)序數(shù)據(jù)raw data進(jìn)行質(zhì)量檢驗(yàn)。結(jié)果顯示,每個(gè)堿基的測(cè)序質(zhì)量合格,每條序列的質(zhì)量合格,數(shù)據(jù)GC含量在53%~54%,存在接頭序列及過表達(dá)序列的污染,在后續(xù)的處理流程中去除接頭序列和PCR 擴(kuò)增重復(fù)序列。
1.2.6 原始數(shù)據(jù)過濾:使用自定義腳本對(duì)庫中不同的內(nèi)嵌barcode進(jìn)行分割,通過python腳本將random-mer截取,放在序列名稱中以供后續(xù)處理使用。使用cutadapt軟件(v1.14)去除低質(zhì)量序列和接頭序列,丟棄小于18 bp的序列。再次使用FastQC軟件對(duì)過濾后的干凈數(shù)據(jù)clean data進(jìn)行質(zhì)量檢驗(yàn)。
1.2.7序列比對(duì):首先使用STAR(v2.7.3)將重復(fù)序列比對(duì)到人類基因組重復(fù)原件序列數(shù)據(jù)庫RepBase (https://www.girinst.org/)并分離去除。使用Bowtie2(v2.2.9) 將clean data比對(duì)到43 kb人類核糖體DNA完整重復(fù)單元(GenBank U13369.1),使用IGV(v2.8.2)軟件將bam文件峰的覆蓋度可視化和標(biāo)準(zhǔn)化,根據(jù)已有研究結(jié)果對(duì)數(shù)據(jù)質(zhì)量做進(jìn)一步評(píng)估。使用STAR (v2.7.3)將clean data比對(duì)到人類參考基因組(GENCODE Release 36(GRCh38.p13)),得到唯一比對(duì)的序列。
1.2.8 樣本重復(fù)性檢驗(yàn)與重復(fù)樣本合并:使用 deeptools(v3.5.1)軟件檢驗(yàn)兩重復(fù)樣本相關(guān)性,將比對(duì)到參考基因組的bam文件結(jié)果以每1 000個(gè)堿基為一個(gè)窗口進(jìn)行區(qū)域劃分,計(jì)算Pearson相關(guān)系數(shù)。計(jì)算結(jié)果顯示,對(duì)應(yīng)重復(fù)的相關(guān)性很高。因而使用SAMtools (v1.3.1)‘merge’命令合并兩個(gè)生物學(xué)重復(fù)?;诠蚕硐嗤碾S機(jī)序列,將PCR重復(fù)序列使用自定義python腳本去除,使用random-mer識(shí)別并留下可用數(shù)據(jù)。
1.2.9 峰的識(shí)別:峰的識(shí)別使用CLIPper軟件。峰的標(biāo)準(zhǔn)化通過Perl語言腳本實(shí)現(xiàn),參考(https://github.com/YeoLab/eclip)。特異峰的篩選采用的閾值為log10(P-value)< -3且log2(fold change)> 3。
1.2.10 峰的注釋及下游分析:對(duì)NAT10在人類基因組的結(jié)合轉(zhuǎn)錄本的注釋由R包ChIPseeker實(shí)現(xiàn)。NAT10結(jié)合位點(diǎn)的motif使用bedtools(v2.17.0)和MEME軟件進(jìn)行處理和分析。NAT10結(jié)合在mRNA上的位置由R包Guitar進(jìn)行計(jì)算。NAT10結(jié)合基因的基因本體論(gene ontology,GO)功能富集分析通過Metascape軟件實(shí)現(xiàn)。
兩個(gè)重復(fù)中對(duì)應(yīng)樣本Pearson相關(guān)系數(shù)均大于0.9。對(duì)于IP組和input組數(shù)據(jù),兩者相關(guān)性水平較低(圖1A)。Reads在18S核糖體RNA(ribosomal RNA, rRNA)區(qū)域有明顯的富集峰,在28S rRNA區(qū)域幾乎沒有觀察到IP的富集(圖1B)。
A.heatmap of data repeatability and correlation of sequencing read from eCLIP-seq experiments, all samples compared, values were depth normalized and variance stabilized, pearson correlation coefficient (r) inset; B.browser views of peak-calling result of eCLIP-seq read mapping to ribosome DNA
NAT10結(jié)合位點(diǎn)分布在不同類型的基因,絕大多數(shù)為蛋白質(zhì)編碼基因(protein coding gene)(占比73.7%),部分為長(zhǎng)鏈非編碼RNA(long non-coding RNA,lncRNA)(占比23.44%),少量是假基因(pseudogene)(占比2.62%),也有極少量結(jié)合在其他類型的基因上(圖2A)。對(duì)其中激活轉(zhuǎn)錄因子 2基因(activating transcription factor 2,ATF2)、叉頭盒 N3基因(forkhead box N3,FOXN3)兩個(gè)蛋白質(zhì)編碼基因上的結(jié)合位點(diǎn)進(jìn)行可視化展示(圖2B)。NAT10 peaks識(shí)別到的“TCT” motif具有相對(duì)最高的顯著性水平(圖2C)。
A.NAT10 binding sites distribution on different gene types revealed by eCLIP-seq; B.the NAT10 peaks bound sites in ATF2, FOXN3; C.motif identified within NAT10 peaks
NAT10主要結(jié)合在mRNA的3′非翻譯區(qū)域(3′untranslated region,3′UTR) (圖3A)。轉(zhuǎn)錄本3′UTR區(qū)域被結(jié)合的916個(gè)基因在染色質(zhì)結(jié)合、細(xì)胞對(duì)DNA損傷刺激的反應(yīng)、DNA代謝過程的調(diào)節(jié)、染色體區(qū)域等條目有顯著富集,包含肌動(dòng)蛋白樣 6A基因(actin like 6A,ACTL6A)、絲氨酸/蘇氨酸激酶基因(ATM serine/threonine kinase,ATM)、DNA損傷修復(fù)相關(guān)乳腺癌易感基因(BRCA1 DNA repair associated,BRCA1)、脆性 X 信使核糖核蛋白 1基因(fragile X messenger ribonucleoprotein 1,FMR1)、增殖細(xì)胞核抗原基因(proliferating cell nuclear antigen,PCNA)、賴氨酸乙酰轉(zhuǎn)移酶 2B(lysine acetyltransferase 2B,KAT2B)、含溴結(jié)構(gòu)域4基因(bromodomain containing 4,BRD4)等重要基因(圖3B)。
NAT10結(jié)合在mRNA 5′非翻譯區(qū)域(5′ untranslated region,5′UTR)的61個(gè)基因富集到涉及轉(zhuǎn)錄調(diào)節(jié)復(fù)合物、細(xì)胞質(zhì)核糖核蛋白顆粒、核輸出、連接酶活性、剪接體復(fù)合物等功能條目;結(jié)合到編碼區(qū)域(coding sequences,CDS)的321個(gè)基因富集到氧化磷酸化、細(xì)胞內(nèi)蛋白轉(zhuǎn)運(yùn)、染色體區(qū)域、mRNA代謝過程、RNA剪接調(diào)控等相關(guān)功能條目(圖3C)。
A.distribution of NAT10 binding sites across protein coding mRNA segments; B.functions prediction of protein coding genes on mRNA 3′UTR regions; C.functions prediction of protein coding genes on mRNA 5′UTR/CDS regions
隨著表觀遺傳學(xué)的發(fā)展和多組學(xué)研究方法的應(yīng)用,新的測(cè)序技術(shù)不斷被開發(fā)并廣泛投入到生命科學(xué)領(lǐng)域研究工作中,人體各個(gè)系統(tǒng)中的生命過程和運(yùn)作方式不斷被揭示,生理或病理?xiàng)l件下的不同細(xì)胞中各種分子調(diào)控機(jī)制也不斷展現(xiàn)。紫外交聯(lián)免疫沉淀測(cè)序技術(shù)(eCLIP-seq)也為研究細(xì)胞內(nèi)RNA內(nèi)何時(shí)何地以何種速率被加工、轉(zhuǎn)運(yùn)和翻譯等調(diào)節(jié)作用提供了更多的可行性。這些調(diào)節(jié)作用的發(fā)現(xiàn)對(duì)于正常的人體生理學(xué)的完善以及疾病的治療至關(guān)重要[11]。
對(duì)人慢性髓原白血病細(xì)胞系K562中NAT10的eCLIP-seq建庫測(cè)序及數(shù)據(jù)的生物信息學(xué)分析,完成了NAT10在人造血細(xì)胞中結(jié)合RNA圖譜的初步描繪。
兩重復(fù)相關(guān)性較高,IP樣本相對(duì)input有較強(qiáng)特異性,NAT10在核糖體RNA 18S區(qū)域發(fā)生有效的特異性結(jié)合,與之前的研究中ac4C修飾的區(qū)域特征相符[12]。質(zhì)量控制軟件評(píng)估結(jié)果及上游處理過程中數(shù)據(jù)量變化統(tǒng)計(jì)顯示,數(shù)據(jù)質(zhì)量良好。NAT10識(shí)別的motif與之前報(bào)道的HIV病毒中NAT10 的PAR-CLIP數(shù)據(jù)分析結(jié)果一致[13]。
NAT10主要結(jié)合于蛋白質(zhì)編碼基因,可能是通過與DNA損傷修復(fù)相關(guān)基因的mRNA 3′UTR區(qū)域結(jié)合,實(shí)現(xiàn)基因表達(dá)調(diào)控作用。
通過NAT10結(jié)合的RNA圖譜,有望進(jìn)一步研究其結(jié)合發(fā)揮調(diào)控作用的機(jī)制,找到早期紅系發(fā)育的關(guān)鍵調(diào)控因素,揭示NAT10的結(jié)合及可能介導(dǎo)的乙?;揎椩谡:蛺盒栽煅械呢暙I(xiàn)。利用其失調(diào)尋找血液系統(tǒng)惡性腫瘤的治療靶點(diǎn),開辟新的病理生理學(xué)方向和提出治療方案,將會(huì)對(duì)進(jìn)一步認(rèn)識(shí)人類造血發(fā)育及優(yōu)化紅系相關(guān)疾病的診斷與治療方案具有十分重要的意義。